WEBVTT

00:00:00.000 --> 00:00:10.700
[MÚSICA].

00:00:10.700 --> 00:00:12.770
>> Oi. Meu nome é Umachandar,

00:00:12.770 --> 00:00:15.510
Sou gerente de programa
na equipe do Servidor SQL.

00:00:15.510 --> 00:00:19.065
Hoje eu vou mostrar
você como você pode consultar

00:00:19.065 --> 00:00:24.120
Dados hdfs do servidor SQL
em um cluster de big data.

00:00:24.120 --> 00:00:28.010
Então, o que eu tenho aqui
é aZure Data Studio.

00:00:28.010 --> 00:00:32.900
Primeiro, vou me conectar a
a instância Master do Servidor SQL,

00:00:32.900 --> 00:00:36.360
que está correndo para dentro
o cluster de big data.

00:00:38.180 --> 00:00:41.360
Agora, a partir daqui, eu posso trabalhar com

00:00:41.360 --> 00:00:46.850
ambas as bases de dados MySQL
e os dados no HDFS.

00:00:46.850 --> 00:00:48.640
Então, como você pode ver aqui,

00:00:48.640 --> 00:00:52.070
Eu tenho o meu regular
Bancos de dados do SQL Server

00:00:52.070 --> 00:00:57.875
e eu também posso ir e
procurar os dados no HDFS.

00:00:57.875 --> 00:01:02.570
Então, vamos primeiro olhar para o que
dados que vou consultar.

00:01:02.570 --> 00:01:06.970
Então, eu tenho um arquivo aqui
chamado Web Click Streams.

00:01:06.970 --> 00:01:10.985
Assim, este arquivo contém
dados sobre os usuários,

00:01:10.985 --> 00:01:14.180
como quais itens eles compraram,

00:01:14.180 --> 00:01:19.160
quantas vezes eles clicaram em
uma categoria particular, e assim por diante.

00:01:19.160 --> 00:01:24.120
Então, vamos ver como você
pode consultar esses dados.

00:01:25.330 --> 00:01:28.205
Então, eu tenho um caderno aqui.

00:01:28.205 --> 00:01:30.829
Primeiro, vou definir o contexto.

00:01:30.829 --> 00:01:34.000
do caderno para o banco de dados.

00:01:34.000 --> 00:01:38.535
Que são as vendas, como
mostrado neste exemplo.

00:01:38.535 --> 00:01:43.354
Então, a seguir, a fim de
consultar os dados no HDFS,

00:01:43.354 --> 00:01:48.880
precisamos criar algo
chamada fonte de dados externas.

00:01:48.880 --> 00:01:52.790
Então é um objeto no
banco de dados que diz

00:01:52.790 --> 00:01:57.140
SQL Server onde o
Os dados do HDFS residem.

00:01:57.140 --> 00:01:59.940
Então, neste exemplo,

00:01:59.940 --> 00:02:04.190
esta corda aqui que
começa com SQL HDFS,

00:02:04.190 --> 00:02:10.130
representa os dados do HDFS
no cluster de big data.

00:02:10.130 --> 00:02:14.450
Então, vamos primeiro e
criar essa fonte de dados.

00:02:14.450 --> 00:02:17.870
Então, depois de criar
a fonte de dados,

00:02:17.870 --> 00:02:21.905
você precisa especificar qual formato de arquivo

00:02:21.905 --> 00:02:27.410
a fonte de dados suporta e
o que você vai consultar.

00:02:27.410 --> 00:02:29.375
Então, neste caso,

00:02:29.375 --> 00:02:34.910
Vou consultar dados que
reside nos arquivos do Parquet.

00:02:34.910 --> 00:02:40.485
Assim, o formato do parquet
arquivo é especificado aqui.

00:02:40.485 --> 00:02:45.960
Então, vamos primeiro em frente e
criar este objeto formato de arquivo.

00:02:46.090 --> 00:02:52.640
Então, agora o próximo passo é criar
uma tabela externa no servidor SQL.

00:02:52.640 --> 00:02:57.020
Então isso representa as colunas
que vão consultar

00:02:57.020 --> 00:03:02.165
dos arquivos e também
a localização dos arquivos.

00:03:02.165 --> 00:03:03.710
Então, neste caso,

00:03:03.710 --> 00:03:08.180
Vou consultar todos os
dados deste Diretório.

00:03:08.180 --> 00:03:12.520
Então, vamos ver rapidamente
o que isso contém.

00:03:12.520 --> 00:03:16.670
Então eu vou expandir o diretório aqui.

00:03:16.670 --> 00:03:20.780
Como você pode ver, há
três arquivos parquet aqui.

00:03:20.780 --> 00:03:23.660
Então, agora vamos ver como

00:03:23.660 --> 00:03:26.510
você pode consultar aqueles
arquivos do SQL Server.

00:03:26.510 --> 00:03:31.310
Então eu criei um externo
objeto de tabela no servidor SQL,

00:03:31.310 --> 00:03:37.920
o que aponta para o Diretório
que contém os arquivos parquet.

00:03:38.440 --> 00:03:43.680
Primeiro, vamos olhar para
algumas linhas do arquivo.

00:03:43.970 --> 00:03:48.675
Então eu faço uma consulta seleto
com a dica superior,

00:03:48.675 --> 00:03:51.465
e vejo 10 filas.

00:03:51.465 --> 00:03:57.470
Isso basicamente visualiza as linhas
que são lidos a partir desses arquivos.

00:03:57.470 --> 00:04:01.775
Assim, você também pode correr um pouco
consultas mais complexas

00:04:01.775 --> 00:04:06.920
como apenas fazer uma contagem no
número de linhas na mesa.

00:04:06.920 --> 00:04:13.380
Neste caso, eu recebo um resultado
voltar e é cerca de seis milhões.

00:04:14.210 --> 00:04:17.705
Você também pode executar mais
consultas avançadas.

00:04:17.705 --> 00:04:20.720
Eu tenho uma consulta aqui que é

00:04:20.720 --> 00:04:25.505
tentando encontrar o top 10
usuários com mais cliques.

00:04:25.505 --> 00:04:27.850
Então, vamos executar essa consulta.

00:04:27.850 --> 00:04:29.535
Como você pode ver aqui,

00:04:29.535 --> 00:04:31.325
agora você é capaz de correr

00:04:31.325 --> 00:04:35.375
consultas regulares do SQL
contra os dados no HDFS.

00:04:35.375 --> 00:04:37.910
Então você pode basicamente
tratar os dados em

00:04:37.910 --> 00:04:42.665
HDFS como se fossem locais
tabelas em seu banco de dados.

00:04:42.665 --> 00:04:46.900
Neste caso, eu posso usar o
características do servidor SQL,

00:04:46.900 --> 00:04:50.060
e a sintaxe, e o
funções disponíveis em

00:04:50.060 --> 00:04:53.990
SQL Server para escrever a consulta.

00:04:53.990 --> 00:04:56.060
Então, como você pode ver,

00:04:56.060 --> 00:05:03.200
agora eu posso basicamente começar a
resultados dos arquivos no HDFS.

00:05:03.200 --> 00:05:07.360
Você também pode se apresentar
outras operações conjuntas.

00:05:07.360 --> 00:05:10.275
Por exemplo, eu quero

00:05:10.275 --> 00:05:13.815
combinar os dados clickstream
com alguns dados de inventário,

00:05:13.815 --> 00:05:17.000
que também está residindo
nos arquivos do Parquet

00:05:17.000 --> 00:05:21.800
em HDFS que é realmente mostrado aqui.

00:05:21.800 --> 00:05:24.140
Então, vamos fazer essa consulta.

00:05:24.140 --> 00:05:28.400
Neste caso, o que estamos fazendo
no servidor SQL é realmente

00:05:28.400 --> 00:05:34.170
juntar dois conjuntos de dados diferentes
que residem no HDFS.

00:05:34.270 --> 00:05:40.790
Você é capaz de especificar que em
uma consulta SQL usando sintaxe SQL,

00:05:40.790 --> 00:05:44.275
e você pode obter o
resultados dessa consulta.

00:05:44.275 --> 00:05:48.705
Neste exemplo,
realmente indo para o servidor SQL,

00:05:48.705 --> 00:05:51.180
lendo os arquivos do HDFS,

00:05:51.180 --> 00:05:53.845
passando os dados nos arquivos,

00:05:53.845 --> 00:05:56.195
realizar as operações de adesão

00:05:56.195 --> 00:06:00.425
e fazer adicional
agregações neste caso,

00:06:00.425 --> 00:06:03.785
como contar o número de cliques,

00:06:03.785 --> 00:06:08.790
adicionando o inventário
valores, e assim por diante.

00:06:09.500 --> 00:06:11.640
Por último, mas não menos importante,

00:06:11.640 --> 00:06:14.250
você também pode consultar

00:06:14.250 --> 00:06:17.480
estes dados hdfs e junte-se a ele

00:06:17.480 --> 00:06:20.405
com outros dados sentados
no seu banco de dados.

00:06:20.405 --> 00:06:22.175
Então, neste exemplo,

00:06:22.175 --> 00:06:25.415
você pode realmente consultar
os arquivos do Parquet

00:06:25.415 --> 00:06:30.120
e junte-se à tabela no Servidor SQL.

00:06:36.560 --> 00:06:39.270
Como você pode ver agora,

00:06:39.270 --> 00:06:44.170
a integração no Servidor SQL
Big Data Cluster torna muito

00:06:44.170 --> 00:06:49.215
fácil para você juntar os dados
de HDFS a outros dados,

00:06:49.215 --> 00:06:52.214
seja no HDFS ou em outras tabelas,

00:06:52.214 --> 00:06:55.180
e obter a informação muito facilmente.

00:06:55.180 --> 00:06:58.840
Então, agora você pode realmente construir
aplicações que consultam dados

00:06:58.840 --> 00:07:02.790
de diferentes fontes de dados
muito facilmente. Obrigado.

00:07:02.790 --> 00:07:17.500
[MÚSICA]

