WEBVTT

00:00:00.000 --> 00:00:10.700
[MUSICA].

00:00:10.700 --> 00:00:12.770
>> Ciao. Mi chiamo Umachandar,

00:00:12.770 --> 00:00:15.510
Sono un Program Manager
nel team di SQL Server.

00:00:15.510 --> 00:00:19.065
Oggi ho intenzione di mostrare
come è possibile eseguire query

00:00:19.065 --> 00:00:24.120
Dati HDFS da SQL Server
in un cluster di Big Data.

00:00:24.120 --> 00:00:28.010
Quindi quello che ho qui
è Azure Data Studio.Is Azure Data Studio.

00:00:28.010 --> 00:00:32.900
In primo luogo, ho intenzione di connettersi a
l'istanza master di SQL Server,

00:00:32.900 --> 00:00:36.360
che è in esecuzione all'interno
cluster di Big Data.

00:00:38.180 --> 00:00:41.360
Ora da qui, posso lavorare con

00:00:41.360 --> 00:00:46.850
entrambi i database MySQL
e i dati in HDFS.

00:00:46.850 --> 00:00:48.640
Quindi, come potete vedere qui,

00:00:48.640 --> 00:00:52.070
Ho il mio regolare
Database di SQL Server

00:00:52.070 --> 00:00:57.875
e posso anche andare e
sfogliare i dati in HDFS.

00:00:57.875 --> 00:01:02.570
Quindi diamo prima un'occhiata a ciò che
dati ho intenzione di interrogare.

00:01:02.570 --> 00:01:06.970
Quindi ho un file qui
chiamato Flussi clic sul Web.

00:01:06.970 --> 00:01:10.985
Quindi questo file contiene
dati sugli utenti,

00:01:10.985 --> 00:01:14.180
come quello che gli oggetti che hanno acquistato,

00:01:14.180 --> 00:01:19.160
quante volte hanno fatto clic su
una particolare categoria e così via.

00:01:19.160 --> 00:01:24.120
Quindi diamo un'occhiata a come si
può interrogare questi dati.

00:01:25.330 --> 00:01:28.205
Quindi ho un taccuino qui.

00:01:28.205 --> 00:01:30.829
In primo luogo, ho intenzione di impostare il contesto

00:01:30.829 --> 00:01:34.000
del blocco appunti al database.

00:01:34.000 --> 00:01:38.535
Che sono le vendite, come
come illustrato in questo esempio.

00:01:38.535 --> 00:01:43.354
Quindi, il prossimo, al fine di
interrogare i dati in HDFS,

00:01:43.354 --> 00:01:48.880
abbiamo bisogno di creare qualcosa
chiamata origine dati esterna.

00:01:48.880 --> 00:01:52.790
Quindi è un oggetto nel
database che racconta

00:01:52.790 --> 00:01:57.140
SQL Server in cui il
I dati HDFS risiedono.

00:01:57.140 --> 00:01:59.940
Quindi in questo esempio,

00:01:59.940 --> 00:02:04.190
questa stringa qui che
inizia con SQL HDFS,

00:02:04.190 --> 00:02:10.130
rappresenta i dati HDFS
nel cluster di Big Data.

00:02:10.130 --> 00:02:14.450
Quindi andiamo prima e
creare questa origine dati.

00:02:14.450 --> 00:02:17.870
Quindi, dopo aver creato
l'origine dati,

00:02:17.870 --> 00:02:21.905
è necessario specificare il formato di file

00:02:21.905 --> 00:02:27.410
l'origine dati supporta e
quello che si sta andando a interrogare.

00:02:27.410 --> 00:02:29.375
Quindi, in questo caso,

00:02:29.375 --> 00:02:34.910
Ho intenzione di interrogare i dati che
è che risieda nei file di parquet.

00:02:34.910 --> 00:02:40.485
Quindi il formato del parquet
file è specificato qui.

00:02:40.485 --> 00:02:45.960
Quindi cerchiamo di prima andare avanti e
creare questo oggetto formato di file.

00:02:46.090 --> 00:02:52.640
Così ora il passo successivo è quello di creare
una tabella esterna in SQL Server.

00:02:52.640 --> 00:02:57.020
Quindi questo rappresenta le colonne
che stanno per interrogare

00:02:57.020 --> 00:03:02.165
dai file e anche
percorso dei file.

00:03:02.165 --> 00:03:03.710
Quindi, in questo caso,

00:03:03.710 --> 00:03:08.180
Ho intenzione di interrogare tutti i
dati da questa directory.

00:03:08.180 --> 00:03:12.520
Quindi vediamo rapidamente
cosa contiene.

00:03:12.520 --> 00:03:16.670
Quindi espanderò la directory qui.

00:03:16.670 --> 00:03:20.780
Come potete vedere, ci sono
tre file di parquet qui.

00:03:20.780 --> 00:03:23.660
Così ora stiamo andando a vedere come

00:03:23.660 --> 00:03:26.510
è possibile interrogare quelli
file da SQL Server.

00:03:26.510 --> 00:03:31.310
Così ho creato un esterno
oggetto table in SQL Server,

00:03:31.310 --> 00:03:37.920
che punta alla directory
che contiene i file di parquet.

00:03:38.440 --> 00:03:43.680
In primo luogo, diamo un'occhiata a
alcune righe del file.

00:03:43.970 --> 00:03:48.675
Quindi eseguo una query di selezione
con il suggerimento superiore,

00:03:48.675 --> 00:03:51.465
e vedo 10 righe.

00:03:51.465 --> 00:03:57.470
Questo fondamentalmente visualizza in anteprima le righe
che vengono letti da tali file.

00:03:57.470 --> 00:04:01.775
Così si può anche correre un po'
query più complesse

00:04:01.775 --> 00:04:06.920
come solo fare un conteggio sul
numero di righe nella tabella.

00:04:06.920 --> 00:04:13.380
In questo caso, ottengo un risultato
indietro ed è di circa sei milioni.

00:04:14.210 --> 00:04:17.705
È inoltre possibile eseguire più
query avanzate.

00:04:17.705 --> 00:04:20.720
Ho una domanda qui che è

00:04:20.720 --> 00:04:25.505
cercando di trovare la top 10
utenti con il maggior numero di clic.

00:04:25.505 --> 00:04:27.850
Quindi cerchiamo di eseguire quella query.

00:04:27.850 --> 00:04:29.535
Come potete vedere qui,

00:04:29.535 --> 00:04:31.325
ora si è in grado di eseguire

00:04:31.325 --> 00:04:35.375
query SQL regolari
rispetto ai dati in HDFS.

00:04:35.375 --> 00:04:37.910
Quindi si può fondamentalmente
trattare i dati in

00:04:37.910 --> 00:04:42.665
HDFS come se fossero locali
tabelle nel database.

00:04:42.665 --> 00:04:46.900
In questo caso, posso utilizzare il
funzionalità di SQL Server,

00:04:46.900 --> 00:04:50.060
e la sintassi, e la
funzioni disponibili in

00:04:50.060 --> 00:04:53.990
SQL Server per scrivere la query.

00:04:53.990 --> 00:04:56.060
Quindi, come potete vedere,

00:04:56.060 --> 00:05:03.200
ora posso fondamentalmente ottenere il
risultati dei file in HDFS.

00:05:03.200 --> 00:05:07.360
È inoltre possibile eseguire
altre operazioni congiunte.

00:05:07.360 --> 00:05:10.275
Ad esempio, voglio

00:05:10.275 --> 00:05:13.815
combinare i dati ClickStream
con alcuni dati di inventario,

00:05:13.815 --> 00:05:17.000
che è anche residenti
nei file di Parquet

00:05:17.000 --> 00:05:21.800
in HDFS che è effettivamente mostrato qui.

00:05:21.800 --> 00:05:24.140
Quindi cerchiamo di eseguire questa query.

00:05:24.140 --> 00:05:28.400
In questo caso, quello che stiamo facendo
in SQL Server è in realtà

00:05:28.400 --> 00:05:34.170
unione di due set di dati diversi
che risiedono nell'HDFS.

00:05:34.270 --> 00:05:40.790
È possibile specificare che in
una query SQL utilizzando la sintassi SQL,

00:05:40.790 --> 00:05:44.275
e si può ottenere il
risultati di tale query.

00:05:44.275 --> 00:05:48.705
In questo esempio, siamo
in realtà andare a SQL Server,

00:05:48.705 --> 00:05:51.180
leggere i file da HDFS,

00:05:51.180 --> 00:05:53.845
passando i dati nei file,

00:05:53.845 --> 00:05:56.195
esecuzione delle operazioni di join

00:05:56.195 --> 00:06:00.425
e facendo ulteriori
aggregazioni in questo caso,

00:06:00.425 --> 00:06:03.785
come contare il numero di clic,

00:06:03.785 --> 00:06:08.790
aggiunta dell'inventario
valori e così via.

00:06:09.500 --> 00:06:11.640
Ultimo ma non meno importante,

00:06:11.640 --> 00:06:14.250
è anche possibile eseguire query

00:06:14.250 --> 00:06:17.480
questi dati HDFS e unirsi ad esso

00:06:17.480 --> 00:06:20.405
con altri dati seduti
nel database.

00:06:20.405 --> 00:06:22.175
Quindi in questo esempio,

00:06:22.175 --> 00:06:25.415
si può effettivamente interrogare
i file di Parquet

00:06:25.415 --> 00:06:30.120
e partecipare con la tabella in SQL Server.

00:06:36.560 --> 00:06:39.270
Come potete vedere ora,

00:06:39.270 --> 00:06:44.170
l'integrazione in SQL Server
Big Data Cluster lo rende molto

00:06:44.170 --> 00:06:49.215
facile per voi di unire i dati
dall'HDFS ad altri dati,

00:06:49.215 --> 00:06:52.214
sia in HDFS o in altre tabelle,

00:06:52.214 --> 00:06:55.180
e ottenere le informazioni molto facilmente.

00:06:55.180 --> 00:06:58.840
Così ora si può effettivamente costruire
applicazioni che eseguono query sui dati

00:06:58.840 --> 00:07:02.790
da diverse fonti di dati
molto facilmente. Grazie.

00:07:02.790 --> 00:07:17.500
[MUSICA]

