WEBVTT

00:00:00.000 --> 00:00:10.700
[MUSIK].

00:00:10.700 --> 00:00:12.770
>> Hallo. Mein Name ist Umachandar,

00:00:12.770 --> 00:00:15.510
Ich bin Programmmanager
im SQL Server-Team.

00:00:15.510 --> 00:00:19.065
Heute werde ich zeigen
Wie Sie Abfragen

00:00:19.065 --> 00:00:24.120
HDFS-Daten von SQL Server
in einem Big Data-Cluster.

00:00:24.120 --> 00:00:28.010
Also, was ich hier habe
ist Azure Data Studio.

00:00:28.010 --> 00:00:32.900
Zuerst werde ich eine Verbindung zu
die SQL Server Master-Instanz,

00:00:32.900 --> 00:00:36.360
die innen läuft
Big Data-Cluster.

00:00:38.180 --> 00:00:41.360
Jetzt kann ich von hier aus mit

00:00:41.360 --> 00:00:46.850
Beide MySQL-Datenbanken
und die Daten in HDFS.

00:00:46.850 --> 00:00:48.640
So wie Sie hier sehen können,

00:00:48.640 --> 00:00:52.070
Ich habe meine regulären
SQL Server-Datenbanken

00:00:52.070 --> 00:00:57.875
und ich kann auch gehen und
die Daten in HDFS durchsuchen.

00:00:57.875 --> 00:01:02.570
Schauen wir uns also zuerst an, was
Daten, die ich abfragen werde.

00:01:02.570 --> 00:01:06.970
So habe ich eine Datei hier
Web Click Streams.

00:01:06.970 --> 00:01:10.985
Diese Datei enthält also
Daten über Benutzer,

00:01:10.985 --> 00:01:14.180
wie die Artikel, die sie gekauft haben,

00:01:14.180 --> 00:01:19.160
wie oft haben sie auf geklickt
eine bestimmte Kategorie usw.

00:01:19.160 --> 00:01:24.120
Schauen wir uns also an, wie Sie
können diese Daten abfragen.

00:01:25.330 --> 00:01:28.205
Also habe ich hier ein Notizbuch.

00:01:28.205 --> 00:01:30.829
Zuerst werde ich den Kontext festlegen

00:01:30.829 --> 00:01:34.000
des Notizbuchs in die Datenbank.

00:01:34.000 --> 00:01:38.535
Das ist Umsatz, wie
in diesem Beispiel gezeigt.

00:01:38.535 --> 00:01:43.354
Als nächstes, um
Abfrage der Daten in HDFS,

00:01:43.354 --> 00:01:48.880
wir müssen etwas schaffen
eine externe Datenquelle genannt.

00:01:48.880 --> 00:01:52.790
Es ist also ein Objekt in der
Datenbank, die

00:01:52.790 --> 00:01:57.140
SQL Server, bei dem die
HDFS-Daten befinden sich.

00:01:57.140 --> 00:01:59.940
In diesem Beispiel

00:01:59.940 --> 00:02:04.190
diese Zeichenfolge hier, die
beginnt mit SQL HDFS,

00:02:04.190 --> 00:02:10.130
stellt die HDFS-Daten
im Big Data Cluster.

00:02:10.130 --> 00:02:14.450
Lassen Sie uns also zuerst gehen und
diese Datenquelle erstellen.

00:02:14.450 --> 00:02:17.870
Nachdem Sie also
die Datenquelle,

00:02:17.870 --> 00:02:21.905
Sie müssen angeben, welches Dateiformat

00:02:21.905 --> 00:02:27.410
Die Datenquelle unterstützt und
was Sie abfragen werden.

00:02:27.410 --> 00:02:29.375
In diesem Fall

00:02:29.375 --> 00:02:34.910
Ich werde Daten abfragen, die
befindet sich in Parkettdateien.

00:02:34.910 --> 00:02:40.485
So das Format des Parketts
Datei wird hier angegeben.

00:02:40.485 --> 00:02:45.960
Lassen Sie uns also zuerst
dieses Dateiformatobjekt erstellen.

00:02:46.090 --> 00:02:52.640
Nun ist der nächste Schritt also,
eine externe Tabelle in SQL Server.

00:02:52.640 --> 00:02:57.020
Dies stellt also die Spalten dar, die
die abfragen werden

00:02:57.020 --> 00:03:02.165
aus den Dateien und auch
den Speicherort der Dateien.

00:03:02.165 --> 00:03:03.710
In diesem Fall

00:03:03.710 --> 00:03:08.180
Ich werde alle
Daten aus diesem Verzeichnis.

00:03:08.180 --> 00:03:12.520
Lassen Sie uns also schnell sehen
was darin enthalten ist.

00:03:12.520 --> 00:03:16.670
Also werde ich das Verzeichnis hier erweitern.

00:03:16.670 --> 00:03:20.780
Wie Sie sehen können, gibt es
drei Parkettdateien hier.

00:03:20.780 --> 00:03:23.660
Jetzt werden wir sehen, wie

00:03:23.660 --> 00:03:26.510
Sie können diese abfragen
Dateien aus SQL Server.

00:03:26.510 --> 00:03:31.310
Also habe ich jetzt eine externe
Tabellenobjekt in SQL Server,

00:03:31.310 --> 00:03:37.920
die auf das Verzeichnis verweist
die die Parkettdateien enthält.

00:03:38.440 --> 00:03:43.680
Schauen wir uns zunächst an
einige Zeilen aus der Datei.

00:03:43.970 --> 00:03:48.675
Also führe ich eine Auswahlabfrage aus
mit dem oberen Hinweis,

00:03:48.675 --> 00:03:51.465
und ich sehe 10 Zeilen.

00:03:51.465 --> 00:03:57.470
Dies zeigt im Wesentlichen eine Vorschau der Zeilen
die aus diesen Dateien gelesen werden.

00:03:57.470 --> 00:04:01.775
So können Sie auch leicht laufen
komplexere Abfragen

00:04:01.775 --> 00:04:06.920
wie nur einen Zähler auf die
Anzahl der Zeilen in der Tabelle.

00:04:06.920 --> 00:04:13.380
In diesem Fall erhalte ich ein Ergebnis
und es ist etwa sechs Millionen.

00:04:14.210 --> 00:04:17.705
Sie können auch mehr
erweiterte Abfragen.

00:04:17.705 --> 00:04:20.720
Ich habe hier eine Abfrage, die

00:04:20.720 --> 00:04:25.505
versuchen, die Top 10 zu finden
Benutzer mit den meisten Klicks.

00:04:25.505 --> 00:04:27.850
Lassen Sie uns also diese Abfrage ausführen.

00:04:27.850 --> 00:04:29.535
Wie Sie hier sehen können,

00:04:29.535 --> 00:04:31.325
jetzt können Sie ausführen

00:04:31.325 --> 00:04:35.375
Regelmäßige SQL-Abfragen
gegen die Daten in HDFS.

00:04:35.375 --> 00:04:37.910
So können Sie grundsätzlich
die Daten in

00:04:37.910 --> 00:04:42.665
HDFS, als wären sie lokal
Tabellen in der Datenbank.

00:04:42.665 --> 00:04:46.900
In diesem Fall kann ich die
Funktionen von SQL Server,

00:04:46.900 --> 00:04:50.060
und die Syntax und die
Funktionen verfügbar in

00:04:50.060 --> 00:04:53.990
SQL Server, um die Abfrage zu schreiben.

00:04:53.990 --> 00:04:56.060
So wie Sie sehen können,

00:04:56.060 --> 00:05:03.200
jetzt kann ich im Grunde die
Ergebnisse aus den Dateien in HDFS.

00:05:03.200 --> 00:05:07.360
Sie können auch
anderen gemeinsamen Operationen.

00:05:07.360 --> 00:05:10.275
Ich möchte z. B.

00:05:10.275 --> 00:05:13.815
Kombinieren der ClickStream-Daten
mit einigen Bestandsdaten,

00:05:13.815 --> 00:05:17.000
die auch wohnhaft ist
in den Parkettdateien

00:05:17.000 --> 00:05:21.800
in HDFS, die hier tatsächlich gezeigt wird.

00:05:21.800 --> 00:05:24.140
Lassen Sie uns also diese Abfrage ausführen.

00:05:24.140 --> 00:05:28.400
In diesem Fall, was wir tun
in SQL Server ist tatsächlich

00:05:28.400 --> 00:05:34.170
Verbinden von zwei verschiedenen Datasets
die in HDFS ansässig sind.

00:05:34.270 --> 00:05:40.790
Sie können angeben, dass in
eine SQL-Abfrage mit SQL-Syntax,

00:05:40.790 --> 00:05:44.275
und Sie können die
Ergebnisse aus dieser Abfrage.

00:05:44.275 --> 00:05:48.705
In diesem Beispiel sind wir
tatsächlich zu SQL Server gehen,

00:05:48.705 --> 00:05:51.180
Lesen der Dateien von HDFS,

00:05:51.180 --> 00:05:53.845
Weitergabe der Daten in den Dateien,

00:05:53.845 --> 00:05:56.195
Ausführen der Verknüpfungsvorgänge

00:05:56.195 --> 00:06:00.425
und zusätzliche
Aggregationen in diesem Fall,

00:06:00.425 --> 00:06:03.785
wie das Zählen der Anzahl der Klicks,

00:06:03.785 --> 00:06:08.790
Hinzufügen des Inventars
Werte usw.

00:06:09.500 --> 00:06:11.640
Last but not least,

00:06:11.640 --> 00:06:14.250
Sie können auch Abfragen

00:06:14.250 --> 00:06:17.480
diese HDFS-Daten und verbinden Sie sie

00:06:17.480 --> 00:06:20.405
mit anderen Daten sitzend
in Ihrer Datenbank.

00:06:20.405 --> 00:06:22.175
In diesem Beispiel

00:06:22.175 --> 00:06:25.415
Sie können tatsächlich Abfragen
die Parkettdateien

00:06:25.415 --> 00:06:30.120
und verbinden Sie sich mit der Tabelle in SQL Server.

00:06:36.560 --> 00:06:39.270
Wie Sie jetzt sehen können,

00:06:39.270 --> 00:06:44.170
Die Integration in SQL Server
Big Data Cluster macht es sehr

00:06:44.170 --> 00:06:49.215
einfach für Sie, die Daten zu verbinden
von HDFS zu anderen Daten,

00:06:49.215 --> 00:06:52.214
entweder in HDFS oder anderen Tabellen,

00:06:52.214 --> 00:06:55.180
und erhalten Sie die Informationen sehr einfach.

00:06:55.180 --> 00:06:58.840
So können Sie jetzt tatsächlich bauen
Anwendungen, die Daten abfragen

00:06:58.840 --> 00:07:02.790
aus verschiedenen Datenquellen
sehr einfach. Danke.

00:07:02.790 --> 00:07:17.500
[MUSIK]

