WEBVTT

00:00:00.000 --> 00:00:10.700
[MUZYKA].

00:00:10.700 --> 00:00:12.770
>> Cześć. Nazywam się Umachandar,

00:00:12.770 --> 00:00:15.510
Jestem menedżerem programu
w zespole programu SQL Server.

00:00:15.510 --> 00:00:19.065
Dzisiaj mam zamiar pokazać
Ci, jak można wysyłać zapytania

00:00:19.065 --> 00:00:24.120
Dane systemu plików HDFS z programu SQL Server
w klastrze dużych zbiorów danych.

00:00:24.120 --> 00:00:28.010
Więc co mam tutaj
jest Azure Data Studio.

00:00:28.010 --> 00:00:32.900
Po pierwsze, mam zamiar połączyć się
SQL Server wystąpienie wzorca,

00:00:32.900 --> 00:00:36.360
który działa wewnątrz
klaster dużych zbiorów danych.

00:00:38.180 --> 00:00:41.360
Teraz mogę pracować z

00:00:41.360 --> 00:00:46.850
Obie bazy danych MySQL
i danych w systemie plików HDFS.

00:00:46.850 --> 00:00:48.640
Więc jak można zobaczyć tutaj,

00:00:48.640 --> 00:00:52.070
Mam regularne
Bazy danych programu SQL Server

00:00:52.070 --> 00:00:57.875
i mogę również pójść i
przeglądać dane w systemie plików HDFS.

00:00:57.875 --> 00:01:02.570
Przyjrzyjmy się więc, co
dane, które zamierzam zbadać.

00:01:02.570 --> 00:01:06.970
Więc mam plik tutaj
nazywane strumieniami kliknięcia sieci Web.

00:01:06.970 --> 00:01:10.985
Więc ten plik zawiera
dane o użytkownikach,

00:01:10.985 --> 00:01:14.180
jak zakupione przedmioty,

00:01:14.180 --> 00:01:19.160
ile razy klikali na
określonej kategorii itd.

00:01:19.160 --> 00:01:24.120
Przyjrzyjmy się więc, jak
mogą wysyłać zapytania do tych danych.

00:01:25.330 --> 00:01:28.205
Więc mam Notebook tutaj.

00:01:28.205 --> 00:01:30.829
Po pierwsze, zamierzam ustawić kontekst

00:01:30.829 --> 00:01:34.000
notebooka do bazy danych.

00:01:34.000 --> 00:01:38.535
Co to jest sprzedaż, jak
pokazano w tym przykładzie.

00:01:38.535 --> 00:01:43.354
Tak dalej, w celu
kwerendy danych w systemie plików HDFS,

00:01:43.354 --> 00:01:48.880
Musimy stworzyć coś
nazywane zewnętrznym źródłem danych.

00:01:48.880 --> 00:01:52.790
Więc jest to obiekt w
bazy danych, która mówi

00:01:52.790 --> 00:01:57.140
SQL Server gdzie
Przechowywane są dane systemu plików HDFS.

00:01:57.140 --> 00:01:59.940
W tym przykładzie

00:01:59.940 --> 00:02:04.190
Ten ciąg tutaj, który
zaczyna się od SQL HDFS,

00:02:04.190 --> 00:02:10.130
reprezentuje dane systemu plików HDFS
w klastrze wielkich zbiorów danych.

00:02:10.130 --> 00:02:14.450
Przejdźmy więc najpierw i
utworzyć to źródło danych.

00:02:14.450 --> 00:02:17.870
Więc po utworzeniu
źródła danych,

00:02:17.870 --> 00:02:21.905
należy określić, jaki format pliku

00:02:21.905 --> 00:02:27.410
Źródło danych obsługuje i
co masz zamiar zbadać.

00:02:27.410 --> 00:02:29.375
Więc w tym przypadku,

00:02:29.375 --> 00:02:34.910
Zamierzam zbadać dane, które
przebywa w plikach parkiet.

00:02:34.910 --> 00:02:40.485
Tak więc format parkietu
plik jest określony w tym miejscu.

00:02:40.485 --> 00:02:45.960
Więc najpierw śmiało i
utworzyć ten obiekt formatu pliku.

00:02:46.090 --> 00:02:52.640
Więc teraz następnym krokiem jest stworzenie
tabeli zewnętrznej w programie SQL Server.

00:02:52.640 --> 00:02:57.020
Oznacza to, że kolumny
które idą do zapytania

00:02:57.020 --> 00:03:02.165
z plików, a także
lokalizację plików.

00:03:02.165 --> 00:03:03.710
Więc w tym przypadku,

00:03:03.710 --> 00:03:08.180
Zamierzam zbadać wszystkie
danych z tego katalogu.

00:03:08.180 --> 00:03:12.520
Więc szybko Zobaczmy
Co zawiera.

00:03:12.520 --> 00:03:16.670
Więc rozwinę katalog tutaj.

00:03:16.670 --> 00:03:20.780
Jak widać, istnieją
trzy pliki parkiet tutaj.

00:03:20.780 --> 00:03:23.660
Więc teraz mamy zamiar zobaczyć, jak

00:03:23.660 --> 00:03:26.510
można zbadać te
Pliki z SQL Server.

00:03:26.510 --> 00:03:31.310
Więc mam teraz stworzył zewnętrzną
Obiekt tabeli w programie SQL Server,

00:03:31.310 --> 00:03:37.920
który wskazuje na katalog
który zawiera pliki parkiet.

00:03:38.440 --> 00:03:43.680
Po pierwsze, spójrzmy na
niektóre wiersze z pliku.

00:03:43.970 --> 00:03:48.675
Więc uruchomić zapytanie SELECT
z górną wskazówkę,

00:03:48.675 --> 00:03:51.465
i widzę 10 rzędów.

00:03:51.465 --> 00:03:57.470
To w zasadzie podglądów wierszy
które są odczytywane z tych plików.

00:03:57.470 --> 00:04:01.775
Więc można również uruchomić lekko
bardziej złożonych zapytań

00:04:01.775 --> 00:04:06.920
jak tylko zrobić liczyć na
liczbę wierszy w tabeli.

00:04:06.920 --> 00:04:13.380
W tym przypadku uzyskuję wynik
z powrotem i to około 6 000 000.

00:04:14.210 --> 00:04:17.705
Można również uruchomić więcej
zaawansowanych zapytań.

00:04:17.705 --> 00:04:20.720
Mam tu zapytanie co jest

00:04:20.720 --> 00:04:25.505
próbuje znaleźć Top 10
użytkowników z najwięcej kliknięć.

00:04:25.505 --> 00:04:27.850
Więc Uruchommy tę kwerendę.

00:04:27.850 --> 00:04:29.535
Jak można zobaczyć tutaj,

00:04:29.535 --> 00:04:31.325
teraz jesteś w stanie uruchomić

00:04:31.325 --> 00:04:35.375
regularne zapytania SQL
danych w systemie plików HDFS.

00:04:35.375 --> 00:04:37.910
Więc można w zasadzie
traktować dane w

00:04:37.910 --> 00:04:42.665
HDFS tak, jakby były lokalne
tabel w bazie danych.

00:04:42.665 --> 00:04:46.900
W tym przypadku można użyć
funkcje programu SQL Server,

00:04:46.900 --> 00:04:50.060
i składni oraz
funkcje dostępne w

00:04:50.060 --> 00:04:53.990
SQL ServerAby napisać zapytanie.

00:04:53.990 --> 00:04:56.060
Tak jak widać,

00:04:56.060 --> 00:05:03.200
teraz mogę w zasadzie uzyskać
wyniki z plików w systemie HDFS.

00:05:03.200 --> 00:05:07.360
Można również wykonać
innych wspólnych operacji.

00:05:07.360 --> 00:05:10.275
Na przykład chcę

00:05:10.275 --> 00:05:13.815
Łączenie danych ClickStream
z niektórymi danymi inwentarza,

00:05:13.815 --> 00:05:17.000
który również zamieszkuje
w plikach parkiet

00:05:17.000 --> 00:05:21.800
w systemie HDFS, który jest faktycznie pokazany tutaj.

00:05:21.800 --> 00:05:24.140
Więc niech uruchomić tę kwerendę.

00:05:24.140 --> 00:05:28.400
W tym przypadku, co robimy
w programie SQL Server jest faktycznie

00:05:28.400 --> 00:05:34.170
Łączenie dwóch różnych zestawów danych
które zamieszkują w systemie HDFS.

00:05:34.270 --> 00:05:40.790
Jesteś w stanie określić, że w
zapytanie SQL przy użyciu składni SQL,

00:05:40.790 --> 00:05:44.275
i można uzyskać
wyniki z tej kwerendy.

00:05:44.275 --> 00:05:48.705
W tym przykładzie jesteśmy
faktycznie będzie SQL Server,

00:05:48.705 --> 00:05:51.180
odczytywanie plików z systemu HDFS,

00:05:51.180 --> 00:05:53.845
przekazywanie danych w plikach,

00:05:53.845 --> 00:05:56.195
wykonywanie operacji sprzężenia

00:05:56.195 --> 00:06:00.425
i robi dodatkowe
Agregacje w tym przypadku,

00:06:00.425 --> 00:06:03.785
jak zliczanie liczby kliknięć,

00:06:03.785 --> 00:06:08.790
Dodawanie spisu
wartości i tak dalej.

00:06:09.500 --> 00:06:11.640
Ostatni, ale nie najmniej,

00:06:11.640 --> 00:06:14.250
można również zbadać

00:06:14.250 --> 00:06:17.480
Ten HDFS dane i przyłączyć się ono

00:06:17.480 --> 00:06:20.405
z innymi danymi siedząc
w bazie danych.

00:06:20.405 --> 00:06:22.175
W tym przykładzie

00:06:22.175 --> 00:06:25.415
rzeczywiście można zbadać
Pliki parkietu

00:06:25.415 --> 00:06:30.120
i łączyć się z tabelą w programie SQL Server.

00:06:36.560 --> 00:06:39.270
Jak można zobaczyć teraz,

00:06:39.270 --> 00:06:44.170
integrację w programie SQL Server
Big Data Cluster sprawia, że bardzo

00:06:44.170 --> 00:06:49.215
łatwe do dołączenia do danych
z HDFS do innych danych,

00:06:49.215 --> 00:06:52.214
albo w systemie HDFS, albo w innych tabelach,

00:06:52.214 --> 00:06:55.180
i uzyskać informacje bardzo łatwo.

00:06:55.180 --> 00:06:58.840
Więc teraz można faktycznie zbudować
aplikacje, które kwerendy danych

00:06:58.840 --> 00:07:02.790
z różnych źródeł danych
bardzo łatwo. Dziękuję.

00:07:02.790 --> 00:07:17.500
MUZYKI

