WEBVTT

00:00:00.000 --> 00:00:10.700
[HUDBA].

00:00:10.700 --> 00:00:12.770
>> Ahoj. Jmenuji se Umachandar,

00:00:12.770 --> 00:00:15.510
Jsem správce programů
v týmu serveru SQL Server.

00:00:15.510 --> 00:00:19.065
Dnes se chystám Ukázat
můžete zadat dotaz

00:00:19.065 --> 00:00:24.120
Data HDFS ze serveru SQL Server
ve velkém datovém clusteru.

00:00:24.120 --> 00:00:28.010
Co tu mám
je Azure Data Studio.

00:00:28.010 --> 00:00:32.900
Nejprve se připojím k
instanci serveru SQL Server,

00:00:32.900 --> 00:00:36.360
který běží uvnitř
velký datový cluster.

00:00:38.180 --> 00:00:41.360
Teď můžu pracovat s

00:00:41.360 --> 00:00:46.850
obě databáze MySQL
a data v HDFS.

00:00:46.850 --> 00:00:48.640
Takže, jak vidíte tady,

00:00:48.640 --> 00:00:52.070
Mám svůj pravidelný
Databáze serveru SQL Server

00:00:52.070 --> 00:00:57.875
a taky můžu jít a
Procházet data v systému souborů HDFS.

00:00:57.875 --> 00:01:02.570
Takže se nejdřív podíváme, co
data, o kterých se chystám.

00:01:02.570 --> 00:01:06.970
Mám tady soubor
nazvanou datové proudy na webu.

00:01:06.970 --> 00:01:10.985
Tento soubor obsahuje
údaje o uživatelích,

00:01:10.985 --> 00:01:14.180
jako položky, které si koupili,

00:01:14.180 --> 00:01:19.160
kolikrát klepali na
určitou kategorii atd.

00:01:19.160 --> 00:01:24.120
Tak se podívejme, jak jsi
mohou zadávat dotazy na tato data.

00:01:25.330 --> 00:01:28.205
Mám tady zápisník.

00:01:28.205 --> 00:01:30.829
Nejprve se chystám nastavit kontext

00:01:30.829 --> 00:01:34.000
poznámkového bloku do databáze.

00:01:34.000 --> 00:01:38.535
Což je prodej, jako
v tomto příkladu uvedeny.

00:01:38.535 --> 00:01:43.354
Tak dále, aby
Dotazovat se na data v systému souborů HDFS,

00:01:43.354 --> 00:01:48.880
Potřebujeme něco vytvořit
nazývané externí zdroj dat.

00:01:48.880 --> 00:01:52.790
Takže je to objekt v
databáze, která sděluje

00:01:52.790 --> 00:01:57.140
SQL Server, kde
Jsou uložena data HDFS.

00:01:57.140 --> 00:01:59.940
V tomto příkladu

00:01:59.940 --> 00:02:04.190
Tento řetězec, který
začíná v systému SQL HDFS,

00:02:04.190 --> 00:02:10.130
představuje data HDFS
ve velkém datovém clusteru.

00:02:10.130 --> 00:02:14.450
Tak se nejdřív podíváme a
vytvořit tento zdroj dat.

00:02:14.450 --> 00:02:17.870
Po vytvoření
zdroj dat,

00:02:17.870 --> 00:02:21.905
je třeba zadat formát souboru

00:02:21.905 --> 00:02:27.410
zdroj dat podporuje a
o čem budete dotazováním.

00:02:27.410 --> 00:02:29.375
V tomto případě

00:02:29.375 --> 00:02:34.910
Chystám se vyhledat data, která
má bydliště v parketových souborech.

00:02:34.910 --> 00:02:40.485
Formát parketové
je zde určen soubor.

00:02:40.485 --> 00:02:45.960
Tak nejprve Pojďme a
vytvořit tento objekt formátu souboru.

00:02:46.090 --> 00:02:52.640
Nyní je dalším krokem vytvoření
externí tabulku na serveru SQL Server.

00:02:52.640 --> 00:02:57.020
To znamená sloupce
které se budou dotazovat

00:02:57.020 --> 00:03:02.165
ze souborů a také
umístění souborů.

00:03:02.165 --> 00:03:03.710
V tomto případě

00:03:03.710 --> 00:03:08.180
Chystám se vyhledat všechny
data z tohoto adresáře.

00:03:08.180 --> 00:03:12.520
Takže rychle se podíváme
to, co obsahuje.

00:03:12.520 --> 00:03:16.670
Tak rozbalím adresář.

00:03:16.670 --> 00:03:20.780
Jak vidíte, jsou
tři parketové soubory.

00:03:20.780 --> 00:03:23.660
Takže teď se uvidíme, jak

00:03:23.660 --> 00:03:26.510
můžete zadat dotaz na
soubory ze serveru SQL Server.

00:03:26.510 --> 00:03:31.310
Nyní jsem vytvořil externí
objekt tabulky na serveru SQL Server,

00:03:31.310 --> 00:03:37.920
který odkazuje na adresář
který obsahuje soubory parket.

00:03:38.440 --> 00:03:43.680
Nejdřív se podíváme na
Některé řádky ze souboru.

00:03:43.970 --> 00:03:48.675
Takže spustím výběrový dotaz
s náznakem horní části,

00:03:48.675 --> 00:03:51.465
a vidím 10 řádků.

00:03:51.465 --> 00:03:57.470
To v podstatě zobrazuje náhled řádků
které jsou čteny z těchto souborů.

00:03:57.470 --> 00:04:01.775
Můžete také spustit mírně
složitější dotazy

00:04:01.775 --> 00:04:06.920
jako prostě spočítej na
počet řádků v tabulce.

00:04:06.920 --> 00:04:13.380
V tomto případě dostanu výsledek
zpátky a je to asi 6 000 000.

00:04:14.210 --> 00:04:17.705
Můžete také spustit více
rozšířených dotazů.

00:04:17.705 --> 00:04:20.720
Mám tu dotaz, který je

00:04:20.720 --> 00:04:25.505
pokus o nalezení 10 nejlepších
uživatelům s nejvíce klepnutími.

00:04:25.505 --> 00:04:27.850
Tak spustme ten dotaz.

00:04:27.850 --> 00:04:29.535
Jak můžete vidět,

00:04:29.535 --> 00:04:31.325
Nyní je možné spustit

00:04:31.325 --> 00:04:35.375
regulární dotazy SQL
proti údajům v HDFS.

00:04:35.375 --> 00:04:37.910
Takže můžete v podstatě
zacházet s daty v

00:04:37.910 --> 00:04:42.665
HDFS, jako by to byly místní
tabulek v databázi.

00:04:42.665 --> 00:04:46.900
V tomto případě mohu použít
funkce serveru SQL Server,

00:04:46.900 --> 00:04:50.060
a syntaxi a
funkce dostupné v

00:04:50.060 --> 00:04:53.990
SQL Server pro zápis dotazu.

00:04:53.990 --> 00:04:56.060
Takže, jak můžeš vidět,

00:04:56.060 --> 00:05:03.200
teď můžu v podstatě získat
výsledky ze souborů v souboru HDFS.

00:05:03.200 --> 00:05:07.360
Můžete také provést
jiných společných operací.

00:05:07.360 --> 00:05:10.275
Chcete například

00:05:10.275 --> 00:05:13.815
kombinovat data ClickStream
s některými údaji o zásobách,

00:05:13.815 --> 00:05:17.000
který má také bydliště
v parketových souborech

00:05:17.000 --> 00:05:21.800
v HDFS, který je zde skutečně zobrazen.

00:05:21.800 --> 00:05:24.140
Takže spustme tento dotaz.

00:05:24.140 --> 00:05:28.400
V tom případě, co děláme
na serveru SQL je ve skutečnosti

00:05:28.400 --> 00:05:34.170
spojení dvou různých datových sad
které mají bydliště v HDFS.

00:05:34.270 --> 00:05:40.790
Můžete určit, že v
dotaz SQL pomocí syntaxe jazyka SQL,

00:05:40.790 --> 00:05:44.275
a můžete získat
výsledky tohoto dotazu.

00:05:44.275 --> 00:05:48.705
V tomto příkladu jsme
ve skutečnosti jde o server SQL,

00:05:48.705 --> 00:05:51.180
čtení souborů z HDFS,

00:05:51.180 --> 00:05:53.845
předáním dat v souborech,

00:05:53.845 --> 00:05:56.195
provádění operací spojení

00:05:56.195 --> 00:06:00.425
a další
agregací v tomto případě,

00:06:00.425 --> 00:06:03.785
jako počítání počtu kliknutí,

00:06:03.785 --> 00:06:08.790
Přidání zásob
hodnoty atd.

00:06:09.500 --> 00:06:11.640
V neposlední nejménì,

00:06:11.640 --> 00:06:14.250
Můžete také zadat dotaz

00:06:14.250 --> 00:06:17.480
Tato data HDFS a připojit se k ní

00:06:17.480 --> 00:06:20.405
s jinými údaji
v databázi.

00:06:20.405 --> 00:06:22.175
V tomto příkladu

00:06:22.175 --> 00:06:25.415
můžete skutečně zadat dotaz
Parketové soubory

00:06:25.415 --> 00:06:30.120
a připojit se k tabulce na serveru SQL Server.

00:06:36.560 --> 00:06:39.270
Jak můžete vidět teď,

00:06:39.270 --> 00:06:44.170
integrace na serveru SQL Server
Velký datový cluster dělá

00:06:44.170 --> 00:06:49.215
snadné připojení k datům
z HDFS na jiná data,

00:06:49.215 --> 00:06:52.214
buď v HDFS, nebo v jiných tabulkách,

00:06:52.214 --> 00:06:55.180
a získejte informace velmi snadno.

00:06:55.180 --> 00:06:58.840
Takže teď můžeš stavět
aplikace, které dotazují data

00:06:58.840 --> 00:07:02.790
z různých zdrojů dat
velmi snadno. Děkuju.

00:07:02.790 --> 00:07:17.500
HUDBY

