WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 zavádí
velkých datových clusterů.

00:00:03.345 --> 00:00:04.860
Je v něm integrována jiskra.

00:00:04.860 --> 00:00:09.300
Shiv nám řekne všechno o
to dnes v datech vystavených.

00:00:09.300 --> 00:00:20.220
[HUDBA].

00:00:20.220 --> 00:00:23.085
>> Hi a Vítejte v jiném
epizodu exponovaných dat.

00:00:23.085 --> 00:00:25.890
Jsem váš hostitel, Jeroen a
Dnes tu máme Shiv s

00:00:25.890 --> 00:00:28.485
abychom mluvili o jiskru
na velkých datových clusterech.

00:00:28.485 --> 00:00:29.780
Vítejte na představení, Shive.

00:00:29.780 --> 00:00:30.600
>> Děkuji, Jeroene.

00:00:30.600 --> 00:00:34.705
>> Tak jiskra, začneme na
základy. Co je jiskra?

00:00:34.705 --> 00:00:38.790
>> Spark je sjednocená Velká
stroj pro zpracování dat

00:00:38.790 --> 00:00:41.640
který může pracovat přes
analytické pracovní vytížení

00:00:41.640 --> 00:00:45.555
>> To nezní moc jednoduše.

00:00:45.555 --> 00:00:47.340
>> Tak si to rozdáme.

00:00:47.340 --> 00:00:47.730
>> Dobře.

00:00:47.730 --> 00:00:49.575
>> Tak nejdřív si promluvme o

00:00:49.575 --> 00:00:52.850
velké zpracování dat,
distribuovaná velká data.

00:00:52.850 --> 00:00:54.140
Tak posledních pár let,

00:00:54.140 --> 00:00:55.460
to, co jsme viděli, je trend

00:00:55.460 --> 00:00:57.800
podniky shromažďováním
spousty a spousty dat.

00:00:57.800 --> 00:00:58.265
>> Jistě.

00:00:58.265 --> 00:01:00.170
>> Z dat GBs,

00:01:00.170 --> 00:01:01.640
Dnes vidíme podnik, který se zabývá

00:01:01.640 --> 00:01:04.100
s terabajty a petabyty dat.

00:01:04.100 --> 00:01:05.810
Teď je tam problém.

00:01:05.810 --> 00:01:09.005
Problém je v tom, že když
mít takový velký rozsah údajů,

00:01:09.005 --> 00:01:11.375
Jak to ve skutečnosti ukládáte
data, zaprvé, že?

00:01:11.375 --> 00:01:11.960
>> Dobře.

00:01:11.960 --> 00:01:13.945
>> Takže na začátku

00:01:13.945 --> 00:01:16.580
začali jsme s jedním
počítač a změna měřítka

00:01:16.580 --> 00:01:20.300
svisle a s terabajty
pevného disku na jednu skupinu dat.

00:01:20.300 --> 00:01:22.180
Toto svislé měřítko nebylo skutečně

00:01:22.180 --> 00:01:24.295
odpověď pro uložení
distribuovaná data.

00:01:24.295 --> 00:01:27.020
Proveditelný, lepším řešením,

00:01:27.020 --> 00:01:29.270
větší odolnost vůči houževnatosti
byla distribuována data,

00:01:29.270 --> 00:01:30.830
kde Neudržovat měřítko

00:01:30.830 --> 00:01:34.265
jeden počítač, který má být
na více a více dat.

00:01:34.265 --> 00:01:37.055
Co děláme je, že jsme
distribuovat data mezi

00:01:37.055 --> 00:01:40.340
n počet menších strojů a
tak se ukládají velká data.

00:01:40.340 --> 00:01:41.870
>> Takže v podstatě rozděl a panuj,

00:01:41.870 --> 00:01:43.050
Právo? Rozdělíme si práci.

00:01:43.050 --> 00:01:43.620
>> Přesně.

00:01:43.620 --> 00:01:44.025
>> Dobře.

00:01:44.025 --> 00:01:46.040
>> Tak teď jsme se postarali o

00:01:46.040 --> 00:01:48.935
problém uložení
dat, ale to není všechno.

00:01:48.935 --> 00:01:51.275
Hlavním problémem je
neuchovávání údajů,

00:01:51.275 --> 00:01:54.680
Hlavním problémem je, že potřebuji
k získání poznatků o těchto datech.

00:01:54.680 --> 00:01:56.105
>> Při zpracování

00:01:56.105 --> 00:01:57.590
tam je ta hodnota, že?

00:01:57.590 --> 00:01:59.180
>> Přesně. Zpracování

00:01:59.180 --> 00:02:02.340
Tato distribuovaná data
vyžaduje různé motory.

00:02:02.340 --> 00:02:07.100
Jiskra je velký výpočetní datový
stroj, který může pracovat přes

00:02:07.100 --> 00:02:12.200
distribuovaná data a výpočetní
a udělej na tom svou pracovní zátěž.

00:02:12.200 --> 00:02:16.715
Není to distribuovaná
velký výpočetní stroj,

00:02:16.715 --> 00:02:19.010
je to také něco
Tato abstrakt o

00:02:19.010 --> 00:02:21.590
Podrobnosti o distribuci od vás.

00:02:21.590 --> 00:02:22.880
Jako uživatel jiskra,

00:02:22.880 --> 00:02:25.190
nebudete se muset obtěžovat
všechny podrobnosti o distribuci,

00:02:25.190 --> 00:02:27.650
To je celá krása kolem jiskru.

00:02:27.650 --> 00:02:31.130
>> Takže mu to prostě dáš
úkol a vymyslíme

00:02:31.130 --> 00:02:33.035
Jak distribuovat práci a

00:02:33.035 --> 00:02:35.420
být provedeno tak rychle, jak
možné, doufejme.

00:02:35.420 --> 00:02:38.840
>> Správně. Když jednáte
s takovým druhem údajů,

00:02:38.840 --> 00:02:42.320
nechceš být svázaný
do určitého jazyka.

00:02:42.320 --> 00:02:45.470
Jsi jako by to byla velká
výpočetní modul dat a nyní

00:02:45.470 --> 00:02:48.290
používáte okázalé jazyky, které
Vymyslel jsem to, abych to mohl zpracovat.

00:02:48.290 --> 00:02:50.480
Takže jiskra dělá něco
tam moc krásná.

00:02:50.480 --> 00:02:52.235
Jiskra vám dává možnost volby jazyka.

00:02:52.235 --> 00:02:54.680
Jste-li programátorem Pythonu,

00:02:54.680 --> 00:02:57.350
můžete naprogramovat
Python, Scala, Java,

00:02:57.350 --> 00:03:01.190
R. R je velmi populární v
naši vědci a

00:03:01.190 --> 00:03:04.760
Jiskra vám dává možnost
pro pracovní vytížení používat R.

00:03:04.760 --> 00:03:09.050
Takže co je jiskra jako
distribuovaný výpočetní stroj.

00:03:09.050 --> 00:03:11.105
>> V podstatě jsi řekl

00:03:11.105 --> 00:03:13.850
obnovit jinak, ale
To je něco, co jsme udělali pro

00:03:13.850 --> 00:03:16.920
Velká data kvůli
problém s škálování

00:03:16.920 --> 00:03:18.450
Při změně měřítka nahoru

00:03:18.450 --> 00:03:20.415
nahoru a teď jsme škálování
. Právo?

00:03:20.415 --> 00:03:20.790
>> Správně.

00:03:20.790 --> 00:03:23.075
>> Pak Spark pracuje na
distribuovaná vrstva

00:03:23.075 --> 00:03:24.320
a nabízí flexibilitu

00:03:24.320 --> 00:03:25.580
Volba zvoleného jazyka.

00:03:25.580 --> 00:03:29.180
>> Ano. Pořád ještě bylo trochu
[neslyšitelně] do mé věty.

00:03:29.180 --> 00:03:31.520
Říkal jsem ti něco o
Sjednocený výpočetní stroj.

00:03:31.520 --> 00:03:34.120
Tak si to trochu rozkrájejte a kostky.

00:03:34.120 --> 00:03:39.170
Jak jsme viděli, podniky začaly
získání dalších a více dat.

00:03:39.170 --> 00:03:41.420
Tradiční
pracovní vytížení se také Přesouvám z

00:03:41.420 --> 00:03:45.320
pracovní vytížení transakce pro pracovní vytížení
které jsou analytické povahy.

00:03:45.320 --> 00:03:47.730
Co znamená analytická pracovní zátěž?

00:03:47.730 --> 00:03:51.290
Pracovní vytížení, kde Analyzuji
mnoho dat k získání

00:03:51.290 --> 00:03:53.180
poznatky z ní a

00:03:53.180 --> 00:03:56.645
pak možná
učení nebo hloubkové učení.

00:03:56.645 --> 00:03:59.750
Tak tradičně se fáze od

00:03:59.750 --> 00:04:03.095
pracovní vytížení transakce také
přesunuty do analytické pracovní zátěže.

00:04:03.095 --> 00:04:06.920
Analytické pracovní vytížení měly různé
pracovního zatížení při hlubokém učení,

00:04:06.920 --> 00:04:10.120
strojní učení, analýza
a streamování pracovního vytížení.

00:04:10.120 --> 00:04:12.990
Nyní každý z těchto
pracovní vytížení nechcete

00:04:12.990 --> 00:04:17.120
samostatný výpočetní stroj k
si opravdu budovat dovednosti.

00:04:17.120 --> 00:04:18.530
>> V ideálním případě byste se ho naučili.

00:04:18.530 --> 00:04:20.840
>> Přesně. To jiskra dělá.

00:04:20.840 --> 00:04:24.110
Jiskra je sjednocená výpočetní
Engine, který umožňuje pracovat

00:04:24.110 --> 00:04:27.690
ve všech těchto pracovních vytížení s
stejný soubor zásad.

00:04:27.690 --> 00:04:29.875
Na tom je jiskra.

00:04:29.875 --> 00:04:32.795
Distribuovaná výpočetní
modul, který extrahuje

00:04:32.795 --> 00:04:35.750
Podrobnosti o práci
od vás.

00:04:35.750 --> 00:04:39.545
Nemáš se čeho obtěžovat
o podrobnostech distribuce.

00:04:39.545 --> 00:04:42.230
Zadruhé, Sjednocená výpočetní
motor a především,

00:04:42.230 --> 00:04:45.245
což shledám jako velmi
Výkonná vývojářská funkce,

00:04:45.245 --> 00:04:47.990
nabízí výběr jazyka
kde můžete použít Python,

00:04:47.990 --> 00:04:50.300
Scala, Java nebo R,
z čeho si vyberete.

00:04:50.300 --> 00:04:52.265
Tak to je jiskra.

00:04:52.265 --> 00:04:54.725
>> Cool. To je velmi represivní.

00:04:54.725 --> 00:04:57.785
Chci říct, jiskra to je v pořádku.

00:04:57.785 --> 00:05:00.370
Tak co děláme s
Jiskra na serveru SQL Server?

00:05:00.370 --> 00:05:01.760
Máme něco?

00:05:01.760 --> 00:05:05.300
>> Tak jiskra je v podstatě Apachejiskra.

00:05:05.300 --> 00:05:07.460
Je to výpočetní stroj na otevření zdroje.

00:05:07.460 --> 00:05:09.230
Co jsme udělali v
velké datové clustery,

00:05:09.230 --> 00:05:12.680
přinesli jsme vám
spolu s SQL,

00:05:12.680 --> 00:05:16.995
jako jeden jednotný
nabídka s SQL a

00:05:16.995 --> 00:05:21.070
řešení na konci-konec, ve kterém
ne jen získat výpočetní stroj,

00:05:21.070 --> 00:05:23.150
získáte kompletní
zkušenost na konci-konec

00:05:23.150 --> 00:05:24.785
na použití výpočetního motoru.

00:05:24.785 --> 00:05:26.630
>> To by znamenalo
že od Spark

00:05:26.630 --> 00:05:28.400
byl integrován
ve velkém datovém clusteru,

00:05:28.400 --> 00:05:31.625
Mohu zadávat dotazy na data v

00:05:31.625 --> 00:05:32.885
velký datový cluster

00:05:32.885 --> 00:05:35.060
pomocí starých výhod, které
jen popsat z jiskru.

00:05:35.060 --> 00:05:36.470
>> Přesně. Použití klienta

00:05:36.470 --> 00:05:38.270
nástrojů, které jste
Všichni dobře obeznámeni.

00:05:38.270 --> 00:05:40.330
>> Wow, to je působivé.

00:05:40.330 --> 00:05:43.110
Wow. Jak se tedy mohu dozvědět více?

00:05:43.110 --> 00:05:47.025
To zní jako novinka pro
mě, kde najdu něco?

00:05:47.025 --> 00:05:49.529
>> Prosím Jdi na velký
dokumentaci k datovému clusteru,

00:05:49.529 --> 00:05:52.910
Dokumentace k datovému clusteru serveru SQL Server
a najdete tu spoustu

00:05:52.910 --> 00:05:57.275
komuniků a článků o jiskru.

00:05:57.275 --> 00:06:00.020
Najdete zde velké datové clustery,

00:06:00.020 --> 00:06:02.855
Příklady jisker a SQL
Úložiště ukázek serveru.

00:06:02.855 --> 00:06:04.660
Tam jsi začal.

00:06:04.660 --> 00:06:06.920
>> Cool. Takže budeme
Nezapomeňte zahrnout

00:06:06.920 --> 00:06:09.080
Tyto odkazy v popisu,

00:06:09.080 --> 00:06:10.565
tak je tam najdeš.

00:06:10.565 --> 00:06:13.265
Díky Shiv, že jsi přišel na představení.

00:06:13.265 --> 00:06:14.420
Dík za vysvětlení.

00:06:14.420 --> 00:06:17.430
Konečně jsem se dozvěděl, co je to jiskra.

00:06:17.430 --> 00:06:19.205
Dík za sledování.

00:06:19.205 --> 00:06:21.650
Prosím vás, přihlaste se a
Doufám, že se příště uvidíme.

00:06:21.650 --> 00:06:33.610
HUDBY

