WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 wprowadza
klastrów dużych zbiorów danych.

00:00:03.345 --> 00:00:04.860
Ma zintegrowany Spark.

00:00:04.860 --> 00:00:09.300
Shiv jest tutaj, aby opowiedzieć nam o
że dzisiaj na Data Exposed.

00:00:09.300 --> 00:00:20.220
[MUZYKA].

00:00:20.220 --> 00:00:23.085
>> Witam i zapraszam na inny
odcinek danych narażonych.

00:00:23.085 --> 00:00:25.890
Jestem gospodarzem, Jeroen i
Dzisiaj mamy Shiv tutaj z

00:00:25.890 --> 00:00:28.485
nam rozmawiać o Spark
klastrów danych Big Data.

00:00:28.485 --> 00:00:29.780
Więc zapraszamy do pokazu, Shiv.

00:00:29.780 --> 00:00:30.600
>> Dziękuję, Jeroen.

00:00:30.600 --> 00:00:34.705
>> Więc iskra, Zacznijmy od
podstaw. Co to jest Spark?

00:00:34.705 --> 00:00:38.790
>> Spark to ujednolicona duża
silnik przetwarzania danych

00:00:38.790 --> 00:00:41.640
które mogą pracować w
obciążeń analitycznych

00:00:41.640 --> 00:00:45.555
>> To nie brzmi bardzo proste.

00:00:45.555 --> 00:00:47.340
>> Więc rozbić go.

00:00:47.340 --> 00:00:47.730
>> Okay.

00:00:47.730 --> 00:00:49.575
>> Więc najpierw wszyscy Porozmawiajmy o

00:00:49.575 --> 00:00:52.850
przetwarzanie dużych zbiorów danych,
rozproszonych dużych zbiorów danych.

00:00:52.850 --> 00:00:54.140
Więc ostatnie kilka lat,

00:00:54.140 --> 00:00:55.460
to, co widzimy, jest tendencją

00:00:55.460 --> 00:00:57.800
przedsiębiorstw zbierających
wiele danych.

00:00:57.800 --> 00:00:58.265
>> Pewnie.

00:00:58.265 --> 00:01:00.170
>> Od przechodzenia z GBs danych,

00:01:00.170 --> 00:01:01.640
Dziś widzimy przedsiębiorstwo zajmujące się

00:01:01.640 --> 00:01:04.100
z terabajtów i petabajtów danych.

00:01:04.100 --> 00:01:05.810
Teraz istnieje problem.

00:01:05.810 --> 00:01:09.005
Problemem jest to, że kiedy
mieć tak dużą skalę danych,

00:01:09.005 --> 00:01:11.375
jak naprawdę przechowywać, że
dane, przede wszystkim, prawda?

00:01:11.375 --> 00:01:11.960
>> Okay.

00:01:11.960 --> 00:01:13.945
>> Więc na początku,

00:01:13.945 --> 00:01:16.580
Zaczęliśmy od jednego
maszynę i skalować ją

00:01:16.580 --> 00:01:20.300
pionowo i posiadające terabajty
dysku twardego na grupę danych.

00:01:20.300 --> 00:01:22.180
To pionowe skalowanie nie było naprawdę

00:01:22.180 --> 00:01:24.295
odpowiedź na przechowywanie
danych rozproszonych.

00:01:24.295 --> 00:01:27.020
Wykonalne, lepsze rozwiązanie,

00:01:27.020 --> 00:01:29.270
Więcej rozwiązań w zakresie odporności
były dane rozproszone,

00:01:29.270 --> 00:01:30.830
gdzie nie przechowujemy skalowania

00:01:30.830 --> 00:01:34.265
jedną maszynę do podjęcia
na coraz więcej danych.

00:01:34.265 --> 00:01:37.055
To, co robimy, to
rozpowszechnianie danych w

00:01:37.055 --> 00:01:40.340
n liczba mniejszych maszyn i
w ten sposób przechowujemy duże zbiory danych.

00:01:40.340 --> 00:01:41.870
>> Więc w zasadzie podzielić i zdobyć,

00:01:41.870 --> 00:01:43.050
Prawo? Dzielimy pracę.

00:01:43.050 --> 00:01:43.620
>> Dokładnie.

00:01:43.620 --> 00:01:44.025
>> Okay.

00:01:44.025 --> 00:01:46.040
>> Więc teraz zadbaliśmy o

00:01:46.040 --> 00:01:48.935
problem z przechowywaniem
danych, ale to nie wszystko.

00:01:48.935 --> 00:01:51.275
Głównym problemem jest
nie przechowywania danych,

00:01:51.275 --> 00:01:54.680
głównym problemem jest to, że potrzebuję
Aby uzyskać wgląd w te dane.

00:01:54.680 --> 00:01:56.105
>> Podczas przetwarzania

00:01:56.105 --> 00:01:57.590
to gdzie wartość jest, prawda?

00:01:57.590 --> 00:01:59.180
>> Dokładnie. Dlatego przetwarzanie

00:01:59.180 --> 00:02:02.340
dane rozproszone
wymaga różnych silników.

00:02:02.340 --> 00:02:07.100
Spark to duża Data obliczeń
silnik, który może pracować w

00:02:07.100 --> 00:02:12.200
rozproszonych danych i obliczeń
i wykonywać swoje obciążenia.

00:02:12.200 --> 00:02:16.715
To nie tylko rozproszony
silnik obliczeń Big Data,

00:02:16.715 --> 00:02:19.010
jest to również coś
że abstrakty o

00:02:19.010 --> 00:02:21.590
Szczegóły dotyczące dystrybucji od Ciebie.

00:02:21.590 --> 00:02:22.880
Jako użytkownik Spark,

00:02:22.880 --> 00:02:25.190
nie musisz się przejmować
wszystkie szczegóły dotyczące dystrybucji,

00:02:25.190 --> 00:02:27.650
to całe piękno wokół Spark.

00:02:27.650 --> 00:02:31.130
>> Więc po prostu daj mu
przydziału i to będzie dowiedzieć się

00:02:31.130 --> 00:02:33.035
jak rozpowszechniać pracę i

00:02:33.035 --> 00:02:35.420
odbywać się tak szybko, jak
możliwe, miejmy nadzieję.

00:02:35.420 --> 00:02:38.840
>> W prawo. Kiedy masz do czynienia
z tego rodzaju danymi,

00:02:38.840 --> 00:02:42.320
nie chcesz być przywiązany
do określonego języka.

00:02:42.320 --> 00:02:45.470
Jesteś jak to jest duży
aparat obliczeniowy danych i teraz

00:02:45.470 --> 00:02:48.290
używasz krzykliwe języka, który
Wymyśliłem, aby to przetworzyć.

00:02:48.290 --> 00:02:50.480
Więc Spark robi coś
bardzo piękne.

00:02:50.480 --> 00:02:52.235
Platforma Spark oferuje wybór języka.

00:02:52.235 --> 00:02:54.680
Jeśli jesteś programistą Pythona,

00:02:54.680 --> 00:02:57.350
można zaprogramować w
Python, Scala, Java,

00:02:57.350 --> 00:03:01.190
R. R jest bardzo popularny
naszych analityków danych i

00:03:01.190 --> 00:03:04.760
Spark daje możliwość
do użycia R dla obciążeń.

00:03:04.760 --> 00:03:09.050
Tak, że to, co jest Spark jako
rozproszonego silnika obliczeń.

00:03:09.050 --> 00:03:11.105
>> Więc w zasadzie mówiłeś

00:03:11.105 --> 00:03:13.850
przywrócić go inaczej, ale
to coś zrobiliśmy dla

00:03:13.850 --> 00:03:16.920
dużych zbiorów danych z powodu
problem skalowania

00:03:16.920 --> 00:03:18.450
do góry przez cały czas, ze skalowaniem

00:03:18.450 --> 00:03:20.415
i teraz jesteśmy skalowanie
również. Prawo?

00:03:20.415 --> 00:03:20.790
>> W prawo.

00:03:20.790 --> 00:03:23.075
>> Następnie Spark działa na
warstwy rozproszonej

00:03:23.075 --> 00:03:24.320
i zapewnia elastyczność

00:03:24.320 --> 00:03:25.580
wybór języka wyboru.

00:03:25.580 --> 00:03:29.180
>> Tak. Nie było jeszcze trochę
[niesłyszalny] w moim zdaniu.

00:03:29.180 --> 00:03:31.520
Powiedziałem ci coś o
ujednoliconego aparatu obliczeń.

00:03:31.520 --> 00:03:34.120
Więc niech kawałek i kości, że trochę.

00:03:34.120 --> 00:03:39.170
Jak widzieliśmy, przedsiębiorstwa zaczęły
coraz więcej danych.

00:03:39.170 --> 00:03:41.420
Tradycyjne
obciążeń również przejść z

00:03:41.420 --> 00:03:45.320
obciążeń transakcyjnych do obciążeń
które mają charakter analityczny.

00:03:45.320 --> 00:03:47.730
Co rozumiemy przez obciążenie analityczne?

00:03:47.730 --> 00:03:51.290
Obciążenie pracą, gdzie analizuję
wiele danych, aby uzyskać

00:03:51.290 --> 00:03:53.180
z niego spostrzeżenia i

00:03:53.180 --> 00:03:56.645
to może robi maszynę
uczenia się lub głębokiego uczenia się.

00:03:56.645 --> 00:03:59.750
Tak tradycyjnie, faza od

00:03:59.750 --> 00:04:03.095
obciążeń transakcyjnych również
przenoszone do obciążeń analitycznych.

00:04:03.095 --> 00:04:06.920
Obciążenia analityczne miały różne
obciążeń z uczenia głębokiego,

00:04:06.920 --> 00:04:10.120
Uczenie maszynowe, analityka
i przesyłania strumieniowego obciążeń.

00:04:10.120 --> 00:04:12.990
Teraz każdy z tych
obciążeń, których nie chcesz

00:04:12.990 --> 00:04:17.120
oddzielny silnik obliczeniowy do
naprawdę budować swoje umiejętności.

00:04:17.120 --> 00:04:18.530
>> Idealnie byś się uczyć.

00:04:18.530 --> 00:04:20.840
>> Dokładnie. To właśnie robi Spark.

00:04:20.840 --> 00:04:24.110
Spark to ujednolicona moc obliczeniowa
silnika, który pozwala na pracę

00:04:24.110 --> 00:04:27.690
we wszystkich tych obciążeń
tego samego zbioru zasad.

00:04:27.690 --> 00:04:29.875
To właśnie jest iskra.

00:04:29.875 --> 00:04:32.795
Rozproszona moc obliczeniowa
silnik, który wyciąga

00:04:32.795 --> 00:04:35.750
Szczegóły pracy
dystrybucji od Ciebie.

00:04:35.750 --> 00:04:39.545
To nie przeszkadza
o szczegółach dystrybucji.

00:04:39.545 --> 00:04:42.230
Po drugie, ujednolicona moc obliczeniowa
silnika, a przede wszystkim

00:04:42.230 --> 00:04:45.245
które uważam za bardzo
potężną funkcję programisty,

00:04:45.245 --> 00:04:47.990
oferuje wybór języka
gdzie można użyć Pythona,

00:04:47.990 --> 00:04:50.300
Scala, Java lub R,
Cokolwiek wybierzesz.

00:04:50.300 --> 00:04:52.265
Tak, że to, co jest Spark.

00:04:52.265 --> 00:04:54.725
>> Cool. To bardzo represyjne.

00:04:54.725 --> 00:04:57.785
Mam na myśli, Spark to dobrze.

00:04:57.785 --> 00:05:00.370
Więc co robimy z
Spark na serwerze SQL?

00:05:00.370 --> 00:05:01.760
Czy mamy coś?

00:05:01.760 --> 00:05:05.300
>> Więc Spark jest w zasadzie ApacheSpark.

00:05:05.300 --> 00:05:07.460
Jest to silnik obliczeniowe Open Source.

00:05:07.460 --> 00:05:09.230
Co zrobiliśmy w
klastry dużych zbiorów danych,

00:05:09.230 --> 00:05:12.680
Przywieźliśmy Cię
razem, to z SQL,

00:05:12.680 --> 00:05:16.995
jako jeden jednolity
oferując z SQL i

00:05:16.995 --> 00:05:21.070
rozwiązanie end-to-end, w którym
nie tylko uzyskać silnik obliczeniowy,

00:05:21.070 --> 00:05:23.150
otrzymasz kompletny
end-to-end doświadczenie

00:05:23.150 --> 00:05:24.785
przy użyciu aparatu obliczeń.

00:05:24.785 --> 00:05:26.630
>> Więc oznaczałoby to
że od Spark

00:05:26.630 --> 00:05:28.400
został zintegrowany
w klastrze wielkich zbiorów danych,

00:05:28.400 --> 00:05:31.625
Mogę zbadać dane w

00:05:31.625 --> 00:05:32.885
klaster wielkich zbiorów danych

00:05:32.885 --> 00:05:35.060
za pomocą starych korzyści
tylko opisać z Spark.

00:05:35.060 --> 00:05:36.470
>> Dokładnie. Korzystanie z klienta

00:05:36.470 --> 00:05:38.270
narzędzi, które są
wszystkie znane.

00:05:38.270 --> 00:05:40.330
>> Wow, to imponujące.

00:05:40.330 --> 00:05:43.110
Wow. Jak więc dowiedzieć się więcej?

00:05:43.110 --> 00:05:47.025
Mam na myśli, to brzmi bardzo nowe
mnie, gdzie znajdę coś?

00:05:47.025 --> 00:05:49.529
>> Proszę przejść do wielkiego
dokumentację klastra danych,

00:05:49.529 --> 00:05:52.910
Dokumentacja klastra danych programu SQL Server
i znajdziesz wiele

00:05:52.910 --> 00:05:57.275
COMMS i artykuły o Spark.

00:05:57.275 --> 00:06:00.020
Znajdziesz klastry dużych zbiorów danych,

00:06:00.020 --> 00:06:02.855
Przykłady Spark i SQL
Serwer przykładów repozytorium.

00:06:02.855 --> 00:06:04.660
To gdzie zacząć.

00:06:04.660 --> 00:06:06.920
>> Cool. Tak więc będziemy
Upewnij się, że zawierają

00:06:06.920 --> 00:06:09.080
te linki w opisie,

00:06:09.080 --> 00:06:10.565
więc znajdziesz je tam.

00:06:10.565 --> 00:06:13.265
Dzięki Shiv za przybycie do pokazu.

00:06:13.265 --> 00:06:14.420
Dzięki za wyjaśnienie tego.

00:06:14.420 --> 00:06:17.430
Dowiedziałem się wreszcie, co to jest iskra.

00:06:17.430 --> 00:06:19.205
Dziękujemy za oglądanie.

00:06:19.205 --> 00:06:21.650
Proszę jak i subskrybować i
Mam nadzieję, że do zobaczenia następnym razem.

00:06:21.650 --> 00:06:33.610
MUZYKI

