WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 introduce
cluster di Big Data.

00:00:03.345 --> 00:00:04.860
Ha Spark integrato.

00:00:04.860 --> 00:00:09.300
Shiv è qui per raccontarci tutto
che oggi su Data Exposed.

00:00:09.300 --> 00:00:20.220
[MUSICA].

00:00:20.220 --> 00:00:23.085
>> Ciao e benvenuto a un altro
episodio di Data Exposed.

00:00:23.085 --> 00:00:25.890
Sono il vostro ospite, Jeroen e
oggi abbiamo Shiv qui con

00:00:25.890 --> 00:00:28.485
noi a parlare di Spark
su cluster di Big Data.

00:00:28.485 --> 00:00:29.780
Benvenuto nello show, Shiv.

00:00:29.780 --> 00:00:30.600
>> Grazie, Jeroen.

00:00:30.600 --> 00:00:34.705
>> Così scintilla, cominciamo da
le basi. Che cos'è Spark?

00:00:34.705 --> 00:00:38.790
>> Spark è un grande unificato
motore di elaborazione dati

00:00:38.790 --> 00:00:41.640
che può funzionare in tutto
i tuoi carichi di lavoro analitici

00:00:41.640 --> 00:00:45.555
>> Questo non suona molto semplice.

00:00:45.555 --> 00:00:47.340
>> Quindi cerchiamo di scomporre.

00:00:47.340 --> 00:00:47.730
>> Ok.

00:00:47.730 --> 00:00:49.575
>> Quindi prima tutto parliamo di

00:00:49.575 --> 00:00:52.850
l'elaborazione dei big data,
dati grandi distribuiti.

00:00:52.850 --> 00:00:54.140
Così negli ultimi anni,

00:00:54.140 --> 00:00:55.460
quello che abbiamo visto è una tendenza di

00:00:55.460 --> 00:00:57.800
imprese di raccolta
un sacco di dati.

00:00:57.800 --> 00:00:58.265
>> Certo.

00:00:58.265 --> 00:01:00.170
>> Dall'andare da GB di dati,

00:01:00.170 --> 00:01:01.640
oggi vediamo un'impresa che si occupa

00:01:01.640 --> 00:01:04.100
con terabyte e petabyte di dati.

00:01:04.100 --> 00:01:05.810
Ora c'è un problema lì.

00:01:05.810 --> 00:01:09.005
Il problema è che quando si
hanno una così grande scala di dati,

00:01:09.005 --> 00:01:11.375
come si fa davvero memorizzare che
dati, prima di tutto, giusto?

00:01:11.375 --> 00:01:11.960
>> Ok.

00:01:11.960 --> 00:01:13.945
>> Così all'inizio,

00:01:13.945 --> 00:01:16.580
abbiamo iniziato con un singolo
macchina e scalandola

00:01:16.580 --> 00:01:20.300
verticalmente e con terabyte
di disco rigido per gruppo di dati.

00:01:20.300 --> 00:01:22.180
Quel ridimensionamento verticale non era in realtà

00:01:22.180 --> 00:01:24.295
la risposta per la memorizzazione
dati distribuiti.

00:01:24.295 --> 00:01:27.020
Una soluzione fattibile, migliore,

00:01:27.020 --> 00:01:29.270
più soluzione di resilienza
erano dati distribuiti,

00:01:29.270 --> 00:01:30.830
dove non continuiamo a scalare

00:01:30.830 --> 00:01:34.265
una singola macchina da prendere
su un numero sempre maggiore di dati.

00:01:34.265 --> 00:01:37.055
Quello che facciamo è
distribuire i dati tra

00:01:37.055 --> 00:01:40.340
n numero di macchine più piccole e
è così che memorizziamo i big data.

00:01:40.340 --> 00:01:41.870
>> Quindi fondamentalmente dividere e conquistare,

00:01:41.870 --> 00:01:43.050
va bene? Dividiamo il lavoro.

00:01:43.050 --> 00:01:43.620
>> Esattamente.

00:01:43.620 --> 00:01:44.025
>> Ok.

00:01:44.025 --> 00:01:46.040
>> Così ora, ci siamo presi cura di

00:01:46.040 --> 00:01:48.935
il problema di memorizzare il
dati, ma non è tutto.

00:01:48.935 --> 00:01:51.275
Il problema principale è
non memorizzazione dei dati,

00:01:51.275 --> 00:01:54.680
il problema principale è che ho bisogno
per ottenere informazioni dettagliate su questi dati.

00:01:54.680 --> 00:01:56.105
>> Quando si elabora,

00:01:56.105 --> 00:01:57.590
è lì che c'è il valore, giusto?

00:01:57.590 --> 00:01:59.180
>> Esattamente. Quindi l'elaborazione di

00:01:59.180 --> 00:02:02.340
questi dati distribuiti
richiede motori diversi.

00:02:02.340 --> 00:02:07.100
Spark è un calcolo di Big Data
motore che può funzionare attraverso

00:02:07.100 --> 00:02:12.200
dati distribuiti e calcolo
e fare i vostri carichi di lavoro su questo.

00:02:12.200 --> 00:02:16.715
Non è solo una distribuzione
motore di calcolo dei big data,

00:02:16.715 --> 00:02:19.010
è anche qualcosa
che gli abstract su

00:02:19.010 --> 00:02:21.590
i dettagli della distribuzione da voi.

00:02:21.590 --> 00:02:22.880
In qualità di utente di Spark,

00:02:22.880 --> 00:02:25.190
non dovrete preoccuparvi
tutti i dettagli della distribuzione,

00:02:25.190 --> 00:02:27.650
questa è tutta la bellezza intorno a Spark.

00:02:27.650 --> 00:02:31.130
>> Quindi basta dare un
assegnazione e capirà

00:02:31.130 --> 00:02:33.035
come distribuire il lavoro e

00:02:33.035 --> 00:02:35.420
essere fatto il più rapidamente come
possibile, si spera.

00:02:35.420 --> 00:02:38.840
>> Destra. Quando si tratta di
con questo tipo di dati,

00:02:38.840 --> 00:02:42.320
non si vuole essere legato
in una particolare lingua.

00:02:42.320 --> 00:02:45.470
Sei come questo è un grande
dati motore di calcolo e ora

00:02:45.470 --> 00:02:48.290
si utilizza il linguaggio appariscente che
Ho inventato per elaborarlo.

00:02:48.290 --> 00:02:50.480
Così Spark fa qualcosa
molto bello lì.

00:02:50.480 --> 00:02:52.235
Spark ti dà una scelta di lingua.

00:02:52.235 --> 00:02:54.680
Se sei un programmatore Python,

00:02:54.680 --> 00:02:57.350
è possibile programmare in
Python, Scala, Java,

00:02:57.350 --> 00:03:01.190
R. R è molto popolare
i nostri data scientist e

00:03:01.190 --> 00:03:04.760
Spark ti dà la possibilità
per usare R per i carichi di lavoro.

00:03:04.760 --> 00:03:09.050
In modo che ciò che è Spark come
Motore di calcolo distribuito.

00:03:09.050 --> 00:03:11.105
>> Quindi in pratica hai detto

00:03:11.105 --> 00:03:13.850
ripristinarlo in modo diverso, ma
questo è qualcosa che abbiamo fatto per

00:03:13.850 --> 00:03:16.920
big data a causa di
il problema della scalabilità

00:03:16.920 --> 00:03:18.450
verso l'alto per tutto il tempo con il ridimensionamento

00:03:18.450 --> 00:03:20.415
e ora stiamo scalando
fuori pure. va bene?

00:03:20.415 --> 00:03:20.790
>> Destra.

00:03:20.790 --> 00:03:23.075
>> Poi Spark lavora su
il livello distribuito

00:03:23.075 --> 00:03:24.320
e ti dà la flessibilità di

00:03:24.320 --> 00:03:25.580
scegliere la lingua di scelta.

00:03:25.580 --> 00:03:29.180
>> Sì. C'era ancora un po'
[non udibile] nella mia frase.

00:03:29.180 --> 00:03:31.520
Ti ho detto qualcosa
un motore di calcolo unificato.

00:03:31.520 --> 00:03:34.120
Quindi cerchiamo di tagliare e dadi che un po' .

00:03:34.120 --> 00:03:39.170
Come abbiamo visto, le imprese hanno iniziato
ottenere sempre più dati.

00:03:39.170 --> 00:03:41.420
Il tradizionale
i carichi di lavoro si spostano anche

00:03:41.420 --> 00:03:45.320
carichi di lavoro di transazione per carichi di lavoro
che sono di natura analitica.

00:03:45.320 --> 00:03:47.730
Cosa si intende per carico di lavoro analitico?

00:03:47.730 --> 00:03:51.290
Carico di lavoro in cui si sta analizzando Workload Where I's analyzing
un sacco di dati per ottenere

00:03:51.290 --> 00:03:53.180
intuizioni fuori di esso e

00:03:53.180 --> 00:03:56.645
poi forse facendo macchina
apprendimento o apprendimento profondo.

00:03:56.645 --> 00:03:59.750
Quindi, tradizionalmente, la fase da

00:03:59.750 --> 00:04:03.095
i carichi di lavoro delle transazioni
ai carichi di lavoro analitici.

00:04:03.095 --> 00:04:06.920
I carichi di lavoro analitici avevano una varietà
dei carichi di lavoro del deep learning,

00:04:06.920 --> 00:04:10.120
apprendimento automatico, analisi
e carichi di lavoro di streaming.

00:04:10.120 --> 00:04:12.990
Ora, ognuno di questi
carichi di lavoro che non si desidera

00:04:12.990 --> 00:04:17.120
un motore di calcolo separato per
davvero costruire le vostre abilità su.

00:04:17.120 --> 00:04:18.530
>> Idealmente si dovrebbe imparare uno.

00:04:18.530 --> 00:04:20.840
>> Esattamente. È quello che fa Spark.

00:04:20.840 --> 00:04:24.110
Spark è un calcolo unificato
che consente di lavorare

00:04:24.110 --> 00:04:27.690
tutti questi carichi di lavoro con
lo stesso insieme di principi.

00:04:27.690 --> 00:04:29.875
Questo è ciò che Spark è circa.

00:04:29.875 --> 00:04:32.795
Un calcolo distribuito
motore che estrae

00:04:32.795 --> 00:04:35.750
i dettagli del lavoro
distribuzione da voi.

00:04:35.750 --> 00:04:39.545
Non ti da' fastidio
informazioni sui dettagli di distribuzione.

00:04:39.545 --> 00:04:42.230
In secondo luogo, un'elaborazione unificata
motore e soprattutto,

00:04:42.230 --> 00:04:45.245
che lo trovo come un molto
potente funzionalità per sviluppatori,

00:04:45.245 --> 00:04:47.990
ti offre la scelta della lingua
dove si potrebbe usare Python,

00:04:47.990 --> 00:04:50.300
Scala, Java o R,
qualsiasi cosa tu scelga.

00:04:50.300 --> 00:04:52.265
In modo che ciò che Spark è.

00:04:52.265 --> 00:04:54.725
>> Cool. È molto repressivo.

00:04:54.725 --> 00:04:57.785
Voglio dire, Spark va bene.

00:04:57.785 --> 00:05:00.370
Quindi cosa stiamo facendo con
Spark su SQL Server?

00:05:00.370 --> 00:05:01.760
Abbiamo qualcosa?

00:05:01.760 --> 00:05:05.300
>> Così Spark è fondamentalmente ApacheSpark.

00:05:05.300 --> 00:05:07.460
È un motore di calcolo open source.

00:05:07.460 --> 00:05:09.230
Quello che abbiamo fatto in
cluster di big data,

00:05:09.230 --> 00:05:12.680
vi abbiamo portato
insieme, questo con SQL,

00:05:12.680 --> 00:05:16.995
come un unico unificato
offerta con SQL e

00:05:16.995 --> 00:05:21.070
soluzione end-to-end in cui si
non solo ottenere il motore di calcolo,

00:05:21.070 --> 00:05:23.150
si ottiene un completo
esperienza end-to-end

00:05:23.150 --> 00:05:24.785
utilizzando il motore di calcolo.

00:05:24.785 --> 00:05:26.630
>> Quindi questo significherebbe
che da Spark

00:05:26.630 --> 00:05:28.400
è stato integrato
nel cluster di Big Data,

00:05:28.400 --> 00:05:31.625
Posso interrogare i dati in

00:05:31.625 --> 00:05:32.885
il cluster di Big Data

00:05:32.885 --> 00:05:35.060
utilizzando i vecchi vantaggi si
basta descrivere da Spark.

00:05:35.060 --> 00:05:36.470
>> Esattamente. Utilizzo del client

00:05:36.470 --> 00:05:38.270
utensili che si sta
tutti familiarità con.

00:05:38.270 --> 00:05:40.330
>> Wow, che è impressionante.

00:05:40.330 --> 00:05:43.110
Wow. Quindi, come faccio a saperne di più?

00:05:43.110 --> 00:05:47.025
Voglio dire, questo suona molto nuovo
me, dove trovo qualcosa?

00:05:47.025 --> 00:05:49.529
>> Si prega di andare al grande
documentazione del cluster di dati,

00:05:49.529 --> 00:05:52.910
Documentazione del cluster di dati di SQL ServerSQL Server data cluster documentation
e troverete molto

00:05:52.910 --> 00:05:57.275
di comunicazioni e articoli su Spark.

00:05:57.275 --> 00:06:00.020
Troverete cluster di Big Data,

00:06:00.020 --> 00:06:02.855
Esempi di Spark e
Repository di esempi del server.

00:06:02.855 --> 00:06:04.660
È da lì che si inizia.

00:06:04.660 --> 00:06:06.920
>> Cool. Quindi faremo
assicurarsi di includere

00:06:06.920 --> 00:06:09.080
tali link nella descrizione,

00:06:09.080 --> 00:06:10.565
così li troverete lì.

00:06:10.565 --> 00:06:13.265
Grazie Shiv per essere venuto allo spettacolo.

00:06:13.265 --> 00:06:14.420
Grazie per aver spiegato questo.

00:06:14.420 --> 00:06:17.430
Ho imparato, finalmente, cos'è Spark.

00:06:17.430 --> 00:06:19.205
Grazie per l'attenzione.

00:06:19.205 --> 00:06:21.650
Si prega di come e iscriversi e
Spero di vederti la prossima volta.

00:06:21.650 --> 00:06:33.610
[MUSICA]

