WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 stellt vor
Big-Data-Cluster.

00:00:03.345 --> 00:00:04.860
Es hat Spark integriert.

00:00:04.860 --> 00:00:09.300
Shiv ist hier, um uns alles über
die heute auf Data Exposed.

00:00:09.300 --> 00:00:20.220
[MUSIK].

00:00:20.220 --> 00:00:23.085
>> Hallo und willkommen zu einem anderen
Episode von Data Exposed.

00:00:23.085 --> 00:00:25.890
Ich bin dein Gastgeber, Jeroen und
heute haben wir Shiv hier mit

00:00:25.890 --> 00:00:28.485
wir über Spark sprechen
auf Big-Data-Clustern.

00:00:28.485 --> 00:00:29.780
Also willkommen in der Show, Shiv.

00:00:29.780 --> 00:00:30.600
>> Danke, Jeroen.

00:00:30.600 --> 00:00:34.705
>> Also Funke, fangen wir an
die Grundlagen. Was ist Spark?

00:00:34.705 --> 00:00:38.790
>> Spark ist ein vereinter großer
Datenverarbeitungs-Engine

00:00:38.790 --> 00:00:41.640
die quer durch die
Ihre analytischen Workloads

00:00:41.640 --> 00:00:45.555
>> Das klingt nicht ganz einfach.

00:00:45.555 --> 00:00:47.340
>> Also brechen wir es auf.

00:00:47.340 --> 00:00:47.730
>> Okay.

00:00:47.730 --> 00:00:49.575
>> Also lassen Sie uns zuerst über

00:00:49.575 --> 00:00:52.850
Big-Data-Verarbeitung,
verteilte Big Data.

00:00:52.850 --> 00:00:54.140
Also in den letzten Jahren,

00:00:54.140 --> 00:00:55.460
was wir gesehen haben, ist ein Trend

00:00:55.460 --> 00:00:57.800
Unternehmen, die
viele und viele Daten.

00:00:57.800 --> 00:00:58.265
>> Sicher.

00:00:58.265 --> 00:01:00.170
>> Von GBs von Daten,

00:01:00.170 --> 00:01:01.640
heute sehen wir ein Unternehmen, das

00:01:01.640 --> 00:01:04.100
mit Terabytes und Petabytes an Daten.

00:01:04.100 --> 00:01:05.810
Jetzt gibt es ein Problem.

00:01:05.810 --> 00:01:09.005
Das Problem ist, dass, wenn Sie
über einen so großen Datenumfang verfügen,

00:01:09.005 --> 00:01:11.375
wie speichern Sie das wirklich?
Daten, zuallererst, richtig?

00:01:11.375 --> 00:01:11.960
>> Okay.

00:01:11.960 --> 00:01:13.945
>> Also am Anfang,

00:01:13.945 --> 00:01:16.580
begannen wir mit einem einzigen
Maschine und skalieren

00:01:16.580 --> 00:01:20.300
vertikal und mit Terabytes
der Festplatte pro Datengruppe.

00:01:20.300 --> 00:01:22.180
Diese vertikale Skalierung war nicht wirklich

00:01:22.180 --> 00:01:24.295
die Antwort für die Speicherung
verteilten Daten.

00:01:24.295 --> 00:01:27.020
Eine machbare, bessere Lösung,

00:01:27.020 --> 00:01:29.270
mehr Resilienzlösung
verteilten Daten,

00:01:29.270 --> 00:01:30.830
wo wir nicht weiter skalieren

00:01:30.830 --> 00:01:34.265
eine einzige Maschine, um
auf immer mehr Daten.

00:01:34.265 --> 00:01:37.055
Was wir tun, ist, dass wir
Verteilen der Daten auf

00:01:37.055 --> 00:01:40.340
n Anzahl kleinerer Maschinen und
So speichern wir Big Data.

00:01:40.340 --> 00:01:41.870
>> Also im Grunde teilen und erobern,

00:01:41.870 --> 00:01:43.050
Richting? Wir teilen die Arbeit.

00:01:43.050 --> 00:01:43.620
>> Genau.

00:01:43.620 --> 00:01:44.025
>> Okay.

00:01:44.025 --> 00:01:46.040
>> Jetzt haben wir uns um

00:01:46.040 --> 00:01:48.935
das Problem der Speicherung der
Daten, aber das ist nicht alles.

00:01:48.935 --> 00:01:51.275
Das Hauptproblem ist
nicht die Speicherung von Daten,

00:01:51.275 --> 00:01:54.680
das Hauptproblem ist, dass ich
um Einblicke in diese Daten zu gewinnen.

00:01:54.680 --> 00:01:56.105
>> Wenn Sie es verarbeiten,

00:01:56.105 --> 00:01:57.590
Das ist, wo der Wert ist, nicht wahr?

00:01:57.590 --> 00:01:59.180
>> Genau. So ist die Verarbeitung von

00:01:59.180 --> 00:02:02.340
Diese verteilten Daten
erfordert unterschiedliche Motoren.

00:02:02.340 --> 00:02:07.100
Spark ist ein Big Data-Computing
Motor, der quer durch

00:02:07.100 --> 00:02:12.200
verteilte Daten und Rechendaten
und machen Sie Ihre Workloads darauf.

00:02:12.200 --> 00:02:16.715
Es ist einfach kein verteiltes
Big Data Compute Engine,

00:02:16.715 --> 00:02:19.010
es ist auch etwas
die über

00:02:19.010 --> 00:02:21.590
die Details der Verteilung von Ihnen.

00:02:21.590 --> 00:02:22.880
Als Nutzer von Spark

00:02:22.880 --> 00:02:25.190
Sie müssen sich nicht um
alle Details der Verteilung,

00:02:25.190 --> 00:02:27.650
das ist die ganze Schönheit rund um Spark.

00:02:27.650 --> 00:02:31.130
>> Also geben Sie ihm einfach eine
Aufgabe und es wird herausfinden,

00:02:31.130 --> 00:02:33.035
wie die Arbeit zu verteilen und

00:02:33.035 --> 00:02:35.420
so schnell wie möglich durchgeführt werden,
möglich, hoffentlich.

00:02:35.420 --> 00:02:38.840
>> Richtig. Wenn Sie es mit
mit solchen Daten,

00:02:38.840 --> 00:02:42.320
Sie wollen nicht gefesselt werden
einer bestimmten Sprache.

00:02:42.320 --> 00:02:45.470
Du bist, als ob dies ein großer
Daten-Compute-Engine und jetzt

00:02:45.470 --> 00:02:48.290
Sie verwenden die auffällige Sprache, die
Ich habe erfunden, um das zu verarbeiten.

00:02:48.290 --> 00:02:50.480
Spark tut also etwas
sehr schön dort.

00:02:50.480 --> 00:02:52.235
Spark gibt Ihnen eine Wahl der Sprache.

00:02:52.235 --> 00:02:54.680
Wenn Sie ein Python-Programmierer sind,

00:02:54.680 --> 00:02:57.350
Können Sie in
Python, Scala, Java,

00:02:57.350 --> 00:03:01.190
R. R ist sehr beliebt bei
unsere Datenwissenschaftler und

00:03:01.190 --> 00:03:04.760
Spark gibt Ihnen die Möglichkeit,
, um R für Ihre Workloads zu verwenden.

00:03:04.760 --> 00:03:09.050
Damit das, was Spark als
verteilte Compute Engine.

00:03:09.050 --> 00:03:11.105
>> Also im Grunde haben Sie gesagt,

00:03:11.105 --> 00:03:13.850
es anders wiederherstellen, aber
das haben wir für

00:03:13.850 --> 00:03:16.920
Big Data wegen
das Problem der Skalierung

00:03:16.920 --> 00:03:18.450
immer nach oben mit Skalierung

00:03:18.450 --> 00:03:20.415
up und jetzt skalieren wir
auch. Richting?

00:03:20.415 --> 00:03:20.790
>> Richtig.

00:03:20.790 --> 00:03:23.075
>> Dann arbeitet Spark weiter
die verteilte Ebene

00:03:23.075 --> 00:03:24.320
und gibt Ihnen die Flexibilität,

00:03:24.320 --> 00:03:25.580
die Wahl der Sprache der Wahl zu.

00:03:25.580 --> 00:03:29.180
>> Ja. Es gab noch ein bisschen
[unhörbar] in meinen Satz.

00:03:29.180 --> 00:03:31.520
Ich habe Ihnen etwas über
eine einheitliche Compute Engine.

00:03:31.520 --> 00:03:34.120
Also lassen Sie uns das ein bisschen schneiden und würfeln.

00:03:34.120 --> 00:03:39.170
Wie wir gesehen haben, begannen Unternehmen
immer mehr Daten.

00:03:39.170 --> 00:03:41.420
Die traditionelle
Workloads werden auch von

00:03:41.420 --> 00:03:45.320
Transaktions-Workloads in Workloads
die analytischen Natur sind.

00:03:45.320 --> 00:03:47.730
Was verstehen wir unter analytischer Arbeitsbelastung?

00:03:47.730 --> 00:03:51.290
Workload, bei der ich analysiere
viele Daten, um

00:03:51.290 --> 00:03:53.180
Einblicke aus ihm und

00:03:53.180 --> 00:03:56.645
dann vielleicht Maschine tun
Lernen oder Deep Learning.

00:03:56.645 --> 00:03:59.750
Traditionell ist die Phase von

00:03:59.750 --> 00:04:03.095
die Transaktions-Workloads auch
auf analytische Workloads verschoben.

00:04:03.095 --> 00:04:06.920
Analytische Workloads hatten eine Vielzahl
Arbeitsbelastungen aus Deep Learning,

00:04:06.920 --> 00:04:10.120
maschinelles Lernen, Analytik
und Streaming-Workloads.

00:04:10.120 --> 00:04:12.990
Nun, jeder dieser
Workloads, die Sie nicht möchten

00:04:12.990 --> 00:04:17.120
eine separate Compute-Engine, um
ihre Fähigkeiten wirklich auf.

00:04:17.120 --> 00:04:18.530
>> Idealerweise würde man einen lernen.

00:04:18.530 --> 00:04:20.840
>> Genau. Das macht Spark.

00:04:20.840 --> 00:04:24.110
Spark ist ein einheitlicher Rechen-
Motor, mit dem Sie arbeiten können

00:04:24.110 --> 00:04:27.690
über all diese Workloads hinweg mit
die gleichen Grundsätze.

00:04:27.690 --> 00:04:29.875
Darum geht es bei Spark.

00:04:29.875 --> 00:04:32.795
Eine verteilte Berechnung
Motor, der herauszieht

00:04:32.795 --> 00:04:35.750
die Details der Arbeit
Verteilung von Ihnen.

00:04:35.750 --> 00:04:39.545
Es hat Sie nicht die Mühe
über Verteilungsdetails.

00:04:39.545 --> 00:04:42.230
Zweitens ist eine einheitliche
Motor und vor allem,

00:04:42.230 --> 00:04:45.245
die ich als eine sehr
leistungsstarke Entwicklerfunktion,

00:04:45.245 --> 00:04:47.990
es bietet Ihnen die Wahl der Sprache
wo Sie Python verwenden könnten,

00:04:47.990 --> 00:04:50.300
Scala, Java oder R,
was auch immer Sie wählen.

00:04:50.300 --> 00:04:52.265
Also, dass, was Spark ist.

00:04:52.265 --> 00:04:54.725
>> Cool. Das ist sehr repressiv.

00:04:54.725 --> 00:04:57.785
Ich meine, Spark, das ist in Ordnung.

00:04:57.785 --> 00:05:00.370
Was machen wir also mit
Funken auf SQL Server?

00:05:00.370 --> 00:05:01.760
Haben wir etwas?

00:05:01.760 --> 00:05:05.300
>> Spark ist also im Grunde ApacheSpark.

00:05:05.300 --> 00:05:07.460
Es ist Open-Source-Computing-Engine.

00:05:07.460 --> 00:05:09.230
Was wir in
Big-Data-Cluster,

00:05:09.230 --> 00:05:12.680
wir haben Sie gebracht
zusammen, dies mit SQL,

00:05:12.680 --> 00:05:16.995
als eine einheitliche
Angebot mit SQL und

00:05:16.995 --> 00:05:21.070
End-to-End-Lösung, bei der Sie
nicht nur die Rechenmaschine zu bekommen,

00:05:21.070 --> 00:05:23.150
Sie erhalten eine komplette
End-to-End-Erfahrung

00:05:23.150 --> 00:05:24.785
mit der Compute-Engine.

00:05:24.785 --> 00:05:26.630
>> Das würde also bedeuten,
dass seit Spark

00:05:26.630 --> 00:05:28.400
wurde integriert
im Big Data Cluster,

00:05:28.400 --> 00:05:31.625
Ich kann die Daten in

00:05:31.625 --> 00:05:32.885
der Big Data-Cluster

00:05:32.885 --> 00:05:35.060
Verwendung alter Vorteile
nur von Spark beschreiben.

00:05:35.060 --> 00:05:36.470
>> Genau. Verwenden des Clients

00:05:36.470 --> 00:05:38.270
Werkzeuge, die Sie sind
alle vertraut.

00:05:38.270 --> 00:05:40.330
>> Wow, das ist beeindruckend.

00:05:40.330 --> 00:05:43.110
Beeindruckend. Wie lerne ich also mehr?

00:05:43.110 --> 00:05:47.025
Ich meine, das klingt sehr neu
ich, wo finde ich etwas?

00:05:47.025 --> 00:05:49.529
>> Bitte gehen Sie zum großen
Datencluster-Dokumentation,

00:05:49.529 --> 00:05:52.910
SQL Server-Datenclusterdokumentation
und Sie werden eine Menge finden

00:05:52.910 --> 00:05:57.275
von Komms und Artikeln über Spark.

00:05:57.275 --> 00:06:00.020
Sie finden Big-Data-Cluster,

00:06:00.020 --> 00:06:02.855
Spark-Beispiele und die SQL
Server-Beispiel-Repository.

00:06:02.855 --> 00:06:04.660
Hier geht es los.

00:06:04.660 --> 00:06:06.920
>> Cool. Also werden wir
Stellen Sie sicher, dass

00:06:06.920 --> 00:06:09.080
diese Links in der Beschreibung,

00:06:09.080 --> 00:06:10.565
so finden Sie sie dort.

00:06:10.565 --> 00:06:13.265
Danke Shiv für die Show.

00:06:13.265 --> 00:06:14.420
Vielen Dank, dass Sie dies erklärt haben.

00:06:14.420 --> 00:06:17.430
Endlich habe ich gelernt, was Spark ist.

00:06:17.430 --> 00:06:19.205
Danke fürs Zuschauen.

00:06:19.205 --> 00:06:21.650
Bitte mögen und abonnieren Sie und
Ich hoffe, Sie das nächste Mal zu sehen.

00:06:21.650 --> 00:06:33.610
[MUSIK]

