WEBVTT

00:00:00.000 --> 00:00:03.345
SQL Server 2019 présente
groupes de données volumineuses.

00:00:03.345 --> 00:00:04.860
Il a Spark intégré.

00:00:04.860 --> 00:00:09.300
Shiv est ici pour nous dire tout sur
qu'aujourd'hui sur les données exposées.

00:00:09.300 --> 00:00:20.220
[MUSIQUE].

00:00:20.220 --> 00:00:23.085
Salut et bienvenue dans un autre
épisode de Data Exposed.

00:00:23.085 --> 00:00:25.890
Je suis votre hôte, Jeroen et
aujourd'hui, nous avons Shiv ici avec

00:00:25.890 --> 00:00:28.485
nous de parler de Spark
sur les clusters big data.

00:00:28.485 --> 00:00:29.780
Bienvenue au spectacle, Shiv.

00:00:29.780 --> 00:00:30.600
Merci, Jeroen.

00:00:30.600 --> 00:00:34.705
Alors étincelle, commençons par
l'essentiel. Qu'est-ce que Spark?

00:00:34.705 --> 00:00:38.790
Spark est un grand
moteur de traitement des données

00:00:38.790 --> 00:00:41.640
qui peut fonctionner à travers
vos charges de travail analytiques

00:00:41.640 --> 00:00:45.555
Cela n'a pas l'air très simple.

00:00:45.555 --> 00:00:47.340
Alors décomposer.

00:00:47.340 --> 00:00:47.730
D'accord.

00:00:47.730 --> 00:00:49.575
Alors, parlons d'abord de

00:00:49.575 --> 00:00:52.850
traitement des données volumineuses,
distribué des données volumineuses.

00:00:52.850 --> 00:00:54.140
Donc, ces dernières an nées,

00:00:54.140 --> 00:00:55.460
ce que nous avons vu est une tendance de

00:00:55.460 --> 00:00:57.800
entreprises collectant
beaucoup, beaucoup de données.

00:00:57.800 --> 00:00:58.265
Bien sûr.

00:00:58.265 --> 00:01:00.170
De passer de GBs de données,

00:01:00.170 --> 00:01:01.640
aujourd'hui, nous voyons une entreprise traitant

00:01:01.640 --> 00:01:04.100
téraoctets et pétaoctets de données.

00:01:04.100 --> 00:01:05.810
Maintenant, il y a un problème là-bas.

00:01:05.810 --> 00:01:09.005
Le problème est que lorsque vous
ont une si grande quantité de données,

00:01:09.005 --> 00:01:11.375
comment pouvez-vous vraiment stocker que
données, tout d'abord, non?

00:01:11.375 --> 00:01:11.960
D'accord.

00:01:11.960 --> 00:01:13.945
Donc, au début,

00:01:13.945 --> 00:01:16.580
nous avons commencé avec un seul
machine et la mise à l'échelle

00:01:16.580 --> 00:01:20.300
verticalement et ayant des téraoctets
disque dur par groupe de données.

00:01:20.300 --> 00:01:22.180
Cette mise à l'échelle verticale n'était pas vraiment

00:01:22.180 --> 00:01:24.295
la réponse pour le stockage
données distribuées.

00:01:24.295 --> 00:01:27.020
Une solution réalisable, plus meilleure,

00:01:27.020 --> 00:01:29.270
solution plus résiliente
a été distribué des données,

00:01:29.270 --> 00:01:30.830
où nous ne continuons pas à mettre à l'échelle

00:01:30.830 --> 00:01:34.265
une seule machine à prendre
sur de plus en plus de données.

00:01:34.265 --> 00:01:37.055
Ce que nous faisons, c'est que nous
distribuer les données à travers

00:01:37.055 --> 00:01:40.340
n nombre de machines plus petites et
c'est ainsi que nous stockons les données volumineuses.

00:01:40.340 --> 00:01:41.870
Donc, fondamentalement diviser et conquérir,

00:01:41.870 --> 00:01:43.050
Oui? Nous divisons le travail.

00:01:43.050 --> 00:01:43.620
Exactement.

00:01:43.620 --> 00:01:44.025
D'accord.

00:01:44.025 --> 00:01:46.040
Alors maintenant, nous avons pris soin de

00:01:46.040 --> 00:01:48.935
le problème du stockage de la
données, mais ce n'est pas tout.

00:01:48.935 --> 00:01:51.275
Le principal problème est
pas le stockage des données,

00:01:51.275 --> 00:01:54.680
le principal problème est que j'ai besoin
pour obtenir des informations sur ces données.

00:01:54.680 --> 00:01:56.105
Quand vous le traitez,

00:01:56.105 --> 00:01:57.590
c'est là que la valeur est, non?

00:01:57.590 --> 00:01:59.180
Exactement. Ainsi, le traitement des

00:01:59.180 --> 00:02:02.340
ces données distribuées
nécessite des moteurs différents.

00:02:02.340 --> 00:02:07.100
Spark est un calcul de Big Data
moteur qui peut fonctionner à travers

00:02:07.100 --> 00:02:12.200
données distribuées et calcul
et faire vos charges de travail à ce sujet.

00:02:12.200 --> 00:02:16.715
Ce n'est tout simplement pas un distribué
moteur de calcul big data,

00:02:16.715 --> 00:02:19.010
c'est aussi quelque chose
que les résumés sur

00:02:19.010 --> 00:02:21.590
les détails de la distribution de votre part.

00:02:21.590 --> 00:02:22.880
En tant qu'utilisateur de Spark,

00:02:22.880 --> 00:02:25.190
vous n'aurez pas à vous soucier
tous les détails de la distribution,

00:02:25.190 --> 00:02:27.650
c'est toute la beauté autour de Spark.

00:02:27.650 --> 00:02:31.130
Donc, vous venez de lui donner un
affectation et il va comprendre

00:02:31.130 --> 00:02:33.035
comment distribuer le travail et

00:02:33.035 --> 00:02:35.420
se faire aussi vite que
possible, je l'espère.

00:02:35.420 --> 00:02:38.840
C'est vrai. Lorsque vous traitez
avec ce genre de données,

00:02:38.840 --> 00:02:42.320
vous ne voulez pas être attaché
à une langue particulière.

00:02:42.320 --> 00:02:45.470
Tu es comme si c'était un gros
moteur de calcul des données et maintenant

00:02:45.470 --> 00:02:48.290
vous utilisez le langage flashy qui
J'ai inventé pour traiter ça.

00:02:48.290 --> 00:02:50.480
Donc Spark fait quelque chose
très belle là-bas.

00:02:50.480 --> 00:02:52.235
Spark vous donne un choix de langue.

00:02:52.235 --> 00:02:54.680
Si vous êtes un programmeur Python,

00:02:54.680 --> 00:02:57.350
vous pouvez programmer dans
Python, Scala, Java,

00:02:57.350 --> 00:03:01.190
R. R est très populaire sur
nos scientifiques de données et

00:03:01.190 --> 00:03:04.760
Spark vous donne la possibilité
d'utiliser R pour vos charges de travail.

00:03:04.760 --> 00:03:09.050
De sorte que ce qui est Spark comme un
distribué Compute Engine.

00:03:09.050 --> 00:03:11.105
Donc, en gros, vous avez dit

00:03:11.105 --> 00:03:13.850
restaurer différemment, mais
c'est quelque chose que nous avons fait pour

00:03:13.850 --> 00:03:16.920
big data en raison de
le problème de la mise à l'échelle

00:03:16.920 --> 00:03:18.450
vers le haut tout le temps avec la mise à l'échelle

00:03:18.450 --> 00:03:20.415
et maintenant nous évoluons
aussi. Oui?

00:03:20.415 --> 00:03:20.790
C'est vrai.

00:03:20.790 --> 00:03:23.075
Alors Spark travaille sur
la couche distribuée

00:03:23.075 --> 00:03:24.320
et vous donne la flexibilité de

00:03:24.320 --> 00:03:25.580
choisir la langue de choix.

00:03:25.580 --> 00:03:29.180
Oui, c'est vrai. Il y avait encore un peu
[inaudible] dans ma phrase.

00:03:29.180 --> 00:03:31.520
Je t'ai dit quelque chose sur
un moteur de calcul unifié.

00:03:31.520 --> 00:03:34.120
Donc, nous allons trancher et couper en dés que un peu.

00:03:34.120 --> 00:03:39.170
Comme nous l'avons vu, les entreprises ont commencé
obtenir de plus en plus de données.

00:03:39.170 --> 00:03:41.420
Les
charges de travail passent également de

00:03:41.420 --> 00:03:45.320
charges de travail des transactions aux charges de travail
qui sont de nature analytique.

00:03:45.320 --> 00:03:47.730
Qu'entendons-nous par charge de travail analytique?

00:03:47.730 --> 00:03:51.290
Charge de travail là où j'analyse
beaucoup de données pour obtenir

00:03:51.290 --> 00:03:53.180
idées hors de lui et

00:03:53.180 --> 00:03:56.645
alors peut-être faire de la machine
l'apprentissage ou l'apprentissage profond.

00:03:56.645 --> 00:03:59.750
Si traditionnellement, la phase de

00:03:59.750 --> 00:04:03.095
les charges de travail des transactions ont également
aux charges de travail analytiques.

00:04:03.095 --> 00:04:06.920
Les charges de travail analytiques avaient une variété
de charges de travail provenant de l'apprentissage profond,

00:04:06.920 --> 00:04:10.120
apprentissage automatique, analytique
et les charges de travail en continu.

00:04:10.120 --> 00:04:12.990
Maintenant, chacun de ces
charges de travail que vous ne voulez pas

00:04:12.990 --> 00:04:17.120
un moteur de calcul séparé pour
vraiment construire vos compétences sur.

00:04:17.120 --> 00:04:18.530
Idéalement, vous en apprendrez un.

00:04:18.530 --> 00:04:20.840
Exactement. C'est ce que fait Spark.

00:04:20.840 --> 00:04:24.110
Spark est un calcul unifié
moteur qui vous permet de travailler

00:04:24.110 --> 00:04:27.690
sur toutes ces charges de travail avec
le même ensemble de principes.

00:04:27.690 --> 00:04:29.875
C'est ça, Spark.

00:04:29.875 --> 00:04:32.795
Un calcul distribué
moteur qui extrait

00:04:32.795 --> 00:04:35.750
les détails du travail
distribution de votre part.

00:04:35.750 --> 00:04:39.545
Il ne vous a pas la peine
sur les détails de la distribution.

00:04:39.545 --> 00:04:42.230
Deuxièmement, un calcul unifié
moteur et surtout,

00:04:42.230 --> 00:04:45.245
que je trouve comme un très
fonctionnalité de développeur puissant,

00:04:45.245 --> 00:04:47.990
il vous offre le choix de la langue
où vous pouvez utiliser Python,

00:04:47.990 --> 00:04:50.300
Scala, Java ou R,
ce que vous choisissez.

00:04:50.300 --> 00:04:52.265
Alors que ce qu'est Spark.

00:04:52.265 --> 00:04:54.725
Cool. C'est très répressif.

00:04:54.725 --> 00:04:57.785
Je veux dire, Spark c'est très bien.

00:04:57.785 --> 00:05:00.370
Alors, qu'est-ce qu'on fait avec
Spark sur SQL Server?

00:05:00.370 --> 00:05:01.760
On a quelque chose ?

00:05:01.760 --> 00:05:05.300
Donc Spark est essentiellement ApacheSpark.

00:05:05.300 --> 00:05:07.460
C'est un moteur de calcul open source.

00:05:07.460 --> 00:05:09.230
Ce que nous avons fait en
les clusters big data,

00:05:09.230 --> 00:05:12.680
nous vous avons apporté
ensemble, ceci avec SQL,

00:05:12.680 --> 00:05:16.995
comme un seul unifié
offre avec SQL et

00:05:16.995 --> 00:05:21.070
solution de bout en bout où vous
pas seulement obtenir le moteur de calcul,

00:05:21.070 --> 00:05:23.150
vous obtenez un complet
expérience de bout en bout

00:05:23.150 --> 00:05:24.785
sur l'utilisation du moteur de calcul.

00:05:24.785 --> 00:05:26.630
Donc, cela signifierait
que depuis Spark

00:05:26.630 --> 00:05:28.400
a été intégré
dans le cluster Big Data,

00:05:28.400 --> 00:05:31.625
Je peux interroger les données dans

00:05:31.625 --> 00:05:32.885
le cluster Big Data

00:05:32.885 --> 00:05:35.060
en utilisant les anciens avantages que vous
juste décrire de Spark.

00:05:35.060 --> 00:05:36.470
Exactement. Utilisation du client

00:05:36.470 --> 00:05:38.270
outillage que vous êtes
tous familiers avec.

00:05:38.270 --> 00:05:40.330
Wow, c'est impressionnant.

00:05:40.330 --> 00:05:43.110
Wow. Alors, comment puis-je en apprendre davantage?

00:05:43.110 --> 00:05:47.025
Je veux dire, cela semble très nouveau pour
moi, où puis-je trouver quelque chose?

00:05:47.025 --> 00:05:49.529
S'il vous plaît aller à la grande
documentation du cluster de données,

00:05:49.529 --> 00:05:52.910
Documentation du cluster de données SQL Server
et vous trouverez beaucoup

00:05:52.910 --> 00:05:57.275
de comms et d'articles sur Spark.

00:05:57.275 --> 00:06:00.020
Vous trouverez des clusters big data,

00:06:00.020 --> 00:06:02.855
Exemples d'étincelles et le SQL
Dépôt d'échantillons de serveur.

00:06:02.855 --> 00:06:04.660
C'est là que vous démarrez.

00:06:04.660 --> 00:06:06.920
Cool. Donc, nous allons
assurez-vous d'inclure

00:06:06.920 --> 00:06:09.080
ces liens dans la description,

00:06:09.080 --> 00:06:10.565
de sorte que vous les trouverez là-bas.

00:06:10.565 --> 00:06:13.265
Merci Shiv d'être venu au spectacle.

00:06:13.265 --> 00:06:14.420
Merci de l'avoir expliqué.

00:06:14.420 --> 00:06:17.430
J'ai appris, enfin, ce qu'est Spark.

00:06:17.430 --> 00:06:19.205
Merci d'avoir regardé.

00:06:19.205 --> 00:06:21.650
S'il vous plaît aimer et vous abonner et
J'espère vous voir la prochaine fois.

00:06:21.650 --> 00:06:33.610
[MUSIQUE]

