WEBVTT

00:00:00.000 --> 00:00:02.745
Les clusters Big Data fournissent

00:00:02.745 --> 00:00:05.640
un moyen de garder le cluster
fiable en permettant

00:00:05.640 --> 00:00:08.460
haute disponibilité pour les critiques
composants et Mihaela est

00:00:08.460 --> 00:00:12.120
ici pour nous dire tout sur
il aujourd'hui sur les données exposées.

00:00:12.120 --> 00:00:23.400
[MUSIQUE]

00:00:23.400 --> 00:00:26.475
Salut, et bienvenue dans un autre
épisode de Data Exposed.

00:00:26.475 --> 00:00:30.480
Je suis ton hôte Jeroen et aujourd'hui
nous avons Mihaela avec nous pour parler

00:00:30.480 --> 00:00:32.265
sur les clusters big data, puis

00:00:32.265 --> 00:00:34.970
spécifiquement le haut
disponibilité pour eux.

00:00:34.970 --> 00:00:37.655
Bienvenue. C'est un must
être le quatrième temps, je pense.

00:00:37.655 --> 00:00:39.560
Oui, c'est vrai. Je vous remercie. Remercier
vous pour m'avoir eu ici.

00:00:39.560 --> 00:00:40.985
Oui, c'est vrai. Tu deviens une sonde.

00:00:40.985 --> 00:00:43.550
Donc, la plupart des sujets que vous parlez

00:00:43.550 --> 00:00:46.445
à propos est clusters Big Data
et aujourd'hui n'est pas différent.

00:00:46.445 --> 00:00:48.345
Mais alors haute disponibilité, non?

00:00:48.345 --> 00:00:50.780
Oui, c'est vrai. Il y a donc
beaucoup de choses à

00:00:50.780 --> 00:00:53.360
parler de quand il s'agit
à haute disponibilité.

00:00:53.360 --> 00:00:54.155
D'accord.

00:00:54.155 --> 00:00:57.590
Nous allons passer par certains
de ces aspects dans cette vidéo.

00:00:57.590 --> 00:00:59.785
D'accord. Cool. Commençons.

00:00:59.785 --> 00:01:05.745
Donc, quand on parle de données
en particulier et les bases de données,

00:01:05.745 --> 00:01:07.800
nous voulons nous assurer que
données est la persistance.

00:01:07.800 --> 00:01:09.110
Donc, je veux juste commencer par

00:01:09.110 --> 00:01:13.430
ce discours de haute disponibilité
avec le récapitulatif de stockage.

00:01:13.430 --> 00:01:13.650
D'accord.

00:01:13.650 --> 00:01:14.850
Si différentes couches dans

00:01:14.850 --> 00:01:17.840
le cluster Big Data ont
différentes options de stockage.

00:01:17.840 --> 00:01:20.180
Soit vous pouvez faire un stockage local ou

00:01:20.180 --> 00:01:23.150
à distance et nous l'avons fait aussi granulaire que

00:01:23.150 --> 00:01:25.970
vous pouvez opter pour local ou à distance

00:01:25.970 --> 00:01:28.895
selon que vous voulez
stocker des données, ou les journaux.

00:01:28.895 --> 00:01:33.680
Donc, les journaux que vous ne voulez pas
nécessairement pour le rendre redondant

00:01:33.680 --> 00:01:36.865
parce que vous pourriez en avoir besoin pour

00:01:36.865 --> 00:01:40.930
dépannage, mais alors vous
ne veulent pas les garder pour toujours.

00:01:41.090 --> 00:01:42.190
[inaudible].

00:01:42.190 --> 00:01:44.840
Exactement. Donc, quand
nous parlons de journaux est

00:01:44.840 --> 00:01:48.140
surtout que vous voulez garder
eux sur un stockage local

00:01:48.140 --> 00:01:52.355
surtout parce que nous parlions
dans la dernière vidé o que nous avons

00:01:52.355 --> 00:01:54.590
composants dans les clusters qui sont

00:01:54.590 --> 00:01:57.410
collecte de ces journaux et sont
à partir d'une recherche élastique.

00:01:57.410 --> 00:02:01.615
Donc, vous avez déjà quelques
dépendance à cet aspect.

00:02:01.615 --> 00:02:04.410
Quand il s'agit de données,
divers composants

00:02:04.410 --> 00:02:08.270
ont des exigences différentes
en fonction de la façon dont

00:02:08.270 --> 00:02:10.730
une mission critique sont et s'il ya

00:02:10.730 --> 00:02:15.140
toutes les données utilisateur stockées
pour les données par exemple,

00:02:15.140 --> 00:02:20.030
SQL Server maître ou stockage
comme les données HDFS est conservée.

00:02:20.030 --> 00:02:22.955
Vous voulez maintenir
redondance pour cela.

00:02:22.955 --> 00:02:28.445
Mais Compute pool ou Spark,

00:02:28.445 --> 00:02:30.695
il n'y a pas d'État.

00:02:30.695 --> 00:02:33.380
Ce ne sont que des calculs.
Donc ça ne sert à rien

00:02:33.380 --> 00:02:36.560
pour ajouter des
redondance au stockage.

00:02:36.560 --> 00:02:38.225
Exactement. Ainsi, vous pouvez choisir local.

00:02:38.225 --> 00:02:39.470
Donc, nous parlons ici de

00:02:39.470 --> 00:02:42.260
différentes options qui
vous devez vous assurer

00:02:42.260 --> 00:02:44.810
la fiabilité de ces services

00:02:44.810 --> 00:02:46.400
lorsqu'il s'agit de la persistance des données.

00:02:46.400 --> 00:02:47.620
D'accord.

00:02:47.620 --> 00:02:51.575
C'est là que nous continuons
avec les options HA, non?

00:02:51.575 --> 00:02:55.985
Donc, pour SQL Server master si votre
histoire dans vos données localement,

00:02:55.985 --> 00:02:57.725
vous devez vous assurer que vous ajoutez

00:02:57.725 --> 00:02:59.675
une redondance supplémentaire à ce que

00:02:59.675 --> 00:03:01.340
avec les groupes de disponibilité
et nous allons

00:03:01.340 --> 00:03:04.160
voir sous peu comment est-ce que cela a permis.

00:03:04.160 --> 00:03:05.990
Quand il s'agit de pool de données,

00:03:05.990 --> 00:03:13.970
vous utilisez des PV dans des combinateurs pour
s'assurer que les données sont persistantes.

00:03:13.970 --> 00:03:15.350
Donc, c'est juste des PV, non ?

00:03:15.350 --> 00:03:16.505
Il y a beaucoup d'acronymes ici.

00:03:16.505 --> 00:03:17.240
Oui, c'est vrai.

00:03:17.240 --> 00:03:21.110
Par exemple PV, HA, tout ce que LE PV est?

00:03:21.110 --> 00:03:25.175
- Suggère DES PV c'est
un concept Kubernetes

00:03:25.175 --> 00:03:28.250
qui résume la couche de stockage de

00:03:28.250 --> 00:03:32.090
Kubernetes et assure si vous êtes
en utilisant des volumes persistants.

00:03:32.090 --> 00:03:35.270
Donc, la notion est la persistance des données.

00:03:35.270 --> 00:03:37.010
Donc, si vous utilisez
volume persistant est-il

00:03:37.010 --> 00:03:38.840
signifie que Kubernetes assure que

00:03:38.840 --> 00:03:42.440
données sont conservées sur ce stockage.

00:03:42.440 --> 00:03:43.580
D'accord. Je l'ai.

00:03:43.580 --> 00:03:46.655
Encore une fois, ce n'est pas nécessaire de s'assurer

00:03:46.655 --> 00:03:49.435
haute disponibilité pour le calcul
parce que c'est apatride.

00:03:49.435 --> 00:03:52.110
Il a des composants critiques

00:03:52.110 --> 00:03:53.870
dans la pile Hadoop
droit quand il s'agit de

00:03:53.870 --> 00:03:56.600
HDFS NameNode et quelques Spark partagés

00:03:56.600 --> 00:04:00.545
services dont vous avez besoin pour
permettre une grande disponibilité pour,

00:04:00.545 --> 00:04:03.020
et très important que je
voulez mettre en évidence ici

00:04:03.020 --> 00:04:09.000
le service de contrôle que vous devez
ont non seulement un volume persistant,

00:04:09.000 --> 00:04:11.490
vous devez ajouter un peu
redondance à cette histoire.

00:04:11.490 --> 00:04:14.135
Donc, il doit être un peu
stockage redondant à distance.

00:04:14.135 --> 00:04:16.940
Ne gardez pas votre contrôle [inaudible]

00:04:16.940 --> 00:04:21.410
localement parce que si cela
noeud est le dernier ici,

00:04:21.410 --> 00:04:23.960
à peu près ensemble cluster est
pas dans un très contraint.

00:04:23.960 --> 00:04:28.130
D'accord. Donc, le contrôle ont
Les PV sur un stockage à distance?

00:04:28.130 --> 00:04:29.270
À distance et redondant.

00:04:29.270 --> 00:04:31.100
Donc, vous devez faire
sûr qu'ils ajoutent

00:04:31.100 --> 00:04:33.005
une certaine redondance à cette couche.

00:04:33.005 --> 00:04:34.710
D'accord. Noté.

00:04:34.710 --> 00:04:37.290
Alors maintenant, voyons
ce que cela signifie pour

00:04:37.290 --> 00:04:41.085
SQL Server master et
permettant AG pour cela.

00:04:41.085 --> 00:04:45.095
Donc, c'est un schéma ou

00:04:45.095 --> 00:04:50.045
comment la mise en page de divers services
qui forment le serveur SQL,

00:04:50.045 --> 00:04:55.190
couche de haute disponibilité
pour SQL Server master.

00:04:55.190 --> 00:04:57.020
Encore une fois, nous avons une primaire qui

00:04:57.020 --> 00:05:00.785
est au moins deux secondaires
synchrone droite,

00:05:00.785 --> 00:05:04.670
et nous avons construit des composants qui

00:05:04.670 --> 00:05:08.985
s'assurent qu'il y a
est la surveillance automatique,

00:05:08.985 --> 00:05:11.370
échec automatique
et l'orchestration.

00:05:11.370 --> 00:05:12.960
Si quelque chose se passe avec une primaire,

00:05:12.960 --> 00:05:17.675
ça arrive automatiquement, il y a
n'est pas nécessaire de faire quoi que ce soit.

00:05:17.675 --> 00:05:20.330
Une chose que je veux
pour mettre en évidence ici est

00:05:20.330 --> 00:05:23.870
que pour le cluster Big Data
seulement à ce moment,,

00:05:23.870 --> 00:05:27.755
nous permettons aussi ce que nous appelons un
Groupe de disponibilité contenu,

00:05:27.755 --> 00:05:30.920
ce qui signifie que maintenant les objets que

00:05:30.920 --> 00:05:33.920
vous stockez en maître par exemple comme

00:05:33.920 --> 00:05:40.190
les connexions sont également reproduites
aux secondaires, non?

00:05:40.190 --> 00:05:40.380
D'accord.

00:05:40.380 --> 00:05:43.880
Donc, jusqu'à présent, c'est
le long nous envoient de

00:05:43.880 --> 00:05:45.770
nos clients à faire
s'assurer que les connexions

00:05:45.770 --> 00:05:47.930
sont également reproduits autrement,

00:05:47.930 --> 00:05:49.610
il ya beaucoup d'accusations et

00:05:49.610 --> 00:05:51.935
réplication manuelle qu'ils avaient à faire.

00:05:51.935 --> 00:05:55.290
En ce moment automatiquement
tout est pris en charge.

00:05:55.290 --> 00:05:57.060
Donc, à partir du déploiement, de l'ajout

00:05:57.060 --> 00:05:59.130
bases de données aux groupes de disponibilité,

00:05:59.130 --> 00:06:05.330
à l'ajout de ce maître répliqué
groupes de disponibilité des bases de données.

00:06:05.330 --> 00:06:08.555
Il n'y a donc pas grand-chose, voire aucun

00:06:08.555 --> 00:06:13.130
entre la gestion opérationnelle des

00:06:13.130 --> 00:06:16.620
le groupe de disponibilité.
C'est plutôt génial.

00:06:16.620 --> 00:06:18.660
Oui, c'est vrai. C'est vraiment
Génial. J'allais dire.

00:06:18.660 --> 00:06:21.230
Donc, mais vous avez mentionné
groupes de disponibilité maintenant, non?

00:06:21.230 --> 00:06:21.390
Oui, c'est vrai.

00:06:21.390 --> 00:06:24.330
C'est l'habitué ?

00:06:24.330 --> 00:06:27.200
Oui, c'est vrai. Il est exactement
la même caractéristique que nous

00:06:27.200 --> 00:06:30.050
tous savent de SQL Server 2012, non?

00:06:30.050 --> 00:06:30.605
Oui, c'est vrai.

00:06:30.605 --> 00:06:33.440
Une chose qui
c'est très important.

00:06:33.440 --> 00:06:35.960
Il n'existe pas d'autre technologie de cluster

00:06:35.960 --> 00:06:39.365
que vous allez devoir
déployer ou s'intégrer.

00:06:39.365 --> 00:06:41.445
C'est tout ce qu'on a pris en charge,

00:06:41.445 --> 00:06:44.590
les services qui déploient
avec le superviseur de l'HA,

00:06:44.590 --> 00:06:45.730
l'opérateur et de

00:06:45.730 --> 00:06:49.840
bien sûr étroitement s'intégrer avec
Kubernetes en écrivant cette affaire.

00:06:49.840 --> 00:06:52.560
Nous profitons donc
de ces plates-formes.

00:06:52.560 --> 00:06:54.100
Donc, plus de technologie de cluster.

00:06:54.100 --> 00:06:56.650
Donc, c'est génial pour le mastering.

00:06:56.650 --> 00:07:00.510
Alors maintenant, je fais confiance au maître
instances est très bien.

00:07:00.510 --> 00:07:02.250
Mais il y a plus dans BDC, non?

00:07:02.250 --> 00:07:03.965
Nous ne faisons pas seulement un serveur SQL,

00:07:03.965 --> 00:07:05.980
nous faisons [inaudible]
choses connexes.

00:07:05.980 --> 00:07:07.510
Alors dis-moi.

00:07:07.510 --> 00:07:10.230
Regardons donc ce que nous sommes
pour Hadoop, pour HDFS.

00:07:10.230 --> 00:07:13.690
Donc HDFS NameNode doit aussi être en

00:07:13.690 --> 00:07:16.540
une configuration très disponible
parce que c'est essentiel

00:07:16.540 --> 00:07:20.035
pour la pile Hadoop,

00:07:20.035 --> 00:07:23.205
et ce que nous voyons que le
client nous dit: «Oh,

00:07:23.205 --> 00:07:26.395
Je veux une réplication pour NameNode'',

00:07:26.395 --> 00:07:28.640
déploierait également Zookeeper qui

00:07:28.640 --> 00:07:31.430
est une technologie de cluster open source.

00:07:31.430 --> 00:07:35.750
C'est la composante qui va
pour s'occuper de la coordination

00:07:35.750 --> 00:07:39.800
la surveillance et l'échec si

00:07:39.800 --> 00:07:44.970
nécessaire de la NameNode
à un secondaire de veille.

00:07:44.970 --> 00:07:45.070
D'accord.

00:07:45.070 --> 00:07:47.330
Le déploiement d'une réplique supplémentaire

00:07:47.330 --> 00:07:49.985
et Zookeeper prend soin
de l'aspect orchestration.

00:07:49.985 --> 00:07:50.675
D'accord.

00:07:50.675 --> 00:07:55.235
Dans le même temps
il est également impliqué dans

00:07:55.235 --> 00:07:58.580
maintenir une disponibilité élevée pour

00:07:58.580 --> 00:08:03.679
certains composants d'actions Spark
comme Yarn Resource Manager,

00:08:03.679 --> 00:08:07.520
et en ce sens pour
Spark nous déployons également

00:08:07.520 --> 00:08:12.200
plusieurs répliques pour services
comme Spark History, Job History.

00:08:12.200 --> 00:08:15.515
Donc, pour s'assurer que si quelque chose est

00:08:15.515 --> 00:08:19.900
se passe dans OneNote que
ces services sont hébergés,

00:08:19.900 --> 00:08:23.495
Le [inaudible] serait choisi
répliques supplémentaires.

00:08:23.495 --> 00:08:24.790
Cool.

00:08:24.790 --> 00:08:28.490
Alors voyons à quel point il est facile de

00:08:28.490 --> 00:08:32.570
configurer la haute disponibilité
pour les différents composants.

00:08:32.570 --> 00:08:33.530
Dis-moi que c'est facile.

00:08:33.530 --> 00:08:35.510
C'est super facile.

00:08:35.510 --> 00:08:38.280
Cool. J'aime la facilité.

00:08:38.470 --> 00:08:42.740
Nous avons parlé la dernière fois de la façon dont
configurer vos déploiements.

00:08:42.740 --> 00:08:43.820
Oui, c'est vrai. Je m'en souviens.

00:08:43.820 --> 00:08:47.270
Il y a le cluster
fichiers de configuration

00:08:47.270 --> 00:08:49.675
ou des modèles de déploiement
que vous avez,

00:08:49.675 --> 00:08:52.280
et rappelez-vous que nous sommes
parler plus tôt de

00:08:52.280 --> 00:08:55.700
les composants de partage Spark.

00:08:55.700 --> 00:08:56.210
Oui, c'est vrai.

00:08:56.210 --> 00:08:59.975
Je dis juste que je veux juste deux
répliques d'entre eux et c'est tout.

00:08:59.975 --> 00:09:02.060
Nous nous occupons de
ramasser à partir de là.

00:09:02.060 --> 00:09:03.020
C'est tout ?

00:09:03.020 --> 00:09:04.610
Le Gardien du Zoo. Encore une fois,

00:09:04.610 --> 00:09:08.450
nous devons passer par tous les
composants que nous avons traversés.

00:09:08.450 --> 00:09:12.980
Zookeeper nous allons avoir besoin
trois répliques pour assurer le quorum.

00:09:12.980 --> 00:09:16.145
Ensuite, nous avons également mentionné maître,

00:09:16.145 --> 00:09:19.465
Cas maître de serveur SQL
et que dois-je faire ici?

00:09:19.465 --> 00:09:22.755
Je dirais juste que je
veulent trois répliques,

00:09:22.755 --> 00:09:26.930
et parce que SQL Server
groupes de disponibilité

00:09:26.930 --> 00:09:28.985
permet également des secondaires lisibles,

00:09:28.985 --> 00:09:31.640
vous donnera la possibilité de

00:09:31.640 --> 00:09:36.440
déployer un service qui
expose un point de terminaison

00:09:36.440 --> 00:09:39.920
à la charge de travail à distance

00:09:39.920 --> 00:09:41.780
de la secondaire
et vous n'avez qu'à

00:09:41.780 --> 00:09:44.015
spécifier le port ici dans ce cas.

00:09:44.015 --> 00:09:47.900
C'est vrai. Donc, vous faites une haute
disponibilité et dans le cadre de cela,

00:09:47.900 --> 00:09:49.980
vous pourriez aussi faire le
lire-seulement, [inaudible]

00:09:49.980 --> 00:09:51.365
Exactement. Oui.

00:09:51.365 --> 00:09:54.290
Cool. Est-ce la façon dont vous lisez ce
tout comme une ligne [inaudible]?

00:09:54.290 --> 00:09:57.470
Oui, c'est vrai. Vous spécifiez simplement
combien de répliques vous

00:09:57.470 --> 00:10:02.480
ne vous inquiétez pas de l'orchestration,

00:10:02.480 --> 00:10:05.900
déploiement d'autres
composants comme quand vous dites

00:10:05.900 --> 00:10:09.545
nous que je veux trois répliques
pour SQL Server master,

00:10:09.545 --> 00:10:10.820
nous déployons l'opérateur,

00:10:10.820 --> 00:10:12.260
nous avons déployé le superviseur qui est

00:10:12.260 --> 00:10:14.030
faire la surveillance
et tout le reste.

00:10:14.030 --> 00:10:17.180
Donc tout est derrière
les scènes et que

00:10:17.180 --> 00:10:21.380
est l'orchestration minimale
pour mettre les choses en place.

00:10:21.380 --> 00:10:23.840
Pour les gens qui sont
très familier avec la façon dont

00:10:23.840 --> 00:10:27.905
pour configurer une disponibilité
groupes, je pense que c'est

00:10:27.905 --> 00:10:32.090
au moins quatre ou cinq
Déclarations T-SQL

00:10:32.090 --> 00:10:34.970
plus les points de terminaison de préparation
et des choses comme ça.

00:10:34.970 --> 00:10:37.355
C'est donc épineux demandé.

00:10:37.355 --> 00:10:39.830
Il prend cette charge de YouTube à

00:10:39.830 --> 00:10:42.415
se concentrer sur la course en cours d'exécution
ce qui est sur le Big Data.

00:10:42.415 --> 00:10:44.940
C'est vrai. Il n'y a pas plus
simple que cela, non?

00:10:44.940 --> 00:10:45.420
C'est le si.

00:10:45.420 --> 00:10:48.350
Une ligne et puis bien sûr si
l'instance principale si vous voulez

00:10:48.350 --> 00:10:52.430
plus de lignes pour lire seulement, mais
Ouais c'est vraiment impressionnant.

00:10:52.430 --> 00:10:54.740
Cool. Alors, où puis-je
en savoir plus à ce sujet?

00:10:54.740 --> 00:10:56.385
Comment puis-je commencer?

00:10:56.385 --> 00:11:00.920
Donc, certainement, je vais vous montrer

00:11:00.920 --> 00:11:03.915
exactement quelques liens
que vous pouvez tirer parti

00:11:03.915 --> 00:11:07.140
pour le déploiement,
pour la configuration.

00:11:07.140 --> 00:11:11.749
Ainsi, vous pouvez trouver en savoir plus sur
dans notre plate-forme de documentation

00:11:11.749 --> 00:11:14.000
mais nous avons aussi beaucoup
d'échantillons là-bas

00:11:14.000 --> 00:11:16.460
sur la façon de configurer les choses.

00:11:16.460 --> 00:11:18.500
Comment exécuter les charges de travail,

00:11:18.500 --> 00:11:21.380
et tout ce que vous
peut aller de l'avant à utiliser

00:11:21.380 --> 00:11:24.350
ce lien et les tirer parti pour
ce que vous voulez faire quoi que vous vouliez faire.

00:11:24.350 --> 00:11:25.490
Vous serez nos clusters.

00:11:25.490 --> 00:11:28.550
Cool. Eh bien, merci encore pour
partager et parler si cela.

00:11:28.550 --> 00:11:30.260
C'est très impressionnant.

00:11:30.260 --> 00:11:32.555
J'aime la facilité de créer cela.

00:11:32.555 --> 00:11:32.760
Oui, c'est vrai.

00:11:32.760 --> 00:11:34.700
C'est clairement beaucoup de travail.

00:11:34.700 --> 00:11:36.695
C'est plutôt génial. Oui. Je vous remercie.

00:11:36.695 --> 00:11:39.410
Eh bien, merci. Remercier
vous pour regarder.

00:11:39.410 --> 00:11:41.525
S'il vous plaît comme, abonnez-vous,
laisser un commentaire,

00:11:41.525 --> 00:11:43.830
et j'espère vous voir
La prochaine fois. Merci.

00:11:43.830 --> 00:11:55.690
[MUSIQUE]

