WEBVTT

00:00:00.000 --> 00:00:02.745
>> I cluster di dati più grandi forniscono

00:00:02.745 --> 00:00:05.640
un modo per mantenere il cluster
affidabile consentendo

00:00:05.640 --> 00:00:08.460
disponibilità elevata per
componenti e Mihaela è

00:00:08.460 --> 00:00:12.120
qui per raccontarci tutto su
oggi su Data Exposed.

00:00:12.120 --> 00:00:23.400
[MUSICA]

00:00:23.400 --> 00:00:26.475
>> Ciao, e benvenuto a un altro
episodio di Data Exposed.

00:00:26.475 --> 00:00:30.480
Sono il tuo ospite Jeroen e oggi
abbiamo Mihaela con noi per parlare

00:00:30.480 --> 00:00:32.265
sui cluster di Big Data e poi

00:00:32.265 --> 00:00:34.970
in particolare l'alto
disponibilità per loro.

00:00:34.970 --> 00:00:37.655
Quindi bentornato. Questo deve
essere il tempo che voglio dire.

00:00:37.655 --> 00:00:39.560
>> sì. Grazie. Grazie
voi per avermi qui.

00:00:39.560 --> 00:00:40.985
>> sì. Stai diventando una sonda.

00:00:40.985 --> 00:00:43.550
Quindi la maggior parte degli argomenti di cui parli

00:00:43.550 --> 00:00:46.445
circa è grandi cluster di dati
e oggi non è diverso.

00:00:46.445 --> 00:00:48.345
Ma poi l'alta disponibilità, giusto?

00:00:48.345 --> 00:00:50.780
>> sì. Quindi ci sono
un sacco di cose da

00:00:50.780 --> 00:00:53.360
parlare quando si tratta di
ad alta disponibilità.

00:00:53.360 --> 00:00:54.155
>> Ok.

00:00:54.155 --> 00:00:57.590
>> Stiamo andando a passare attraverso alcuni
di questi aspetti in questo video.

00:00:57.590 --> 00:00:59.785
>> Ok. Bello. Ora cominciamo.

00:00:59.785 --> 00:01:05.745
>> Quindi, quando parliamo di dati
soprattutto e banche dati,

00:01:05.745 --> 00:01:07.800
vogliamo fare in modo che
i dati sono persistenza.

00:01:07.800 --> 00:01:09.110
Quindi voglio solo iniziare con

00:01:09.110 --> 00:01:13.430
questo discorso ad alta disponibilità
con il riepilogo di stoccaggio.

00:01:13.430 --> 00:01:13.650
>> Ok.

00:01:13.650 --> 00:01:14.850
>> Così diversi strati in

00:01:14.850 --> 00:01:17.840
il cluster big data hanno
diverse opzioni per l'archiviazione.

00:01:17.840 --> 00:01:20.180
È possibile eseguire un'archiviazione locale o

00:01:20.180 --> 00:01:23.150
remoto e l'abbiamo reso granulare come

00:01:23.150 --> 00:01:25.970
si può optare per locale o remoto

00:01:25.970 --> 00:01:28.895
a seconda che si desideri
memorizzare i dati o i registri.

00:01:28.895 --> 00:01:33.680
Quindi i log che non vuoi
necessariamente per renderlo ridondante

00:01:33.680 --> 00:01:36.865
perché potrebbe essere necessario per

00:01:36.865 --> 00:01:40.930
risoluzione dei problemi, ma poi si
non vogliono tenerli per sempre.

00:01:41.090 --> 00:01:42.190
>> [non udibile].

00:01:42.190 --> 00:01:44.840
>> Esattamente. Così, quando
si parla di registri è

00:01:44.840 --> 00:01:48.140
per lo più si vuole mantenere
su un deposito locale

00:01:48.140 --> 00:01:52.355
soprattutto perché stavamo parlando
nell'ultimo video che abbiamo

00:01:52.355 --> 00:01:54.590
componenti nei cluster che sono

00:01:54.590 --> 00:01:57.410
raccolta di tali tronchi e sono
iniziandoli in una ricerca elastica.

00:01:57.410 --> 00:02:01.615
Quindi hai già un po'
dipendenza da questo aspetto.

00:02:01.615 --> 00:02:04.410
Quando si tratta di dati,
vari componenti

00:02:04.410 --> 00:02:08.270
hanno requisiti diversi
a seconda di come

00:02:08.270 --> 00:02:10.730
una missione critica sono e se c'è

00:02:10.730 --> 00:02:15.140
tutti i dati utente archiviati
in per i dati, ad esempio,

00:02:15.140 --> 00:02:20.030
Server master o archiviazione di SQL ServerSQL Server master or storage
pool come i dati HDFS.

00:02:20.030 --> 00:02:22.955
Si desidera mantenere
ridondanza per questo.

00:02:22.955 --> 00:02:28.445
Ma Compute pool o Spark,

00:02:28.445 --> 00:02:30.695
non c'è stato.

00:02:30.695 --> 00:02:33.380
E 'solo calcoli.
Quindi non c'è nessun punto

00:02:33.380 --> 00:02:36.560
per aggiungere ulteriori
ridondanza all'archiviazione.

00:02:36.560 --> 00:02:38.225
>> Esattamente. Così si può scegliere locale.

00:02:38.225 --> 00:02:39.470
>> Quindi stiamo parlando qui di

00:02:39.470 --> 00:02:42.260
diverse opzioni che
è necessario garantire

00:02:42.260 --> 00:02:44.810
l'affidabilità di tali servizi

00:02:44.810 --> 00:02:46.400
quando si tratta di persistenza dei dati.

00:02:46.400 --> 00:02:47.620
>> Ok.

00:02:47.620 --> 00:02:51.575
>> Ecco dove continuiamo
con le opzioni HA, giusto?

00:02:51.575 --> 00:02:55.985
Quindi, per il master di SQL Server se il vostro
storia nei dati a livello locale,

00:02:55.985 --> 00:02:57.725
è necessario assicurarsi che si sta aggiungendo

00:02:57.725 --> 00:02:59.675
qualche ridondanza aggiuntiva a quella

00:02:59.675 --> 00:03:01.340
con gruppi di disponibilità
e ci accingiamo a

00:03:01.340 --> 00:03:04.160
vedere a breve come è che abilitato.

00:03:04.160 --> 00:03:05.990
Quando si tratta di pool di dati,

00:03:05.990 --> 00:03:13.970
si utilizzano i PV nei combinatori per
garantire che i dati siano persistenti.

00:03:13.970 --> 00:03:15.350
>> Quindi è solo AV, giusto?

00:03:15.350 --> 00:03:16.505
Ci sono un sacco di acronimi qui.

00:03:16.505 --> 00:03:17.240
>> sì.

00:03:17.240 --> 00:03:21.110
>> Eg PV, HA, tutto pv è?

00:03:21.110 --> 00:03:25.175
>> Suggerisce I PV è
un concetto Kubernetes

00:03:25.175 --> 00:03:28.250
che astrae il livello di archiviazione di

00:03:28.250 --> 00:03:32.090
Kubernetes e assicura se sei
utilizzando volumi persistenti.

00:03:32.090 --> 00:03:35.270
Quindi la nozione è la persistenza dei dati.

00:03:35.270 --> 00:03:37.010
Quindi, se si sta utilizzando
volume persistente è

00:03:37.010 --> 00:03:38.840
significa che Kubernetes assicura che

00:03:38.840 --> 00:03:42.440
dati vengono mantenuti su tale archiviazione.

00:03:42.440 --> 00:03:43.580
>> Ok. Capito.

00:03:43.580 --> 00:03:46.655
>> Ancora una volta, che non è necessario garantire

00:03:46.655 --> 00:03:49.435
disponibilità elevata per il calcolo
perché è apolidi.

00:03:49.435 --> 00:03:52.110
Ha componenti critici

00:03:52.110 --> 00:03:53.870
nello stack Hadoop
proprio quando si tratta di

00:03:53.870 --> 00:03:56.600
NOME HDFSNode e alcuni Spark condivisi

00:03:56.600 --> 00:04:00.545
servizi che è necessario
abilitare l'alta disponibilità per,

00:04:00.545 --> 00:04:03.020
e molto importante che
vuole evidenziare qui

00:04:03.020 --> 00:04:09.000
il Servizio di Controllo che è necessario
hanno non solo volume persistente,

00:04:09.000 --> 00:04:11.490
è necessario aggiungere un po 'di
ridondanza a quella storia.

00:04:11.490 --> 00:04:14.135
Quindi deve essere un po'
archiviazione ridondante remota.

00:04:14.135 --> 00:04:16.940
Non mantenere il controllo [non udibile]

00:04:16.940 --> 00:04:21.410
localmente, perché se questo
nodo è l'ultimo qui,

00:04:21.410 --> 00:04:23.960
praticamente l'intero cluster è
non in un molto vincolato.

00:04:23.960 --> 00:04:28.130
>> Ok. Così Control hanno
AV su un deposito remoto?

00:04:28.130 --> 00:04:29.270
>> Remoto e ridondante.

00:04:29.270 --> 00:04:31.100
Quindi devi fare
assicurarsi che aggiungono

00:04:31.100 --> 00:04:33.005
un po 'di ridondanza a quel livello.

00:04:33.005 --> 00:04:34.710
>> Ok. Notato.

00:04:34.710 --> 00:04:37.290
>> Quindi ora vediamo
che cosa significa per

00:04:37.290 --> 00:04:41.085
Master di SQL Server e
consentendo AG per questo.

00:04:41.085 --> 00:04:45.095
Quindi questo è uno schema o

00:04:45.095 --> 00:04:50.045
come la disposizione dei vari servizi
che formano SQL Server,

00:04:50.045 --> 00:04:55.190
livello di disponibilità elevata
per il master di SQL Server.

00:04:55.190 --> 00:04:57.020
Ancora una volta, abbiamo un primario che

00:04:57.020 --> 00:05:00.785
è di almeno due secondari
destra sincrona,

00:05:00.785 --> 00:05:04.670
e abbiamo costruito componenti che

00:05:04.670 --> 00:05:08.985
stanno assicurando che ci
è il monitoraggio automatico,

00:05:08.985 --> 00:05:11.370
failover automatico
e l'orchestrazione.

00:05:11.370 --> 00:05:12.960
Se succede qualcosa con un primario,

00:05:12.960 --> 00:05:17.675
accade automaticamente, ci
non c'è bisogno di fare nulla.

00:05:17.675 --> 00:05:20.330
Una cosa che voglio
per evidenziare qui è

00:05:20.330 --> 00:05:23.870
che per il cluster di Big Data
solo in questo momento,

00:05:23.870 --> 00:05:27.755
consentiamo anche quello che chiamiamo un
Gruppo di disponibilità indipendente,

00:05:27.755 --> 00:05:30.920
il che significa che ora gli oggetti che

00:05:30.920 --> 00:05:33.920
si memorizza in master per esempio come

00:05:33.920 --> 00:05:40.190
gli account di accesso vengono replicati
ai secondari, giusto?

00:05:40.190 --> 00:05:40.380
>> Ok.

00:05:40.380 --> 00:05:43.880
>> Quindi fino ad ora questo è
lungo ci stanno inviando da

00:05:43.880 --> 00:05:45.770
i nostri clienti per fare
assicurarsi che gli accessi

00:05:45.770 --> 00:05:47.930
sono anche replicati altrimenti,

00:05:47.930 --> 00:05:49.610
ci sono un sacco di accuse e

00:05:49.610 --> 00:05:51.935
la replica manuale che dovevano fare.

00:05:51.935 --> 00:05:55.290
In questo momento automaticamente
tutto è curato.

00:05:55.290 --> 00:05:57.060
Quindi, dalla distribuzione, dall'aggiunta

00:05:57.060 --> 00:05:59.130
database ai gruppi di disponibilità,

00:05:59.130 --> 00:06:05.330
all'aggiunta di questo master replicato
gruppi di disponibilità del database.

00:06:05.330 --> 00:06:08.555
Quindi c'è poco se nessuno

00:06:08.555 --> 00:06:13.130
tra la gestione operativa dei

00:06:13.130 --> 00:06:16.620
gruppo di disponibilità.
È fantastico.

00:06:16.620 --> 00:06:18.660
>> sì. Questo è davvero
fantastico. Stavo per dirlo.

00:06:18.660 --> 00:06:21.230
Quindi, ma hai detto
gruppi di disponibilità ora, giusto?

00:06:21.230 --> 00:06:21.390
>> sì.

00:06:21.390 --> 00:06:24.330
>> È che il regolare?

00:06:24.330 --> 00:06:27.200
>> sì. E 'esattamente
la stessa caratteristica che abbiamo

00:06:27.200 --> 00:06:30.050
tutti sanno da SQL Server 2012, giusto?

00:06:30.050 --> 00:06:30.605
>> sì.

00:06:30.605 --> 00:06:33.440
>> Una cosa che
è molto importante.

00:06:33.440 --> 00:06:35.960
Non c'è altra tecnologia cluster

00:06:35.960 --> 00:06:39.365
che si sta andando ad avere per
distribuire o integrare con.

00:06:39.365 --> 00:06:41.445
È tutto curato,

00:06:41.445 --> 00:06:44.590
i servizi che si stanno distribuendo
con il supervisore HA,

00:06:44.590 --> 00:06:45.730
l'operatore e di

00:06:45.730 --> 00:06:49.840
corso strettamente integrando con
Kubernetes per iscritto questo caso.

00:06:49.840 --> 00:06:52.560
Quindi stiamo approfittando
di queste piattaforme.

00:06:52.560 --> 00:06:54.100
>> Quindi non più tecnologia cluster.

00:06:54.100 --> 00:06:56.650
Quindi questo è grande per il mastering.

00:06:56.650 --> 00:07:00.510
Così ora mi fido del maestro
istanze va bene.

00:07:00.510 --> 00:07:02.250
Ma c'è di più nel BDC, giusto?

00:07:02.250 --> 00:07:03.965
Non stiamo solo facendo un SQL Server,

00:07:03.965 --> 00:07:05.980
stiamo facendo [non udibile]
roba correlata.

00:07:05.980 --> 00:07:07.510
Allora dimmelo.

00:07:07.510 --> 00:07:10.230
>> Quindi diamo un'occhiata a quello che siamo
facendo per Hadoop, per HDFS.

00:07:10.230 --> 00:07:13.690
Così HDFS NameNode deve essere anche in

00:07:13.690 --> 00:07:16.540
una configurazione a disponibilità elevata
perché questo è fondamentale

00:07:16.540 --> 00:07:20.035
per la pila Hadoop,

00:07:20.035 --> 00:07:23.205
e quello che stiamo vedendo che il
il cliente ci sta dicendo: ''Oh,

00:07:23.205 --> 00:07:26.395
Voglio la replica per NameNode',

00:07:26.395 --> 00:07:28.640
sarebbe anche l'applicazione zoocustode che

00:07:28.640 --> 00:07:31.430
è una tecnologia di cluster open source.

00:07:31.430 --> 00:07:35.750
Questo è il componente che sta andando
di prendersi cura di coordinare

00:07:35.750 --> 00:07:39.800
il monitoraggio e il failover se

00:07:39.800 --> 00:07:44.970
necessario del NameNode
ad un secondario di standby.

00:07:44.970 --> 00:07:45.070
>> Ok.

00:07:45.070 --> 00:07:47.330
>> Quindi la distribuzione di una replica aggiuntiva

00:07:47.330 --> 00:07:49.985
e il guardiano dello zoo si sta prendendo cura
dell'aspetto dell'orchestrazione.

00:07:49.985 --> 00:07:50.675
>> Ok.

00:07:50.675 --> 00:07:55.235
>> Nello stesso tempo
è anche coinvolto in

00:07:55.235 --> 00:07:58.580
mantenere un'elevata disponibilità per

00:07:58.580 --> 00:08:03.679
alcuni componenti di condivisione Spark
come Yarn Resource Manager,

00:08:03.679 --> 00:08:07.520
e in questo senso per
Spark distribuiamo anche

00:08:07.520 --> 00:08:12.200
repliche multiple per i servizi
come Spark History, Job History.

00:08:12.200 --> 00:08:15.515
Quindi, per assicurarsi che se qualcosa è

00:08:15.515 --> 00:08:19.900
in corso in OneNote che
questi servizi sono ospitati,

00:08:19.900 --> 00:08:23.495
Il [non udibile] sarebbe stato scelto
o repliche aggiuntive.

00:08:23.495 --> 00:08:24.790
>> Cool.

00:08:24.790 --> 00:08:28.490
>> Quindi vediamo quanto sia facile

00:08:28.490 --> 00:08:32.570
configurare la disponibilità elevata
per i vari componenti.

00:08:32.570 --> 00:08:33.530
>> Dimmi che è facile.

00:08:33.530 --> 00:08:35.510
>> E 'super facile.

00:08:35.510 --> 00:08:38.280
>> Cool. Mi piace facilmente.

00:08:38.470 --> 00:08:42.740
>> Abbiamo parlato l'ultima volta su come
per configurare le distribuzioni.

00:08:42.740 --> 00:08:43.820
>> Sì. Me lo ricordo.

00:08:43.820 --> 00:08:47.270
>> C'è il cluster
file di configurazione

00:08:47.270 --> 00:08:49.675
o modelli di distribuzione
che avete,

00:08:49.675 --> 00:08:52.280
e ricordate che siamo
parlando in precedenza di

00:08:52.280 --> 00:08:55.700
i componenti di condivisione Spark.

00:08:55.700 --> 00:08:56.210
>> sì.

00:08:56.210 --> 00:08:59.975
>> Dico solo che voglio solo due
repliche di loro e il suo genere.

00:08:59.975 --> 00:09:02.060
Ci prendiamo cura di
raccogliendo da lì.

00:09:02.060 --> 00:09:03.020
>> È tutto?

00:09:03.020 --> 00:09:04.610
>> Il custode dello zoo. Quindi, di nuovo,

00:09:04.610 --> 00:09:08.450
dobbiamo passare attraverso tutte le
componenti che abbiamo attraversato.

00:09:08.450 --> 00:09:12.980
Il guardiano dello zoo avremo bisogno
tre repliche per garantire il quorum.

00:09:12.980 --> 00:09:16.145
Poi abbiamo anche menzionato maestro,

00:09:16.145 --> 00:09:19.465
Istanza master di SQL ServerSQL Server master instance
e cosa faccio qui?

00:09:19.465 --> 00:09:22.755
Vorrei solo dire che ho
vogliono tre repliche,

00:09:22.755 --> 00:09:26.930
e poiché SQL Server
gruppi di disponibilità

00:09:26.930 --> 00:09:28.985
consente anche secondari leggibili,

00:09:28.985 --> 00:09:31.640
vi darà la possibilità di

00:09:31.640 --> 00:09:36.440
distribuire un servizio che
è l'esposizione di un endpoint

00:09:36.440 --> 00:09:39.920
da compito da remoto carico di lavoro

00:09:39.920 --> 00:09:41.780
da dal secondario
e devi solo

00:09:41.780 --> 00:09:44.015
specificare la porta qui in questo caso.

00:09:44.015 --> 00:09:47.900
>> Destra. Così si fa un alto
disponibilità e come parte di questo,

00:09:47.900 --> 00:09:49.980
si potrebbe anche fare il
di sola lettura, [non udibile]

00:09:49.980 --> 00:09:51.365
>> Esattamente. Sì.

00:09:51.365 --> 00:09:54.290
>> Cool. È così che si legge questo
solo come una linea [non udibile]?

00:09:54.290 --> 00:09:57.470
>> sì. Basta specificare
quante repliche si

00:09:57.470 --> 00:10:02.480
non preoccuparti di orchestrare,

00:10:02.480 --> 00:10:05.900
distribuzione di ulteriori
componenti come quando si dice

00:10:05.900 --> 00:10:09.545
noi che voglio tre repliche
per il master di SQL Server,

00:10:09.545 --> 00:10:10.820
distribuiamo l'operatore,

00:10:10.820 --> 00:10:12.260
abbiamo distribuito il supervisore che è

00:10:12.260 --> 00:10:14.030
facendo il monitoraggio
e tutto il resto.

00:10:14.030 --> 00:10:17.180
Quindi tutto è dietro
le scene e che

00:10:17.180 --> 00:10:21.380
è un'orchestrazione minima
per la configurazione delle cose.

00:10:21.380 --> 00:10:23.840
Per le persone che sono
molto familiare con come

00:10:23.840 --> 00:10:27.905
per configurare una disponibilità
gruppi penso che sia

00:10:27.905 --> 00:10:32.090
almeno quattro o cinque
Istruzioni T-SQL

00:10:32.090 --> 00:10:34.970
oltre a preparare gli endpoint
e cose del genere.

00:10:34.970 --> 00:10:37.355
Quindi questo è pungente chiesto.

00:10:37.355 --> 00:10:39.830
Sta prendendo quel carico da YouTube a

00:10:39.830 --> 00:10:42.415
concentrarsi sull'esecuzione effettiva
cosa c'è sui big data.

00:10:42.415 --> 00:10:44.940
>> Destra. Non c'è niente di più
semplice di questo, giusto?

00:10:44.940 --> 00:10:45.420
>> Lo è.

00:10:45.420 --> 00:10:48.350
>> Una linea e poi, naturalmente, se
l'istanza master, se si desidera

00:10:48.350 --> 00:10:52.430
più righe per la sola lettura, ma
Sì, è davvero impressionante.

00:10:52.430 --> 00:10:54.740
Bello. Quindi, dove posso
per saperne di più su questo?

00:10:54.740 --> 00:10:56.385
Come posso iniziare?

00:10:56.385 --> 00:11:00.920
>> Quindi sicuramente ti mostrerò

00:11:00.920 --> 00:11:03.915
esattamente alcuni link
che si può sfruttare

00:11:03.915 --> 00:11:07.140
per la distribuzione,
per la configurazione.

00:11:07.140 --> 00:11:11.749
Così si può trovare di più su
nella nostra piattaforma di documentazione

00:11:11.749 --> 00:11:14.000
ma abbiamo anche molto
di campioni là fuori

00:11:14.000 --> 00:11:16.460
su come configurare le cose.

00:11:16.460 --> 00:11:18.500
Come eseguire i carichi di lavoro,

00:11:18.500 --> 00:11:21.380
e tutto ciò che
può andare avanti per utilizzare

00:11:21.380 --> 00:11:24.350
questi link e sfruttarli per
cosa fare quello che vuoi fare.

00:11:24.350 --> 00:11:25.490
Sarete i nostri grappoli.

00:11:25.490 --> 00:11:28.550
>> Cool. Beh, grazie ancora per
condividere e parlare anche se questo.

00:11:28.550 --> 00:11:30.260
Questo è molto impressionante.

00:11:30.260 --> 00:11:32.555
Mi piace la manuale di creare questo.

00:11:32.555 --> 00:11:32.760
>> sì.

00:11:32.760 --> 00:11:34.700
>> Questo è chiaramente un sacco di lavoro.

00:11:34.700 --> 00:11:36.695
>> Abbastanza impressionante. Sì. Grazie.

00:11:36.695 --> 00:11:39.410
>> Beh, grazie. Grazie
per la visione.

00:11:39.410 --> 00:11:41.525
Per favore, come, iscriviti,
lasciare un commento,

00:11:41.525 --> 00:11:43.830
e spero di vederti
la prossima volta. Grazie.

00:11:43.830 --> 00:11:55.690
[MUSICA]

