WEBVTT

00:00:00.000 --> 00:00:03.070
SQL Server 2019 grand
les groupes de données fournissent

00:00:03.070 --> 00:00:04.950
Pools de données pour optimiser

00:00:04.950 --> 00:00:07.905
performances de requête lors de l'atteinte
à plusieurs sources.

00:00:07.905 --> 00:00:10.080
Umachandar est ici avec
nous aujourd'hui pour nous dire à tous

00:00:10.080 --> 00:00:12.450
à ce sujet aujourd'hui sur les données exposées.

00:00:12.450 --> 00:00:23.550
[MUSIQUE].

00:00:23.550 --> 00:00:26.250
Salut et bienvenue dans un autre
épisode de Data Exposed.

00:00:26.250 --> 00:00:29.100
Je suis votre hôte Jeroen et
aujourd'hui, nous avons vous voyez le nous

00:00:29.100 --> 00:00:32.085
pour parler des pools de données
dans les clusters sqL big Data.

00:00:32.085 --> 00:00:33.675
Salut Umachandar bienvenue au salon.

00:00:33.675 --> 00:00:35.460
Salut, je suis heureux d'être ici.

00:00:35.460 --> 00:00:38.160
Les pools de données
groupes de données volumineuses.

00:00:38.160 --> 00:00:40.505
Qu'est-ce que c'est? Que dois-je savoir ?

00:00:40.505 --> 00:00:42.440
Bien sûr, oui, permettez-moi de commencer rapidement

00:00:42.440 --> 00:00:45.110
en montrant ce qu'est un
Big Data Cluster est.

00:00:45.110 --> 00:00:48.090
Donc, cette diapositive montre le déploiement de

00:00:48.090 --> 00:00:52.110
SERVEUR SQL 19 Big Data
Cluster et aujourd'hui nous sommes

00:00:52.110 --> 00:00:56.360
va parler des données
Piscines ici qui sont essentiellement

00:00:56.360 --> 00:00:59.300
deux instances de serveur SQL qui peuvent être

00:00:59.300 --> 00:01:02.960
utilisé pour décharger certains
requête [inaudible].

00:01:02.960 --> 00:01:04.810
Voyons donc ce qu'est un pool de données.

00:01:04.810 --> 00:01:08.390
Donc, c'est essentiellement serveur SQL
stockage et de calcul qui est

00:01:08.390 --> 00:01:13.550
fourni pour écrire les requêtes
et stocker des données dans le pool de données.

00:01:13.550 --> 00:01:16.310
Il peut être manipulé en exécutant

00:01:16.310 --> 00:01:20.900
certaines opérations de table externes
sur elle et vous peuplez des données

00:01:20.900 --> 00:01:24.440
dans le pool de données et
plus tard, vous pouvez réellement

00:01:24.440 --> 00:01:28.970
décharger une partie de votre analyse
questions sur ce pool de données.

00:01:28.970 --> 00:01:32.400
Voilà donc la principale
l'objectif du pool de données.

00:01:32.400 --> 00:01:37.140
Alors maintenant, nous allons peut-être prendre rapidement
un regard sur certains des scénarios.

00:01:37.140 --> 00:01:39.980
Donc, le scénario commun est que vous êtes

00:01:39.980 --> 00:01:42.710
obtenir des données de
différentes sources de données,

00:01:42.710 --> 00:01:44.570
certains d'entre eux sont rapides,

00:01:44.570 --> 00:01:47.345
d'autres sont de nature plus lente.

00:01:47.345 --> 00:01:51.050
Alors maintenant, vous voulez optimiser fondamentalement

00:01:51.050 --> 00:01:55.535
cette requête afin que vous puissiez
effectivement prendre cette requête

00:01:55.535 --> 00:02:00.350
et stocker les résultats dans le
Data Pool et cela vous permet de

00:02:00.350 --> 00:02:02.900
essentiellement utiliser que comme

00:02:02.900 --> 00:02:07.300
une aire de transit où vous
peut exécuter toutes vos analyses.

00:02:07.300 --> 00:02:10.830
L'autre exemple est si vous êtes
faire de l'apprentissage automatique,

00:02:10.830 --> 00:02:12.830
il ya beaucoup de
scénarios où vous

00:02:12.830 --> 00:02:14.960
générerait des fonctionnalités
et des centaines et des

00:02:14.960 --> 00:02:18.290
des milliers de fonctionnalités et
vous voulez essentiellement stocker

00:02:18.290 --> 00:02:23.040
l'ensemble de données dans un endroit où
vous pouvez faire des analyses répétées.

00:02:23.040 --> 00:02:26.145
C'est un autre endroit où
le pool de données aide.

00:02:26.145 --> 00:02:29.540
Donc, dans ce cas, ce n'est pas
uniquement pour l'optimisation des requêtes

00:02:29.540 --> 00:02:31.190
mais aussi pour s'assurer
vous n'avez pas à aller

00:02:31.190 --> 00:02:32.975
retour à la source de données
tout le temps, non?

00:02:32.975 --> 00:02:33.230
Oui, c'est vrai.

00:02:33.230 --> 00:02:34.385
Si vous voulez réutiliser les données.

00:02:34.385 --> 00:02:34.625
Oui, c'est vrai.

00:02:34.625 --> 00:02:35.660
Cool, ça a l'air très cool.

00:02:35.660 --> 00:02:37.355
Alors pouvez-vous réellement
nous montrer comment cela fonctionne?

00:02:37.355 --> 00:02:40.550
Oui, allons-y rapidement
pour évaluer combien il y a ici.

00:02:40.550 --> 00:02:42.230
Donc, ce que j'ai ici est

00:02:42.230 --> 00:02:45.530
une connexion à la SQL
Cluster de Big Data serveur.

00:02:45.530 --> 00:02:48.890
Je suis connecté à la SQL
Exemple maître de serveur.

00:02:48.890 --> 00:02:51.905
Ainsi, la façon de créer un pool de données

00:02:51.905 --> 00:02:55.625
est d'abord en créant
cet objet source de données.

00:02:55.625 --> 00:02:58.100
Donc, ici que ce nom l'indique

00:02:58.100 --> 00:03:01.325
ici, cela dit essentiellement ce que
type de source de données, il est.

00:03:01.325 --> 00:03:04.400
Alors ce que je vais
connectez-vous à un pool de données.

00:03:04.400 --> 00:03:05.530
D'accord.

00:03:05.530 --> 00:03:08.780
C'est comme ça que vous
le créer. Après cela,

00:03:08.780 --> 00:03:11.360
vous définissez le tableau
que vous voulez

00:03:11.360 --> 00:03:13.940
stocker dans les données
Piscine et c'est fait

00:03:13.940 --> 00:03:16.670
en exécutant cette externe
énoncé de table.

00:03:16.670 --> 00:03:17.845
D'accord.

00:03:17.845 --> 00:03:21.090
Cela ressemble à votre
créer l'énoncé de table,

00:03:21.090 --> 00:03:24.110
il ya des colonnes qui
vous devez définir et dans

00:03:24.110 --> 00:03:27.725
plus puisqu'il y a beaucoup de SQL
instances serveur sur le backend.

00:03:27.725 --> 00:03:28.115
C'est vrai.

00:03:28.115 --> 00:03:30.740
Vous avez juste besoin de dire comment vous
que vous souhaitez distribuer les données.

00:03:30.740 --> 00:03:32.630
Donc, avec cela, vous pouvez dire, d'accord,

00:03:32.630 --> 00:03:36.155
donc nous avons obtenu un pair ou environ
même la distribution à travers.

00:03:36.155 --> 00:03:36.515
Oui, c'est vrai.

00:03:36.515 --> 00:03:37.400
Dans l'ensemble du service.

00:03:37.400 --> 00:03:37.685
Oui, c'est vrai.

00:03:37.685 --> 00:03:38.000
D'accord.

00:03:38.000 --> 00:03:41.330
C'est donc ce que le tournoi à la ronde
ne est essentiellement distribuer

00:03:41.330 --> 00:03:44.825
les données sur le nombre de
Les instances de pool de données que vous avez.

00:03:44.825 --> 00:03:45.865
D'accord.

00:03:45.865 --> 00:03:49.370
La prochaine chose que vous pouvez
faire, c'est comme interroger les données.

00:03:49.370 --> 00:03:50.780
Donc, nous allons d'abord regarder certains des

00:03:50.780 --> 00:03:54.155
l'échantillon de données qui, dans
cet exemple que j'ai dans

00:03:54.155 --> 00:03:57.680
Annuaire HDFS et essentiellement

00:03:57.680 --> 00:04:00.155
Je veux prendre ces
données clickstream,

00:04:00.155 --> 00:04:04.490
faire une question et de peupler
dans le pool de données.

00:04:04.490 --> 00:04:08.915
La façon dont vous le feriez est par
exécution juste une instruction d'insertion.

00:04:08.915 --> 00:04:13.490
Donc, la source de l'insert
déclaration est juste une requête SQL,

00:04:13.490 --> 00:04:18.140
et vous pouvez simplement exécuter le
requête et remplir les données.

00:04:18.140 --> 00:04:21.320
Je ne vais pas courir à travers le
inserts, mais nous allons rapidement

00:04:21.320 --> 00:04:25.205
voir les données qui sont déjà
dans le pool de données.

00:04:25.205 --> 00:04:28.445
Donc, cette requête devrait revenir
environ 2.000 rangées, non?

00:04:28.445 --> 00:04:32.930
Alors maintenant, comme n'importe quel autre
table, vous pouvez réellement rejoindre

00:04:32.930 --> 00:04:37.460
cette table avec d'autres tables
dans votre serveur SQL et obtenir

00:04:37.460 --> 00:04:39.680
les résultats et de manière transparente

00:04:39.680 --> 00:04:42.200
cette instance SQL Server
va parler à

00:04:42.200 --> 00:04:47.555
les instances de pool de données pour s'exécuter
les requêtes et obtenir les résultats.

00:04:47.555 --> 00:04:50.330
Donc, c'est à un niveau élevé
de ce qu'est un pool de données.

00:04:50.330 --> 00:04:51.530
Cool génial.

00:04:51.530 --> 00:04:54.390
C'est très impressionnant.
Merci beaucoup l'homme.

00:04:54.390 --> 00:04:55.530
Cool oui, merci.

00:04:55.530 --> 00:04:58.050
D'accord. Merci d'avoir regardé.

00:04:58.050 --> 00:04:59.590
S'il vous plaît aimer et vous abonner,

00:04:59.590 --> 00:05:02.150
commentaire sur la vidéo
si vous voulez que nous

00:05:02.150 --> 00:05:06.360
enregistrer autre chose et espérer
pour vous voir la prochaine fois. Merci.

00:05:06.360 --> 00:05:20.860
[MUSIQUE]

