WEBVTT

00:00:00.000 --> 00:00:10.700
[MUSIQUE].

00:00:10.700 --> 00:00:12.770
Salut. Je m'appelle Umachandar,

00:00:12.770 --> 00:00:15.510
Je suis gestionnaire de programme
dans l'équipe SQL Server.

00:00:15.510 --> 00:00:19.065
Aujourd'hui, je vais montrer
vous comment vous pouvez interroger

00:00:19.065 --> 00:00:24.120
Données HDFS de SQL Server
dans un cluster big data.

00:00:24.120 --> 00:00:28.010
Donc, ce que j'ai ici
est Azure Data Studio.

00:00:28.010 --> 00:00:32.900
Tout d'abord, je vais me connecter à
l'instance SQL Server Master,

00:00:32.900 --> 00:00:36.360
qui est en cours d'exécution à l'intérieur
le cluster Big Data.

00:00:38.180 --> 00:00:41.360
Maintenant, à partir d'ici, je peux travailler avec

00:00:41.360 --> 00:00:46.850
les deux bases de données MySQL
et les données de HDFS.

00:00:46.850 --> 00:00:48.640
Donc, comme vous pouvez le voir ici,

00:00:48.640 --> 00:00:52.070
J'ai mon régulier
Bases de données SQL Server

00:00:52.070 --> 00:00:57.875
et je peux aussi aller et
parcourir les données dans HDFS.

00:00:57.875 --> 00:01:02.570
Donc, nous allons d'abord regarder ce que
données que je vais interroger.

00:01:02.570 --> 00:01:06.970
J'ai donc un dossier ici
appelé Web Click Streams.

00:01:06.970 --> 00:01:10.985
Donc, ce fichier contient
données sur les utilisateurs,

00:01:10.985 --> 00:01:14.180
comme les articles qu'ils ont achetés,

00:01:14.180 --> 00:01:19.160
combien de fois ont-ils cliqué sur
une catégorie particulière, et ainsi de suite.

00:01:19.160 --> 00:01:24.120
Donc, regardons comment vous
peut interroger ces données.

00:01:25.330 --> 00:01:28.205
J'ai un carnet.

00:01:28.205 --> 00:01:30.829
Tout d'abord, je vais définir le contexte

00:01:30.829 --> 00:01:34.000
du carnet à la base de données.

00:01:34.000 --> 00:01:38.535
Qui est la vente, comme
montré dans cet exemple.

00:01:38.535 --> 00:01:43.354
Donc, ensuite, afin de
requête des données dans HDFS,

00:01:43.354 --> 00:01:48.880
nous avons besoin de créer quelque chose
appelé une source de données externes.

00:01:48.880 --> 00:01:52.790
Donc, c'est un objet dans le
base de données qui raconte

00:01:52.790 --> 00:01:57.140
SQL Server où le
Les données HDFS résident.

00:01:57.140 --> 00:01:59.940
Donc, dans cet exemple,

00:01:59.940 --> 00:02:04.190
cette chaîne ici qui
commence avec SQL HDFS,

00:02:04.190 --> 00:02:10.130
représente les données HDFS
dans le cluster Big Data.

00:02:10.130 --> 00:02:14.450
Donc, allons-y d'abord et
créer cette source de données.

00:02:14.450 --> 00:02:17.870
Donc, après avoir créé
la source de données,

00:02:17.870 --> 00:02:21.905
vous devez spécifier quel format de fichier

00:02:21.905 --> 00:02:27.410
la source de données prend en charge et
ce que vous allez interroger.

00:02:27.410 --> 00:02:29.375
Donc, dans ce cas,

00:02:29.375 --> 00:02:34.910
Je vais interroger les données qui
réside dans les dossiers du Parquet.

00:02:34.910 --> 00:02:40.485
Donc, le format du parquet
fichier est spécifié ici.

00:02:40.485 --> 00:02:45.960
Donc, allons-y d'abord et
créer cet objet de format de fichier.

00:02:46.090 --> 00:02:52.640
Alors maintenant, la prochaine étape est de créer
une table externe dans SQL Server.

00:02:52.640 --> 00:02:57.020
Donc, cela représente les colonnes
qui vont interroger

00:02:57.020 --> 00:03:02.165
à partir des fichiers et aussi
l'emplacement des fichiers.

00:03:02.165 --> 00:03:03.710
Donc, dans ce cas,

00:03:03.710 --> 00:03:08.180
Je vais interroger tous les
données de ce répertoire.

00:03:08.180 --> 00:03:12.520
Voyons donc rapidement
ce que cela contient.

00:03:12.520 --> 00:03:16.670
Donc, je vais élargir le répertoire ici.

00:03:16.670 --> 00:03:20.780
Comme vous pouvez le voir, il y a
trois dossiers parquet ici.

00:03:20.780 --> 00:03:23.660
Alors maintenant, nous allons voir comment

00:03:23.660 --> 00:03:26.510
vous pouvez interroger ceux
fichiers de SQL Server.

00:03:26.510 --> 00:03:31.310
J'ai donc créé un externe
objet de table dans SQL Server,

00:03:31.310 --> 00:03:37.920
qui pointe vers le répertoire
qui contient les fichiers Parquet.

00:03:38.440 --> 00:03:43.680
Tout d'abord, regardons
quelques lignes du fichier.

00:03:43.970 --> 00:03:48.675
J'exécute donc une requête sélectionnée
avec l'indice supérieur,

00:03:48.675 --> 00:03:51.465
et je vois 10 rangées.

00:03:51.465 --> 00:03:57.470
Cela prévisualise essentiellement les lignes
qui sont lus à partir de ces fichiers.

00:03:57.470 --> 00:04:01.775
Ainsi, vous pouvez également exécuter légèrement
requêtes plus complexes

00:04:01.775 --> 00:04:06.920
comme juste faire un compte sur le
nombre de lignes dans le tableau.

00:04:06.920 --> 00:04:13.380
Dans ce cas, j'obtunis un résultat
retour et c'est environ six millions.

00:04:14.210 --> 00:04:17.705
Vous pouvez également exécuter plus
requêtes avancées.

00:04:17.705 --> 00:04:20.720
J'ai une requête ici qui est

00:04:20.720 --> 00:04:25.505
essayer de trouver le top 10
utilisateurs avec le plus de clics.

00:04:25.505 --> 00:04:27.850
Alors faisons cette requête.

00:04:27.850 --> 00:04:29.535
Comme vous pouvez le voir ici,

00:04:29.535 --> 00:04:31.325
maintenant vous êtes en mesure d'exécuter

00:04:31.325 --> 00:04:35.375
requêtes SQL régulières
contre les données de HDFS.

00:04:35.375 --> 00:04:37.910
Donc, vous pouvez essentiellement
traiter les données dans

00:04:37.910 --> 00:04:42.665
HDFS comme s'ils étaient locaux
tableaux de votre base de données.

00:04:42.665 --> 00:04:46.900
Dans ce cas, je peux utiliser le
fonctionnalités de SQL Server,

00:04:46.900 --> 00:04:50.060
et la syntaxe, et le
fonctions disponibles dans

00:04:50.060 --> 00:04:53.990
SQL Server pour écrire la requête.

00:04:53.990 --> 00:04:56.060
Donc, comme vous pouvez le voir,

00:04:56.060 --> 00:05:03.200
maintenant je peux essentiellement obtenir le
résultats des fichiers dans HDFS.

00:05:03.200 --> 00:05:07.360
Vous pouvez également effectuer
d'autres opérations conjointes.

00:05:07.360 --> 00:05:10.275
Par exemple, je veux

00:05:10.275 --> 00:05:13.815
combiner les données ClickStream
avec quelques données d'inventaire,

00:05:13.815 --> 00:05:17.000
qui réside également
dans les dossiers du Parquet

00:05:17.000 --> 00:05:21.800
dans HDFS qui est effectivement montré ici.

00:05:21.800 --> 00:05:24.140
Alors faisons cette requête.

00:05:24.140 --> 00:05:28.400
Dans ce cas, ce que nous faisons
dans le serveur SQL est en fait

00:05:28.400 --> 00:05:34.170
rejoindre deux ensembles de données différents
qui résident dans HDFS.

00:05:34.270 --> 00:05:40.790
Vous êtes en mesure de spécifier que dans
une requête SQL utilisant la syntaxe SQL,

00:05:40.790 --> 00:05:44.275
et vous pouvez obtenir le
résultats de cette requête.

00:05:44.275 --> 00:05:48.705
Dans cet exemple, nous sommes
effectivement aller à SQL Server,

00:05:48.705 --> 00:05:51.180
lire les fichiers de HDFS,

00:05:51.180 --> 00:05:53.845
en passant les données dans les fichiers,

00:05:53.845 --> 00:05:56.195
effectuer les opérations de jointure

00:05:56.195 --> 00:06:00.425
et faire des
agrégations dans ce cas,

00:06:00.425 --> 00:06:03.785
comme compter le nombre de clics,

00:06:03.785 --> 00:06:08.790
ajout de l'inventaire
valeurs, et ainsi de suite.

00:06:09.500 --> 00:06:11.640
Enfin,

00:06:11.640 --> 00:06:14.250
vous pouvez également interroger

00:06:14.250 --> 00:06:17.480
ces données HDFS et y adhérer

00:06:17.480 --> 00:06:20.405
avec d'autres données assis
dans votre base de données.

00:06:20.405 --> 00:06:22.175
Donc, dans cet exemple,

00:06:22.175 --> 00:06:25.415
vous pouvez réellement interroger
les dossiers du Parquet

00:06:25.415 --> 00:06:30.120
et joindre avec table dans SQL Server.

00:06:36.560 --> 00:06:39.270
Comme vous pouvez le voir maintenant,

00:06:39.270 --> 00:06:44.170
l'intégration dans SQL Server
Big Data Cluster le rend très

00:06:44.170 --> 00:06:49.215
facile pour vous de rejoindre les données
de HDFS à d'autres données,

00:06:49.215 --> 00:06:52.214
dans HDFS ou d'autres tableaux,

00:06:52.214 --> 00:06:55.180
et obtenir l'information très facilement.

00:06:55.180 --> 00:06:58.840
Alors maintenant, vous pouvez réellement construire
applications qui interrogent les données

00:06:58.840 --> 00:07:02.790
à partir de différentes sources de données
très facilement. Je vous remercie.

00:07:02.790 --> 00:07:17.500
[MUSIQUE]

