WEBVTT

00:00:00.000 --> 00:00:10.700
[MUSIC].

00:00:10.700 --> 00:00:12.770
>> Hola. Mi nombre es Umachandar,

00:00:12.770 --> 00:00:15.510
Soy Gerente de Programas
en el equipo de SQL Server.

00:00:15.510 --> 00:00:19.065
Hoy voy a mostrar
usted cómo se puede consultar

00:00:19.065 --> 00:00:24.120
Datos HDFS de SQL Server
en un clúster de big data.

00:00:24.120 --> 00:00:28.010
Así que lo que tengo aquí
es Azure Data Studio.

00:00:28.010 --> 00:00:32.900
Primero, me voy a conectar a
la instancia maestra de SQL Server,

00:00:32.900 --> 00:00:36.360
que se está ejecutando dentro
el clúster de big data.

00:00:38.180 --> 00:00:41.360
Ahora desde aquí, puedo trabajar con

00:00:41.360 --> 00:00:46.850
ambas bases de datos MySQL
y los datos en HDFS.

00:00:46.850 --> 00:00:48.640
Como pueden ver aquí,

00:00:48.640 --> 00:00:52.070
Tengo mi regular
Bases de datos de SQL Server

00:00:52.070 --> 00:00:57.875
y también puedo ir y
examinar los datos en HDFS.

00:00:57.875 --> 00:01:02.570
Así que primero vamos a ver lo que
datos que voy a consultar.

00:01:02.570 --> 00:01:06.970
Así que tengo un archivo aquí
llamado Web Click Streams.

00:01:06.970 --> 00:01:10.985
Así que este archivo contiene
datos sobre los usuarios,

00:01:10.985 --> 00:01:14.180
como qué artículos han comprado,

00:01:14.180 --> 00:01:19.160
¿cuántas veces hicieron clic en
una categoría en particular, y así sucesivamente.

00:01:19.160 --> 00:01:24.120
Así que vamos a ver cómo
puede consultar estos datos.

00:01:25.330 --> 00:01:28.205
Así que tengo un cuaderno aquí.

00:01:28.205 --> 00:01:30.829
Primero, voy a establecer el contexto

00:01:30.829 --> 00:01:34.000
del cuaderno a la base de datos.

00:01:34.000 --> 00:01:38.535
Que son las ventas, como
mostrado en este ejemplo.

00:01:38.535 --> 00:01:43.354
Así que a continuación, con el fin de
consultar los datos en HDFS,

00:01:43.354 --> 00:01:48.880
tenemos que crear algo
llamado origen de datos externo.

00:01:48.880 --> 00:01:52.790
Así que es un objeto en el
base de datos que dice

00:01:52.790 --> 00:01:57.140
SQL Server donde el
Los datos de HDFS residen.

00:01:57.140 --> 00:01:59.940
Así que en este ejemplo,

00:01:59.940 --> 00:02:04.190
esta cadena aquí que
comienza con SQL HDFS,

00:02:04.190 --> 00:02:10.130
representa los datos HDFS
en el clúster de big data.

00:02:10.130 --> 00:02:14.450
Así que primero vamos y
crear este origen de datos.

00:02:14.450 --> 00:02:17.870
Así que después de haber creado
la fuente de datos,

00:02:17.870 --> 00:02:21.905
debe especificar qué formato de archivo

00:02:21.905 --> 00:02:27.410
el origen de datos admite y
lo que vas a consultar.

00:02:27.410 --> 00:02:29.375
Así que en este caso,

00:02:29.375 --> 00:02:34.910
Voy a consultar datos que
reside en archivos Parquet.

00:02:34.910 --> 00:02:40.485
Así que el formato del parquet
archivo se especifica aquí.

00:02:40.485 --> 00:02:45.960
Así que primero vamos a seguir adelante y
crear este objeto de formato de archivo.

00:02:46.090 --> 00:02:52.640
Así que ahora el siguiente paso es crear
una tabla externa en SQL Server.

00:02:52.640 --> 00:02:57.020
Así que esto representa las columnas
que van a consultar

00:02:57.020 --> 00:03:02.165
de los archivos y también
la ubicación de los archivos.

00:03:02.165 --> 00:03:03.710
Así que en este caso,

00:03:03.710 --> 00:03:08.180
Voy a consultar a todos los
datos de este Directorio.

00:03:08.180 --> 00:03:12.520
Así que vamos a ver rápidamente
lo que contiene.

00:03:12.520 --> 00:03:16.670
Así que voy a ampliar el directorio aquí.

00:03:16.670 --> 00:03:20.780
Como pueden ver, hay
tres archivos Parquet aquí.

00:03:20.780 --> 00:03:23.660
Así que ahora vamos a ver cómo

00:03:23.660 --> 00:03:26.510
se puede consultar esos
archivos de SQL Server.

00:03:26.510 --> 00:03:31.310
Así que ahora he creado un externo
objeto de tabla en SQL Server,

00:03:31.310 --> 00:03:37.920
que apunta al Directorio
que contiene los archivos Parquet.

00:03:38.440 --> 00:03:43.680
Primero, echemos un vistazo
algunas filas del archivo.

00:03:43.970 --> 00:03:48.675
Así que ejecuto una consulta selecta
con la pista superior,

00:03:48.675 --> 00:03:51.465
y veo 10 filas.

00:03:51.465 --> 00:03:57.470
Esto básicamente previsualiza las filas
que se leen de esos archivos.

00:03:57.470 --> 00:04:01.775
Así que también se puede correr un poco
consultas más complejas

00:04:01.775 --> 00:04:06.920
como simplemente hacer un recuento de la
número de filas de la tabla.

00:04:06.920 --> 00:04:13.380
En este caso, obtengo un resultado
de vuelta y son unos seis millones.

00:04:14.210 --> 00:04:17.705
También puede ejecutar más
consultas avanzadas.

00:04:17.705 --> 00:04:20.720
Tengo una consulta aquí que es

00:04:20.720 --> 00:04:25.505
tratando de encontrar el top 10
usuarios con más clics.

00:04:25.505 --> 00:04:27.850
Así que vamos a ejecutar esa consulta.

00:04:27.850 --> 00:04:29.535
Como pueden ver aquí,

00:04:29.535 --> 00:04:31.325
ahora usted es capaz de correr

00:04:31.325 --> 00:04:35.375
consultas SQL regulares
contra los datos en HDFS.

00:04:35.375 --> 00:04:37.910
Así que básicamente puedes
tratar los datos en

00:04:37.910 --> 00:04:42.665
HDFS como si fueran locales
tablas de la base de datos.

00:04:42.665 --> 00:04:46.900
En este caso, puedo usar el
características de SQL Server,

00:04:46.900 --> 00:04:50.060
y la sintaxis, y el
funciones disponibles en

00:04:50.060 --> 00:04:53.990
SQL ServerPARA escribir la consulta.

00:04:53.990 --> 00:04:56.060
Como pueden ver,

00:04:56.060 --> 00:05:03.200
ahora básicamente puedo obtener el
resultados de los archivos en HDFS.

00:05:03.200 --> 00:05:07.360
También puede realizar
otras operaciones conjuntas.

00:05:07.360 --> 00:05:10.275
Por ejemplo, quiero

00:05:10.275 --> 00:05:13.815
combinar los datos de ClickStream
con algunos datos de inventario,

00:05:13.815 --> 00:05:17.000
que también reside
en los archivos parquet

00:05:17.000 --> 00:05:21.800
en HDFS que en realidad se muestra aquí.

00:05:21.800 --> 00:05:24.140
Así que vamos a ejecutar esta consulta.

00:05:24.140 --> 00:05:28.400
En este caso, lo que estamos haciendo
en SQL Server es en realidad

00:05:28.400 --> 00:05:34.170
unir dos conjuntos de datos diferentes
que residen en HDFS.

00:05:34.270 --> 00:05:40.790
Usted puede especificar que en
una consulta SQL mediante sintaxis SQL,

00:05:40.790 --> 00:05:44.275
y usted puede obtener el
resultados de esa consulta.

00:05:44.275 --> 00:05:48.705
En este ejemplo, estamos
en realidad va a SQL Server,

00:05:48.705 --> 00:05:51.180
leer los archivos de HDFS,

00:05:51.180 --> 00:05:53.845
pasando los datos en los archivos,

00:05:53.845 --> 00:05:56.195
realizar las operaciones de unión

00:05:56.195 --> 00:06:00.425
y hacer
agregaciones en este caso,

00:06:00.425 --> 00:06:03.785
como contar el número de clics,

00:06:03.785 --> 00:06:08.790
añadiendo el inventario
valores, y así sucesivamente.

00:06:09.500 --> 00:06:11.640
Por último, pero no menos importante,

00:06:11.640 --> 00:06:14.250
también puede consultar

00:06:14.250 --> 00:06:17.480
estos datos HDFS y unirse a ellos

00:06:17.480 --> 00:06:20.405
con otros datos sentados
en su base de datos.

00:06:20.405 --> 00:06:22.175
Así que en este ejemplo,

00:06:22.175 --> 00:06:25.415
en realidad se puede consultar
los archivos Parquet

00:06:25.415 --> 00:06:30.120
y unirse con la tabla en SQL Server.

00:06:36.560 --> 00:06:39.270
Como pueden ver ahora,

00:06:39.270 --> 00:06:44.170
la integración en SQL Server
Big Data Cluster lo hace muy

00:06:44.170 --> 00:06:49.215
fácil para usted para unir los datos
de HDFS a otros datos,

00:06:49.215 --> 00:06:52.214
ya sea en HDFS u otras mesas,

00:06:52.214 --> 00:06:55.180
y obtener la información muy fácilmente.

00:06:55.180 --> 00:06:58.840
Así que ahora se puede construir
aplicaciones que consultan datos

00:06:58.840 --> 00:07:02.790
de diferentes fuentes de datos
muy fácilmente. Gracias.

00:07:02.790 --> 00:07:17.500
[MUSICA]

