WEBVTT

00:00:00.000 --> 00:00:03.070
>> SQL Server 2019 grande
los clústeres de datos proporcionan

00:00:03.070 --> 00:00:04.950
Grupos de datos para optimizar

00:00:04.950 --> 00:00:07.905
rendimiento de las consultas al alcanzar
a múltiples fuentes.

00:00:07.905 --> 00:00:10.080
Umachandar está aquí con
hoy para decirnos a todos

00:00:10.080 --> 00:00:12.450
sobre ella hoy en Data Exposed.

00:00:12.450 --> 00:00:23.550
[MUSIC].

00:00:23.550 --> 00:00:26.250
>> Hola y bienvenidos a otro
episodio de Data Exposed.

00:00:26.250 --> 00:00:29.100
Soy su anfitrión Jeroen y
hoy tenemos que ver el nosotros

00:00:29.100 --> 00:00:32.085
para hablar de grupos de datos
en clústeres de big data SQL.

00:00:32.085 --> 00:00:33.675
Hola Umachandar bienvenidos al espectáculo.

00:00:33.675 --> 00:00:35.460
>> Hola, estoy feliz de estar aquí.

00:00:35.460 --> 00:00:38.160
>> Así que los grupos de datos en
clústeres de big data.

00:00:38.160 --> 00:00:40.505
¿Qué es? ¿Qué necesito saber?

00:00:40.505 --> 00:00:42.440
>> Claro que sí, permítanme empezar rápidamente

00:00:42.440 --> 00:00:45.110
mostrando lo que un
El clúster de Big Data es.

00:00:45.110 --> 00:00:48.090
Así que esta diapositiva muestra el despliegue de

00:00:48.090 --> 00:00:52.110
SQL Server 19 Big Data
Cluster y hoy estamos

00:00:52.110 --> 00:00:56.360
va a hablar de los datos
Piscinas aquí que son básicamente

00:00:56.360 --> 00:00:59.300
dos instancias de SQL Server que pueden

00:00:59.300 --> 00:01:02.960
utilizado para descargar algunos
consulta [inaudible].

00:01:02.960 --> 00:01:04.810
Así que vamos a ver lo que es un grupo de datos.

00:01:04.810 --> 00:01:08.390
Así que es básicamente sql servidor
almacenamiento y computación que es

00:01:08.390 --> 00:01:13.550
para escribir las consultas
y almacenar datos en el grupo de datos.

00:01:13.550 --> 00:01:16.310
Se puede manipular ejecutando

00:01:16.310 --> 00:01:20.900
algunas operaciones de tabla externa
en él y se rellenan los datos

00:01:20.900 --> 00:01:24.440
en el grupo de datos y
más tarde se puede realmente

00:01:24.440 --> 00:01:28.970
descargar algunos de su analgésico
consultas a este grupo de datos.

00:01:28.970 --> 00:01:32.400
Así que esa es la principal
propósito del Grupo de Datos.

00:01:32.400 --> 00:01:37.140
Así que ahora vamos a ser rápidamente tomar
una mirada a algunos de los escenarios.

00:01:37.140 --> 00:01:39.980
Así que el escenario común es que estás

00:01:39.980 --> 00:01:42.710
obtener datos de
diferentes fuentes de datos,

00:01:42.710 --> 00:01:44.570
algunos de ellos son rápidos,

00:01:44.570 --> 00:01:47.345
otros son más lentos en la naturaleza.

00:01:47.345 --> 00:01:51.050
Así que ahora quieres básicamente optimizar

00:01:51.050 --> 00:01:55.535
esta consulta para que pudiera
en realidad tomar esa consulta

00:01:55.535 --> 00:02:00.350
y almacenar los resultados en el
Grupo de datos y esto le permite

00:02:00.350 --> 00:02:02.900
básicamente utilizar que como

00:02:02.900 --> 00:02:07.300
un área de puesta en escena donde
puede ejecutar todos sus análisis.

00:02:07.300 --> 00:02:10.830
El otro ejemplo es si usted está
haciendo aprendizaje automático,

00:02:10.830 --> 00:02:12.830
hay un montón de
escenarios en los que

00:02:12.830 --> 00:02:14.960
generaría características
y cientos y

00:02:14.960 --> 00:02:18.290
miles de características y
usted quiere básicamente almacenar

00:02:18.290 --> 00:02:23.040
el conjunto de datos en un lugar donde
puede hacer análisis repetidos.

00:02:23.040 --> 00:02:26.145
Ese es otro lugar donde
el grupo de datos ayuda.

00:02:26.145 --> 00:02:29.540
>> Así que en ese caso no es
sólo para la optimización de consultas

00:02:29.540 --> 00:02:31.190
sino también para asegurarse de que
no tienes que ir

00:02:31.190 --> 00:02:32.975
volver a la fuente de datos
todo el tiempo, ¿verdad?

00:02:32.975 --> 00:02:33.230
>> Sí.

00:02:33.230 --> 00:02:34.385
>> Si desea reutilizar los datos.

00:02:34.385 --> 00:02:34.625
>> Sí.

00:02:34.625 --> 00:02:35.660
>> Fresco, eso suena muy bien.

00:02:35.660 --> 00:02:37.355
Así que en realidad puedes
mostrarnos cómo funciona esto?

00:02:37.355 --> 00:02:40.550
>> Sí, vamos rápidamente
para evaluar cuánto hay aquí.

00:02:40.550 --> 00:02:42.230
Así que lo que tengo aquí es

00:02:42.230 --> 00:02:45.530
una conexión a la SQL
Clúster de big data del servidor.

00:02:45.530 --> 00:02:48.890
Estoy conectado al SQL
Instancia maestra del servidor.

00:02:48.890 --> 00:02:51.905
Así que la forma de crear un grupo de datos

00:02:51.905 --> 00:02:55.625
es primero mediante la creación de
este objeto de origen de datos.

00:02:55.625 --> 00:02:58.100
Así que aquí como este nombre indica

00:02:58.100 --> 00:03:01.325
aquí esto básicamente dice lo que
tipo de origen de datos que es.

00:03:01.325 --> 00:03:04.400
Entonces esto voy a
conectarse a un grupo de datos.

00:03:04.400 --> 00:03:05.530
>> Está bien.

00:03:05.530 --> 00:03:08.780
>> Así es como
crearlo. Después de eso

00:03:08.780 --> 00:03:11.360
usted define la tabla
que desea

00:03:11.360 --> 00:03:13.940
almacenar en los datos
Piscina y eso está hecho

00:03:13.940 --> 00:03:16.670
ejecutando este externo
declaración de la tabla.

00:03:16.670 --> 00:03:17.845
>> Está bien.

00:03:17.845 --> 00:03:21.090
>> Esto se parece a su regular
crear una instrucción de tabla,

00:03:21.090 --> 00:03:24.110
hay columnas que
usted necesita definir y en

00:03:24.110 --> 00:03:27.725
adición ya que hay muchos SQL
instancias de servidor en el back-end.

00:03:27.725 --> 00:03:28.115
>> Correcto.

00:03:28.115 --> 00:03:30.740
>> Sólo tienes que decir cómo
desea distribuir los datos.

00:03:30.740 --> 00:03:32.630
>> Así que con esto se puede decir, de acuerdo,

00:03:32.630 --> 00:03:36.155
por lo que tenemos un par o aproximadamente
incluso la distribución a través.

00:03:36.155 --> 00:03:36.515
>> Sí.

00:03:36.515 --> 00:03:37.400
>> A través del servicio.

00:03:37.400 --> 00:03:37.685
>> Sí.

00:03:37.685 --> 00:03:38.000
>> Está bien.

00:03:38.000 --> 00:03:41.330
>> Así que eso es lo que el round robin
hace es básicamente distribuir

00:03:41.330 --> 00:03:44.825
los datos a través de cuántos de
Instancias del grupo de datos que tiene.

00:03:44.825 --> 00:03:45.865
>> Está bien.

00:03:45.865 --> 00:03:49.370
>> Lo siguiente que puedes
hacer es como consultar los datos.

00:03:49.370 --> 00:03:50.780
Así que vamos a ver primero algunos de

00:03:50.780 --> 00:03:54.155
los datos de muestra que en
este ejemplo que tengo en

00:03:54.155 --> 00:03:57.680
directorio HDFS y básicamente

00:03:57.680 --> 00:04:00.155
Quiero tomar estos
datos de secuencia de clics,

00:04:00.155 --> 00:04:04.490
hacer algunas consultas y rellenar
en el grupo de datos.

00:04:04.490 --> 00:04:08.915
La forma en que lo harías es
ejecutando sólo una instrucción insert.

00:04:08.915 --> 00:04:13.490
Así que la fuente de la inserción
instrucción es sólo una consulta SQL,

00:04:13.490 --> 00:04:18.140
y simplemente puede ejecutar el
consultar y rellenar los datos.

00:04:18.140 --> 00:04:21.320
No voy a correr a través de la
insertos, pero vamos a rápidamente

00:04:21.320 --> 00:04:25.205
ver los datos que ya es
rellenado en el grupo de datos.

00:04:25.205 --> 00:04:28.445
Así que esta consulta debe devolver
unas 2.000 filas, ¿verdad?

00:04:28.445 --> 00:04:32.930
Así que ahora como cualquier otro
mesa que en realidad se puede unir

00:04:32.930 --> 00:04:37.460
esta tabla con otras mesas
en su SQL Server y obtener

00:04:37.460 --> 00:04:39.680
los resultados y transparentemente

00:04:39.680 --> 00:04:42.200
esta instancia de SQL Server
va a hablar con

00:04:42.200 --> 00:04:47.555
las instancias del grupo de datos que se van a ejecutar
consultas y obtener los resultados.

00:04:47.555 --> 00:04:50.330
Así que eso es a un alto nivel
de lo que es un grupo de datos.

00:04:50.330 --> 00:04:51.530
>> Genial impresionante.

00:04:51.530 --> 00:04:54.390
Eso es muy impresionante.
Muchas gracias, hombre.

00:04:54.390 --> 00:04:55.530
>> Enfriar sí, gracias.

00:04:55.530 --> 00:04:58.050
>> Está bien. Así que gracias por mirar.

00:04:58.050 --> 00:04:59.590
Por favor, me gusta y suscríbete,

00:04:59.590 --> 00:05:02.150
comentar sobre el video
si quieres que

00:05:02.150 --> 00:05:06.360
grabar algo más y la esperanza
para verte la próxima vez. Gracias.

00:05:06.360 --> 00:05:20.860
[MUSICA]

