WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 presenta
clústeres de big data.

00:00:03.345 --> 00:00:04.860
Dispone de Spark integrado.

00:00:04.860 --> 00:00:09.300
Shiv está aquí para contarnos todo sobre
que hoy en Data Exposed.

00:00:09.300 --> 00:00:20.220
[MUSIC].

00:00:20.220 --> 00:00:23.085
>> Hola y bienvenidos a otro
episodio de Data Exposed.

00:00:23.085 --> 00:00:25.890
Soy tu anfitrión, Jeroen y
hoy tenemos a Shiv aquí con

00:00:25.890 --> 00:00:28.485
nosotros para hablar de Spark
en clústeres de big data.

00:00:28.485 --> 00:00:29.780
Bienvenido al espectáculo, Shiv.

00:00:29.780 --> 00:00:30.600
>> Gracias, Jeroen.

00:00:30.600 --> 00:00:34.705
>> Así que chispa, vamos a empezar en
lo básico. ¿Qué es Spark?

00:00:34.705 --> 00:00:38.790
>> Spark es un gran
motor de procesamiento de datos

00:00:38.790 --> 00:00:41.640
que puede funcionar a través de
sus cargas de trabajo analíticas

00:00:41.640 --> 00:00:45.555
>> Eso no suena muy simple.

00:00:45.555 --> 00:00:47.340
>> Así que vamos a desglosarlo.

00:00:47.340 --> 00:00:47.730
>> Está bien.

00:00:47.730 --> 00:00:49.575
>> Así que primero todos vamos a hablar de

00:00:49.575 --> 00:00:52.850
procesamiento de big data,
big data distribuidos.

00:00:52.850 --> 00:00:54.140
Así que en los últimos años,

00:00:54.140 --> 00:00:55.460
lo que hemos estado viendo es una tendencia de

00:00:55.460 --> 00:00:57.800
empresas que recogen
muchos y muchos datos.

00:00:57.800 --> 00:00:58.265
>> Claro.

00:00:58.265 --> 00:01:00.170
>> De pasar de GBs de datos,

00:01:00.170 --> 00:01:01.640
hoy vemos una empresa que se ocupa

00:01:01.640 --> 00:01:04.100
con terabytes y petabytes de datos.

00:01:04.100 --> 00:01:05.810
Ahora hay un problema allí.

00:01:05.810 --> 00:01:09.005
El problema es que cuando
tienen una escala tan grande de datos,

00:01:09.005 --> 00:01:11.375
¿cómo se almacena realmente que
datos, en primer lugar, ¿verdad?

00:01:11.375 --> 00:01:11.960
>> Está bien.

00:01:11.960 --> 00:01:13.945
>> Así que al principio,

00:01:13.945 --> 00:01:16.580
empezamos con un solo
máquina y escalarla

00:01:16.580 --> 00:01:20.300
verticalmente y tener terabytes
disco duro por grupo de datos.

00:01:20.300 --> 00:01:22.180
Esa escala vertical no era realmente

00:01:22.180 --> 00:01:24.295
la respuesta para almacenar
datos distribuidos.

00:01:24.295 --> 00:01:27.020
Una solución factible, más mejor,

00:01:27.020 --> 00:01:29.270
más solución de resiliencia
se distribuyeron datos,

00:01:29.270 --> 00:01:30.830
donde no seguimos escalando

00:01:30.830 --> 00:01:34.265
una sola máquina para tomar
en más y más datos.

00:01:34.265 --> 00:01:37.055
Lo que hacemos es que
distribuir los datos a través de

00:01:37.055 --> 00:01:40.340
n número de máquinas más pequeñas y
así es como almacenamos big data.

00:01:40.340 --> 00:01:41.870
>> Así que básicamente dividir y conquistar,

00:01:41.870 --> 00:01:43.050
¿Correcto? Dividimos el trabajo.

00:01:43.050 --> 00:01:43.620
>> Exactamente.

00:01:43.620 --> 00:01:44.025
>> Está bien.

00:01:44.025 --> 00:01:46.040
>> Así que ahora, nos hemos ocupado de

00:01:46.040 --> 00:01:48.935
el problema de almacenar el
datos, pero eso no es todo.

00:01:48.935 --> 00:01:51.275
El principal problema es
no el almacenamiento de datos,

00:01:51.275 --> 00:01:54.680
el principal problema es que necesito
para obtener información sobre estos datos.

00:01:54.680 --> 00:01:56.105
>> Cuando lo procesas,

00:01:56.105 --> 00:01:57.590
ahí es donde está el valor, ¿verdad?

00:01:57.590 --> 00:01:59.180
>> Exactamente. Así que el procesamiento de

00:01:59.180 --> 00:02:02.340
estos datos distribuidos
requiere diferentes motores.

00:02:02.340 --> 00:02:07.100
Spark es un proceso de big data
motor que puede funcionar a través de

00:02:07.100 --> 00:02:12.200
datos distribuidos y computación
y hacer sus cargas de trabajo en eso.

00:02:12.200 --> 00:02:16.715
No es un distribuido
motor informático de big data,

00:02:16.715 --> 00:02:19.010
también es algo
que se abstiene sobre

00:02:19.010 --> 00:02:21.590
los detalles de la distribución de usted.

00:02:21.590 --> 00:02:22.880
Como usuario de Spark,

00:02:22.880 --> 00:02:25.190
usted no tendrá que preocuparse por
todos los detalles de la distribución,

00:02:25.190 --> 00:02:27.650
esa es toda la belleza alrededor de Spark.

00:02:27.650 --> 00:02:31.130
>> Así que sólo le das un
tarea y se dará cuenta de

00:02:31.130 --> 00:02:33.035
cómo distribuir el trabajo y

00:02:33.035 --> 00:02:35.420
hacer tan rápido como
posible, con suerte.

00:02:35.420 --> 00:02:38.840
>> Correcto. Cuando usted está tratando
con este tipo de datos,

00:02:38.840 --> 00:02:42.320
usted no quiere ser atado
a un idioma en particular.

00:02:42.320 --> 00:02:45.470
Eres como si esto es un gran
motor informático de datos y ahora

00:02:45.470 --> 00:02:48.290
se utiliza el lenguaje llamativo que
He inventado para procesar eso.

00:02:48.290 --> 00:02:50.480
Así que Spark hace algo
muy hermoso allí.

00:02:50.480 --> 00:02:52.235
Spark le da una opción de idioma.

00:02:52.235 --> 00:02:54.680
Si eres un programador de Python,

00:02:54.680 --> 00:02:57.350
se puede programar en
Python, Scala, Java,

00:02:57.350 --> 00:03:01.190
R. R es muy popular
nuestros científicos de datos y

00:03:01.190 --> 00:03:04.760
Spark le da la opción
para usar R para sus cargas de trabajo.

00:03:04.760 --> 00:03:09.050
Así que lo que es Spark como
Motor de cómputo distribuido.

00:03:09.050 --> 00:03:11.105
>> Así que básicamente dijiste

00:03:11.105 --> 00:03:13.850
restaurarlo de manera diferente, pero
eso es algo que hicimos para

00:03:13.850 --> 00:03:16.920
big data debido a
el problema del escalado

00:03:16.920 --> 00:03:18.450
hacia arriba todo el tiempo con escala

00:03:18.450 --> 00:03:20.415
arriba y ahora estamos escalando
fuera también. ¿Correcto?

00:03:20.415 --> 00:03:20.790
>> Correcto.

00:03:20.790 --> 00:03:23.075
>> Entonces Spark trabaja en
la capa distribuida

00:03:23.075 --> 00:03:24.320
y le da la flexibilidad de

00:03:24.320 --> 00:03:25.580
elegir el idioma de elección para.

00:03:25.580 --> 00:03:29.180
>> Sí. Todavía había un poco
[inaudible] en mi sentencia.

00:03:29.180 --> 00:03:31.520
Te dije algo sobre
un motor de cómputo unificado.

00:03:31.520 --> 00:03:34.120
Así que vamos a cortar y dados que un poco.

00:03:34.120 --> 00:03:39.170
Como vimos, las empresas comenzaron
obtener más y más datos.

00:03:39.170 --> 00:03:41.420
El tradicional
las cargas de trabajo también se mueven de

00:03:41.420 --> 00:03:45.320
cargas de trabajo de transacciones a cargas de trabajo
que son analíticos en la naturaleza.

00:03:45.320 --> 00:03:47.730
¿Qué queremos decir con carga de trabajo analítica?

00:03:47.730 --> 00:03:51.290
Carga de trabajo en la que estoy analizando
una gran cantidad de datos para obtener

00:03:51.290 --> 00:03:53.180
perspectivas fuera de ella y

00:03:53.180 --> 00:03:56.645
entonces tal vez haciendo máquina
aprendizaje o aprendizaje profundo.

00:03:56.645 --> 00:03:59.750
Tan tradicionalmente, la fase de

00:03:59.750 --> 00:04:03.095
las cargas de trabajo de las transacciones también
se trasladó a cargas de trabajo analíticas.

00:04:03.095 --> 00:04:06.920
Las cargas de trabajo analíticas tenían una variedad
de cargas de trabajo del aprendizaje profundo,

00:04:06.920 --> 00:04:10.120
aprendizaje automático, análisis
y cargas de trabajo de streaming.

00:04:10.120 --> 00:04:12.990
Ahora, cada uno de estos
cargas de trabajo que no desea

00:04:12.990 --> 00:04:17.120
un motor de cómputo separado para
realmente desarrollar sus habilidades en.

00:04:17.120 --> 00:04:18.530
>> Lo ideal sería que aprendieras uno.

00:04:18.530 --> 00:04:20.840
>> Exactamente. Eso es lo que hace Spark.

00:04:20.840 --> 00:04:24.110
Spark es un proceso unificado
motor que le permite trabajar

00:04:24.110 --> 00:04:27.690
en todas estas cargas de trabajo con
el mismo conjunto de principios.

00:04:27.690 --> 00:04:29.875
De eso se trata Spark.

00:04:29.875 --> 00:04:32.795
Un proceso distribuido
motor que extrae

00:04:32.795 --> 00:04:35.750
los detalles del trabajo
distribución de usted.

00:04:35.750 --> 00:04:39.545
No te molestas.
sobre los detalles de distribución.

00:04:39.545 --> 00:04:42.230
En segundo lugar, una computación unificada
motor y, sobre todo,

00:04:42.230 --> 00:04:45.245
que me parece como un muy
potente función para desarrolladores,

00:04:45.245 --> 00:04:47.990
le ofrece la elección del idioma
donde se puede utilizar Python,

00:04:47.990 --> 00:04:50.300
Scala, Java o R,
lo que tú elijas.

00:04:50.300 --> 00:04:52.265
Para que lo que Spark es.

00:04:52.265 --> 00:04:54.725
>> Genial. Eso es muy represivo.

00:04:54.725 --> 00:04:57.785
Quiero decir, Spark está bien.

00:04:57.785 --> 00:05:00.370
Entonces, ¿qué estamos haciendo con
¿Spark en SQL Server?

00:05:00.370 --> 00:05:01.760
¿Tenemos algo?

00:05:01.760 --> 00:05:05.300
>> So Spark es básicamente ApacheSpark.

00:05:05.300 --> 00:05:07.460
Es un motor informático de código abierto.

00:05:07.460 --> 00:05:09.230
Lo que hemos hecho en
clústeres de big data,

00:05:09.230 --> 00:05:12.680
te hemos traído
juntos, esto con SQL,

00:05:12.680 --> 00:05:16.995
como un único unificado
ofreciendo con SQL y

00:05:16.995 --> 00:05:21.070
solución de extremo a extremo donde
no sólo conseguir el motor de cómputo,

00:05:21.070 --> 00:05:23.150
se obtiene un completo
experiencia de extremo a extremo

00:05:23.150 --> 00:05:24.785
sobre el uso del motor informático.

00:05:24.785 --> 00:05:26.630
>> Así que eso significaría
que desde Spark

00:05:26.630 --> 00:05:28.400
se ha integrado
en el clúster de big data,

00:05:28.400 --> 00:05:31.625
Puedo consultar los datos en

00:05:31.625 --> 00:05:32.885
el clúster de big data

00:05:32.885 --> 00:05:35.060
utilizando los beneficios antiguos que
sólo describa de Spark.

00:05:35.060 --> 00:05:36.470
>> Exactamente. Uso del cliente

00:05:36.470 --> 00:05:38.270
herramientas que usted es
todos familiarizados con.

00:05:38.270 --> 00:05:40.330
>> Wow, eso es impresionante.

00:05:40.330 --> 00:05:43.110
Wow. Entonces, ¿cómo puedo obtener más información?

00:05:43.110 --> 00:05:47.025
Quiero decir, esto suena muy nuevo para
yo, ¿dónde encuentro algo?

00:05:47.025 --> 00:05:49.529
>> Por favor, vaya a la gran
documentación del clúster de datos,

00:05:49.529 --> 00:05:52.910
Documentación del clúster de datos de SQL Server
y usted encontrará mucho

00:05:52.910 --> 00:05:57.275
de comunicaciones y artículos sobre Spark.

00:05:57.275 --> 00:06:00.020
Encontrará clústeres de big data,

00:06:00.020 --> 00:06:02.855
Ejemplos de Spark y SQL
Repositorio de ejemplos de servidor.

00:06:02.855 --> 00:06:04.660
Ahí es donde empiezas.

00:06:04.660 --> 00:06:06.920
>> Genial. Así que vamos a
asegúrese de incluir

00:06:06.920 --> 00:06:09.080
esos enlaces en la descripción,

00:06:09.080 --> 00:06:10.565
por lo que los encontrará allí.

00:06:10.565 --> 00:06:13.265
Gracias Shiv por venir al show.

00:06:13.265 --> 00:06:14.420
Gracias por explicar esto.

00:06:14.420 --> 00:06:17.430
Aprendí, finalmente, qué es Spark.

00:06:17.430 --> 00:06:19.205
Gracias por mirar.

00:06:19.205 --> 00:06:21.650
Por favor, me gusta y suscribirse y
Espero verte la próxima vez.

00:06:21.650 --> 00:06:33.610
[MUSICA]

