WEBVTT

00:00:09.680 --> 00:00:10.780
>> [MUSIC].

00:00:10.780 --> 00:00:12.750
>> Hola. Soy Vicki Harp con
el equipo de productos de SQL Server.

00:00:12.750 --> 00:00:15.870
Estoy aquí hoy para mostrarte
Blocs de notas y Azure Data Studio.

00:00:15.870 --> 00:00:18.825
Así que los cuadernos son un concepto en

00:00:18.825 --> 00:00:20.660
Ciencia de datos que ha sido

00:00:20.660 --> 00:00:22.940
solía hacer un montón de
visualización de datos,

00:00:22.940 --> 00:00:25.010
exploración de datos y trabajo de datos,

00:00:25.010 --> 00:00:26.855
principalmente en el lenguaje Python.

00:00:26.855 --> 00:00:28.760
Cuando la gente habla
acerca de los cuadernos,

00:00:28.760 --> 00:00:30.485
muchas veces estamos hablando
acerca de Júpiter Cuadernos.

00:00:30.485 --> 00:00:32.660
Así que la implementación de los cuadernos

00:00:32.660 --> 00:00:34.730
que tenemos en Azure Data Studio es

00:00:34.730 --> 00:00:37.070
un Cuaderno de Júpiter con un
front-end personalizado que es

00:00:37.070 --> 00:00:40.430
mejor adaptado para encajar dentro de la
Experiencia de Azure Data Studio.

00:00:40.430 --> 00:00:45.450
Así que primero, voy a mostrar
un simple cuaderno de Python.

00:00:45.450 --> 00:00:46.760
Este es un cuaderno que tiene

00:00:46.760 --> 00:00:49.250
Lenguaje Python y
se puede ver que tenemos

00:00:49.250 --> 00:00:51.620
una sección aquí arriba que es

00:00:51.620 --> 00:00:54.395
un texto legible por el ser humano y un
sección aquí abajo que tiene código.

00:00:54.395 --> 00:00:56.149
Así que si golpeo run en esto,

00:00:56.149 --> 00:00:58.010
este código en particular llama a

00:00:58.010 --> 00:01:00.755
Internet y tira hacia abajo de un
fotografía aleatoria de un perro.

00:01:00.755 --> 00:01:03.710
Para mostrarle alrededor de la
Experiencia de cuaderno,

00:01:03.710 --> 00:01:05.390
tenemos un recolector aquí,

00:01:05.390 --> 00:01:06.770
podemos elegir el idioma.

00:01:06.770 --> 00:01:08.630
Así que en este caso, estoy
ejecutando Python 3,

00:01:08.630 --> 00:01:10.475
y lo estoy ejecutando
en mi máquina local.

00:01:10.475 --> 00:01:13.460
En su lugar, podría pasar a
el lenguaje SQL y luego

00:01:13.460 --> 00:01:16.430
elegir cuál de los servidores MySQL
máquinas a las que quiero conectarme.

00:01:16.430 --> 00:01:18.605
Tengo servidores MySQL listados aquí.

00:01:18.605 --> 00:01:21.830
Así que para llevarlo un poco más lejos,

00:01:21.830 --> 00:01:24.230
Te mostraré un ejemplo
de cómo se podría utilizar esto.

00:01:24.230 --> 00:01:28.025
Así que aquí tengo un SQL Server
Clúster de Big Data 2019 que

00:01:28.025 --> 00:01:32.555
es SQL Server que se ejecuta en Kubernetes
con SQL y Spark.

00:01:32.555 --> 00:01:34.490
Así que aquí en mi sección HDFS,

00:01:34.490 --> 00:01:38.040
Tengo este directorio
lleno de archivos CSV.

00:01:38.040 --> 00:01:40.890
Si emito eso, previsualí,

00:01:40.890 --> 00:01:42.260
se puede ver que es un montón de

00:01:42.260 --> 00:01:44.780
información sobre el perro
información de la licencia.

00:01:44.780 --> 00:01:46.970
Así que esto es en realidad el volcado de datos de

00:01:46.970 --> 00:01:48.320
el condado de Allegheny en Pensilvania

00:01:48.320 --> 00:01:51.230
licencias para perros para el
los últimos años.

00:01:51.230 --> 00:01:55.775
Así que usando la Chispa
idioma y la conexión

00:01:55.775 --> 00:02:00.440
a Python usando Spark en el
Clúster de Big Data de SQL Server.

00:02:00.440 --> 00:02:02.045
Soy capaz de correr,

00:02:02.045 --> 00:02:05.780
código para leer esos archivos
directamente de CSV.

00:02:05.780 --> 00:02:07.760
Entonces puedo hacer un análisis.

00:02:07.760 --> 00:02:09.890
Así que en este caso, voy a
obtener el recuento de las filas.

00:02:09.890 --> 00:02:15.645
Voy a enumerar los distintos
lista de sólo los nombres,

00:02:15.645 --> 00:02:17.215
así que tenemos 25.000 nombres.

00:02:17.215 --> 00:02:20.825
Entonces voy a tirar de un
nombre al azar de ese sombrero.

00:02:20.825 --> 00:02:22.550
Así que tenemos un nombre aquí.

00:02:22.550 --> 00:02:25.850
Ahora, si estuviera usando una Chispa,

00:02:25.850 --> 00:02:29.120
si estuviera muy acostumbrado a usar
Python, eso sería genial.

00:02:29.120 --> 00:02:30.770
Pero si soy más una persona SQL,

00:02:30.770 --> 00:02:33.320
entonces tal vez quiero conectarme
a ese mismo conjunto de datos,

00:02:33.320 --> 00:02:36.040
Ejecutaré el clúster
utilizando el lenguaje SQL.

00:02:36.040 --> 00:02:41.420
Aquí, he creado externos
tabla sobre ese formato de archivo.

00:02:41.420 --> 00:02:43.870
Esto es algo que
puede hacer usando un asistente.

00:02:43.870 --> 00:02:45.250
Voy a ir aquí,

00:02:45.250 --> 00:02:46.930
crear tabla externa a partir de archivos CSV.

00:02:46.930 --> 00:02:50.315
Entonces, eso crearía este
tabla externa que estoy usando.

00:02:50.315 --> 00:02:52.415
Pero en este caso, he
lo hizo usando código.

00:02:52.415 --> 00:02:56.500
Si golpeo las células de carrera,

00:02:56.500 --> 00:02:59.765
se puede ver que también estoy usando SQL

00:02:59.765 --> 00:03:03.625
para acceder a los mismos datos que
Acabo de acceder usando Spark.

00:03:03.625 --> 00:03:07.410
Ahora, estos archivos son
guardados como archivos IPYNB,

00:03:07.410 --> 00:03:10.970
que luego puedo compartir con mi
colegas y yo podemos correr de nuevo.

00:03:10.970 --> 00:03:14.465
Así que en el caso de que
quería ejecutar esto hoy,

00:03:14.465 --> 00:03:15.995
envíalo a mi colega,

00:03:15.995 --> 00:03:18.950
podrían abrirlo
en su instante y

00:03:18.950 --> 00:03:20.480
adjuntarlo a su propio clúster o

00:03:20.480 --> 00:03:22.535
a mi mismo clúster y ejecútelo de nuevo.

00:03:22.535 --> 00:03:24.800
También estamos usando Notebooks
de algunas otras maneras.

00:03:24.800 --> 00:03:27.485
Aquí, tenemos algo
llamados libros de Júpiter.

00:03:27.485 --> 00:03:30.710
Esta es una lista de cuadernos básicamente

00:03:30.710 --> 00:03:34.130
que habían sido compilados juntos
en un formato de página de capítulo.

00:03:34.130 --> 00:03:37.775
Así que aquí tenemos un SQL
Curso de servicios de aprendizaje automático de servidor,

00:03:37.775 --> 00:03:40.985
que se muestra a través de Cuadernos.

00:03:40.985 --> 00:03:43.070
Así que tenemos todos los
documentación presente.

00:03:43.070 --> 00:03:46.445
Tenemos los ejemplos de código
aquí y luego se puede,

00:03:46.445 --> 00:03:47.780
al final de cada capítulo,

00:03:47.780 --> 00:03:49.730
ya sea golpear el siguiente
botón para ir a la siguiente

00:03:49.730 --> 00:03:52.400
uno o utilizar este capítulo
navegador para elegirlo.

00:03:52.400 --> 00:03:54.965
También tenemos la
libro de apoyo

00:03:54.965 --> 00:03:57.255
para SQL Server 2019
Clústeres de Big Data.

00:03:57.255 --> 00:03:59.210
Si yo crié a la
piloto de comando y elegir

00:03:59.210 --> 00:04:01.160
esta guía de Júpiter libros 2019,

00:04:01.160 --> 00:04:03.035
eso es lo que uso para abrir esto.

00:04:03.035 --> 00:04:05.960
Aquí, tenemos todos los
información que usted podría

00:04:05.960 --> 00:04:08.885
necesidad de apoyar
su nuevo clúster de Big Data,

00:04:08.885 --> 00:04:11.585
muchos de los Comandos de Kubernetes,
la información del clúster.

00:04:11.585 --> 00:04:13.565
Esto es algo que puedes ejecutar,

00:04:13.565 --> 00:04:14.735
puedes enviar a otra persona,

00:04:14.735 --> 00:04:17.065
y se puede ahorrar y
hacer lo que quieras con.

00:04:17.065 --> 00:04:21.140
Así que estamos muy entusiasmados con
Blocs de notas en Azure Data Studio.

00:04:21.140 --> 00:04:23.210
Realmente creemos que este
es algo que será

00:04:23.210 --> 00:04:26.210
muy útil para nuestra comunidad.

00:04:26.210 --> 00:04:28.040
Estamos muy interesados
en averiguar cómo

00:04:28.040 --> 00:04:29.765
lo estás usando y
lo que quieres de nosotros.

00:04:29.765 --> 00:04:32.800
Así que si usted está interesado en
aprender más, ir a GitHub,

00:04:32.800 --> 00:04:34.610
busque Azure Data Studio y usted

00:04:34.610 --> 00:04:37.120
puede abrir la función
solicitar errores inter.

00:04:37.120 --> 00:04:39.470
Ahí es también donde
puede descargar tanto el

00:04:39.470 --> 00:04:51.991
estable y la adición de los expertos.
Muchas gracias por su tiempo.

00:04:51.991 --> 00:04:57.040
>> [MUSICA]

