WEBVTT

00:00:09.680 --> 00:00:10.780
>> [MÚSICA].

00:00:10.780 --> 00:00:12.750
Olá. Sou Vicki Harp com
a equipe de produto do SQL Server.

00:00:12.750 --> 00:00:15.870
Estou aqui hoje para te mostrar
Notebooks e o Azure Data Studio.

00:00:15.870 --> 00:00:18.825
Assim, os notebooks são um conceito em

00:00:18.825 --> 00:00:20.660
A ciência dos dados que foi

00:00:20.660 --> 00:00:22.940
costumava fazer um monte de
visualização de dados,

00:00:22.940 --> 00:00:25.010
exploração de dados e trabalho de dados,

00:00:25.010 --> 00:00:26.855
principalmente na linguagem Python.

00:00:26.855 --> 00:00:28.760
Quando as pessoas estão falando
sobre notebooks,

00:00:28.760 --> 00:00:30.485
um monte de vezes que estamos falando
sobre os cadernos de Júpiter.

00:00:30.485 --> 00:00:32.660
Assim, a implementação de notebooks

00:00:32.660 --> 00:00:34.730
que temos no Azure Data Studio é

00:00:34.730 --> 00:00:37.070
um caderno de Júpiter com um
front-end personalizado que é

00:00:37.070 --> 00:00:40.430
melhor adaptados para caber dentro do
Experiência do Azure Data Studio.

00:00:40.430 --> 00:00:45.450
Então, primeiro, eu vou mostrar
você um simples Python notebook.

00:00:45.450 --> 00:00:46.760
Este é um caderno que tenha

00:00:46.760 --> 00:00:49.250
Linguagem Python e
Você pode ver que nós temos

00:00:49.250 --> 00:00:51.620
uma seção aqui que é

00:00:51.620 --> 00:00:54.395
um texto legível por humanos e um
seção aqui que tem código.

00:00:54.395 --> 00:00:56.149
Então, se eu bater correr sobre isso,

00:00:56.149 --> 00:00:58.010
Este código particular chama a

00:00:58.010 --> 00:01:00.755
a Internet e puxa para baixo um
fotografia aleatória de um cão.

00:01:00.755 --> 00:01:03.710
Para mostrar-lhe em torno do
Experiência do caderno,

00:01:03.710 --> 00:01:05.390
Temos um selecionador aqui,

00:01:05.390 --> 00:01:06.770
Nós podemos escolher a língua.

00:01:06.770 --> 00:01:08.630
Então, neste caso, eu sou
executando o Python 3,

00:01:08.630 --> 00:01:10.475
e eu estou correndo
na minha máquina local.

00:01:10.475 --> 00:01:13.460
Eu poderia, em vez passar para
o idioma SQL e, em seguida,

00:01:13.460 --> 00:01:16.430
escolher qual do servidor MySQL
máquinas que eu quero anexar.

00:01:16.430 --> 00:01:18.605
Eu tenho servidores MySQL listados aqui.

00:01:18.605 --> 00:01:21.830
Então, para levá-lo um pouco mais,

00:01:21.830 --> 00:01:24.230
Eu vou te mostrar um exemplo
de como você pode usar isso.

00:01:24.230 --> 00:01:28.025
Então aqui eu tenho um SQL Server
2019 Big data cluster que

00:01:28.025 --> 00:01:32.555
é o SQL Server em execução no kubernetes
com o SQL e o Spark.

00:01:32.555 --> 00:01:34.490
Então aqui na minha seção HDFS,

00:01:34.490 --> 00:01:38.040
Eu comecei este diretório
cheio de arquivos CSV.

00:01:38.040 --> 00:01:40.890
Se eu dar uma olhada nisso, visualizá-lo,

00:01:40.890 --> 00:01:42.260
Você pode ver que é um monte de

00:01:42.260 --> 00:01:44.780
informações sobre o cão
informações de licença.

00:01:44.780 --> 00:01:46.970
Então este é realmente o despejo de dados de

00:01:46.970 --> 00:01:48.320
o Condado de Allegheny em Pensilvânia

00:01:48.320 --> 00:01:51.230
licenças do cão para o
últimos anos.

00:01:51.230 --> 00:01:55.775
Então, usando o Spark
língua e conectando

00:01:55.775 --> 00:02:00.440
para Python usando o Spark no
Cluster de Big data do SQL Server.

00:02:00.440 --> 00:02:02.045
Eu sou capaz de correr,

00:02:02.045 --> 00:02:05.780
código para ler os arquivos
diretamente fora do CSV.

00:02:05.780 --> 00:02:07.760
Então eu posso fazer alguma análise.

00:02:07.760 --> 00:02:09.890
Então, neste caso, eu vou
obter a contagem das linhas.

00:02:09.890 --> 00:02:15.645
Vou listar os distintos
lista de apenas os nomes,

00:02:15.645 --> 00:02:17.215
Então temos 25.000 nomes.

00:02:17.215 --> 00:02:20.825
Então eu vou puxar um
nome aleatório do chapéu.

00:02:20.825 --> 00:02:22.550
Então, temos um nome aqui.

00:02:22.550 --> 00:02:25.850
Agora, se eu estivesse usando uma faísca,

00:02:25.850 --> 00:02:29.120
Se eu estava muito acostumado a usar
Python, isso seria ótimo.

00:02:29.120 --> 00:02:30.770
Mas se eu sou mais uma pessoa SQL,

00:02:30.770 --> 00:02:33.320
Então talvez eu queira conectar
para o mesmo conjunto de dados,

00:02:33.320 --> 00:02:36.040
Vou executar cluster
usando a linguagem SQL.

00:02:36.040 --> 00:02:41.420
Aqui, eu criei externo
tabela sobre esse formato de arquivo.

00:02:41.420 --> 00:02:43.870
Isso é algo que você
pode fazer usando um assistente.

00:02:43.870 --> 00:02:45.250
Eu vou até aqui,

00:02:45.250 --> 00:02:46.930
criar tabela externa a partir de arquivos CSV.

00:02:46.930 --> 00:02:50.315
Então, isso criaria este
tabela externa que estou usando.

00:02:50.315 --> 00:02:52.415
Mas neste caso, eu
feito usando código.

00:02:52.415 --> 00:02:56.500
Se eu acertar células de corrida,

00:02:56.500 --> 00:02:59.765
Você pode ver que eu também estou usando o SQL

00:02:59.765 --> 00:03:03.625
para acessar os mesmos dados que
Acabei de acessar usando o Spark.

00:03:03.625 --> 00:03:07.410
Agora, esses arquivos são
salvos como arquivos IPYNB,

00:03:07.410 --> 00:03:10.970
que eu posso então compartilhar com o meu
colegas e eu posso correr novamente.

00:03:10.970 --> 00:03:14.465
Então, no caso em que eu
queria executar isso hoje,

00:03:14.465 --> 00:03:15.995
enviá-lo para o meu colega,

00:03:15.995 --> 00:03:18.950
Eles poderiam abri-lo
em seu instante e

00:03:18.950 --> 00:03:20.480
anexá-lo ao seu próprio cluster ou

00:03:20.480 --> 00:03:22.535
para o meu mesmo cluster e executá-lo novamente.

00:03:22.535 --> 00:03:24.800
Também estamos usando notebooks
de outras maneiras.

00:03:24.800 --> 00:03:27.485
Aqui, temos algo
chamados livros de Júpiter.

00:03:27.485 --> 00:03:30.710
Esta é uma lista de basicamente notebooks

00:03:30.710 --> 00:03:34.130
que haviam sido compilados juntos
em um formato de página de capítulo.

00:03:34.130 --> 00:03:37.775
Então, aqui temos um SQL
Curso de serviços de servidor ML,

00:03:37.775 --> 00:03:40.985
que é mostrada através de notebooks.

00:03:40.985 --> 00:03:43.070
Então nós temos todos os
documentação presente.

00:03:43.070 --> 00:03:46.445
Nós temos as amostras de código
aqui e então você pode,

00:03:46.445 --> 00:03:47.780
no final de cada capítulo,

00:03:47.780 --> 00:03:49.730
ou bateu o próximo
para ir para a próxima

00:03:49.730 --> 00:03:52.400
um ou usar este capítulo
navegador para escolhê-lo.

00:03:52.400 --> 00:03:54.965
Também temos o
livro de suportabilidade

00:03:54.965 --> 00:03:57.255
para o SQL Server 2019
Clusters de Big Data.

00:03:57.255 --> 00:03:59.210
Se eu trouxesse o
piloto de comando e escolher

00:03:59.210 --> 00:04:01.160
Este Júpiter livros 2019 guia,

00:04:01.160 --> 00:04:03.035
Isso é o que eu uso para abrir isso.

00:04:03.035 --> 00:04:05.960
Aqui, temos todos os
informações que você pode

00:04:05.960 --> 00:04:08.885
necessidade, a fim de apoiar
seu novo big data cluster,

00:04:08.885 --> 00:04:11.585
muitos dos comandos do kubernetes,
as informações do cluster.

00:04:11.585 --> 00:04:13.565
Isso é algo que você pode executar,

00:04:13.565 --> 00:04:14.735
Você pode enviar para outra pessoa,

00:04:14.735 --> 00:04:17.065
e você pode salvar e
fazer o que quiser.

00:04:17.065 --> 00:04:21.140
Então estamos muito entusiasmados com
Notebooks no Azure Data Studio.

00:04:21.140 --> 00:04:23.210
Nós realmente pensamos que este
é algo que será

00:04:23.210 --> 00:04:26.210
muito útil para a nossa comunidade.

00:04:26.210 --> 00:04:28.040
Estamos realmente interessados
em descobrir como

00:04:28.040 --> 00:04:29.765
Você está usando e
o que você quer de nós.

00:04:29.765 --> 00:04:32.800
Então, se você está interessado em
aprender mais, vá para o GitHub,

00:04:32.800 --> 00:04:34.610
Procure o Azure Data Studio e você

00:04:34.610 --> 00:04:37.120
pode abrir o recurso
solicitar inter bugs.

00:04:37.120 --> 00:04:39.470
Isso também é onde você
pode baixar tanto o

00:04:39.470 --> 00:04:51.991
estável e a adição de insiders.
Muito obrigado pelo seu tempo.

00:04:51.991 --> 00:04:57.040
>> [MÚSICA]

