WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 apresenta
grandes clusters de dados.

00:00:03.345 --> 00:00:04.860
Tem Spark integrado.

00:00:04.860 --> 00:00:09.300
Shiv está aqui para nos contar tudo sobre
que hoje em Dados Expostos.

00:00:09.300 --> 00:00:20.220
[MÚSICA].

00:00:20.220 --> 00:00:23.085
>> Oi e bem-vindo a outro
episódio de Dados Expostos.

00:00:23.085 --> 00:00:25.890
Eu sou seu anfitrião, Jeroen e
hoje temos Shiv aqui com

00:00:25.890 --> 00:00:28.485
nós para falar sobre Faísca
em clusters de big data.

00:00:28.485 --> 00:00:29.780
Então, bem-vindo ao show, Shiv.

00:00:29.780 --> 00:00:30.600
>> Obrigado, Jeroen.

00:00:30.600 --> 00:00:34.705
>> Então faísca, vamos começar em
o básico. O que é spark?

00:00:34.705 --> 00:00:38.790
>> Faísca é um grande unificado
mecanismo de processamento de dados

00:00:38.790 --> 00:00:41.640
que pode trabalhar em
suas cargas de trabalho analíticas

00:00:41.640 --> 00:00:45.555
>> Isso não soa muito simples.

00:00:45.555 --> 00:00:47.340
>> Então vamos decompô-lo.

00:00:47.340 --> 00:00:47.730
>> Ok.

00:00:47.730 --> 00:00:49.575
>> Então, primeiro, vamos falar sobre

00:00:49.575 --> 00:00:52.850
processamento de big data,
big data distribuído.

00:00:52.850 --> 00:00:54.140
Então, nos últimos anos,

00:00:54.140 --> 00:00:55.460
o que temos visto é uma tendência de

00:00:55.460 --> 00:00:57.800
empresas que coletam
muitos e muitos dados.

00:00:57.800 --> 00:00:58.265
>> Claro.

00:00:58.265 --> 00:01:00.170
>> De ir de GBs de dados,

00:01:00.170 --> 00:01:01.640
hoje vemos uma empresa negociando

00:01:01.640 --> 00:01:04.100
com terabytes e petabytes de dados.

00:01:04.100 --> 00:01:05.810
Agora há um problema lá.

00:01:05.810 --> 00:01:09.005
O problema é que quando você
têm uma escala tão grande de dados,

00:01:09.005 --> 00:01:11.375
como você realmente armazenar isso
dados, em primeiro lugar, certo?

00:01:11.375 --> 00:01:11.960
>> Ok.

00:01:11.960 --> 00:01:13.945
>> Então, no início,

00:01:13.945 --> 00:01:16.580
começamos com um single
máquina e escalá-lo

00:01:16.580 --> 00:01:20.300
verticalmente e ter terabytes
de disco rígido por grupo de dados.

00:01:20.300 --> 00:01:22.180
Essa escala vertical não era realmente

00:01:22.180 --> 00:01:24.295
a resposta para armazenar
dados distribuídos.

00:01:24.295 --> 00:01:27.020
Uma solução viável, mais melhor,

00:01:27.020 --> 00:01:29.270
mais solução de resiliência
foram distribuídos dados,

00:01:29.270 --> 00:01:30.830
onde não continuamos escalando

00:01:30.830 --> 00:01:34.265
uma única máquina para tomar
mais e mais dados.

00:01:34.265 --> 00:01:37.055
O que fazemos é que nós
distribuir os dados

00:01:37.055 --> 00:01:40.340
n número de máquinas menores e
é assim que armazenamos big data.

00:01:40.340 --> 00:01:41.870
>> Então, basicamente, dividir e conquistar,

00:01:41.870 --> 00:01:43.050
Certo? Dividimos o trabalho.

00:01:43.050 --> 00:01:43.620
>> Exatamente.

00:01:43.620 --> 00:01:44.025
>> Ok.

00:01:44.025 --> 00:01:46.040
>> Então, agora, nós cuidamos

00:01:46.040 --> 00:01:48.935
o problema de armazenar o
dados, mas isso não é tudo.

00:01:48.935 --> 00:01:51.275
O principal problema é
não armazenamento de dados,

00:01:51.275 --> 00:01:54.680
o principal problema é que eu preciso
para obter insights desses dados.

00:01:54.680 --> 00:01:56.105
>> Quando você processá-lo,

00:01:56.105 --> 00:01:57.590
é aí que está o valor, certo?

00:01:57.590 --> 00:01:59.180
>> Exatamente. Assim, o processamento de

00:01:59.180 --> 00:02:02.340
estes dados distribuídos
requer motores diferentes.

00:02:02.340 --> 00:02:07.100
Spark é uma computação de big data
motor que pode trabalhar em toda

00:02:07.100 --> 00:02:12.200
dados distribuídos e computação
e fazer suas cargas de trabalho sobre isso.

00:02:12.200 --> 00:02:16.715
Não é uma distribuição.
motor de computação de big data,

00:02:16.715 --> 00:02:19.010
é também algo
que os resumos sobre

00:02:19.010 --> 00:02:21.590
os detalhes da distribuição de você.

00:02:21.590 --> 00:02:22.880
Como usuário do Spark,

00:02:22.880 --> 00:02:25.190
você não terá que se preocupar
todos os detalhes da distribuição,

00:02:25.190 --> 00:02:27.650
essa é toda a beleza em torno de Spark.

00:02:27.650 --> 00:02:31.130
>> Então você acabou de dar-lhe um
atribuição e ele vai descobrir

00:02:31.130 --> 00:02:33.035
como distribuir o trabalho e

00:02:33.035 --> 00:02:35.420
ser feito tão rapidamente quanto
possível, espero.

00:02:35.420 --> 00:02:38.840
>> Certo. Quando você está lidando
com esse tipo de dados,

00:02:38.840 --> 00:02:42.320
você não quer ser amarrado
para uma determinada língua.

00:02:42.320 --> 00:02:45.470
Você é como se isso é um grande
mecanismo de computação de dados e agora

00:02:45.470 --> 00:02:48.290
você usa a linguagem chamativo que
Eu inventei para processar isso.

00:02:48.290 --> 00:02:50.480
Então Spark faz alguma coisa
muito bonito lá.

00:02:50.480 --> 00:02:52.235
Spark dá-lhe uma escolha de linguagem.

00:02:52.235 --> 00:02:54.680
Se você é um programador Python,

00:02:54.680 --> 00:02:57.350
você pode programar em
Python, Scala, Java,

00:02:57.350 --> 00:03:01.190
R. R é muito popular sobre
nossos cientistas de dados e

00:03:01.190 --> 00:03:04.760
Faísca dá-lhe a opção
para usar R para suas cargas de trabalho.

00:03:04.760 --> 00:03:09.050
De modo que o que é Faísca como um
motor de computação distribuído.

00:03:09.050 --> 00:03:11.105
>> Então, basicamente, você disse

00:03:11.105 --> 00:03:13.850
restaurá-lo de forma diferente, mas
isso é algo que fizemos para

00:03:13.850 --> 00:03:16.920
big data por causa de
o problema da escala

00:03:16.920 --> 00:03:18.450
para cima o tempo todo com o dimensionamento

00:03:18.450 --> 00:03:20.415
para cima e agora estamos escalando
fora também. Certo?

00:03:20.415 --> 00:03:20.790
>> Certo.

00:03:20.790 --> 00:03:23.075
>> Em seguida, Spark funciona
a camada distribuída

00:03:23.075 --> 00:03:24.320
e dá-lhe a flexibilidade de

00:03:24.320 --> 00:03:25.580
escolher a linguagem de escolha para.

00:03:25.580 --> 00:03:29.180
>> Sim. Ainda havia um pouco
[inaudível] em minha sentença.

00:03:29.180 --> 00:03:31.520
Eu disse algo sobre
um mecanismo de computação unificado.

00:03:31.520 --> 00:03:34.120
Então vamos cortar e cortar um pouco.

00:03:34.120 --> 00:03:39.170
Como vimos, as empresas começaram
obtendo mais e mais dados.

00:03:39.170 --> 00:03:41.420
O tradicional
as cargas de trabalho também passam

00:03:41.420 --> 00:03:45.320
cargas de trabalho de transação para cargas de trabalho
que são de natureza analítica.

00:03:45.320 --> 00:03:47.730
O que queremos dizer com carga de trabalho analítica?

00:03:47.730 --> 00:03:51.290
Carga de trabalho onde estou analisando
muitos dados para obter

00:03:51.290 --> 00:03:53.180
insights fora dele e

00:03:53.180 --> 00:03:56.645
então, talvez fazendo máquina
aprendizagem ou aprendizagem profunda.

00:03:56.645 --> 00:03:59.750
Tão tradicionalmente, a fase de

00:03:59.750 --> 00:04:03.095
as cargas de trabalho da transação também
mudou-se para cargas de trabalho analíticas.

00:04:03.095 --> 00:04:06.920
As cargas de trabalho analíticas tinham uma variedade
das cargas de trabalho de aprendizagem profunda,

00:04:06.920 --> 00:04:10.120
aprendizado de máquina, análise
e cargas de trabalho de streaming.

00:04:10.120 --> 00:04:12.990
Agora, cada um destes
cargas de trabalho que você não quer

00:04:12.990 --> 00:04:17.120
um motor de computação separado para
realmente construir suas habilidades em.

00:04:17.120 --> 00:04:18.530
>> Idealmente você aprenderia um.

00:04:18.530 --> 00:04:20.840
>> Exatamente. É o que o Spark faz.

00:04:20.840 --> 00:04:24.110
Spark é uma computação unificada
motor que permite que você trabalhe

00:04:24.110 --> 00:04:27.690
em todas essas cargas de trabalho com
o mesmo conjunto de princípios.

00:04:27.690 --> 00:04:29.875
É disso que se trata o Spark.

00:04:29.875 --> 00:04:32.795
Uma computação distribuída
motor que extrai

00:04:32.795 --> 00:04:35.750
os detalhes do trabalho
distribuição de você.

00:04:35.750 --> 00:04:39.545
Não te incomoda.
sobre os detalhes da distribuição.

00:04:39.545 --> 00:04:42.230
Em segundo lugar, uma computação unificada
motor e acima de tudo,

00:04:42.230 --> 00:04:45.245
que eu acho que é muito
recurso de desenvolvedor poderoso,

00:04:45.245 --> 00:04:47.990
oferece-lhe a escolha da linguagem
onde você poderia usar Python,

00:04:47.990 --> 00:04:50.300
Scala, Java ou R,
o que você escolher.

00:04:50.300 --> 00:04:52.265
Então é o que o Spark é.

00:04:52.265 --> 00:04:54.725
>> Legal. Isso é muito repressivo.

00:04:54.725 --> 00:04:57.785
Quero dizer, Faísca que está tudo bem.

00:04:57.785 --> 00:05:00.370
Então, o que estamos fazendo com
Faísca no servidor SQL?

00:05:00.370 --> 00:05:01.760
Temos alguma coisa?

00:05:01.760 --> 00:05:05.300
>> Então Spark é basicamente ApacheSpark.

00:05:05.300 --> 00:05:07.460
É um motor de computação de código aberto.

00:05:07.460 --> 00:05:09.230
O que fizemos em
clusters de big data,

00:05:09.230 --> 00:05:12.680
nós trouxemos você
juntos, isso com SQL,

00:05:12.680 --> 00:05:16.995
como um único unificado
oferta com SQL e

00:05:16.995 --> 00:05:21.070
solução de ponta a ponta onde você
não apenas obter o motor de computação,

00:05:21.070 --> 00:05:23.150
você começa um completo
experiência de ponta a ponta

00:05:23.150 --> 00:05:24.785
sobre o uso do motor de computação.

00:05:24.785 --> 00:05:26.630
>> Então isso significaria
que desde Spark

00:05:26.630 --> 00:05:28.400
foi integrado
no cluster de big data,

00:05:28.400 --> 00:05:31.625
Eu posso consultar os dados em

00:05:31.625 --> 00:05:32.885
o cluster de big data

00:05:32.885 --> 00:05:35.060
usando benefícios antigos você
basta descrever a partir de Faísca.

00:05:35.060 --> 00:05:36.470
>> Exatamente. Usando o cliente

00:05:36.470 --> 00:05:38.270
ferramentas que você é
Todos familiarizados.

00:05:38.270 --> 00:05:40.330
>> Uau, isso é impressionante.

00:05:40.330 --> 00:05:43.110
Wow. Então, como eu aprendo mais?

00:05:43.110 --> 00:05:47.025
Quero dizer, isso soa muito novo para
eu, onde encontro alguma coisa?

00:05:47.025 --> 00:05:49.529
>> Por favor, vá para o grande
documentação de cluster de dados,

00:05:49.529 --> 00:05:52.910
Documentação de cluster de dados do servidor SQL
e você vai encontrar muito

00:05:52.910 --> 00:05:57.275
de comunicados e artigos sobre Spark.

00:05:57.275 --> 00:06:00.020
Você encontrará clusters de big data,

00:06:00.020 --> 00:06:02.855
Exemplos de faísca e o SQL
Repositório de amostras de servidores.

00:06:02.855 --> 00:06:04.660
É aí que você começa.

00:06:04.660 --> 00:06:06.920
>> Legal. Então, nós vamos
certifique-se de incluir

00:06:06.920 --> 00:06:09.080
esses links na descrição,

00:06:09.080 --> 00:06:10.565
então você vai encontrá-los lá.

00:06:10.565 --> 00:06:13.265
Obrigado Shiv para vir para o show.

00:06:13.265 --> 00:06:14.420
Obrigado por explicar isso.

00:06:14.420 --> 00:06:17.430
Aprendi, finalmente, o que é o Spark.

00:06:17.430 --> 00:06:19.205
Obrigado por assistir.

00:06:19.205 --> 00:06:21.650
Por favor, como e se inscrever e
Espero vê-lo da próxima vez.

00:06:21.650 --> 00:06:33.610
[MÚSICA]

