WEBVTT

00:00:00.000 --> 00:00:03.345
• SQL Server 2019 介绍
大数据群集。

00:00:03.345 --> 00:00:04.860
它集成了火花。

00:00:04.860 --> 00:00:09.300
希夫在这里告诉我们所有关于
今天的数据暴露。

00:00:09.300 --> 00:00:20.220
[音乐]。

00:00:20.220 --> 00:00:23.085
• 嗨，欢迎来到另一个
一集数据暴露。

00:00:23.085 --> 00:00:25.890
我是你的东道主，杰伦和
今天，我们有Shiv在这里

00:00:25.890 --> 00:00:28.485
我们谈论火花
大数据群集上。

00:00:28.485 --> 00:00:29.780
所以欢迎参加这个节目，希夫。

00:00:29.780 --> 00:00:30.600
谢谢你，杰琳

00:00:30.600 --> 00:00:34.705
• 所以火花，让我们从
基础知识。什么是火花？

00:00:34.705 --> 00:00:38.790
• 火花是一个统一的大
数据处理引擎

00:00:38.790 --> 00:00:41.640
可以跨工作
分析工作负载

00:00:41.640 --> 00:00:45.555
听起来不是很简单。

00:00:45.555 --> 00:00:47.340
• 因此，让我们将其分解。

00:00:47.340 --> 00:00:47.730
"好的。

00:00:47.730 --> 00:00:49.575
* 所以，首先让我们来谈谈

00:00:49.575 --> 00:00:52.850
大数据处理，
分布式大数据。

00:00:52.850 --> 00:00:54.140
所以最后几年

00:00:54.140 --> 00:00:55.460
我们已经看到的是一个趋势

00:00:55.460 --> 00:00:57.800
企业收集
大量的数据。

00:00:57.800 --> 00:00:58.265
* 当然可以。

00:00:58.265 --> 00:01:00.170
• 从数据数据数据中，从数据

00:01:00.170 --> 00:01:01.640
今天我们看到一个企业交易

00:01:01.640 --> 00:01:04.100
TB 和 PB 的数据。

00:01:04.100 --> 00:01:05.810
现在有个问题了

00:01:05.810 --> 00:01:09.005
问题是，当你
拥有如此大规模的数据，

00:01:09.005 --> 00:01:11.375
你如何真正存储
数据，首先，对不对？

00:01:11.375 --> 00:01:11.960
"好的。

00:01:11.960 --> 00:01:13.945
* 所以在开始，

00:01:13.945 --> 00:01:16.580
我们开始与一个单一的
机器和缩放

00:01:16.580 --> 00:01:20.300
垂直和具有 TB
每个数据组的硬盘。

00:01:20.300 --> 00:01:22.180
垂直缩放并不真正

00:01:22.180 --> 00:01:24.295
存储的答案
分布式数据。

00:01:24.295 --> 00:01:27.020
一个可行的，更好的解决方案，

00:01:27.020 --> 00:01:29.270
更具弹性的解决方案
是分布式数据，

00:01:29.270 --> 00:01:30.830
我们不继续缩放

00:01:30.830 --> 00:01:34.265
一台机器
越来越多的数据。

00:01:34.265 --> 00:01:37.055
我们要做的就是
将数据分发到各个

00:01:37.055 --> 00:01:40.340
n 数量较小的机器和
这就是我们存储大数据的方式。

00:01:40.340 --> 00:01:41.870
[ ] 所以基本上分裂和征服，

00:01:41.870 --> 00:01:43.050
对？我们把工作分开。

00:01:43.050 --> 00:01:43.620
* 确切地说。

00:01:43.620 --> 00:01:44.025
"好的。

00:01:44.025 --> 00:01:46.040
所以现在，我们已经照顾到

00:01:46.040 --> 00:01:48.935
存储的问题
数据，但这不是全部。

00:01:48.935 --> 00:01:51.275
主要问题是
不是数据存储，

00:01:51.275 --> 00:01:54.680
主要问题是我需要
以获得此数据的见解。

00:01:54.680 --> 00:01:56.105
• 当您处理它时，

00:01:56.105 --> 00:01:57.590
这就是价值所在，对吗？

00:01:57.590 --> 00:01:59.180
* 确切地说。因此，处理

00:01:59.180 --> 00:02:02.340
此分布式数据
需要不同的引擎。

00:02:02.340 --> 00:02:07.100
Spark 是大数据计算
可以跨工作

00:02:07.100 --> 00:02:12.200
分布式数据和计算
并为此完成您的工作负载。

00:02:12.200 --> 00:02:16.715
它只是不是分布式的
大数据计算引擎，

00:02:16.715 --> 00:02:19.010
这也是一些
摘要约

00:02:19.010 --> 00:02:21.590
从你分发的详细信息。

00:02:21.590 --> 00:02:22.880
作为 Spark 的用户，

00:02:22.880 --> 00:02:25.190
你不必费心
所有分发的细节，

00:02:25.190 --> 00:02:27.650
这就是火花周围的整体美。

00:02:27.650 --> 00:02:31.130
• 所以，你只是给它一个
分配，它会找出

00:02:31.130 --> 00:02:33.035
如何分配工作和

00:02:33.035 --> 00:02:35.420
尽快完成
可能，希望。

00:02:35.420 --> 00:02:38.840
* 正确。当您处理
有了这样的数据

00:02:38.840 --> 00:02:42.320
你不想被束缚
特定语言。

00:02:42.320 --> 00:02:45.470
你就像这是一个大
数据计算引擎和现在

00:02:45.470 --> 00:02:48.290
你使用华丽的语言，
我发明了处理它。

00:02:48.290 --> 00:02:50.480
所以Spark做了一些事情
非常漂亮。

00:02:50.480 --> 00:02:52.235
Spark 为您提供了语言的选择。

00:02:52.235 --> 00:02:54.680
如果您是 Python 程序员，

00:02:54.680 --> 00:02:57.350
您可以在
Python、 斯卡拉、 Java、

00:02:57.350 --> 00:03:01.190
R. R 是很受欢迎的关于
我们的数据科学家和

00:03:01.190 --> 00:03:04.760
火花为您提供选项
将 R 用于工作负荷。

00:03:04.760 --> 00:03:09.050
因此，什么是火花作为一个
分布式计算引擎。

00:03:09.050 --> 00:03:11.105
基本上你说

00:03:11.105 --> 00:03:13.850
以不同的方式恢复它，但
这是我们为

00:03:13.850 --> 00:03:16.920
大数据，因为
缩放问题

00:03:16.920 --> 00:03:18.450
向上所有的时间与缩放

00:03:18.450 --> 00:03:20.415
起来，现在我们缩放
出，以及。对？

00:03:20.415 --> 00:03:20.790
* 正确。

00:03:20.790 --> 00:03:23.075
• 然后火花工作
分布式层

00:03:23.075 --> 00:03:24.320
并为您提供灵活性

00:03:24.320 --> 00:03:25.580
选择选择的语言。

00:03:25.580 --> 00:03:29.180
* 是。还有一点
[听不见]进入我的句子。

00:03:29.180 --> 00:03:31.520
我跟你说了一些关于
统一的计算引擎。

00:03:31.520 --> 00:03:34.120
因此，让我们切片和骰子一点。

00:03:34.120 --> 00:03:39.170
正如我们所看到的，企业开始
获取越来越多的数据。

00:03:39.170 --> 00:03:41.420
传统
工作负载也从

00:03:41.420 --> 00:03:45.320
事务工作负载到工作负载
这是分析的性质。

00:03:45.320 --> 00:03:47.730
分析工作量是什么意思？

00:03:47.730 --> 00:03:51.290
我分析的工作量
大量的数据得到

00:03:51.290 --> 00:03:53.180
见解出它和

00:03:53.180 --> 00:03:56.645
然后也许做机器
学习或深度学习。

00:03:56.645 --> 00:03:59.750
因此，传统上，阶段从

00:03:59.750 --> 00:04:03.095
事务工作负载
转移到分析工作负载。

00:04:03.095 --> 00:04:06.920
分析工作负载多种多样
从深度学习的工作量，

00:04:06.920 --> 00:04:10.120
机器学习、分析
和流工作负载。

00:04:10.120 --> 00:04:12.990
现在，每个
不需要的工作负载

00:04:12.990 --> 00:04:17.120
单独的计算引擎
真正建立你的技能。

00:04:17.120 --> 00:04:18.530
• 理想情况下，你会学习一个。

00:04:18.530 --> 00:04:20.840
* 确切地说。这就是 Spark 所做的。

00:04:20.840 --> 00:04:24.110
Spark 是一个统一的计算
允许您工作的引擎

00:04:24.110 --> 00:04:27.690
在所有这些工作负载中
同一套原则。

00:04:27.690 --> 00:04:29.875
这就是Spark的用点。

00:04:29.875 --> 00:04:32.795
分布式计算
引擎提取出来

00:04:32.795 --> 00:04:35.750
工作细节
分发。

00:04:35.750 --> 00:04:39.545
它没有你打扰
关于分发详细信息。

00:04:39.545 --> 00:04:42.230
第二，统一计算
发动机，最重要的是，

00:04:42.230 --> 00:04:45.245
我发现它作为一个非常
强大的开发人员功能，

00:04:45.245 --> 00:04:47.990
它为您提供了语言的选择
在那里你可以使用Python，

00:04:47.990 --> 00:04:50.300
斯卡拉、Java 或 R、
无论你选择什么。

00:04:50.300 --> 00:04:52.265
所以，什么是火花。

00:04:52.265 --> 00:04:54.725
• 冷却。这是非常压制性的。

00:04:54.725 --> 00:04:57.785
我是说，斯帕克没事

00:04:57.785 --> 00:05:00.370
那么，我们在做什么
SQL 服务器上的火花？

00:05:00.370 --> 00:05:01.760
我们有什么东西吗？

00:05:01.760 --> 00:05:05.300
* 所以火花基本上是阿帕奇火花。

00:05:05.300 --> 00:05:07.460
它是开源计算引擎。

00:05:07.460 --> 00:05:09.230
我们在
大数据集群，

00:05:09.230 --> 00:05:12.680
我们带给你
一起，这与SQL，

00:05:12.680 --> 00:05:16.995
作为一个单一的统一
提供与 SQL 和

00:05:16.995 --> 00:05:21.070
端到端解决方案，让您
不只是得到计算引擎，

00:05:21.070 --> 00:05:23.150
你会得到一个完整的
端到端体验

00:05:23.150 --> 00:05:24.785
使用计算引擎。

00:05:24.785 --> 00:05:26.630
* 所以这意味着
自火花

00:05:26.630 --> 00:05:28.400
已集成
在大数据群集中，

00:05:28.400 --> 00:05:31.625
我可以查询

00:05:31.625 --> 00:05:32.885
大数据群集

00:05:32.885 --> 00:05:35.060
使用旧的好处，你
只是描述从火花。

00:05:35.060 --> 00:05:36.470
* 确切地说。使用客户端

00:05:36.470 --> 00:05:38.270
工具，你是
都熟悉。

00:05:38.270 --> 00:05:40.330
哇，那可给人留下深刻的印象。

00:05:40.330 --> 00:05:43.110
哇。那么，我该如何了解更多？

00:05:43.110 --> 00:05:47.025
我的意思是，这听起来非常新
我，我在哪里找到什么？

00:05:47.025 --> 00:05:49.529
* 请去大
数据群集文档，

00:05:49.529 --> 00:05:52.910
SQL 服务器数据群集文档
你会发现很多

00:05:52.910 --> 00:05:57.275
关于火花的通讯和文章。

00:05:57.275 --> 00:06:00.020
你会发现大数据集群，

00:06:00.020 --> 00:06:02.855
火花示例和 SQL
服务器示例存储库。

00:06:02.855 --> 00:06:04.660
这就是您开始的地方。

00:06:04.660 --> 00:06:06.920
• 冷却。因此，我们将
确保包括

00:06:06.920 --> 00:06:09.080
描述中的那些链接，

00:06:09.080 --> 00:06:10.565
所以你会发现他们在那里。

00:06:10.565 --> 00:06:13.265
感谢希夫来表演。

00:06:13.265 --> 00:06:14.420
谢谢你解释这个

00:06:14.420 --> 00:06:17.430
我终于学会了火花是什么。

00:06:17.430 --> 00:06:19.205
谢谢你的收看。

00:06:19.205 --> 00:06:21.650
请喜欢和订阅和
我希望下次能见到你。

00:06:21.650 --> 00:06:33.610
[音乐]

