WEBVTT

00:00:00.000 --> 00:00:03.070
• SQL 服务器 2019 大
数据群集提供

00:00:03.070 --> 00:00:04.950
要优化的数据池

00:00:04.950 --> 00:00:07.905
达到查询性能
到多个来源。

00:00:07.905 --> 00:00:10.080
乌马汉达尔在这里
我们今天告诉我们所有

00:00:10.080 --> 00:00:12.450
关于它今天的数据暴露。

00:00:12.450 --> 00:00:23.550
[音乐]。

00:00:23.550 --> 00:00:26.250
• 嗨，欢迎来到另一个
一集数据暴露。

00:00:26.250 --> 00:00:29.100
我是你的东道主杰琳
今天，我们有你看到我们

00:00:29.100 --> 00:00:32.085
谈论数据池
在 SQL 大数据群集中。

00:00:32.085 --> 00:00:33.675
嗨，乌马汉达尔欢迎参加这个节目。

00:00:33.675 --> 00:00:35.460
嗨，我很高兴来到这里。

00:00:35.460 --> 00:00:38.160
* 因此，数据池
大数据群集。

00:00:38.160 --> 00:00:40.505
这是什么？我需要知道什么？

00:00:40.505 --> 00:00:42.440
当然，是的，让我快速开始

00:00:42.440 --> 00:00:45.110
通过显示什么
大数据群集是。

00:00:45.110 --> 00:00:48.090
因此，此幻灯片显示了

00:00:48.090 --> 00:00:52.110
SQL 服务器 19 大数据
集群和今天，我们

00:00:52.110 --> 00:00:56.360
要谈论数据
这里池，这是基本上

00:00:56.360 --> 00:00:59.300
两个 SQL 服务器实例，可以是

00:00:59.300 --> 00:01:02.960
用于卸载一些
查询 [听不到]。

00:01:02.960 --> 00:01:04.810
因此，让我们看看什么是数据池。

00:01:04.810 --> 00:01:08.390
因此，它基本上是 SQL 服务器
存储和计算

00:01:08.390 --> 00:01:13.550
提供来编写查询
并将数据存储在数据池中。

00:01:13.550 --> 00:01:16.310
它可以通过运行操作

00:01:16.310 --> 00:01:20.900
一些外部表操作
并在它，你填充数据

00:01:20.900 --> 00:01:24.440
进入数据池和
以后，你实际上可以

00:01:24.440 --> 00:01:28.970
卸载一些分析
查询到此数据池。

00:01:28.970 --> 00:01:32.400
因此，这是主要
数据池的用途。

00:01:32.400 --> 00:01:37.140
所以，现在让我们可能快速采取
看看一些方案。

00:01:37.140 --> 00:01:39.980
所以常见的情况是，你

00:01:39.980 --> 00:01:42.710
获取数据
不同的数据源，

00:01:42.710 --> 00:01:44.570
其中一些速度很快，

00:01:44.570 --> 00:01:47.345
其他人在性质上是较慢的。

00:01:47.345 --> 00:01:51.050
所以，现在你想基本上优化

00:01:51.050 --> 00:01:55.535
此查询，以便您可以
实际上采取该查询

00:01:55.535 --> 00:02:00.350
并将结果存储在
数据池，这允许您

00:02:00.350 --> 00:02:02.900
基本上使用，像

00:02:02.900 --> 00:02:07.300
一个过渡区，在那里你
可以运行所有分析。

00:02:07.300 --> 00:02:10.830
另一个例子是，如果你
做机器学习，

00:02:10.830 --> 00:02:12.830
有很多
方案，你

00:02:12.830 --> 00:02:14.960
将生成功能
和数百和

00:02:14.960 --> 00:02:18.290
数以千计的功能和
你想基本上存储

00:02:18.290 --> 00:02:23.040
数据集在
你可以做重复分析。

00:02:23.040 --> 00:02:26.145
那是另一个地方
数据池有帮助。

00:02:26.145 --> 00:02:29.540
* 所以在这种情况下，它不是
仅用于查询优化

00:02:29.540 --> 00:02:31.190
也为了确保
你不必去

00:02:31.190 --> 00:02:32.975
返回数据源
一直都是，对吧？

00:02:32.975 --> 00:02:33.230
* 是。

00:02:33.230 --> 00:02:34.385
• 如果要重复使用数据。

00:02:34.385 --> 00:02:34.625
* 是的。

00:02:34.625 --> 00:02:35.660
• 酷，听起来很酷。

00:02:35.660 --> 00:02:37.355
所以，你真的可以
告诉我们这是如何运作的？

00:02:37.355 --> 00:02:40.550
是的，我们快走
来评估这里有多少

00:02:40.550 --> 00:02:42.230
所以我这里有

00:02:42.230 --> 00:02:45.530
与 SQL 的连接
服务器大数据群集。

00:02:45.530 --> 00:02:48.890
我连接到 SQL
服务器主实例。

00:02:48.890 --> 00:02:51.905
因此，创建数据池的方法

00:02:51.905 --> 00:02:55.625
是首先通过创建
此数据源对象。

00:02:55.625 --> 00:02:58.100
因此，这里，因为这个名称表明

00:02:58.100 --> 00:03:01.325
在这里，这基本上说什么
数据源的类型。

00:03:01.325 --> 00:03:04.400
然后我要
连接到数据池。

00:03:04.400 --> 00:03:05.530
"好的。

00:03:05.530 --> 00:03:08.780
• 就是这样
创建它。在那之后

00:03:08.780 --> 00:03:11.360
定义表
你想

00:03:11.360 --> 00:03:13.940
存储在数据中
池和，这完成了

00:03:13.940 --> 00:03:16.670
通过运行此外部
表语句。

00:03:16.670 --> 00:03:17.845
"好的。

00:03:17.845 --> 00:03:21.090
• 这看起来像您的常规
创建表语句，

00:03:21.090 --> 00:03:24.110
有列
你需要定义和

00:03:24.110 --> 00:03:27.725
添加，因为有许多 SQL
后端上的服务器实例。

00:03:27.725 --> 00:03:28.115
* 正确。

00:03:28.115 --> 00:03:30.740
你只需要说你
想要分发数据。

00:03:30.740 --> 00:03:32.630
所以，有了这个，你可以告诉，好吧，

00:03:32.630 --> 00:03:36.155
所以我们得到了一个偶数或近似
均匀分布。

00:03:36.155 --> 00:03:36.515
* 是的。

00:03:36.515 --> 00:03:37.400
• 在整个服务。

00:03:37.400 --> 00:03:37.685
* 是。

00:03:37.685 --> 00:03:38.000
"好的。

00:03:38.000 --> 00:03:41.330
• 这就是循环
做基本上是分发

00:03:41.330 --> 00:03:44.825
数据跨越多少
您拥有的数据池实例。

00:03:44.825 --> 00:03:45.865
"好的。

00:03:45.865 --> 00:03:49.370
• 下一件事你可以
做就像查询数据一样。

00:03:49.370 --> 00:03:50.780
因此，让我们先看看一些

00:03:50.780 --> 00:03:54.155
示例数据
这个例子，我有在

00:03:54.155 --> 00:03:57.680
HDFS 目录和基本

00:03:57.680 --> 00:04:00.155
我想拿这些
点击流数据，

00:04:00.155 --> 00:04:04.490
执行一些查询并填充
到数据池中。

00:04:04.490 --> 00:04:08.915
你这样做的方式是
只运行插入语句。

00:04:08.915 --> 00:04:13.490
因此，插入的来源
语句只是一个 SQL 查询，

00:04:13.490 --> 00:04:18.140
你可以简单地运行
查询并填充数据。

00:04:18.140 --> 00:04:21.320
我不会跑过
插入，但让我们快速

00:04:21.320 --> 00:04:25.205
查看已出现的数据
在数据池中填充。

00:04:25.205 --> 00:04:28.445
因此，此查询应返回
大约2000排，对吧？

00:04:28.445 --> 00:04:32.930
所以，现在就像任何其他
表，你实际上可以加入

00:04:32.930 --> 00:04:37.460
此表与其他表
在 SQL Server 中，获取

00:04:37.460 --> 00:04:39.680
结果和透明

00:04:39.680 --> 00:04:42.200
此 SQL Server 实例
将要谈谈

00:04:42.200 --> 00:04:47.555
要运行的数据池实例
查询并获取结果。

00:04:47.555 --> 00:04:50.330
所以这是在一个较高的水平
数据池是什么。

00:04:50.330 --> 00:04:51.530
• 酷真棒。

00:04:51.530 --> 00:04:54.390
这令人印象深刻。
非常感谢

00:04:54.390 --> 00:04:55.530
• 酷，谢谢。

00:04:55.530 --> 00:04:58.050
"好的。所以谢谢你的收看。

00:04:58.050 --> 00:04:59.590
请喜欢和订阅，

00:04:59.590 --> 00:05:02.150
视频评论
如果你想我们

00:05:02.150 --> 00:05:06.360
记录别的东西和希望
下次见你谢谢。

00:05:06.360 --> 00:05:20.860
[音乐]

