WEBVTT

00:00:00.000 --> 00:00:10.530
[音乐]。

00:00:10.530 --> 00:00:12.300
嗨，我是罗尼·查特吉

00:00:12.300 --> 00:00:15.180
我是高级产品经理
在 Azure 数据团队中。

00:00:15.180 --> 00:00:17.190
我处理 SQL 服务器产品和

00:00:17.190 --> 00:00:19.605
今天我很兴奋
告诉你我们有什么

00:00:19.605 --> 00:00:22.230
构建为数据
可视化体验

00:00:22.230 --> 00:00:25.410
在 Azure 数据工作室中。
让我们开始吧。

00:00:25.410 --> 00:00:27.690
在 Azure 数据工作室中，

00:00:27.690 --> 00:00:31.965
你有一个产品，给你

00:00:31.965 --> 00:00:33.960
数据可视化以及

00:00:33.960 --> 00:00:36.600
工作经验工作
在任何地方，数据，

00:00:36.600 --> 00:00:38.970
它是否也是本地数据

00:00:38.970 --> 00:00:41.755
作为大数据群集中的数据。

00:00:41.755 --> 00:00:45.470
因此，在此添加 Azure
数据工作室，正如您所看到的，

00:00:45.470 --> 00:00:47.870
我有一个 SQL 数据库边缘和

00:00:47.870 --> 00:00:51.080
SQL 服务器大数据
我连接到的群集。

00:00:51.080 --> 00:00:56.075
现在，在 Azure 数据工作室中
建立在扩展之上。

00:00:56.075 --> 00:00:59.300
所以其中一件事
Azure 数据工作室提供的是

00:00:59.300 --> 00:01:00.830
安装能力

00:01:00.830 --> 00:01:03.830
任何扩展，你可能会
喜欢您的数据操作。

00:01:03.830 --> 00:01:06.155
所以在这里，一个扩展
我们要

00:01:06.155 --> 00:01:08.830
安装今天被称为沙舞。

00:01:08.830 --> 00:01:12.035
沙丹是一个数据
可视化体验。

00:01:12.035 --> 00:01:15.050
它提供单位
数据的可视化

00:01:15.050 --> 00:01:18.365
你想探索
和可视化的沙舞。

00:01:18.365 --> 00:01:21.515
所以在这里，我安装
沙舞扩展，

00:01:21.515 --> 00:01:22.955
正如你所看到的，

00:01:22.955 --> 00:01:25.535
沙舞扩展
刚刚安装。

00:01:25.535 --> 00:01:28.775
因此，让我们回到
数据的位置。

00:01:28.775 --> 00:01:32.720
所以我有数据里面
SQL 服务器大数据群集。

00:01:32.720 --> 00:01:35.585
SQL 服务器大数据
群集随同

00:01:35.585 --> 00:01:38.330
具有大数据群集的 HDFS

00:01:38.330 --> 00:01:40.745
我们可以存储
数据量大。

00:01:40.745 --> 00:01:44.510
我有一个这样的数据
例如，存储在 HDFS 中

00:01:44.510 --> 00:01:48.695
SQL 服务器大数据
群集是 demovote.tsv。

00:01:48.695 --> 00:01:51.755
现在让我们来看看
这些数据是什么样子的。

00:01:51.755 --> 00:01:54.230
所以，如果你做一个快速
预览数据，

00:01:54.230 --> 00:01:58.040
数据集从 HDFS 打开，

00:01:58.040 --> 00:01:59.150
正如你所看到的，

00:01:59.150 --> 00:02:01.115
这只不过是投票数据。

00:02:01.115 --> 00:02:03.230
它有投票数据
在奥巴马期间

00:02:03.230 --> 00:02:04.625
罗姆尼的时间范围

00:02:04.625 --> 00:02:07.160
选举发生
遍布美国。

00:02:07.160 --> 00:02:11.540
现在，如果我必须处理这个
特定的数据集，并将其交给

00:02:11.540 --> 00:02:15.925
我的数据科学家实际上
从数据中有意义，

00:02:15.925 --> 00:02:18.010
他将不得不实际上
生成一些报告，

00:02:18.010 --> 00:02:19.265
以及他是否使用

00:02:19.265 --> 00:02:22.330
数据可视化库
结构查看它，

00:02:22.330 --> 00:02:24.845
或者他使用一些代码

00:02:24.845 --> 00:02:27.695
实际可视化
数据的外观。

00:02:27.695 --> 00:02:29.509
但在 Azure 数据工作室中，

00:02:29.509 --> 00:02:33.170
我们有我们的右键点击
在沙舞中选择视图。

00:02:33.170 --> 00:02:36.070
让我们来看看如何
这些数据看起来像。

00:02:36.070 --> 00:02:39.705
现在，你可以看到
沙舞正在加载，

00:02:39.705 --> 00:02:42.525
和沙丹实际上
自动发现

00:02:42.525 --> 00:02:45.480
这些数据有纬度

00:02:45.480 --> 00:02:47.765
经度，和散点图将

00:02:47.765 --> 00:02:51.140
最佳图表选择
绘制此特定数据。

00:02:51.140 --> 00:02:55.610
因此，我们有一个推荐人图表
类型建在沙舞。

00:02:55.610 --> 00:02:57.395
所以，现在这个数据看起来不错。

00:02:57.395 --> 00:02:59.300
我可以看到地图
美国，

00:02:59.300 --> 00:03:01.040
如预期的那样，因为投票数据，

00:03:01.040 --> 00:03:03.590
并具有 x 轴和
y 轴。

00:03:03.590 --> 00:03:07.640
现在，我仍然不知道是否有

00:03:07.640 --> 00:03:10.220
更多信息，
数据，我可以

00:03:10.220 --> 00:03:13.760
显然过滤在
x 轴和 y 轴，

00:03:13.760 --> 00:03:16.760
但会不是很好，如果我
可以实际绘制这个

00:03:16.760 --> 00:03:19.085
一个三维空间，实际上

00:03:19.085 --> 00:03:21.935
看看哪一个可能是
最好的分类器。

00:03:21.935 --> 00:03:26.085
因此，让我们制作此图
一个三维的。

00:03:26.085 --> 00:03:28.620
所以，如果我点击"沙舞"，如果我

00:03:28.620 --> 00:03:31.575
单击"三维"
一个，"现在我有z轴。

00:03:31.575 --> 00:03:35.840
现在在z轴，我可以
选择收入，看看

00:03:35.840 --> 00:03:38.015
整个美国什么

00:03:38.015 --> 00:03:40.715
收入人口统计
的人是。

00:03:40.715 --> 00:03:42.740
你可以看到
华盛顿做的很好

00:03:42.740 --> 00:03:44.855
特拉华州做的更好一点

00:03:44.855 --> 00:03:47.960
然后在纽约和
迈阿密也很棒。

00:03:47.960 --> 00:03:49.760
但是让我们来看看

00:03:49.760 --> 00:03:51.725
就房屋中值而言，

00:03:51.725 --> 00:03:53.180
价格怎么样？

00:03:53.180 --> 00:03:56.840
你可以看到，图形
自动调整自己。

00:03:56.840 --> 00:04:02.045
你也可以有一个各种
可以使用的颜色架构。

00:04:02.045 --> 00:04:04.580
所以我实际上可以看到，收入，

00:04:04.580 --> 00:04:06.230
你可以看到，我可以选择

00:04:06.230 --> 00:04:09.380
不同的颜色架构
实际着色的图形。

00:04:09.380 --> 00:04:13.325
我也可以很容易地
更改装箱计数大小。

00:04:13.325 --> 00:04:17.030
所以你可以看到
我改变垃圾箱计数

00:04:17.030 --> 00:04:20.380
图形动态
只是完全改变。

00:04:20.380 --> 00:04:22.130
现在这很好。

00:04:22.130 --> 00:04:24.865
我还可以可视化数据，

00:04:24.865 --> 00:04:27.850
放大缩小字体功能 放大缩小字体功能

00:04:27.850 --> 00:04:32.440
我想看看数据
设置是给我一些方式

00:04:32.440 --> 00:04:34.165
在那里我可以预测

00:04:34.165 --> 00:04:37.445
一些异常，如果
数据中的存在。

00:04:37.445 --> 00:04:40.880
所以，现在，让我们开始做
在数据之上进行一些搜索。

00:04:40.880 --> 00:04:46.455
所以我要搜索
收入低于

00:04:46.455 --> 00:04:52.829
说 $40，000，也
添加另一个表达式，

00:04:52.829 --> 00:04:59.675
说，中位数的家值
超过80万美元

00:04:59.675 --> 00:05:02.205
这似乎是一个很好的检查。

00:05:02.205 --> 00:05:04.230
让我们看看我们能否找到
一些数据集

00:05:04.230 --> 00:05:06.975
实际上满足了这种需求。

00:05:06.975 --> 00:05:10.170
现在，如果我真的这样做
搜索和选择，

00:05:10.170 --> 00:05:12.260
你可以看到
桑丹有几个

00:05:12.260 --> 00:05:14.660
数据点
实际上拿起它。

00:05:14.660 --> 00:05:17.210
这些显示在图形中。

00:05:17.210 --> 00:05:20.080
我可以很容易地隔离
这些数据点，

00:05:20.080 --> 00:05:21.860
现在我只是

00:05:21.860 --> 00:05:24.275
这四个子集
要考虑的数据点。

00:05:24.275 --> 00:05:26.570
你可以看到，有一个人在

00:05:26.570 --> 00:05:29.825
圣米格尔县谁
买了房子

00:05:29.825 --> 00:05:35.710
812，500美元，收入为39 070美元。

00:05:35.710 --> 00:05:39.830
所以桑丹斯实际上给
单位可视化

00:05:39.830 --> 00:05:43.985
您尝试探索的数据
并从数据中有意义。

00:05:43.985 --> 00:05:46.220
您也可以做其他事情

00:05:46.220 --> 00:05:49.440
喜欢你可以采取
图片的快照，

00:05:49.440 --> 00:05:51.150
您想要创建快照视图，

00:05:51.150 --> 00:05:53.919
实际上，您可以创建一个快照，

00:05:56.720 --> 00:05:59.690
并创建快照视图。

00:05:59.690 --> 00:06:02.630
现在，您可以嵌入此
文档中的快照视图

00:06:02.630 --> 00:06:04.160
你想
可能把它发送到

00:06:04.160 --> 00:06:05.945
别人采取
看看，以及。

00:06:05.945 --> 00:06:08.330
这就是我们提供的方式

00:06:08.330 --> 00:06:10.400
在

00:06:10.400 --> 00:06:12.635
正在操作的数据。

00:06:12.635 --> 00:06:16.880
现在，也是
我们添加的东西

00:06:16.880 --> 00:06:22.925
沙丹内部是能力
以可视化查询结果。

00:06:22.925 --> 00:06:26.060
所以在这里我有一个
我创建的数据库，

00:06:26.060 --> 00:06:30.020
在这个特定的数据库中
我有一个传感器数据表。

00:06:30.020 --> 00:06:32.840
所以现在，如果我选择一个1000

00:06:32.840 --> 00:06:35.705
从那个特别
表，我可以

00:06:35.705 --> 00:06:38.135
也点击这个图表

00:06:38.135 --> 00:06:41.839
在这里，并加载此数据
沙舞作为可视化工具，

00:06:41.839 --> 00:06:44.495
虽然这只是传感器
数据，它没有

00:06:44.495 --> 00:06:47.210
作为有趣的
投票数据，但仍然，

00:06:47.210 --> 00:06:50.360
这给了你一个快速的看法什么

00:06:50.360 --> 00:06:54.655
数据可视化
查询的上下文可以像。

00:06:54.655 --> 00:06:57.025
现在在这个特殊的视频中，

00:06:57.025 --> 00:07:00.035
你已经看到了我们是如何
使用沙舞实际上

00:07:00.035 --> 00:07:03.665
快速可视化数据，使

00:07:03.665 --> 00:07:05.705
有意义的趋势和理解

00:07:05.705 --> 00:07:07.190
趋势是什么正在发生

00:07:07.190 --> 00:07:09.140
数据，以便它可以帮助你

00:07:09.140 --> 00:07:11.435
建设先进机器
学习算法。

00:07:11.435 --> 00:07:13.100
非常感谢你
听今天。

00:07:13.100 --> 00:07:27.910
[音乐]。

