WEBVTT

00:00:00.000 --> 00:00:10.700
[音樂]。

00:00:10.700 --> 00:00:12.770
[ ] 嗨。我叫烏馬漢達爾

00:00:12.770 --> 00:00:15.510
我是專案經理
在 SQL Server 團隊中。

00:00:15.510 --> 00:00:19.065
今天我要展示
如何查詢

00:00:19.065 --> 00:00:24.120
來自 SQL 伺服器的 HDFS 資料
大資料群集中。

00:00:24.120 --> 00:00:28.010
所以我在這裡
是 Azure 資料工作室。

00:00:28.010 --> 00:00:32.900
首先，我要連接到
SQL 伺服器主實例，

00:00:32.900 --> 00:00:36.360
裡面運行
大資料群集。

00:00:38.180 --> 00:00:41.360
現在從這裡，我可以與

00:00:41.360 --> 00:00:46.850
兩個 MySQL 資料庫
和 HDFS 中的資料。

00:00:46.850 --> 00:00:48.640
所以，正如你在這裡看到的，

00:00:48.640 --> 00:00:52.070
我有我的常客
SQL 伺服器資料庫

00:00:52.070 --> 00:00:57.875
我也可以去
流覽 HDFS 中的資料。

00:00:57.875 --> 00:01:02.570
因此，讓我們先來看看什麼
我要查詢的資料。

00:01:02.570 --> 00:01:06.970
所以我有一個檔在這裡
稱為"Web 點擊流"。

00:01:06.970 --> 00:01:10.985
因此，此檔包含
有關使用者的資料，

00:01:10.985 --> 00:01:14.180
比如他們買了什麼商品

00:01:14.180 --> 00:01:19.160
他們點擊多少次
特定類別，等等。

00:01:19.160 --> 00:01:24.120
讓我們來看看你如何
可以查詢此資料。

00:01:25.330 --> 00:01:28.205
所以我有一個筆記本在這裡。

00:01:28.205 --> 00:01:30.829
首先，我將設置上下文

00:01:30.829 --> 00:01:34.000
筆記本到資料庫。

00:01:34.000 --> 00:01:38.535
這是銷售，如
如本示例所示。

00:01:38.535 --> 00:01:43.354
因此，接下來，為了
查詢 HDFS 中的資料，

00:01:43.354 --> 00:01:48.880
我們需要創造一些東西
稱為外部資料源。

00:01:48.880 --> 00:01:52.790
因此，它是一個物件在
資料庫，它告訴

00:01:52.790 --> 00:01:57.140
SQL 伺服器
HDFS 資料駐留。

00:01:57.140 --> 00:01:59.940
所以在這個例子中，

00:01:59.940 --> 00:02:04.190
這個字串在這裡
從 SQL HDFS 開始，

00:02:04.190 --> 00:02:10.130
表示 HDFS 資料
在大資料群集中。

00:02:10.130 --> 00:02:14.450
因此，讓我們先去
創建此資料來源。

00:02:14.450 --> 00:02:17.870
因此，在您創建後
資料來源，

00:02:17.870 --> 00:02:21.905
您需要指定什麼檔案格式

00:02:21.905 --> 00:02:27.410
資料來源支援和
你要查詢什麼。

00:02:27.410 --> 00:02:29.375
所以在這種情況下，

00:02:29.375 --> 00:02:34.910
我要查詢資料
位於帕奎特檔中。

00:02:34.910 --> 00:02:40.485
所以鑲木地板的格式
檔在此處指定。

00:02:40.485 --> 00:02:45.960
因此，讓我們先繼續前進，
創建此檔案格式物件。

00:02:46.090 --> 00:02:52.640
所以現在下一步是創建
SQL Server 中的外部表。

00:02:52.640 --> 00:02:57.020
因此，這表示列
即將查詢

00:02:57.020 --> 00:03:02.165
從檔，也
檔的位置。

00:03:02.165 --> 00:03:03.710
所以在這種情況下，

00:03:03.710 --> 00:03:08.180
我要查詢所有
來自此目錄中的資料。

00:03:08.180 --> 00:03:12.520
因此，讓我們快速看到
包含的內容。

00:03:12.520 --> 00:03:16.670
因此，我將在這裡展開目錄。

00:03:16.670 --> 00:03:20.780
正如您所看到的，有
三個帕奎特檔在這裡。

00:03:20.780 --> 00:03:23.660
所以，現在我們要看看如何

00:03:23.660 --> 00:03:26.510
您可以查詢這些
來自 SQL Server 的檔。

00:03:26.510 --> 00:03:31.310
所以我現在創建了一個外部
SQL Server 中的表物件，

00:03:31.310 --> 00:03:37.920
指向目錄
包含帕奎特檔。

00:03:38.440 --> 00:03:43.680
首先，讓我們來看看
檔中的某些行。

00:03:43.970 --> 00:03:48.675
所以我運行一個選取查詢
與頂部提示，

00:03:48.675 --> 00:03:51.465
我看到10行

00:03:51.465 --> 00:03:57.470
這基本上預覽行
從這些檔中讀取。

00:03:57.470 --> 00:04:01.775
因此，您也可以稍微運行
更複雜的查詢

00:04:01.775 --> 00:04:06.920
就像只是做一個計數
表中的行數。

00:04:06.920 --> 00:04:13.380
在這種情況下，我得到一個結果
回來，它大約有六百萬。

00:04:14.210 --> 00:04:17.705
您還可以運行更多
高級查詢。

00:04:17.705 --> 00:04:20.720
我有一個查詢，這是

00:04:20.720 --> 00:04:25.505
試圖找到前10名
點擊次數最多的使用者。

00:04:25.505 --> 00:04:27.850
因此，讓我們運行該查詢。

00:04:27.850 --> 00:04:29.535
正如你在這裡看到的，

00:04:29.535 --> 00:04:31.325
現在，你能夠運行

00:04:31.325 --> 00:04:35.375
常規 SQL 查詢
針對 HDFS 中的資料。

00:04:35.375 --> 00:04:37.910
所以，你基本上可以
處理中的資料

00:04:37.910 --> 00:04:42.665
HDFS，就好像它們是本地的
表中的。

00:04:42.665 --> 00:04:46.900
在這種情況下，我可以使用
SQL 伺服器的功能，

00:04:46.900 --> 00:04:50.060
和語法，和
函數在

00:04:50.060 --> 00:04:53.990
SQL Server 來編寫查詢。

00:04:53.990 --> 00:04:56.060
所以，你可以看到，

00:04:56.060 --> 00:05:03.200
現在我基本上可以得到
來自 HDFS 中的檔的結果。

00:05:03.200 --> 00:05:07.360
您還可以執行
其他聯合行動。

00:05:07.360 --> 00:05:10.275
例如，我想

00:05:10.275 --> 00:05:13.815
合併 ClickStream 資料
一些庫存資料，

00:05:13.815 --> 00:05:17.000
這也是駐留
在帕奎特檔中

00:05:17.000 --> 00:05:21.800
在 HDFS 中，它實際上顯示在此處。

00:05:21.800 --> 00:05:24.140
因此，讓我們運行此查詢。

00:05:24.140 --> 00:05:28.400
在這種情況下，我們正在做的是
在 SQL 伺服器實際上是

00:05:28.400 --> 00:05:34.170
連接兩個不同的資料集
駐留在 HDFS 中。

00:05:34.270 --> 00:05:40.790
您可以在
使用 SQL 語法的 SQL 查詢，

00:05:40.790 --> 00:05:44.275
你可以得到
該查詢的結果。

00:05:44.275 --> 00:05:48.705
在此示例中，我們
實際上去 SQL Server，

00:05:48.705 --> 00:05:51.180
從 HDFS 讀取檔，

00:05:51.180 --> 00:05:53.845
傳遞檔中的資料，

00:05:53.845 --> 00:05:56.195
執行聯接操作

00:05:56.195 --> 00:06:00.425
並做額外的
在這種情況下，聚合，

00:06:00.425 --> 00:06:03.785
比如計算點擊次數，

00:06:03.785 --> 00:06:08.790
添加庫存
值，等等。

00:06:09.500 --> 00:06:11.640
最後但並非最不重要的，

00:06:11.640 --> 00:06:14.250
您也可以查詢

00:06:14.250 --> 00:06:17.480
此 HDFS 資料並加入

00:06:17.480 --> 00:06:20.405
與其他資料坐在
在資料庫中。

00:06:20.405 --> 00:06:22.175
所以在這個例子中，

00:06:22.175 --> 00:06:25.415
實際上，您可以查詢
帕奎特檔

00:06:25.415 --> 00:06:30.120
並與 SQL Server 中的表聯接。

00:06:36.560 --> 00:06:39.270
正如你現在看到的，

00:06:39.270 --> 00:06:44.170
SQL Server 中的集成
大資料群集使其非常

00:06:44.170 --> 00:06:49.215
易於加入資料
從 HDFS 到其他資料，

00:06:49.215 --> 00:06:52.214
在 HDFS 或其他表中，

00:06:52.214 --> 00:06:55.180
並很容易地獲取資訊。

00:06:55.180 --> 00:06:58.840
所以，現在你實際上可以建立
查詢資料的應用程式

00:06:58.840 --> 00:07:02.790
來自不同資料來源
很容易。謝謝。

00:07:02.790 --> 00:07:17.500
[音樂]

