WEBVTT

00:00:00.000 --> 00:00:03.345
• SQL Server 2019 介紹
大資料群集。

00:00:03.345 --> 00:00:04.860
它集成了火花。

00:00:04.860 --> 00:00:09.300
希夫在這裡告訴我們所有關于
今天的資料暴露。

00:00:09.300 --> 00:00:20.220
[音樂]。

00:00:20.220 --> 00:00:23.085
• 嗨，歡迎來到另一個
一集資料暴露。

00:00:23.085 --> 00:00:25.890
我是你的東道主，杰倫和
今天，我們有Shiv在這裡

00:00:25.890 --> 00:00:28.485
我們談論火花
大資料群集上。

00:00:28.485 --> 00:00:29.780
所以歡迎參加這個節目，希夫。

00:00:29.780 --> 00:00:30.600
謝謝你，傑琳

00:00:30.600 --> 00:00:34.705
• 所以火花，讓我們從
基礎知識。什麼是火花？

00:00:34.705 --> 00:00:38.790
• 火花是一個統一的大
資料處理引擎

00:00:38.790 --> 00:00:41.640
可以跨工作
分析工作負載

00:00:41.640 --> 00:00:45.555
聽起來不是很簡單。

00:00:45.555 --> 00:00:47.340
• 因此，讓我們將其分解。

00:00:47.340 --> 00:00:47.730
"好的。

00:00:47.730 --> 00:00:49.575
* 所以，首先讓我們來談談

00:00:49.575 --> 00:00:52.850
大資料處理，
分散式大資料。

00:00:52.850 --> 00:00:54.140
所以最後幾年

00:00:54.140 --> 00:00:55.460
我們已經看到的是一個趨勢

00:00:55.460 --> 00:00:57.800
企業收集
大量的資料。

00:00:57.800 --> 00:00:58.265
* 當然可以。

00:00:58.265 --> 00:01:00.170
• 從資料資料資料中，從資料

00:01:00.170 --> 00:01:01.640
今天我們看到一個企業交易

00:01:01.640 --> 00:01:04.100
TB 和 PB 的資料。

00:01:04.100 --> 00:01:05.810
現在有個問題了

00:01:05.810 --> 00:01:09.005
問題是，當你
擁有如此大規模的資料，

00:01:09.005 --> 00:01:11.375
你如何真正存儲
資料，首先，對不對？

00:01:11.375 --> 00:01:11.960
"好的。

00:01:11.960 --> 00:01:13.945
* 所以在開始，

00:01:13.945 --> 00:01:16.580
我們開始與一個單一的
機器和縮放

00:01:16.580 --> 00:01:20.300
垂直和具有 TB
每個資料組的硬碟。

00:01:20.300 --> 00:01:22.180
垂直縮放並不真正

00:01:22.180 --> 00:01:24.295
存儲的答案
分散式資料。

00:01:24.295 --> 00:01:27.020
一個可行的，更好的解決方案，

00:01:27.020 --> 00:01:29.270
更具彈性的解決方案
是分散式資料，

00:01:29.270 --> 00:01:30.830
我們不繼續縮放

00:01:30.830 --> 00:01:34.265
一台機器
越來越多的資料。

00:01:34.265 --> 00:01:37.055
我們要做的就是
將資料分發到各個

00:01:37.055 --> 00:01:40.340
n 數量較小的機器和
這就是我們存儲大資料的方式。

00:01:40.340 --> 00:01:41.870
[ ] 所以基本上分裂和征服，

00:01:41.870 --> 00:01:43.050
對？我們把工作分開。

00:01:43.050 --> 00:01:43.620
* 確切地說。

00:01:43.620 --> 00:01:44.025
"好的。

00:01:44.025 --> 00:01:46.040
所以現在，我們已經照顧到

00:01:46.040 --> 00:01:48.935
存儲的問題
資料，但這不是全部。

00:01:48.935 --> 00:01:51.275
主要問題是
不是資料存儲，

00:01:51.275 --> 00:01:54.680
主要問題是我需要
以獲得此資料的見解。

00:01:54.680 --> 00:01:56.105
• 當您處理它時，

00:01:56.105 --> 00:01:57.590
這就是價值所在，對嗎？

00:01:57.590 --> 00:01:59.180
* 確切地說。因此，處理

00:01:59.180 --> 00:02:02.340
此分散式資料
需要不同的引擎。

00:02:02.340 --> 00:02:07.100
Spark 是大資料計算
可以跨工作

00:02:07.100 --> 00:02:12.200
分散式資料和計算
並為此完成您的工作負載。

00:02:12.200 --> 00:02:16.715
它只是不是分散式的
大資料計算引擎，

00:02:16.715 --> 00:02:19.010
這也是一些
摘要約

00:02:19.010 --> 00:02:21.590
從你分發的詳細資訊。

00:02:21.590 --> 00:02:22.880
作為 Spark 的使用者，

00:02:22.880 --> 00:02:25.190
你不必費心
所有分發的細節，

00:02:25.190 --> 00:02:27.650
這就是火花周圍的整體美。

00:02:27.650 --> 00:02:31.130
• 所以，你只是給它一個
分配，它會找出

00:02:31.130 --> 00:02:33.035
如何分配工作和

00:02:33.035 --> 00:02:35.420
儘快完成
可能，希望。

00:02:35.420 --> 00:02:38.840
* 正確。當您處理
有了這樣的資料

00:02:38.840 --> 00:02:42.320
你不想被束縛
特定語言。

00:02:42.320 --> 00:02:45.470
你就像這是一個大
資料計算引擎和現在

00:02:45.470 --> 00:02:48.290
你使用華麗的語言，
我發明了處理它。

00:02:48.290 --> 00:02:50.480
所以Spark做了一些事情
非常漂亮。

00:02:50.480 --> 00:02:52.235
Spark 為您提供了語言的選擇。

00:02:52.235 --> 00:02:54.680
如果您是 Python 程式師，

00:02:54.680 --> 00:02:57.350
您可以在
Python、 斯卡拉、 JAVA、

00:02:57.350 --> 00:03:01.190
R. R 是很受歡迎的關於
我們的資料科學家和

00:03:01.190 --> 00:03:04.760
火花為您提供選項
將 R 用於工作負荷。

00:03:04.760 --> 00:03:09.050
因此，什麼是火花作為一個
分散式運算引擎。

00:03:09.050 --> 00:03:11.105
基本上你說

00:03:11.105 --> 00:03:13.850
以不同的方式恢復它，但
這是我們為

00:03:13.850 --> 00:03:16.920
大資料，因為
縮放問題

00:03:16.920 --> 00:03:18.450
向上所有的時間與縮放

00:03:18.450 --> 00:03:20.415
起來，現在我們縮放
出，以及。對？

00:03:20.415 --> 00:03:20.790
* 正確。

00:03:20.790 --> 00:03:23.075
• 然後火花工作
分散式層

00:03:23.075 --> 00:03:24.320
並為您提供靈活性

00:03:24.320 --> 00:03:25.580
選擇選擇的語言。

00:03:25.580 --> 00:03:29.180
* 是。還有一點
[聽不見]進入我的句子。

00:03:29.180 --> 00:03:31.520
我跟你說了一些關於
統一的計算引擎。

00:03:31.520 --> 00:03:34.120
因此，讓我們切片和骰子一點。

00:03:34.120 --> 00:03:39.170
正如我們所看到的，企業開始
獲取越來越多的資料。

00:03:39.170 --> 00:03:41.420
傳統
工作負載也從

00:03:41.420 --> 00:03:45.320
事務工作負載到工作負載
這是分析的性質。

00:03:45.320 --> 00:03:47.730
分析工作量是什麼意思？

00:03:47.730 --> 00:03:51.290
我分析的工作量
大量的資料得到

00:03:51.290 --> 00:03:53.180
見解出它和

00:03:53.180 --> 00:03:56.645
然後也許做機器
學習或深度學習。

00:03:56.645 --> 00:03:59.750
因此，傳統上，階段從

00:03:59.750 --> 00:04:03.095
事務工作負載
轉移到分析工作負載。

00:04:03.095 --> 00:04:06.920
分析工作負載多種多樣
從深度學習的工作量，

00:04:06.920 --> 00:04:10.120
機器學習、分析
和流工作負載。

00:04:10.120 --> 00:04:12.990
現在，每個
不需要的工作負載

00:04:12.990 --> 00:04:17.120
單獨的計算引擎
真正建立你的技能。

00:04:17.120 --> 00:04:18.530
• 理想情況下，你會學習一個。

00:04:18.530 --> 00:04:20.840
* 確切地說。這就是 Spark 所做的。

00:04:20.840 --> 00:04:24.110
Spark 是一個統一的計算
允許您工作的引擎

00:04:24.110 --> 00:04:27.690
在所有這些工作負載中
同一套原則。

00:04:27.690 --> 00:04:29.875
這就是Spark的用點。

00:04:29.875 --> 00:04:32.795
分散式運算
引擎提取出來

00:04:32.795 --> 00:04:35.750
工作細節
分發。

00:04:35.750 --> 00:04:39.545
它沒有你打擾
關於分發詳細資訊。

00:04:39.545 --> 00:04:42.230
第二，統一計算
發動機，最重要的是，

00:04:42.230 --> 00:04:45.245
我發現它作為一個非常
強大的開發人員功能，

00:04:45.245 --> 00:04:47.990
它為您提供了語言的選擇
在那裡你可以使用Python，

00:04:47.990 --> 00:04:50.300
斯卡拉、JAVA 或 R、
無論你選擇什麼。

00:04:50.300 --> 00:04:52.265
所以，什麼是火花。

00:04:52.265 --> 00:04:54.725
• 冷卻。這是非常壓制性的。

00:04:54.725 --> 00:04:57.785
我是說，斯派克沒事

00:04:57.785 --> 00:05:00.370
那麼，我們在做什麼
SQL 伺服器上的火花？

00:05:00.370 --> 00:05:01.760
我們有什麼東西嗎？

00:05:01.760 --> 00:05:05.300
* 所以火花基本上是阿帕奇火花。

00:05:05.300 --> 00:05:07.460
它是開源計算引擎。

00:05:07.460 --> 00:05:09.230
我們在
大資料集群，

00:05:09.230 --> 00:05:12.680
我們帶給你
一起，這與SQL，

00:05:12.680 --> 00:05:16.995
作為一個單一的統一
提供與 SQL 和

00:05:16.995 --> 00:05:21.070
端到端解決方案，讓您
不只是得到計算引擎，

00:05:21.070 --> 00:05:23.150
你會得到一個完整的
端到端體驗

00:05:23.150 --> 00:05:24.785
使用計算引擎。

00:05:24.785 --> 00:05:26.630
* 所以這意味著
自火花

00:05:26.630 --> 00:05:28.400
已集成
在大資料群集中，

00:05:28.400 --> 00:05:31.625
我可以查詢

00:05:31.625 --> 00:05:32.885
大資料群集

00:05:32.885 --> 00:05:35.060
使用舊的好處，你
只是描述從火花。

00:05:35.060 --> 00:05:36.470
* 確切地說。使用用戶端

00:05:36.470 --> 00:05:38.270
工具，你是
都熟悉。

00:05:38.270 --> 00:05:40.330
哇，那可給人留下深刻的印象。

00:05:40.330 --> 00:05:43.110
哇。那麼，我該如何瞭解更多？

00:05:43.110 --> 00:05:47.025
我的意思是，這聽起來非常新
我，我在哪裡找到什麼？

00:05:47.025 --> 00:05:49.529
* 請去大
資料群集文檔，

00:05:49.529 --> 00:05:52.910
SQL 伺服器資料群集文檔
你會發現很多

00:05:52.910 --> 00:05:57.275
關於火花的通訊和文章。

00:05:57.275 --> 00:06:00.020
你會發現大資料集群，

00:06:00.020 --> 00:06:02.855
火花示例和 SQL
伺服器示例存儲庫。

00:06:02.855 --> 00:06:04.660
這就是您開始的地方。

00:06:04.660 --> 00:06:06.920
• 冷卻。因此，我們將
確保包括

00:06:06.920 --> 00:06:09.080
描述中的那些連結，

00:06:09.080 --> 00:06:10.565
所以你會發現他們在那裡。

00:06:10.565 --> 00:06:13.265
感謝希夫來表演。

00:06:13.265 --> 00:06:14.420
謝謝你解釋這個

00:06:14.420 --> 00:06:17.430
我終於學會了火花是什麼。

00:06:17.430 --> 00:06:19.205
謝謝你的收看。

00:06:19.205 --> 00:06:21.650
請喜歡和訂閱和
我希望下次能見到你。

00:06:21.650 --> 00:06:33.610
[音樂]

