WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 の導入
ビッグ データ クラスター。

00:00:03.345 --> 00:00:04.860
それはスパークを統合しました。

00:00:04.860 --> 00:00:09.300
シヴは私たちにすべてを教えるためにここにいる
今日、公開されたデータに関する。

00:00:09.300 --> 00:00:20.220
[音楽]。

00:00:20.220 --> 00:00:23.085
>> こんにちは、別のへようこそ
公開されたデータのエピソード。

00:00:23.085 --> 00:00:25.890
私はあなたのホスト、ジェローンと
今日、私たちはここでシブを持っています

00:00:25.890 --> 00:00:28.485
私たちはスパークについて話します
ビッグ データ クラスターで。

00:00:28.485 --> 00:00:29.780
だから、ショーへようこそ、シブ。

00:00:29.780 --> 00:00:30.600
>> ありがとう、ジェローン。

00:00:30.600 --> 00:00:34.705
>> だから火花、始めましょう
基本。スパークとは何ですか?

00:00:34.705 --> 00:00:38.790
>> スパークは統一された大きさです
データ処理エンジン

00:00:38.790 --> 00:00:41.640
全体で動作できる
分析ワークロード

00:00:41.640 --> 00:00:45.555
>> それはあまり簡単に聞こえません。

00:00:45.555 --> 00:00:47.340
>> それでは、分解してみましょう。

00:00:47.340 --> 00:00:47.730
>> わかった。

00:00:47.730 --> 00:00:49.575
>> まずは全てについて話そう

00:00:49.575 --> 00:00:52.850
ビッグデータ処理,
分散ビッグデータ。

00:00:52.850 --> 00:00:54.140
ここ数年、

00:00:54.140 --> 00:00:55.460
私たちが見てきたものは、

00:00:55.460 --> 00:00:57.800
収集する企業
大量のデータ。

00:00:57.800 --> 00:00:58.265
>> 確かに。

00:00:58.265 --> 00:01:00.170
>> データのGから行くから、

00:01:00.170 --> 00:01:01.640
今日、私たちは企業が取引しているのを見ます

00:01:01.640 --> 00:01:04.100
テラバイトとペタバイトのデータを使用します。

00:01:04.100 --> 00:01:05.810
今、そこに問題があります。

00:01:05.810 --> 00:01:09.005
問題は、
このような大規模なデータを持っている

00:01:09.005 --> 00:01:11.375
どうやって本当に保存するの?
データ、まず第一に、右?

00:01:11.375 --> 00:01:11.960
>> わかった。

00:01:11.960 --> 00:01:13.945
>> スタート時に

00:01:13.945 --> 00:01:16.580
私たちはシングルから始めました
機械とスケーリング

00:01:16.580 --> 00:01:20.300
垂直方向およびテラバイトを持つ
データ グループあたりのハード ディスクの数。

00:01:20.300 --> 00:01:22.180
その垂直スケーリングは実際には

00:01:22.180 --> 00:01:24.295
保存するための答え
分散データ。

00:01:24.295 --> 00:01:27.020
実現可能な、より良いソリューション、

00:01:27.020 --> 00:01:29.270
より多くの回復力ソリューション
分散データの

00:01:29.270 --> 00:01:30.830
スケーリングを維持しない場所

00:01:30.830 --> 00:01:34.265
取る単一の機械
より多くのデータに。

00:01:34.265 --> 00:01:37.055
私たちがやっていることは、私たちです
データを分散する

00:01:37.055 --> 00:01:40.340
n 小さなマシンの数と
それがビッグデータの保存方法です。

00:01:40.340 --> 00:01:41.870
>> 基本的に分割して征服し、

00:01:41.870 --> 00:01:43.050
そうです。私たちはその仕事を分ける。

00:01:43.050 --> 00:01:43.620
>> まさに。

00:01:43.620 --> 00:01:44.025
>> わかった。

00:01:44.025 --> 00:01:46.040
>> だから今、私たちは世話をしました

00:01:46.040 --> 00:01:48.935
を格納する問題
データが、それだけではありません。

00:01:48.935 --> 00:01:51.275
主な問題は
データの保存ではなく、

00:01:51.275 --> 00:01:54.680
主な問題は、私が必要とすることです
このデータの洞察を得るために。

00:01:54.680 --> 00:01:56.105
>> 処理時に、

00:01:56.105 --> 00:01:57.590
値はそこですよね?

00:01:57.590 --> 00:01:59.180
>> まさに。だから、の処理

00:01:59.180 --> 00:02:02.340
この分散データ
異なるエンジンが必要です。

00:02:02.340 --> 00:02:07.100
スパークはビッグデータコンピューティング
横に働くことができるエンジン

00:02:07.100 --> 00:02:12.200
分散データとコンピューティング
その上でワークロードを実行します。

00:02:12.200 --> 00:02:16.715
それは単に分散していない
ビッグ データ コンピューティング エンジン,

00:02:16.715 --> 00:02:19.010
それはまた何かです
について抽象的である

00:02:19.010 --> 00:02:21.590
あなたからの配布の詳細。

00:02:21.590 --> 00:02:22.880
スパークのユーザーとして、

00:02:22.880 --> 00:02:25.190
あなたは気にする必要はありません
配布のすべての詳細,

00:02:25.190 --> 00:02:27.650
それはスパークの周りの全体の美しさです。

00:02:27.650 --> 00:02:31.130
>> だから、あなたはそれを与える
割り当てとそれが理解するだろう

00:02:31.130 --> 00:02:33.035
作業を配布する方法と

00:02:33.035 --> 00:02:35.420
と同じくらい早く行われる
可能な、うまくいけば。

00:02:35.420 --> 00:02:38.840
>> 右。取引の際
このようなデータで、

00:02:38.840 --> 00:02:42.320
縛られたくない
特定の言語に。

00:02:42.320 --> 00:02:45.470
お前は大きいみたいだ
データ コンピューティング エンジンと現在

00:02:45.470 --> 00:02:48.290
派手な言語を使用する
私はそれを処理することを発明しました。

00:02:48.290 --> 00:02:50.480
だからスパークは何かをする
そこに非常に美しい。

00:02:50.480 --> 00:02:52.235
スパークはあなたに言語の選択を与えます。

00:02:52.235 --> 00:02:54.680
Python プログラマの場合は、

00:02:54.680 --> 00:02:57.350
でプログラムできます。
パイソン、スカラ、ジャワ、

00:02:57.350 --> 00:03:01.190
R.Rは非常に人気があります
私たちのデータサイエンティストと

00:03:01.190 --> 00:03:04.760
スパークはあなたにオプションを与えます
をクリックしてワークロードに R を使用します。

00:03:04.760 --> 00:03:09.050
だから、スパークは何ですか
分散コンピューティング エンジン。

00:03:09.050 --> 00:03:11.105
>> だから基本的にあなたが言った

00:03:11.105 --> 00:03:13.850
別の方法でそれを復元しますが、
それは私たちがやったことです

00:03:13.850 --> 00:03:16.920
次の理由でビッグ データ
スケーリングの問題

00:03:16.920 --> 00:03:18.450
スケーリングで常に上向き

00:03:18.450 --> 00:03:20.415
アップと今、私たちはスケーリングしています
同様にアウト。そうです。

00:03:20.415 --> 00:03:20.790
>> 右。

00:03:20.790 --> 00:03:23.075
>> その後、スパークは上で動作します
分散層

00:03:23.075 --> 00:03:24.320
そしてあなたに柔軟性を与える

00:03:24.320 --> 00:03:25.580
選択する言語を選択します。

00:03:25.580 --> 00:03:29.180
>> はい。まだ少しあった
私の文の中に[聞こえない]。

00:03:29.180 --> 00:03:31.520
私はあなたに何か話した
統一されたコンピューティング エンジン。

00:03:31.520 --> 00:03:34.120
それでは、スライスして少しダイスしましょう。

00:03:34.120 --> 00:03:39.170
私たちが見たように、企業は始まりました
より多くのデータを取得します。

00:03:39.170 --> 00:03:41.420
伝統的な
ワークロードもから移動します。

00:03:41.420 --> 00:03:45.320
ワークロードに対するトランザクション ワークロード
自然の中で分析的である。

00:03:45.320 --> 00:03:47.730
分析ワークロードとはどういう意味ですか?

00:03:47.730 --> 00:03:51.290
分析しているワークロード
取得する多くのデータ

00:03:51.290 --> 00:03:53.180
その中から洞察を得て、

00:03:53.180 --> 00:03:56.645
その後、多分機械をやっている
学習またはディープラーニング。

00:03:56.645 --> 00:03:59.750
だから伝統的に、フェーズは

00:03:59.750 --> 00:04:03.095
トランザクションワークロードも
分析ワークロードに移動しました。

00:04:03.095 --> 00:04:06.920
分析ワークロードにはさまざまな
ディープラーニングからのワークロードの、

00:04:06.920 --> 00:04:10.120
機械学習, 分析
およびストリーミング ワークロード。

00:04:10.120 --> 00:04:12.990
さて、これらのそれぞれ
必要としないワークロード

00:04:12.990 --> 00:04:17.120
別のコンピューティング エンジン
本当にあなたのスキルを構築します。

00:04:17.120 --> 00:04:18.530
>>理想的には、あなたは1つを学ぶでしょう。

00:04:18.530 --> 00:04:20.840
>> まさに。それがスパークのやっていることです。

00:04:20.840 --> 00:04:24.110
スパークは統一されたコンピューティングです
あなたが働くことを可能にするエンジン

00:04:24.110 --> 00:04:27.690
これらすべてのワークロードで
同じ原則のセット。

00:04:27.690 --> 00:04:29.875
それがスパークです。

00:04:29.875 --> 00:04:32.795
分散コンピューティング
抽出するエンジン

00:04:32.795 --> 00:04:35.750
仕事の詳細
あなたからの分布。

00:04:35.750 --> 00:04:39.545
それはあなたを悩ませていない
ディストリビューションの詳細に関する。

00:04:39.545 --> 00:04:42.230
第 2 に、統一されたコンピューティング
エンジンと何よりも、

00:04:42.230 --> 00:04:45.245
私は非常にそれを見つける
強力な開発者機能,

00:04:45.245 --> 00:04:47.990
それはあなたに言語の選択を提供します
Python を使用できる場所、

00:04:47.990 --> 00:04:50.300
スカラ、ジャワまたはR、
あなたが選ぶものは何でも。

00:04:50.300 --> 00:04:52.265
だからスパークとは何か。

00:04:52.265 --> 00:04:54.725
>> クール。それは非常に抑圧的です。

00:04:54.725 --> 00:04:57.785
つまり、スパークは大丈夫です。

00:04:57.785 --> 00:05:00.370
それで、私たちは何をしているの
SQL Server 上のスパーク?

00:05:00.370 --> 00:05:01.760
何かある?

00:05:01.760 --> 00:05:05.300
>> だからスパークは基本的にアパッチスパークです。

00:05:05.300 --> 00:05:07.460
オープンソースのコンピューティングエンジンです。

00:05:07.460 --> 00:05:09.230
私たちがやったこと
ビッグ データ クラスター,

00:05:09.230 --> 00:05:12.680
私たちはあなたを連れて来ました
一緒に、これはSQLと一緒に、

00:05:12.680 --> 00:05:16.995
単一の統一として
SQL および を使用した提供

00:05:16.995 --> 00:05:21.070
エンドツーエンドのソリューション
コンピューティング エンジンを取得するだけでなく、

00:05:21.070 --> 00:05:23.150
あなたは完全なを得る
エンドツーエンドのエクスペリエンス

00:05:23.150 --> 00:05:24.785
コンピューティング エンジンの使用に関する。

00:05:24.785 --> 00:05:26.630
>> そういう意味になる
スパーク以来

00:05:26.630 --> 00:05:28.400
が統合されました
ビッグ データ クラスターでは、

00:05:28.400 --> 00:05:31.625
でデータを照会できる

00:05:31.625 --> 00:05:32.885
ビッグ データ クラスター

00:05:32.885 --> 00:05:35.060
古い利点を使用する
ただ、スパークから説明します。

00:05:35.060 --> 00:05:36.470
>> まさに。クライアントの使用

00:05:36.470 --> 00:05:38.270
あなたがいるツール
すべてに精通しています。

00:05:38.270 --> 00:05:40.330
>> うわー、それは印象的です。

00:05:40.330 --> 00:05:43.110
うわ ー。それでは、さらに詳しく知るにはどうすればよいでしょうか。

00:05:43.110 --> 00:05:47.025
つまり、これは非常に新しく聞こえます。
私は、どこで何を見つけることができますか?

00:05:47.025 --> 00:05:49.529
>> 大きな方へ行ってください
データ クラスタのドキュメント,

00:05:49.529 --> 00:05:52.910
SQL Server データ クラスタのドキュメント
そして、あなたは多くを見つけるでしょう

00:05:52.910 --> 00:05:57.275
スパークに関するコムや記事の。

00:05:57.275 --> 00:06:00.020
ビッグデータクラスターが見つかるでしょう。

00:06:00.020 --> 00:06:02.855
スパークの例と SQL
サーバー サンプル リポジトリ。

00:06:02.855 --> 00:06:04.660
ここから始めましょう。

00:06:04.660 --> 00:06:06.920
>> クール。だから私たちは
必ず含める

00:06:06.920 --> 00:06:09.080
説明内のリンク

00:06:09.080 --> 00:06:10.565
だから、あなたはそこにそれらを見つけるでしょう。

00:06:10.565 --> 00:06:13.265
ショーに来てくれてありがとうシブ。

00:06:13.265 --> 00:06:14.420
これを説明してくれてありがとう。

00:06:14.420 --> 00:06:17.430
私は最後に、スパークが何であるかを学びました。

00:06:17.430 --> 00:06:19.205
見てくれてありがとう。

00:06:19.205 --> 00:06:21.650
好きと購読してください
今度お会いできることをいいですね。

00:06:21.650 --> 00:06:33.610
[音楽]

