WEBVTT

00:00:00.000 --> 00:00:10.700
[音楽]。

00:00:10.700 --> 00:00:12.770
>> こんにちは。私の名前はウマチャンダル、

00:00:12.770 --> 00:00:15.510
私はプログラムマネージャーです
SQL Server チームに追加されます。

00:00:15.510 --> 00:00:19.065
今日は見せて行く
クエリを実行する方法

00:00:19.065 --> 00:00:24.120
SQL Server からの HDFS データ
ビッグ データ クラスターで。

00:00:24.120 --> 00:00:28.010
だから私がここで持っているもの
は Azure データ スタジオです。

00:00:28.010 --> 00:00:32.900
まず、私は接続するつもりです
SQL Server マスター インスタンス

00:00:32.900 --> 00:00:36.360
内部で実行されている
ビッグ データ クラスター。

00:00:38.180 --> 00:00:41.360
今から、私は一緒に働くことができます

00:00:41.360 --> 00:00:46.850
両方の MySQL データベース
HDFS のデータ。

00:00:46.850 --> 00:00:48.640
ここで見ることができるように、

00:00:48.640 --> 00:00:52.070
私は私の定期的な
SQL Server データベース

00:00:52.070 --> 00:00:57.875
そして、私はまた行くことができ、
HDFS でデータを参照します。

00:00:57.875 --> 00:01:02.570
それでは、まず何を見てみましょう
私が照会するデータ。

00:01:02.570 --> 00:01:06.970
だから私はここにファイルを持っている
Web クリック ストリームと呼ばれます。

00:01:06.970 --> 00:01:10.985
したがって、このファイルには次のものが含まれています。
ユーザーに関するデータ,

00:01:10.985 --> 00:01:14.180
彼らが購入したアイテムのように、

00:01:14.180 --> 00:01:19.160
彼らは何回クリックしたか
特定のカテゴリなどです。

00:01:19.160 --> 00:01:24.120
それでは、あなたの方法を見てみましょう
このデータを照会できます。

00:01:25.330 --> 00:01:28.205
だから私はここにノートを持っています。

00:01:28.205 --> 00:01:30.829
まず、コンテキストを設定します。

00:01:30.829 --> 00:01:34.000
ノートブックをデータベースにコピーします。

00:01:34.000 --> 00:01:38.535
売り上げは次の場合
この例に示します。

00:01:38.535 --> 00:01:43.354
だから次に、
HDFS でデータを照会し、

00:01:43.354 --> 00:01:48.880
私たちは何かを作成する必要があります
外部データ ソースと呼ばれます。

00:01:48.880 --> 00:01:52.790
だから、それはのオブジェクトです
伝えるデータベース

00:01:52.790 --> 00:01:57.140
SQL Server
HDFS データが存在します。

00:01:57.140 --> 00:01:59.940
したがって、この例では、

00:01:59.940 --> 00:02:04.190
この文字列はこちら
SQL HDFS で開始します。

00:02:04.190 --> 00:02:10.130
HDFS データを表します。
ビッグ データ クラスターで。

00:02:10.130 --> 00:02:14.450
それでは、最初に行きましょう
このデータ ソースを作成します。

00:02:14.450 --> 00:02:17.870
したがって、作成した後
データ ソース、

00:02:17.870 --> 00:02:21.905
ファイル形式を指定する必要があります

00:02:21.905 --> 00:02:27.410
データ ソースがサポートし、
クエリを実行する内容。

00:02:27.410 --> 00:02:29.375
この場合は、

00:02:29.375 --> 00:02:34.910
私はデータを照会するつもりです
は寄木細工ファイルに存在しています。

00:02:34.910 --> 00:02:40.485
だから寄木細工の形式
ここでファイルを指定します。

00:02:40.485 --> 00:02:45.960
それでは、まずは
このファイル形式オブジェクトを作成します。

00:02:46.090 --> 00:02:52.640
次のステップは、
SQL Server の外部テーブルです。

00:02:52.640 --> 00:02:57.020
したがって、これは列を表します。
どちらを照会するのか

00:02:57.020 --> 00:03:02.165
ファイルから、
ファイルの場所。

00:03:02.165 --> 00:03:03.710
この場合は、

00:03:03.710 --> 00:03:08.180
私はすべてのクエリを行うつもりです
このディレクトリのデータを取得します。

00:03:08.180 --> 00:03:12.520
それでは、すぐに見てみましょう
含まれているもの。

00:03:12.520 --> 00:03:16.670
そこで、ここでディレクトリを展開します。

00:03:16.670 --> 00:03:20.780
ご覧のとおり、
ここに3つの寄木細工ファイル。

00:03:20.780 --> 00:03:23.660
それでは、次の方法を見ていくつもりです。

00:03:23.660 --> 00:03:26.510
クエリを実行できます。
SQL Server からのファイルです。

00:03:26.510 --> 00:03:31.310
だから私は今、外部を作成しました
SQL Server のテーブル オブジェクト、

00:03:31.310 --> 00:03:37.920
ディレクトリを指す
寄木細工ファイルが含まれています。

00:03:38.440 --> 00:03:43.680
まず、見てみましょう
ファイルのいくつかの行。

00:03:43.970 --> 00:03:48.675
だから私は選択クエリを実行します
トップヒントで、

00:03:48.675 --> 00:03:51.465
そして、私は10行を参照してください。

00:03:51.465 --> 00:03:57.470
これは基本的に行をプレビューします。
これらのファイルから読み取られます。

00:03:57.470 --> 00:04:01.775
だから、あなたはまた、わずかに実行することができます
より複雑なクエリ

00:04:01.775 --> 00:04:06.920
にカウントを行うだけのように
テーブル内の行数。

00:04:06.920 --> 00:04:13.380
この場合、私は結果を得る
戻って、それは約600万です。

00:04:14.210 --> 00:04:17.705
また、より多くのを実行することができます
高度なクエリ。

00:04:17.705 --> 00:04:20.720
私はここでクエリを持っています

00:04:20.720 --> 00:04:25.505
トップ10を見つけようとしている
最もクリックしたユーザー。

00:04:25.505 --> 00:04:27.850
それでは、そのクエリを実行してみましょう。

00:04:27.850 --> 00:04:29.535
ご覧のとおり、

00:04:29.535 --> 00:04:31.325
今、あなたは実行することができます

00:04:31.325 --> 00:04:35.375
通常の SQL クエリ
HDFS のデータに対して。

00:04:35.375 --> 00:04:37.910
だから、基本的にすることができます
でデータを扱う

00:04:37.910 --> 00:04:42.665
HDFS はローカルであるかのように
データベース内のテーブル。

00:04:42.665 --> 00:04:46.900
この場合、私は
SQL Server の機能、

00:04:46.900 --> 00:04:50.060
と構文、および
で使用できる関数

00:04:50.060 --> 00:04:53.990
クエリを書き込む SQL Server です。

00:04:53.990 --> 00:04:56.060
ご覧のとおり、

00:04:56.060 --> 00:05:03.200
今、私は基本的に取得することができます
HDFS 内のファイルから結果が得られます。

00:05:03.200 --> 00:05:07.360
また、
その他の共同操作。

00:05:07.360 --> 00:05:10.275
たとえば、次の値を指定します。

00:05:10.275 --> 00:05:13.815
クリックストリーム データを結合する
いくつかのインベントリデータを使用して、

00:05:13.815 --> 00:05:17.000
また、居住している
寄木細工ファイル内

00:05:17.000 --> 00:05:21.800
実際にここに示されているHDFSで。

00:05:21.800 --> 00:05:24.140
それでは、このクエリを実行してみましょう。

00:05:24.140 --> 00:05:28.400
この場合、私たちがやっていること
SQL Server では、実際には

00:05:28.400 --> 00:05:34.170
2 つの異なるデータセットの結合
HDFS に常駐しています。

00:05:34.270 --> 00:05:40.790
を指定できます。
SQL 構文を使用した SQL クエリ

00:05:40.790 --> 00:05:44.275
そして、あなたはを得ることができます
そのクエリの結果。

00:05:44.275 --> 00:05:48.705
この例では、
実際に SQL Server に移動します。

00:05:48.705 --> 00:05:51.180
HDFS からのファイルの読み取り,

00:05:51.180 --> 00:05:53.845
ファイル内のデータを渡す、

00:05:53.845 --> 00:05:56.195
結合操作の実行

00:05:56.195 --> 00:06:00.425
と追加の実行
この場合の集計は、

00:06:00.425 --> 00:06:03.785
クリック数を数えるのと同じように、

00:06:03.785 --> 00:06:08.790
インベントリの追加
値などです。

00:06:09.500 --> 00:06:11.640
最後に、少なくとも、

00:06:11.640 --> 00:06:14.250
また、クエリを実行することもできます。

00:06:14.250 --> 00:06:17.480
この HDFS データを結合して結合する

00:06:17.480 --> 00:06:20.405
他のデータを座って
をデータベースに保存します。

00:06:20.405 --> 00:06:22.175
したがって、この例では、

00:06:22.175 --> 00:06:25.415
実際にクエリを実行できます
寄木細工ファイル

00:06:25.415 --> 00:06:30.120
SQL Server のテーブルと結合します。

00:06:36.560 --> 00:06:39.270
ご覧のとおり、

00:06:39.270 --> 00:06:44.170
SQL Server の統合
ビッグデータクラスタはそれを非常に作ります

00:06:44.170 --> 00:06:49.215
簡単にデータを結合
HDFS から他のデータに

00:06:49.215 --> 00:06:52.214
HDFS またはその他のテーブルのいずれかで、

00:06:52.214 --> 00:06:55.180
そして、非常に簡単に情報を取得します。

00:06:55.180 --> 00:06:58.840
だから今、あなたは実際に構築することができます
データを照会するアプリケーション

00:06:58.840 --> 00:07:02.790
異なるデータ ソースから
非常に簡単に。ありがとう。

00:07:02.790 --> 00:07:17.500
[音楽]

