WEBVTT

00:00:00.000 --> 00:00:10.700
[MÜZIK].

00:00:10.700 --> 00:00:12.770
Merhaba. Benim adım Umachandar.

00:00:12.770 --> 00:00:15.510
Ben bir Program Yöneticisiyim
SQL Server ekibinde.

00:00:15.510 --> 00:00:19.065
Bugün göstereceğim.
nasıl sorgulayabilirsiniz

00:00:19.065 --> 00:00:24.120
SQL Server'dan HDFS verileri
büyük bir veri kümesinde.

00:00:24.120 --> 00:00:28.010
Burada ne var
Azure Veri Stüdyosu'dur.

00:00:28.010 --> 00:00:32.900
İlk olarak, ben bağlamak için gidiyorum
SQL Server Master örneği,

00:00:32.900 --> 00:00:36.360
içinde çalışan
büyük veri kümesi.

00:00:38.180 --> 00:00:41.360
Şimdi buradan, ben çalışabilirim

00:00:41.360 --> 00:00:46.850
her iki MySQL veritabanları
ve HDFS'deki veriler.

00:00:46.850 --> 00:00:48.640
Burada gördüğünüz gibi,

00:00:48.640 --> 00:00:52.070
Benim düzenli var
SQL Server veritabanları

00:00:52.070 --> 00:00:57.875
ve ben de gidip
HDFS'deki verilere göz atın.

00:00:57.875 --> 00:01:02.570
Önce ne yaptığına bakalım.
sorguya yapacağım verileri.

00:01:02.570 --> 00:01:06.970
Burada bir dosyam var.
Web Tıklama Akışları olarak adlandırılır.

00:01:06.970 --> 00:01:10.985
Yani bu dosya içerir
kullanıcılar hakkında veri,

00:01:10.985 --> 00:01:14.180
satın aldıkları öğeler gibi,

00:01:14.180 --> 00:01:19.160
kaç kez tıkladılar
belirli bir kategori, ve benzeri.

00:01:19.160 --> 00:01:24.120
Şimdi nasıl bir göz atalım.
bu verileri sorgulayabilirsiniz.

00:01:25.330 --> 00:01:28.205
Burada bir defter var.

00:01:28.205 --> 00:01:30.829
İlk olarak, bağlamı belirleyeceğim.

00:01:30.829 --> 00:01:34.000
not defterinin veritabanına.

00:01:34.000 --> 00:01:38.535
Hangi satış, gibi
bu örnekte gösterilmiştir.

00:01:38.535 --> 00:01:43.354
Yani sonraki, amacıyla
HDFS'deki verileri sorgulamak,

00:01:43.354 --> 00:01:48.880
bir şey yaratmamız gerekiyor.
Harici Veri Kaynağı olarak adlandırılır.

00:01:48.880 --> 00:01:52.790
Yani bu bir nesne.
söyler veritabanı

00:01:52.790 --> 00:01:57.140
SQL Server nerede
HDFS verileri bulunur.

00:01:57.140 --> 00:01:59.940
Bu örnekte,

00:01:59.940 --> 00:02:04.190
bu dize burada hangi
SQL HDFS ile başlar,

00:02:04.190 --> 00:02:10.130
HDFS verilerini temsil eder
büyük veri kümesinde.

00:02:10.130 --> 00:02:14.450
Önce gidelim ve.
bu veri kaynağını oluşturun.

00:02:14.450 --> 00:02:17.870
Yani oluşturduktan sonra
veri kaynağı,

00:02:17.870 --> 00:02:21.905
hangi dosya biçimini belirtmeniz gerekir

00:02:21.905 --> 00:02:27.410
veri kaynağı destekler ve
ne sorgulayacaksınız.

00:02:27.410 --> 00:02:29.375
Yani bu durumda,

00:02:29.375 --> 00:02:34.910
Ben hangi verileri sorgulamak için gidiyorum
Parke dosyalarında ikamet ediyor.

00:02:34.910 --> 00:02:40.485
Yani parke biçimi
dosya burada belirtilir.

00:02:40.485 --> 00:02:45.960
Önce devam edelim ve.
bu dosya biçimi nesnesi oluşturun.

00:02:46.090 --> 00:02:52.640
Şimdi bir sonraki adım oluşturmaktır
SQL Server'da harici bir tablo.

00:02:52.640 --> 00:02:57.020
Yani bu sütunları temsil eder.
hangi leri sorgulayacak

00:02:57.020 --> 00:03:02.165
dosyalardan ve aynı zamanda
dosyaların konumu.

00:03:02.165 --> 00:03:03.710
Yani bu durumda,

00:03:03.710 --> 00:03:08.180
Ben tüm sorgu gidiyorum
bu Dizin verileri.

00:03:08.180 --> 00:03:12.520
O zaman çabucak görelim.
ne içerir.

00:03:12.520 --> 00:03:16.670
Bu yüzden buradaki dizin genişleteceğim.

00:03:16.670 --> 00:03:20.780
Gördüğünüz gibi, var
Burada üç Parke dosyası var.

00:03:20.780 --> 00:03:23.660
Şimdi nasıl olduğunu göreceğiz.

00:03:23.660 --> 00:03:26.510
bunları sorgulayabilirsiniz
SQL Server dosyaları.

00:03:26.510 --> 00:03:31.310
Bu yüzden şimdi bir dış oluşturduk
SQL Server'da tablo nesnesi,

00:03:31.310 --> 00:03:37.920
hangi dizin işaret
Parke dosyalarını içerir.

00:03:38.440 --> 00:03:43.680
Önce bakalım.
dosyadan bazı satırlar.

00:03:43.970 --> 00:03:48.675
Bu yüzden bir select sorgusu çalıştırın
üst ipucu ile,

00:03:48.675 --> 00:03:51.465
Ve 10 sıra görüyorum.

00:03:51.465 --> 00:03:57.470
Bu temelde satırları önizleme
bu dosyalardan okunur.

00:03:57.470 --> 00:04:01.775
Böylece biraz da çalıştırabilirsiniz
daha karmaşık sorgular

00:04:01.775 --> 00:04:06.920
sadece bir saymak yapmak gibi
tablodaki satır sayısı.

00:04:06.920 --> 00:04:13.380
Bu durumda, bir sonuç almak
geri döndü ve yaklaşık altı milyon.

00:04:14.210 --> 00:04:17.705
Ayrıca daha fazla çalıştırabilirsiniz
gelişmiş sorgular.

00:04:17.705 --> 00:04:20.720
Ben burada bir sorgu var

00:04:20.720 --> 00:04:25.505
ilk 10 bulmaya çalışıyor
en çok tıklama alan kullanıcılar.

00:04:25.505 --> 00:04:27.850
O zaman şu sorguyı çalıştıralım.

00:04:27.850 --> 00:04:29.535
Burada gördüğünüz gibi,

00:04:29.535 --> 00:04:31.325
artık çalıştırmak edebiliyoruz

00:04:31.325 --> 00:04:35.375
normal SQL sorguları
HDFS'deki verilere karşı.

00:04:35.375 --> 00:04:37.910
Yani temelde yapabilirsiniz
verileri ele

00:04:37.910 --> 00:04:42.665
HDFS sanki yerel
veritabanınızdaki tablolar.

00:04:42.665 --> 00:04:46.900
Bu durumda, ben kullanabilirsiniz
SQL Server özellikleri,

00:04:46.900 --> 00:04:50.060
ve sözdizimi ve
işlevleri mevcut

00:04:50.060 --> 00:04:53.990
SQL Server sorgu yazmak için.

00:04:53.990 --> 00:04:56.060
Gördüğünüz gibi,

00:04:56.060 --> 00:05:03.200
şimdi temelde alabilirsiniz
HDFS'deki dosyalardan elde edilen sonuçlar.

00:05:03.200 --> 00:05:07.360
Ayrıca gerçekleştirebilirsiniz
diğer müşterek operasyonlar.

00:05:07.360 --> 00:05:10.275
Örneğin, ben istiyorum

00:05:10.275 --> 00:05:13.815
ClickStream verilerini birleştirme
bazı Envanter verileri ile,

00:05:13.815 --> 00:05:17.000
aynı zamanda ikamet ediyor
Parke dosyalarında

00:05:17.000 --> 00:05:21.800
hdfs aslında burada gösterilir.

00:05:21.800 --> 00:05:24.140
Bu sorguya bakalım.

00:05:24.140 --> 00:05:28.400
Bu durumda, ne yapıyoruz?
SQL sunucusunda aslında

00:05:28.400 --> 00:05:34.170
iki farklı veri kümesini birleştirme
hdfs ikamet eden.

00:05:34.270 --> 00:05:40.790
Bunu
SQL sözdizimini kullanan bir SQL sorgusu,

00:05:40.790 --> 00:05:44.275
ve alabilirsiniz
bu sorgudan elde edilen sonuçlar.

00:05:44.275 --> 00:05:48.705
Bu örnekte,
aslında SQL Server'a gitmek,

00:05:48.705 --> 00:05:51.180
HDFS gelen dosyaları okuma,

00:05:51.180 --> 00:05:53.845
dosyalardaki verileri aktarmak,

00:05:53.845 --> 00:05:56.195
birleştirme işlemlerini gerçekleştirmek

00:05:56.195 --> 00:06:00.425
ve ek yapıyor
bu durumda toplamalar,

00:06:00.425 --> 00:06:03.785
tıklama sayısını saymak gibi,

00:06:03.785 --> 00:06:08.790
envanter ekleme
değerleri ve benzeri.

00:06:09.500 --> 00:06:11.640
Son olarak,

00:06:11.640 --> 00:06:14.250
ayrıca sorgulayabilirsiniz

00:06:14.250 --> 00:06:17.480
bu HDFS verileri ve katılmak

00:06:17.480 --> 00:06:20.405
diğer veri oturma ile
veritabanınızda.

00:06:20.405 --> 00:06:22.175
Bu örnekte,

00:06:22.175 --> 00:06:25.415
gerçekten sorgulayabilirsiniz
Parke dosyaları

00:06:25.415 --> 00:06:30.120
ve SQL Server'da tablo ile birleştirin.

00:06:36.560 --> 00:06:39.270
Şimdi gördüğünüz gibi,

00:06:39.270 --> 00:06:44.170
SQL Server'da entegrasyon
Büyük Veri Kümesi çok yapar

00:06:44.170 --> 00:06:49.215
verilere katılmanız kolay
HDFS'den diğer verilere,

00:06:49.215 --> 00:06:52.214
HDFS veya diğer tablolarda,

00:06:52.214 --> 00:06:55.180
ve çok kolay bilgi almak.

00:06:55.180 --> 00:06:58.840
Yani şimdi gerçekten inşa edebilirsiniz
verileri sorgulayan uygulamalar

00:06:58.840 --> 00:07:02.790
farklı veri kaynaklarından
çok kolay. Teşekkür ederiz.

00:07:02.790 --> 00:07:17.500
[MÜZİk]

