WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 tanıttı
büyük veri kümeleri.

00:00:03.345 --> 00:00:04.860
Spark entegre spark vardır.

00:00:04.860 --> 00:00:09.300
Shiv bize her şeyi anlatmak için burada.
Veri Exposed bugün.

00:00:09.300 --> 00:00:20.220
[MÜZIK].

00:00:20.220 --> 00:00:23.085
>> Merhaba ve başka bir hoş geldiniz
Data Exposed bölümü.

00:00:23.085 --> 00:00:25.890
Ben senin ev sahibin, Jeroen ve.
Bugün burada Shiv var

00:00:25.890 --> 00:00:28.485
bize Kıvılcım hakkında konuşmak
büyük veri kümeleri üzerinde.

00:00:28.485 --> 00:00:29.780
Gösteriye hoş geldin, Shiv.

00:00:29.780 --> 00:00:30.600
Teşekkür ederim, Jeroen.

00:00:30.600 --> 00:00:34.705
O yüzden kıvılcım, şöyle başlayalım:
temelleri. Kıvılcım nedir?

00:00:34.705 --> 00:00:38.790
>> Kıvılcım birleşik bir büyük
veri işleme motoru

00:00:38.790 --> 00:00:41.640
genelinde çalışabilen
analitik iş yüklerin

00:00:41.640 --> 00:00:45.555
Bu pek basit değil.

00:00:45.555 --> 00:00:47.340
O zaman parçalayalım.

00:00:47.340 --> 00:00:47.730
Tamam, tamam.

00:00:47.730 --> 00:00:49.575
Bu yüzden önce tüm hakkında konuşalım

00:00:49.575 --> 00:00:52.850
büyük veri işleme,
büyük veri dağıtılır.

00:00:52.850 --> 00:00:54.140
Son birkaç yıldır,

00:00:54.140 --> 00:00:55.460
gördüğümüz şey bir eğilimdir.

00:00:55.460 --> 00:00:57.800
toplama işletmeler
çok ve çok fazla veri.

00:00:57.800 --> 00:00:58.265
Tabii ki.

00:00:58.265 --> 00:01:00.170
>> Verilerin GB'lerinden,

00:01:00.170 --> 00:01:01.640
bugün bir kurumsal işlem görmek

00:01:01.640 --> 00:01:04.100
terabaytlar ve petabaytlar veri ile.

00:01:04.100 --> 00:01:05.810
Şimdi bir sorun var.

00:01:05.810 --> 00:01:09.005
Sorun şu ki, ne zaman
bu kadar büyük bir veri ölçeğine sahip olmak,

00:01:09.005 --> 00:01:11.375
gerçekten nasıl saklarsınız
Veri, her şeyden önce, değil mi?

00:01:11.375 --> 00:01:11.960
Tamam, tamam.

00:01:11.960 --> 00:01:13.945
Yani başlangıçta,

00:01:13.945 --> 00:01:16.580
biz tek bir ile başladı
makine ve ölçekleme

00:01:16.580 --> 00:01:20.300
dikey ve terabayt sahip
veri grubu başına sabit disk.

00:01:20.300 --> 00:01:22.180
Bu dikey ölçekleme gerçekten değildi

00:01:22.180 --> 00:01:24.295
depolamaiçin cevap
dağıtılmış veriler.

00:01:24.295 --> 00:01:27.020
Uygulanabilir, daha iyi bir çözüm.

00:01:27.020 --> 00:01:29.270
daha fazla esneklik çözümü
veri dağıtıldı,

00:01:29.270 --> 00:01:30.830
ölçekleme devam etmiyoruz

00:01:30.830 --> 00:01:34.265
almak için tek bir makine
daha fazla veri.

00:01:34.265 --> 00:01:37.055
Yaptığımız şey, biz.
verileri dağıtmak

00:01:37.055 --> 00:01:40.340
n küçük makinelerin sayısı ve
Büyük verileri bu şekilde depolarız.

00:01:40.340 --> 00:01:41.870
Yani temelde böl ve fethet,

00:01:41.870 --> 00:01:43.050
Doğru? İşi bölüşürüz.

00:01:43.050 --> 00:01:43.620
Kesinlikle.

00:01:43.620 --> 00:01:44.025
Tamam, tamam.

00:01:44.025 --> 00:01:46.040
Bu yüzden şimdi, biz hallettik

00:01:46.040 --> 00:01:48.935
depolama sorunu
veri ama hepsi bu değil.

00:01:48.935 --> 00:01:51.275
Ana sorun
verilerin depolanmaması,

00:01:51.275 --> 00:01:54.680
ana sorun ben ihtiyaç olduğunu
bu verilerin içgörülerini elde etmek için.

00:01:54.680 --> 00:01:56.105
>> İşlediğinizde,

00:01:56.105 --> 00:01:57.590
Değeri orada, değil mi?

00:01:57.590 --> 00:01:59.180
Kesinlikle. Yani işleme

00:01:59.180 --> 00:02:02.340
bu dağıtılmış veri
farklı motorlar gerektirir.

00:02:02.340 --> 00:02:07.100
Kıvılcım büyük bir veri bilgiişlem
genelinde çalışabilen motor

00:02:07.100 --> 00:02:12.200
dağıtılmış veri ve bilgi işlem
ve bu konuda iş yükleri yapmak.

00:02:12.200 --> 00:02:16.715
Sadece dağıtılmış bir şey değil.
büyük veri bilgi işlem motoru,

00:02:16.715 --> 00:02:19.010
aynı zamanda bir şey
hakkında özetler

00:02:19.010 --> 00:02:21.590
sizden dağıtım ayrıntıları.

00:02:21.590 --> 00:02:22.880
Kıvılcım kullanıcısı olarak,

00:02:22.880 --> 00:02:25.190
zahmet etmek zorunda kalmazsınız
dağıtım ın tüm detayları,

00:02:25.190 --> 00:02:27.650
Kıvılcım'ın etrafındaki tüm güzellik bu.

00:02:27.650 --> 00:02:31.130
Bu yüzden sadece bir ver
atama ve bu anlamaya olacak

00:02:31.130 --> 00:02:33.035
nasıl iş dağıtmak ve

00:02:33.035 --> 00:02:35.420
kadar hızlı bir şekilde yapılabilir
mümkün, umarım.

00:02:35.420 --> 00:02:38.840
Doğru. Ne zaman işlem
bu tür verilerle,

00:02:38.840 --> 00:02:42.320
Bağlanmak istemezsin.
belirli bir dile.

00:02:42.320 --> 00:02:45.470
Sanki bu büyük bir
veri bilgi işlem motoru ve şimdi

00:02:45.470 --> 00:02:48.290
gösterişli bir dil kullanıyorsunuz
Bunu işlemek için icat ettim.

00:02:48.290 --> 00:02:50.480
Yani Kıvılcım bir şey yapıyor.
orada çok güzel.

00:02:50.480 --> 00:02:52.235
Kıvılcım size bir dil seçeneği sunar.

00:02:52.235 --> 00:02:54.680
Python programcısıysanız,

00:02:54.680 --> 00:02:57.350
programyapabilirsiniz
Python, Scala, Java,

00:02:57.350 --> 00:03:01.190
R. R hakkında çok popüler
bizim veri bilim adamları ve

00:03:01.190 --> 00:03:04.760
Kıvılcım size seçenek sunar
iş yükleri için R kullanmak için.

00:03:04.760 --> 00:03:09.050
Böylece ne bir olarak Kıvılcım
dağıtılmış İşlem Motoru.

00:03:09.050 --> 00:03:11.105
Yani temelde dedin ki.

00:03:11.105 --> 00:03:13.850
farklı geri yükleme ama
Bu bizim için yaptığımız bir şey.

00:03:13.850 --> 00:03:16.920
nedeniyle büyük veri
ölçekleme sorunu

00:03:16.920 --> 00:03:18.450
ölçekleme ile her zaman yukarı

00:03:18.450 --> 00:03:20.415
yukarı ve şimdi ölçekleme konum
de dışarı. Doğru?

00:03:20.415 --> 00:03:20.790
Doğru.

00:03:20.790 --> 00:03:23.075
Sonra Kıvılcım üzerinde çalışır
dağıtılan katman

00:03:23.075 --> 00:03:24.320
ve size esneklik sağlar

00:03:24.320 --> 00:03:25.580
tercih edilen dili seçerek.

00:03:25.580 --> 00:03:29.180
Evet, evet. Hala biraz vardı.
Cümleme [duyulmaz] .

00:03:29.180 --> 00:03:31.520
Sana bir şey söyledim.
birleşik bir İşlem Motoru.

00:03:31.520 --> 00:03:34.120
O yüzden bunu biraz dilimleyip zarlayalım.

00:03:34.120 --> 00:03:39.170
Gördüğümüz gibi, işletmeler başladı
daha fazla veri elde etmek.

00:03:39.170 --> 00:03:41.420
Geleneksel
iş yükleri de hareket

00:03:41.420 --> 00:03:45.320
iş yüklerine işlem iş yükleri
doğada analitik olan.

00:03:45.320 --> 00:03:47.730
Analitik iş yükü derken neyi kastediyoruz?

00:03:47.730 --> 00:03:51.290
Analiz ettiğim iş yükü
almak için çok fazla veri

00:03:51.290 --> 00:03:53.180
bunun dışında anlayışlar ve

00:03:53.180 --> 00:03:56.645
o zaman belki makine yapıyor
öğrenme veya derin öğrenme.

00:03:56.645 --> 00:03:59.750
Yani geleneksel olarak, faz

00:03:59.750 --> 00:04:03.095
hareket iş yükleri de
analitik iş yüklerine taşınır.

00:04:03.095 --> 00:04:06.920
Analitik iş yükleri çeşitli vardı
derin öğrenmeden kaynaklanan iş yüklerinin,

00:04:06.920 --> 00:04:10.120
makine öğrenimi, analitik
ve akış iş yükleri.

00:04:10.120 --> 00:04:12.990
Şimdi, bunların her biri
istemediğiniz iş yükleri

00:04:12.990 --> 00:04:17.120
için ayrı bir işlem motoru
gerçekten yeteneklerinizi oluşturmak.

00:04:17.120 --> 00:04:18.530
İdeal olarak bir tane öğrenirsin.

00:04:18.530 --> 00:04:20.840
Kesinlikle. Spark böyle yapar.

00:04:20.840 --> 00:04:24.110
Kıvılcım birleşik bir işlemdir
çalışmanızı sağlayan motor

00:04:24.110 --> 00:04:27.690
tüm bu iş yüklerinde
aynı ilkeler kümesi.

00:04:27.690 --> 00:04:29.875
Spark'ın amacı da bu.

00:04:29.875 --> 00:04:32.795
Dağıtılmış bir işlem
dışarı ayıklar motor

00:04:32.795 --> 00:04:35.750
çalışmanın ayrıntıları
sizden dağıtım.

00:04:35.750 --> 00:04:39.545
Seni rahatsız etmiyor.
dağıtım detayları hakkında.

00:04:39.545 --> 00:04:42.230
İkinci olarak, birleşik bir işlem
motor ve her şeyden önce,

00:04:42.230 --> 00:04:45.245
ben çok olarak bulmak
güçlü geliştirici özelliği,

00:04:45.245 --> 00:04:47.990
size dil seçimi sunuyor
Python'u kullanabileceğiniz,

00:04:47.990 --> 00:04:50.300
Scala, Java veya R,
ne seçersen seç.

00:04:50.300 --> 00:04:52.265
Spark'ın olduğu şey bu.

00:04:52.265 --> 00:04:54.725
Çok güzel. Bu çok baskıcı.

00:04:54.725 --> 00:04:57.785
Yani, Kıvılcım sorun değil.

00:04:57.785 --> 00:05:00.370
Peki ne yapıyoruz?
SQL Server'da Kıvılcım mı?

00:05:00.370 --> 00:05:01.760
Bir şeyimiz var mı?

00:05:01.760 --> 00:05:05.300
Yani Kıvılcım temelde ApacheSpark.

00:05:05.300 --> 00:05:07.460
Açık kaynak işlem motoru.

00:05:07.460 --> 00:05:09.230
Ne yaptık
büyük veri kümeleri,

00:05:09.230 --> 00:05:12.680
biz size getirdik
birlikte, bu SQL ile,

00:05:12.680 --> 00:05:16.995
tek bir birleşik olarak
SQL ile sunan ve

00:05:16.995 --> 00:05:21.070
uçtan uca çözüm
sadece işlem motoru almak değil,

00:05:21.070 --> 00:05:23.150
tam olsun
uçuça deneyim

00:05:23.150 --> 00:05:24.785
işlem motoru kullanarak.

00:05:24.785 --> 00:05:26.630
Yani bu demek olur ki
bu kıvılcım beri

00:05:26.630 --> 00:05:28.400
entegre edilmiştir
büyük veri kümesinde,

00:05:28.400 --> 00:05:31.625
Verileri sorgulayabilirim

00:05:31.625 --> 00:05:32.885
büyük veri kümesi

00:05:32.885 --> 00:05:35.060
eski yararları kullanarak
sadece Kıvılcım'dan açıklayın.

00:05:35.060 --> 00:05:36.470
Kesinlikle. İstemciyi kullanma

00:05:36.470 --> 00:05:38.270
olduğunu araç
hepsi aşina.

00:05:38.270 --> 00:05:40.330
Vay canına, bu etkileyici.

00:05:40.330 --> 00:05:43.110
Wow. Peki daha fazlasını nasıl öğrenebilirim?

00:05:43.110 --> 00:05:47.025
Yani, bu kulağa çok yeni geliyor.
bana, nerede bir şey bulabilirim?

00:05:47.025 --> 00:05:49.529
>> Lütfen büyük
veri kümesi dokümantasyonu,

00:05:49.529 --> 00:05:52.910
SQL Server veri kümesi dokümantasyonu
ve çok bulacaksınız

00:05:52.910 --> 00:05:57.275
comms ve Spark hakkında makaleler.

00:05:57.275 --> 00:06:00.020
Büyük veri kümelerini bulacaksınız,

00:06:00.020 --> 00:06:02.855
Kıvılcım örnekleri ve SQL
Sunucu örnekleri deposu.

00:06:02.855 --> 00:06:04.660
İşte orada başlıyorsun.

00:06:04.660 --> 00:06:06.920
Çok güzel. Bu yüzden biz
eklediğinden emin olun

00:06:06.920 --> 00:06:09.080
açıklamasında bu bağlantılar,

00:06:09.080 --> 00:06:10.565
böylece onları orada bulacaksınız.

00:06:10.565 --> 00:06:13.265
Gösteriye geldiğiniz için teşekkürler Shiv.

00:06:13.265 --> 00:06:14.420
Bunu açıkladığın için teşekkürler.

00:06:14.420 --> 00:06:17.430
Sonunda Spark'ın ne olduğunu öğrendim.

00:06:17.430 --> 00:06:19.205
İzleyin teşekkürler.

00:06:19.205 --> 00:06:21.650
Lütfen beğenin ve abone olun ve
Umarım bir dahaki sefere görüşürüz.

00:06:21.650 --> 00:06:33.610
[MÜZİk]

