WEBVTT

00:00:00.000 --> 00:00:01.680
Şimdi verilerimizi bölme zamanı.

00:00:01.680 --> 00:00:03.780
veri ve test verileri eğitim içine.

00:00:03.780 --> 00:00:06.375
Düşünmeyi severim.
Bu bir sınav gibi.

00:00:06.375 --> 00:00:08.700
Eğitim verileri gibi
bir uygulama sınavı.

00:00:08.700 --> 00:00:10.260
Sorular tam olarak değil.

00:00:10.260 --> 00:00:12.090
onlar gidiyoruz aynı
testte olmak,

00:00:12.090 --> 00:00:14.805
ama eğer pratik ve
Bunları doğru yapıyorsun,

00:00:14.805 --> 00:00:17.520
alma olasılığınız daha yüksektir
test soruları doğru.

00:00:17.520 --> 00:00:21.210
Benzer şekilde, model
öğrenilmesi gereken eğitim verileri,

00:00:21.210 --> 00:00:23.970
ve sonra biz göndereceğiz
modele veri test,

00:00:23.970 --> 00:00:25.395
ve tahmin etmeye çalışacak.

00:00:25.395 --> 00:00:28.275
Biz karşılaştıracaktır
modelden tahminler

00:00:28.275 --> 00:00:31.020
puan lamak için test verileri ile,

00:00:31.020 --> 00:00:32.940
tıpkı bir eğitmenin kullanabileceği gibi

00:00:32.940 --> 00:00:35.760
nasıl olduğunu görmek için bir sınav anahtarı
Sınavda iyi yaptın.

00:00:35.760 --> 00:00:37.740
O zaman bölünmeye başlayalım.

00:00:37.740 --> 00:00:40.260
eğitim arasındaki verilerimiz
veri ve test verileri.

00:00:40.260 --> 00:00:42.530
Her zaman olduğu gibi, ek kaynaklar

00:00:42.530 --> 00:00:45.690
ekranda ve aşağı bağlı
aşağıdaki açıklama.

00:00:45.920 --> 00:00:50.310
Bu aslında oldukça basittir
Jupyter Notebook'un içinde.

00:00:50.310 --> 00:00:53.900
Bir şey yaratacağız.
yerel değişken tren olarak adlandırılan,

00:00:53.900 --> 00:00:58.430
ve bu bizim tüm olacak
31 Ağustos öncesi verileri,

00:00:58.430 --> 00:01:01.885
2012, bu tarih dahil.

00:01:01.885 --> 00:01:03.860
Çalışmayı kolaylaştırmak için,

00:01:03.860 --> 00:01:06.965
Bunu dönüştüreceğiz.
Pandas DataFrame'e dönüştürül.

00:01:06.965 --> 00:01:10.190
Neden 31 Ağustos'u seçtik?

00:01:10.190 --> 00:01:12.035
Eğer verilerimize bakarsak,

00:01:12.035 --> 00:01:15.680
biz bunun başladığını görebilirsiniz
on Ocak 1, 2011,

00:01:15.680 --> 00:01:22.520
ve biz her bir veri var
31 Aralık 2012'ye kadar.

00:01:22.520 --> 00:01:26.240
Yani 31 Ağustos 2012'yi seçerek,

00:01:26.240 --> 00:01:28.220
biz yüzde 75 seçiyoruz

00:01:28.220 --> 00:01:30.625
kullanılacak verilerimiz
bizim eğitim seti olarak.

00:01:30.625 --> 00:01:33.585
Temel olarak, biz sadece istiyorum
diğer yüzde 25 almak,

00:01:33.585 --> 00:01:35.925
ve bunu test setimiz için saklay.

00:01:35.925 --> 00:01:39.470
Doğrulamak için bu hücreyi çalıştıralım
bu son beş satır

00:01:39.470 --> 00:01:42.020
bu DataFrame
son beş gün

00:01:42.020 --> 00:01:45.025
Ağustos 2012. Bu doğru görünüyor.

00:01:45.025 --> 00:01:46.685
Şimdi test verilerimiz için,

00:01:46.685 --> 00:01:48.815
biz aslında gidiyoruz
aynı şeyi yapmak,

00:01:48.815 --> 00:01:52.265
Ama bu sefer gidiyoruz.
1 Eylül'de başlayacak,

00:01:52.265 --> 00:01:57.250
2012 ve biz kapsayıcı olmak istiyorum
bu sınırın da.

00:01:57.250 --> 00:01:59.735
Değiştiğimizi fark edin
Burada birkaç şey var.

00:01:59.735 --> 00:02:04.620
Birincisi, biz tüm istediğiniz
tarihten sonraki satırlar 1 Eylül,

00:02:04.620 --> 00:02:07.190
2012, eğitim verilerimize karşılık,

00:02:07.190 --> 00:02:09.820
Daha önce tüm tarihleri istedik.

00:02:09.820 --> 00:02:11.690
ve biz de baskı olacak

00:02:11.690 --> 00:02:14.195
bu DataFrame'in ilk beş satırı

00:02:14.195 --> 00:02:16.190
yapmak için son beş yerine

00:02:16.190 --> 00:02:18.650
emin olacağız
Eylül'ün ilk beş günü.

00:02:18.650 --> 00:02:20.900
Bu iyi görünüyor.
Görünüşe göre.

00:02:20.900 --> 00:02:24.480
eğitim verilerimiz ve
test verileri kullanıma hazır.

