WEBVTT

00:00:00.000 --> 00:00:01.680
>> Teraz nadszedł czas, aby podzielić nasze dane

00:00:01.680 --> 00:00:03.780
danych szkoleniowych i danych z badań.

00:00:03.780 --> 00:00:06.375
Lubię myśleć o
to jak egzamin.

00:00:06.375 --> 00:00:08.700
Dane szkoleniowe są jak
egzamin praktyczny.

00:00:08.700 --> 00:00:10.260
Pytania nie są dokładnie

00:00:10.260 --> 00:00:12.090
tak samo, jak idą
być na teście,

00:00:12.090 --> 00:00:14.805
ale jeśli ćwiczysz i
masz te prawo,

00:00:14.805 --> 00:00:17.520
jesteś bardziej prawdopodobne, aby uzyskać
pytania testowe.

00:00:17.520 --> 00:00:21.210
Podobnie model będzie używał
dane szkoleniowe do nauki,

00:00:21.210 --> 00:00:23.970
a następnie wyślemy
testowanie danych do modelu,

00:00:23.970 --> 00:00:25.395
i spróbuje przewidzieć.

00:00:25.395 --> 00:00:28.275
Porównamy
prognozy z modelu

00:00:28.275 --> 00:00:31.020
z danymi z badań, aby go zdobyć,

00:00:31.020 --> 00:00:32.940
tak jak instruktor może

00:00:32.940 --> 00:00:35.760
klucza egzaminacyjnego, aby zobaczyć, jak
dobrze zrobiłeś na egzaminie.

00:00:35.760 --> 00:00:37.740
Zacznijmy więc rozdzielać

00:00:37.740 --> 00:00:40.260
nasze dane między szkoleniami
danych i danych testowych.

00:00:40.260 --> 00:00:42.530
Jak zawsze, dodatkowe zasoby są

00:00:42.530 --> 00:00:45.690
połączone na ekranie i w dół
w opisie poniżej.

00:00:45.920 --> 00:00:50.310
Jest to dość proste
wewnątrz notebooka Jupyter.

00:00:50.310 --> 00:00:53.900
Stworzymy
zmienna lokalna zwana pociągiem,

00:00:53.900 --> 00:00:58.430
i to będzie wszystko z naszych
danych sprzed 31 sierpnia,

00:00:58.430 --> 00:01:01.885
2012 r., z uwzględnieniem tej daty.

00:01:01.885 --> 00:01:03.860
Aby ułatwić pracę z,

00:01:03.860 --> 00:01:06.965
przekształcimy to
w Pandas DataFrame.

00:01:06.965 --> 00:01:10.190
Dlaczego wybraliśmy 31 sierpnia?

00:01:10.190 --> 00:01:12.035
Cóż, jeśli spojrzymy wstecz na nasze dane,

00:01:12.035 --> 00:01:15.680
widzimy, że zaczyna się
w dniu 1 stycznia 2011 r.,

00:01:15.680 --> 00:01:22.520
i mamy dane z każdego
do 31 grudnia 2012 r.

00:01:22.520 --> 00:01:26.240
Więc wybierając 31 sierpnia 2012,

00:01:26.240 --> 00:01:28.220
wybieramy 75 proc.

00:01:28.220 --> 00:01:30.625
nasze dane do wykorzystania
jak nasz zestaw szkoleniowy.

00:01:30.625 --> 00:01:33.585
Zasadniczo chcemy po prostu
pozostałe 25 proc.,

00:01:33.585 --> 00:01:35.925
i zapisać, że dla naszego zestawu testowego.

00:01:35.925 --> 00:01:39.470
Uruchommy tę komórkę, aby zweryfikować
że ostatnie pięć rzędów

00:01:39.470 --> 00:01:42.020
ta DataFrame jest
w ciągu ostatnich pięciu dni

00:01:42.020 --> 00:01:45.025
sierpnia 2012 r. To wygląda dobrze.

00:01:45.025 --> 00:01:46.685
Teraz dla naszych danych testowych,

00:01:46.685 --> 00:01:48.815
zasadniczo idziemy
zrobić to samo,

00:01:48.815 --> 00:01:52.265
ale tym razem idziemy
rozpocznie się 1 września,

00:01:52.265 --> 00:01:57.250
2012 r., a my chcemy być inkluzywni
tej granicy.

00:01:57.250 --> 00:01:59.735
Zauważ, że zmieniliśmy
kilka rzeczy tutaj.

00:01:59.735 --> 00:02:04.620
Jednym z nich jest to, że chcemy, aby wszystkie
wierszy po dacie 1 września,

00:02:04.620 --> 00:02:07.190
2012 r., w porównaniu z naszymi danymi szkoleniowymi,

00:02:07.190 --> 00:02:09.820
chcieliśmy wszystkie daty przed,

00:02:09.820 --> 00:02:11.690
i będziemy również drukować

00:02:11.690 --> 00:02:14.195
pierwszych pięciu wierszy tego elementu DataFrame

00:02:14.195 --> 00:02:16.190
a nie pięć ostatnich, które

00:02:16.190 --> 00:02:18.650
pewność, że otrzymujemy
pierwszych pięciu dni września.

00:02:18.650 --> 00:02:20.900
To wygląda dobrze.
Wygląda na to, że

00:02:20.900 --> 00:02:24.480
naszych danych szkoleniowych i naszych
testowania danych gotowych do pracy.

