WEBVTT

00:00:00.000 --> 00:00:01.680
"" Nyní je čas rozdělit naše data

00:00:01.680 --> 00:00:03.780
do trénovacích dat a testovacích údajů.

00:00:03.780 --> 00:00:06.375
Rád přemýšlím o
To jako zkouška.

00:00:06.375 --> 00:00:08.700
Tréninková data jsou jako
praktickou zkoušku.

00:00:08.700 --> 00:00:10.260
Otázky nejsou přesně

00:00:10.260 --> 00:00:12.090
stejně jako oni jdou
být ve zkoušce,

00:00:12.090 --> 00:00:14.805
ale pokud cvičíte a
dostanete ty správné,

00:00:14.805 --> 00:00:17.520
je pravděpodobnější, že dostanete
test otázky právo.

00:00:17.520 --> 00:00:21.210
Podobně bude model používat
údaje o školení, aby se učili,

00:00:21.210 --> 00:00:23.970
a pak pošleme
testování dat do modelu,

00:00:23.970 --> 00:00:25.395
a bude se to snažit předpovědět.

00:00:25.395 --> 00:00:28.275
Porovnáme
předpovědi z modelu

00:00:28.275 --> 00:00:31.020
s údaji ze zkoušek, aby se o to pokusili,

00:00:31.020 --> 00:00:32.940
stejně jako instruktor může použít

00:00:32.940 --> 00:00:35.760
zkouška klíč vidět, jak
No, udělal jsi zkoušku.

00:00:35.760 --> 00:00:37.740
Takže začneme rozdělovat

00:00:37.740 --> 00:00:40.260
naše data mezi školení
a testovacích údajů.

00:00:40.260 --> 00:00:42.530
Jako vždy jsou další zdroje

00:00:42.530 --> 00:00:45.690
propojeny na obrazovce a dolů
v následujícím popisu.

00:00:45.920 --> 00:00:50.310
To je vlastně poměrně jednoduché
uvnitř notebooku Jupyter.

00:00:50.310 --> 00:00:53.900
Vytvoříme
místní proměnná nazývaná vlak,

00:00:53.900 --> 00:00:58.430
a to bude vše, co
údaje z doby před 31.

00:00:58.430 --> 00:01:01.885
2012, včetně tohoto data.

00:01:01.885 --> 00:01:03.860
Aby bylo snadné s ním pracovat,

00:01:03.860 --> 00:01:06.965
Budeme konvertovat, že
do Pandas DataFrame.

00:01:06.965 --> 00:01:10.190
Proč jsme si vybrali 31.srpna?

00:01:10.190 --> 00:01:12.035
No, když se podíváme zpět na naše data,

00:01:12.035 --> 00:01:15.680
můžeme vidět, že to začíná
1. ledna 2011,

00:01:15.680 --> 00:01:22.520
a máme data z každého
31.12.2012.

00:01:22.520 --> 00:01:26.240
Takže výběrem 31.srpna 2012,

00:01:26.240 --> 00:01:28.220
vybíráme 75 procent

00:01:28.220 --> 00:01:30.625
naše údaje, které mají být použity
jako náš tréninkový set.

00:01:30.625 --> 00:01:33.585
V podstatě chceme jen
vzít zbylých 25 procent,

00:01:33.585 --> 00:01:35.925
a nechte si to pro naši testovací sadu.

00:01:35.925 --> 00:01:39.470
Projedáme tuto buňku a ověříme ji.
že posledních pět řádků

00:01:39.470 --> 00:01:42.020
tento Datový rámeček jsou
posledních pět dní

00:01:42.020 --> 00:01:45.025
srpna 2012. Vypadá to dobře.

00:01:45.025 --> 00:01:46.685
Nyní pro naše testovací údaje,

00:01:46.685 --> 00:01:48.815
jsme v podstatě děje
udělat totéž,

00:01:48.815 --> 00:01:52.265
ale tentokrát jdeme
1. září,

00:01:52.265 --> 00:01:57.250
2012 a chceme být inkluzivní
této hranice.

00:01:57.250 --> 00:01:59.735
Všimněte si, že jsme změnili
pár věcí tady.

00:01:59.735 --> 00:02:04.620
Jedním z nich je, že chceme všechny
řádky po datu 1.září,

00:02:04.620 --> 00:02:07.190
2012, oproti našim údajům o školení,

00:02:07.190 --> 00:02:09.820
Chtěli jsme všechny termíny předtím,

00:02:09.820 --> 00:02:11.690
a budeme také tisknout

00:02:11.690 --> 00:02:14.195
prvních pět řádků tohoto datového rámce

00:02:14.195 --> 00:02:16.190
spíše než posledních pět, aby se

00:02:16.190 --> 00:02:18.650
ujistěte se, že dostáváme
prvních pět zářijových dnů.

00:02:18.650 --> 00:02:20.900
Vypadá to dobře.
Vypadá to, že máme

00:02:20.900 --> 00:02:24.480
naše tréninková data a naše
testování dat připravených k najetí.

