WEBVTT

00:00:00.000 --> 00:00:01.680
>> Ora, è il momento di dividere i nostri dati

00:00:01.680 --> 00:00:03.780
dati di training e di test.

00:00:03.780 --> 00:00:06.375
Mi piace pensare
questo come un esame.

00:00:06.375 --> 00:00:08.700
I dati di training sono come
un esame di pratica.

00:00:08.700 --> 00:00:10.260
Le domande non sono esattamente le

00:00:10.260 --> 00:00:12.090
come stanno andando
per essere sul test,

00:00:12.090 --> 00:00:14.805
ma se si pratica e
si ottiene quelli giusti,

00:00:14.805 --> 00:00:17.520
si è più propensi a ottenere
domande di prova a destra.

00:00:17.520 --> 00:00:21.210
Analogamente, il modello utilizzerà
i dati di training per imparare,

00:00:21.210 --> 00:00:23.970
e poi invieremo il
testare i dati sul modello,

00:00:23.970 --> 00:00:25.395
e cercherà di prevedere.

00:00:25.395 --> 00:00:28.275
Confronteremo il
stime dal modello

00:00:28.275 --> 00:00:31.020
con i dati di test per segnarlo,

00:00:31.020 --> 00:00:32.940
proprio come un istruttore potrebbe usare

00:00:32.940 --> 00:00:35.760
una chiave d'esame per vedere come
bene che hai fatto su un esame.

00:00:35.760 --> 00:00:37.740
Quindi cominciamo a dividere

00:00:37.740 --> 00:00:40.260
i nostri dati tra la formazione
dati e dati di test.

00:00:40.260 --> 00:00:42.530
Come sempre, le risorse aggiuntive sono

00:00:42.530 --> 00:00:45.690
collegato sullo schermo e verso il basso
nella descrizione qui sotto.

00:00:45.920 --> 00:00:50.310
Questo è in realtà abbastanza semplice
all'interno di un taccuino Jupyter.

00:00:50.310 --> 00:00:53.900
Stiamo andando a creare un
variabile locale chiamata treno,

00:00:53.900 --> 00:00:58.430
e questo sarà tutto il nostro
dati precedenti al 31 agosto,

00:00:58.430 --> 00:01:01.885
2012, incluso tale data.

00:01:01.885 --> 00:01:03.860
Per facilitare l'utilizzo,

00:01:03.860 --> 00:01:06.965
stiamo andando a convertire che
in un frame di dati Pandas.

00:01:06.965 --> 00:01:10.190
Ora, perché abbiamo scelto il 31 agosto?

00:01:10.190 --> 00:01:12.035
Beh, se guardiamo indietro ai nostri dati,

00:01:12.035 --> 00:01:15.680
possiamo vedere che inizia
il 1 gennaio 2011,

00:01:15.680 --> 00:01:22.520
e abbiamo i dati da ogni singolo
fino al 31 dicembre 2012.

00:01:22.520 --> 00:01:26.240
Quindi, scegliendo il 31 agosto 2012,

00:01:26.240 --> 00:01:28.220
stiamo scegliendo 75 per cento di

00:01:28.220 --> 00:01:30.625
i nostri dati da utilizzare
come il nostro set di formazione.

00:01:30.625 --> 00:01:33.585
Fondamentalmente, vogliamo solo
prendete l'altro 25 per cento,

00:01:33.585 --> 00:01:35.925
e salvare che per il nostro set di test.

00:01:35.925 --> 00:01:39.470
Eseguiamo questa cella per verificare
che le ultime cinque file di

00:01:39.470 --> 00:01:42.020
questo frame di dati sono
gli ultimi cinque giorni di

00:01:42.020 --> 00:01:45.025
nell'agosto 2012. Sembra giusto.

00:01:45.025 --> 00:01:46.685
Ora per i nostri dati di test,

00:01:46.685 --> 00:01:48.815
stiamo essenzialmente andando
per fare la stessa cosa,

00:01:48.815 --> 00:01:52.265
ma questa volta stiamo andando
per iniziare il 1 settembre,

00:01:52.265 --> 00:01:57.250
2012, e vogliamo essere inclusivi
anche di quel confine.

00:01:57.250 --> 00:01:59.735
Si noti che abbiamo cambiato
un paio di cose qui.

00:01:59.735 --> 00:02:04.620
Uno è che vogliamo che tutti i
righe dopo la data 1 settembre,

00:02:04.620 --> 00:02:07.190
rispetto al 2012, rispetto ai nostri dati di training,

00:02:07.190 --> 00:02:09.820
volevamo tutte le date prima,

00:02:09.820 --> 00:02:11.690
e stiamo anche andando a stampare

00:02:11.690 --> 00:02:14.195
le prime cinque righe di questo dataframe

00:02:14.195 --> 00:02:16.190
piuttosto che gli ultimi cinque per fare

00:02:16.190 --> 00:02:18.650
sicuro che stiamo ottenendo il
primi cinque giorni di settembre.

00:02:18.650 --> 00:02:20.900
Questo sta andando bene.
Sembra che abbiamo ottenuto

00:02:20.900 --> 00:02:24.480
i nostri dati di formazione e i nostri
dati pronti all'immissione.

