WEBVTT

00:00:00.000 --> 00:00:01.680
>> Maintenant, il est temps de diviser nos données

00:00:01.680 --> 00:00:03.780
dans la formation des données et les données de test.

00:00:03.780 --> 00:00:06.375
J’aime penser à
c’est comme un examen.

00:00:06.375 --> 00:00:08.700
Les données de formation sont comme
un examen de pratique.

00:00:08.700 --> 00:00:10.260
Les questions ne sont pas exactement les

00:00:10.260 --> 00:00:12.090
même qu’ils vont
d’être à l’épreuve,

00:00:12.090 --> 00:00:14.805
mais si vous pratiquez et
vous obtenez ces droit,

00:00:14.805 --> 00:00:17.520
vous êtes plus susceptible d’obtenir
les questions de test à droite.

00:00:17.520 --> 00:00:21.210
De même, le modèle utilisera
les données de formation à apprendre,

00:00:21.210 --> 00:00:23.970
et puis nous allons envoyer le
tester les données sur le modèle,

00:00:23.970 --> 00:00:25.395
et il va essayer de prédire.

00:00:25.395 --> 00:00:28.275
Nous comparerons les
prédictions du modèle

00:00:28.275 --> 00:00:31.020
avec les données de test pour le marquer,

00:00:31.020 --> 00:00:32.940
tout comme un instructeur pourrait utiliser

00:00:32.940 --> 00:00:35.760
une clé d’examen pour voir comment
eh bien vous avez fait sur un examen.

00:00:35.760 --> 00:00:37.740
Alors commençons à diviser

00:00:37.740 --> 00:00:40.260
nos données entre la formation
données et de test.

00:00:40.260 --> 00:00:42.530
Comme toujours, des ressources supplémentaires sont

00:00:42.530 --> 00:00:45.690
lié à l’écran et vers le bas
dans la description ci-dessous.

00:00:45.920 --> 00:00:50.310
C’est en fait assez simple
à l’intérieur d’un cahier Jupyter.

00:00:50.310 --> 00:00:53.900
Nous allons créer un
variable locale appelée train,

00:00:53.900 --> 00:00:58.430
et ce sera tout notre
données d’avant le 31 août,

00:00:58.430 --> 00:01:01.885
2012, y compris à cette date.

00:01:01.885 --> 00:01:03.860
Pour faciliter le travail,

00:01:03.860 --> 00:01:06.965
nous allons convertir que
dans un Pandas DataFrame.

00:01:06.965 --> 00:01:10.190
Pourquoi avons-nous choisi le 31 août ?

00:01:10.190 --> 00:01:12.035
Eh bien, si nous regardons en arrière à nos données,

00:01:12.035 --> 00:01:15.680
nous pouvons voir qu’il commence
le 1er janvier 2011,

00:01:15.680 --> 00:01:22.520
et nous avons des données de chaque
jusqu’au 31 décembre 2012.

00:01:22.520 --> 00:01:26.240
Donc, en choisissant le 31 août 2012,

00:01:26.240 --> 00:01:28.220
nous choisissons 75 pour cent de

00:01:28.220 --> 00:01:30.625
nos données à utiliser
comme notre ensemble de formation.

00:01:30.625 --> 00:01:33.585
Fondamentalement, nous voulons juste
prendre les 25 pour cent autres,

00:01:33.585 --> 00:01:35.925
et enregistrer cela pour notre ensemble de tests.

00:01:35.925 --> 00:01:39.470
Faisons fonctionner cette cellule pour vérifier
que les cinq dernières rangées de

00:01:39.470 --> 00:01:42.020
ce DataFrame sont
les cinq derniers jours de

00:01:42.020 --> 00:01:45.025
août 2012. Ça a l’air juste.

00:01:45.025 --> 00:01:46.685
Maintenant, pour nos données de test,

00:01:46.685 --> 00:01:48.815
nous allons essentiellement
de faire la même chose,

00:01:48.815 --> 00:01:52.265
mais cette fois, nous allons
à partir du 1er septembre,

00:01:52.265 --> 00:01:57.250
2012, et nous voulons être inclusifs
de cette frontière ainsi.

00:01:57.250 --> 00:01:59.735
Notez que nous avons changé
un couple de choses ici.

00:01:59.735 --> 00:02:04.620
La première est que nous voulons tous les
lignes après la date du 1er septembre,

00:02:04.620 --> 00:02:07.190
2012, par rapport à nos données de formation,

00:02:07.190 --> 00:02:09.820
nous voulions toutes les dates avant,

00:02:09.820 --> 00:02:11.690
et nous allons aussi imprimer

00:02:11.690 --> 00:02:14.195
les cinq premières lignes de ce DataFrame

00:02:14.195 --> 00:02:16.190
plutôt que les cinq derniers à faire

00:02:16.190 --> 00:02:18.650
sûr que nous obtenons le
les cinq premiers jours de septembre.

00:02:18.650 --> 00:02:20.900
Ça a l’air bien.
On dirait qu’on a

00:02:20.900 --> 00:02:24.480
nos données de formation et notre
test des données prêtes à l’emploi.

