WEBVTT

00:00:00.000 --> 00:00:01.680
>> Jetzt ist es an der Zeit, unsere Daten zu teilen

00:00:01.680 --> 00:00:03.780
In Schulungsdaten und Testdaten.

00:00:03.780 --> 00:00:06.375
Ich denke gerne darüber nach
wie eine Prüfung.

00:00:06.375 --> 00:00:08.700
Trainingsdaten sind wie
eine Praxisprüfung.

00:00:08.700 --> 00:00:10.260
Die Fragen sind nicht gerade die

00:00:10.260 --> 00:00:12.090
wie sie gehen
auf dem Prüfstand zu sein,

00:00:12.090 --> 00:00:14.805
aber wenn Sie üben und
Sie bekommen die richtig,

00:00:14.805 --> 00:00:17.520
Sie sind eher
Testfragen richtig.

00:00:17.520 --> 00:00:21.210
In ähnlicher Weise verwendet das Modell
die Trainingsdaten zu lernen,

00:00:21.210 --> 00:00:23.970
und dann senden wir die
Testen von Daten zum Modell,

00:00:23.970 --> 00:00:25.395
und es wird versuchen, vorherzusagen.

00:00:25.395 --> 00:00:28.275
Wir werden die
Vorhersagen aus dem Modell

00:00:28.275 --> 00:00:31.020
mit den Testdaten, um es zu bewerten,

00:00:31.020 --> 00:00:32.940
genau wie ein Instruktor

00:00:32.940 --> 00:00:35.760
einen Prüfungsschlüssel, um zu sehen, wie
gut, dass Sie auf einer Prüfung.

00:00:35.760 --> 00:00:37.740
Also fangen wir an zu spalten

00:00:37.740 --> 00:00:40.260
unsere Daten zwischen der Ausbildung
Daten und Testdaten.

00:00:40.260 --> 00:00:42.530
Wie immer werden zusätzliche Ressourcen

00:00:42.530 --> 00:00:45.690
auf dem Bildschirm verknüpft und nach unten
in der Beschreibung unten.

00:00:45.920 --> 00:00:50.310
Das ist eigentlich ziemlich einfach
in einem Jupyter Notebook.

00:00:50.310 --> 00:00:53.900
Wir werden eine
lokale Variable namens Zug,

00:00:53.900 --> 00:00:58.430
und dies wird unser ganzes
Daten vom 31. August,

00:00:58.430 --> 00:01:01.885
einschließlich dieses Datums.

00:01:01.885 --> 00:01:03.860
Um die Arbeit mit zu erleichtern,

00:01:03.860 --> 00:01:06.965
wir werden das konvertieren
in einen Pandas DataFrame.

00:01:06.965 --> 00:01:10.190
Nun, warum haben wir uns für den 31. August entschieden?

00:01:10.190 --> 00:01:12.035
Nun, wenn wir auf unsere Daten zurückblicken,

00:01:12.035 --> 00:01:15.680
wir sehen, dass es beginnt
am 1. Januar 2011,

00:01:15.680 --> 00:01:22.520
und wir haben Daten aus jedem einzelnen
bis zum 31. Dezember 2012.

00:01:22.520 --> 00:01:26.240
Durch die Wahl des 31. August 2012

00:01:26.240 --> 00:01:28.220
wählen wir 75 Prozent der

00:01:28.220 --> 00:01:30.625
unsere Daten zu verwenden
als unser Trainingsset.

00:01:30.625 --> 00:01:33.585
Grundsätzlich wollen wir nur
nehmen sie die anderen 25 Prozent,

00:01:33.585 --> 00:01:35.925
und speichern Sie dies für unseren Testsatz.

00:01:35.925 --> 00:01:39.470
Führen wir diese Zelle aus, um zu überprüfen,
dass die letzten fünf Zeilen

00:01:39.470 --> 00:01:42.020
Dieser DataFrame sind
die letzten fünf Tage

00:01:42.020 --> 00:01:45.025
August 2012. Das sieht richtig aus.

00:01:45.025 --> 00:01:46.685
Nun zu unseren Testdaten

00:01:46.685 --> 00:01:48.815
wir gehen im Wesentlichen
das gleiche zu tun,

00:01:48.815 --> 00:01:52.265
aber dieses Mal gehen wir
beginne am 1. September,

00:01:52.265 --> 00:01:57.250
2012, und wir wollen inklusive sein
auch dieser Grenze.

00:01:57.250 --> 00:01:59.735
Beachten Sie, dass wir uns geändert haben
ein paar Dinge hier.

00:01:59.735 --> 00:02:04.620
Eine ist, dass wir alle
Zeilen nach dem Datum 1. September,

00:02:04.620 --> 00:02:07.190
2012 im Vergleich zu unseren Schulungsdaten,

00:02:07.190 --> 00:02:09.820
wir wollten alle Termine vorher,

00:02:09.820 --> 00:02:11.690
und wir werden auch drucken

00:02:11.690 --> 00:02:14.195
die ersten fünf Zeilen dieses DataFrames

00:02:14.195 --> 00:02:16.190
statt der letzten fünf, die

00:02:16.190 --> 00:02:18.650
sicher, dass wir die
ersten fünf Septembertagen.

00:02:18.650 --> 00:02:20.900
Das sieht gut aus.
Es sieht so aus, als hätten wir

00:02:20.900 --> 00:02:24.480
unsere Trainingsdaten und unsere
Testdaten bereit zu gehen.

