WEBVTT

00:00:00.000 --> 00:00:01.680
Теперь пришло время разделить наши данные

00:00:01.680 --> 00:00:03.780
в данных обучения и тестирования.

00:00:03.780 --> 00:00:06.375
Мне нравится думать о
это как экзамен.

00:00:06.375 --> 00:00:08.700
Учебные данные, как
практический экзамен.

00:00:08.700 --> 00:00:10.260
Вопросы не совсем

00:00:10.260 --> 00:00:12.090
так же, как они собираются
быть на тесте,

00:00:12.090 --> 00:00:14.805
но если вы практикуете и
Вы получаете эти права,

00:00:14.805 --> 00:00:17.520
Вы, скорее всего, получить
тест вопросы правильно.

00:00:17.520 --> 00:00:21.210
Аналогичным образом, модель будет использовать
учебные данные для обучения,

00:00:21.210 --> 00:00:23.970
и тогда мы пошлем
тестирование данных на модель,

00:00:23.970 --> 00:00:25.395
и он будет пытаться предсказать.

00:00:25.395 --> 00:00:28.275
Мы сравним
прогнозы от модели

00:00:28.275 --> 00:00:31.020
с данными тестирования, чтобы забить его,

00:00:31.020 --> 00:00:32.940
так же, как инструктор может использовать

00:00:32.940 --> 00:00:35.760
ключ к экзаменам, чтобы увидеть, как
а вы сделали на экзамене.

00:00:35.760 --> 00:00:37.740
Итак, давайте начнем расщепление

00:00:37.740 --> 00:00:40.260
наши данные между обучением
данных и данных тестирования.

00:00:40.260 --> 00:00:42.530
Как всегда, дополнительные ресурсы

00:00:42.530 --> 00:00:45.690
связаны на экране и вниз
в описании ниже.

00:00:45.920 --> 00:00:50.310
Это на самом деле довольно просто
внутри ноутбука Jupyter.

00:00:50.310 --> 00:00:53.900
Мы создадим
местная переменная называется поезд,

00:00:53.900 --> 00:00:58.430
и это будет все наши
данные до 31 августа,

00:00:58.430 --> 00:01:01.885
2012, включая эту дату.

00:01:01.885 --> 00:01:03.860
Чтобы было легко работать с,

00:01:03.860 --> 00:01:06.965
мы собираемся преобразовать, что
в кадр данных панд.

00:01:06.965 --> 00:01:10.190
Почему мы выбрали 31 августа?

00:01:10.190 --> 00:01:12.035
Ну, если мы оглянемся на наши данные,

00:01:12.035 --> 00:01:15.680
мы видим, что она начинается
1 января 2011 г.,

00:01:15.680 --> 00:01:22.520
и у нас есть данные из каждого
день до 31 декабря 2012 года.

00:01:22.520 --> 00:01:26.240
Таким образом, выбрав 31 августа 2012 года,

00:01:26.240 --> 00:01:28.220
мы выбираем 75 процентов

00:01:28.220 --> 00:01:30.625
наши данные, которые будут использоваться
как наш тренировочный набор.

00:01:30.625 --> 00:01:33.585
В принципе, мы просто хотим
взять остальные 25 процентов,

00:01:33.585 --> 00:01:35.925
и сохранить это для нашего набора тестирования.

00:01:35.925 --> 00:01:39.470
Давайте заведем эту ячейку, чтобы проверить
что последние пять рядов

00:01:39.470 --> 00:01:42.020
это dataFrame являются
последние пять дней

00:01:42.020 --> 00:01:45.025
Август 2012 года. Это выглядит правильно.

00:01:45.025 --> 00:01:46.685
Теперь для наших данных тестирования,

00:01:46.685 --> 00:01:48.815
мы по существу собираемся
сделать то же самое,

00:01:48.815 --> 00:01:52.265
но на этот раз мы собираемся
начнется 1 сентября,

00:01:52.265 --> 00:01:57.250
2012, и мы хотим быть инклюзивными
этой границы, а также.

00:01:57.250 --> 00:01:59.735
Обратите внимание, что мы изменили
пару вещей здесь.

00:01:59.735 --> 00:02:04.620
Во-первых, мы хотим, чтобы все
ряды после даты 1 сентября,

00:02:04.620 --> 00:02:07.190
2012, по сравнению с нашими данными о подготовке,

00:02:07.190 --> 00:02:09.820
мы хотели, чтобы все даты раньше,

00:02:09.820 --> 00:02:11.690
и мы также собираемся печатать

00:02:11.690 --> 00:02:14.195
первые пять рядов этого DataFrame

00:02:14.195 --> 00:02:16.190
а не последние пять, чтобы сделать

00:02:16.190 --> 00:02:18.650
уверен, что мы получаем
первые пять дней сентября.

00:02:18.650 --> 00:02:20.900
Это выглядит хорошо.
Похоже, у нас есть

00:02:20.900 --> 00:02:24.480
наши учебные данные и наши
данные тестирования готовы к работе.

