WEBVTT

00:00:00.000 --> 00:00:01.680
• 现在，是时候拆分我们的数据了

00:00:01.680 --> 00:00:03.780
到训练数据和测试数据。

00:00:03.780 --> 00:00:06.375
我喜欢思考
这就像考试一样

00:00:06.375 --> 00:00:08.700
培训数据就像
练习考试。

00:00:08.700 --> 00:00:10.260
问题不完全是

00:00:10.260 --> 00:00:12.090
和他们要去一样
参加测试

00:00:12.090 --> 00:00:14.805
但如果你练习和
你说得对

00:00:14.805 --> 00:00:17.520
你更有可能得到
测试问题的权利。

00:00:17.520 --> 00:00:21.210
同样，模型将使用
要学习的培训数据，

00:00:21.210 --> 00:00:23.970
然后，我们将发送
测试模型的数据，

00:00:23.970 --> 00:00:25.395
它会尝试预测。

00:00:25.395 --> 00:00:28.275
我们将比较
来自模型的预测

00:00:28.275 --> 00:00:31.020
用测试数据来评分，

00:00:31.020 --> 00:00:32.940
就像教练可能使用

00:00:32.940 --> 00:00:35.760
考试键， 看看如何
你在考试中表现不错

00:00:35.760 --> 00:00:37.740
因此，让我们开始分裂

00:00:37.740 --> 00:00:40.260
我们在培训之间的数据
数据和测试数据。

00:00:40.260 --> 00:00:42.530
与一如既往，其他资源

00:00:42.530 --> 00:00:45.690
在屏幕上链接并向下
在下面的描述中。

00:00:45.920 --> 00:00:50.310
这其实相当简单
在朱皮特笔记本里面。

00:00:50.310 --> 00:00:53.900
我们要创建一个
称为火车的局部变量，

00:00:53.900 --> 00:00:58.430
这将是我们所有的
8月31日之前的数据，

00:00:58.430 --> 00:01:01.885
2012年，包括该日期。

00:01:01.885 --> 00:01:03.860
为了便于使用，

00:01:03.860 --> 00:01:06.965
我们要转换
到熊猫数据帧中。

00:01:06.965 --> 00:01:10.190
为什么我们选择8月31日？

00:01:10.190 --> 00:01:12.035
好吧，如果我们回顾一下我们的数据

00:01:12.035 --> 00:01:15.680
我们可以看到， 它开始
2011年1月1日

00:01:15.680 --> 00:01:22.520
我们有来自每一个数据
2012年12月31日。

00:01:22.520 --> 00:01:26.240
因此，通过选择2012年8月31日，

00:01:26.240 --> 00:01:28.220
我们选择75%的

00:01:28.220 --> 00:01:30.625
我们要使用的数据
作为我们的训练集。

00:01:30.625 --> 00:01:33.585
基本上，我们只是想
拿走另外25%

00:01:33.585 --> 00:01:35.925
并保存我们的测试集。

00:01:35.925 --> 00:01:39.470
让我们运行此单元格以验证
最后五行

00:01:39.470 --> 00:01:42.020
此数据框架是
最后五天

00:01:42.020 --> 00:01:45.025
2012 年 8 月。这看起来是对的。

00:01:45.025 --> 00:01:46.685
现在，对于我们的测试数据，

00:01:46.685 --> 00:01:48.815
我们基本上要去
做同样的事情，

00:01:48.815 --> 00:01:52.265
但这次我们要去
从9月1日开始

00:01:52.265 --> 00:01:57.250
2012年，我们希望包容
边界以及。

00:01:57.250 --> 00:01:59.735
请注意，我们已更改
这里有几件事

00:01:59.735 --> 00:02:04.620
一个是，我们想要所有的
日期 9 月 1 日之后行，

00:02:04.620 --> 00:02:07.190
2012 年，与我们的培训数据相比，

00:02:07.190 --> 00:02:09.820
我们想要之前的所有日期

00:02:09.820 --> 00:02:11.690
我们还要打印

00:02:11.690 --> 00:02:14.195
此数据框架的前五行

00:02:14.195 --> 00:02:16.190
而不是最后五个使

00:02:16.190 --> 00:02:18.650
确保我们得到
九月前五天。

00:02:18.650 --> 00:02:20.900
这看起来不错。
看起来我们已经

00:02:20.900 --> 00:02:24.480
我们的培训数据和我们的
测试数据准备去。

