WEBVTT

00:00:00.000 --> 00:00:01.680
• 現在,是時候拆分我們的數據了

00:00:01.680 --> 00:00:03.780
到訓練數據和測試數據。

00:00:03.780 --> 00:00:06.375
我喜歡思考
這就像考試一樣

00:00:06.375 --> 00:00:08.700
培訓數據就像
練習考試。

00:00:08.700 --> 00:00:10.260
問題不完全是

00:00:10.260 --> 00:00:12.090
與他們要去一樣
參加測試

00:00:12.090 --> 00:00:14.805
但如果你練習和
你說得對

00:00:14.805 --> 00:00:17.520
你更有可能得到
測試問題的權利。

00:00:17.520 --> 00:00:21.210
同樣,模型將使用
要學習的培訓數據,

00:00:21.210 --> 00:00:23.970
然後,我們將傳送
測試模型的數據,

00:00:23.970 --> 00:00:25.395
它會嘗試預測。

00:00:25.395 --> 00:00:28.275
我們將比較
來自模型的預測

00:00:28.275 --> 00:00:31.020
用測試數據來評分,

00:00:31.020 --> 00:00:32.940
就像教練可能使用

00:00:32.940 --> 00:00:35.760
考試鍵, 看看如何
你在考試中表現不錯

00:00:35.760 --> 00:00:37.740
因此,讓我們開始分裂

00:00:37.740 --> 00:00:40.260
我們在培訓之間的數據
數據和測試數據。

00:00:40.260 --> 00:00:42.530
與一如既往,其他資源

00:00:42.530 --> 00:00:45.690
在螢幕上連結並向下
在下面的描述中。

00:00:45.920 --> 00:00:50.310
這其實相當簡單
在朱彼特筆記本裡面。

00:00:50.310 --> 00:00:53.900
我們要創建一個
稱為火車的局部變數,

00:00:53.900 --> 00:00:58.430
這將是我們所有的
8月31日之前的數據,

00:00:58.430 --> 00:01:01.885
2012年,包括該日期。

00:01:01.885 --> 00:01:03.860
為了便於使用,

00:01:03.860 --> 00:01:06.965
我們要轉換
到熊貓數據幀中。

00:01:06.965 --> 00:01:10.190
為什麼我們選擇8月31日?

00:01:10.190 --> 00:01:12.035
好吧,如果我們回顧一下我們的數據

00:01:12.035 --> 00:01:15.680
我們可以看到, 它開始
2011年1月1日

00:01:15.680 --> 00:01:22.520
我們有來自每一個資料
2012年12月31日。

00:01:22.520 --> 00:01:26.240
因此,通過選擇2012年8月31日,

00:01:26.240 --> 00:01:28.220
我們選擇75%的

00:01:28.220 --> 00:01:30.625
我們要使用的數據
作為我們的訓練集。

00:01:30.625 --> 00:01:33.585
基本上,我們只是想
拿走另外25%

00:01:33.585 --> 00:01:35.925
並保存我們的測試集。

00:01:35.925 --> 00:01:39.470
讓我們執行此儲存格以認證
最後五行

00:01:39.470 --> 00:01:42.020
此資料架構是
最後五天

00:01:42.020 --> 00:01:45.025
2012 年 8 月。這看起來是對的。

00:01:45.025 --> 00:01:46.685
現在,對於我們的測試數據,

00:01:46.685 --> 00:01:48.815
我們基本上要去
做同樣的事情,

00:01:48.815 --> 00:01:52.265
但這次我們要去
從9月1日開始

00:01:52.265 --> 00:01:57.250
2012年,我們希望包容
邊界以及。

00:01:57.250 --> 00:01:59.735
請注意,我們已更改
這裡有幾件事

00:01:59.735 --> 00:02:04.620
一個是,我們想要所有的
日期9月1日之後行,

00:02:04.620 --> 00:02:07.190
2012 年,與我們的培訓數據相比,

00:02:07.190 --> 00:02:09.820
我們想要之前的所有日期

00:02:09.820 --> 00:02:11.690
我們還要列印

00:02:11.690 --> 00:02:14.195
此資料框架的前五行

00:02:14.195 --> 00:02:16.190
而不是最後五個使

00:02:16.190 --> 00:02:18.650
確保我們得到
九月前五天。

00:02:18.650 --> 00:02:20.900
這看起來不錯。
看起來我們已經

00:02:20.900 --> 00:02:24.480
我們的培訓數據和我們的
測試數據準備去。

