WEBVTT

00:00:00.000 --> 00:00:01.680
>> 今、それは私たちのデータを分割する時間です

00:00:01.680 --> 00:00:03.780
トレーニング データとテスト データに変換します。

00:00:03.780 --> 00:00:06.375
私は考えるのが好きです
これは試験のようなものです。

00:00:06.375 --> 00:00:08.700
トレーニングデータは次のようなものです
模擬試験。

00:00:08.700 --> 00:00:10.260
質問は正確ではありません

00:00:10.260 --> 00:00:12.090
彼らが行っているのと同じ
テストに出るために、

00:00:12.090 --> 00:00:14.805
しかし、あなたが練習し、場合
あなたはそれらの権利を得る、

00:00:14.805 --> 00:00:17.520
あなたは得る可能性が高いです
テストの質問は正しい。

00:00:17.520 --> 00:00:21.210
同様に、モデルは
学習するトレーニングデータを

00:00:21.210 --> 00:00:23.970
そして、私たちは送信します
モデルに対するデータのテスト

00:00:23.970 --> 00:00:25.395
そして、それは予測しようとします。

00:00:25.395 --> 00:00:28.275
私たちは、比較します
モデルからの予測

00:00:28.275 --> 00:00:31.020
テストデータを使用してスコアを付け、

00:00:31.020 --> 00:00:32.940
インストラクターが使用するのと同じように

00:00:32.940 --> 00:00:35.760
方法を確認するための試験の鍵
よくやったよ。

00:00:35.760 --> 00:00:37.740
それでは、分割を開始してみましょう

00:00:37.740 --> 00:00:40.260
トレーニング間のデータ
データとテストデータをテストします。

00:00:40.260 --> 00:00:42.530
いつものように、追加のリソースは

00:00:42.530 --> 00:00:45.690
画面上でリンクされ、下に
以下の説明を参照してください。

00:00:45.920 --> 00:00:50.310
これは実際にはかなり簡単です
ジュピターノートブックの内部。

00:00:50.310 --> 00:00:53.900
私たちは、作成するつもりです
列車と呼ばれるローカル変数、

00:00:53.900 --> 00:00:58.430
そして、これは私たちのすべてになります
8月31日以前のデータ

00:00:58.430 --> 00:01:01.885
2012年、その日付を含む。

00:01:01.885 --> 00:01:03.860
作業を簡単に行えるように、

00:01:03.860 --> 00:01:06.965
私たちはそれを変換するつもりです
パンダのデータフレームに。

00:01:06.965 --> 00:01:10.190
さて、なぜ私たちは8月31日を選んだのですか?

00:01:10.190 --> 00:01:12.035
さて、私たちのデータを振り返ってみると、

00:01:12.035 --> 00:01:15.680
私たちはそれが始まることを見ることができます
2011年1月1日

00:01:15.680 --> 00:01:22.520
そして、私たちは、すべての単一からのデータを持っています
2012年12月31日まで

00:01:22.520 --> 00:01:26.240
そこで、2012年8月31日を選択することで、

00:01:26.240 --> 00:01:28.220
私たちは75%を選んでいる

00:01:28.220 --> 00:01:30.625
使用するデータ
私たちのトレーニングセットとして。

00:01:30.625 --> 00:01:33.585
基本的に、私たちはただ
他の25パーセントを取る、

00:01:33.585 --> 00:01:35.925
テストセットのためにそれを保存します。

00:01:35.925 --> 00:01:39.470
このセルを実行して確認しましょう
の最後の5行

00:01:39.470 --> 00:01:42.020
このデータフレームは
の最後の5日間

00:01:42.020 --> 00:01:45.025
2012年8月。これは正しく見えます。

00:01:45.025 --> 00:01:46.685
テストデータの準備をします。

00:01:46.685 --> 00:01:48.815
私たちは本質的に行くつもりです
同じことをするために、

00:01:48.815 --> 00:01:52.265
しかし、今回は私たちが行くつもりです
9月1日から開始し、

00:01:52.265 --> 00:01:57.250
2012年、私たちは包括的になりたい
その境界の同様に。

00:01:57.250 --> 00:01:59.735
変更されていることに注意してください
ここでいくつかのこと。

00:01:59.735 --> 00:02:04.620
一つは、私たちがすべてのことを望んでいるということです
日付 9 月 1 日以降の行

00:02:04.620 --> 00:02:07.190
2012年、当社のトレーニングデータに対して、

00:02:07.190 --> 00:02:09.820
私たちは以前のすべての日付を望んでいました。

00:02:09.820 --> 00:02:11.690
そして、我々はまた、印刷するつもりです

00:02:11.690 --> 00:02:14.195
このデータフレームの最初の 5 行

00:02:14.195 --> 00:02:16.190
作る最後の5つよりもむしろ

00:02:16.190 --> 00:02:18.650
私たちが得ていることを確認してください
9月の最初の5日間。

00:02:18.650 --> 00:02:20.900
これは見栄えが良いです。
私たちが持っているように見えます

00:02:20.900 --> 00:02:24.480
当社のトレーニングデータと
準備が整ったデータをテストします。

