WEBVTT

00:00:00.000 --> 00:00:01.680
>> Agora, é hora de dividir nossos dados

00:00:01.680 --> 00:00:03.780
em dados de treinamento e testes de dados.

00:00:03.780 --> 00:00:06.375
Eu gosto de pensar sobre
isso como um exame.

00:00:06.375 --> 00:00:08.700
Dados de treinamento é como
um exame prático.

00:00:08.700 --> 00:00:10.260
As perguntas não são exatamente o

00:00:10.260 --> 00:00:12.090
mesmo que eles estão indo
para estar no teste,

00:00:12.090 --> 00:00:14.805
mas se você praticar e
você acerta,

00:00:14.805 --> 00:00:17.520
você é mais propensos a obter
teste perguntas direito.

00:00:17.520 --> 00:00:21.210
Da mesma forma, o modelo usará
os dados de treinamento para aprender,

00:00:21.210 --> 00:00:23.970
e, em seguida, vamos enviar o
testando dados para o modelo,

00:00:23.970 --> 00:00:25.395
e ele vai tentar prever.

00:00:25.395 --> 00:00:28.275
Vamos comparar o
previsões do modelo

00:00:28.275 --> 00:00:31.020
com os dados de teste para pontuar,

00:00:31.020 --> 00:00:32.940
assim como um instrutor pode usar

00:00:32.940 --> 00:00:35.760
uma chave de exame para ver como
bem que você fez em um exame.

00:00:35.760 --> 00:00:37.740
Então vamos começar a dividir

00:00:37.740 --> 00:00:40.260
nossos dados entre o treinamento
dados e dados de teste.

00:00:40.260 --> 00:00:42.530
Como sempre, recursos adicionais são

00:00:42.530 --> 00:00:45.690
ligado na tela e para baixo
na descrição abaixo.

00:00:45.920 --> 00:00:50.310
Isso é realmente bastante simples
dentro de um Caderno Jupyter.

00:00:50.310 --> 00:00:53.900
Vamos criar um
variável local chamada trem,

00:00:53.900 --> 00:00:58.430
e isso será todo o nosso
dados de antes de 31 de agosto,

00:00:58.430 --> 00:01:01.885
2012, incluindo essa data.

00:01:01.885 --> 00:01:03.860
Para facilitar o trabalho,

00:01:03.860 --> 00:01:06.965
vamos converter isso
em um Pandas DataFrame.

00:01:06.965 --> 00:01:10.190
Por que escolhemos 31 de agosto?

00:01:10.190 --> 00:01:12.035
Bem, se olharmos para trás em nossos dados,

00:01:12.035 --> 00:01:15.680
podemos ver que ele começa
em 1º de janeiro de 2011,

00:01:15.680 --> 00:01:22.520
e temos dados de cada um
dia até 31 de dezembro de 2012.

00:01:22.520 --> 00:01:26.240
Então, escolhendo 31 de agosto de 2012,

00:01:26.240 --> 00:01:28.220
estamos escolhendo 75 por cento dos

00:01:28.220 --> 00:01:30.625
nossos dados a serem usados
como nosso conjunto de treinamento.

00:01:30.625 --> 00:01:33.585
Basicamente, nós só queremos
pegar os outros 25%,

00:01:33.585 --> 00:01:35.925
e guarde isso para o nosso conjunto de testes.

00:01:35.925 --> 00:01:39.470
Vamos executar esta célula para verificar
que as últimas cinco linhas de

00:01:39.470 --> 00:01:42.020
este DataFrame são
os últimos cinco dias de

00:01:42.020 --> 00:01:45.025
Agosto de 2012. Isso parece certo.

00:01:45.025 --> 00:01:46.685
Agora, para nossos dados de teste,

00:01:46.685 --> 00:01:48.815
estamos essencialmente indo
para fazer a mesma coisa,

00:01:48.815 --> 00:01:52.265
mas desta vez vamos
para começar em 1º de setembro,

00:01:52.265 --> 00:01:57.250
2012, e queremos ser inclusivos
desse limite também.

00:01:57.250 --> 00:01:59.735
Observe que nós mudamos
um par de coisas aqui.

00:01:59.735 --> 00:02:04.620
Um é que queremos todos os
linhas após a data de 1º de setembro,

00:02:04.620 --> 00:02:07.190
2012, versus em nossos dados de treinamento,

00:02:07.190 --> 00:02:09.820
queríamos todas as datas antes,

00:02:09.820 --> 00:02:11.690
e nós também vamos imprimir

00:02:11.690 --> 00:02:14.195
as cinco primeiras linhas deste DataFrame

00:02:14.195 --> 00:02:16.190
em vez dos últimos cinco a fazer

00:02:16.190 --> 00:02:18.650
certeza de que estamos recebendo o
primeiros cinco dias de setembro.

00:02:18.650 --> 00:02:20.900
Isso parece bom.
Parece que temos

00:02:20.900 --> 00:02:24.480
nossos dados de treinamento e nossos
testando dados prontos para ir.

