WEBVTT

00:00:00.000 --> 00:00:01.680
>> Ahora, es el momento de dividir nuestros datos

00:00:01.680 --> 00:00:03.780
en datos de entrenamiento y pruebas.

00:00:03.780 --> 00:00:06.375
Me gusta pensar en
esto como un examen.

00:00:06.375 --> 00:00:08.700
Los datos de entrenamiento son como
un examen de práctica.

00:00:08.700 --> 00:00:10.260
Las preguntas no son exactamente la

00:00:10.260 --> 00:00:12.090
lo mismo que van
para estar en la prueba,

00:00:12.090 --> 00:00:14.805
pero si practicas y
haces eso bien,

00:00:14.805 --> 00:00:17.520
es más probable que
preguntas de prueba correctas.

00:00:17.520 --> 00:00:21.210
Del mismo modo, el modelo utilizará
los datos de formación para aprender,

00:00:21.210 --> 00:00:23.970
y luego enviaremos el
probando datos al modelo,

00:00:23.970 --> 00:00:25.395
y tratará de predecir.

00:00:25.395 --> 00:00:28.275
Compararemos la
predicciones del modelo

00:00:28.275 --> 00:00:31.020
con los datos de prueba para puntuarlo,

00:00:31.020 --> 00:00:32.940
al igual que un instructor podría usar

00:00:32.940 --> 00:00:35.760
una clave del examen para ver cómo
así que lo hiciste en un examen.

00:00:35.760 --> 00:00:37.740
Así que vamos a empezar a dividir

00:00:37.740 --> 00:00:40.260
nuestros datos entre la formación
datos y datos de prueba.

00:00:40.260 --> 00:00:42.530
Como siempre, los recursos adicionales son

00:00:42.530 --> 00:00:45.690
vinculado en la pantalla y hacia abajo
en la descripción a continuación.

00:00:45.920 --> 00:00:50.310
Esto es realmente bastante simple
dentro de un Cuaderno Jupyter.

00:00:50.310 --> 00:00:53.900
Vamos a crear un
variable local llamada tren,

00:00:53.900 --> 00:00:58.430
y esto será todo nuestro
datos anteriores al 31 de agosto,

00:00:58.430 --> 00:01:01.885
2012, incluida esa fecha.

00:01:01.885 --> 00:01:03.860
Para que sea fácil trabajar con él,

00:01:03.860 --> 00:01:06.965
vamos a convertir eso
en un DataFrame de Pandas.

00:01:06.965 --> 00:01:10.190
¿Por qué elegimos el 31 de agosto?

00:01:10.190 --> 00:01:12.035
Bueno, si miramos hacia atrás en nuestros datos,

00:01:12.035 --> 00:01:15.680
podemos ver que comienza
el 1 de enero de 2011,

00:01:15.680 --> 00:01:22.520
y tenemos datos de cada
hasta el 31 de diciembre de 2012.

00:01:22.520 --> 00:01:26.240
Así que eligiendo el 31 de agosto de 2012,

00:01:26.240 --> 00:01:28.220
estamos eligiendo el 75 por ciento de

00:01:28.220 --> 00:01:30.625
nuestros datos para ser utilizados
como nuestro conjunto de entrenamiento.

00:01:30.625 --> 00:01:33.585
Básicamente, sólo queremos
tomar el otro 25 por ciento,

00:01:33.585 --> 00:01:35.925
y guardar eso para nuestro conjunto de pruebas.

00:01:35.925 --> 00:01:39.470
Vamos a ejecutar esta celda para verificar
que las últimas cinco filas de

00:01:39.470 --> 00:01:42.020
este DataFrame son
los últimos cinco días de

00:01:42.020 --> 00:01:45.025
Agosto de 2012. Esto se ve bien.

00:01:45.025 --> 00:01:46.685
Ahora para nuestros datos de prueba,

00:01:46.685 --> 00:01:48.815
esencialmente vamos
para hacer lo mismo,

00:01:48.815 --> 00:01:52.265
pero esta vez vamos
para comenzar el 1 de septiembre,

00:01:52.265 --> 00:01:57.250
2012, y queremos ser inclusivos
de ese límite también.

00:01:57.250 --> 00:01:59.735
Observe que hemos cambiado
un par de cosas aquí.

00:01:59.735 --> 00:02:04.620
Una es que queremos todos los
filas después de la fecha 1 de septiembre,

00:02:04.620 --> 00:02:07.190
2012, en comparación con nuestros datos de capacitación,

00:02:07.190 --> 00:02:09.820
queríamos todas las fechas antes,

00:02:09.820 --> 00:02:11.690
y también vamos a imprimir

00:02:11.690 --> 00:02:14.195
las primeras cinco filas de este DataFrame

00:02:14.195 --> 00:02:16.190
en lugar de los últimos cinco para hacer

00:02:16.190 --> 00:02:18.650
seguro de que estamos recibiendo el
los primeros cinco días de septiembre.

00:02:18.650 --> 00:02:20.900
Esto se ve bien.
Parece que tenemos

00:02:20.900 --> 00:02:24.480
nuestros datos de formación y nuestros
datos de prueba listos para ir.

