WEBVTT

00:00:00.000 --> 00:00:02.610
>> Por fin es hora de
jugar con nuestros datos.

00:00:02.610 --> 00:00:04.830
Tengo un archivo CSV local con todos los

00:00:04.830 --> 00:00:08.235
mis datos y necesito asegurarme
que se sube a la nube.

00:00:08.235 --> 00:00:10.740
Además, necesito
para preparar mis datos.

00:00:10.740 --> 00:00:12.750
Sé que lo que quiero hacer es

00:00:12.750 --> 00:00:15.865
predecir cuántas bicicletas
alquilar en un día determinado.

00:00:15.865 --> 00:00:19.770
Lo que significa que necesito preparar mi
datos de previsiones de series temporales.

00:00:19.770 --> 00:00:22.790
Como siempre, hay
documentación adicional sobre

00:00:22.790 --> 00:00:26.350
la pantalla y luego una descripción
abajo. Empecemos.

00:00:26.350 --> 00:00:30.750
En primer lugar, tengo que asegurarme
mi conjunto de datos es accesible.

00:00:31.600 --> 00:00:33.980
Voy a añadirlo
a la misma carpeta

00:00:33.980 --> 00:00:36.420
que mi cuaderno Jupyter está en.

00:00:36.880 --> 00:00:40.174
Voy a cargar este conjunto de datos

00:00:40.174 --> 00:00:42.955
a mi Machine Learning
Almacén de datos en Azure.

00:00:42.955 --> 00:00:45.355
Cogeré mi archivo CSV,

00:00:45.355 --> 00:00:47.825
subirlo a la carpeta del conjunto de datos,

00:00:47.825 --> 00:00:50.900
sobrescribir cualquier dato
que ya existe,

00:00:50.900 --> 00:00:53.000
y quiero mostrar el progreso de

00:00:53.000 --> 00:00:56.045
este proceso dentro de
Visual Studio Code.

00:00:56.045 --> 00:00:58.640
Genial, parece que funcionó.

00:00:58.640 --> 00:01:03.010
A continuación, necesito crear
un objeto de conjunto de datos,

00:01:03.010 --> 00:01:06.910
que es una clase de
azureml-core y necesito

00:01:06.910 --> 00:01:08.935
formatear mi fecha en un
manera en que lo haré

00:01:08.935 --> 00:01:11.755
más fácil para mí ordenar mis datos.

00:01:11.755 --> 00:01:15.050
Necesito importar algunas clases.

00:01:15.250 --> 00:01:18.220
Ahora necesito averiguar
qué columna voy

00:01:18.220 --> 00:01:21.295
para predecir qué otra columna.

00:01:21.295 --> 00:01:22.855
Antes de decidir esto,

00:01:22.855 --> 00:01:25.210
Voy a abrir el archivo CSV

00:01:25.210 --> 00:01:27.970
y echar un vistazo a
los datos que tengo.

00:01:27.970 --> 00:01:30.685
Me di cuenta de que aquí tengo cita,

00:01:30.685 --> 00:01:34.540
temporada, año, mes,
qué día de la semana,

00:01:34.540 --> 00:01:37.870
cuál es el clima, el
la temperatura, la humedad,

00:01:37.870 --> 00:01:41.160
la velocidad del viento, y
También tengo conteo,

00:01:41.160 --> 00:01:43.805
que es el número de bicicletas
que han sido alquilados.

00:01:43.805 --> 00:01:49.650
Creo que lo que voy a hacer es que voy a
utilizar la fecha para predecir el recuento.

00:01:50.000 --> 00:01:52.710
Vamos a definir eso por aquí.

00:01:52.710 --> 00:01:55.010
Ahora tengo mi nombre de columna de tiempo,

00:01:55.010 --> 00:01:58.520
que se utilizará para predecir
mi nombre de columna objetivo.

00:01:58.520 --> 00:02:00.890
A continuación, voy a crear

00:02:00.890 --> 00:02:03.650
una variable local llamada
conjunto de datos que mantendrá

00:02:03.650 --> 00:02:05.570
seguimiento de mis datos y voy a

00:02:05.570 --> 00:02:08.360
convertir ese conjunto de datos
en un DataFrame de Pandas.

00:02:08.360 --> 00:02:11.060
Fíjate que estoy llamando a take 5,

00:02:11.060 --> 00:02:14.630
que imprimirá la primera
cinco filas de esta trama de datos.

00:02:14.630 --> 00:02:17.150
Podemos verificar que
estas filas son correctas.

00:02:17.150 --> 00:02:19.920
Es el 1 de enero de 2011,

00:02:19.920 --> 00:02:23.605
la temperatura fue 0.344167

00:02:23.605 --> 00:02:24.920
y podemos echar un vistazo a

00:02:24.920 --> 00:02:28.200
nuestro archivo CSV y ver que
todavía era el 1 de enero,

00:02:28.200 --> 00:02:36.440
2011, y que el clima era
o la temperatura era 0.33344167.

00:02:36.440 --> 00:02:39.620
Eso se ve bien. Ahora
tienen un vínculo entre nuestros datos

00:02:39.620 --> 00:02:43.890
almacenados en Azure y en nuestros
Entorno de Visual Studio Code.

