WEBVTT

00:00:00.000 --> 00:00:02.610
Наконец-то пришло время
играть вокруг с нашими данными.

00:00:02.610 --> 00:00:04.830
У меня есть местный файл CSV со всеми

00:00:04.830 --> 00:00:08.235
мои данные, и я должен убедиться,
что это встает в облако.

00:00:08.235 --> 00:00:10.740
Кроме того, мне нужно
для подготовки моих данных.

00:00:10.740 --> 00:00:12.750
Я знаю, что то, что я хочу сделать, это

00:00:12.750 --> 00:00:15.865
предсказать, сколько велосипедов будет
сдавать в аренду в определенный день.

00:00:15.865 --> 00:00:19.770
Это означает, что мне нужно подготовить
данные для прогнозов временных рядов.

00:00:19.770 --> 00:00:22.790
Как всегда, есть
дополнительная документация по

00:00:22.790 --> 00:00:26.350
экран, а затем описание
внизу. Начнем.

00:00:26.350 --> 00:00:30.750
Во-первых, я должен убедиться,
мой набор данных доступен.

00:00:31.600 --> 00:00:33.980
Я собираюсь добавить его
в ту же папку

00:00:33.980 --> 00:00:36.420
что мой ноутбук Jupyter находится дюйма

00:00:36.880 --> 00:00:40.174
Я собираюсь загрузить этот набор данных

00:00:40.174 --> 00:00:42.955
к моему машинному обучению
База данных на Azure.

00:00:42.955 --> 00:00:45.355
Я возьму свой файл CSV,

00:00:45.355 --> 00:00:47.825
загрузить его в папку набора данных,

00:00:47.825 --> 00:00:50.900
перезаписать любые данные
которая уже существует,

00:00:50.900 --> 00:00:53.000
и я хочу показать прогресс

00:00:53.000 --> 00:00:56.045
этот процесс в рамках
Визуальный студийный код.

00:00:56.045 --> 00:00:58.640
Отлично, похоже, что это сработало.

00:00:58.640 --> 00:01:03.010
Далее, мне нужно создать
объект набора данных,

00:01:03.010 --> 00:01:06.910
который является классом
лазуремл-ядро, и мне нужно

00:01:06.910 --> 00:01:08.935
форматировать мою дату в
так, что я сделаю это

00:01:08.935 --> 00:01:11.755
легче для меня, чтобы сортировать мои данные.

00:01:11.755 --> 00:01:15.050
Мне нужно импортировать некоторые классы.

00:01:15.250 --> 00:01:18.220
Теперь мне нужно выяснить,
какая колонка я собираюсь

00:01:18.220 --> 00:01:21.295
использовать для прогнозирования того, какой другой столбец.

00:01:21.295 --> 00:01:22.855
Прежде чем я решу это,

00:01:22.855 --> 00:01:25.210
Я собираюсь открыть файл CSV

00:01:25.210 --> 00:01:27.970
и взглянуть на
данные, которые у меня есть.

00:01:27.970 --> 00:01:30.685
Я заметила, что здесь у меня свидание,

00:01:30.685 --> 00:01:34.540
сезон, год, месяц,
какой день недели,

00:01:34.540 --> 00:01:37.870
какая погода,
температура, влажность,

00:01:37.870 --> 00:01:41.160
скорость ветра, и
У меня также есть счет,

00:01:41.160 --> 00:01:43.805
который является количество велосипедов
которые были арендованы.

00:01:43.805 --> 00:01:49.650
Я думаю, что я сделаю это я буду
дата использования для прогнозирования подсчета.

00:01:50.000 --> 00:01:52.710
Давайте определим это здесь.

00:01:52.710 --> 00:01:55.010
Теперь у меня есть имя колонки времени,

00:01:55.010 --> 00:01:58.520
которые будут использоваться для прогнозирования
мое целевое имя колонки.

00:01:58.520 --> 00:02:00.890
Далее, я собираюсь создать

00:02:00.890 --> 00:02:03.650
локальная переменная, называемая
набор данных, который сохранится

00:02:03.650 --> 00:02:05.570
трек моих данных, и я собираюсь

00:02:05.570 --> 00:02:08.360
конвертировать этот набор данных
в кадр данных панд.

00:02:08.360 --> 00:02:11.060
Обратите внимание, что я звоню 5,

00:02:11.060 --> 00:02:14.630
который распечатат первый
пять рядов этого каркаса данных.

00:02:14.630 --> 00:02:17.150
Мы можем проверить, что
эти строки верны.

00:02:17.150 --> 00:02:19.920
Это 1 января 2011 года,

00:02:19.920 --> 00:02:23.605
температура составила 0,344167

00:02:23.605 --> 00:02:24.920
и мы можем взглянуть на

00:02:24.920 --> 00:02:28.200
наш файл CSV и увидеть, что
это было еще 1 января,

00:02:28.200 --> 00:02:36.440
2011, и что погода была
или температура была 0,3333444167.

00:02:36.440 --> 00:02:39.620
Это выглядит правильно. Теперь мы
есть связь между нашими данными

00:02:39.620 --> 00:02:43.890
хранится в Azure и наших местных
Среда визуального studio Code.

