WEBVTT

00:00:00.000 --> 00:00:10.530
(Музыка).

00:00:10.530 --> 00:00:12.300
Привет, я Рони Чаттерджи,

00:00:12.300 --> 00:00:15.180
Я старший менеджер по продуктам
в группе данных Azure.

00:00:15.180 --> 00:00:17.190
Я работаю над серверным продуктом s-L и

00:00:17.190 --> 00:00:19.605
Сегодня я взволнован, чтобы
показать вам, что у нас есть

00:00:19.605 --> 00:00:22.230
построен как данные
опыт визуализации

00:00:22.230 --> 00:00:25.410
в студии данных Azure.
Начнем.

00:00:25.410 --> 00:00:27.690
В студии данных Azure

00:00:27.690 --> 00:00:31.965
у вас есть продукт, который дает вам

00:00:31.965 --> 00:00:33.960
визуализация данных, а также

00:00:33.960 --> 00:00:36.600
опытный работать
над данными в любом месте,

00:00:36.600 --> 00:00:38.970
будь то данные на месте, а также

00:00:38.970 --> 00:00:41.755
как данные внутри кластеров больших данных.

00:00:41.755 --> 00:00:45.470
Таким образом, в этом добавлении Azure
Студия данных, как вы можете видеть,

00:00:45.470 --> 00:00:47.870
У меня есть край базы данных S'L и

00:00:47.870 --> 00:00:51.080
Большие данные сервера S'L
Кластер, в который я подключен.

00:00:51.080 --> 00:00:56.075
Теперь в Студии данных Azure
построен на вершине расширений.

00:00:56.075 --> 00:00:59.300
Так что одна из вещей с
Студия данных Azure предоставляет

00:00:59.300 --> 00:01:00.830
возможность установки

00:01:00.830 --> 00:01:03.830
любое расширение, которое вы могли бы
как для вашей операции данных.

00:01:03.830 --> 00:01:06.155
Так вот, одно из расширений
которые мы собираемся

00:01:06.155 --> 00:01:08.830
Установить сегодня называется SandDance.

00:01:08.830 --> 00:01:12.035
SandDance — это данные
опыт визуализации.

00:01:12.035 --> 00:01:15.050
Она обеспечивает единицу
визуализация данных

00:01:15.050 --> 00:01:18.365
Вы хотели бы изучить
и визуализировать в SandDance.

00:01:18.365 --> 00:01:21.515
Так вот я установки
расширение SandDance,

00:01:21.515 --> 00:01:22.955
и, как вы можете видеть,

00:01:22.955 --> 00:01:25.535
расширение SandDance
был просто установлен.

00:01:25.535 --> 00:01:28.775
Итак, давайте вернемся к
где данные.

00:01:28.775 --> 00:01:32.720
Так что у меня есть данные внутри
Кластер больших данных сервера S'L.

00:01:32.720 --> 00:01:35.585
Большие данные сервера S'L
Кластер поставляется с

00:01:35.585 --> 00:01:38.330
HDFS с кластером больших данных

00:01:38.330 --> 00:01:40.745
где мы можем хранить
большого объема данных.

00:01:40.745 --> 00:01:44.510
Одним из таких данных, которые у меня есть
хранится в HDFS, например

00:01:44.510 --> 00:01:48.695
больших данных сервера S'L
Кластер является demovote.tsv.

00:01:48.695 --> 00:01:51.755
Так что теперь давайте взглянем на
как выглядят эти данные.

00:01:51.755 --> 00:01:54.230
Так что если вы делаете быстро
предварительный просмотр данных,

00:01:54.230 --> 00:01:58.040
наборы данных открываются от HDFS,

00:01:58.040 --> 00:01:59.150
и, как вы можете видеть,

00:01:59.150 --> 00:02:01.115
это не что иное, как данные о голосовании.

00:02:01.115 --> 00:02:03.230
Он имеет данные о голосовании
во время Обамы,

00:02:03.230 --> 00:02:04.625
Ромни сроки

00:02:04.625 --> 00:02:07.160
выборы, которые произошли
по всей территории Соединенных Штатов.

00:02:07.160 --> 00:02:11.540
Теперь, если мне придется обработать это
определенный набор данных и дать ему

00:02:11.540 --> 00:02:15.925
мои данные ученых на самом деле
смысл из данных,

00:02:15.925 --> 00:02:18.010
он должен был бы на самом деле
создавать некоторые отчеты,

00:02:18.010 --> 00:02:19.265
и использует ли он

00:02:19.265 --> 00:02:22.330
Библиотека визуализации данных
структурные для просмотра,

00:02:22.330 --> 00:02:24.845
или он использует какой-то код

00:02:24.845 --> 00:02:27.695
на самом деле визуализировать
как выглядят данные.

00:02:27.695 --> 00:02:29.509
Но в студии данных Azure

00:02:29.509 --> 00:02:33.170
у нас есть право нажмите
вариант зрения в SandDance.

00:02:33.170 --> 00:02:36.070
Давайте взглянем на то, как
эти данные выглядят как.

00:02:36.070 --> 00:02:39.705
Теперь вы можете видеть, что
SandDance загружается,

00:02:39.705 --> 00:02:42.525
и SandDance на самом деле
авто понял, что

00:02:42.525 --> 00:02:45.480
эти данные имеют широту,

00:02:45.480 --> 00:02:47.765
долгота, и рассеяние участок будет

00:02:47.765 --> 00:02:51.140
лучший график для выбора
построение этих конкретных данных.

00:02:51.140 --> 00:02:55.610
Таким образом, у нас есть рекомендательный график
тип построен внутри SandDance.

00:02:55.610 --> 00:02:57.395
Так что теперь эти данные выглядят хорошо.

00:02:57.395 --> 00:02:59.300
Я вижу, что карта
Соединенных Штатов,

00:02:59.300 --> 00:03:01.040
как и ожидалось, потому что данные голосования,

00:03:01.040 --> 00:03:03.590
и имеют x-оси и
у-оси, а также.

00:03:03.590 --> 00:03:07.640
Теперь, до сих пор я не знаю, если Есть

00:03:07.640 --> 00:03:10.220
более подробную информацию в
данные, и я мог бы

00:03:10.220 --> 00:03:13.760
очевидно, фильтр с точки зрения
x-оси и y-оси,

00:03:13.760 --> 00:03:16.760
но не было бы здорово, если бы я
может на самом деле построить это в

00:03:16.760 --> 00:03:19.085
трехмерное пространство для фактического

00:03:19.085 --> 00:03:21.935
посмотреть, какой из них может быть
лучший классификатор.

00:03:21.935 --> 00:03:26.085
Итак, давайте сделаем этот график
трехмерный.

00:03:26.085 --> 00:03:28.620
Так что если я нажимаю на "SandDance", и если я

00:03:28.620 --> 00:03:31.575
нажмите на кнопку "Трехмерный
один", теперь у меня есть z-оси.

00:03:31.575 --> 00:03:35.840
Теперь в z-оси я могу
выбрать доход и посмотреть

00:03:35.840 --> 00:03:38.015
по всей территории Соединенных Штатов, что

00:03:38.015 --> 00:03:40.715
демография доходов
людей.

00:03:40.715 --> 00:03:42.740
Вы можете видеть, что
Вашингтон делает добро,

00:03:42.740 --> 00:03:44.855
Делавэр делает немного лучше,

00:03:44.855 --> 00:03:47.960
а затем в Нью-йорке и
Майами велик, как хорошо.

00:03:47.960 --> 00:03:49.760
Но давайте взглянем на,

00:03:49.760 --> 00:03:51.725
с точки зрения медианного значения дома,

00:03:51.725 --> 00:03:53.180
как выглядят цены?

00:03:53.180 --> 00:03:56.840
Вы можете видеть, что график
автоматически приспосабливался.

00:03:56.840 --> 00:04:02.045
Вы также можете иметь различные
цветовые схемы, которые вы можете использовать.

00:04:02.045 --> 00:04:04.580
Так что я мог видеть, доход,

00:04:04.580 --> 00:04:06.230
и вы можете видеть, что я могу выбрать

00:04:06.230 --> 00:04:09.380
различные цветовые схемы к
на самом деле цвет графика.

00:04:09.380 --> 00:04:13.325
Я мог бы также легко
изменить размер счета.

00:04:13.325 --> 00:04:17.030
Таким образом, вы можете видеть, что как
Я меняю бинктом,

00:04:17.030 --> 00:04:20.380
график динамически
просто полностью меняется.

00:04:20.380 --> 00:04:22.130
Теперь это хорошо.

00:04:22.130 --> 00:04:24.865
Я также могу визуализировать данные,

00:04:24.865 --> 00:04:27.850
увеличить, увеличить, но теперь,

00:04:27.850 --> 00:04:32.440
Я хотел бы видеть, если данные
набор дает мне какой-то способ

00:04:32.440 --> 00:04:34.165
где я мог предсказать, где я мог бы предсказать

00:04:34.165 --> 00:04:37.445
некоторые аномалии, если это
существует внутри данных.

00:04:37.445 --> 00:04:40.880
Так что теперь, давайте начнем с делать
поиск поверх данных.

00:04:40.880 --> 00:04:46.455
Так что я собираюсь искать
где доход меньше,

00:04:46.455 --> 00:04:52.829
сказать $ 40000, а также
добавить еще одно выражение,

00:04:52.829 --> 00:04:59.675
и сказать, среднее значение дома
больше, чем $ 800000.

00:04:59.675 --> 00:05:02.205
Это, кажется, хороший чек.

00:05:02.205 --> 00:05:04.230
Давайте посмотрим, если мы можем найти
некоторые набор данных, которые

00:05:04.230 --> 00:05:06.975
на самом деле удовлетворяет эти потребности.

00:05:06.975 --> 00:05:10.170
Теперь, если я на самом деле
поиск и выбор,

00:05:10.170 --> 00:05:12.260
Вы можете видеть, что
SandDance имеет пару

00:05:12.260 --> 00:05:14.660
точки данных, которые он
на самом деле взял его.

00:05:14.660 --> 00:05:17.210
Они показаны на графике.

00:05:17.210 --> 00:05:20.080
Я мог бы легко изолировать
эти точки данных,

00:05:20.080 --> 00:05:21.860
и теперь у меня просто есть

00:05:21.860 --> 00:05:24.275
подмножество этих четырех
данные указывают на рассмотрение.

00:05:24.275 --> 00:05:26.570
Вы можете видеть, что есть человек в

00:05:26.570 --> 00:05:29.825
Сан-Мигель Каунти, который
купил дом

00:05:29.825 --> 00:05:35.710
$ 812500 с доходом $ 39 070.

00:05:35.710 --> 00:05:39.830
Так SandDance на самом деле дают
Вы единицы визуализации

00:05:39.830 --> 00:05:43.985
данные, которые вы пытаетесь изучить
и имеет смысл из данных.

00:05:43.985 --> 00:05:46.220
Вы также можете делать другие вещи

00:05:46.220 --> 00:05:49.440
как, где вы могли бы взять
снимок картины,

00:05:49.440 --> 00:05:51.150
вы хотите создать представление моментального снимка,

00:05:51.150 --> 00:05:53.919
вы могли бы на самом деле создать снимок,

00:05:56.720 --> 00:05:59.690
и создает представление моментального снимка.

00:05:59.690 --> 00:06:02.630
Теперь вы можете вставлять это
представление моментального снимка в документе

00:06:02.630 --> 00:06:04.160
которые вы хотите
вероятно, отправить его к

00:06:04.160 --> 00:06:05.945
кто-то другой принять
взгляд на, как хорошо.

00:06:05.945 --> 00:06:08.330
Так вот как мы предоставляем

00:06:08.330 --> 00:06:10.400
визуализация данных в контексте

00:06:10.400 --> 00:06:12.635
данные, в которые вы работаете.

00:06:12.635 --> 00:06:16.880
Теперь, также один из
вещи, которые мы добавили

00:06:16.880 --> 00:06:22.925
внутри SandDance была способность
для визуализации результатов запроса.

00:06:22.925 --> 00:06:26.060
Так что здесь у меня есть
базы данных, которые я создал,

00:06:26.060 --> 00:06:30.020
и в этой конкретной базе данных
У меня есть таблица данных датчиков.

00:06:30.020 --> 00:06:32.840
Так что теперь, если я выберу 1000

00:06:32.840 --> 00:06:35.705
от этого конкретного
стол, и я мог бы

00:06:35.705 --> 00:06:38.135
также нажмите на эту диаграмму

00:06:38.135 --> 00:06:41.839
здесь и загрузить эти данные в
SandDance как визуализатор,

00:06:41.839 --> 00:06:44.495
хотя это всего лишь датчик
данных и не имеют

00:06:44.495 --> 00:06:47.210
как интересно, как
данные голосования, но все же,

00:06:47.210 --> 00:06:50.360
это дает вам быстрое представление о том, что

00:06:50.360 --> 00:06:54.655
визуализация данных в
контекст запроса может быть как.

00:06:54.655 --> 00:06:57.025
Теперь в этом конкретном видео,

00:06:57.025 --> 00:07:00.035
Вы видели, как мы
с помощью SandDance на самом деле

00:07:00.035 --> 00:07:03.665
быстро визуализировать данные и сделать

00:07:03.665 --> 00:07:05.705
значимые тенденции и понять

00:07:05.705 --> 00:07:07.190
что тенденции происходят с

00:07:07.190 --> 00:07:09.140
данные, так что он может помочь вам в

00:07:09.140 --> 00:07:11.435
строительство передовой машины
алгоритмы обучения.

00:07:11.435 --> 00:07:13.100
Большое вам спасибо за
слушать сегодня.

00:07:13.100 --> 00:07:27.910
(Музыка).

