WEBVTT

00:00:00.000 --> 00:00:10.700
(Музыка).

00:00:10.700 --> 00:00:12.770
Привет. Меня зовут Умачандар,

00:00:12.770 --> 00:00:15.510
Я менеджер программы
в команде сервера S'L.

00:00:15.510 --> 00:00:19.065
Сегодня я собираюсь показать
Вы, как вы можете зазапрос

00:00:19.065 --> 00:00:24.120
Данные HDFS с сервера S'L
в кластере больших данных.

00:00:24.120 --> 00:00:28.010
Так что у меня здесь
— студия данных Azure.

00:00:28.010 --> 00:00:32.900
Во-первых, я собираюсь подключиться к
экземпляр «Мастер сервера» ,

00:00:32.900 --> 00:00:36.360
который работает внутри
кластер аготек больших данных.

00:00:38.180 --> 00:00:41.360
Теперь отсюда, я могу работать с

00:00:41.360 --> 00:00:46.850
обе базы данных MyS'L
и данные в HDFS.

00:00:46.850 --> 00:00:48.640
Как вы можете видеть здесь,

00:00:48.640 --> 00:00:52.070
У меня есть регулярные
Базы данных сервера S'L

00:00:52.070 --> 00:00:57.875
и я могу также пойти и
просматривать данные в HDFS.

00:00:57.875 --> 00:01:02.570
Итак, давайте сначала посмотрим на то, что
данные, которые я собираюсь задать.

00:01:02.570 --> 00:01:06.970
Так что у меня есть файл здесь
называется веб-нажмите потоки.

00:01:06.970 --> 00:01:10.985
Таким образом, этот файл содержит
данные о пользователях,

00:01:10.985 --> 00:01:14.180
как то, что элементы, которые они приобрели,

00:01:14.180 --> 00:01:19.160
сколько раз они нажимают на
определенной категории и так далее.

00:01:19.160 --> 00:01:24.120
Итак, давайте посмотрим, как вы
может загонять эти данные.

00:01:25.330 --> 00:01:28.205
Так что у меня есть блокнот здесь.

00:01:28.205 --> 00:01:30.829
Во-первых, я собираюсь установить контекст

00:01:30.829 --> 00:01:34.000
блокнота в базу данных.

00:01:34.000 --> 00:01:38.535
Что такое продажи, как
показано в этом примере.

00:01:38.535 --> 00:01:43.354
Так далее, для того, чтобы
запрос данных в HDFS,

00:01:43.354 --> 00:01:48.880
мы должны создать что-то
называется внешним источником данных.

00:01:48.880 --> 00:01:52.790
Так что это объект в
база данных, которая говорит

00:01:52.790 --> 00:01:57.140
Сервер S'L, где
Данные HDFS находятся.

00:01:57.140 --> 00:01:59.940
Итак, в этом примере

00:01:59.940 --> 00:02:04.190
эта строка здесь, которая
начинается с S'L HDFS,

00:02:04.190 --> 00:02:10.130
представляет данные HDFS
в кластере больших данных.

00:02:10.130 --> 00:02:14.450
Итак, давайте сначала пойти и
создать этот источник данных.

00:02:14.450 --> 00:02:17.870
Таким образом, после того как вы создали
источник данных,

00:02:17.870 --> 00:02:21.905
необходимо указать, какой формат файла

00:02:21.905 --> 00:02:27.410
источник данных поддерживает и
что вы собираетесь запрос.

00:02:27.410 --> 00:02:29.375
Так что в этом случае,

00:02:29.375 --> 00:02:34.910
Я собираюсь задать запрос данных, которые
находится в файлах Паркет.

00:02:34.910 --> 00:02:40.485
Таким образом, формат паркета
файл указан здесь.

00:02:40.485 --> 00:02:45.960
Итак, давайте сначала идти вперед и
создать этот объект формата файлов.

00:02:46.090 --> 00:02:52.640
Так что теперь следующим шагом является создание
внешняя таблица в сервере S'L.

00:02:52.640 --> 00:02:57.020
Это представляет столбцы
которые собираются запрос

00:02:57.020 --> 00:03:02.165
из файлов, а также
расположение файлов.

00:03:02.165 --> 00:03:03.710
Так что в этом случае,

00:03:03.710 --> 00:03:08.180
Я собираюсь задать запрос все
данные из этого каталога.

00:03:08.180 --> 00:03:12.520
Так что давайте быстро посмотрим,
что это содержит.

00:03:12.520 --> 00:03:16.670
Так что я расширю каталог здесь.

00:03:16.670 --> 00:03:20.780
Как вы можете видеть, есть
три файла паркет здесь.

00:03:20.780 --> 00:03:23.660
Так что теперь мы увидим, как

00:03:23.660 --> 00:03:26.510
Вы можете задавить вопрос о тех,
файлы с сервера S'L.

00:03:26.510 --> 00:03:31.310
Так что теперь я создала внешний
объект таблицы в сервере S'L,

00:03:31.310 --> 00:03:37.920
что указывает на каталог
который содержит файлы Паркета.

00:03:38.440 --> 00:03:43.680
Во-первых, давайте посмотрим на
несколько строк из файла.

00:03:43.970 --> 00:03:48.675
Так что я запускаю выберите запрос
с верхней подсказкой,

00:03:48.675 --> 00:03:51.465
и я вижу 10 рядов.

00:03:51.465 --> 00:03:57.470
Это в основном превью строк
которые читаются из этих файлов.

00:03:57.470 --> 00:04:01.775
Таким образом, вы также можете работать немного
более сложные запросы

00:04:01.775 --> 00:04:06.920
как просто сделать рассчитывать на
количество строк в таблице.

00:04:06.920 --> 00:04:13.380
В этом случае я получаю результат
назад, и это около шести миллионов.

00:04:14.210 --> 00:04:17.705
Вы также можете запустить более
расширенные запросы.

00:04:17.705 --> 00:04:20.720
У меня есть запрос здесь, который

00:04:20.720 --> 00:04:25.505
пытается найти топ-10
пользователей с наибольшим количеством кликов.

00:04:25.505 --> 00:04:27.850
Итак, давайте запустим этот запрос.

00:04:27.850 --> 00:04:29.535
Как вы можете видеть здесь,

00:04:29.535 --> 00:04:31.325
Теперь вы можете работать

00:04:31.325 --> 00:04:35.375
регулярные запросы s'L
против данных в HDFS.

00:04:35.375 --> 00:04:37.910
Таким образом, вы можете в основном
обработки данных в

00:04:37.910 --> 00:04:42.665
HDFS, как если бы они являются местными
таблицы в базе данных.

00:04:42.665 --> 00:04:46.900
В этом случае я могу использовать
функции сервера S'L,

00:04:46.900 --> 00:04:50.060
и синтаксис, и
функции, доступные в

00:04:50.060 --> 00:04:53.990
Для записи запроса сервера S'L Server.

00:04:53.990 --> 00:04:56.060
Итак, как вы можете видеть,

00:04:56.060 --> 00:05:03.200
Теперь я могу в основном получить
данные файлов в HDFS.

00:05:03.200 --> 00:05:07.360
Вы также можете выполнить
других совместных операций.

00:05:07.360 --> 00:05:10.275
Например, я хочу

00:05:10.275 --> 00:05:13.815
объединить данные ClickStream
с некоторыми данными инвентаризации,

00:05:13.815 --> 00:05:17.000
который также проживает
в файлах Паркет

00:05:17.000 --> 00:05:21.800
в HDFS, который на самом деле показано здесь.

00:05:21.800 --> 00:05:24.140
Итак, давайте запустим этот запрос.

00:05:24.140 --> 00:05:28.400
В этом случае, то, что мы делаем
в сервере S'L на самом деле

00:05:28.400 --> 00:05:34.170
присоединение двух различных наборов данных
которые проживают в HDFS.

00:05:34.270 --> 00:05:40.790
Вы можете указать, что в
запроса с использованием синтаксиса СЗЛ,

00:05:40.790 --> 00:05:44.275
и вы можете получить
результаты этого запроса.

00:05:44.275 --> 00:05:48.705
В этом примере мы
на самом деле собирается s'L Сервер,

00:05:48.705 --> 00:05:51.180
чтение файлов из HDFS,

00:05:51.180 --> 00:05:53.845
передачи данных в файлах,

00:05:53.845 --> 00:05:56.195
выполнение операций по объединению

00:05:56.195 --> 00:06:00.425
и делать дополнительные
агрегации в этом случае,

00:06:00.425 --> 00:06:03.785
как подсчет количества кликов,

00:06:03.785 --> 00:06:08.790
добавление инвентаря
ценностей и так далее.

00:06:09.500 --> 00:06:11.640
И последнее, но не менее,

00:06:11.640 --> 00:06:14.250
Вы также можете задать вопрос

00:06:14.250 --> 00:06:17.480
эти данные HDFS и присоединиться к нему

00:06:17.480 --> 00:06:20.405
с другими данными сидя
в вашей базе данных.

00:06:20.405 --> 00:06:22.175
Итак, в этом примере

00:06:22.175 --> 00:06:25.415
Вы можете на самом деле запрос
файлы паркета

00:06:25.415 --> 00:06:30.120
и присоединиться к таблице в сервере S'L.

00:06:36.560 --> 00:06:39.270
Как вы можете видеть сейчас,

00:06:39.270 --> 00:06:44.170
интеграция в сервер S'L
Кластер больших данных делает его очень

00:06:44.170 --> 00:06:49.215
легко для вас, чтобы присоединиться к данным
от HDFS к другим данным,

00:06:49.215 --> 00:06:52.214
либо в HDFS, либо в других таблицах,

00:06:52.214 --> 00:06:55.180
и получить информацию очень легко.

00:06:55.180 --> 00:06:58.840
Так что теперь вы можете построить
приложения, которые запросданные данных

00:06:58.840 --> 00:07:02.790
из различных источников данных
очень легко. Спасибо.

00:07:02.790 --> 00:07:17.500
(МУЗЫКА)

