WEBVTT

00:00:00.000 --> 00:00:03.345
Сервер S'L 2019 представляет
кластеров больших данных.

00:00:03.345 --> 00:00:04.860
Он имеет Spark интегрированы.

00:00:04.860 --> 00:00:09.300
Шив здесь, чтобы рассказать нам все о
что сегодня на данных разоблачены.

00:00:09.300 --> 00:00:20.220
(Музыка).

00:00:20.220 --> 00:00:23.085
Привет и добро пожаловать в другой
эпизод данных разоблачены.

00:00:23.085 --> 00:00:25.890
Я ваш хозяин, Джеруан и
сегодня у нас есть Шив здесь с

00:00:25.890 --> 00:00:28.485
нам говорить о Spark
на кластерах больших данных.

00:00:28.485 --> 00:00:29.780
Так что добро пожаловать на шоу, Шив.

00:00:29.780 --> 00:00:30.600
Спасибо, Джеруан.

00:00:30.600 --> 00:00:34.705
Так искры, давайте начнем с
основам. Что такое Искра?

00:00:34.705 --> 00:00:38.790
Искра является единой большой
механизм обработки данных

00:00:38.790 --> 00:00:41.640
, которые могут работать через
ваши аналитические рабочие нагрузки

00:00:41.640 --> 00:00:45.555
Это звучит не очень просто.

00:00:45.555 --> 00:00:47.340
Так что давайте разобьем его.

00:00:47.340 --> 00:00:47.730
Хорошо, хорошо.

00:00:47.730 --> 00:00:49.575
Так что сначала все давайте поговорим о

00:00:49.575 --> 00:00:52.850
обработка больших данных,
распределенные большие данные.

00:00:52.850 --> 00:00:54.140
Последние несколько лет,

00:00:54.140 --> 00:00:55.460
то, что мы видим, это тенденция

00:00:55.460 --> 00:00:57.800
предприятий, собирающих
много-много данных.

00:00:57.800 --> 00:00:58.265
Конечно же.

00:00:58.265 --> 00:01:00.170
От перехода от ГБ данных,

00:01:00.170 --> 00:01:01.640
сегодня мы видим, предприятие дело

00:01:01.640 --> 00:01:04.100
с терабайтами и петабайтами данных.

00:01:04.100 --> 00:01:05.810
Теперь есть проблема там.

00:01:05.810 --> 00:01:09.005
Проблема в том, что когда вы
имеют такой большой масштаб данных,

00:01:09.005 --> 00:01:11.375
как вы действительно хранить, что
данные, в первую очередь, не так ли?

00:01:11.375 --> 00:01:11.960
Хорошо, хорошо.

00:01:11.960 --> 00:01:13.945
Вначале,

00:01:13.945 --> 00:01:16.580
мы начали с одного
машины и масштабирования

00:01:16.580 --> 00:01:20.300
вертикально и с терабайтами
жесткого диска на группу данных.

00:01:20.300 --> 00:01:22.180
Это вертикальное масштабирование не было на самом деле

00:01:22.180 --> 00:01:24.295
ответ на хранение
распределенные данные.

00:01:24.295 --> 00:01:27.020
Осуществимое, более лучшее решение,

00:01:27.020 --> 00:01:29.270
решение для повышения устойчивости
были распределены данные,

00:01:29.270 --> 00:01:30.830
где мы не продолжаем масштабирования

00:01:30.830 --> 00:01:34.265
одна машина, чтобы взять
на все больше и больше данных.

00:01:34.265 --> 00:01:37.055
То, что мы делаем, это мы
распределить данные по

00:01:37.055 --> 00:01:40.340
n количества меньших машин и
таким образом мы храним большие данные.

00:01:40.340 --> 00:01:41.870
Таким образом, в основном разделяй и властвуй,

00:01:41.870 --> 00:01:43.050
Правильно? Мы делим работу.

00:01:43.050 --> 00:01:43.620
Точно.

00:01:43.620 --> 00:01:44.025
Хорошо, хорошо.

00:01:44.025 --> 00:01:46.040
Так что теперь мы позаботились о

00:01:46.040 --> 00:01:48.935
проблема хранения
данных, но это еще не все.

00:01:48.935 --> 00:01:51.275
Основная проблема заключается в том,
не хранение данных,

00:01:51.275 --> 00:01:54.680
основная проблема заключается в том, что мне нужно
получить представление об этих данных.

00:01:54.680 --> 00:01:56.105
Когда вы обрабатываете его,

00:01:56.105 --> 00:01:57.590
вот где значение, не так ли?

00:01:57.590 --> 00:01:59.180
Точно. Таким образом, обработка

00:01:59.180 --> 00:02:02.340
это распределенные данные
требует различных двигателей.

00:02:02.340 --> 00:02:07.100
Искра — это вычисление больших данных
двигатель, который может работать через

00:02:07.100 --> 00:02:12.200
распределенные данные и вычисления
и делать ваши рабочие нагрузки на этом.

00:02:12.200 --> 00:02:16.715
Это просто не распределенный
вычислительный движок больших данных,

00:02:16.715 --> 00:02:19.010
это также что-то
что абстрагируется о

00:02:19.010 --> 00:02:21.590
детали распределения от вас.

00:02:21.590 --> 00:02:22.880
Как пользователь Spark,

00:02:22.880 --> 00:02:25.190
Вам не придется беспокоиться о
все детали распределения,

00:02:25.190 --> 00:02:27.650
вот вся красота вокруг Spark.

00:02:27.650 --> 00:02:31.130
Так что вы просто дать ему
назначение, и это будет выяснить,

00:02:31.130 --> 00:02:33.035
как распределить работу и

00:02:33.035 --> 00:02:35.420
быть сделано так же быстро, как
возможно, надеюсь.

00:02:35.420 --> 00:02:38.840
В-право. Когда вы имеете дело
с такими данными,

00:02:38.840 --> 00:02:42.320
Вы не хотите быть связаны
на определенном языке.

00:02:42.320 --> 00:02:45.470
Ты как будто это большой
вычислительной мощности данных и теперь

00:02:45.470 --> 00:02:48.290
Вы используете кричащий язык, который
Я придумала обработать это.

00:02:48.290 --> 00:02:50.480
Так Spark делает что-то
очень красивый там.

00:02:50.480 --> 00:02:52.235
Искра дает вам выбор языка.

00:02:52.235 --> 00:02:54.680
Если вы программист Python,

00:02:54.680 --> 00:02:57.350
Вы можете запрограммировать в
Питон, Скала, Ява,

00:02:57.350 --> 00:03:01.190
R. R очень популярен в
наших ученых-данных и

00:03:01.190 --> 00:03:04.760
Искра дает вам возможность
использовать R для рабочих нагрузок.

00:03:04.760 --> 00:03:09.050
Так что то, что Spark как
распределенный вычислительный двигатель.

00:03:09.050 --> 00:03:11.105
Так в основном вы сказали,

00:03:11.105 --> 00:03:13.850
восстановить его по-разному, но
это то, что мы сделали для

00:03:13.850 --> 00:03:16.920
большие данные из-за
проблема масштабирования

00:03:16.920 --> 00:03:18.450
вверх все время с масштабированием

00:03:18.450 --> 00:03:20.415
вверх и теперь мы масштабирования
из, а также. Правильно?

00:03:20.415 --> 00:03:20.790
В-право.

00:03:20.790 --> 00:03:23.075
Тогда Spark работает на
распределенный слой

00:03:23.075 --> 00:03:24.320
и дает вам гибкость

00:03:24.320 --> 00:03:25.580
выбор языка выбора.

00:03:25.580 --> 00:03:29.180
Да, да. Существовал еще немного
(неразборчиво) в моем предложении.

00:03:29.180 --> 00:03:31.520
Я говорила тебе кое-что о
унифицированный вычислительный двигатель.

00:03:31.520 --> 00:03:34.120
Так что давайте ломтик и кости, что немного.

00:03:34.120 --> 00:03:39.170
Как мы видели, предприятия начали
получать все больше и больше данных.

00:03:39.170 --> 00:03:41.420
Традиционные
рабочие нагрузки также перемещаются из

00:03:41.420 --> 00:03:45.320
транзакционные рабочие нагрузки для рабочих нагрузок
которые являются аналитическими по своему характеру.

00:03:45.320 --> 00:03:47.730
Что мы подразумеваем под аналитической нагрузкой?

00:03:47.730 --> 00:03:51.290
Рабочая нагрузка, где я анализирую
много данных, чтобы получить

00:03:51.290 --> 00:03:53.180
идеи из него и

00:03:53.180 --> 00:03:56.645
то, возможно, делать машины
обучения или глубокого обучения.

00:03:56.645 --> 00:03:59.750
Таким образом, традиционно, фаза от

00:03:59.750 --> 00:04:03.095
транзакционные рабочие нагрузки также
перешли на аналитические нагрузки.

00:04:03.095 --> 00:04:06.920
Аналитические нагрузки имели разнообразие
рабочей нагрузки от глубокого обучения,

00:04:06.920 --> 00:04:10.120
машинное обучение, аналитика
и потоковые рабочие нагрузки.

00:04:10.120 --> 00:04:12.990
Теперь, каждый из этих
рабочие нагрузки, которые вы не хотите

00:04:12.990 --> 00:04:17.120
отдельный вычислительный движок для
действительно строить свои навыки на.

00:04:17.120 --> 00:04:18.530
В идеале вы бы узнали один.

00:04:18.530 --> 00:04:20.840
Точно. Это то, что делает Спарк.

00:04:20.840 --> 00:04:24.110
Искра является единым компьютером
двигатель, который позволяет работать

00:04:24.110 --> 00:04:27.690
во всех этих рабочих нагрузках с
тот же набор принципов.

00:04:27.690 --> 00:04:29.875
Вот что такое Спарк.

00:04:29.875 --> 00:04:32.795
Распределенный расчет
двигатель, который извлекает

00:04:32.795 --> 00:04:35.750
детали работы
распределение от вас.

00:04:35.750 --> 00:04:39.545
Это не у вас беспокоить
о деталях дистрибуции.

00:04:39.545 --> 00:04:42.230
Во-вторых, унифицированные вычисления
двигателя и, прежде всего,

00:04:42.230 --> 00:04:45.245
которые я нахожу это как очень
мощная функция разработчика,

00:04:45.245 --> 00:04:47.990
он предлагает вам выбор языка
где можно использовать Python,

00:04:47.990 --> 00:04:50.300
Скала, Ява или R,
все, что вы выбираете из.

00:04:50.300 --> 00:04:52.265
Так что то, что Spark есть.

00:04:52.265 --> 00:04:54.725
Прохладный. Это очень репрессивно.

00:04:54.725 --> 00:04:57.785
Я имею в виду, Искра, это нормально.

00:04:57.785 --> 00:05:00.370
Так что же мы делаем с
Искра на сервере S'L?

00:05:00.370 --> 00:05:01.760
У нас есть что-нибудь?

00:05:01.760 --> 00:05:05.300
Так что Spark в основном ApacheSpark.

00:05:05.300 --> 00:05:07.460
Это вычислительный движок с открытым исходным кодом.

00:05:07.460 --> 00:05:09.230
То, что мы сделали в
кластеры больших данных,

00:05:09.230 --> 00:05:12.680
мы принесли вам
вместе, это с S'L,

00:05:12.680 --> 00:05:16.995
как единый единый
предложение с S'L и

00:05:16.995 --> 00:05:21.070
сквозное решение, где вы
не просто получить вычислительный движок,

00:05:21.070 --> 00:05:23.150
Вы получаете полный
сквозной опыт

00:05:23.150 --> 00:05:24.785
при использовании вычислительного движка.

00:05:24.785 --> 00:05:26.630
Так что это будет означать,
что с Spark

00:05:26.630 --> 00:05:28.400
была интегрирована
в кластере больших данных,

00:05:28.400 --> 00:05:31.625
Я могу зазапросить данные в

00:05:31.625 --> 00:05:32.885
кластер больших данных

00:05:32.885 --> 00:05:35.060
используя старые преимущества вы
просто опишите из Spark.

00:05:35.060 --> 00:05:36.470
Точно. Использование клиента

00:05:36.470 --> 00:05:38.270
инструмент, что вы
все знакомы с.

00:05:38.270 --> 00:05:40.330
Вау, это впечатляет.

00:05:40.330 --> 00:05:43.110
Ой. Так как я могу узнать больше?

00:05:43.110 --> 00:05:47.025
Я имею в виду, это звучит очень новое для
мне, где я могу найти что-то?

00:05:47.025 --> 00:05:49.529
Пожалуйста, перейдите к большому
документация кластера данных,

00:05:49.529 --> 00:05:52.910
Документация кластера данных сервера S'L
и вы найдете много

00:05:52.910 --> 00:05:57.275
комми и статей о Spark.

00:05:57.275 --> 00:06:00.020
Вы найдете кластеры больших данных,

00:06:00.020 --> 00:06:02.855
Примеры искры и СЗЛ
Репозиторий образцов серверов.

00:06:02.855 --> 00:06:04.660
Вот где вы начинаете.

00:06:04.660 --> 00:06:06.920
Прохладный. Так что мы будем
убедитесь, что включить

00:06:06.920 --> 00:06:09.080
эти ссылки в описании,

00:06:09.080 --> 00:06:10.565
так что вы найдете их там.

00:06:10.565 --> 00:06:13.265
Спасибо Шиву за то, что пришли на шоу.

00:06:13.265 --> 00:06:14.420
Спасибо за объяснение этого.

00:06:14.420 --> 00:06:17.430
Я узнал, наконец, что такое Искра.

00:06:17.430 --> 00:06:19.205
Спасибо за просмотр.

00:06:19.205 --> 00:06:21.650
Пожалуйста, нравится и подписаться и
Я надеюсь увидеть тебя в следующий раз.

00:06:21.650 --> 00:06:33.610
(МУЗЫКА)

