WEBVTT

00:00:00.000 --> 00:00:03.345
>> SQL Server 2019 소개
빅 데이터 클러스터를

00:00:03.345 --> 00:00:04.860
그것은 스파크 통합되어 있습니다.

00:00:04.860 --> 00:00:09.300
Shiv는 우리에게 모든 것에 대해 말하기 위해 여기에 있습니다.
데이터 노출에 오늘.

00:00:09.300 --> 00:00:20.220
[음악].

00:00:20.220 --> 00:00:23.085
다른 사람에게 오신 것을 환영합니다.
데이터 노출의 에피소드.

00:00:23.085 --> 00:00:25.890
나는 당신의 호스트, 제로엔과
오늘 우리는 여기에 Shiv있다

00:00:25.890 --> 00:00:28.485
우리는 스파크에 대해 이야기
빅 데이터 클러스터에 대한

00:00:28.485 --> 00:00:29.780
그래서 쇼에 오신 것을 환영합니다, Shiv.

00:00:29.780 --> 00:00:30.600
감사합니다, 제로엔.

00:00:30.600 --> 00:00:34.705
>> 그래서 불꽃, 에서 시작하자
기본. 스파크란?

00:00:34.705 --> 00:00:38.790
>> 스파크는 통일된 큰
데이터 처리 엔진

00:00:38.790 --> 00:00:41.640
에서 작동할 수 있습니다.
분석 워크로드

00:00:41.640 --> 00:00:45.555
>> 그것은 매우 간단하지 않습니다.

00:00:45.555 --> 00:00:47.340
>> 그럼 고장보자.

00:00:47.340 --> 00:00:47.730
>> 좋아.

00:00:47.730 --> 00:00:49.575
>> 그래서 먼저 모든 것에 대해 이야기하자

00:00:49.575 --> 00:00:52.850
빅 데이터 처리,
빅 데이터를 배포합니다.

00:00:52.850 --> 00:00:54.140
그래서 지난 몇 년 동안,

00:00:54.140 --> 00:00:55.460
우리가 보고 있는 것은

00:00:55.460 --> 00:00:57.800
기업 수집
많은 데이터가 있습니다.

00:00:57.800 --> 00:00:58.265
>> 물론입니다.

00:00:58.265 --> 00:01:00.170
>> 데이터의 GBs에서 부터,

00:01:00.170 --> 00:01:01.640
오늘 우리는 기업 거래를 참조하십시오

00:01:01.640 --> 00:01:04.100
테라바이트 및 페타바이트 데이터로 처리됩니다.

00:01:04.100 --> 00:01:05.810
이제 문제가 있습니다.

00:01:05.810 --> 00:01:09.005
문제는
이러한 대규모 데이터를 가지고,

00:01:09.005 --> 00:01:11.375
어떻게 당신은 정말 저장합니까
데이터, 우선, 오른쪽?

00:01:11.375 --> 00:01:11.960
>> 좋아.

00:01:11.960 --> 00:01:13.945
>> 그래서 처음에,

00:01:13.945 --> 00:01:16.580
우리는 하나의
기계 및 스케일링

00:01:16.580 --> 00:01:20.300
수직 및 테라바이트
데이터 그룹당 하드 디스크의

00:01:20.300 --> 00:01:22.180
그 수직 크기 조정은 실제로 아니었다

00:01:22.180 --> 00:01:24.295
저장에 대한 답변
분산 된 데이터.

00:01:24.295 --> 00:01:27.020
실현 가능하고 더 나은 솔루션,

00:01:27.020 --> 00:01:29.270
더 많은 복원력 솔루션
분산 된 데이터,

00:01:29.270 --> 00:01:30.830
확장을 계속하지 않는 경우

00:01:30.830 --> 00:01:34.265
하나의 기계를 가지고
점점 더 많은 데이터에.

00:01:34.265 --> 00:01:37.055
우리가 하는 일은
데이터를

00:01:37.055 --> 00:01:40.340
n 소형 기계 수 및
이것이 바로 빅 데이터를 저장하는 방법입니다.

00:01:40.340 --> 00:01:41.870
그래서 기본적으로 분열과 정복,

00:01:41.870 --> 00:01:43.050
오른쪽? 우리는 일을 나눕니다.

00:01:43.050 --> 00:01:43.620
정확히 말입니다.

00:01:43.620 --> 00:01:44.025
>> 좋아.

00:01:44.025 --> 00:01:46.040
이제 우리는

00:01:46.040 --> 00:01:48.935
저장하는 문제
데이터가 전부가 아닙니다.

00:01:48.935 --> 00:01:51.275
가장 큰 문제는
데이터 저장이 아닌

00:01:51.275 --> 00:01:54.680
주요 문제는 내가 필요하다는 것입니다
이 데이터에 대한 통찰력을 얻을 수 있습니다.

00:01:54.680 --> 00:01:56.105
>> 처리시,

00:01:56.105 --> 00:01:57.590
그게 바로 값이 있는 곳인가요?

00:01:57.590 --> 00:01:59.180
정확히 말입니다. 그래서 처리

00:01:59.180 --> 00:02:02.340
이 분산 데이터
다른 엔진이 필요합니다.

00:02:02.340 --> 00:02:07.100
스파크는 빅 데이터 컴퓨팅입니다.
가로질러 작업할 수 있는 엔진

00:02:07.100 --> 00:02:12.200
분산 데이터 및 컴퓨팅
워크로드를 수행할 수 있습니다.

00:02:12.200 --> 00:02:16.715
그것은 단지 분산되지 않습니다
빅 데이터 컴퓨팅 엔진,

00:02:16.715 --> 00:02:19.010
그것은 또한 뭔가
에 대한 추상화

00:02:19.010 --> 00:02:21.590
배포세부정보입니다.

00:02:21.590 --> 00:02:22.880
스파크 사용자로서,

00:02:22.880 --> 00:02:25.190
당신은 에 대해 귀찮게 할 필요가 없습니다
배포의 모든 세부 사항,

00:02:25.190 --> 00:02:27.650
이것이 스파크 주변의 아름다움입니다.

00:02:27.650 --> 00:02:31.130
>> 그래서 당신은 단지 그것을 제공
할당하고 그것은 알아낼 거야

00:02:31.130 --> 00:02:33.035
작업 배포 방법 및

00:02:33.035 --> 00:02:35.420
최대한 빨리 할 수 있습니다.
가능, 희망.

00:02:35.420 --> 00:02:38.840
>> 맞습니다. 당신이 거래할 때
이러한 종류의 데이터로,

00:02:38.840 --> 00:02:42.320
묶여 싶지 않아
특정 언어로 이동합니다.

00:02:42.320 --> 00:02:45.470
당신은 이것 처럼 큰
데이터 계산 엔진과 지금

00:02:45.470 --> 00:02:48.290
당신은 화려한 언어를 사용
나는 그것을 처리하기 위해 발명했습니다.

00:02:48.290 --> 00:02:50.480
그래서 스파크는 뭔가를
매우 아름답습니다.

00:02:50.480 --> 00:02:52.235
스파크는 당신에게 언어의 선택을 제공합니다.

00:02:52.235 --> 00:02:54.680
파이썬 프로그래머라면

00:02:54.680 --> 00:02:57.350
당신은에서 프로그래밍 할 수 있습니다
파이썬, 스칼라, 자바,

00:02:57.350 --> 00:03:01.190
R. R은 매우 인기가 있습니다.
데이터 과학자와

00:03:01.190 --> 00:03:04.760
스파크는 당신에게 옵션을 제공합니다
을 사용하여 워크로드에 R을 사용합니다.

00:03:04.760 --> 00:03:09.050
그래서 스파크는
분산 컴퓨팅 엔진.

00:03:09.050 --> 00:03:11.105
그래서 기본적으로 당신은 말했다

00:03:11.105 --> 00:03:13.850
다르게 복원하지만
그건 우리가 위해 한 일

00:03:13.850 --> 00:03:16.920
빅 데이터 로 인해
스케일링 의 문제

00:03:16.920 --> 00:03:18.450
배율 조정을 통해 항상 위쪽으로

00:03:18.450 --> 00:03:20.415
이제 확장중입니다.
뿐만 아니라 밖으로. 오른쪽?

00:03:20.415 --> 00:03:20.790
>> 맞습니다.

00:03:20.790 --> 00:03:23.075
>> 그런 다음 스파크는
분산 레이어

00:03:23.075 --> 00:03:24.320
유연성을 제공합니다.

00:03:24.320 --> 00:03:25.580
선택의 언어를 선택합니다.

00:03:25.580 --> 00:03:29.180
>> 예. 아직 조금 있었다
[들리지 않는] 내 문장에.

00:03:29.180 --> 00:03:31.520
나는 당신에 대해 뭔가를 말했다
통합 된 컴퓨팅 엔진.

00:03:31.520 --> 00:03:34.120
그래서 슬라이스하고 조금 주사위를 보자.

00:03:34.120 --> 00:03:39.170
우리가 보았듯이, 기업은 시작
점점 더 많은 데이터를 얻을 수 있습니다.

00:03:39.170 --> 00:03:41.420
전통
워크로드도

00:03:41.420 --> 00:03:45.320
트랜잭션 워크로드에서 워크로드로
이는 본질적으로 분석적입니다.

00:03:45.320 --> 00:03:47.730
분석 워크로드는 무엇을 의미합니까?

00:03:47.730 --> 00:03:51.290
분석하는 워크로드
많은 데이터를 얻을 수 있습니다.

00:03:51.290 --> 00:03:53.180
인사이트 와

00:03:53.180 --> 00:03:56.645
다음 어쩌면 기계를하고
학습 또는 딥 러닝.

00:03:56.645 --> 00:03:59.750
그래서 전통적으로, 에서 단계

00:03:59.750 --> 00:04:03.095
트랜잭션 워크로드도
분석 워크로드로 이동했습니다.

00:04:03.095 --> 00:04:06.920
분석 워크로드에는 다양한
딥 러닝에서 워크로드의,

00:04:06.920 --> 00:04:10.120
기계 학습, 분석
및 스트리밍 워크로드.

00:04:10.120 --> 00:04:12.990
이제 이들 각각
원하지 않는 워크로드

00:04:12.990 --> 00:04:17.120
별도의 컴퓨팅 엔진을
정말에 당신의 능력을 구축 할 수 있습니다.

00:04:17.120 --> 00:04:18.530
>> 이상적으로 는 하나를 배울 것입니다.

00:04:18.530 --> 00:04:20.840
정확히 말입니다. 이것이 바로 스파크가 하는 일입니다.

00:04:20.840 --> 00:04:24.110
스파크는 통합 컴퓨팅입니다.
작업할 수 있는 엔진

00:04:24.110 --> 00:04:27.690
이러한 모든 워크로드에서
동일한 원칙 집합입니다.

00:04:27.690 --> 00:04:29.875
이것이 바로 스파크의 모습입니다.

00:04:29.875 --> 00:04:32.795
분산 계산
추출하는 엔진

00:04:32.795 --> 00:04:35.750
작업의 세부 사항
당신에게서 배포.

00:04:35.750 --> 00:04:39.545
그것은 당신이 귀찮게하지 않습니다
배포 세부 정보.

00:04:39.545 --> 00:04:42.230
둘째, 통합 컴퓨팅
엔진 과 무엇보다도,

00:04:42.230 --> 00:04:45.245
나는 그것을 매우 찾을 수 있습니다.
강력한 개발자 기능,

00:04:45.245 --> 00:04:47.990
그것은 당신에게 언어의 선택을 제공합니다
파이썬을 사용할 수 있는 곳,

00:04:47.990 --> 00:04:50.300
스칼라, 자바 또는 R,
당신이 선택하는 무엇이든.

00:04:50.300 --> 00:04:52.265
그래서 스파크가 무엇인지.

00:04:52.265 --> 00:04:54.725
>> 멋지다. 그것은 매우 억압적입니다.

00:04:54.725 --> 00:04:57.785
내 말은, 스파크 괜찮아.

00:04:57.785 --> 00:05:00.370
그래서 우리는 무엇을하고 있는가?
SQL 서버에 스파크?

00:05:00.370 --> 00:05:01.760
우리는 아무것도 해야 합니까?

00:05:01.760 --> 00:05:05.300
그래서 스파크는 기본적으로 아파치스파크입니다.

00:05:05.300 --> 00:05:07.460
오픈 소스 컴퓨팅 엔진입니다.

00:05:07.460 --> 00:05:09.230
우리가 한 일
빅 데이터 클러스터,

00:05:09.230 --> 00:05:12.680
우리는 당신을 가져왔다
함께, SQL이,

00:05:12.680 --> 00:05:16.995
단일 통합
SQL 및

00:05:16.995 --> 00:05:21.070
엔드 투 엔드 솔루션
컴퓨팅 엔진을 얻을 뿐만 아니라,

00:05:21.070 --> 00:05:23.150
당신은 완전한 얻을
종단 간 경험

00:05:23.150 --> 00:05:24.785
컴퓨팅 엔진을 사용할 수 있습니다.

00:05:24.785 --> 00:05:26.630
>>
스파크 이후

00:05:26.630 --> 00:05:28.400
통합되었습니다.
빅 데이터 클러스터에서

00:05:28.400 --> 00:05:31.625
에서 데이터를 쿼리할 수 있습니다.

00:05:31.625 --> 00:05:32.885
빅 데이터 클러스터

00:05:32.885 --> 00:05:35.060
이전 혜택 사용
그냥 스파크에서 설명.

00:05:35.060 --> 00:05:36.470
정확히 말입니다. 클라이언트 사용

00:05:36.470 --> 00:05:38.270
당신이 하는 툴링
모든 익숙한.

00:05:38.270 --> 00:05:40.330
와우, 정말 인상적입니다.

00:05:40.330 --> 00:05:43.110
와우. 그렇다면 자세한 내용은 어떻게 해야 하나요?

00:05:43.110 --> 00:05:47.025
내 말은,이 매우 새로운 소리
나, 어디서 뭔가를 찾을 수 있습니까?

00:05:47.025 --> 00:05:49.529
>> 큰 로 이동하십시오
데이터 클러스터 문서화,

00:05:49.529 --> 00:05:52.910
SQL Server 데이터 클러스터 설명서
그리고 당신은 많은 것을 발견 할 것이다

00:05:52.910 --> 00:05:57.275
스파크에 대한 통신 및 기사의.

00:05:57.275 --> 00:06:00.020
빅 데이터 클러스터를 찾을 수 있습니다.

00:06:00.020 --> 00:06:02.855
스파크 예제 및 SQL
서버 샘플 리포지토리입니다.

00:06:02.855 --> 00:06:04.660
바로 이곳에서 시작할 수 있습니다.

00:06:04.660 --> 00:06:06.920
>> 멋지다. 그래서 우리는
포함해야 합니다.

00:06:06.920 --> 00:06:09.080
설명에 있는 이러한 링크,

00:06:09.080 --> 00:06:10.565
그래서 당신은 그들을 찾을 수 있습니다.

00:06:10.565 --> 00:06:13.265
쇼에 와서 주셔서 감사합니다 Shiv.

00:06:13.265 --> 00:06:14.420
이것을 설명해 주셔서 감사합니다.

00:06:14.420 --> 00:06:17.430
나는 마침내 스파크가 무엇인지 배웠다.

00:06:17.430 --> 00:06:19.205
시청해 주셔서 감사합니다.

00:06:19.205 --> 00:06:21.650
좋아요를 입력하고 구독하고
다음에 뵙기를 바랍니다.

00:06:21.650 --> 00:06:33.610
[음악]

