WEBVTT

00:00:00.000 --> 00:00:10.700
[음악].

00:00:10.700 --> 00:00:12.770
[> 안녕하세요. 제 이름은 우마찬다르입니다.

00:00:12.770 --> 00:00:15.510
프로그램 관리자입니다.
SQL Server 팀에서

00:00:15.510 --> 00:00:19.065
오늘은 보여줄게요
쿼리할 수 있는 방법

00:00:19.065 --> 00:00:24.120
SQL 서버의 HDFS 데이터
빅 데이터 클러스터에서

00:00:24.120 --> 00:00:28.010
그래서 내가 여기에 무엇을 가지고
은 Azure 데이터 스튜디오입니다.

00:00:28.010 --> 00:00:32.900
먼저,
SQL Server 마스터 인스턴스,

00:00:32.900 --> 00:00:36.360
내부에서 실행되는
빅 데이터 클러스터를

00:00:38.180 --> 00:00:41.360
이제 여기에서 작업할 수 있습니다.

00:00:41.360 --> 00:00:46.850
두 MySQL 데이터베이스
HDFS의 데이터.

00:00:46.850 --> 00:00:48.640
여기에서 볼 수 있듯이,

00:00:48.640 --> 00:00:52.070
나는 내 정규
SQL 서버 데이터베이스

00:00:52.070 --> 00:00:57.875
나는 또한 갈 수 있고
HDFS에서 데이터를 탐색할 수 있습니다.

00:00:57.875 --> 00:01:02.570
먼저
쿼리할 데이터입니다.

00:01:02.570 --> 00:01:06.970
그래서 여기에 파일이 있습니다.
웹 클릭 스트림이라고 합니다.

00:01:06.970 --> 00:01:10.985
그래서이 파일은
사용자에 대한 데이터,

00:01:10.985 --> 00:01:14.180
구매한 아이템과 같이,

00:01:14.180 --> 00:01:19.160
얼마나 많은 횟수를 클릭했습니까?
특정 범주 등등.

00:01:19.160 --> 00:01:24.120
그래서 어떻게 살펴 보자
이 데이터를 쿼리할 수 있습니다.

00:01:25.330 --> 00:01:28.205
그래서 여기에 노트북이 있습니다.

00:01:28.205 --> 00:01:30.829
먼저 컨텍스트를 설정합니다.

00:01:30.829 --> 00:01:34.000
전자 필기장의 데이터베이스에

00:01:34.000 --> 00:01:38.535
판매는
이 예제에 나와 있습니다.

00:01:38.535 --> 00:01:43.354
다음으로,
HDFS에서 데이터를 쿼리하고,

00:01:43.354 --> 00:01:48.880
우리는 뭔가를 만들 필요가
외부 데이터 원본이라고 합니다.

00:01:48.880 --> 00:01:52.790
그래서 그것은 의 객체입니다
알려주는 데이터베이스

00:01:52.790 --> 00:01:57.140
SQL 서버는
HDFS 데이터가 상주합니다.

00:01:57.140 --> 00:01:59.940
따라서 이 예제에서는

00:01:59.940 --> 00:02:04.190
이 문자열은 여기에 있는
SQL HDFS로 시작,

00:02:04.190 --> 00:02:10.130
HDFS 데이터를 나타냅니다.
빅 데이터 클러스터에서

00:02:10.130 --> 00:02:14.450
그래서 먼저 가서 하자
이 데이터 원본을 만듭니다.

00:02:14.450 --> 00:02:17.870
그래서 당신이 만든 후
데이터 원본,

00:02:17.870 --> 00:02:21.905
어떤 파일 형식을 지정해야 합니다.

00:02:21.905 --> 00:02:27.410
데이터 소스가 지원하고
쿼리할 내용입니다.

00:02:27.410 --> 00:02:29.375
그래서이 경우,

00:02:29.375 --> 00:02:34.910
나는 데이터를 쿼리하려고합니다.
마루 파일에 있습니다.

00:02:34.910 --> 00:02:40.485
그래서 마루의 형식
파일은 여기에 지정되어 있습니다.

00:02:40.485 --> 00:02:45.960
그래서 먼저 가서
이 파일 형식 개체를 만듭니다.

00:02:46.090 --> 00:02:52.640
이제 다음 단계는
SQL Server의 외부 테이블입니다.

00:02:52.640 --> 00:02:57.020
따라서 이것은 열을 나타냅니다.
쿼리할 예정입니다.

00:02:57.020 --> 00:03:02.165
파일에서
파일의 위치입니다.

00:03:02.165 --> 00:03:03.710
그래서이 경우,

00:03:03.710 --> 00:03:08.180
나는 모든 쿼리거야
이 디렉토리의 데이터를 수집합니다.

00:03:08.180 --> 00:03:12.520
그래서 빨리 보자
포함 된 내용.

00:03:12.520 --> 00:03:16.670
여기서 디렉토리를 확장합니다.

00:03:16.670 --> 00:03:20.780
당신이 볼 수 있듯이, 있다
여기에 세 개의 마루 파일.

00:03:20.780 --> 00:03:23.660
이제 우리는 어떻게

00:03:23.660 --> 00:03:26.510
당신은 그 쿼리 할 수 있습니다
SQL Server의 파일입니다.

00:03:26.510 --> 00:03:31.310
이제 외부
SQL Server의 테이블 개체,

00:03:31.310 --> 00:03:37.920
디렉토리를 가리키는
Parquet 파일이 포함되어 있습니다.

00:03:38.440 --> 00:03:43.680
먼저,
파일에서 일부 행을 볼 수 있습니다.

00:03:43.970 --> 00:03:48.675
그래서 선택 쿼리를 실행합니다.
상단 힌트와 함께,

00:03:48.675 --> 00:03:51.465
나는 10 행을 참조하십시오.

00:03:51.465 --> 00:03:57.470
이것은 기본적으로 행을 미리 봅그미
해당 파일에서 읽습니다.

00:03:57.470 --> 00:04:01.775
그래서 당신은 또한 약간 실행할 수 있습니다
더 복잡한 쿼리

00:04:01.775 --> 00:04:06.920
그냥 에 계산을 할 처럼
테이블의 행 수입니다.

00:04:06.920 --> 00:04:13.380
이 경우, 나는 결과를 얻을
다시 그리고 그것은 약 6 백만입니다.

00:04:14.210 --> 00:04:17.705
더 많은 것을 실행할 수도 있습니다.
고급 쿼리를 참조하십시오.

00:04:17.705 --> 00:04:20.720
여기에 쿼리가 있습니다.

00:04:20.720 --> 00:04:25.505
상위 10위를 찾으려고 노력
클릭이 가장 많은 사용자.

00:04:25.505 --> 00:04:27.850
따라서 해당 쿼리를 실행해 보겠습니다.

00:04:27.850 --> 00:04:29.535
여기에서 볼 수 있듯이,

00:04:29.535 --> 00:04:31.325
지금 당신은 실행할 수 있습니다

00:04:31.325 --> 00:04:35.375
일반 SQL 쿼리
HDFS의 데이터에 대해

00:04:35.375 --> 00:04:37.910
그래서 당신은 기본적으로 할 수 있습니다
데이터 처리

00:04:37.910 --> 00:04:42.665
HDFS는 로컬인 것처럼
테이블이 있습니다.

00:04:42.665 --> 00:04:46.900
이 경우, 나는
SQL Server의 기능,

00:04:46.900 --> 00:04:50.060
구문, 그리고
에서 사용할 수 있는 기능

00:04:50.060 --> 00:04:53.990
쿼리를 작성하는 SQL Server입니다.

00:04:53.990 --> 00:04:56.060
그래서 당신이 볼 수 있듯이,

00:04:56.060 --> 00:05:03.200
이제 기본적으로
HDFS의 파일에서 나온 결과입니다.

00:05:03.200 --> 00:05:07.360
또한
다른 공동 작업.

00:05:07.360 --> 00:05:10.275
예를 들어,

00:05:10.275 --> 00:05:13.815
클릭스트림 데이터 결합
일부 인벤토리 데이터,

00:05:13.815 --> 00:05:17.000
또한 거주하는
마루 파일에서

00:05:17.000 --> 00:05:21.800
실제로 여기에 표시되는 HDFS에서.

00:05:21.800 --> 00:05:24.140
이 쿼리를 실행해 보겠습니다.

00:05:24.140 --> 00:05:28.400
이 경우, 우리가 하고 있는 일
SQL 서버에서 실제로

00:05:28.400 --> 00:05:34.170
서로 다른 두 데이터 집합 조인
HDFS에 거주하고 있습니다.

00:05:34.270 --> 00:05:40.790
을 지정할 수 있습니다.
SQL 구문을 사용하는 SQL 쿼리,

00:05:40.790 --> 00:05:44.275
그리고 당신은 얻을 수 있습니다
쿼리의 결과입니다.

00:05:44.275 --> 00:05:48.705
이 예제에서는
실제로 SQL Server로 이동,

00:05:48.705 --> 00:05:51.180
HDFS에서 파일을 읽고,

00:05:51.180 --> 00:05:53.845
파일의 데이터를 전달하는 경우,

00:05:53.845 --> 00:05:56.195
조인 작업 수행

00:05:56.195 --> 00:06:00.425
및 추가 수행
이 경우 집계,

00:06:00.425 --> 00:06:03.785
클릭 수를 계산하는 것과 같이

00:06:03.785 --> 00:06:08.790
인벤토리 추가
값 등등.

00:06:09.500 --> 00:06:11.640
마지막하지만 적어도,

00:06:11.640 --> 00:06:14.250
당신은 또한 쿼리 할 수 있습니다

00:06:14.250 --> 00:06:17.480
이 HDFS 데이터를 가입

00:06:17.480 --> 00:06:20.405
다른 데이터 앉아
데이터베이스에 있습니다.

00:06:20.405 --> 00:06:22.175
따라서 이 예제에서는

00:06:22.175 --> 00:06:25.415
실제로 쿼리할 수 있습니다.
마루 파일

00:06:25.415 --> 00:06:30.120
SQL Server의 테이블과 함께 조인할 수 있습니다.

00:06:36.560 --> 00:06:39.270
지금 보시다시피,

00:06:39.270 --> 00:06:44.170
SQL Server의 통합
빅 데이터 클러스터를 통해

00:06:44.170 --> 00:06:49.215
데이터 조인이 용이합니다.
HDFS에서 다른 데이터로,

00:06:49.215 --> 00:06:52.214
HDFS 나 다른 테이블에서,

00:06:52.214 --> 00:06:55.180
매우 쉽게 정보를 얻을 수 있습니다.

00:06:55.180 --> 00:06:58.840
그래서 지금 당신은 실제로 구축 할 수 있습니다
데이터를 쿼리하는 응용 프로그램

00:06:58.840 --> 00:07:02.790
다른 데이터 원본에서
매우 쉽게. 감사합니다.

00:07:02.790 --> 00:07:17.500
[음악]

