WEBVTT

00:00:00.000 --> 00:00:01.680
>> 이제 데이터를 분할해야 할 때입니다.

00:00:01.680 --> 00:00:03.780
데이터 교육 및 테스트 데이터로 전환합니다.

00:00:03.780 --> 00:00:06.375
나는 에 대해 생각하고 싶다
이것은 시험처럼.

00:00:06.375 --> 00:00:08.700
교육 데이터는
연습 시험.

00:00:08.700 --> 00:00:10.260
질문은 정확히

00:00:10.260 --> 00:00:12.090
그들이 가는 것과 동일합니다.
시험에 응시하려면

00:00:12.090 --> 00:00:14.805
하지만 연습하는 경우
당신은 그 권리를 얻을,

00:00:14.805 --> 00:00:17.520
당신은 얻을 가능성이 더 높습니다
올바른 질문을 테스트합니다.

00:00:17.520 --> 00:00:21.210
마찬가지로 모델은
학습할 수 있는 교육 데이터,

00:00:21.210 --> 00:00:23.970
그런 다음
모델에 대한 데이터 테스트,

00:00:23.970 --> 00:00:25.395
그리고 그것은 예측하려고합니다.

00:00:25.395 --> 00:00:28.275
우리는
모델의 예측

00:00:28.275 --> 00:00:31.020
그것을 득점하는 테스트 데이터,

00:00:31.020 --> 00:00:32.940
교수자가 사용하는 것처럼

00:00:32.940 --> 00:00:35.760
시험 키를 보려면
그럼 당신은 시험에 했다.

00:00:35.760 --> 00:00:37.740
그래서 분할을 시작하자

00:00:37.740 --> 00:00:40.260
교육 간 데이터
데이터 및 테스트 데이터.

00:00:40.260 --> 00:00:42.530
언제나 그렇듯이 추가 리소스는

00:00:42.530 --> 00:00:45.690
화면 과 아래와 연결
아래 설명에서.

00:00:45.920 --> 00:00:50.310
이것은 실제로 매우 간단합니다.
주피터 노트북 내부.

00:00:50.310 --> 00:00:53.900
우리는
기차라고 불리는 로컬 변수,

00:00:53.900 --> 00:00:58.430
이것은 우리의 모든 것입니다
8월 31일 이전의 데이터,

00:00:58.430 --> 00:01:01.885
2012, 그 날짜를 포함.

00:01:01.885 --> 00:01:03.860
쉽게 작업할 수 있도록,

00:01:03.860 --> 00:01:06.965
우리는 그것을 변환할 것입니다.
팬더 데이터 프레임으로.

00:01:06.965 --> 00:01:10.190
그런데 8월 31일을 선택한 이유는 무엇입니까?

00:01:10.190 --> 00:01:12.035
데이터를 되돌아보면,

00:01:12.035 --> 00:01:15.680
우리는 그것이 시작되는 것을 볼 수 있습니다.
2011년 1월 1일,

00:01:15.680 --> 00:01:22.520
우리는 모든 단일에서 데이터를 가지고
2012년 12월 31일까지.

00:01:22.520 --> 00:01:26.240
따라서 2012년 8월 31일을 선택하여,

00:01:26.240 --> 00:01:28.220
우리는 75 %를 선택하고 있습니다.

00:01:28.220 --> 00:01:30.625
사용할 데이터
우리의 훈련 세트로.

00:01:30.625 --> 00:01:33.585
기본적으로, 우리는 단지
다른 25%를 차지하십시오.

00:01:33.585 --> 00:01:35.925
테스트 세트에 저장합니다.

00:01:35.925 --> 00:01:39.470
이 셀을 실행하여 확인해 보겠습니다.
마지막 5행

00:01:39.470 --> 00:01:42.020
이 데이터프레임은
마지막 5일

00:01:42.020 --> 00:01:45.025
2012년 8월. 이것은 바로 보인다.

00:01:45.025 --> 00:01:46.685
이제 테스트 데이터를 위해

00:01:46.685 --> 00:01:48.815
우리는 본질적으로 가고 있습니다.
같은 일을 하기 위해,

00:01:48.815 --> 00:01:52.265
하지만 이번에는 우리가 가고 있습니다.
9월 1일부터

00:01:52.265 --> 00:01:57.250
2012, 우리는 포용하고 싶다
그 경계의.

00:01:57.250 --> 00:01:59.735
변경된 사항
여기에 몇 가지.

00:01:59.735 --> 00:02:04.620
하나는 우리가 모든 것을 원한다는 것입니다.
9월 1일 이후의 행은

00:02:04.620 --> 00:02:07.190
2012년, 교육 데이터 대비,

00:02:07.190 --> 00:02:09.820
우리는 전에 모든 날짜를 원했습니다.

00:02:09.820 --> 00:02:11.690
또한 인쇄할 예정입니다.

00:02:11.690 --> 00:02:14.195
이 DataFrame의 처음 5개 행

00:02:14.195 --> 00:02:16.190
마지막 5개가 아닌

00:02:16.190 --> 00:02:18.650
우리가 얻고 있는지 확인
9월 의 첫 5 일.

00:02:18.650 --> 00:02:20.900
이것은 좋아 보입니다.
우리가 가지고있는 것 같습니다

00:02:20.900 --> 00:02:24.480
우리의 교육 데이터와 우리의
준비된 데이터를 테스트합니다.

