WEBVTT

00:00:02.000 --> 00:00:05.040
• 大家好， 欢迎回到

00:00:05.040 --> 00:00:07.890
开发人员简介
到数据科学。

00:00:07.890 --> 00:00:10.560
数据科学机器学习和人工智能，

00:00:10.560 --> 00:00:14.250
都是至关重要的， 但如何
你开始和他们一起吗？

00:00:14.250 --> 00:00:16.110
在这个视频中，我们将学习

00:00:16.110 --> 00:00:18.660
什么是数据科学生命周期。

00:00:18.660 --> 00:00:22.560
生命周期设计用于
数据科学项目

00:00:22.560 --> 00:00:27.480
打算作为
您的智能应用。

00:00:27.480 --> 00:00:30.150
数据科学的生命周期是

00:00:30.150 --> 00:00:32.850
由五个主要
阶段是;

00:00:32.850 --> 00:00:36.540
业务理解、数据
获得和理解，

00:00:36.540 --> 00:00:40.110
建模、部署、
和客户的认可。

00:00:40.110 --> 00:00:43.245
让我们从
业务理解。

00:00:43.245 --> 00:00:46.035
这里有两个主要目标。

00:00:46.035 --> 00:00:49.310
第一个是
定义目标。

00:00:49.310 --> 00:00:50.570
您需要使用

00:00:50.570 --> 00:00:53.540
您的客户和其他
利益相关者要了解，

00:00:53.540 --> 00:00:55.625
识别业务问题。

00:00:55.625 --> 00:00:59.610
第二个目标是
标识数据源。

00:00:59.610 --> 00:01:02.600
您需要找到相关
有助于您回答的数据

00:01:02.600 --> 00:01:04.310
定义的问题

00:01:04.310 --> 00:01:07.310
您的目标
数据科学项目。

00:01:07.310 --> 00:01:11.030
在此之后，我们有数据
获得和理解。

00:01:11.030 --> 00:01:15.800
这里的目标是什么，生产
一个干净、高质量的数据集，

00:01:15.800 --> 00:01:18.425
并开发一个
解决方案体系结构

00:01:18.425 --> 00:01:22.375
数据管道，
刷新并记录数据。

00:01:22.375 --> 00:01:24.090
有三个主要步骤，

00:01:24.090 --> 00:01:26.280
正如你所看到的。输入数据。

00:01:26.280 --> 00:01:28.310
在这里，你需要
将数据引入

00:01:28.310 --> 00:01:31.535
目标分析环境
你要用的

00:01:31.535 --> 00:01:34.460
那么你需要探索
数据，以确定是否

00:01:34.460 --> 00:01:37.340
数据质量好
足以回答这个问题

00:01:37.340 --> 00:01:39.230
最后，你需要设置

00:01:39.230 --> 00:01:43.055
要评分的数据管道
新的和刷新数据。

00:01:43.055 --> 00:01:46.275
在此之后，有
建模阶段。

00:01:46.275 --> 00:01:50.250
这里的主要目标是
特征工程，

00:01:50.250 --> 00:01:52.550
您需要创建
数据要素来自

00:01:52.550 --> 00:01:55.250
原始数据，以方便
模型训练。

00:01:55.250 --> 00:01:58.190
模型培训，您需要
找到模型，

00:01:58.190 --> 00:02:01.390
回答问题
一个非常准确的方式，

00:02:01.390 --> 00:02:03.395
你还需要比较

00:02:03.395 --> 00:02:05.780
不同的成功指标，以便

00:02:05.780 --> 00:02:08.420
了解什么是最好的
您的解决方案模型，

00:02:08.420 --> 00:02:10.520
最后，您需要确定

00:02:10.520 --> 00:02:13.190
您的模型适合
用于生产，

00:02:13.190 --> 00:02:15.950
已准备好部署。

00:02:15.950 --> 00:02:19.470
最后，还有部署。

00:02:19.470 --> 00:02:22.880
在这里，我们需要部署
模型和管道到

00:02:22.880 --> 00:02:26.360
生产环境
应用程序消耗。

00:02:26.360 --> 00:02:27.860
要部署模型，

00:02:27.860 --> 00:02:31.775
你需要暴露他们
具有开放的 API 接口。

00:02:31.775 --> 00:02:34.505
接口使模型能够

00:02:34.505 --> 00:02:37.670
容易从不同的消耗
应用程序的类型。

00:02:37.670 --> 00:02:41.250
这些示例
申请是在线网站，

00:02:41.250 --> 00:02:45.425
电子表格、仪表板、
端到端应用程序。

00:02:45.425 --> 00:02:50.405
在此之后，您需要完成
您的项目可交付成果。

00:02:50.405 --> 00:02:53.480
您需要确认
管道，模型，

00:02:53.480 --> 00:02:56.925
及其部署在
满足生产环境，

00:02:56.925 --> 00:03:01.345
当然， 也是您的客户
或利益相关者的目标。

00:03:01.345 --> 00:03:03.800
您可以了解有关

00:03:03.800 --> 00:03:08.610
数据科学生命周期在
aka.ms/datasciencelifecycle.

