WEBVTT

00:00:02.180 --> 00:00:07.505
• 欢迎回到开发人员
数据科学简介。

00:00:07.505 --> 00:00:10.390
现在，让我们了解更多
关于你如何选择

00:00:10.390 --> 00:00:11.680
最好的模型

00:00:11.680 --> 00:00:15.100
您的数据科学场景
自动化机器学习。

00:00:15.100 --> 00:00:17.800
了解
一组的预测能力

00:00:17.800 --> 00:00:20.420
尊重功能
到依赖变量，

00:00:20.420 --> 00:00:21.970
是一个非常棘手的问题

00:00:21.970 --> 00:00:23.770
也没有通用指标

00:00:23.770 --> 00:00:26.155
可以告诉你怎么做

00:00:26.155 --> 00:00:28.120
所以问题的答案，

00:00:28.120 --> 00:00:31.180
我应该使用哪种算法
使用总是， 这取决于。

00:00:31.180 --> 00:00:33.400
这取决于尺寸，质量，

00:00:33.400 --> 00:00:35.170
和数据的性质，

00:00:35.170 --> 00:00:39.205
这取决于你想做什么
做这个具体的答案。

00:00:39.205 --> 00:00:41.650
最后，问题的答案，

00:00:41.650 --> 00:00:45.119
我应该使用哪些参数
也是非常具有挑战性的。

00:00:45.119 --> 00:00:47.090
如您了解，超等等器是

00:00:47.090 --> 00:00:50.435
更高级别参数
无法学习

00:00:50.435 --> 00:00:53.030
直接从数据使用

00:00:53.030 --> 00:00:56.215
梯度下降或其他
优化算法。

00:00:56.215 --> 00:00:59.600
他们描述了结构
有关模型的信息，

00:00:59.600 --> 00:01:03.380
必须在之前决定
拟合模型参数。

00:01:03.380 --> 00:01:06.125
模型参数设置
和搜索之前

00:01:06.125 --> 00:01:08.860
基于最优参数值

00:01:08.860 --> 00:01:13.065
学习和经验可以
也非常耗时。

00:01:13.065 --> 00:01:16.085
不同的估计器
更适合

00:01:16.085 --> 00:01:19.160
用于不同类型的数据
以及不同的问题。

00:01:19.160 --> 00:01:22.610
我经常说
解决中最难的部分

00:01:22.610 --> 00:01:24.170
机器学习问题可能是

00:01:24.170 --> 00:01:27.175
找到合适的
工作估计器。

00:01:27.175 --> 00:01:31.100
这就是为什么我经常使用
自动化机器学习，

00:01:31.100 --> 00:01:34.070
这是过程
自动化耗时

00:01:34.070 --> 00:01:37.295
和机器的迭代任务
学习模型开发。

00:01:37.295 --> 00:01:41.510
自动机器学习
考虑到不确定性，

00:01:41.510 --> 00:01:43.940
结合他们的
概率模型到

00:01:43.940 --> 00:01:47.090
确定最佳
管道尝试下一个。

00:01:47.090 --> 00:01:51.350
这种方法允许
自动机器学习到

00:01:51.350 --> 00:01:55.925
探索最有前途的
可能性，而不浪费时间。

00:01:55.925 --> 00:01:58.080
现在，让我们仔细看看

00:01:58.080 --> 00:02:01.790
不同的自动化
机器学习功能。

00:02:01.790 --> 00:02:04.670
首先，与自动化
机器学习，您需要

00:02:04.670 --> 00:02:08.255
识别机器学习
你想解决的问题。

00:02:08.255 --> 00:02:11.914
这些可以是分类，
预测或回归。

00:02:11.914 --> 00:02:14.060
然后，您必须指定源

00:02:14.060 --> 00:02:16.600
和格式
标记的训练数据。

00:02:16.600 --> 00:02:20.420
这将是 Numpy
数组或熊猫数据帧。

00:02:20.420 --> 00:02:22.640
最后，您需要配置

00:02:22.640 --> 00:02:25.055
计算机目标
模型培训，

00:02:25.055 --> 00:02:27.064
比如你的本地计算机，

00:02:27.064 --> 00:02:30.380
Azure 机器学习
计算，远程 VM，

00:02:30.380 --> 00:02:32.825
因此，我们的 Azure 数据砖，例如，

00:02:32.825 --> 00:02:35.240
在培训期间
Azure 机器学习

00:02:35.240 --> 00:02:37.700
基本上服务到一些

00:02:37.700 --> 00:02:42.635
尝试的 imparallel 管道
不同的算法和参数。

00:02:42.635 --> 00:02:45.140
它只会停止， 一旦它击中

00:02:45.140 --> 00:02:49.345
退出条件，你
在实验中定义。

00:02:49.345 --> 00:02:54.330
自动MLConfig 类表示
用于提交的配置

00:02:54.330 --> 00:02:56.500
自动化机器学习

00:02:56.500 --> 00:02:59.310
在 Azure 机器学习中进行实验。

00:02:59.310 --> 00:03:02.710
此配置对象
包含和收益

00:03:02.710 --> 00:03:06.245
配置的参数
周围的实验，

00:03:06.245 --> 00:03:10.145
以及培训数据，
需要在运行时使用。

00:03:10.145 --> 00:03:14.070
要了解更多信息，请参阅
aka.ms/AutoMLConfig-Class.

