WEBVTT

00:00:02.000 --> 00:00:05.040
>> Hola a todos, y bienvenidos de nuevo a

00:00:05.040 --> 00:00:07.890
Introducción a los desarrolladores
a Ciencia de Datos.

00:00:07.890 --> 00:00:10.560
Aprendizaje automático de ciencia de datos e IA,

00:00:10.560 --> 00:00:14.250
son todos críticos, pero ¿cómo puede
¿Empiezas con ellos?

00:00:14.250 --> 00:00:16.110
En este video, vamos a aprender

00:00:16.110 --> 00:00:18.660
cuál es el ciclo de vida de la ciencia de datos.

00:00:18.660 --> 00:00:22.560
El ciclo de vida está diseñado para
proyectos de ciencia de datos que son

00:00:22.560 --> 00:00:27.480
destinado a dar forma como parte de
sus aplicaciones inteligentes.

00:00:27.480 --> 00:00:30.150
El ciclo de vida de la ciencia de datos es

00:00:30.150 --> 00:00:32.850
compuesto por cinco
etapas que son;

00:00:32.850 --> 00:00:36.540
comprensión del negocio, datos
adquisición y comprensión,

00:00:36.540 --> 00:00:40.110
modelado, despliegue,
y la aceptación del cliente.

00:00:40.110 --> 00:00:43.245
Empecemos con
comprensión empresarial.

00:00:43.245 --> 00:00:46.035
Aquí hay dos objetivos principales.

00:00:46.035 --> 00:00:49.310
El primero es sobre
definir los objetivos.

00:00:49.310 --> 00:00:50.570
Necesitas trabajar con

00:00:50.570 --> 00:00:53.540
sus clientes y otros
partes interesadas para entender,

00:00:53.540 --> 00:00:55.625
identificar los problemas del negocio.

00:00:55.625 --> 00:00:59.610
El segundo objetivo es
identificación de orígenes de datos.

00:00:59.610 --> 00:01:02.600
Es necesario encontrar la
datos que le ayudan a responder

00:01:02.600 --> 00:01:04.310
la pregunta que definen

00:01:04.310 --> 00:01:07.310
el objetivo de su
proyecto de ciencia de datos.

00:01:07.310 --> 00:01:11.030
Después de esto, tenemos datos
adquisición y comprensión.

00:01:11.030 --> 00:01:15.800
Los objetivos aquí son producir
un conjunto de datos limpio y de alta calidad,

00:01:15.800 --> 00:01:18.425
y desarrollar una
arquitectura de la solución de

00:01:18.425 --> 00:01:22.375
la canalización de datos que
actualiza y punt obtiene puntuaciones de sus datos.

00:01:22.375 --> 00:01:24.090
Hay tres pasos principales,

00:01:24.090 --> 00:01:26.280
como pueden ver. Ingerir los datos.

00:01:26.280 --> 00:01:28.310
Aquí es necesario
ingerir sus datos en

00:01:28.310 --> 00:01:31.535
el entorno analítico objetivo
que vas a usar,

00:01:31.535 --> 00:01:34.460
entonces usted necesita explorar
los datos para determinar si

00:01:34.460 --> 00:01:37.340
la calidad de los datos es buena
suficiente para responder a la pregunta,

00:01:37.340 --> 00:01:39.230
y finalmente, necesitas configurar

00:01:39.230 --> 00:01:43.055
una canalización de datos para puntuar
nuevos y actualizar datos.

00:01:43.055 --> 00:01:46.275
Después de esto, hay
la etapa de modelado.

00:01:46.275 --> 00:01:50.250
Aquí el objetivo principal son
ingeniería de características,

00:01:50.250 --> 00:01:52.550
necesita crear el
características de datos de

00:01:52.550 --> 00:01:55.250
los datos brutos para facilitar
el modelo de entrenamiento.

00:01:55.250 --> 00:01:58.190
Entrenamiento modelo, necesita
para encontrar el modelo que

00:01:58.190 --> 00:02:01.390
responder a la pregunta en
una manera muy precisa,

00:02:01.390 --> 00:02:03.395
y también hay que comparar

00:02:03.395 --> 00:02:05.780
diferentes métricas de éxito con el fin de

00:02:05.780 --> 00:02:08.420
entender lo que es el mejor
modelo para su solución,

00:02:08.420 --> 00:02:10.520
y finalmente, usted necesita determinar si

00:02:10.520 --> 00:02:13.190
su modelo es adecuado
para la producción,

00:02:13.190 --> 00:02:15.950
está listo para ser desplegado.

00:02:15.950 --> 00:02:19.470
Por último, hay implementación.

00:02:19.470 --> 00:02:22.880
Aquí tenemos que desplegar el
modelo y el gasoducto para

00:02:22.880 --> 00:02:26.360
un entorno de producción de
consumo de aplicaciones.

00:02:26.360 --> 00:02:27.860
Para implementar los modelos,

00:02:27.860 --> 00:02:31.775
necesitas exponerlos
con una interfaz API abierta.

00:02:31.775 --> 00:02:34.505
La interfaz permite que el modelo sea

00:02:34.505 --> 00:02:37.670
fácil de consumir de diferentes
tipos de aplicaciones.

00:02:37.670 --> 00:02:41.250
Algunos ejemplos de estos
aplicación son sitio web en línea,

00:02:41.250 --> 00:02:45.425
hoja de cálculo, tablero,
aplicaciones back-end.

00:02:45.425 --> 00:02:50.405
Después de esto, usted necesita finalizar
entregas de su proyecto.

00:02:50.405 --> 00:02:53.480
Es necesario confirmar que
la canalización, el modelo,

00:02:53.480 --> 00:02:56.925
y su despliegue en un
ambiente de producción para satisfacer,

00:02:56.925 --> 00:03:01.345
por supuesto, también sus clientes
o los objetivos de las partes interesadas.

00:03:01.345 --> 00:03:03.800
Puede obtener más información sobre

00:03:03.800 --> 00:03:08.610
el ciclo de vida de la ciencia de datos en
aka.ms/datasciencelifecycle.

