WEBVTT

00:00:02.000 --> 00:00:05.040
>> Salut tout le monde, et bienvenue à

00:00:05.040 --> 00:00:07.890
Introduction des développeurs
à Data Science.

00:00:07.890 --> 00:00:10.560
L’apprentissage automatique des données et l’IA,

00:00:10.560 --> 00:00:14.250
sont tous critiques, mais comment peut-on
vous commencez avec eux?

00:00:14.250 --> 00:00:16.110
Dans cette vidéo, nous allons apprendre

00:00:16.110 --> 00:00:18.660
quel est le cycle de vie de la science des données.

00:00:18.660 --> 00:00:22.560
Le cycle de vie est conçu pour
projets de science des données qui sont

00:00:22.560 --> 00:00:27.480
destiné à façonner dans le cadre de
vos applications intelligentes.

00:00:27.480 --> 00:00:30.150
Le cycle de vie de la science des données est

00:00:30.150 --> 00:00:32.850
composé de cinq grands
étapes qui sont;

00:00:32.850 --> 00:00:36.540
compréhension des affaires, données
acquisition et compréhension,

00:00:36.540 --> 00:00:40.110
modélisation, déploiement,
et l’acceptation du client.

00:00:40.110 --> 00:00:43.245
Commençons par
compréhension des affaires.

00:00:43.245 --> 00:00:46.035
Ici, il y a deux objectifs principaux.

00:00:46.035 --> 00:00:49.310
Le premier est d’environ
définir les objectifs.

00:00:49.310 --> 00:00:50.570
Vous devez travailler avec

00:00:50.570 --> 00:00:53.540
vos clients et autres
parties prenantes à comprendre,

00:00:53.540 --> 00:00:55.625
identifier les problèmes commerciaux.

00:00:55.625 --> 00:00:59.610
Le deuxième objectif est d’environ
l’identification des sources de données.

00:00:59.610 --> 00:01:02.600
Vous devez trouver les
données qui vous aident à répondre

00:01:02.600 --> 00:01:04.310
la question qui définit

00:01:04.310 --> 00:01:07.310
l’objectif de votre
projet de science des données.

00:01:07.310 --> 00:01:11.030
Après cela, nous avons des données
acquisition et compréhension.

00:01:11.030 --> 00:01:15.800
Les objectifs ici sont de produire
un jeu de données propre et de haute qualité,

00:01:15.800 --> 00:01:18.425
et de développer un
architecture de solution de

00:01:18.425 --> 00:01:22.375
le pipeline de données qui
actualise et marque vos données.

00:01:22.375 --> 00:01:24.090
Il y a trois étapes principales,

00:01:24.090 --> 00:01:26.280
comme vous pouvez le voir. Ingérer les données.

00:01:26.280 --> 00:01:28.310
Ici, vous devez
ingérer vos données dans

00:01:28.310 --> 00:01:31.535
l’environnement analytique cible
que vous allez utiliser,

00:01:31.535 --> 00:01:34.460
alors vous devez explorer
les données pour déterminer si

00:01:34.460 --> 00:01:37.340
la qualité des données est bonne
assez pour répondre à la question,

00:01:37.340 --> 00:01:39.230
et enfin, vous devez mettre en place

00:01:39.230 --> 00:01:43.055
un pipeline de données à marquer
données nouvelles et actualiser.

00:01:43.055 --> 00:01:46.275
Après cela, il y a
l’étape de modélisation.

00:01:46.275 --> 00:01:50.250
Ici, l’objectif principal est
l’ingénierie des fonctionnalités,

00:01:50.250 --> 00:01:52.550
vous devez créer le
caractéristiques de données de

00:01:52.550 --> 00:01:55.250
les données brutes pour faciliter
la formation modèle.

00:01:55.250 --> 00:01:58.190
Formation de modèle, vous avez besoin
pour trouver le modèle qui

00:01:58.190 --> 00:02:01.390
répondre à la question en
d’une manière très précise,

00:02:01.390 --> 00:02:03.395
et aussi vous devez comparer

00:02:03.395 --> 00:02:05.780
différentes mesures de succès afin de

00:02:05.780 --> 00:02:08.420
comprendre ce qui est le mieux
modèle pour votre solution,

00:02:08.420 --> 00:02:10.520
et enfin, vous devez déterminer si

00:02:10.520 --> 00:02:13.190
votre modèle convient
pour la production,

00:02:13.190 --> 00:02:15.950
est prêt à être déployé.

00:02:15.950 --> 00:02:19.470
Enfin, il y a le déploiement.

00:02:19.470 --> 00:02:22.880
Ici, nous devons déployer le
modèle et le pipeline vers

00:02:22.880 --> 00:02:26.360
un environnement de production de
consommation d’applications.

00:02:26.360 --> 00:02:27.860
Pour déployer vos modèles,

00:02:27.860 --> 00:02:31.775
vous devez les exposer
avec une interface API ouverte.

00:02:31.775 --> 00:02:34.505
L’interface permet au modèle d’être

00:02:34.505 --> 00:02:37.670
facilement consommé à partir de différents
types d’applications.

00:02:37.670 --> 00:02:41.250
Un exemple de ces
application sont site web en ligne,

00:02:41.250 --> 00:02:45.425
feuille de calcul, tableau de bord,
applications back-end.

00:02:45.425 --> 00:02:50.405
Après cela, vous devez finaliser
vos livrables de projet.

00:02:50.405 --> 00:02:53.480
Vous devez confirmer que
le pipeline, le modèle,

00:02:53.480 --> 00:02:56.925
et leur déploiement dans un
l’environnement de production pour satisfaire,

00:02:56.925 --> 00:03:01.345
bien sûr, aussi vos clients
ou les objectifs des parties prenantes.

00:03:01.345 --> 00:03:03.800
Vous pouvez en apprendre davantage sur

00:03:03.800 --> 00:03:08.610
le cycle de vie de la science des données à
aka.ms/datasciencelifecycle.

