WEBVTT

00:00:02.000 --> 00:00:05.040
>> Ciao a tutti, e bentornati a

00:00:05.040 --> 00:00:07.890
Introduzione agli sviluppatori
all'analisi scientifica dei dati.

00:00:07.890 --> 00:00:10.560
Data science machine learning e AI,

00:00:10.560 --> 00:00:14.250
sono tutti critici, ma come può
si inizia con loro?

00:00:14.250 --> 00:00:16.110
In questo video, impareremo

00:00:16.110 --> 00:00:18.660
qual è il ciclo di vita dell'analisi scientifica dei dati.

00:00:18.660 --> 00:00:22.560
Il ciclo di vita è progettato per
progetti di data science che sono

00:00:22.560 --> 00:00:27.480
destinato a modellare come parte di
applicazioni intelligenti.

00:00:27.480 --> 00:00:30.150
Il ciclo di vita dell'analisi scientifica dei dati è

00:00:30.150 --> 00:00:32.850
composto da cinque principali
stadi che sono;

00:00:32.850 --> 00:00:36.540
comprensione aziendale, dati
l'acquisizione e la comprensione,

00:00:36.540 --> 00:00:40.110
modellazione, distribuzione,
e l'accettazione da parte del cliente.

00:00:40.110 --> 00:00:43.245
Cominciamo con
comprensione aziendale.

00:00:43.245 --> 00:00:46.035
Qui ci sono due obiettivi principali.

00:00:46.035 --> 00:00:49.310
Il primo riguarda
definire gli obiettivi.

00:00:49.310 --> 00:00:50.570
È necessario lavorare con

00:00:50.570 --> 00:00:53.540
i vostri clienti e altri
parti interessate per comprendere,

00:00:53.540 --> 00:00:55.625
identificare i problemi aziendali.

00:00:55.625 --> 00:00:59.610
Il secondo obiettivo riguarda
l'identificazione delle origini dati.

00:00:59.610 --> 00:01:02.600
È necessario trovare le
dati che ti aiutano a rispondere

00:01:02.600 --> 00:01:04.310
la domanda che definiscono

00:01:04.310 --> 00:01:07.310
l'obiettivo del vostro
progetto di data science.

00:01:07.310 --> 00:01:11.030
Dopo questo, abbiamo dati
l'acquisizione e la comprensione.

00:01:11.030 --> 00:01:15.800
Gli obiettivi qui sono di produrre
un set di dati pulito e di alta qualità,

00:01:15.800 --> 00:01:18.425
e di sviluppare un
architettura di soluzione di

00:01:18.425 --> 00:01:22.375
la pipeline di dati che
aggiorna e punteggia i dati.

00:01:22.375 --> 00:01:24.090
Ci sono tre passi principali,

00:01:24.090 --> 00:01:26.280
come potete vedere. Inserire i dati.

00:01:26.280 --> 00:01:28.310
Qui è necessario
inserire i dati in

00:01:28.310 --> 00:01:31.535
l'ambiente analitico target
che userai,

00:01:31.535 --> 00:01:34.460
allora è necessario esplorare
i dati per determinare se

00:01:34.460 --> 00:01:37.340
la qualità dei dati è buona
abbastanza per rispondere alla domanda,

00:01:37.340 --> 00:01:39.230
e, infine, è necessario impostare

00:01:39.230 --> 00:01:43.055
una pipeline di dati per segnare
nuovi e aggiornare i dati.

00:01:43.055 --> 00:01:46.275
Dopo questo, c'è
la fase di modellazione.

00:01:46.275 --> 00:01:50.250
Qui l'obiettivo principale è
tecniche,

00:01:50.250 --> 00:01:52.550
è necessario creare il
funzioni di dati da

00:01:52.550 --> 00:01:55.250
i dati grezzi per facilitare
il modello di training.

00:01:55.250 --> 00:01:58.190
Formazione del modello, è necessario
per trovare il modello che

00:01:58.190 --> 00:02:01.390
rispondere alla domanda in
un modo molto preciso,

00:02:01.390 --> 00:02:03.395
e anche è necessario confrontare

00:02:03.395 --> 00:02:05.780
diverse metriche di successo al fine di

00:02:05.780 --> 00:02:08.420
capire qual è il migliore
modello per la soluzione,

00:02:08.420 --> 00:02:10.520
e, infine, è necessario determinare se

00:02:10.520 --> 00:02:13.190
il vostro modello è adatto
per la produzione,

00:02:13.190 --> 00:02:15.950
è pronto per essere distribuito.

00:02:15.950 --> 00:02:19.470
Infine, c'è la distribuzione.

00:02:19.470 --> 00:02:22.880
Qui abbiamo bisogno di distribuire il
modello e la pipeline per

00:02:22.880 --> 00:02:26.360
un ambiente di produzione di
consumo dell'applicazione.

00:02:26.360 --> 00:02:27.860
Per distribuire i modelli,

00:02:27.860 --> 00:02:31.775
è necessario esporle
con un'interfaccia API aperta.

00:02:31.775 --> 00:02:34.505
L'interfaccia consente al modello di essere

00:02:34.505 --> 00:02:37.670
facilmente consumato da diversi
tipi di applicazioni.

00:02:37.670 --> 00:02:41.250
Un esempio di questi
applicazioni sono siti online,

00:02:41.250 --> 00:02:45.425
foglio di calcolo, cruscotto,
applicazioni back-end.

00:02:45.425 --> 00:02:50.405
Dopo questo, è necessario finalizzare
risultati finali del progetto.

00:02:50.405 --> 00:02:53.480
È necessario confermare che
la pipeline, il modello,

00:02:53.480 --> 00:02:56.925
e la loro distribuzione in un
ambiente di produzione per soddisfare,

00:02:56.925 --> 00:03:01.345
naturalmente, anche i vostri clienti
obiettivi delle parti interessate.

00:03:01.345 --> 00:03:03.800
Per saperne di più su

00:03:03.800 --> 00:03:08.610
il ciclo di vita della scienza dei dati a
aka.ms/datasciencelifecycle.

