WEBVTT

00:00:03.200 --> 00:00:08.100
"> Vítejte zpět vývojářům
úvod do datové vědy.

00:00:08.100 --> 00:00:12.510
Častá otázka ukazuje, že
mnoho zákazníků, vývojářů,

00:00:12.510 --> 00:00:15.030
ale také data vědci se mě ptají, je,

00:00:15.030 --> 00:00:18.690
které strojové učení
algoritmus bych měl použít?

00:00:18.690 --> 00:00:24.465
Vždycky odpovím, záleží na tom,
na mnoha různých faktorech.

00:00:24.465 --> 00:00:27.300
Ale co je nejdůležitější,
algoritmus, který vyberete, závisí na

00:00:27.300 --> 00:00:30.750
na jednom aspektu vašeho
scénář datové vědy.

00:00:30.750 --> 00:00:32.880
Co chcete
s vašimi daty?

00:00:32.880 --> 00:00:36.515
To jsou nejdůležitější otázky
že byste se měli zeptat sami sebe.

00:00:36.515 --> 00:00:39.200
Konkrétně další
důležitou otázkou je,

00:00:39.200 --> 00:00:41.870
co je podnikání
otázky, které chcete

00:00:41.870 --> 00:00:45.305
odpověď učením
z vašich minulých dat?

00:00:45.305 --> 00:00:48.679
Strojové učení má mnoho
různé algoritmy,

00:00:48.679 --> 00:00:51.740
a každý jiný algoritmus
vám může pomoci dosáhnout

00:00:51.740 --> 00:00:55.200
jiný cíl a odpověď
jinou otázku.

00:00:55.200 --> 00:00:57.615
Podíváme se na některé z nich.

00:00:57.615 --> 00:01:01.755
První z nich je předpovědět
mezi různými kategoriemi.

00:01:01.755 --> 00:01:04.940
Zde máme dva různé
typy metod,

00:01:04.940 --> 00:01:07.160
a máme dvoutřídní
Klasifikace

00:01:07.160 --> 00:01:08.960
což je skvělé v odpovědi

00:01:08.960 --> 00:01:12.315
otázka, která je
otázky se dvěma volbami,

00:01:12.315 --> 00:01:15.150
Jako ano nebo ne, pravda nebo lež.

00:01:15.150 --> 00:01:18.545
Pak máme
klasifikace více tříd,

00:01:18.545 --> 00:01:21.110
což je skvělé v odpovědi
komplexní otázky

00:01:21.110 --> 00:01:24.355
s několika možnými možnostmi.

00:01:24.355 --> 00:01:27.560
Můžete také použít
učení o vašich datech, aby

00:01:27.560 --> 00:01:30.405
objevovat partnery ve vašich datech.

00:01:30.405 --> 00:01:32.450
Zde máme tři různé typy

00:01:32.450 --> 00:01:34.805
metody, jako jsou doporučující

00:01:34.805 --> 00:01:37.400
které jsou skvělé při předpovídání toho, co

00:01:37.400 --> 00:01:40.220
někdo bude mít zájem
v budoucnu.

00:01:40.220 --> 00:01:46.085
Clustering je skvělý v oddělení
podobných datových bodů do skupin.

00:01:46.085 --> 00:01:50.030
A konečně, detekce anomálií,
což je skvělé na

00:01:50.030 --> 00:01:55.450
identifikaci a předpovídání
vzácných nebo neobvyklých datových bodů.

00:01:55.450 --> 00:01:58.715
Další věc, kterou můžete udělat
s vašimi daty je ve skutečnosti

00:01:58.715 --> 00:02:02.405
pochopení toho, co
obraz je prezentující,

00:02:02.405 --> 00:02:05.045
a také pochopení
v přirozeném jazyce.

00:02:05.045 --> 00:02:08.960
Zde máme metody, jako je
jako klasifikace obrazu,

00:02:08.960 --> 00:02:13.130
který je schopen identifikovat
obrazu s neuronovými sítěmi.

00:02:13.130 --> 00:02:16.325
Také textanalýsa, která je schopna

00:02:16.325 --> 00:02:20.660
odvozuje vysoce kvalitní
informace z textu.

00:02:20.660 --> 00:02:23.150
A konečně, pokud potřebujete předpovědět

00:02:23.150 --> 00:02:26.285
výsledky založené na
vztah mezi hodnotami,

00:02:26.285 --> 00:02:29.930
můžete použít jiný
typ regresní metody.

00:02:29.930 --> 00:02:34.310
S regresí jste
obecně dělat prognózu

00:02:34.310 --> 00:02:39.580
odhad vztahu
mezi vašimi hodnotami.

00:02:39.580 --> 00:02:44.715
Pro tento konkrétní případ použití
že Sara se snaží vyřešit,

00:02:44.715 --> 00:02:46.980
Myslím, že musíme předpovědět

00:02:46.980 --> 00:02:50.395
kolik kol bude
pronajaté v příští hodině.

00:02:50.395 --> 00:02:53.660
Opravdu si myslím, že
předpověď, a co je nejdůležitější,

00:02:53.660 --> 00:02:58.460
regrese je správná metoda
které bychom měli používat, protože

00:02:58.460 --> 00:03:00.620
opravdu chtějí předpovědět výsledek

00:03:00.620 --> 00:03:04.290
na základě vztahu
mezi hodnotami.

