10) Strojno učenje Flashcards

Question 1

Q

Objasniti osnovne koncepte SU (model, treniranje, predvidanje, generalizacija)

Answer

A

Model - Raspolažemo modelom koji je definiran do na neke parametre
Treniranje - proces učenja na podacima
Predviđanje - Na temelju viđenih podataka, model mora moći predvidjeti svojstva novih, još nevidenih podataka
Generalizacija - sposobnost modela da dobro zaključuje na dosad neviđenim podacima

Question 2

Q

Razlikovati tri osnovna pristupa strojnom učenju i navesti primjere za svaki

Answer

A

Nadzirano učenje (engl. supervised learning)
Ako je y je diskretna/nebrojˇcana vrijednost: klasifikacija
Ako je y kontinuirana/brojˇcana vrijednost: regresija
Nenadzirano učenje (engl. unsupervised learning)
grupiranje (engl. clustering)
otkrivanje strˇse´cih/novih vrijednosti (engl.outlier/novelty detection)
smanjenje dimenzionalnosti (engl. dimensionality reduction)
Podržano/ojačano učenje (engl. reinforcement learning)
Učenje optimalne strategije na temelju pokušaja s odgodenom nagradom

Question 3

Q

Navesti barem pet tipičnih primjena strojnog učenja

Answer

A

Raspoznavanje rukom pisanih brojeva
Odredivanje kreditne sposobnosti
Postavljanje dijagnoza u medicini
Analiza teksta
Autonomna vožnja
Predviđanje ishoda izbora
Predviđanje temperature i vremena
Analiza DNA
Igranje igara kao Go i Šah

Question 4

Q

Objasniti prenaučenost i unakrsnu provjeru

Answer

A

Ako je model presložen, previše će se prilagoditi podatcima na kojima je treniran, a davat će loše predikcije na nevidenim podatcima ⇒ prenaučenost (engl. overfitting)
Kako bismo izbjegli prenaučenost, moramo ispitati koliko dobro će model raditi na nevidenim podatcima ⇒ metoda unakrsne provjere (engl. cross-validation)
Budući da neviđeni primjeri nisu dostupni, dio primjera koje imamo izdvajamo da “glume” nevidene primjere. Podjela skupa podataka na skup za uˇčenje i skup za testiranje
(tipično 70%–30%)
Model učimo na skupu za učenje, a zatim pomoću tog modela radimo predikciju na skupu za testiranje i na tom skupu računamo točnost (ili pogrešku). Točnost/pogreška modela na skupu za testiranje upućuje na sposobnost generalizacije modela.
Kod nekih je modela moguće ugadati njihovu složenost
(npr. podrezivanje stabla odluke)
Kako bismo odredili optimalnu složenost modela, treba nam treći skup podataka na kojem ćemo računati točnost/ pogrešku modela: skup za provjeru
Podjela skupa podataka na skup za učenje, skup za provjeru
(engl. validation set) i skup za testiranje, npr.: 40% 30% 30%
Modele različite složenosti treniramo na skupu za učenje i svaki ispitujemo na skupu za provjeru.
Nakon što smo odabrali optimalan model na skupu za provjeru, točnost/pogrešku tog modela izračunavamo na skupu za testiranje.

Question 5

Q

Definirati i objasniti naivan Bayesov klasifikator i pretpostavke na kojima se temelji

Answer

A

Algoritam nadziranog SU temeljen na Bayesovom pravilu. Bayesovo pravilo izravno se može upotrijebiti kao klasifikacijski model
I Hipoteza H → klasa y
I Dokazi E1, . . . , En → primjer x = (x1, . . . , xn)
Model:
P(y|x) = P(x|y)P(y)/P(x) = P(x|y)P(y)/suma po y(P(x|y’)P(y’))
gdje je:
P(y) je apriorna vjerojatnost klase (engl. prior)
P(x|y) je izglednost klase (engl. class likelihood)
P(y|x) je aposteriorna vjerojatnost klase (engl. posterior)
Isto kao i u slučaju više dokaza, uvodimo pretpostavku uvjetne nezavisnosti: značajke xj su uvjetno nezavisne za danu klasu y. Ovaj model nazivamo naivan Bayesov klasifikator (engl. naive Bayes classifier). Model je “naivan” jer pretpostavka o uvjetnoj nezavisnosti značajki općenito ne vrijedi (između značajki općenito postoje interakcije)
Optimalna klasifikacijska odluka je da primjer klasificiramo u klasu sa najvećom aposteriornom vjerojatnošću
Takvu klasifikacijsku odluku nazivamo hipoteza maksimum aposteriori ili MAP-hipoteza
Tipične primjene: klasifikacija dokumenata, filtriranje neželjene pošte
Ako pretpostavke o uvjetnoj nezavisnosti ne vrijede, može se koristiti polunaivan Bayesov klasifikator (složeniji model)

Question 6

Q

Definirati i objasniti procjenu najveće izglednosti i Laplaceovo zagladivanje

Answer

A

Procjena vjerojatnosti kao relativnih frekvencija naziva se procjena najveće izglednosti (engl. maximum likelihood estimation, MLE), jer takva procjena maksimizira izglednost parametara modela (vjerojatnost podataka pod modelom)
Procjene najveće izglednosti za apriorne vjerojatnosti klasa i izglednosti klasa Bayesovog klasifikatora jesu:
P(y = v) = |Dy=v|/ |D|
P(xj = w|y = v) = |Dy=v ∧ xj=w| / |Dy=v|
gdje je D skup primjera, a DP je podskup primjera koji zadovoljavaju P
MLE je najjednostavnija procjena parametara (vjerojatnosti
Bayesovog klasifikatora), medutim podložna je prenaučenosti. Kod Bayesovog klasifikatora: izglednosti klasa za kombinacije koje se nisu pojavile u skupu primjera za učenje jednake su nuli. Rješenje je da malo
preraspodijelimo masu vjerojatnosti s kombinacija
koje smo opazili na kombinacije koje nismo opazili.
Takav postupak zove se zagladivanje (engl. smoothing)
Najjednostavniji postupak zagladivanja je Laplaceovo zaglađivanje.
P(xj = w|y = v) = |Dy=v ∧ xj=w| + α / |Dy=v|+ α|V (xj )|

Question 7

Q

Primijeniti Bayesov klasifikator na zadani skup podataka (treniranje i predikcija)

Question 8

Q

Navesti prednosti i nedostatke naivnog Bayesovog klasifikatora

Answer

A

Prednosti:
I jednostavan i brz algoritam (lako je trenirati model)
I može raditi s viševrijednosnim značajkama i sa više klasa odjednom
I radi dobro s velikim brojem značajki (linearan je u broju značajki)
I daje dobre predikcije ako vrijede uvjetne nezavisnosti značajki
Nedostatci:
I u stvarnosti, značajke su rijetko uvjetno nezavisne i točnost klasifikacije je to lošija što su značajke više zavisne

Question 9

Q

Objasniti i dati primjer klasifikacije pomoću stabla odluke

Answer

A

Čvor: atribut
Grana: značajka atributa
List: klasifikacija (odluka, oznaka klase)
Jedna staza od korijena do lista = jedno pravilo
Primjer se klasificira slijednim ispitivanjem vrijednosti značajki, krenuvši od korijena (vrha) stabla prema dnu (listovima). Kada se dosegne list, primjer se klasificira oznakom lista
Praksa:
- Graditi što jednostavnije stablo jer bolje generalizira
- Kriterij za odabir najpovoljnije značajke = IG, E

Question 10

Q

Definirati i objasniti kriterij informacijske dobiti

Answer

A

Preferiramo značajke koje što bolje diskriminira izmedu
primjera za učenje prema ciljnoj oznaci y. Kriterij informacijske dobiti (engl. information gain) mjeri očekivano
smanjenje entropije skupa primjera uslijed podjele primjera po vrijednostima neke značajke. Informacijska dobit (IG) značajke x na skupu primjera D je:
IG(D, x) = E(D) - suma po značajkama (|Dx=v|/|D| * E(Dx=v) gdje je E(D) entropija skupa primjera D, DP je podskup primjera koji zadovoljavaju uvjet P, a V (x) je skup mogućih vrijednosti značajke x.

Question 11

Q

Definirati algoritam ID3

Answer

A

Algoritam ID3 (Iterative Dichotomiser 3) jednostavan je algoritam za izgradnju stabla odluke koji je predložio Ross Quinlan 1986. godine. AKo je skup primjera prazan, vraćamo najčešću oznaku u čvoru iznad. Ako smo prošli sve značajke, vraćamo najčešću klasifikaciju u ovom čvoru. Inače biramo značajku koja od svih dostupnih ima najveću informacijsku dobit za stvaranje novog čvora, njene grane su njene vrijednosti

Question 12

Q

Primijeniti algoritam ID3 na zadani skup podataka (treniranje i predikcija)

Answer

A

Izgradi stablo

Question 13

Q

Objasniti prenaučenost stabla odluke i pristupe da se ona spriječi

Answer

A

Model savršeno klasificira primjere iz skupa za učenje, ali loše klasificira nevidene primjere ⇒ loša generalizacija. Do prenaučenosti dolazi ako primjeri za učenje sadržavaju šum što dovodi do izgradnje vrlo različitog staba od onoga što bi trebalo biti. Dva pristupa za sprječavanje prenaučenosti:
1) Ograničavanje rasta stabla prije dosezanja savršene klasifikacije na skupu primjera za učenje
2) Naknadno podrezivanje prenaučenog stabla
- zamjena postabala listovima
- pretvorba stabla u ako-onda pravila te uklanjanje uvjeta u
antecedentima pravila
Intrinzični kriteriji za zaustavljanje rasta stabla:
- dosezanje unaprijed definirane maksimalne dubinu stabla
- broj primjera u nekom čvoru je manji od unaprijed zadanog broja
- pad entropije je manji od manji od unaprijed definiranog praga
Ekstrinzični kriterij za zaustavljanje rasta ili podrezivanje stabla:
- pad točnosti (porast pogreške) na skupu primjera za provjeru

Question 14

Q

Navesti prednosti i nedostatke stabla odluke

Answer

A

Prednosti:
ne moramo znati sve vjerojatnosti da bismo pravilno klasificirali primjerak
Nedostaci:
mali šumovi kreiraju vrlo različita stabla