7. predavanje: Uvod u nadzirano strojno učenje Flashcards

1
Q

Navesti vrste nadziranog storjnog učenja.

A

Klasifikacija: izlaz y je diskretan
Regresija: izlaz y je kontinuiran

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Navesti vrste strojnog učenja.

A

Nadzirano, nenadzirano, podržano.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Nabrojati tehnike nadziranog strojnog učenja.

A

k-NN, Naive Bayes, linearna i logistička regresija, stroj potpornih vektora, slučajne šume, nadzirane neuronske mreže.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Nabrojati tehnike nenadziranog strojnog učenja.

A

Grupiranje, redukcija dimenzionalnosti, modreliranje tema, matrična faktorizacija, skriveni Markovljevi modeli.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nabrojiti i definirati izraze kojima se računaju mjere udaljenosti za algoritam k-NN.

A
  • euklidska udaljenost: d(x,y) = ||x - y||
  • cosine udaljenost: d(x,y) = 1 - (x⋅y) / (||x|| * ||y||)
  • Jaccard udaljenost: d(X,Y) = 1 - |X∩Y| / |X∪Y|
  • Hamming udaljenost: d(x,y) = sum_i (xi != yi)
  • Manhattan udaljenost: d(x,y) = sum_i( |xi - yi| )
  • Mahalanobis udaljenost
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Kako izbor parametra k utječe na iznos pristranosti (engl. bias) i varijance?

A

Mali k -> mala pristranost, visoka varijanca

Veliki k -> visoka pristranost, mala varijanca

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definirati pojam pristranosti.

A

Pristranost = srednja vrijednost odstojanja (engl. offset), razlike između predviđene i opažene vrijednosti.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Objasniti fenomen kletve dimenzionalnosti.

A

Kletva dimenzionalnosti odnosi se na fenomen koji se događa u visokim dimenzijama kada su zbog povećanja broja dimenzija podaci u višim dimenzijama rijetki, odnosno manje gusti nego u manjim dimenzijama.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Definirati komponente strukture stabla odluke.

A
  • čvor: test pojedinog atributa
  • grana: vrijednost atributa
  • list: oznaka klasa (labela)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Objasniti top-down divide-and-conquer strategiju za kontruiranje sabla odluke.

A
  1. svi primjeri za učenje pripadaju korijenu
  2. primjeri se dijele rekurzivno na temelju
    atributa koji najviše diskriminira
*diskriminativna snaga se temelji na 
 informacijskoj dobiti
*particioniranje prestaje kada:
     a) svi primjeri pripadaju istoj klasi
     b) nema atributa za dijeljenje
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Navesti izraz kojim se računa entropija za zadani skup s P pozitivnih i N negativnih primjera.

A

H(P,N) = -P/(P+N ) * log_2(P/(P+N)) -

N/(P+N) * log_2(N/(P+N))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Na primjeru objasniti postupak izgradnje stabla odluke.

A

Vidi slajd 54.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Zašto se provodi i koje su moguće tehnike orezivanja kod stabla odluke?

A

Budući da se u postupku generiranja stabla ne filtrira šum to može dovesti do prenaučenost zbog čega se provodi orezivanje. Tehnike: zaustavljanje dijeljenja čvorova kad broj preostalih primjera padne ispod određene granice, bottom-up unakrsna provjera.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Nabrojiti neke slabosti stabala odluke.

A

Osjetljiva na male perturbacije u podatcima (visoka varijanca), skloni prenaučenosti, nisu inkrementalni (potrebno je ponoviti cijeli postupak ispočetka ako se pojavi novi podatak).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Kako se mijenjaju pristranost i varijance povećanjem dubine stabla?

A

Povećanjem dubine stabla pristranost se smanjuje, varijance se povećava.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Koja je ideja iza zajednice metoda?

A

Uzmia se skup jednostavnih ili slabih algoritama i kombiniraju se da bi se dobio jedan bolji.

17
Q

Koje su vrste zajednice metoda?

A
  • Bagging: traniranje learnersa paralelno na
    različitim uzorcima, zatim kombiniranje
    glasova
  • Stacking: kombiniranje izlaza iz različitih
    modela korištenjem learnera na drugoj razini
  • Boosting: ponvaljanje učenja, ali nakon
    filtriranje/otežavanja primjera temeljeno na
    prethodnom ouptutu
18
Q

Objasniti princip rada slučajnih šuma.

A
  1. izvući K bootstrap uzoraka veličine N
  2. izgraditi K stabala odluke slučajnim izborom m
    od p značajki u svakom čvoru i izborom
    najbolje značajke za podjelu
  3. agregirati predviđanja stabala da bi se dobio
    odgovor za labelu klase ili vrijednost
19
Q

Kako je osigurana raznolikost u pojedinim stablima kod slučajnih šuma?

A
  1. izvlačenjem K bootstrap uzoraka veličine N: svako stablo je trenirano na različitom skupu
  2. izgradnjom svakog stabla odluke slučajnim izborom m od p značajki u svakom čvoru i izborom najbolje značajke za podjelu: odgovarajući čvorovi u različitim stablima obično ne koriste iste atribute za podjelu
20
Q

Kako se Boosted trees razlikuju od slučajnih šuma?

A

Za razliku od RF, čija su stabla trenirana nezavisno, BDT stabla su trenirana sekvencijalno koristeći boosting: Svako stablo je trenirano da predviđa korektno, ali korigira se pogreška (rezidual) iz prethodnog stabla (redukcija pristranosti).