7. predavanje: Uvod u nadzirano strojno učenje Flashcards
Navesti vrste nadziranog storjnog učenja.
Klasifikacija: izlaz y je diskretan
Regresija: izlaz y je kontinuiran
Navesti vrste strojnog učenja.
Nadzirano, nenadzirano, podržano.
Nabrojati tehnike nadziranog strojnog učenja.
k-NN, Naive Bayes, linearna i logistička regresija, stroj potpornih vektora, slučajne šume, nadzirane neuronske mreže.
Nabrojati tehnike nenadziranog strojnog učenja.
Grupiranje, redukcija dimenzionalnosti, modreliranje tema, matrična faktorizacija, skriveni Markovljevi modeli.
Nabrojiti i definirati izraze kojima se računaju mjere udaljenosti za algoritam k-NN.
- euklidska udaljenost: d(x,y) = ||x - y||
- cosine udaljenost: d(x,y) = 1 - (x⋅y) / (||x|| * ||y||)
- Jaccard udaljenost: d(X,Y) = 1 - |X∩Y| / |X∪Y|
- Hamming udaljenost: d(x,y) = sum_i (xi != yi)
- Manhattan udaljenost: d(x,y) = sum_i( |xi - yi| )
- Mahalanobis udaljenost
Kako izbor parametra k utječe na iznos pristranosti (engl. bias) i varijance?
Mali k -> mala pristranost, visoka varijanca
Veliki k -> visoka pristranost, mala varijanca
Definirati pojam pristranosti.
Pristranost = srednja vrijednost odstojanja (engl. offset), razlike između predviđene i opažene vrijednosti.
Objasniti fenomen kletve dimenzionalnosti.
Kletva dimenzionalnosti odnosi se na fenomen koji se događa u visokim dimenzijama kada su zbog povećanja broja dimenzija podaci u višim dimenzijama rijetki, odnosno manje gusti nego u manjim dimenzijama.
Definirati komponente strukture stabla odluke.
- čvor: test pojedinog atributa
- grana: vrijednost atributa
- list: oznaka klasa (labela)
Objasniti top-down divide-and-conquer strategiju za kontruiranje sabla odluke.
- svi primjeri za učenje pripadaju korijenu
- primjeri se dijele rekurzivno na temelju
atributa koji najviše diskriminira
*diskriminativna snaga se temelji na informacijskoj dobiti *particioniranje prestaje kada: a) svi primjeri pripadaju istoj klasi b) nema atributa za dijeljenje
Navesti izraz kojim se računa entropija za zadani skup s P pozitivnih i N negativnih primjera.
H(P,N) = -P/(P+N ) * log_2(P/(P+N)) -
N/(P+N) * log_2(N/(P+N))
Na primjeru objasniti postupak izgradnje stabla odluke.
Vidi slajd 54.
Zašto se provodi i koje su moguće tehnike orezivanja kod stabla odluke?
Budući da se u postupku generiranja stabla ne filtrira šum to može dovesti do prenaučenost zbog čega se provodi orezivanje. Tehnike: zaustavljanje dijeljenja čvorova kad broj preostalih primjera padne ispod određene granice, bottom-up unakrsna provjera.
Nabrojiti neke slabosti stabala odluke.
Osjetljiva na male perturbacije u podatcima (visoka varijanca), skloni prenaučenosti, nisu inkrementalni (potrebno je ponoviti cijeli postupak ispočetka ako se pojavi novi podatak).
Kako se mijenjaju pristranost i varijance povećanjem dubine stabla?
Povećanjem dubine stabla pristranost se smanjuje, varijance se povećava.
Koja je ideja iza zajednice metoda?
Uzmia se skup jednostavnih ili slabih algoritama i kombiniraju se da bi se dobio jedan bolji.
Koje su vrste zajednice metoda?
- Bagging: traniranje learnersa paralelno na
različitim uzorcima, zatim kombiniranje
glasova - Stacking: kombiniranje izlaza iz različitih
modela korištenjem learnera na drugoj razini - Boosting: ponvaljanje učenja, ali nakon
filtriranje/otežavanja primjera temeljeno na
prethodnom ouptutu
Objasniti princip rada slučajnih šuma.
- izvući K bootstrap uzoraka veličine N
- izgraditi K stabala odluke slučajnim izborom m
od p značajki u svakom čvoru i izborom
najbolje značajke za podjelu - agregirati predviđanja stabala da bi se dobio
odgovor za labelu klase ili vrijednost
Kako je osigurana raznolikost u pojedinim stablima kod slučajnih šuma?
- izvlačenjem K bootstrap uzoraka veličine N: svako stablo je trenirano na različitom skupu
- izgradnjom svakog stabla odluke slučajnim izborom m od p značajki u svakom čvoru i izborom najbolje značajke za podjelu: odgovarajući čvorovi u različitim stablima obično ne koriste iste atribute za podjelu
Kako se Boosted trees razlikuju od slučajnih šuma?
Za razliku od RF, čija su stabla trenirana nezavisno, BDT stabla su trenirana sekvencijalno koristeći boosting: Svako stablo je trenirano da predviđa korektno, ali korigira se pogreška (rezidual) iz prethodnog stabla (redukcija pristranosti).