7. predavanje: Uvod u nadzirano strojno učenje Flashcards
Navesti vrste nadziranog storjnog učenja.
Klasifikacija: izlaz y je diskretan
Regresija: izlaz y je kontinuiran
Navesti vrste strojnog učenja.
Nadzirano, nenadzirano, podržano.
Nabrojati tehnike nadziranog strojnog učenja.
k-NN, Naive Bayes, linearna i logistička regresija, stroj potpornih vektora, slučajne šume, nadzirane neuronske mreže.
Nabrojati tehnike nenadziranog strojnog učenja.
Grupiranje, redukcija dimenzionalnosti, modreliranje tema, matrična faktorizacija, skriveni Markovljevi modeli.
Nabrojiti i definirati izraze kojima se računaju mjere udaljenosti za algoritam k-NN.
- euklidska udaljenost: d(x,y) = ||x - y||
- cosine udaljenost: d(x,y) = 1 - (x⋅y) / (||x|| * ||y||)
- Jaccard udaljenost: d(X,Y) = 1 - |X∩Y| / |X∪Y|
- Hamming udaljenost: d(x,y) = sum_i (xi != yi)
- Manhattan udaljenost: d(x,y) = sum_i( |xi - yi| )
- Mahalanobis udaljenost
Kako izbor parametra k utječe na iznos pristranosti (engl. bias) i varijance?
Mali k -> mala pristranost, visoka varijanca
Veliki k -> visoka pristranost, mala varijanca
Definirati pojam pristranosti.
Pristranost = srednja vrijednost odstojanja (engl. offset), razlike između predviđene i opažene vrijednosti.
Objasniti fenomen kletve dimenzionalnosti.
Kletva dimenzionalnosti odnosi se na fenomen koji se događa u visokim dimenzijama kada su zbog povećanja broja dimenzija podaci u višim dimenzijama rijetki, odnosno manje gusti nego u manjim dimenzijama.
Definirati komponente strukture stabla odluke.
- čvor: test pojedinog atributa
- grana: vrijednost atributa
- list: oznaka klasa (labela)
Objasniti top-down divide-and-conquer strategiju za kontruiranje sabla odluke.
- svi primjeri za učenje pripadaju korijenu
- primjeri se dijele rekurzivno na temelju
atributa koji najviše diskriminira
*diskriminativna snaga se temelji na informacijskoj dobiti *particioniranje prestaje kada: a) svi primjeri pripadaju istoj klasi b) nema atributa za dijeljenje
Navesti izraz kojim se računa entropija za zadani skup s P pozitivnih i N negativnih primjera.
H(P,N) = -P/(P+N ) * log_2(P/(P+N)) -
N/(P+N) * log_2(N/(P+N))
Na primjeru objasniti postupak izgradnje stabla odluke.
Vidi slajd 54.
Zašto se provodi i koje su moguće tehnike orezivanja kod stabla odluke?
Budući da se u postupku generiranja stabla ne filtrira šum to može dovesti do prenaučenost zbog čega se provodi orezivanje. Tehnike: zaustavljanje dijeljenja čvorova kad broj preostalih primjera padne ispod određene granice, bottom-up unakrsna provjera.
Nabrojiti neke slabosti stabala odluke.
Osjetljiva na male perturbacije u podatcima (visoka varijanca), skloni prenaučenosti, nisu inkrementalni (potrebno je ponoviti cijeli postupak ispočetka ako se pojavi novi podatak).
Kako se mijenjaju pristranost i varijance povećanjem dubine stabla?
Povećanjem dubine stabla pristranost se smanjuje, varijance se povećava.