Klasifikacija Flashcards

1
Q

Sta je zadatak klasifikacije?

A

odredjivanje funkcije koja preslikava svaki skup atributa X u jednu predefinisanu vrednost y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Kako se proverava karakteristika modela ?

A

Ulazni podaci se dele na 2 disjunktna dela,trening i test skup.Pri proveri se uporedjuju predvidjene vrednosti sa stvarnim vrednostima

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hantov algoritam

A

Opsta procedura za formiranje drveta,opisuje nacin podele materijala u cvorovu
Ako je Dt skup slogova za trening koji se nalazi u cvoru t i neka su y={y1,y2..yc} oznake klasa
opsti postupak je :
1.Ako Dt sadrzi samo slogove koji pripadaju istoj klasi yt tada je cvor list oznacen po nazivu klase yt.
2.Ako Dt sadrzi slogove koji se nalaze u vise od jedne klase,tada se na osnovu test atributa vrsi podela materijala u manje podskupove na koje se rekurzivno primenjuje kompletna procedura

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Odredjivanje najbolje podele

A

Najbolja podela se odredjuje pomocu mere necistoce ,mera homogenosti distribucije klasa u cvoru.
Gini,Entropija (nauciti formule)
Greska klasifikacije (formula)

Ginijev indeks = minimum (0.0) kada svi slogovi pripadaju jednoj klasi sadrzi najinteresantnije informacije

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Kriterijum podele po cvorovima

A

Posmatra se razlika mere necistoce u roditelj cvoru i deci cvorovima.Sto je razlika veca to je podela kvalitetnija.(Formule za dobitak za gini i eentropiju)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Uslovi testiranja atributa za podelu

A

u zavisnosti od tipa atributa:

Бинарни Именски Редни Непрекидни

u zavisnosti od broja nacina za podelu:

Binarni: uvek se dele na 2 grane

Imenski: podela na vise grana ,podela na 2 grane(trazi se optimalna podela)

jako je bitno ocuvati raspored !!

diskretizacija: od neprekidnih atributa formiraju se redni kategoricki atributi

binarna podela : A <v>= v</v>

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Alternativni kriterijum podele

A

Gini i entropija favorizuju atribute sa velikim brojem razlicitih vrednosti ,u nekim slucajevima se dobijaju pogresni rezultati

Strategije prevazilazenja problema:
-upotreba iskljucivo binarne podele
-ukljucivanje broja mogucih vrednosti

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Kriterijum zaustavljanja

A

Formiranje novih cvorova deobom sloga tekuceg cvora se zaustavlja kada:
1.svi slogovi u tekucem cvoru pripadaju istoj klasi
2.svi slogovi imaju iste vrednosti (svih ) atributa
3.ispunjen kriterijum ranijeg zaustavljanja

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Karakteristike drveta odlucivanja

A

-jeftina za konstruisanje
-jako brza u klasifikaciji nepoznatog materijala
-laka za interpretaciju za drveta male velicine
-preciznost je uporediva sa ostalim tehnikama klasifikacije za jedinstvene tipove podataka
-izbor mere necistoce nema veliki uticaj na preformanse
-primenljivost
-efikasnost izracunavanja
-rad sa nedostajucim vrednostima
-rad sa irelevantnim atributima i redudantnim atributima
-salba mogucnost rada sa povezanim atributima
-kriterijum podele samo jedan atribut —-> interval je pravouganog oblika
-kriterijum podele kombinacija vise atributa —–>moguce je obraditi i kose podatke
-izbor nacina potkresivanja znacajno utice na rezultate
-problem preprilagodjavanja i podprilagodjavanja

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Preprilagodjavanje i potprilagodjavanje

A

Model koji je isuvise dobro klasifikuje podatke za trening moze da ima losije karakteristike pri generalizaciji od modela koji ima vecu gresku u procesu pravljenja modela(overfitting)

ako je model isuvise jednostavan greske pri treniranju i uopstavanju mogu da budu jako visoke -premalo prilagodjen model (underfitting)

preprilagodjavanje se javlja kod drveta koja su slozenija nego sto je potrebno ,u tom slucaju greska pri treniranju ne daje korektnu procenu ponasanja drveta u slucaju primene na prethodno nepoznate podatke

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Procena greske u generalizaciji

A

Metode za procenu greske
- optimisticki pristup e(t) = e(t) -pesimisticki pristup e(t) =e(t) + 0.5(list)

od 2 modela sa slicnom greskom generalizacije izabrati onaj koji je jednostavniji Okamov princip

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Princip najmanje duzine (MDL)

A

Nacin na koji se ukljuci slozenost modela,dat je skup slogova sa poznatim X

Osoba A poznaje sve vrednosti klasa atributa y
Osoba B nema tu informaciju i moze da posalje zahtev A da prosledi sve oznake klasa-O(n) bitova gde je n broj slogova

Alternativno A moze da napravi model,kodira i posalje B

Ako je modle 100% tacan cena prenosa je jednaka ceni kodiranja modela,Ako nije potrebne su i informacije o nekorektno klasifikovanim slogovima.
MDL trazi model minimalne cene

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

pravilo ranijeg zaustavljanja

A

Algoritam se zaustavlja pre nego sto drvo naraste do maksimalne velicine
tipicni uslovi zaustavljanja:
-sve instance pripadaju istoj klasi
- vrednosti svih atributa su iste
-broj instanci je manji od neke unapred zadate granice
-distribucija instanci je nezavisna od raspolozivih atributa
-sirenje tekucih cvorova ne poboljsava meru cistoce

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Potkreesivanje po zavrsetku

A

Drvo odlucivanja raste do krajnjih granica,iseku se cvorovi u drvetu od dna ka vrhu
ako se greska generalizacije poboljsa posle otsecanja poddrvo se zameni sa cvorom koji je list
-Oznake klasa lista se odredjuje prema vecini klasa instanci poddrveta
-za potkresivanje se moze koristiti i MDL

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

mere preformansi izracunavanja

A

matrica konfuzije,tacnost,preciznost,odziv,F mera,tezinska preciznost,F(beta) (formule)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly