Klasifikacija ansamblom metoda Flashcards
Osnovna ideja ansamblom metoda
ne postoji algoritam koji se najbolje ponasa u svim situacijama,kombinovanjem skupa metoda koje resavaju isti(originalni problem)
Cilj-dobijanje boljeg globalnog modela
obezbedjuje vecu preciznost i pouzdanost procene u odnosu na svaki pojedinacni model
Ansambl metoda
skup metoda koje zajedno nastupaju da bi se dobio bolji rezultat
Condorcet teorema
Neka grupa ljudi nezavisno jedan od drugog bira izmedju 2 mogucnosti od kojih je samo jedna ispravna,i neka je p verovatnoca da su izabrali ispravnu mogucnost.njihovi glasovi se kombinuju po pravilu vecine,i neka M oznacava verovatnocu da je vecina napravila korektan izbor.Ako je p > 0.5 tada M—>1 ako broj glasanja tezi beskonacnosti
posledica Condorcet teoreme
Gomila je pametnija od pojedinca pod relativno slabim uslovima.
Nedostaci: binarna klasifikacija + nezavisnost
koristimo mnogo slabih klasifikatora umesto jednog jakog jer su laksi za konstukciju u ansamblom modelu
Slabi i jaki klasifikatori
Jaki klasifikatori: greska klasifikacije moze da bude proizvoljno mala
Slabi klasifikatori: klasifikator koji je nesto bolji od obicnog slucajnog nagadjanja
Metode za konstrukciju
skup za trening,skup ulaznih atributa,oznaka klasa,menjanjem algoritma klasifikacije
Ansambl metoda bolje radi sa nestabilnim klasifikatorima,tj onim koji su osetljivi na neznatne promene u skupu za trening
Promena skupa za trening
1.Формира се више скупова за тренинг избором почетног скупа податка на основу неког критериjума.
2.Дистрибуциjа и избор елемената може да се мења при сваком избору
3.Класификатор се формира применом (истог) алгоритма класификациjе на сваки од скупова за тренинг.
Представници: алгоритми са додатним поjачавањем (енг.boosting) и паковањем (енг. bagging)
Промена скупа улазних атрибута
За сваки скуп података за тренинг бира се подскуп улазног скупа атрибута.
Избор може бити случаjан, или на основу датих директива
Показано jе да приступ ради jако добро у случаjу да
улазни скуп садржи редундантне податке.
Представници: насумична шума (енг. Random forest)
Промена скупа ознака класа
Користи се када jе скуп класа довољно велики
Тренинг скуп се трансформише у бинарни проблем (0/1)
случаjним груписањем класа у два дисjунктна скупа
Узастопним груписањима постиже се ефекат ансамбла;
при тестирању ако класификатор предвиди класу 0, тада
сви класификатори у његовоj групи добиjаjу jедна глас и
обратно.
Класа коjа добиjе наjвише гласова се додељуjе тест
примеру
Пример: кодирање излаза са отклањањем грешака
Мењење алгоритма за класификациjу
Неки класификацион алгоритми даjу различите моделе у
примени на исте податке
На пример, ансамбл метода са дрветима одлучивања
може да се конструише тако што се укључи случаjност у
процедуру раста дрвета
Паковање
Паковање (Bagging, Bootstrap AGGregatING) jе техника коjа формира податке за тест узастопним узорковањем података из почетног скупа у складу са унформном дистрибуциjом вероватноћа
Паковање
(алгоритам)
Neka je D skup ulaznih podataka i
k broj inicijalnih skupova
for i =1 to k do
formiraj inicijalni uzorak Di velicine N
Trenirati osnovni klasifikator Ci na skupu Di
end for
C *( x )= klasa koja je dobila najveci broj glasova
Поjачавање
Поjачавање (Boosting) jе техника адаптивне промене
дистрибуциjе тренинг података у зависности од претходних
грешака класификациjе
Инициjално, сваком од N слогова се додели jеднака тежина
Тежина се мења на краjу сваког циклуса - тежина слогова коjи
су погрешно класификовани се повећава, а тачних смањуjе
Финални класификатор комбинуjе гласове свих класификатора
у циклусу