Lecture 3 Flashcards
Predobrada podataka
- čišćenje podataka (nedostajući podaci, buka, outlier-i, nekonzistentni podaci): prvi korak
- transformacija podataka (normalizacija, agregacija - kombinovanje 2 ili više atributa/objekata u jedan, zbog smanjenja podataka, promene skale, i stabilnijih podataka)
- integracija podataka (integracija više baza podataka, kocki ili fajlova)
- smanjivanje podataka (smanjen broj zapisa, atributa ili vrednosti)
Dimenzionalnost podataka
Ako je velika, to su podaci ređi u prostoru koji zauzimaju, pa su definicije gustine i udaljenosti manje relevantne.
Smanjenje dimenzionalnosti
Da se izbegne prethodno, smanji vreme i memorija potrebni za data mining algoritme, za lakšu vizuelizaciju podataka, pri izbacivanju nebitnih podataka i smanjenju buke
Tehnike: PCA, SVD, nadgledane i nelinearne tehnike
PCA
Smanjenje dimenzionalnosti
Principal Components Analysis: cilj je naći projekciju koja obuhvata najveći nivo varijacije u podacima.
Radi samo sa numeričkim podacima, koriste se ortogonalni vektori i mogu biti teški za interpretaciju.
Uzorkovanje
Glavna tehnika za smanjenje podataka (često se koristi i za preliminarnu analizu i za finalnu)
Najčešće se koristi u data mining-u (procesiranje celog skupa podataka je previše skupo ili oduzima previše vremena)
Ključni princip uzorkovanja
Uzorak mora da bude reprezentativan, tada ima slične osobine kao i originalni skup podataka.
Tipovi uzorkovanja
- Prosto nasumično uzorkovanje: jednaka verovatnoća biranja elementa -> uzorkovanje bez zamene (svaki izabrani element je izbačen iz populacije), uzorkovanje sa zamenom (izabrani element je i dalje u populaciji, pa može biti izabran više puta)
- Stratifikovano uzorkovanje: podaci su podeljeni u nekoliko particija (nasumični uzorci iz svake particije)
Izbor podskupa atributa
Smanjenje dimenzionalnosti podataka
Uklanja nebitne podatke i duplikate
Tehnike: brute-force (svi mogući načini podskupova kao input za data mining), ugrađene (odabir atributa je prirodan deo data mining algoritma), filtriranja (jedan prolazak kroz podatake, atributi izabrani pre početka algoritma), wrapper (više prolazaka kroz podatke, data mining algoritam kao crna kutija za najbolji podskup atributa)
Kreiranje atributa
Izbor podskupa atributa
Kreiranje novih atributa koji bolje predstavljaju bitne podatke u skupu;
1. Ekstrakcija atributa
2. Konstrukcija atributa
3. Mapiranje podataka u novi prostor (Furijeove i Wavelet transformacije)
Diskretizacija
Proces pretvaranja neprekidnog atributa u redni (beskonačan broj vrednosti mapiran u mali broj kategorija; koristi se u klasifikaciji; algoritmi za klasifikaciju najbolje rade kada (ne)zavisni atributi imaju malo vrednosti).
- nesupervizirana diskretizacija nalazi prekide u vrednostima podataka
- supervizirana diskretizacija koristi labele klasa za nalaženje prekida (zasnovano na entropiji)
Bučni podaci
- Sortiranje podataka i particionisanje u “kante” iste frekventnosti (posle toga smooth proces kroz srednje, granične vrednosti…)
- Regresija (fit-ovanje podataka u funkcije regresije)
- Klasterovanje (detekcija i uklanjanje outlier-a)
- Kombinovana računarska i ljudska inspekcija (detekcija sumnjivih vrednosti i ljudska provera)
Sortiranje u kante
Proste metode diskretizacije
- Jednake distance: najjednostavnije, ali outlier-i mogu da budu dominantni; iskrivljeni podaci nisu dobro obrađeni
- Jednaka frekvencija: dobro skaliranje podataka, kategorički podaci mogu biti problematični
Transformacija atributa
Funkcija mapira ceo skup vrednosti atributa u novi skup vrednosti
Standardizacija i normalizacija
Podaci izgledaju kao normalna distribucija, za zadovoljavanje algoritama
Normalizacija:
- Min-Max
- Z-score
- Decimalno skaliranje