Lecture 3 Flashcards

1
Q

Predobrada podataka

A
  • čišćenje podataka (nedostajući podaci, buka, outlier-i, nekonzistentni podaci): prvi korak
  • transformacija podataka (normalizacija, agregacija - kombinovanje 2 ili više atributa/objekata u jedan, zbog smanjenja podataka, promene skale, i stabilnijih podataka)
  • integracija podataka (integracija više baza podataka, kocki ili fajlova)
  • smanjivanje podataka (smanjen broj zapisa, atributa ili vrednosti)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Dimenzionalnost podataka

A

Ako je velika, to su podaci ređi u prostoru koji zauzimaju, pa su definicije gustine i udaljenosti manje relevantne.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Smanjenje dimenzionalnosti

A

Da se izbegne prethodno, smanji vreme i memorija potrebni za data mining algoritme, za lakšu vizuelizaciju podataka, pri izbacivanju nebitnih podataka i smanjenju buke

Tehnike: PCA, SVD, nadgledane i nelinearne tehnike

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

PCA

Smanjenje dimenzionalnosti

A

Principal Components Analysis: cilj je naći projekciju koja obuhvata najveći nivo varijacije u podacima.
Radi samo sa numeričkim podacima, koriste se ortogonalni vektori i mogu biti teški za interpretaciju.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Uzorkovanje

A

Glavna tehnika za smanjenje podataka (često se koristi i za preliminarnu analizu i za finalnu)
Najčešće se koristi u data mining-u (procesiranje celog skupa podataka je previše skupo ili oduzima previše vremena)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ključni princip uzorkovanja

A

Uzorak mora da bude reprezentativan, tada ima slične osobine kao i originalni skup podataka.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Tipovi uzorkovanja

A
  • Prosto nasumično uzorkovanje: jednaka verovatnoća biranja elementa -> uzorkovanje bez zamene (svaki izabrani element je izbačen iz populacije), uzorkovanje sa zamenom (izabrani element je i dalje u populaciji, pa može biti izabran više puta)
  • Stratifikovano uzorkovanje: podaci su podeljeni u nekoliko particija (nasumični uzorci iz svake particije)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Izbor podskupa atributa

A

Smanjenje dimenzionalnosti podataka
Uklanja nebitne podatke i duplikate
Tehnike: brute-force (svi mogući načini podskupova kao input za data mining), ugrađene (odabir atributa je prirodan deo data mining algoritma), filtriranja (jedan prolazak kroz podatake, atributi izabrani pre početka algoritma), wrapper (više prolazaka kroz podatke, data mining algoritam kao crna kutija za najbolji podskup atributa)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Kreiranje atributa

Izbor podskupa atributa

A

Kreiranje novih atributa koji bolje predstavljaju bitne podatke u skupu;
1. Ekstrakcija atributa
2. Konstrukcija atributa
3. Mapiranje podataka u novi prostor (Furijeove i Wavelet transformacije)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Diskretizacija

A

Proces pretvaranja neprekidnog atributa u redni (beskonačan broj vrednosti mapiran u mali broj kategorija; koristi se u klasifikaciji; algoritmi za klasifikaciju najbolje rade kada (ne)zavisni atributi imaju malo vrednosti).
- nesupervizirana diskretizacija nalazi prekide u vrednostima podataka
- supervizirana diskretizacija koristi labele klasa za nalaženje prekida (zasnovano na entropiji)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Bučni podaci

A
  • Sortiranje podataka i particionisanje u “kante” iste frekventnosti (posle toga smooth proces kroz srednje, granične vrednosti…)
  • Regresija (fit-ovanje podataka u funkcije regresije)
  • Klasterovanje (detekcija i uklanjanje outlier-a)
  • Kombinovana računarska i ljudska inspekcija (detekcija sumnjivih vrednosti i ljudska provera)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Sortiranje u kante

Proste metode diskretizacije

A
  • Jednake distance: najjednostavnije, ali outlier-i mogu da budu dominantni; iskrivljeni podaci nisu dobro obrađeni
  • Jednaka frekvencija: dobro skaliranje podataka, kategorički podaci mogu biti problematični
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Transformacija atributa

A

Funkcija mapira ceo skup vrednosti atributa u novi skup vrednosti
Standardizacija i normalizacija
Podaci izgledaju kao normalna distribucija, za zadovoljavanje algoritama
Normalizacija:
- Min-Max
- Z-score
- Decimalno skaliranje

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly