Lecture 2 Flashcards
Podaci
Definicija
Kolekcija objekata i njihovih atributa.
- Podaci mogu imati delove
- Mogu biti povezani
- Mogu biti nekompletni
Atribut
Definicija
Svojstvo ili karakteristika objekta.
Skup atributa opisuje objekat.
Promenljiva, polje, karakteristika…
Primer: boja očiju, temperatura…
Vrednosti atributa
Brojevi ili simboli dodeljeni atributu nekog objekta.
Tipovi atributa
- Nominalni (imenski): string, poređenje po vrednosti
- Ordinalni (redni): brojevi, uređen tip
- Intervalni: datumi, temperature; imaju jedinicu mere, +,-
- Razmerni: dužina, vreme; *,/
Tipovi atributa
Po broju vrednosti
- Diskretni: konačan ili prebrojivo beskonačan skup vrednosti; integer; specijalno: binarni atributi
- Neprekidni: realni brojevi; predstavljeni kao floating-point vrednosti
Asimetrični atributi
Ne-nula vrednost atributa je bitna; potrebne su dve binarne vrednosti za jedan binarni atribut
Obično dolaze iz objekata koji su skupovi.
Kritike/Nedostaci
- nekompletni atributi
- pravi podaci su približni i “bučni” (komplikovano prepoznavanje pravog tipa atributa)
- nisu dobri za statističku analizu (ograničava operacije i rezultate; transformacije česte ali ne očuvavaju skale/razmere)
Tip operacije i atributa treba da bude izabran u zavisnosti od potreba i tipa podataka.
Skupovi podataka
Tipovi
- Zapisi (matrica podataka, dokumenti i transakcije)
- Grafovi (WWW, molekularne strukture…)
- Uređeni skupovi (prostorni, vremenski, sekvencijalni podaci)
Karakteristike podataka
- Dimenzionalnost (broj atributa)
- Retkost (samo neprazni podaci i vrednosti atributa se računaju)
- Rezolucija/Odlučivanje (obrasci zavise od skale)
- Veličina (tip analize zavisi od veličine podataka)
Matrica podataka
Zapisi
Za podatke koji se mogu posmatrati kao tačke u multidimenzionalnom prostoru;
Matrica veličine m×n, m redova za svaki objekat, n kolona za svaki atribut.
Sastoji se od skupa zapisa, a svaki se sastoji od fiksnog skupa atributa
Transakcije
Zapisi
Svaka transakcija ima skup stavki.
Dokumenti
Zapisi
Svaki dokument je term vektor;
Svaki term je komponenta/atribut vektora;
Vrednost svake komponente je broj puta koliko se term pojavljuje u dokumentu.
Problemi kvaliteta podataka
- Outlier-i i “buka”
- Nedostajuće vrednosti
- Duplikati
- Pogrešni podaci
Outlier-i i “buka”
Za objekte: buka su spoljašnji (nebitni) objekti
Za atribute: buka je modifikacija originalnih vrednosti
Outlier-i: objekti sa drastično različitim karakteristikama u odnosu na ostatak skupa podataka (mogu biti buka, a mogu se samo oni i posmatrati)
Nedostajuće vrednosti
Razlozi: nisu prikupljeni podaci, atributi nisu primenljivi na sve slučajeve
Rešavanje: ignorisanje tokom analize, aproksimacija nedostajućih podataka, eliminacija objekata i varijabli
Tipovi nedostajućih vrednosti
MCAR (Missing completely at random): nedostatak vrednosti je nezavisan od atributa; dopunjuje se vrednostima na osnovu atributa; analiza takvih podataka može biti bez bias-a.
MAR (Missing at Random): zavisi od drugih atributa; na osnovu drugih vrednosti se dopunjuje, i uvek ima bias u analizi.
MNAR (Missing not at random): zavisi od neprimećenih merenja, može biti informativna ili neignorljiva.
Ne može se uočiti iz podataka.
Rešenja nedostajućih vrednosti
- Pokušaj da se pronađu nedostajući podaci (uglavnom nerealno)
- Educated guess (nije preporučljivo)
- Odbacivanje podataka
- brisanje čitavog objekta (CCA): najčešće, ako MCAR nije zadovoljen ili nije dovoljno veliki set, nije optimalno
- po parovima (ADA): čuva više podataka nego CCA, manje biased za MCAR ili MAR, analize su svaki put drugačije
- izbacivanje celog atributa: zavisi od situacije, poslednja opcija - Čuvanje svih podataka (Mean, Median, Mode se koriste kao vrednosti imputacije; poslednja vrednost u NA (LOCF), sledeća vrednost u NA (NOCB), linearna interpolacija, dodavanje kategorije za NA, česta imputacija kategorije, imputacija proizvoljne vrednosti, dodavanje promenljive za NA, imputacija pri random sampling-u)
Duplikati
Javlja se kada se sastavljaju podaci iz različitih izvora. Treba ih obrisati tokom čišćenja.
Mere sličnosti i različitosti
Mera sličnosti: numerička vrednost predstavlja koliko su dva objekta slična, veća kada su sličniji, u rasponu 0,1
Mera različitosti: numerička vrednost poredstavlja koliko su dva objekta različita, manja kada su sličniji, 0 kao minimum, max. vrednost varira.
Približnost označava sličnost, odnosno, različitost
Koriste se: Euklidska i Minkoviski distanca
Osobine distance
s(x,y)=1, maksimalno, kada je x=y
s(x,y)=s(y,x), simetrija