Lecture 2 Flashcards
Podaci
Definicija
Kolekcija objekata i njihovih atributa.
- Podaci mogu imati delove
- Mogu biti povezani
- Mogu biti nekompletni
Atribut
Definicija
Svojstvo ili karakteristika objekta.
Skup atributa opisuje objekat.
Promenljiva, polje, karakteristika…
Primer: boja očiju, temperatura…
Vrednosti atributa
Brojevi ili simboli dodeljeni atributu nekog objekta.
Tipovi atributa
- Nominalni (imenski): string, poređenje po vrednosti
- Ordinalni (redni): brojevi, uređen tip
- Intervalni: datumi, temperature; imaju jedinicu mere, +,-
- Razmerni: dužina, vreme; *,/
Tipovi atributa
Po broju vrednosti
- Diskretni: konačan ili prebrojivo beskonačan skup vrednosti; integer; specijalno: binarni atributi
- Neprekidni: realni brojevi; predstavljeni kao floating-point vrednosti
Asimetrični atributi
Ne-nula vrednost atributa je bitna; potrebne su dve binarne vrednosti za jedan binarni atribut
Obično dolaze iz objekata koji su skupovi.
Kritike/Nedostaci
- nekompletni atributi
- pravi podaci su približni i “bučni” (komplikovano prepoznavanje pravog tipa atributa)
- nisu dobri za statističku analizu (ograničava operacije i rezultate; transformacije česte ali ne očuvavaju skale/razmere)
Tip operacije i atributa treba da bude izabran u zavisnosti od potreba i tipa podataka.
Skupovi podataka
Tipovi
- Zapisi (matrica podataka, dokumenti i transakcije)
- Grafovi (WWW, molekularne strukture…)
- Uređeni skupovi (prostorni, vremenski, sekvencijalni podaci)
Karakteristike podataka
- Dimenzionalnost (broj atributa)
- Retkost (samo neprazni podaci i vrednosti atributa se računaju)
- Rezolucija/Odlučivanje (obrasci zavise od skale)
- Veličina (tip analize zavisi od veličine podataka)
Matrica podataka
Zapisi
Za podatke koji se mogu posmatrati kao tačke u multidimenzionalnom prostoru;
Matrica veličine m×n, m redova za svaki objekat, n kolona za svaki atribut.
Sastoji se od skupa zapisa, a svaki se sastoji od fiksnog skupa atributa
Transakcije
Zapisi
Svaka transakcija ima skup stavki.
Dokumenti
Zapisi
Svaki dokument je term vektor;
Svaki term je komponenta/atribut vektora;
Vrednost svake komponente je broj puta koliko se term pojavljuje u dokumentu.
Problemi kvaliteta podataka
- Outlier-i i “buka”
- Nedostajuće vrednosti
- Duplikati
- Pogrešni podaci
Outlier-i i “buka”
Za objekte: buka su spoljašnji (nebitni) objekti
Za atribute: buka je modifikacija originalnih vrednosti
Outlier-i: objekti sa drastično različitim karakteristikama u odnosu na ostatak skupa podataka (mogu biti buka, a mogu se samo oni i posmatrati)
Nedostajuće vrednosti
Razlozi: nisu prikupljeni podaci, atributi nisu primenljivi na sve slučajeve
Rešavanje: ignorisanje tokom analize, aproksimacija nedostajućih podataka, eliminacija objekata i varijabli