Lecture 2 Flashcards

1
Q

Podaci

Definicija

A

Kolekcija objekata i njihovih atributa.
- Podaci mogu imati delove
- Mogu biti povezani
- Mogu biti nekompletni

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Atribut

Definicija

A

Svojstvo ili karakteristika objekta.
Skup atributa opisuje objekat.

Promenljiva, polje, karakteristika…

Primer: boja očiju, temperatura…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vrednosti atributa

A

Brojevi ili simboli dodeljeni atributu nekog objekta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Tipovi atributa

A
  • Nominalni (imenski): string, poređenje po vrednosti
  • Ordinalni (redni): brojevi, uređen tip
  • Intervalni: datumi, temperature; imaju jedinicu mere, +,-
  • Razmerni: dužina, vreme; *,/
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tipovi atributa

Po broju vrednosti

A
  • Diskretni: konačan ili prebrojivo beskonačan skup vrednosti; integer; specijalno: binarni atributi
  • Neprekidni: realni brojevi; predstavljeni kao floating-point vrednosti
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Asimetrični atributi

A

Ne-nula vrednost atributa je bitna; potrebne su dve binarne vrednosti za jedan binarni atribut
Obično dolaze iz objekata koji su skupovi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Kritike/Nedostaci

A
  • nekompletni atributi
  • pravi podaci su približni i “bučni” (komplikovano prepoznavanje pravog tipa atributa)
  • nisu dobri za statističku analizu (ograničava operacije i rezultate; transformacije česte ali ne očuvavaju skale/razmere)

Tip operacije i atributa treba da bude izabran u zavisnosti od potreba i tipa podataka.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Skupovi podataka

Tipovi

A
  • Zapisi (matrica podataka, dokumenti i transakcije)
  • Grafovi (WWW, molekularne strukture…)
  • Uređeni skupovi (prostorni, vremenski, sekvencijalni podaci)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Karakteristike podataka

A
  • Dimenzionalnost (broj atributa)
  • Retkost (samo neprazni podaci i vrednosti atributa se računaju)
  • Rezolucija/Odlučivanje (obrasci zavise od skale)
  • Veličina (tip analize zavisi od veličine podataka)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Matrica podataka

Zapisi

A

Za podatke koji se mogu posmatrati kao tačke u multidimenzionalnom prostoru;
Matrica veličine m×n, m redova za svaki objekat, n kolona za svaki atribut.

Sastoji se od skupa zapisa, a svaki se sastoji od fiksnog skupa atributa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Transakcije

Zapisi

A

Svaka transakcija ima skup stavki.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Dokumenti

Zapisi

A

Svaki dokument je term vektor;
Svaki term je komponenta/atribut vektora;
Vrednost svake komponente je broj puta koliko se term pojavljuje u dokumentu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Problemi kvaliteta podataka

A
  • Outlier-i i “buka”
  • Nedostajuće vrednosti
  • Duplikati
  • Pogrešni podaci
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Outlier-i i “buka”

A

Za objekte: buka su spoljašnji (nebitni) objekti
Za atribute: buka je modifikacija originalnih vrednosti
Outlier-i: objekti sa drastično različitim karakteristikama u odnosu na ostatak skupa podataka (mogu biti buka, a mogu se samo oni i posmatrati)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Nedostajuće vrednosti

A

Razlozi: nisu prikupljeni podaci, atributi nisu primenljivi na sve slučajeve
Rešavanje: ignorisanje tokom analize, aproksimacija nedostajućih podataka, eliminacija objekata i varijabli

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Tipovi nedostajućih vrednosti

A

MCAR (Missing completely at random): nedostatak vrednosti je nezavisan od atributa; dopunjuje se vrednostima na osnovu atributa; analiza takvih podataka može biti bez bias-a.
MAR (Missing at Random): zavisi od drugih atributa; na osnovu drugih vrednosti se dopunjuje, i uvek ima bias u analizi.
MNAR (Missing not at random): zavisi od neprimećenih merenja, može biti informativna ili neignorljiva.
Ne može se uočiti iz podataka.

16
Q

Rešenja nedostajućih vrednosti

A
  1. Pokušaj da se pronađu nedostajući podaci (uglavnom nerealno)
  2. Educated guess (nije preporučljivo)
  3. Odbacivanje podataka
    - brisanje čitavog objekta (CCA): najčešće, ako MCAR nije zadovoljen ili nije dovoljno veliki set, nije optimalno
    - po parovima (ADA): čuva više podataka nego CCA, manje biased za MCAR ili MAR, analize su svaki put drugačije
    - izbacivanje celog atributa: zavisi od situacije, poslednja opcija
  4. Čuvanje svih podataka (Mean, Median, Mode se koriste kao vrednosti imputacije; poslednja vrednost u NA (LOCF), sledeća vrednost u NA (NOCB), linearna interpolacija, dodavanje kategorije za NA, česta imputacija kategorije, imputacija proizvoljne vrednosti, dodavanje promenljive za NA, imputacija pri random sampling-u)
17
Q

Duplikati

A

Javlja se kada se sastavljaju podaci iz različitih izvora. Treba ih obrisati tokom čišćenja.

18
Q

Mere sličnosti i različitosti

A

Mera sličnosti: numerička vrednost predstavlja koliko su dva objekta slična, veća kada su sličniji, u rasponu 0,1
Mera različitosti: numerička vrednost poredstavlja koliko su dva objekta različita, manja kada su sličniji, 0 kao minimum, max. vrednost varira.
Približnost označava sličnost, odnosno, različitost
Koriste se: Euklidska i Minkoviski distanca

19
Q

Osobine distance

A

s(x,y)=1, maksimalno, kada je x=y
s(x,y)=s(y,x), simetrija