2. predavanje: Rukovanje podacima Flashcards

1
Q

Što je rukovanje podacima?

A

Općeniti naziv za sve operacije nad podacima koje slijede nakon preuzimanja izvornih podataka s mjesta pohrane sve do početka analize statističkim postupcima i postupcima strojnog učenja.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Koje su posljedice korištenja sirovih podataka u daljnjoj statističkoj analizi?

A
  • Može onemogućiti ispravno postavljanje cilja analize
  • Može srušiti algoritme strojnog učenja ili davati nevjerodostojne rezultate
  • Može dovesti do neispravnih zaključaka
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Rukovanje podacima sastoji se od sljedećih koraka:

A
  1. Pregled skupa podataka: vizualna i statistička dijagnostika
  2. Transformacija skupa podataka: modela, formata i dimenzija
  3. Čišćenje skupa podataka: uklanjanje pogrešaka, duplikata, sinonima, stršećih i nedostajućih vrijednosti
  4. Provjera skupa podataka
  5. Učitavanje skupa podataka: u prigodnu strukturu
    - ———————————————————
  6. Poboljšavanje skupa podataka
  7. Inženjerstvo značajki
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Nabrojiti vrste čestih problema u podacima.

A

Nedostajući, netočni, nekonzistentnosti u podacima, stršeći, rijetki, šumoviti, monotoni atributi, nebalansirani skupovi podataka.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nabrojiti glavne vrste nedostajućih podataka.

A
  • Nedostajuće (ali poznate) vrijednosti: nisu
    unesene, ali postoje
  • Prazne (nepoznate) vrijednosti: ne može se
    pretpostaviti vrijednost u stvarnom svijetu
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Na koji se način rješava problem nedostajućih podataka?

A

Zanemarivanjem svih primjera koji ih sadrže, zamijenom nedostajuće vrijednosti nekom drugom (mjera sredine, mediana ili najčešćom kategorijom).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Na koji način se detektiraju netočni podaci?

A

Detaljnim pregledom skupa podataka, vizualizacijom i promišljanjem o podacima.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Navesti dva tipa nekonzistentnosti u podacima.

A

Različiti atributi mogu biti predstavljeni istim imenom u različitim sustavima i jedan atribut može imati više sinonima (npr. Merc, Mercedes, M-Benz, Mrcds).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Opisati pojavu stršećih podataka.

A

Podaci koji odudaraju daleko izvan uobičajenih vrijednosti za određene atribute.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Navesti korištene postupke otkrivanja stršećih podataka.

A

Vizualizacija podataka, statistički postupci (z-skor, vjerojatnosni modeli, linearna regresija), algoritmi nenadziranog strojnog učenja, normalizacija podataka.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Opisati pojavu rijetkih podataka i problem koji uzrokuju.

A

Slučaj kada za neke atribute samo mali broj primjera ima vrijednost različitu od 0, većina algoritama strojnog učenja loše radi s rijetkim podacima.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Opisati pojavu šumovitih podataka.

A

Šum u podacima je u nekoj mjeri prisutan u svim podacima koji su rezultat mjerenja putem određenih senzora, iako šum može biti i rezultat utjecaja prirodnih procesa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Opisati pojavu monotonih atributa.

A

Monotoni atributi su takvi atributi čija vrijednost raste (ili se smanjuje) bez ograničenja.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Opisati idealne skupove podataka.

A

Skupovi podataka koje prati dokumentacija/stručni članak i programski kod, format podataka koji je lako obraditi, ranije očišćeni i pripremljeni skupovi podataka.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Opisati poboljšavanje skupa podataka.

A

Proces umjetnog povećavanja broja primjera: generiranje novih sintetskih primjera.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Definirati inženjerstvo značajki.

A

Inženjerstvo značajki je proces kojim se nastoje odabrati ili transformirati najbitnije značajke iz pripremljenog skupa podataka s ciljem uspješnog modeliranja. Cilj je pronaći optimalni skup značajki za neki problem.

17
Q

Navesti pristupe inženjerstvu značajki.

A
  • Ručni pristup: računanje značajki iz sirovih
    podataka
  • Poluatomatizirani pristup
  • Potpuno automatizirani pristup
18
Q

Navesti načine ručnog pristupa inženjerstvu značajki.

A
  • Dodavanje novih značajki na temelju
    postojećih: binning, one-hot encoding,
    normalization (decimalno skaliranje, min-max,
    z-skor), ručno kombiniranje više značajki
    u jednu
  • Uklanjanje nebitnih značajki: monotone,
    konstantne, statistički redundantne
19
Q

Navesti tehnike poluautomatiziranog pristupa inženjerstvu značajki.

A
  • Odabir značajki: zadržava se interpretacija
    značajki (filteri, omotači, ugrađeni postupci,
    hibridni) - najmanji mogući broj značajki koji
    daje najbolje rezultate
  • Izgradnja značajki: iterativna primjena različitih
    operatora za izgradnju novih značajki
  • Redukcija dimenzionalnosti.
20
Q

Opisati filterske postupke za odabir značajki.

A

Filterski postupci definiraju kriterij koliko je određena značajka bitna za opis ciljne varijable. Obično se značajke rangiraju s obzirom na taj kriterij.

21
Q

Opisati postupke omotača za odabir značajki.

A

Koriste algoritam strojnog učenja za evaluaciju određenog posdskupa značajki kako bi donijeli odluku o tome je li taj podskup bolji/isti/lošiji od nekog nadskupa.

22
Q

Opisati ugrađene postupke za odabir značajki.

A

Izbor značajki koji se temelji na nekom algoritmu strojnog učenja.

23
Q

Opisati hibridne postupke za odabir značajki.

A

Kombiniraju najbolja svojstva filtera i postupaka omotača.

24
Q

Opisati potpuno automatizirani pristup inženjerstvu značajki.

A

Pristup kojim se zaoblilazi ekspretno izlučivanje značajki uz pretpostavku da se radi nad sirovim ulaznim podacima. Neki poznati algoritmi za učenje značajki: PCA, ICA, višeslojni perceptron, CNN, autoenkoderi, ograničeni Boltzmanovi strojevi.

25
Q

Što se sve smatra privatnim podatkom?

A

Medicinski, financijski i osobni podaci (OIB, broj osobne iskaznice, putovnice).