2. predavanje: Rukovanje podacima Flashcards
Što je rukovanje podacima?
Općeniti naziv za sve operacije nad podacima koje slijede nakon preuzimanja izvornih podataka s mjesta pohrane sve do početka analize statističkim postupcima i postupcima strojnog učenja.
Koje su posljedice korištenja sirovih podataka u daljnjoj statističkoj analizi?
- Može onemogućiti ispravno postavljanje cilja analize
- Može srušiti algoritme strojnog učenja ili davati nevjerodostojne rezultate
- Može dovesti do neispravnih zaključaka
Rukovanje podacima sastoji se od sljedećih koraka:
- Pregled skupa podataka: vizualna i statistička dijagnostika
- Transformacija skupa podataka: modela, formata i dimenzija
- Čišćenje skupa podataka: uklanjanje pogrešaka, duplikata, sinonima, stršećih i nedostajućih vrijednosti
- Provjera skupa podataka
- Učitavanje skupa podataka: u prigodnu strukturu
- ——————————————————— - Poboljšavanje skupa podataka
- Inženjerstvo značajki
Nabrojiti vrste čestih problema u podacima.
Nedostajući, netočni, nekonzistentnosti u podacima, stršeći, rijetki, šumoviti, monotoni atributi, nebalansirani skupovi podataka.
Nabrojiti glavne vrste nedostajućih podataka.
- Nedostajuće (ali poznate) vrijednosti: nisu
unesene, ali postoje - Prazne (nepoznate) vrijednosti: ne može se
pretpostaviti vrijednost u stvarnom svijetu
Na koji se način rješava problem nedostajućih podataka?
Zanemarivanjem svih primjera koji ih sadrže, zamijenom nedostajuće vrijednosti nekom drugom (mjera sredine, mediana ili najčešćom kategorijom).
Na koji način se detektiraju netočni podaci?
Detaljnim pregledom skupa podataka, vizualizacijom i promišljanjem o podacima.
Navesti dva tipa nekonzistentnosti u podacima.
Različiti atributi mogu biti predstavljeni istim imenom u različitim sustavima i jedan atribut može imati više sinonima (npr. Merc, Mercedes, M-Benz, Mrcds).
Opisati pojavu stršećih podataka.
Podaci koji odudaraju daleko izvan uobičajenih vrijednosti za određene atribute.
Navesti korištene postupke otkrivanja stršećih podataka.
Vizualizacija podataka, statistički postupci (z-skor, vjerojatnosni modeli, linearna regresija), algoritmi nenadziranog strojnog učenja, normalizacija podataka.
Opisati pojavu rijetkih podataka i problem koji uzrokuju.
Slučaj kada za neke atribute samo mali broj primjera ima vrijednost različitu od 0, većina algoritama strojnog učenja loše radi s rijetkim podacima.
Opisati pojavu šumovitih podataka.
Šum u podacima je u nekoj mjeri prisutan u svim podacima koji su rezultat mjerenja putem određenih senzora, iako šum može biti i rezultat utjecaja prirodnih procesa.
Opisati pojavu monotonih atributa.
Monotoni atributi su takvi atributi čija vrijednost raste (ili se smanjuje) bez ograničenja.
Opisati idealne skupove podataka.
Skupovi podataka koje prati dokumentacija/stručni članak i programski kod, format podataka koji je lako obraditi, ranije očišćeni i pripremljeni skupovi podataka.
Opisati poboljšavanje skupa podataka.
Proces umjetnog povećavanja broja primjera: generiranje novih sintetskih primjera.
Definirati inženjerstvo značajki.
Inženjerstvo značajki je proces kojim se nastoje odabrati ili transformirati najbitnije značajke iz pripremljenog skupa podataka s ciljem uspješnog modeliranja. Cilj je pronaći optimalni skup značajki za neki problem.
Navesti pristupe inženjerstvu značajki.
- Ručni pristup: računanje značajki iz sirovih
podataka - Poluatomatizirani pristup
- Potpuno automatizirani pristup
Navesti načine ručnog pristupa inženjerstvu značajki.
- Dodavanje novih značajki na temelju
postojećih: binning, one-hot encoding,
normalization (decimalno skaliranje, min-max,
z-skor), ručno kombiniranje više značajki
u jednu - Uklanjanje nebitnih značajki: monotone,
konstantne, statistički redundantne
Navesti tehnike poluautomatiziranog pristupa inženjerstvu značajki.
- Odabir značajki: zadržava se interpretacija
značajki (filteri, omotači, ugrađeni postupci,
hibridni) - najmanji mogući broj značajki koji
daje najbolje rezultate - Izgradnja značajki: iterativna primjena različitih
operatora za izgradnju novih značajki - Redukcija dimenzionalnosti.
Opisati filterske postupke za odabir značajki.
Filterski postupci definiraju kriterij koliko je određena značajka bitna za opis ciljne varijable. Obično se značajke rangiraju s obzirom na taj kriterij.
Opisati postupke omotača za odabir značajki.
Koriste algoritam strojnog učenja za evaluaciju određenog posdskupa značajki kako bi donijeli odluku o tome je li taj podskup bolji/isti/lošiji od nekog nadskupa.
Opisati ugrađene postupke za odabir značajki.
Izbor značajki koji se temelji na nekom algoritmu strojnog učenja.
Opisati hibridne postupke za odabir značajki.
Kombiniraju najbolja svojstva filtera i postupaka omotača.
Opisati potpuno automatizirani pristup inženjerstvu značajki.
Pristup kojim se zaoblilazi ekspretno izlučivanje značajki uz pretpostavku da se radi nad sirovim ulaznim podacima. Neki poznati algoritmi za učenje značajki: PCA, ICA, višeslojni perceptron, CNN, autoenkoderi, ograničeni Boltzmanovi strojevi.
Što se sve smatra privatnim podatkom?
Medicinski, financijski i osobni podaci (OIB, broj osobne iskaznice, putovnice).