2. predavanje: Rukovanje podacima Flashcards
Što je rukovanje podacima?
Općeniti naziv za sve operacije nad podacima koje slijede nakon preuzimanja izvornih podataka s mjesta pohrane sve do početka analize statističkim postupcima i postupcima strojnog učenja.
Koje su posljedice korištenja sirovih podataka u daljnjoj statističkoj analizi?
- Može onemogućiti ispravno postavljanje cilja analize
- Može srušiti algoritme strojnog učenja ili davati nevjerodostojne rezultate
- Može dovesti do neispravnih zaključaka
Rukovanje podacima sastoji se od sljedećih koraka:
- Pregled skupa podataka: vizualna i statistička dijagnostika
- Transformacija skupa podataka: modela, formata i dimenzija
- Čišćenje skupa podataka: uklanjanje pogrešaka, duplikata, sinonima, stršećih i nedostajućih vrijednosti
- Provjera skupa podataka
- Učitavanje skupa podataka: u prigodnu strukturu
- ——————————————————— - Poboljšavanje skupa podataka
- Inženjerstvo značajki
Nabrojiti vrste čestih problema u podacima.
Nedostajući, netočni, nekonzistentnosti u podacima, stršeći, rijetki, šumoviti, monotoni atributi, nebalansirani skupovi podataka.
Nabrojiti glavne vrste nedostajućih podataka.
- Nedostajuće (ali poznate) vrijednosti: nisu
unesene, ali postoje - Prazne (nepoznate) vrijednosti: ne može se
pretpostaviti vrijednost u stvarnom svijetu
Na koji se način rješava problem nedostajućih podataka?
Zanemarivanjem svih primjera koji ih sadrže, zamijenom nedostajuće vrijednosti nekom drugom (mjera sredine, mediana ili najčešćom kategorijom).
Na koji način se detektiraju netočni podaci?
Detaljnim pregledom skupa podataka, vizualizacijom i promišljanjem o podacima.
Navesti dva tipa nekonzistentnosti u podacima.
Različiti atributi mogu biti predstavljeni istim imenom u različitim sustavima i jedan atribut može imati više sinonima (npr. Merc, Mercedes, M-Benz, Mrcds).
Opisati pojavu stršećih podataka.
Podaci koji odudaraju daleko izvan uobičajenih vrijednosti za određene atribute.
Navesti korištene postupke otkrivanja stršećih podataka.
Vizualizacija podataka, statistički postupci (z-skor, vjerojatnosni modeli, linearna regresija), algoritmi nenadziranog strojnog učenja, normalizacija podataka.
Opisati pojavu rijetkih podataka i problem koji uzrokuju.
Slučaj kada za neke atribute samo mali broj primjera ima vrijednost različitu od 0, većina algoritama strojnog učenja loše radi s rijetkim podacima.
Opisati pojavu šumovitih podataka.
Šum u podacima je u nekoj mjeri prisutan u svim podacima koji su rezultat mjerenja putem određenih senzora, iako šum može biti i rezultat utjecaja prirodnih procesa.
Opisati pojavu monotonih atributa.
Monotoni atributi su takvi atributi čija vrijednost raste (ili se smanjuje) bez ograničenja.
Opisati idealne skupove podataka.
Skupovi podataka koje prati dokumentacija/stručni članak i programski kod, format podataka koji je lako obraditi, ranije očišćeni i pripremljeni skupovi podataka.
Opisati poboljšavanje skupa podataka.
Proces umjetnog povećavanja broja primjera: generiranje novih sintetskih primjera.