8. predavanje: Označavanje podataka i metrike Flashcards
Što je označavanje podataka (engl. data labeling)?
Označavanje podataka je proces dodavanja oznaka na sirove podatke (npr. neoznačene slike, video, tekst, audio).
Objasniti pojam podataka za učenje (engl. training data).
Podaci koji su prikupljeni i pomoću kojih model strojnog učenja uči o podacima. Mogu biti anotirani ili neanotirani - kada su anotirani uzimaju se kao referentna vrijednost (engl. ground truth).
Navesti vrste strojnog učenja.
- Nadzirano: anotirani podaci, predikcija
- Nenadzirano: neanotirani podaci, analiza
- Polunadzirano: anotirani i neanotirani podaci
Objasniti princip i upotrebu HITL sustava (engl. Human-in-the-loop).
Stalni nadzor (npr. praznine u podatcima) i provjera rezultata (npr. predikcije) AI modela od strane čovjeka. Upotreba: označavanje podataka za učenje, učenje modela.
Navesti pristupe označavanju podataka.
- In-house data labeling: označavaju znastvenici ili
osobe u organizaciji - Crowdsourcing: uz pomoć velikog broja
freelancera registriranih na crowdsourcing
platformi - Outsourcing: zadatak označavanja prepušta se
pojedincu ili organizaciji koja ima trenirane
anotatore - Machine-based annotation: korištenjem alata za anotiranje i automatizacije
Navesti postupak mjerenja kvalitete označavanja.
- Zlatni standard: točan odgovor
- Pregled uzorka: uzorak dovršenih zadataka
- Konsenzus: odgovor od većine autora
- Intersection over union
Navesti izraz kojim se računa mjera kvalitete označavanja Cronbach alpha i objasniti ga na primjeru (vidi slajd 19.).
alpha = (N*r) / (1 + (N-1) * R),
- N - broj stavki
- r - srednja korelacija između stavki
Što je klasifikacija slika i kako se dijeli klasifikacijski problem?
Klasifikacija slika je proces dodavanja oznake slici. Klasifikacijski problem može se podijeliti na binarnu klasifikaciju i višeklasnu klasifikaciju.
Koji je cilj kod segmentacije slika?
Odvojiti objekte slike od njihove pozadine i drugih objekata na slici.
Nabrojiti i objasniti neke metrike za praćenje izvedbe modela.
- Matrica zabune: dijagonala-točno, van
dijagonale-pogrešno - Točnost: (TP+TN) / (TP + TN + FP + FN)
- Preciznost: TP / (TP + FP), TN / (TN + FN)
- Recall: TP / (TP + FN), TN / (TN + FP)
- F1 score: 2PRRE / (PR + RE)
- Fb score = (1+b^2)PRRE / (b^2*PR + RE)
Objasniti ROC krivulju.
Grafički prikaz izvedbe binarnog klasifikatora kao funkcija različitih pragova korištenih pri klasifikaciji.
Objasniti AUC krivulju.
Površina ispod ROC krivulje, iznosi između 0 i 1.
Definirati izraz za srednju kvadratnu pogrešku i kod kakvih problema se koristi.
MSE = (1/N) * sum_i ( (yi - yi^)^2 )
- regresija (kontinuirane vrijednosti)
Definirati izraz za srednju aposlutnu pogrešku i kod kakvih problema se koristi.
MAE = (1/N) * sum_i( |yi - yi^| )
Navesti neke od algoritama za rangiranje.
- point-wise modeli: pokušavaju predvidjeti
podudarni rezultat za svaki par upit-dokument
u skupu podataka i koriste ga za rangiranje
stavki - pair-wise modeli: pokušavaju naučiti binarni
klasifikator koji će reći koji je dokument
relevantniji za upis, za zadani par dokumenata - list-wise modeli: pokušavaju izravno
optimizirati vrijednost jedne od navedenih
mjera evaluacije, prosječne po svim upitima u
podacima za učenje