8. predavanje: Označavanje podataka i metrike Flashcards

1
Q

Što je označavanje podataka (engl. data labeling)?

A

Označavanje podataka je proces dodavanja oznaka na sirove podatke (npr. neoznačene slike, video, tekst, audio).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Objasniti pojam podataka za učenje (engl. training data).

A

Podaci koji su prikupljeni i pomoću kojih model strojnog učenja uči o podacima. Mogu biti anotirani ili neanotirani - kada su anotirani uzimaju se kao referentna vrijednost (engl. ground truth).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Navesti vrste strojnog učenja.

A
  • Nadzirano: anotirani podaci, predikcija
  • Nenadzirano: neanotirani podaci, analiza
  • Polunadzirano: anotirani i neanotirani podaci
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Objasniti princip i upotrebu HITL sustava (engl. Human-in-the-loop).

A

Stalni nadzor (npr. praznine u podatcima) i provjera rezultata (npr. predikcije) AI modela od strane čovjeka. Upotreba: označavanje podataka za učenje, učenje modela.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Navesti pristupe označavanju podataka.

A
  1. In-house data labeling: označavaju znastvenici ili
    osobe u organizaciji
  2. Crowdsourcing: uz pomoć velikog broja
    freelancera registriranih na crowdsourcing
    platformi
  3. Outsourcing: zadatak označavanja prepušta se
    pojedincu ili organizaciji koja ima trenirane
    anotatore
  4. Machine-based annotation: korištenjem alata za anotiranje i automatizacije
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Navesti postupak mjerenja kvalitete označavanja.

A
  1. Zlatni standard: točan odgovor
  2. Pregled uzorka: uzorak dovršenih zadataka
  3. Konsenzus: odgovor od većine autora
  4. Intersection over union
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Navesti izraz kojim se računa mjera kvalitete označavanja Cronbach alpha i objasniti ga na primjeru (vidi slajd 19.).

A

alpha = (N*r) / (1 + (N-1) * R),

  • N - broj stavki
  • r - srednja korelacija između stavki
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Što je klasifikacija slika i kako se dijeli klasifikacijski problem?

A

Klasifikacija slika je proces dodavanja oznake slici. Klasifikacijski problem može se podijeliti na binarnu klasifikaciju i višeklasnu klasifikaciju.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Koji je cilj kod segmentacije slika?

A

Odvojiti objekte slike od njihove pozadine i drugih objekata na slici.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Nabrojiti i objasniti neke metrike za praćenje izvedbe modela.

A
  • Matrica zabune: dijagonala-točno, van
    dijagonale-pogrešno
  • Točnost: (TP+TN) / (TP + TN + FP + FN)
  • Preciznost: TP / (TP + FP), TN / (TN + FN)
  • Recall: TP / (TP + FN), TN / (TN + FP)
  • F1 score: 2PRRE / (PR + RE)
  • Fb score = (1+b^2)PRRE / (b^2*PR + RE)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Objasniti ROC krivulju.

A

Grafički prikaz izvedbe binarnog klasifikatora kao funkcija različitih pragova korištenih pri klasifikaciji.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Objasniti AUC krivulju.

A

Površina ispod ROC krivulje, iznosi između 0 i 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Definirati izraz za srednju kvadratnu pogrešku i kod kakvih problema se koristi.

A

MSE = (1/N) * sum_i ( (yi - yi^)^2 )

  • regresija (kontinuirane vrijednosti)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Definirati izraz za srednju aposlutnu pogrešku i kod kakvih problema se koristi.

A

MAE = (1/N) * sum_i( |yi - yi^| )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Navesti neke od algoritama za rangiranje.

A
  • point-wise modeli: pokušavaju predvidjeti
    podudarni rezultat za svaki par upit-dokument
    u skupu podataka i koriste ga za rangiranje
    stavki
  • pair-wise modeli: pokušavaju naučiti binarni
    klasifikator koji će reći koji je dokument
    relevantniji za upis, za zadani par dokumenata
  • list-wise modeli: pokušavaju izravno
    optimizirati vrijednost jedne od navedenih
    mjera evaluacije, prosječne po svim upitima u
    podacima za učenje
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Navesti izraz za srednji recirpočni rang, MRR i objasniti na primjeru (vidi slajd 51.).

A

MRR = (1 / |Q|) * sum_i( 1 / rang_i )

  • |Q| - broj upita
  • rang_i - rang najrelevantnije stavke
17
Q

Navesti izraz za preciznost pri k (p@k).

A

P@k = broj predviđenih stavki @k koje su relevantne / broj predivđenih stavki @k

18
Q

Navesti izraz za kumulativnu dobit, CG.

A

CG_p = sum_i ( rel_i ),

  • ocjena relevantnosti za svaki dokument upita