11. predavanje: Uvod u obradu teksta Flashcards

1
Q

Nabrojiti 4 tipična zadatka na teksutalnim podatcima.

A
  • Dohvaćanje dokumenata
  • Klasifikacija dokumenata
  • Analiza sentimenta
  • Određivanje teme teksta
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Objasniti tehniku reprezentacije teksta vektorom značajki bag of words.

A

Bag of words je multiset reprezentacija ulaznog niza tokena koja zadržava raznolikost tokena, međutim ne čuva njihov poredak.

npr. “what you see is what you get”
{get:1, is:1, see:1, what:2, you:2}
[0…0 1 0…0 1 0…0 2 0…0 1 0…0]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Objasniti strukturu bag-of-words matrice.

A

Jedan redak po dokumentu, jedan stupac po riječi u rječniku.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Objasniti proces tokenizacije.

A

Mapiranje znakova niza u slijeda tokena (skoro riječi). (spaCy, nltk)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Definirati i navesti primjer za stop riječi.

A

Česte, “kratke” riječi koje nose malu informacija za većinu zadataka i smanjuju važnost informacije sadržane u stvarnim sadržajnim riječima. Primjer: I, a, the, is, you, its, interpunkcija.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Koja je motivacija izra korištenja IDF (engl. inverse document frequency) tehnike?

A

Nisu sve riječi jednako informativne, osim uklanjanja stop riječi, želimo dati manju težinu na češće riječi (npr. per vs perceptron).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Navesti izraz za računanje TF-IDF vrijednosti.

A
  • idf(w) = -log(docfreq(w) / N)
  • tf(w,d): frekvencija pojavljivanja riječi w u
    dokumentu d
  • N: ukupan broj dokumenata
  • zapis u retku d i stupcu w ima vrijednost
    tf(w,d) * idf(w)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Zašto se i kako provodi normalizacija redaka TF-IDF matrice?

A

Dulji dokumenti imaju više unosa različitih od nule (imaju veći broj različitih riječi) i dalje su od ishodišta od kraćih dokumenata. Rješenje: L1 (suma redaka jednaka 1) ili L2 (euklidska udaljenost jednaka 1) normalizacija redaka TF-IDF matrice.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Navesti tehnike za normalizaciju stupaca TF-IDF matrice.

A
  • Min-max skala

- Standardizacija (-mu, /sd)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Objasniti razliku između one-hot i word embeddings reprezentacije teksta.

A

Kod one-hot encodinga tokeni su međusobno nezavisni, 20000 dimenzionalan prostor. Kod word embeddinga geometrijski odnos između vektora riječi treba odražavati semantički odnos, 256-1024 dimenzije.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Navesti cilj i dvije verzije word2vec-a.

A

Cilj je predviđanje riječi koristeći kontekst koji ih okružuje. Dvije verzije: CBOW i Skip-gram.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Objasniti CBOW verziju word2vec-a.

A

Uzima vektora embeddinga n riječi prije ciljane i n riječi nakon ciljane i zbraja ih. Uklanja poredak riječi, no suma vektora je dovoljno simslena da odredi nedostajuću riječ.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Objasniti Skip gram verziju word2vec-a.

A

Počinje s embeddingom jedne riječi i pokušava predvidjeti riječi koje ju okružuju.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Navesti alternative Skip gram i CBOW pristupima.

A

GloVe (global vector) i ELMo (Embeddings from Language Models).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly