11. predavanje: Uvod u obradu teksta Flashcards
Nabrojiti 4 tipična zadatka na teksutalnim podatcima.
- Dohvaćanje dokumenata
- Klasifikacija dokumenata
- Analiza sentimenta
- Određivanje teme teksta
Objasniti tehniku reprezentacije teksta vektorom značajki bag of words.
Bag of words je multiset reprezentacija ulaznog niza tokena koja zadržava raznolikost tokena, međutim ne čuva njihov poredak.
npr. “what you see is what you get”
{get:1, is:1, see:1, what:2, you:2}
[0…0 1 0…0 1 0…0 2 0…0 1 0…0]
Objasniti strukturu bag-of-words matrice.
Jedan redak po dokumentu, jedan stupac po riječi u rječniku.
Objasniti proces tokenizacije.
Mapiranje znakova niza u slijeda tokena (skoro riječi). (spaCy, nltk)
Definirati i navesti primjer za stop riječi.
Česte, “kratke” riječi koje nose malu informacija za većinu zadataka i smanjuju važnost informacije sadržane u stvarnim sadržajnim riječima. Primjer: I, a, the, is, you, its, interpunkcija.
Koja je motivacija izra korištenja IDF (engl. inverse document frequency) tehnike?
Nisu sve riječi jednako informativne, osim uklanjanja stop riječi, želimo dati manju težinu na češće riječi (npr. per vs perceptron).
Navesti izraz za računanje TF-IDF vrijednosti.
- idf(w) = -log(docfreq(w) / N)
- tf(w,d): frekvencija pojavljivanja riječi w u
dokumentu d - N: ukupan broj dokumenata
- zapis u retku d i stupcu w ima vrijednost
tf(w,d) * idf(w)
Zašto se i kako provodi normalizacija redaka TF-IDF matrice?
Dulji dokumenti imaju više unosa različitih od nule (imaju veći broj različitih riječi) i dalje su od ishodišta od kraćih dokumenata. Rješenje: L1 (suma redaka jednaka 1) ili L2 (euklidska udaljenost jednaka 1) normalizacija redaka TF-IDF matrice.
Navesti tehnike za normalizaciju stupaca TF-IDF matrice.
- Min-max skala
- Standardizacija (-mu, /sd)
Objasniti razliku između one-hot i word embeddings reprezentacije teksta.
Kod one-hot encodinga tokeni su međusobno nezavisni, 20000 dimenzionalan prostor. Kod word embeddinga geometrijski odnos između vektora riječi treba odražavati semantički odnos, 256-1024 dimenzije.
Navesti cilj i dvije verzije word2vec-a.
Cilj je predviđanje riječi koristeći kontekst koji ih okružuje. Dvije verzije: CBOW i Skip-gram.
Objasniti CBOW verziju word2vec-a.
Uzima vektora embeddinga n riječi prije ciljane i n riječi nakon ciljane i zbraja ih. Uklanja poredak riječi, no suma vektora je dovoljno simslena da odredi nedostajuću riječ.
Objasniti Skip gram verziju word2vec-a.
Počinje s embeddingom jedne riječi i pokušava predvidjeti riječi koje ju okružuju.
Navesti alternative Skip gram i CBOW pristupima.
GloVe (global vector) i ELMo (Embeddings from Language Models).