Vorlesung 3 - Vektorraum-Retrievalmodell (VSM) Flashcards

Question 1

Q

Arten von Retrieval-Modellen

Answer

A

Mengentheoretische Modelle
-> Dokumente werden als Menge von Wörtern oder Phrasen repräsentiert.
-> Ähnlichkeiten werden üblicherweise mit Hilfe von mengentheoretischen Operationen auf diesen Mengen bestimmt.
Algebraische Modelle
-> Dokumente und Queries werden als Vektoren, Matrizen oder Tupel repräsentiert
-> Ähnlichkeit zwischen Query-Vektor und Dokumenten-Vektor wird als Skalar repräsentiert
Probabilistitsche Modelle
-> Der Prozess des Dokumenten-Retrieval wird als probabilistische Inferenz (Schlussfolgerung) betrachtet.
-> Ähnlichkeit werden als Wahrscheinlichkeit, dass ein Dokument für eine bestimmte Query relevant ist, berechnet.
Feature-basierte Modelle (Kombination des Relevanzscores)
-> Dokumente werden als Vektoren von Featurefunktionen (oder nur Feature) betrachtet und suchen den besten Weg diese in einem Relevanz-Score zu kombinieren. Dies erfolgt durch die „learning-to-rank“-Methode
-> Featurefunktionen sind beliebige Funktionen von Dokument und Query und können als solche fast jedes andere Retrieval-Modell als weiteres Feature einbeziehen.

Question 2

Q

Beschreiben, wodurch ein Vektorraum-Retrievalmodell bestimmt (charakterisiert) wird und worin sich unterschiedliche Modelle prinzipiell

Answer

A

VSM definiert/repräsentiert/charakterisiert durch: (Vektorrepräsentation)
-> Term: Basiskonzept (z. B. Wort, Phrase)
-> Dimensionen: je Term eine
-> N-dimensionaler Raum: durch N Terme definiert (Deutsch: vielleicht N = 100.000)
-> Query-Vektor: q=(x1,…xN ) , xi∈ℝ ist Query-Term-Gewicht
-> Dokument-Vektor: d=( y1,… yN ) , y j∈ℝ ist Dokument-Term-Gewicht
relevance (q ,d )∝ similarity [Ähnlichkeitsmaß] (q, d) = f (q, d ) (Ähnlichkeitsmaß =: sim)
Was ist im VSM nicht definiert / Unterscheiden sich durch:
-> Wie Basiskonzepte gewählt sind (Achsenbeschriftung)
-> Platzierung von Doks und Queries im
Raum (wie Terme gewichtet werden)
-> Definition des Ähnlichkeitsmaß

Question 3

Q

Probleme triviales VSM

Answer

A

Triviales VSM = Bit-Vektor + Skalarprodukt + BOW
Probleme: Beim Trivialen VSM existiert noch keine TF-IDF-Wichtung. Ein Wort mit
häufigen Vorkommen soll einen höheren Rang haben und die Wertung der Wörter, also dass ein Wort wichtiger ist als ein anderes, fehlt bei dem trivialen VSM. Deswegen verbessert man das VSM mit der TF-IDF-Wichtung
→ Mehrmalige Übereinstimmung von „Wahl“ führt zu höheren Rang
→ Übereinstimmung von „Wahl“ ist wichtiger als „über“

Question 4

Q

Verbesserte Vektorplatzierung

Answer

A

Question 5

Q

Begriff Termfrequenz (TF) und dessen Bedeutung im VSM erläutern

Answer

A

Termfrequenz (TF) ist Häufigkeit eines Ausdrucks (Term, Wort) in einem Dokument, einer Collection oder einer Query → c (q ,d )
Je häufiger ein Wort im Dokument vorkommt, desto größer ist die Termfrequenz
Je größer die TF, desto besser ist das Ranking des Dokuments in einem Vektorraum
Im VSM kann die Termfrequenz genutzt werden als Regel, um den Dokumentvektoren und Query-Vektoren Werte zuzuordnen bzw. die Achsen des VSM zu skalieren

Question 6

Q

Erläutern, wie mit Hilfe der inversen Dokumentfrequenz (IDF) das Suchergebnis verbessert werden kann

Answer

A

Mithilfe der IDF lässt sich ein Gewichtungsfaktor bestimmen, der Auskunft über die Relevanz eines Wortes in einer Collection gibt, indem bestimmt wird, in wie vielen Dokumenten der Collection das Wort vorkommt
IDF(w)=[(M +1)/k] = Gewichtungsfaktor über Häufigkeit eines Wortes in einem Dokument
-> M = Gesamtanzahl Doks in Collection
-> k = Gesamtanzahl Doks die Wort w beinhalten (Dokumentenfrequenz (df)) (anderes k als BM25)
k=df (w)=c (w,C) → yi=c (wi)⋅IDF(wi) → yi, ist dieTF⋅IDF
Häufige Wörter wie Artikel, Komparationen (als, wie, …), oder Partikel (weniger, selten, nur, …) werden durch die TF gleich gewichtet wie Fachtermini, die weniger häufig vorkommen, aber ausschlaggebender sind
Durch den Gewichtungsfaktor IDF wird nach Häufigkeit eines Wortes in Dokumenten gewichtet. Je häufiger ein Wort im Dokument vorkommt, desto geringer wird es durch die IDF gewichtet
und das Dokument niedriger gerankt
Die Spezifität von Schlüsselwörtern wird somit stärker berücksichtigt

Question 7

Q

Bag-of-Words (BoW)-Repräsentation

Answer

A

Bag of Word: V = (w1, …,wn)
Das Vokabular spannt einen Vektorraum auf, in dem eine Query q und ein Dokument d als Vektoren liegen.
Die Terme, welche das Basiskonzept definieren sind einzelne Wörter. Jedes Wort aus dem Vokabular, aus welchem Dokumente und Query sich zusammensetzen, bildet eine Dimension des VSM.

Question 8

Q

Definition sublinearen Transformation von Termfrequenzen und Aufgaben dieser

Answer

A

Besonders häufige Wörter im Dokument (Stoppwörter) bekommen weniger positiven Einfluss auf die Relevant des Dokumentes
Dazu wird ursprüngliche count-Funktion (welche die Anzahl der Wörter bestimmt), z.B. mithilfe einer Logarithmusfunktion, angepasst. Die angepasste Funktion ergibt die neue Termfrequenz.
Dadurch soll die Dominanz häufig auftretender Terme über alle anderen im Dokument verhindert werden.

Question 9

Q

BM25-Transformation anwenden und erläutern, welche Bedeutung deren Parameter hat

Answer

A

BM25-Transformation: y= (k+1) x/k+x
k∈[0,+∞] steuert Stärke der Transformation (in welche Richtung sich die Funktion bewegt):
-> k=0 ⇒ y= x/x=1 , kleines k in Richtung des Bitvektor
-> k→+∞ ⇒ y=x , großes k in Richtung der normalen Termfrequenz c (w ,q)
k+1 : bildet obere Schranke der Funktion (diese Eigenschaft macht BM25 besonders geeignet)
c (w ,d) : Häufigkeit des Wortes in der Query
Ranking-Funktion mit BM25 TF: (k≥0)
f (q , d )=∑ (unten: i=1, oben:N) xiyi= ∑(unten:w∈q∩d) c (w,q) * ((k+1)c (w, d))/(c (w,d)+k)log (M +1)/(df (w))
Robust und effektiv
z. B. weniger Wichtung auf Stoppwörter, Wiederholungen, Dokumentenlänge (b) zu legen

Question 10

Q

Pivoted Document Length Normalization (Dokumentenlängen-Normalisierung) Bedeutung + Funktionsweise erläutern

Answer

A

Pivoted Length Normalizer: mittlere Dokumentlänge ( avdl ) als „Pivot“ („Angelpunkt“?)
-> Normalisierer=1 ⇒ |d|=avdl ⇔|d|/avdl =1
Problem: lange Dokumente haben höhere Chance mit der Query übereinzustimmen
-> Bestrafung langer und Belohnung kurzer Dokumente
-> Überbestrafung vermeiden
Dokument kann lang sein, weil
-> mehr Wörter/Überschreitung avdl ⇒ mehr Bestrafung (Relevanz-Score verringern)
-> mehr Inhalt/Unterschreitung avdl ⇒ weniger Bestrafung (Relevanz-Score erhöhen)

Question 11

Q

Pivoted Document Length Normalization (Dokumentenlängen-Normalisierung) Parameter erläutern

Answer

A

b∈[0,1] steuert Stärke der Bestrafung/Belohnung
Je größer b , desto höher der Einfluss der Pivoted Document Lenght Normaization auf den Relevanz Score des Dokuments
b ist Parameter, der die Bestrafung oder Belohnung regelt im Berech von 0 bis 1 rangiert