Vorlesung 3 - Vektorraum-Retrievalmodell (VSM) Flashcards
Arten von Retrieval-Modellen
- Mengentheoretische Modelle
-> Dokumente werden als Menge von Wörtern oder Phrasen repräsentiert.
-> Ähnlichkeiten werden üblicherweise mit Hilfe von mengentheoretischen Operationen auf diesen Mengen bestimmt. - Algebraische Modelle
-> Dokumente und Queries werden als Vektoren, Matrizen oder Tupel repräsentiert
-> Ähnlichkeit zwischen Query-Vektor und Dokumenten-Vektor wird als Skalar repräsentiert - Probabilistitsche Modelle
-> Der Prozess des Dokumenten-Retrieval wird als probabilistische Inferenz (Schlussfolgerung) betrachtet.
-> Ähnlichkeit werden als Wahrscheinlichkeit, dass ein Dokument für eine bestimmte Query relevant ist, berechnet. - Feature-basierte Modelle (Kombination des Relevanzscores)
-> Dokumente werden als Vektoren von Featurefunktionen (oder nur Feature) betrachtet und suchen den besten Weg diese in einem Relevanz-Score zu kombinieren. Dies erfolgt durch die „learning-to-rank“-Methode
-> Featurefunktionen sind beliebige Funktionen von Dokument und Query und können als solche fast jedes andere Retrieval-Modell als weiteres Feature einbeziehen.
Beschreiben, wodurch ein Vektorraum-Retrievalmodell bestimmt (charakterisiert) wird und worin sich unterschiedliche Modelle prinzipiell
- VSM definiert/repräsentiert/charakterisiert durch: (Vektorrepräsentation)
-> Term: Basiskonzept (z. B. Wort, Phrase)
-> Dimensionen: je Term eine
-> N-dimensionaler Raum: durch N Terme definiert (Deutsch: vielleicht N = 100.000)
-> Query-Vektor: q=(x1,…xN ) , xi∈ℝ ist Query-Term-Gewicht
-> Dokument-Vektor: d=( y1,… yN ) , y j∈ℝ ist Dokument-Term-Gewicht - relevance (q ,d )∝ similarity [Ähnlichkeitsmaß] (q, d) = f (q, d ) (Ähnlichkeitsmaß =: sim)
- Was ist im VSM nicht definiert / Unterscheiden sich durch:
-> Wie Basiskonzepte gewählt sind (Achsenbeschriftung)
-> Platzierung von Doks und Queries im
Raum (wie Terme gewichtet werden)
-> Definition des Ähnlichkeitsmaß
Probleme triviales VSM
- Triviales VSM = Bit-Vektor + Skalarprodukt + BOW
- Probleme: Beim Trivialen VSM existiert noch keine TF-IDF-Wichtung. Ein Wort mit
häufigen Vorkommen soll einen höheren Rang haben und die Wertung der Wörter, also dass ein Wort wichtiger ist als ein anderes, fehlt bei dem trivialen VSM. Deswegen verbessert man das VSM mit der TF-IDF-Wichtung
→ Mehrmalige Übereinstimmung von „Wahl“ führt zu höheren Rang
→ Übereinstimmung von „Wahl“ ist wichtiger als „über“
Verbesserte Vektorplatzierung
- VSM mit Gewichtung durch Termfrequenzen
- Beispiel (siehe Probleme triviales VSM )
- Ranking mit Gewichtung durch Termfrequenzen (TF)
- Gewichtung der TF mit IDF
Begriff Termfrequenz (TF) und dessen Bedeutung im VSM erläutern
- Termfrequenz (TF) ist Häufigkeit eines Ausdrucks (Term, Wort) in einem Dokument, einer Collection oder einer Query → c (q ,d )
- Je häufiger ein Wort im Dokument vorkommt, desto größer ist die Termfrequenz
- Je größer die TF, desto besser ist das Ranking des Dokuments in einem Vektorraum
- Im VSM kann die Termfrequenz genutzt werden als Regel, um den Dokumentvektoren und Query-Vektoren Werte zuzuordnen bzw. die Achsen des VSM zu skalieren
Erläutern, wie mit Hilfe der inversen Dokumentfrequenz (IDF) das Suchergebnis verbessert werden kann
- Mithilfe der IDF lässt sich ein Gewichtungsfaktor bestimmen, der Auskunft über die Relevanz eines Wortes in einer Collection gibt, indem bestimmt wird, in wie vielen Dokumenten der Collection das Wort vorkommt
- IDF(w)=[(M +1)/k] = Gewichtungsfaktor über Häufigkeit eines Wortes in einem Dokument
-> M = Gesamtanzahl Doks in Collection
-> k = Gesamtanzahl Doks die Wort w beinhalten (Dokumentenfrequenz (df)) (anderes k als BM25) - k=df (w)=c (w,C) → yi=c (wi)⋅IDF(wi) → yi, ist dieTF⋅IDF
- Häufige Wörter wie Artikel, Komparationen (als, wie, …), oder Partikel (weniger, selten, nur, …) werden durch die TF gleich gewichtet wie Fachtermini, die weniger häufig vorkommen, aber ausschlaggebender sind
- Durch den Gewichtungsfaktor IDF wird nach Häufigkeit eines Wortes in Dokumenten gewichtet. Je häufiger ein Wort im Dokument vorkommt, desto geringer wird es durch die IDF gewichtet
und das Dokument niedriger gerankt - Die Spezifität von Schlüsselwörtern wird somit stärker berücksichtigt
Bag-of-Words (BoW)-Repräsentation
- Bag of Word: V = (w1, …,wn)
- Das Vokabular spannt einen Vektorraum auf, in dem eine Query q und ein Dokument d als Vektoren liegen.
- Die Terme, welche das Basiskonzept definieren sind einzelne Wörter. Jedes Wort aus dem Vokabular, aus welchem Dokumente und Query sich zusammensetzen, bildet eine Dimension des VSM.
Definition sublinearen Transformation von Termfrequenzen und Aufgaben dieser
- Besonders häufige Wörter im Dokument (Stoppwörter) bekommen weniger positiven Einfluss auf die Relevant des Dokumentes
- Dazu wird ursprüngliche count-Funktion (welche die Anzahl der Wörter bestimmt), z.B. mithilfe einer Logarithmusfunktion, angepasst. Die angepasste Funktion ergibt die neue Termfrequenz.
- Dadurch soll die Dominanz häufig auftretender Terme über alle anderen im Dokument verhindert werden.
BM25-Transformation anwenden und erläutern, welche Bedeutung deren Parameter hat
- BM25-Transformation: y= (k+1) x/k+x
- k∈[0,+∞] steuert Stärke der Transformation (in welche Richtung sich die Funktion bewegt):
-> k=0 ⇒ y= x/x=1 , kleines k in Richtung des Bitvektor
-> k→+∞ ⇒ y=x , großes k in Richtung der normalen Termfrequenz c (w ,q) - k+1 : bildet obere Schranke der Funktion (diese Eigenschaft macht BM25 besonders geeignet)
- c (w ,d) : Häufigkeit des Wortes in der Query
- Ranking-Funktion mit BM25 TF: (k≥0)
f (q , d )=∑ (unten: i=1, oben:N) xiyi= ∑(unten:w∈q∩d) c (w,q) * ((k+1)c (w, d))/(c (w,d)+k)log (M +1)/(df (w)) - Robust und effektiv
- z. B. weniger Wichtung auf Stoppwörter, Wiederholungen, Dokumentenlänge (b) zu legen
Pivoted Document Length Normalization (Dokumentenlängen-Normalisierung) Bedeutung + Funktionsweise erläutern
- Pivoted Length Normalizer: mittlere Dokumentlänge ( avdl ) als „Pivot“ („Angelpunkt“?)
-> Normalisierer=1 ⇒ |d|=avdl ⇔|d|/avdl =1 - Problem: lange Dokumente haben höhere Chance mit der Query übereinzustimmen
-> Bestrafung langer und Belohnung kurzer Dokumente
-> Überbestrafung vermeiden - Dokument kann lang sein, weil
-> mehr Wörter/Überschreitung avdl ⇒ mehr Bestrafung (Relevanz-Score verringern)
-> mehr Inhalt/Unterschreitung avdl ⇒ weniger Bestrafung (Relevanz-Score erhöhen)
Pivoted Document Length Normalization (Dokumentenlängen-Normalisierung) Parameter erläutern
- b∈[0,1] steuert Stärke der Bestrafung/Belohnung
- Je größer b , desto höher der Einfluss der Pivoted Document Lenght Normaization auf den Relevanz Score des Dokuments
- b ist Parameter, der die Bestrafung oder Belohnung regelt im Berech von 0 bis 1 rangiert