Vorlesung 6 - Probabilistische Sprachmodelle (Query Likelihood/Abfrage-Wkt.) Flashcards

Question 1

Q

Was ist was ein statistisches Sprachmodell

Answer

A

Kontextabhängige Wahrscheinlichkeitsverteilung von Wortfrequenzen
Bestimmen von Themen eines Textes oder als probabilistische (wkt.-basierte) Methode zur Textgenerierung zu ein Thema → „generatives“ Modell
Für ein Thema können Wkt. für bestimmte Phrasen/Wortsequenzen/Sätze vorgesehen werden:
-> z. B.:
p(„Heute ist Mittwoch“) ≈ 0.001
p(„Heute Mittwoch ist“) ≈0.0000000000001
p(„Der Eigenwert ist positiv“) ≈ 0.00001

Question 2

Q

Was ist ein Unigram-Sprachmodell?

Answer

A

Einfaches Sprachmodell, welches auf der Annahme basiert, dass die Wörter in einem Text unabhängig voneinander auftreten
Demnach lässt sich die Wahrscheinlichkeit des Auftretens einer Wortsequenz berechnen, indem man die Einzelwahrscheinlichkeiten der Wörter multipliziert
Text wird durch unabhängige Generierung einzelner Wörter erzeugt:
-> p(w1,w2,w3)=p (w1) p (w2) p (w3)
–> p=(Heute ist Mittwoch)=p(Heute) p(ist) p(Mittwoch)=0,02⋅0,01⋅0,015
Parameter:
->{p(wi)}: p(w1)+…+ p(wN ) = 1
–>N:Größe desVokabular
Text: Stichprobe bzgl. der Wortverteilung

Question 3

Q

Anwendungsbeispiele für Unigram-Sprachmodelle

Answer

A

Generative Erzeugung von Texten, z. B. wiss. Paper
Basis für Unigram-Query-Likelihood, vgl. probabilistische Modelle:
-> klassisches probabilistisches Modell→ BM25
-> Sprachmodell (Language Model) → Query Likelihood
-> Divergence-from-Randomness-Model → PL2
Sprachmodelle zur Repräsentation von Themen:
-> p(w|B): Hintergrund-Sprachmodell (z. B. Sprache Deutsch)
-> p(w|C): Sammlung-Sprachmodell (z. B. Computer Science Paper)
-> p(w|d): Dokument-Sprachmodell (z. B. Paper zum Thema Text Mining)
Sprachmodelle zur Analyse von Assoziationen:
-> Wkt. des Auftretens eines Wortes in einem bestimmten Kontext, z. B.:
–> p(w|„Computer”): Thema Computer als Sprachmodell (Topic LM)
–> p(w|B): Sprache Deutsch als Hintergrundmodell (Background LM)
–> p(w|„Computer”) / p(w|B): Normalisierung des Hintergrundmodell mittels Spachmodell
-> Wkt. für themenrelevante Wörter wird dadurch erhöht

Question 4

Q

Texterzeugung mittels Unigram-Sprachmodellen

Answer

A

Um mittels des Unigram Sprachmodells einen Text zu erzeugen werden aus dem Sprachmodell Stichproben erhoben, welche dann den Text ergeben.
Bildliches Beispiel:
-> Sack mit n Zetteln mit verschiedenen Wörter
-> Zur Generierung eines Textes m Zettel ziehen Stichprobe spezieller Wortverteilung → Stichprobe spezieller Wortverteilung
-> Der entstandene Text entspricht nicht den Regeln der natürlichen Sprache, sondern ist lediglich eine Aneinanderreihung von Wörtern, da sonst die Menge der Parameter stark ansteigen würde

Question 5

Q

Bewertung eines Unigram-Sprachmodell (Language Modell (LM))

Answer

A

Wkt. schätzen, wie gut das Unigram Sprachmodell ist
Maximum-Likelihood-Schätzer:
-> p(w∣θ) = p(w∣d ) = c (w, d) /|d|
-> ∑ p(wi∣θ) = 1

Question 6

Q

Grundlegende Prinzip probabilistischer Rangfunktionen (Query Likelihood)

Answer

A

Rang eines Dokuments über Wkt. bestimmen, dass ein d bezüglich einer q relevant ist
Grundprinzip: (Relevanz in probabilistischen Modell)
-> f (q , d) = p(R=1∣q ,d) ,R ∈{0,1}
-> f (q , d) ≈ p( q∣d ,R=1)
-> (0: irrelevant, 1: relevant)
-> (q: Mit welcher Wkt. geben Nutzende q ein?)
-> (d: Nutzende empfinden d als relevant)
->Nutzende formulieren Query q basierend auf imaginären relevanten Dokument
-> Nutzende klicken auf die relevanten Ergebnisse der Anfrage Relevanz = 1 →
Definition Relevanz: Relevanz(q , d ) = p(R=1∣q , d) ⇒ p (q∣d ,R=1)
Query Likelihood Rankingfunktion: f (q ,d) = p (q, d ) → Wkt., dass Nutzende d als relevant empfinden und Query q formulieren p(q = “Neuigkeiten über Kampange zur Wahl” ∣ …Neuigkeiten der Kampange zurWahl… …Kandidaten der Wahl…)

Question 7

Q

Idee der Query Likelihood (Abfrage-Wahrscheinlichkeit)

Answer

A

Grundprinzip:
-> Die Wkt. der Relevanz für ein bestimmtes Dokument bezüglich einer Query entspricht in etwa der Wkt., dass Nutzende die Query genau so wählen, wie wenn sie sich ein bestimmtes Dokument vorstellen
-> Auf Basis eines Sprachmodells lässt sich die Wkt. für das Entstehen der Query berechnen
Leitfrage: Wie wahrscheinlich ist es, dass ein Nutzer ein bestimmtes Dokument im Kopf hat?
-> Annahme: jedes Wort in der Query wird unabhängig erzeugt
Durch Stichproben aus Dokumenten eine Query erzeugen.
Wikipedia: „Es wird ein Sprachmodell über jedes Dokument einer Sammlung konstruiert. Damit ist es dann möglich jedes Dokument anhand einer Query zu ranken. Es wird die Frage beantwortet, wie relevant ein Dokument entsprechend einer Anfrage (Query) ist.“

Question 8

Q

Allgemeine Form einer Query-Likelihood-Rangfunktion

Answer

A

q=w, w2…wn
p(q ,d )=p(w1∣d)⋅…⋅p(wn ∣d )
f (q , d )=log p(q∣d)=∑ (unten: i=1, oben:n) log p(wi∣d)
=∑w∈V log p(w∣d ) [Dok−LM] c (w, q)
Arithmetischer Unterlauf: Werte werden so klein, dass diese mit einem Rechner nicht mehr berechen- und darstellbar werden Präzisionsverlust (Lösung: Log Likelihood) → Präzisionsverlust (Lösung: Log-Likelihood)
Retrieval Problem: Bewertung von p(wi∣d)
Verschiedene Bewertungsmethoden → verschiedene Rangfunktionen

Question 9

Q

Was ist mit Glättung eines Sprachmodells gemeint?

Answer

A

„Schlüsselanfrage: welche Wkt. sollte einem ungesehenen Wort zugeteilt werden?“
„Wkt. eines ungesehenen Wortes in d wird als proportional zu p(w∣C) angenommen“
Wörtern, die nicht in der Collection vorkommen, wird eine Wkt. > 0 zugeteilt, welche proportional zu der aus einem Referenz-Sprachmodell ist

Question 10

Q

Zwei State of the art (Glättung)

Answer

A

Question 11

Q

Prinzip der Jelinek-Mercer-Glättung

Answer

A

„fester Koeffizient; lineare Interpolation“
Mit genau einem festen Koeffizient als Glättungs-Parameter (λ) werden die Wkt. von einem Dokument mit der Sammlungs Frequenz eines Wortes vermischt
λ–Wert hoch: tendiert dazu, Dokumente mit allen Query (Anfrage)-Worten zu liefern
λ–Wert niedrig: angemessen für lange Suchanfragen
Ein korrekt gesetztes λ ist wichtig für eine gute Performanz
Parameterλ verringert -> nähert sich der Wahrscheinlichkeit die mit der Maximum-Likelihood-Methode für das Dokument berechnet wurde
Dokumentenlänge hat keinen Einfluss

Question 12

Q

Prinzip der Bayes’schen Glättung

Answer

A

Hinzufügen von Pseudo Counts
adaptive Interpolation
Parameter μ erhöht -> näher sich der Wahrscheinlichkeit eines Wortes im “Collection”-Sprachmodell