Vorlesung 6 - Probabilistische Sprachmodelle (Query Likelihood/Abfrage-Wkt.) Flashcards

1
Q

Was ist was ein statistisches Sprachmodell

A
  • Kontextabhängige Wahrscheinlichkeitsverteilung von Wortfrequenzen
  • Bestimmen von Themen eines Textes oder als probabilistische (wkt.-basierte) Methode zur Textgenerierung zu ein Thema → „generatives“ Modell
  • Für ein Thema können Wkt. für bestimmte Phrasen/Wortsequenzen/Sätze vorgesehen werden:
    -> z. B.:
    p(„Heute ist Mittwoch“) ≈ 0.001
    p(„Heute Mittwoch ist“) ≈0.0000000000001
    p(„Der Eigenwert ist positiv“) ≈ 0.00001
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist ein Unigram-Sprachmodell?

A
  • Einfaches Sprachmodell, welches auf der Annahme basiert, dass die Wörter in einem Text unabhängig voneinander auftreten
  • Demnach lässt sich die Wahrscheinlichkeit des Auftretens einer Wortsequenz berechnen, indem man die Einzelwahrscheinlichkeiten der Wörter multipliziert
  • Text wird durch unabhängige Generierung einzelner Wörter erzeugt:
    -> p(w1,w2,w3)=p (w1) p (w2) p (w3)
    –> p=(Heute ist Mittwoch)=p(Heute) p(ist) p(Mittwoch)=0,02⋅0,01⋅0,015
  • Parameter:
    ->{p(wi)}: p(w1)+…+ p(wN ) = 1
    –>N:Größe desVokabular
  • Text: Stichprobe bzgl. der Wortverteilung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Anwendungsbeispiele für Unigram-Sprachmodelle

A
  • Generative Erzeugung von Texten, z. B. wiss. Paper
  • Basis für Unigram-Query-Likelihood, vgl. probabilistische Modelle:
    -> klassisches probabilistisches Modell→ BM25
    -> Sprachmodell (Language Model) → Query Likelihood
    -> Divergence-from-Randomness-Model → PL2
  • Sprachmodelle zur Repräsentation von Themen:
    -> p(w|B): Hintergrund-Sprachmodell (z. B. Sprache Deutsch)
    -> p(w|C): Sammlung-Sprachmodell (z. B. Computer Science Paper)
    -> p(w|d): Dokument-Sprachmodell (z. B. Paper zum Thema Text Mining)
  • Sprachmodelle zur Analyse von Assoziationen:
    -> Wkt. des Auftretens eines Wortes in einem bestimmten Kontext, z. B.:
    –> p(w|„Computer”): Thema Computer als Sprachmodell (Topic LM)
    –> p(w|B): Sprache Deutsch als Hintergrundmodell (Background LM)
    –> p(w|„Computer”) / p(w|B): Normalisierung des Hintergrundmodell mittels Spachmodell
    -> Wkt. für themenrelevante Wörter wird dadurch erhöht
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Texterzeugung mittels Unigram-Sprachmodellen

A
  • Um mittels des Unigram Sprachmodells einen Text zu erzeugen werden aus dem Sprachmodell Stichproben erhoben, welche dann den Text ergeben.
  • Bildliches Beispiel:
    -> Sack mit n Zetteln mit verschiedenen Wörter
    -> Zur Generierung eines Textes m Zettel ziehen Stichprobe spezieller Wortverteilung → Stichprobe spezieller Wortverteilung
    -> Der entstandene Text entspricht nicht den Regeln der natürlichen Sprache, sondern ist lediglich eine Aneinanderreihung von Wörtern, da sonst die Menge der Parameter stark ansteigen würde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Bewertung eines Unigram-Sprachmodell (Language Modell (LM))

A
  • Wkt. schätzen, wie gut das Unigram Sprachmodell ist
  • Maximum-Likelihood-Schätzer:
    -> p(w∣θ) = p(w∣d ) = c (w, d) /|d|
    -> ∑ p(wi∣θ) = 1
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Grundlegende Prinzip probabilistischer Rangfunktionen (Query Likelihood)

A
  • Rang eines Dokuments über Wkt. bestimmen, dass ein d bezüglich einer q relevant ist
  • Grundprinzip: (Relevanz in probabilistischen Modell)
    -> f (q , d) = p(R=1∣q ,d) ,R ∈{0,1}
    -> f (q , d) ≈ p( q∣d ,R=1)
    -> (0: irrelevant, 1: relevant)
    -> (q: Mit welcher Wkt. geben Nutzende q ein?)
    -> (d: Nutzende empfinden d als relevant)
    ->Nutzende formulieren Query q basierend auf imaginären relevanten Dokument
    -> Nutzende klicken auf die relevanten Ergebnisse der Anfrage Relevanz = 1 →
  • Definition Relevanz: Relevanz(q , d ) = p(R=1∣q , d) ⇒ p (q∣d ,R=1)
  • Query Likelihood Rankingfunktion: f (q ,d) = p (q, d ) → Wkt., dass Nutzende d als relevant empfinden und Query q formulieren p(q = “Neuigkeiten über Kampange zur Wahl” ∣ …Neuigkeiten der Kampange zurWahl… …Kandidaten der Wahl…)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Idee der Query Likelihood (Abfrage-Wahrscheinlichkeit)

A
  • Grundprinzip:
    -> Die Wkt. der Relevanz für ein bestimmtes Dokument bezüglich einer Query entspricht in etwa der Wkt., dass Nutzende die Query genau so wählen, wie wenn sie sich ein bestimmtes Dokument vorstellen
    -> Auf Basis eines Sprachmodells lässt sich die Wkt. für das Entstehen der Query berechnen
  • Leitfrage: Wie wahrscheinlich ist es, dass ein Nutzer ein bestimmtes Dokument im Kopf hat?
    -> Annahme: jedes Wort in der Query wird unabhängig erzeugt
  • Durch Stichproben aus Dokumenten eine Query erzeugen.
  • Wikipedia: „Es wird ein Sprachmodell über jedes Dokument einer Sammlung konstruiert. Damit ist es dann möglich jedes Dokument anhand einer Query zu ranken. Es wird die Frage beantwortet, wie relevant ein Dokument entsprechend einer Anfrage (Query) ist.“
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Allgemeine Form einer Query-Likelihood-Rangfunktion

A
  • q=w, w2…wn
  • p(q ,d )=p(w1∣d)⋅…⋅p(wn ∣d )
  • f (q , d )=log p(q∣d)=∑ (unten: i=1, oben:n) log p(wi∣d)
    =∑w∈V log p(w∣d ) [Dok−LM] c (w, q)
  • Arithmetischer Unterlauf: Werte werden so klein, dass diese mit einem Rechner nicht mehr berechen- und darstellbar werden Präzisionsverlust (Lösung: Log Likelihood) → Präzisionsverlust (Lösung: Log-Likelihood)
  • Retrieval Problem: Bewertung von p(wi∣d)
  • Verschiedene Bewertungsmethoden → verschiedene Rangfunktionen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist mit Glättung eines Sprachmodells gemeint?

A
  • „Schlüsselanfrage: welche Wkt. sollte einem ungesehenen Wort zugeteilt werden?“
  • „Wkt. eines ungesehenen Wortes in d wird als proportional zu p(w∣C) angenommen“
    Wörtern, die nicht in der Collection vorkommen, wird eine Wkt. > 0 zugeteilt, welche proportional zu der aus einem Referenz-Sprachmodell ist
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Zwei State of the art (Glättung)

A
  • Jelinek-Mercer-Glättung (Lineare Interpolationsglättung / Jelinek Mercer)
  • Dirichlet-Prior-Glättung (Bayes’sche Glättung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Prinzip der Jelinek-Mercer-Glättung

A
  • „fester Koeffizient; lineare Interpolation“
  • Mit genau einem festen Koeffizient als Glättungs-Parameter (λ) werden die Wkt. von einem Dokument mit der Sammlungs Frequenz eines Wortes vermischt
  • λ–Wert hoch: tendiert dazu, Dokumente mit allen Query (Anfrage)-Worten zu liefern
  • λ–Wert niedrig: angemessen für lange Suchanfragen
  • Ein korrekt gesetztes λ ist wichtig für eine gute Performanz
  • Parameterλ verringert -> nähert sich der Wahrscheinlichkeit die mit der Maximum-Likelihood-Methode für das Dokument berechnet wurde
  • Dokumentenlänge hat keinen Einfluss
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Prinzip der Bayes’schen Glättung

A
  • Hinzufügen von Pseudo Counts
  • adaptive Interpolation
  • Parameter μ erhöht -> näher sich der Wahrscheinlichkeit eines Wortes im “Collection”-Sprachmodell
How well did you know this?
1
Not at all
2
3
4
5
Perfectly