Probabilistische Modelle Flashcards
Nennen Sie ein Paar klassische IR Modelle.
BIR-Modell: Binary-Independence-Retrieval-Modell.
BIR ist ein relevanzorientiertes Modell, das versucht, die Wahrscheinlichkeit zu schätzen, dass ein gegeben Dokument bezüglich der aktuellen Anfrage als relevant beurteilt wird.
BM25 - Wie BIR aber mit Gewichtung der Termhäufigkeit (“Gewichtete Indexierung”).
Sprachmodelle wie Zhai Lafferty - Man berechnet die Wahrscheinlichkeit dass die Anfrage q vom Sprachmodell des Dokuments d generiert wurde.
Vergleichen Sie Boolesches Retrieval und Binary-Independence-Retrieval-Modell.
Boolsches Retrieval ist ein Retrieval Modell, was die Unsicherheit und Vagheit dem Benutzer aufbürdet. Der Benutzer muss genau wissen, welche Terme in einem Dokument vorkommen können, welches Dokument er sucht. Ähnliche Dokumente, die nicht genau passen, werden nicht zurückgeliefert. Es gibt keine Rangordnung der Dokumente, weil jedes Dokument die logische Anfrage erfüllt.
BIR ist ein relevanzorientiertes Retrieval-Modell, was die Wahrscheinlichkeit der Relevanz für jedes Dokument bezüglich einer Anfrage beurteilt. Die relevantesten Dokumente werden als erstes angezeigt. Dafür müssen die Dokumente binär kodiert werden - d.h. Relevant oder nicht-relevant bewertet werden (RELEVANCE FEEDBACK). Dann berechnet man anhand relativen Häufigkeiten der Terme und Relevanten Dokumente, ob ein Dokument “mehr” oder “weniger Relevant ist.
Bei BIR: Was ist und wie schätz man s_i ein?
s_i ist die Wahrscheinlichkeit, dass ein Term t_i in einem arbritären nicht-relevanten Dokument vorkommt.
Da in der Regel nur ein kleiner Bruchteil einer Kollektion relevant ist auf eine Anfrage, nehmen wir nun vereinfachend an, dass die Anzahl der nicht-relevanten Dokumente durch die Gr¨oße der Kollektion approximiert werden kann. Bezeichne N diesen Wert (Anzahl
der Dokumente in der Kollektion) und ni die Anzahl der Dokumente, in denen der Term ti vorkommt, dann kann man si einfach durch die relative H¨aufigkeit
n_i/N
sch¨atzen
Ansonsten schätz man die durch die Häufigkeiten: wie oft kommt Term t nicht vor (fehlt) in nicht relevanten Dokumente nach Relevance Feedback Beurteilung.
BIR: Was ist und wie schätz man p_i ein?
Der Parameter pi = P(xi=1|R) bezeichnet die Wahrscheinlichkeit, dass ti
in einem arbitr¨aren relevanten Dokument vorkommt.
Wird oft =0.5 geschätz
Ansonsten durch relative Häufigkeiten der Anzahl der Dokumente dm in der der Term vorkommt und dokument dm Relevant ist
Was ist ein Nachteil von BIR?
Es ist nicht möglich, zwischen den verschiedenen Dokumenten mit gleichem Dokumentvektor weiter zu differenzieren. (Heisst: Dokumente mit den gleichen Terme werden haben gleiche Wahrscheinlichkeit.)
=> Vorkommenshäufigkeit der Terme wird nicht berücksigt.
Beschreibe BM25 und was der Vorteil ist.
BM25 ist eine Verbesserung zu BIR weil die Häufigkeit der Terme im Dokument berücksichtigt wird. Die Gewichtung von einem Term in einem Dokument liegt zwischen 0 und 1.
Es benutzt eine ähnliche Gewichtungsformel als Vektorraummodell (Nicht-Prob Modelle) mit ntf*idf-Formel.
(inverse Dokumenthäufigkeit * normalisierte Vorkommenshäufigkeit) aber mit Längennormalisierung (b) und normalisierte Vorkommenshäufigkeit (k).
Diese Indexierungsgewichte haben “keine theoretische Fundierung”????
Was ist der Vorteil von einem statistischen Sprachmodell?
Statistische Sprachmodelle betrachten Sprache als Folge von Wörtern. Jede Folge (eine Frase) hat eine andere Wahrscheinlichkeit. Dies ist besser als bei BM25 wo die Indexierungsgewichte keine theoretische Fundierung haben.
Was ist die Grundidee von statistischen Sprachmodellen im Text Retrieval?
Die Idee ist, dass Frage und Dookument von demselben Sprachmodell generiert wurden (gleicher Sprache). Man berechnet die Wahrscheinlichkeit, dass ein gegebenes Text d = t2t2t3..tm von dieser Sprache/diesem Sprachmodell generiert wurde.
Anstelle von Relevanzwahrscheinlichkeit berechnet man die obengenannten Wahrscheinlichkeit dass eine Anfrage/query von einem Modell und ein Dokument von dem gleichen Model generiert wurde.
!!!Man betrachtet diese Wahrscheinlichkeiten proportional zueinder.
Beschreiben Sie das Sprachmodell von Zhai und Lafferty.
Bei dem Zhai und Lafferty Modell betrachtet man die Wahrscheinlichkeit, dass die Query q vom Sprachmodell des Dokumentes d generiert wurde = P(q|d)
“Wahrscheinlichkeit einer query gegeben ein Dokument”
P(q| d) = Produkt (Probabilities of a term given in a document) * Product( Probabilities of a term given term not in a document
Hier gibt es ein Parameter
- P_avg(t) = relative Mittlere Vorkommenshäufigkeit von T in der Kollektion.
- P_ML(t|d) = Maximum Likelihood-Schätzer für die Vorkommenshäufigkeit von t in d.
……
WAs ist das PRP Prinzip?
Das Probabilistische Ranking-Prinzip (PRP) stellt die theoretische Rechtfertigung fur probabilistische IR- Modelle dar.
Was ist optimales Retrieval? Was ist perfektes Retrieval? Ist es ein realistisches Ziel?
Es wird erwähnt in der Diskussion von PRP.
“Das PRP zeigt, wie man optimales Retrieval erreichen kann. Optimales Retrieval wird dabei in Bezug
auf die Repräsentationen definiert. Im Gegensatz dazu sprechen wir von perfektem Retrieval, wenn wir uns auf die Objekte selbst (und nicht auf die Repr¨asentationen) beziehen. Perfektes Retrieval ordnet alle relevanten
Dokumente vor dem ersten irrelevanten Dokument an. Da aber IR-Systeme immer mit Repräsentationen arbeiten, ist perfektes Retrieval kein realistisches Ziel.”