Prüfungsfragen zu Probabilistische Modelle Flashcards
Was ist die Grundidee des BIR-Modells?
Binary-Independence-Retrieval-Modell
(Retrieval Modell) Wie in anderen relevanzorientierten Modellen auch, versucht man im BIR-Modell die Wahrscheinlichkeit zu schätzen, dass ein gegebenes Dokument dm bezuglich der aktuellen Anfrage q als relevant beurteilt wird.
Documente mit gleichem Documentenvektor haben die gleiche Wahrscheinlichkeit
Man berechnet die Wahrscheinlichkeit, dass ein Dokument relevant ist. D. h. man berechnet die Odds, dass ein Dokument relevant ist mal (*) der Produkt der Wahrscheinlichkeiten pro Term der vorkommt, dass der Term vor kommt (pi/si) mal … nicht vorkommt (1-pi/1-si)
Nachteil: man kann Dokumente mit gleichen D-Vektor haben gleiche W-Keit. UND ** Die Häufigkeit der Terme im Dokument wird nicht berücksicht, nur OB Term vorkommt.
dann:
P(R | d_m) = Odds dass ein Dokument relevant ist (mithilfe RF) * das Produkt der Wahrscheinlichkeiten: Wahr pro Term x_i dass Term x_i vorkommt (p_i/s_i)* das Produkt der Wahrscheinlichkeiten: Wahrscheinlichkeit pro Term x_j, dass x_j NICHT vorkommt (1-p_i/1-s_i)
P(R | dm) = O(R) * Produkt_Term_kommtvor( pi/si) * Produkt_Term_kommtNichtvor(1-pi)/(1-si)
O(R) = relevante Docs/nicht-relevante Docs
Wie kann man die benötigten Parameter
schätzen bei BIR-Modells?
Parameter-Schätzung:
Es gibt zwei Parameter:
1. p_i: Die Wahrscheinlichkeit, dass Term_i in einem zufällig gewählten Dokument vorkommt. und
2. s_i: Die Wahrscheinlichkeit, dass Term t_i in zufällig gewählten nicht-relevanten Dokument vorkommt.
Ohne relativen Häufigkeiten p_i und s_i schätzen für ein Term t_i:
Man benutzt Abschätzungen s_i = n_i/N (n_i = Anzahl der Dokumente in denen Term vorkommt. Man schätz Anzahl der Nicht-Relevanten Dokumente nach oben ab weil es sehr viele Nicht-Relevante Dokumente geben muss. und pi = 0.5
Ansonsten benutzt man die relative Häufigkeiten der Termfrequenzen und Relevanzbewertungen:
p_i = wie oft kommt x_i in einem relevanten Dokument vor/ wie viele Dokumente sind relevant.
s_i = wie oft kommt x_i in einem nicht-relevanten Dokument vor/ wie viele Dokumente sind nicht-relevant
Wie funktioniert Relevance Feedback (Probabilistische Modelle)?
Relevance Feedback ist eine binäre Kodierung für Dokumente (relevant/nicht-relevant). Benutzer bewerten Dokumente zu einer Anfrage als relevant oder nicht-relevant. Relevance Feedback wird z.B. bei dem BIR-Modell benutzt, um die Parameter zu schätzen. D.h. genau, p_i, s_i schätzen anhand der relative Häufigkeiten.. wie oft kommt ein Term t in den relevanten Dokmenten vor (pi) wie oft kommt Term t in den nicht-relevanten Dokumenten vor (si).
Inwiefern erweitert BM25 das BIR-Modell, welche Parameter werden hier zus¨atzlich
berucksichtigt?
BIR-Modell: bei der Berechnung von p_i und s_i (pi =Wahrscheinlichkeit, dass Term t in relevanten Dokumenten vorkommt und si=Wahrscheinlichkeit, dass Term t in nicht-relevanten Dokumenten vorkommt) wird nur beachtet, ob Term überhaupt in einem Dokument vorkommt. Hier wird nicht beachtet, wie oft Term t vorkommt.
BM25 beachtet auch WIE OFT Term t in einem Dokument vorkommt.
Es benutzt eine ähnliche Gewichtungsformel als Vektorraummodell mit ntf*idf-Formel.
(inverse Dokumenthäufigkeit * normalisierte Vorkommenshäufigkeit) aber mit NEUEN PARAMETER: Längennormalisierung (b) und normalisierte Vorkommenshäufigkeit (k).
i.e. k = Gewichtung der Vorkommenshäufigkeit.
Gewichtung: umi = tf_mi/ KB + tfmi
retrievalfunktion (q, d) = Sum (um_i * log (pi(1-si)/si*(1-pi))) summeriert wert für alle Terme
Was heißt Optimalität beim PRP? Wie kann man das Ranking nach fallender Wahrscheinlichkeiten rechtfertigen?
PRP= "Probabilistisches Ranking Prinzip" Optimalität = 'Optimales Retrieval'
Annahmen:
- Aufgabe: finde relevante Dokumente
- Relevanz eines Dokumentes zu einer Anfrage ist UNABH¨ANGIG von anderen Dokumenten.
- Durchsehen der Ergebnisliste ist die Hauptaufgabe des Benutzers.
Kernaussage des PRP: Ranking nach fallender Relevanzwahrscheinlichkeit liefert Optimale
Retrievalqualität
Hier sind Kosten (für Retrieval) das Optimierungskriterium für Retrieval.
PRP maximiert erwarteten Recall und erwarteten Precision. (Recall: wie viele von den relevanten haben wir gefunden? Precision: von denen die wir gefunden haben, wie viele waren relevant?) Man kann das mit VRM oder anderen nicht-probabilistischen Verfahren nicht zeigen weil man die Ähnlichkeit vergleicht, anstatt die Wahrscheinlichkeiten der Relevanz zu berechnen.
PRP: Man will die Kosten der Retrieval für ein bestimmtes Dokument abschätzen: es ist der abstrakte Kosten C’ - Kosten des Retrieval eines irrelevanten Dokumentes und C - Kosten des Retrieval eines relevanten Dokumentes. Es gibt nur eine Bedingung: C’> C. D.h. Die Kosten, ein nicht-relevantes Dokument zu holen ist höher als ein nicht-relevantes Dokument zu holen.
Erwartete Kosten bis zu einem Dokument (eine Sequenz von Dokumente)
= C’* P(R| doc nicht rel) + C * P(R|doc rel).
=> P(R|doc_i) >= P(R| doc_i+1) <=> C
Was ist die Grundidee des interaktiven PRP? (IPRP)
Kapitel 6: Neuere Probabilistische Modellen.
Klassischer PRP: Ranking nach fallender Relevanzwahrscheinlichkeiten liefern Optimale Retrievalqualität.
PRP Macht Annahmen:
- Dokumente-Relevanz unabhängig von anderen Dokumenten, UND
- Benutzer sind passiv (Hauptaufgabe ist Ergebnisse anschauen).
Problem bei PRP ist, dass
- Benutzer viel aktiver sind (die reformulieren die Anfrage, suchen neue Suchterms raus, verfolgen Dok-Links, etc.) und
- Relevanz von einem Dokument häng ab von vorhergesehen Dokumente (falls Duplikate oder ähnliche Dokumente vorkommen.)
*GRUNDIDEE:
Im Gegensatz zu klassischem PRP, versucht IPRP die vollständige Interaktion zw. Mensch und Computer zu simulieren, spezifische Kosten für unterschiedliche Aktivitäten zu geben, und Änderungen des Informationsbedürfnisses berücksichtigen.
Prinzip:
Benutzer bewegt sich durch Situationen. In jeder Situation präsentiert das System dem Benutzer eine Auswahl und der Benutzer wählt etwas (Dokument?). Eine Auswahl/”positive Entscheidung” bring Benutzer in eine neue Situation. Jede Wahl enthält Kosten und Nutzen/Wahrscheinlichkeits-Parameter. Man benutzt die Parameter um eine Optimale Ergebnisliste dem Benutzer zu zeigen..
Bsp:
Amazon-Shopping Experiment. Lege Produkt in Basket. Jede Wahl ist assoziert mit Kosten und Wahrscheinlichkeitsparameter. Exp_value(choice) = cost + probability_paramerter* Nutzen
1. Aufwand/Kosten = Zeit, die in einer Situation verbracht wird
2. Akzptanzwahrscheinlichkeit = Übergangswahrscheinlichkeit. (von Detail zu Result List = 74% aber Detail zu Basket = 24%)
3. Nutzen=Der Nutzen kann im Prinzip als Differenz zwischen den basket-Zeiten von Quelle und Ziel einer Transition berechnet werden.
Was ist die Grundidee von statischen Sprachmodellen?
Ein Sprachmodell: betrachtet Sprche als Folge von Wörtern die durch einen stochastischen Prozess erzeugt wird. = Sprache durch Wahrscheinlihckeitsverteilung über die Terme des Vokabulars beschreiben.
Die Grundidee von statischen Sprachmodellen ist:
- ein Sprachmodell für eine Sprache zu erstellen,
- das Modell wird benutzt, um die Wahrscheinlichkeit zu berechnen, dass das Dokument von dem Modell generiert wurden. Das gleiche für die Anfrage.
!! Ein Dokument ist: Sequenz von Terme in einem Text
Dann betrachtet man die beiden Wahrscheinlichkeiten proportional zueinander.
Für ein Ranking reicht es aus, die Proportionen zu vergleichen.
Was ist die Grundidee von learning to rank?
Kapitel 6: Neuere Probabilistische Modellen.
LTR benutzt maschinelles Lernen um eine Rangordnung von Dokumente zu erstellen. LTR trainiert den Algorithmus mit an Anteil der Daten wo die Relevanz, der Retrievalwert oder ‘Ranker’ wo die Kosten minimiert werden. Dann benutzt LTR diesen trainiert Algorithmus den Rest der Daten zu bewerten und eine Rangordnung von Dokumente zu erstellen.
Bei dem Punktweise LTR-Ansatz soll das Lernverfahren für jedes Frage-Dokument-Paar die Zugehörigkeit zu einer Klasse oder zu einem Retrievelwert vorhersagen. (Supervised Learning Classification or Regression).
Bei Paarweise LTR_Ansatz besteht die Trainingsmenge aus Dokument-Paaren, die eine Präferenzrelation spezifieren (d1 >d2, d3>d4,…??). Dieser ‘Ranker’ versucht die Kosten (Inversionen) zu minimieren. Dann, zu einer gegeben Paar (d1, d2) soll entschieden werden, ob d1 besser als d2 ist oder umgekehrt.
Bsp: Anwendung learning to rank bei Internet-Suchmaschinen. Hierfür berücksichtig man Dokumenten-Merkmale, Frage-Merkmale, Eigenschaften der Ankertexte, Page-Rank sowie Information über den Benutzer und seine Freunde aus sozialen Netzen.
Man kann mit den Daten trainieren. Anschließend pUnktweise (Dokument-wise) entschieden, ob ein Dokument relevant oder nicht ist. Dann kann man ein Probabilistisches Modell anwenden (z.B. BIR oder BM25) um die Rangordnung zu erstellen.
bzw. wird der Relevanz-Wert zwischen 0 und 1 vorhergesagt und damit die Rangordnung erstellen. ????
Wie kann man diversity Ranking erzeugen?
Kapitel 6: Neuere Probabilistische Modellen.
Man berechnet ungefähr die Wahrscheinlichkeit der Ähnlichkeit zwischen das aktuelle Dokument und Query q + Wahrscheinlichkeit dass es KEINE Ähnlichkeit gibt zw. d und bisher gesehene Dokumente.
Letzeres multipliziert man mal eine Gewichtung für die Neuigkeit des Dokumentes.
Diversity Ranking ist wichtig, weil ein Dokument weniger Relevant ist, wenn das Dokument Teilaspekte der Anfrage abdeckt, aber welche Teilaspekte von gesehenen Dokumente auch schon gesehen wurden.