Prüfungsfragen zu Nicht-Probablistische Modelle Flashcards
Welches sind die Vor- und Nachteile des Booleschen Retrieval?
Vorteile Boolesches Retrieval:
- einfache Implementierung
- wenig Speicherbedarf (man kann sofort entscheiden, ob Dokument zur Query relevant ist)
- sehr mächtig (man kann jede Teilmenge in der Datenbasis selektieren)
- klare Anfragesprache
Nachteile Boolesches Retrieval:
- die Größe der Antwortmenge ist schwierig zu kontrollieren
- es gibt keine Rangordnung zwischen relevanten Dokumente
- keine Möglichkeit für Gewichtung
- Eng-verpasste Dokumente werden nicht aufgelistet => Retrievalqualität ist schlecht.
Was ist die Grundidee des Vektorraummodells?
Die Grundidee ist die Terme in der Datenbasis als Vektorraum aufzuspannen und die Anfragen und Dokumente als Punkte (Vektoren?) im Vektorraum darzustellen. Beim Retrieval werden nach Dokumenten gesucht, deren Vektoren ähnlich zum Fragevektor sind. => geometrische Interpretation der “Ähnlichkeit Anfrage zum Dokument”.
Retrievalfunktion benutzt Vektorähnlichkeitsmaße z.B. Skalarprodukt von den Termen in der Anfrage (als Vektor) und einem Dokument mit gewichteten Terme (Vektoren). = 1* 0.33 + 0* 0.55 + 1* 0.10 + …=RSV für ein Dokument
Was versteht man unter Relevance Feedback, welche Modelle unterstutzen es?
Relevance Feedback:
Dabei wird versucht, Angaben uber die Relevanz bzw. Nicht-Relevanz einiger Dokumente zur Modifikation des urspr ¨ unglichen Fragevektors zu verwenden. Genauer gesagt, werden die ursprunglichen Fragetermgewichte ver ¨ ¨andert, wodurch sich ein anderer Fragevektor ergibt.
VRM unterstützt dieses.
== “iteratives Retrieval”
Was versucht man bei Relevance Feedback im Vektorraum zu optimieren?
Man optimiert die Distanz der Zentroiden der gefundenen relevanten und nicht-relevanten Dokumente.
Genau: Man berechnet als erstes die Relevanzbewertungen (von Nutzer) einer Anfrage. Dann berechnet man die Zentroiden (Mittelpunkte) der Relevanten und Nicht-Relevanten Dokumente. Der optimaler Fragevektor wird berechnet
q= (normalisierter Mittelpunkt der Relevanten)- (normalisierter Mittelpunkt der Nicht-Relevantent). Der trennt die zwei Gruppen am besten. (Distanz ist maximiert).
Der Optimaler Fragevektor ist Feedback-Daten.
Im Anschluss kann man einen besseren Fragevektor aufgrund der Feedback-Daten berechnen und mehr Relevante Dokumente finden.
iterativ kann es weiter gehen.
Wieso verwendet Rocchio nicht den ’optimalen Fragevektor’?
Rocchio benutzt Gewichtungen für relevante und nicht-relevante Dokumente um das irrelevante Dokumente weniger stark in die Lösung einfliessen. Die Modifikation (durch Gewichtung alpha und beta) drehen die Fragevektor in die richtige Richtung.
Welche Anwendung benutzt VRM und Relevanz Feedback?
Tinder