Prüfungsfragen zu Evaluierung Flashcards
Welche Maße gibt es?
Jede Evaluierung muss zwei Eigentschaften (Maßstäben) erfüllen:
1. Reliabilität = Zuverlässigkeit/Wiederholbarkeit
Bsp: Ist die Stichprobe von Dokumenten repäsentativ für alle Dokumente? Waren die Daten Open-Source-Daten?, Gibt es zu der Evaluierung ausreichende Dokumentation?
2. Validität = Wie weit kann man die Ergebnisse verallgemeinern?
War die Stichprobe repräsentativ? z.B. bei der Evaluierung einer Web-Suchmaschine gibt es Test-Personen. Wenn diese Informatik-Studenten sind, sind die nicht für Web-Nutzer repräsentativ
Wie kann man den Recall abschätzen?
- Vollständige Relevanzbeurteilung - eine repräsentativen (riesigen) Stichprobe der gesamten Datenbasis. (Muss gross genug sein, weil REL sehr viel kleiner als die Datenbasis ist)
- Source-Document-Methode: Man wählt ein zufälliges Dokument aus der DB. Man formuliert eine Frage, auf die dieses Dokument relevant ist. Man prüft, ob das System das betreffende Dokument als Antwort auf Frage liefert. ~> mehrmals wiederholen und dir rel. Häufigkiet eine Näherung des Recalls finden.
- Frageerweiterung: man erweitert die ursprünglichen Anfrage und erhält eine andere Menge von Antworten, die mehr/andere relevante Dokumente enthält. Man formt die Vereinigung aller Antworten und schätz den Recall. (Schätzung zu hoch)
- Abgleich mit externen Quellen: Wähle Anfragen, zu denen relevante Dokumente bekannt sind. Schätze Recall als Anteil der gefundenen an den bekannten relevanten Dokumenten. -> Nachteil sehr aufwändig weil es Meinung von Fachleuten benutzt.
- Pooling: Prozessiere dieselber Anfrage mit verschiedenen Systemen auf der gleichen Kollektion. Dann bilde Vereinigungsmenge der gefundenen Dokumente (Pool). Relevanzbeurteilung aller Dokumente im Pool. Anzahl relevante Dokumente im Pool relevante Dokumente in der Kollektion.
Nur Frageerweiterung und Pooling praktikabel aber liefern untere Schranken für |REL|
Wie entsteht eine Recall-Precision-Kurve?
Ist Vorteilhaft im Vergleich zu einem Recall-Precision-Graphen weil in dem Graphen gibt es zwei “grauen Zonen” wo Precision gut ist aber Recall nicht oder andersherum und es unklar ist, ob System gut ist.
Recall-Precision-Kurve. Man berechnet für ein (r,p)-Paare einen Wert, z.B. F-Maß-Wert.
z.B. F-Maß: Parameter beta gibt an, ob Recall wichtiger ist. wenn wichtiger als Precision, dann ist beta>1. Ansonsten (Precision ist wichtiger) beta <1. Wenn die gleich wichtig sind, dann ist beta=1.
Aus der F-Mass-Formel ergibt sich für jedes IR-Systems (p,r) Paar einen Wert. Es gibt eine Kurve im Graphen für paare wo F-Wert = 0,5. Wenn F-Wert >0.5 dann ist das ein besseres System. Man kann F-Werte für zwei Systeme vergleichen.
?? Oberhalb der Kurve ist das System gut bewertet. Unterhalb schlecht.
Was ist der Unterschied zwischen System- und Benutzer-orientierten Maßen?
Es gibt zwei Evaluierungskriterien: Systemorientierte Evaluierungen und Benutzerorientierte Evaluierungen.
- Systemorientierte Evaluierungen fokussieren oft auf die System-Effizienz (Zeit/Speicherplatz) des IR-Systems.
2.Benutzerorientierte Evaluierungen betrachten den Benutzer im Interaktion mit dem IR-System. Hier gibt es drei Sub-Kriterien: Benutzer-Effizienz, Effektivität, Zufriedenheit. Fokus liegt aber auf *Effektivität - auf Systemorientierte Evaluierungen der Effektivität und Benutzerorientierte Experimente. Die werden unten beschrieben…
~~~~~~~
2.1. systemorientierter Maß: Die Relevanzurteile der Benutzer liegen vor und Experimente werden ohne weitere BEnutzerbeteiligung durchgeführt.
–unabh¨angig von speziellen Benutzerstandpunkten
–streben ”globale“ Bewertung der Distribution an(obige benutzerorientierte Maße betrachten jeweils nur die obersten R¨ange) (????) - Benutzer-orientierter Maß: Experimente mit Benutzern vor laufendem IR-System.
- -beziehen sich auf m¨ogliches Verhalten und Pr¨aferenzen der Benutzer
- -messen die Effektivit¨at, so wie der Benutzer sie wahrnimmt
- Benutzer-orientierter Maß: Experimente mit Benutzern vor laufendem IR-System.
Antwort, die Professor haben will.
~~~~~~~
Andere Definitionen
Oder hier ist gemeint Mittelwertbildung: Makrobewertung vs Mikrobewertung.
1. Makrobewertung = Anfrage-/Benutzer bezogen. Approximiert den Erwartungswert für PRECION ZU EINER GEW¨AHLTEN ANFRAGE (N Anfragen insgesamt) .
p_m = sum of all query_precision/Number of Queries
- Mikrobewertung = Dokument-bezogen/System-orientierte Sicht. Approximiert WAHRSCHEINLICHKEIT, DASS EIN ZUF¨ALLIG AUSGEW¨AHLTES GEFUNDENES DOKUMENT (aus einer der N Anfragen) RELEVANT ist.
p_mu = (sum per query of found and relevant documents)/(sum of all found documents per queries)
Welche Rolle spielt bei letzteren das Abbruchverhalten?
In dem Benutzer-orienterter Maß der Evaluierung der Effektivität betrachtet man oft die Mean Average Precision. Man berechnet MAP so, für jede Frage wird die Average Precision (AP) und dann das arithmetische Mittel über alle Fragen gebildet. MAP wird nach jedem relevanten Dokument neu berechnet.
Dieses Maß kann man als benutzerorientiert interpretieren, wenn man annimmt, dass nach jedem relevanten Dokument ein gleich großer Anteil von Benutzern die Suche abbricht!
(siehe Skript nicht vollständig…)
Was ist Diversity ranking, und wie kann man es evaluieren?
Diversity Ranking: Um Anfragen möglichst optimal zu beantworten, sollte ein Retrievalsystem versuchen, alle Aspekte mit den ersten Antwortdokumenten abzudecken.
Bsp: Anfrage nach Popstar liefert subtopics:
- Verkauf des neuen Albumn
- zugehörige Video
- neuster Klatsch
- Wikipedia Artikel zum Popstar
= unterschiedliche Antworten. (= Diversity)
Um dies zu berechnen definiert man die Maße Subtopic Recall, Subtopic Precision für jeden Rang.
Subtopic Recall = Vereinigung der (Menge der Teilaspekte pro Dokument) bis Rang k / Gesamtzahl der Teilaspekte der aktuellen Frage.
Subtopic Precision?
Was ist der Unterschied zwischen System- und Benutzer-orientierten Maßen? (Version 2)
Alternative Antwort:
Benutzerorientierte Maße:
-beziehen sich auf m¨ogliches Verhalten und Pr¨aferenzen der Benutzer
-messen die Effektivität, so wie der Benutzer sie wahrnimmt (erster Rang)
Bsp???
Systemorientierte Maße:
entsprechen einer systemorientierten Sicht
unabhängig von speziellen Benutzerstandpunkten
-streben “globale” Bewertung der Distribution an (obige benutzerorientierte Maße betrachten jeweils nur die
obersten R¨ange)