Evaluierung Flashcards

Question 1

Q

Welche Arten von Evaluierungen gibt es?

Answer

A

Formative Evaluierung: Meist zu Beginn einer Systementwicklung, als Basis fur Entwurfsentscheidungen ¨ Iterative Evaluierung Begleitend zur Systementwicklung
Summative Evaluierung: am Projektende: Gesamtbewertung des realisierten Systems
Komparative Evaluierung: Vergleichende Evaluierung verschiedener
Systeme

Question 2

Q

Was sind die Anforderungen an/Maße der Evaluierung?

Answer

A

Anforderungen:
Jede Evaluierung muss zwei Eigentschaften (Maßstäben) erfüllen:
1. Reliabilität = Zuverlässigkeit/Wiederholbarkeit
Bsp: Ist die Stichprobe von Dokumenten repäsentativ für alle Dokumente? Waren die Daten Open-Source-Daten?, Gibt es zu der Evaluierung ausreichende Dokumentation?
2. Validität = Wie weit kann man die Ergebnisse verallgemeinern?
War die Stichprobe repräsentativ? z.B. bei der Evaluierung einer Web-Suchmaschine gibt es Test-Personen. Wenn diese Informatik-Studenten sind, sind die nicht für Web-Nutzer repräsentativ

Question 3

Q

Reicht eine Durchführung der Evaluierung von einem IR-System? Warum?

Answer

A

IR-Experimente sind stets stochastische Experimente, so dass also bei Wiederholungen eines Experimentes sich in der Regel nicht genau die gleichen Messwerte wie beim vorherigen
Versuch ergeben. Daher muss eine ausreichende Zahl von Versuchen durchgefuhrt werden (z.B. eine größere
Menge von Anfragen betrachtet werden), um sowohl Zuverl¨assigkeit als auch Validit¨at zu erreichen.

Question 4

Q

Was sind die zwei Evaluierungs-Kriterien für Informationssysteme?

Answer

A

Systemorientiert/System-Effizienz: Evaluiert die Nutzung der Systemressourcen für eine bestimmte Aufgabe (Zeit/Speicherplatz Z.B.)
Benutzerorientiert (Usability): Evaluiert die Benutzer Effizienz, Effektivität und Zufriedenheit der Nutzer
(2. a) Benutzer Effizienz: Schnelligkeit mit der ein Benutzer erfolgreich eine Aufgabe lösen kann
(2. b) ****Effektivität: Genauigkeit und Vollständigkeit, mit der ein Ziel erreicht wird. (Hiervon gibt es auch zwei sorten… siehe Frage zu Effektivitätsbetrachtungen)
(2. c) Zufreidenheit: Der Benutzer ist mit dem System zufrieden.
b.1. systemorientierter Maß: Die Relevanzurteile der Benutzer liegen vor und Experimente werden ohne weitere BEnutzerbeteiligung durchgeführt.
- -unabh¨angig von speziellen Benutzerstandpunkten
- -streben ”globale“ Bewertung der Distribution an(obige benutzerorientierte Maße betrachten jeweils nur die obersten R¨ange) (????)
b.2. Benutzer-orientierter Maß: Experimente mit Benutzern vor laufendem IR-System.
- -beziehen sich auf m¨ogliches Verhalten und Pr¨aferenzen der Benutzer
- -messen die Effektivit¨at, so wie der Benutzer sie wahrnimmt

Question 5

Q

Was sind die zwei Arten von Effektivitätsbetrachtungen?

Answer

A

systemorientiert: Relevanzurteile der Benutzer liegen vor,
Experimente werden ohne weitere
Benutzerbeteiligung durchgefuhrt ¨

benutzerorientiert: Experimente mit Benutzern vor laufendem IR-System

Question 6

Q

Was sind die Arten von Relevanz und geben Sie ein Beispiel an.

Answer

A

Situative Relevanz - Die Nützlichkeit für das eigentliche Informationsbedürfnis
Pertinenz - die subjektive Relevanz vom Benutzer
Objektive Relevanz - von neutralem Beobachter die Relevanz
System-Relevanz -Retrievalwert vom System.

Bsp: Benutzer sucht nach Bewertungen/Berichte in Web-Suchmaschine um zu wissen, ob man Handy xyz kaufen sollte und findet ein Dokument (ein Bericht) über das Handy.

Benutzer kauft Handy. War Bericht hilfreich?
Wie hilfreich findet der Nutzer den Bericht in diesem Augenblick der Web-Suche
Wie schätz ein neutraler Beobachter die Qualität der Antwort ein?
Retrieval-Wert der Suchmaschine für das Dokument.

Question 7

Q

Definition Precision:

Answer

A

Leicht zu berechnen: von denen die wir gefunden haben, wie viele waren relevant.
precision p := |REL and GEF|/ |GEF|

Question 8

Q

Definition Recall:

Answer

A

Schwer zu berechnen, weil man nicht ganze Kollektion bewertet hat (Relevanz Feedback):
recal r: = |REL and GEF|/ |REL|

Question 9

Q

Definition Fallout:

Answer

A

Fallout: |GEF and Nicht-REL| / |NICHT-REL|

==Anteil der gefundenen nicht-relevanten an den irrelevanten
f = |GEF − REL| / |ALL − REL|
(wir wollen diese Zahl minimieren)

Question 10

Q

EX: Kollektion von 1000 Dokumenten
20 aus den 1000 sind relevant. (980 sind nicht relevant.)
Zu einer Anfrage werden 10 Dokumente gefunden. 8 davon sind relevant. (zwei nicht relevant).
Was ist Precision, recall und fallout?

Answer

A

precision = 8/10
recall = 8/20
fallout = 2/ 980

Question 11

Q

Gegeben sei eine Kollektion mit 1000 Dokumenten und die folgenden Distributionen:
∆1 = (+| + | + | + | − | − | + | − | − |+)
∆2 = (+| − | − | − | − | − | − | + | + |+)

Nimm an, dass
für jede Distribution bzw. dazugehörige Anfrage 50 relevante Dokumente (!!! wichtig für recall)
in der Kollektion vorhanden sind
das System nur Dokumente mit Retrievalwerten r > 0 zurückliefert

Berechne für jede dieser Distributionen
Prec@5
Recall
Fallout

Answer

A

***prec@5 =  precision for first 5 documents found?
dist 1:  
prec@5 = 4/5
recall = 6/50
fallout = 4/ 950

dist 2:
prec@5 = 1/5
recall = 4/50
fallout = 6/950

Question 12

Q

Wieso spielt die experimentelle Evaluation eine Rolle im Information Retrieval? (Aufgabe 14 a)

Answer

A

(Musterlösung)
Viele Verfahren sind heuristisch: theoretische Beweise schwierig

empirische Verifikation der Systeme ist die einzige Wahl.

Interaktives Retrieval: Benutzer lassen sich schlecht theoretisch modellieren.

Question 13

Q

Skizziere in wenigen Sätzen, wie eine systemorientierte Evaluation durchgeführt wird. Welche Probleme treten dabei regelmäßig auf und welche
Lösungen gibt es? (Aufgabe 14 b)

Answer

A

(Errinerung.. was ist systemorientierte Evaluierung? = systemorientiert: Relevanzurteile der Benutzer liegen vor,
Experimente werden ohne weitere
Benutzerbeteiligung durchgefuhrt ?????)

Musterlösung…
Aufgabe -> ? -> Query -> IR-System -> Ergebnisse
Maß für die Qualität der Ergebnisse im Vergleich zur Aufgabe

Aufgabe zu schwierig (immer keine Ergebnis -Dokumente)

Aufgabe zu leicht (immer genau das richtige Ergebnis)
-> Verwendung mehrerer unterschiedlicher Aufgaben, Mitteilung

Bestimmung von REL (Recall Abschätzen)

> Pooling, Frageerweiterung, ..
> Assessoren, evtl. Mehrfachbewertung

Question 14

Q

Welche zusätzlichen Probleme treten bei der benutzerorientierten Evaluation auf? Welche Lösungen gibt es dafür? (Aufgabe 14c)

Answer

A

Was ist die Grundgesamtheit der Benutzer?
Stichprobe i.d.R. nicht zufällig -> geringe prädiktive Validität
Benutzer
- haben mal einen schlechten Tag
- verstehen die Aufgabe unterschiedlich gut
-vertun sich mal
- unterscheiden sich stark und latent
- unterliegen kognitiven Verzerrungen (biases)
Lösungen:
mehrere TN bearbeiten dieselbe Aufgabe
Aufgabenreihenfolge permutieren (“randomisieren”)
“Große” Stichproben, Replikation von Versuchen.

Question 15

Q

Was sind die Bewertungsmaße?

Answer

A

benutzerorientierte Maße auf das m¨ogliche Verhalten und die Pr¨aferenzen der Benutzer. Systemorientierte Maße entsprechen dagegen einer systemorientierten Sicht,
die unabh¨angig von speziellen Benutzerstandpunkten ist.

Benutzerstandpunkte:
• n Dokumente gesehen: # gesehene relevante Dokumente
• n relevante Dokumente gesehen: # gesehene Dokumente
• n nicht relevante Dokumente gesehen: # gesehene / # gesehene relevante Dokumente
• n nicht relevante Dokumente in Folge gesehen: # gesehene / # gesehene relevante Dokumente

Ein einfaches systemorientiertes Maß w¨are daher die Korrelation zwischen Systemantwort ∆ und idealer Distribution ∆.

Question 16

Q

Was ist die Click-Through-Rate?

Answer

Study These Flashcards

A

Es ist ein Maß, um Precision zu berechnen (???) “: in Ermangelung von Relevanzurteilen wird angenommen, dass jede angeklickte Antwort relevant sind”

Web: “Click-through rate (CTR) is the ratio of users who click on a specific link to the number of total users who view a page, email, or advertisement. It is commonly used to measure the success of an online advertising campaign for a particular website as well as the effectiveness of email campaigns.”

Question 17

Q

Welche Näherungsmethoden gibt es um den Recall zu schätzen?

Answer

Study These Flashcards

A

Vollständige Relevanzbeurteilung - eine repräsentativen (riesigen) Stichprobe der gesamten Datenbasis. (Muss gross genug sein, weil REL sehr viel kleiner als die Datenbasis ist)
Source-Document-Methode: Man wählt ein zufälliges Dokument aus der DB. Man formuliert eine Frage, auf die dieses Dokument relevant ist. Man prüft, ob das System das betreffende Dokument als Antwort auf Frage liefert. ~> mehrmals wiederholen und dir rel. Häufigkiet eine Näherung des Recalls finden.
Frageerweiterung: man erweitert die ursprünglichen Anfrage und erhält eine andere Menge von Antworten, die mehr/andere relevante Dokumente enthält. Man formt die Vereinigung aller Antworten und schätz den Recall. (Schätzung zu hoch)
Abgleich mit externen Quellen: Wähle Anfragen, zu denen relevante Dokumente bekannt sind. Schätze Recall als Anteil der gefundenen an den bekannten relevanten Dokumenten. -> Nachteil sehr aufwändig weil es Meinung von Fachleuten benutzt.
Pooling: Prozessiere dieselber Anfrage mit verschiedenen Systemen auf der gleichen Kollektion. Dann bilde Vereinigungsmenge der gefundenen Dokumente (Pool). Relevanzbeurteilung aller Dokumente im Pool. Anzahl relevante Dokumente im Pool relevante Dokumente in der Kollektion.

Nur Frageerweiterung und Pooling praktikabel aber liefern untere Schranken für |REL|

Question 18

Q

Was ist die Monotonie-Eigenschaft bei der Qualitätsmaße?

Answer

Study These Flashcards

A

Die Monotonie Eigenschaft: ein Maß ist monoton, wenn sich durch das Hinzufügen des gleichen Retrievalergebnisses (Distribution) die Aussage über die Überlegenheit (Mittelwertbildung der precision, recall oder fallout über N Anfragen) der beiden Systeme nicht ändert.

Mikrobewertung ist nicht Monoton weil man im Nenner summiert

Question 19

Q

Was ist lineare Ordnung? Schwache Ordnung?

Answer

Study These Flashcards

A

Ein Rang bezieht sich auf die Distribution von gefundenen Dokumente. Falls mehrere Dokumente den gleichen Retrievalgewicht haben = sie sind im selben Rang = schwache Ordnung.

Falls nur ein Dokument pro Rang = lineare Ordnug.

Dies ist wichtig weil Recall und Precision nur nach jedem Rang berechnet wird. Siehe Aufgabe 12

Question 20

Q

Was sieht man in einer Tabelle der Recall und Precision bei der Retrievalergebnisse linearer Ordnung?

Answer

Study These Flashcards

A

Recall beginnt sehr klein bei n=1 und steigt bis 1.0 Recall (falls alle relevanten Dokumente gefunden werden). Precision hingegen fällt wenn n steigt (Anzahl der angesehene/gefundene Dokumente) weil es gefundenen Dokumente ein kleinteil von relevanten Dokumente sind.

Question 21

Q

Was ist Cumulated Gain Modell?

Answer

Study These Flashcards

A

Das CG-Modell modelliert den Anteil der Benutzer, die nach Rang k stoppen.
Annahme: hochrelevante Dokumente wertvoller als marginal relevant => Discount * log(Rang) führt dazu, dass Discount nur langsam steigt. Gain/log(Rang) (das ist der Discount) wird immer kleiner.
* => der zusätzlicher Gain wird immer kleiner (wie wenn man isst. Der erste Biss ist der Beste. Am Ende ist der Gain wenig)
Annahme: Benutzer schauen sich eher die ersten Dokumente
Cumulated Gain Vektor ist der Wert von Gain zu einer bestimmten Stelle (Rang) der Ergebnisse. Bis zu Rang = b ist der Gain der cumulative Qualitätsmaß an dem Rang.
z.B.
Distribution = (3 , 2 ,3, 0 , 0, 1 , 2, 3, 0 )
b = 3, Rang = k
Dann:
DCG(1) = 3
DCG(2) = cumulitv => 3 + 2
DCG(3) = DCG(2) + Gain bei Rang 3 / log_3 (3)

Question 22

Q

Vergleichen Sie Salten/Trec-Methode der Evaluierungsmaße

Answer

Study These Flashcards

A

na

Question 23

Q

Was ist der Unterschied zwischen der Evaluierung vom Batch-artigen und Interaktiven Retrieval?

Answer

Study These Flashcards

A

Batch-artige Evaluierung vom Retrieval-Ergebnisse:

nur eine Anfrage wird betrachtet
Reformulierungen vom Benutzer wird nicht betrachtet
Highlighting, Clustering, Browsing von Dokumenten vom Such-Maschine wird nicht berücksigtigt

Interaktives Retrieval Evaluierung:

ist Aussagekräftiger weil interaktives Retrieval realistischer.
iterativer Prozess
Feldstudien: Retrieval besteht aus Folge von zusammenhängenden Anfragen mit wanderndem Ziel
Benutzt “simulated work task”
wird analysiert durch
- Think Aloug Protokolle,
-Beobachtungsdaten
-Interviews nach dem Suchen
-Fragebögen
-Fehleranalysen
-Zeitbedarf
-Kosten-Nutzen-Analyse
-eye tracking

Question 24

Q

Wie kann man (Discounted) Cumulated Gain verwenden, um zwei Systeme zu vergleichen?

Answer

Study These Flashcards

A

Eine Stichprobe aus Anfragen auf beiden Systemen ausführen lassen.
Die CG-Vektoren aller Anfragen mitteln.
Je nach Benutzermodell gibt dann CG_1(k) CG_2(k) Auskunft.

Evaluierung Flashcards

(24 cards)