Evaluierung Flashcards
Welche Arten von Evaluierungen gibt es?
- Formative Evaluierung: Meist zu Beginn einer Systementwicklung, als Basis fur Entwurfsentscheidungen ¨ Iterative Evaluierung Begleitend zur Systementwicklung
- Summative Evaluierung: am Projektende: Gesamtbewertung des realisierten Systems
- Komparative Evaluierung: Vergleichende Evaluierung verschiedener
Systeme
Was sind die Anforderungen an/Maße der Evaluierung?
Anforderungen:
Jede Evaluierung muss zwei Eigentschaften (Maßstäben) erfüllen:
1. Reliabilität = Zuverlässigkeit/Wiederholbarkeit
Bsp: Ist die Stichprobe von Dokumenten repäsentativ für alle Dokumente? Waren die Daten Open-Source-Daten?, Gibt es zu der Evaluierung ausreichende Dokumentation?
2. Validität = Wie weit kann man die Ergebnisse verallgemeinern?
War die Stichprobe repräsentativ? z.B. bei der Evaluierung einer Web-Suchmaschine gibt es Test-Personen. Wenn diese Informatik-Studenten sind, sind die nicht für Web-Nutzer repräsentativ
Reicht eine Durchführung der Evaluierung von einem IR-System? Warum?
IR-Experimente sind stets stochastische Experimente, so dass also bei Wiederholungen eines Experimentes sich in der Regel nicht genau die gleichen Messwerte wie beim vorherigen
Versuch ergeben. Daher muss eine ausreichende Zahl von Versuchen durchgefuhrt werden (z.B. eine größere
Menge von Anfragen betrachtet werden), um sowohl Zuverl¨assigkeit als auch Validit¨at zu erreichen.
Was sind die zwei Evaluierungs-Kriterien für Informationssysteme?
- Systemorientiert/System-Effizienz: Evaluiert die Nutzung der Systemressourcen für eine bestimmte Aufgabe (Zeit/Speicherplatz Z.B.)
- Benutzerorientiert (Usability): Evaluiert die Benutzer Effizienz, Effektivität und Zufriedenheit der Nutzer
(2. a) Benutzer Effizienz: Schnelligkeit mit der ein Benutzer erfolgreich eine Aufgabe lösen kann
(2. b) ****Effektivität: Genauigkeit und Vollständigkeit, mit der ein Ziel erreicht wird. (Hiervon gibt es auch zwei sorten… siehe Frage zu Effektivitätsbetrachtungen)
(2. c) Zufreidenheit: Der Benutzer ist mit dem System zufrieden. - b.1. systemorientierter Maß: Die Relevanzurteile der Benutzer liegen vor und Experimente werden ohne weitere BEnutzerbeteiligung durchgeführt.
- -unabh¨angig von speziellen Benutzerstandpunkten
- -streben ”globale“ Bewertung der Distribution an(obige benutzerorientierte Maße betrachten jeweils nur die obersten R¨ange) (????) - b.2. Benutzer-orientierter Maß: Experimente mit Benutzern vor laufendem IR-System.
- -beziehen sich auf m¨ogliches Verhalten und Pr¨aferenzen der Benutzer
- -messen die Effektivit¨at, so wie der Benutzer sie wahrnimmt
Was sind die zwei Arten von Effektivitätsbetrachtungen?
systemorientiert: Relevanzurteile der Benutzer liegen vor,
Experimente werden ohne weitere
Benutzerbeteiligung durchgefuhrt ¨
benutzerorientiert: Experimente mit Benutzern vor laufendem IR-System
Was sind die Arten von Relevanz und geben Sie ein Beispiel an.
- Situative Relevanz - Die Nützlichkeit für das eigentliche Informationsbedürfnis
- Pertinenz - die subjektive Relevanz vom Benutzer
- Objektive Relevanz - von neutralem Beobachter die Relevanz
- System-Relevanz -Retrievalwert vom System.
Bsp: Benutzer sucht nach Bewertungen/Berichte in Web-Suchmaschine um zu wissen, ob man Handy xyz kaufen sollte und findet ein Dokument (ein Bericht) über das Handy.
- Benutzer kauft Handy. War Bericht hilfreich?
- Wie hilfreich findet der Nutzer den Bericht in diesem Augenblick der Web-Suche
- Wie schätz ein neutraler Beobachter die Qualität der Antwort ein?
- Retrieval-Wert der Suchmaschine für das Dokument.
Definition Precision:
Leicht zu berechnen: von denen die wir gefunden haben, wie viele waren relevant.
precision p := |REL and GEF|/ |GEF|
Definition Recall:
Schwer zu berechnen, weil man nicht ganze Kollektion bewertet hat (Relevanz Feedback):
recal r: = |REL and GEF|/ |REL|
Definition Fallout:
Fallout: |GEF and Nicht-REL| / |NICHT-REL|
==Anteil der gefundenen nicht-relevanten an den irrelevanten
f = |GEF − REL| / |ALL − REL|
(wir wollen diese Zahl minimieren)
EX: Kollektion von 1000 Dokumenten
20 aus den 1000 sind relevant. (980 sind nicht relevant.)
Zu einer Anfrage werden 10 Dokumente gefunden. 8 davon sind relevant. (zwei nicht relevant).
Was ist Precision, recall und fallout?
precision = 8/10 recall = 8/20 fallout = 2/ 980
Gegeben sei eine Kollektion mit 1000 Dokumenten und die folgenden Distributionen:
∆1 = (+| + | + | + | − | − | + | − | − |+)
∆2 = (+| − | − | − | − | − | − | + | + |+)
Nimm an, dass
für jede Distribution bzw. dazugehörige Anfrage 50 relevante Dokumente (!!! wichtig für recall)
in der Kollektion vorhanden sind
das System nur Dokumente mit Retrievalwerten r > 0 zurückliefert
Berechne für jede dieser Distributionen
Prec@5
Recall
Fallout
***prec@5 = precision for first 5 documents found? dist 1: prec@5 = 4/5 recall = 6/50 fallout = 4/ 950
dist 2:
prec@5 = 1/5
recall = 4/50
fallout = 6/950
Wieso spielt die experimentelle Evaluation eine Rolle im Information Retrieval? (Aufgabe 14 a)
(Musterlösung)
Viele Verfahren sind heuristisch: theoretische Beweise schwierig
empirische Verifikation der Systeme ist die einzige Wahl.
Interaktives Retrieval: Benutzer lassen sich schlecht theoretisch modellieren.
Skizziere in wenigen Sätzen, wie eine systemorientierte Evaluation durchgeführt wird. Welche Probleme treten dabei regelmäßig auf und welche
Lösungen gibt es? (Aufgabe 14 b)
(Errinerung.. was ist systemorientierte Evaluierung? = systemorientiert: Relevanzurteile der Benutzer liegen vor,
Experimente werden ohne weitere
Benutzerbeteiligung durchgefuhrt ?????)
Musterlösung…
Aufgabe -> ? -> Query -> IR-System -> Ergebnisse
Maß für die Qualität der Ergebnisse im Vergleich zur Aufgabe
Aufgabe zu schwierig (immer keine Ergebnis -Dokumente)
Aufgabe zu leicht (immer genau das richtige Ergebnis)
-> Verwendung mehrerer unterschiedlicher Aufgaben, Mitteilung
Bestimmung von REL (Recall Abschätzen)
- > Pooling, Frageerweiterung, ..
- > Assessoren, evtl. Mehrfachbewertung
Welche zusätzlichen Probleme treten bei der benutzerorientierten Evaluation auf? Welche Lösungen gibt es dafür? (Aufgabe 14c)
- Was ist die Grundgesamtheit der Benutzer?
- Stichprobe i.d.R. nicht zufällig -> geringe prädiktive Validität
- Benutzer
- haben mal einen schlechten Tag
- verstehen die Aufgabe unterschiedlich gut
-vertun sich mal
- unterscheiden sich stark und latent
- unterliegen kognitiven Verzerrungen (biases)
Lösungen: - mehrere TN bearbeiten dieselbe Aufgabe
- Aufgabenreihenfolge permutieren (“randomisieren”)
- “Große” Stichproben, Replikation von Versuchen.
Was sind die Bewertungsmaße?
benutzerorientierte Maße auf das m¨ogliche Verhalten und die Pr¨aferenzen der Benutzer. Systemorientierte Maße entsprechen dagegen einer systemorientierten Sicht,
die unabh¨angig von speziellen Benutzerstandpunkten ist.
Benutzerstandpunkte:
• n Dokumente gesehen: # gesehene relevante Dokumente
• n relevante Dokumente gesehen: # gesehene Dokumente
• n nicht relevante Dokumente gesehen: # gesehene / # gesehene relevante Dokumente
• n nicht relevante Dokumente in Folge gesehen: # gesehene / # gesehene relevante Dokumente
Ein einfaches systemorientiertes Maß w¨are daher die Korrelation zwischen Systemantwort ∆ und idealer Distribution ∆.