Evaluierung Flashcards

1
Q

Welche Arten von Evaluierungen gibt es?

A
  1. Formative Evaluierung: Meist zu Beginn einer Systementwicklung, als Basis fur Entwurfsentscheidungen ¨ Iterative Evaluierung Begleitend zur Systementwicklung
  2. Summative Evaluierung: am Projektende: Gesamtbewertung des realisierten Systems
  3. Komparative Evaluierung: Vergleichende Evaluierung verschiedener
    Systeme
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind die Anforderungen an/Maße der Evaluierung?

A

Anforderungen:
Jede Evaluierung muss zwei Eigentschaften (Maßstäben) erfüllen:
1. Reliabilität = Zuverlässigkeit/Wiederholbarkeit
Bsp: Ist die Stichprobe von Dokumenten repäsentativ für alle Dokumente? Waren die Daten Open-Source-Daten?, Gibt es zu der Evaluierung ausreichende Dokumentation?
2. Validität = Wie weit kann man die Ergebnisse verallgemeinern?
War die Stichprobe repräsentativ? z.B. bei der Evaluierung einer Web-Suchmaschine gibt es Test-Personen. Wenn diese Informatik-Studenten sind, sind die nicht für Web-Nutzer repräsentativ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Reicht eine Durchführung der Evaluierung von einem IR-System? Warum?

A

IR-Experimente sind stets stochastische Experimente, so dass also bei Wiederholungen eines Experimentes sich in der Regel nicht genau die gleichen Messwerte wie beim vorherigen
Versuch ergeben. Daher muss eine ausreichende Zahl von Versuchen durchgefuhrt werden (z.B. eine größere
Menge von Anfragen betrachtet werden), um sowohl Zuverl¨assigkeit als auch Validit¨at zu erreichen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was sind die zwei Evaluierungs-Kriterien für Informationssysteme?

A
  1. Systemorientiert/System-Effizienz: Evaluiert die Nutzung der Systemressourcen für eine bestimmte Aufgabe (Zeit/Speicherplatz Z.B.)
  2. Benutzerorientiert (Usability): Evaluiert die Benutzer Effizienz, Effektivität und Zufriedenheit der Nutzer
    (2. a) Benutzer Effizienz: Schnelligkeit mit der ein Benutzer erfolgreich eine Aufgabe lösen kann
    (2. b) ****Effektivität: Genauigkeit und Vollständigkeit, mit der ein Ziel erreicht wird. (Hiervon gibt es auch zwei sorten… siehe Frage zu Effektivitätsbetrachtungen)
    (2. c) Zufreidenheit: Der Benutzer ist mit dem System zufrieden.
  3. b.1. systemorientierter Maß: Die Relevanzurteile der Benutzer liegen vor und Experimente werden ohne weitere BEnutzerbeteiligung durchgeführt.
    - -unabh¨angig von speziellen Benutzerstandpunkten
    - -streben ”globale“ Bewertung der Distribution an(obige benutzerorientierte Maße betrachten jeweils nur die obersten R¨ange) (????)
  4. b.2. Benutzer-orientierter Maß: Experimente mit Benutzern vor laufendem IR-System.
    - -beziehen sich auf m¨ogliches Verhalten und Pr¨aferenzen der Benutzer
    - -messen die Effektivit¨at, so wie der Benutzer sie wahrnimmt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was sind die zwei Arten von Effektivitätsbetrachtungen?

A

systemorientiert: Relevanzurteile der Benutzer liegen vor,
Experimente werden ohne weitere
Benutzerbeteiligung durchgefuhrt ¨

benutzerorientiert: Experimente mit Benutzern vor laufendem IR-System

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind die Arten von Relevanz und geben Sie ein Beispiel an.

A
  1. Situative Relevanz - Die Nützlichkeit für das eigentliche Informationsbedürfnis
  2. Pertinenz - die subjektive Relevanz vom Benutzer
  3. Objektive Relevanz - von neutralem Beobachter die Relevanz
  4. System-Relevanz -Retrievalwert vom System.

Bsp: Benutzer sucht nach Bewertungen/Berichte in Web-Suchmaschine um zu wissen, ob man Handy xyz kaufen sollte und findet ein Dokument (ein Bericht) über das Handy.

  1. Benutzer kauft Handy. War Bericht hilfreich?
  2. Wie hilfreich findet der Nutzer den Bericht in diesem Augenblick der Web-Suche
  3. Wie schätz ein neutraler Beobachter die Qualität der Antwort ein?
  4. Retrieval-Wert der Suchmaschine für das Dokument.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definition Precision:

A

Leicht zu berechnen: von denen die wir gefunden haben, wie viele waren relevant.
precision p := |REL and GEF|/ |GEF|

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Definition Recall:

A

Schwer zu berechnen, weil man nicht ganze Kollektion bewertet hat (Relevanz Feedback):
recal r: = |REL and GEF|/ |REL|

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Definition Fallout:

A

Fallout: |GEF and Nicht-REL| / |NICHT-REL|

==Anteil der gefundenen nicht-relevanten an den irrelevanten
f = |GEF − REL| / |ALL − REL|
(wir wollen diese Zahl minimieren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

EX: Kollektion von 1000 Dokumenten
20 aus den 1000 sind relevant. (980 sind nicht relevant.)
Zu einer Anfrage werden 10 Dokumente gefunden. 8 davon sind relevant. (zwei nicht relevant).
Was ist Precision, recall und fallout?

A
precision = 8/10
recall = 8/20
fallout = 2/ 980
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Gegeben sei eine Kollektion mit 1000 Dokumenten und die folgenden Distributionen:
∆1 = (+| + | + | + | − | − | + | − | − |+)
∆2 = (+| − | − | − | − | − | − | + | + |+)

Nimm an, dass
ˆ für jede Distribution bzw. dazugehörige Anfrage 50 relevante Dokumente (!!! wichtig für recall)
in der Kollektion vorhanden sind
ˆ das System nur Dokumente mit Retrievalwerten r > 0 zurückliefert

Berechne für jede dieser Distributionen
ˆ Prec@5
ˆ Recall
ˆ Fallout

A
***prec@5 =  precision for first 5 documents found?
dist 1:  
prec@5 = 4/5
recall = 6/50
fallout = 4/ 950

dist 2:
prec@5 = 1/5
recall = 4/50
fallout = 6/950

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wieso spielt die experimentelle Evaluation eine Rolle im Information Retrieval? (Aufgabe 14 a)

A

(Musterlösung)
Viele Verfahren sind heuristisch: theoretische Beweise schwierig

empirische Verifikation der Systeme ist die einzige Wahl.

Interaktives Retrieval: Benutzer lassen sich schlecht theoretisch modellieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Skizziere in wenigen Sätzen, wie eine systemorientierte Evaluation durchgeführt wird. Welche Probleme treten dabei regelmäßig auf und welche
Lösungen gibt es? (Aufgabe 14 b)

A

(Errinerung.. was ist systemorientierte Evaluierung? = systemorientiert: Relevanzurteile der Benutzer liegen vor,
Experimente werden ohne weitere
Benutzerbeteiligung durchgefuhrt ?????)

Musterlösung…
Aufgabe -> ? -> Query -> IR-System -> Ergebnisse
Maß für die Qualität der Ergebnisse im Vergleich zur Aufgabe

Aufgabe zu schwierig (immer keine Ergebnis -Dokumente)

Aufgabe zu leicht (immer genau das richtige Ergebnis)
-> Verwendung mehrerer unterschiedlicher Aufgaben, Mitteilung

Bestimmung von REL (Recall Abschätzen)

  • > Pooling, Frageerweiterung, ..
  • > Assessoren, evtl. Mehrfachbewertung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welche zusätzlichen Probleme treten bei der benutzerorientierten Evaluation auf? Welche Lösungen gibt es dafür? (Aufgabe 14c)

A
  1. Was ist die Grundgesamtheit der Benutzer?
  2. Stichprobe i.d.R. nicht zufällig -> geringe prädiktive Validität
  3. Benutzer
    - haben mal einen schlechten Tag
    - verstehen die Aufgabe unterschiedlich gut
    -vertun sich mal
    - unterscheiden sich stark und latent
    - unterliegen kognitiven Verzerrungen (biases)
    Lösungen:
  4. mehrere TN bearbeiten dieselbe Aufgabe
  5. Aufgabenreihenfolge permutieren (“randomisieren”)
  6. “Große” Stichproben, Replikation von Versuchen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind die Bewertungsmaße?

A

benutzerorientierte Maße auf das m¨ogliche Verhalten und die Pr¨aferenzen der Benutzer. Systemorientierte Maße entsprechen dagegen einer systemorientierten Sicht,
die unabh¨angig von speziellen Benutzerstandpunkten ist.

Benutzerstandpunkte:
• n Dokumente gesehen: # gesehene relevante Dokumente
• n relevante Dokumente gesehen: # gesehene Dokumente
• n nicht relevante Dokumente gesehen: # gesehene / # gesehene relevante Dokumente
• n nicht relevante Dokumente in Folge gesehen: # gesehene / # gesehene relevante Dokumente

Ein einfaches systemorientiertes Maß w¨are daher die Korrelation zwischen Systemantwort ∆ und idealer Distribution ∆.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist die Click-Through-Rate?

A

Es ist ein Maß, um Precision zu berechnen (???) “: in Ermangelung von Relevanzurteilen wird angenommen, dass jede angeklickte Antwort relevant sind”

Web: “Click-through rate (CTR) is the ratio of users who click on a specific link to the number of total users who view a page, email, or advertisement. It is commonly used to measure the success of an online advertising campaign for a particular website as well as the effectiveness of email campaigns.”

17
Q

Welche Näherungsmethoden gibt es um den Recall zu schätzen?

A
  • Vollständige Relevanzbeurteilung - eine repräsentativen (riesigen) Stichprobe der gesamten Datenbasis. (Muss gross genug sein, weil REL sehr viel kleiner als die Datenbasis ist)
  • Source-Document-Methode: Man wählt ein zufälliges Dokument aus der DB. Man formuliert eine Frage, auf die dieses Dokument relevant ist. Man prüft, ob das System das betreffende Dokument als Antwort auf Frage liefert. ~> mehrmals wiederholen und dir rel. Häufigkiet eine Näherung des Recalls finden.
  • Frageerweiterung: man erweitert die ursprünglichen Anfrage und erhält eine andere Menge von Antworten, die mehr/andere relevante Dokumente enthält. Man formt die Vereinigung aller Antworten und schätz den Recall. (Schätzung zu hoch)
  • Abgleich mit externen Quellen: Wähle Anfragen, zu denen relevante Dokumente bekannt sind. Schätze Recall als Anteil der gefundenen an den bekannten relevanten Dokumenten. -> Nachteil sehr aufwändig weil es Meinung von Fachleuten benutzt.
  • Pooling: Prozessiere dieselber Anfrage mit verschiedenen Systemen auf der gleichen Kollektion. Dann bilde Vereinigungsmenge der gefundenen Dokumente (Pool). Relevanzbeurteilung aller Dokumente im Pool. Anzahl relevante Dokumente im Pool relevante Dokumente in der Kollektion.

Nur Frageerweiterung und Pooling praktikabel aber liefern untere Schranken für |REL|

18
Q

Was ist die Monotonie-Eigenschaft bei der Qualitätsmaße?

A

Die Monotonie Eigenschaft: ein Maß ist monoton, wenn sich durch das Hinzufügen des gleichen Retrievalergebnisses (Distribution) die Aussage über die Überlegenheit (Mittelwertbildung der precision, recall oder fallout über N Anfragen) der beiden Systeme nicht ändert.

Mikrobewertung ist nicht Monoton weil man im Nenner summiert

19
Q

Was ist lineare Ordnung? Schwache Ordnung?

A

Ein Rang bezieht sich auf die Distribution von gefundenen Dokumente. Falls mehrere Dokumente den gleichen Retrievalgewicht haben = sie sind im selben Rang = schwache Ordnung.

Falls nur ein Dokument pro Rang = lineare Ordnug.

Dies ist wichtig weil Recall und Precision nur nach jedem Rang berechnet wird. Siehe Aufgabe 12

20
Q

Was sieht man in einer Tabelle der Recall und Precision bei der Retrievalergebnisse linearer Ordnung?

A

Recall beginnt sehr klein bei n=1 und steigt bis 1.0 Recall (falls alle relevanten Dokumente gefunden werden). Precision hingegen fällt wenn n steigt (Anzahl der angesehene/gefundene Dokumente) weil es gefundenen Dokumente ein kleinteil von relevanten Dokumente sind.

21
Q

Was ist Cumulated Gain Modell?

A

Das CG-Modell modelliert den Anteil der Benutzer, die nach Rang k stoppen.
Annahme: hochrelevante Dokumente wertvoller als marginal relevant => Discount * log(Rang) führt dazu, dass Discount nur langsam steigt. Gain/log(Rang) (das ist der Discount) wird immer kleiner.
* => der zusätzlicher Gain wird immer kleiner (wie wenn man isst. Der erste Biss ist der Beste. Am Ende ist der Gain wenig)
Annahme: Benutzer schauen sich eher die ersten Dokumente
Cumulated Gain Vektor ist der Wert von Gain zu einer bestimmten Stelle (Rang) der Ergebnisse. Bis zu Rang = b ist der Gain der cumulative Qualitätsmaß an dem Rang.
z.B.
Distribution = (3 , 2 ,3, 0 , 0, 1 , 2, 3, 0 )
b = 3, Rang = k
Dann:
DCG(1) = 3
DCG(2) = cumulitv => 3 + 2
DCG(3) = DCG(2) + Gain bei Rang 3 / log_3 (3)

22
Q

Vergleichen Sie Salten/Trec-Methode der Evaluierungsmaße

A

na

23
Q

Was ist der Unterschied zwischen der Evaluierung vom Batch-artigen und Interaktiven Retrieval?

A

Batch-artige Evaluierung vom Retrieval-Ergebnisse:

  • nur eine Anfrage wird betrachtet
  • Reformulierungen vom Benutzer wird nicht betrachtet
  • Highlighting, Clustering, Browsing von Dokumenten vom Such-Maschine wird nicht berücksigtigt

Interaktives Retrieval Evaluierung:

  • ist Aussagekräftiger weil interaktives Retrieval realistischer.
  • iterativer Prozess
  • Feldstudien: Retrieval besteht aus Folge von zusammenhängenden Anfragen mit wanderndem Ziel
  • Benutzt “simulated work task”
  • wird analysiert durch
    • Think Aloug Protokolle,
  • -Beobachtungsdaten
  • -Interviews nach dem Suchen
  • -Fragebögen
  • -Fehleranalysen
  • -Zeitbedarf
  • -Kosten-Nutzen-Analyse
  • -eye tracking
24
Q

Wie kann man (Discounted) Cumulated Gain verwenden, um zwei Systeme zu vergleichen?

A
  1. Eine Stichprobe aus Anfragen auf beiden Systemen ausführen lassen.
  2. Die CG-Vektoren aller Anfragen mitteln.
  3. Je nach Benutzermodell gibt dann CG_1(k) CG_2(k) Auskunft.