Vorlesung 5 - Evaluation Flashcards

Question 1

Q

Warum muss ein TR-System evaluiert werden?

Answer

A

Bewertung des aktuellen Nutzens eines TR-Systems
-> „Maße sollten Anwendbarkeit in der Praxis reflektieren“
-> „Üblicherweise durch Anwenderstudie (interaktive Evaluation des IR-Systems)“
Vergleich verschiedener Systeme und Methoden
-> „Der individuelle Nutzen ist nicht direkt messbar, es können jedoch Maße gefunden werden, die mit dem Nutzen für eine spezifische Suchaufgabe korreliert sind.“
-> „Üblicherweise durch Testreihen (Testreihen-IR-Evaluation)“
→ „TR ist ein empirisch definiertes Problem“
→ „ungeeignetes experimentelles Design führt zu fehlgeleiteter Forschung / Anwendung“
→ „experimentelles Design muss zur Forschung oder Anwendung passen“

Question 2

Q

Erläutern, wie eine Testumgebung aufgebaut sein muss, welche praktischen Probleme dabei
auftreten können und mit welchen Strategien diesen entgegengewirkt werden kann

Answer

A

Was gemessen wird:
„Genauigkeit: Wie genau sind die Suchergebnisse? Fähigkeit eines Systems relevanter
Ergebnisse im Ranking ganz oben einzuordnen
Effizienz: Wie schnell erhält der Nutzer das Ergebnis? Wie hoch ist der benötigte
Rechenaufwand, um die Anfrage zu beantworten? Rechenraum und Zeitbedarf
Bedienbarkeit: Wie nützlich ist das System für reale Aufgaben des Nutzers?
Anwenderstudien!“
Aufbau Testumgebung / Idee (Cranfield-Evaluation) (Was muss gegen sein?) Wichtig!
-> 4 Schritte:
1. Erstellung wiederverwendbarer Testreihen durch Sammlung von realen Dokumenten
2. repräsentativen Nutzeranfragen
3. einer manuellen Bewertung der Relevanz
4. eine ideale Rangliste für jede Nutzeranfrage zu erzeugen
-> Systemergebnisse werden mit den idealen Ranglisten verglichen → Quantifizierungsmaße
-> Systeme vergleichen mit Testdatensatz → Wiederverwendbarkeit
Praktische Probleme
-> Vollständigkeit vs. minimaler Aufwand schwer möglich, beides zu optimieren →
-> Relevante Dokumente müssen existieren
-> Maße die den wahrgenommenen Nutzen gut beschreiben
Strategien
-> Auswahl der Dokumente durch Pooling
-> Bewertung der Bewertungen durch statistische Signifikanztests

Question 3

Q

Prinzipien der Cranfield-Evaluation auf TR-Systeme anwenden

Answer

A

Idee: Erstellung wiederverwendbarer Testreihen
Nutzer bekommen (reale) Musterdokumente
Nutzer stellen Nutzeranfragen
→ Bewertung der Relevanz der Doks (Ideale Rangliste) TODO !!!
Sammlung von repräsentativen Musterdokumenten (reale Dokumente)
Reihe von repräsentativen Queries/Topics (Nutzeranfragen)
Bewertung der Relevanz (idealerweise von Anwendern, welche die Query formuliert haben ) →ideale Rangliste je Query
Quantifizierungsmaßezur Bewertung des Systemergebnisses verglichen mit den idealen Ranglisten
Wiederverwendbarkeit des Testdatensatzes für den Vergleich verschiedener Systeme

Question 4

Q

Precision, Recall und Precision@k als Maße zur Evaluation von TR-Systemen erläutern

Answer

A

Precision: P= rp/ rp+fp= richtig positive Resultate
-> „Sind die erhaltenen Resultate alle relevant?“
Recall: R= rp/rp+fn = richtig positive
Relevante
-> „Wurden alle relevanten Dokumente vom System geliefert?“
-> Wkt, dass ein relevantes Dokument vom System als positiv bewertet wurde
Ideal: R=P=1,0
Precision@k: P@k= richtig positive/k
(Cut-off bei k )
-> „Menge zu bewertenden Dokumenten kann durch den Schwellwert k definiert werden“
-> Wkt, dass ein vom System als positiv bewertetes Dokument relevant ist
-> Dabei werden nur die ersten k vom System zurückgegebenen Dokumente einbezogen
F-Maß: F1= 2PR/P+R (F-Measure)
-> „kombiniert Precision und Recall“
-> Harmonisches Mittel aus P und R
„Zielkonflikt zwischen Precision und Recall ist von der Suchaufgabe des Nutzers abhängig“

Question 5

Q

Erklären, wie Ranglisten mittels Average Precision (AP) evaluiert werden können

Answer

A

Average Precision: Standardmaß zum Vergleichen zweier Ranking-Methoden
AP = ∑ gelieferte Relevante/Relevante
-> „Durchschnittliche Precision an jedem Punkt, an dem ein neues relevantes Dokument zurückgeliefert wurde“
-> „Normalisierer = Gesamtanzahl relevanter Dokumente im Datensatz“
-> „Sensitiv gegenüber dem Rang jedes relevanten Dokuments“
–> Position des Dokumentes in der Rangliste, z. B. 3/5
Precision für jedes durch das System gelieferte Dokument berechnen, z. B.:
-> Gesamtanzahl relevanter Dokumente im Datensatz: 10
-> AP berücksichtigt Reihenfolge aller relevanter Dokumente, in denen die Ergebnisse inder Ergebnisliste vorkommen. P@k berücksichtigt nur die ersten k Ergebnisse
-> Dadurch bekommen relevante Dokumente, die das System zuerst ausgibt, einen höheren Einfluss auf das Gesamtergebnis, als relevante Dokumente, die das System später ausgibt (also in der Rangliste weiter unten eingeordnet wurden)

Question 6

Q

Unterschied zwischen MAP und gMAP erläutern und Anwendungsszenarien beschreiben

Answer

A

Auswertung der AP über mehrere Queries
MAP: arithmetisches Mittel der AP:
MAP= AP( A , q1)+ AP( A, q2)/Anzahl Queries -> (Anzahl Queries hier = 2)
-> dominiert für große Werte
-> Nutzung von MAP, wenn viele Treffer zu erwarten sind
gMAP: geometrisches Mittel der AP:
gMAP=√AP(A ,q1)∗AP( A,q2)
-> dominiert für kleine Werte
-> Nutzung von gMAP, wenn wenige Treffer zu erwarten sind

Question 7

Q

Beschreiben, wie TR-Systeme mit Multilevel-Relevanzentscheidungen mittels nDCG@k evaluiert
werden können

Answer

A

Anwendbar bei Multi-Level-Judgments im Bereich:“ [1 ,r],r>2
DCG (Discounted Comulative Gain) = Abstufung der Relevanz
nDCG (normalized Discounted Comulative Gain) = normalisierte Abstufung der Relevanz
Kenngröße für den Nutzer, um Gesamtnutzen der besten k-Dokumente zu messen
Niedrig eingeordnete Dokumente werden im Nutzen abgewertet
Vergleichbarkeit wird mittels Normalisierung über alle Queries sichergestellt

Question 8

Q

Darlegen, wozu statistische Signifikanztests nützlich sind

Answer

A

Um zu untersuchen, ob der beobachtete Unterschied zweier oder mehrerer Systeme aus einer bestimmten Query resultieren oder ob die Systeme tatsächlich verschiedene Ergebnisse liefern

Vorlesung 5 - Evaluation Flashcards

(8 cards)