Vorlesung 5 - Evaluation Flashcards
1
Q
Warum muss ein TR-System evaluiert werden?
A
- Bewertung des aktuellen Nutzens eines TR-Systems
-> „Maße sollten Anwendbarkeit in der Praxis reflektieren“
-> „Üblicherweise durch Anwenderstudie (interaktive Evaluation des IR-Systems)“ - Vergleich verschiedener Systeme und Methoden
-> „Der individuelle Nutzen ist nicht direkt messbar, es können jedoch Maße gefunden werden, die mit dem Nutzen für eine spezifische Suchaufgabe korreliert sind.“
-> „Üblicherweise durch Testreihen (Testreihen-IR-Evaluation)“
→ „TR ist ein empirisch definiertes Problem“
→ „ungeeignetes experimentelles Design führt zu fehlgeleiteter Forschung / Anwendung“
→ „experimentelles Design muss zur Forschung oder Anwendung passen“
2
Q
Erläutern, wie eine Testumgebung aufgebaut sein muss, welche praktischen Probleme dabei
auftreten können und mit welchen Strategien diesen entgegengewirkt werden kann
A
- Was gemessen wird:
„Genauigkeit: Wie genau sind die Suchergebnisse? Fähigkeit eines Systems relevanter
Ergebnisse im Ranking ganz oben einzuordnen
Effizienz: Wie schnell erhält der Nutzer das Ergebnis? Wie hoch ist der benötigte
Rechenaufwand, um die Anfrage zu beantworten? Rechenraum und Zeitbedarf
Bedienbarkeit: Wie nützlich ist das System für reale Aufgaben des Nutzers?
Anwenderstudien!“ - Aufbau Testumgebung / Idee (Cranfield-Evaluation) (Was muss gegen sein?) Wichtig!
-> 4 Schritte:
1. Erstellung wiederverwendbarer Testreihen durch Sammlung von realen Dokumenten
2. repräsentativen Nutzeranfragen
3. einer manuellen Bewertung der Relevanz
4. eine ideale Rangliste für jede Nutzeranfrage zu erzeugen
-> Systemergebnisse werden mit den idealen Ranglisten verglichen → Quantifizierungsmaße
-> Systeme vergleichen mit Testdatensatz → Wiederverwendbarkeit - Praktische Probleme
-> Vollständigkeit vs. minimaler Aufwand schwer möglich, beides zu optimieren →
-> Relevante Dokumente müssen existieren
-> Maße die den wahrgenommenen Nutzen gut beschreiben - Strategien
-> Auswahl der Dokumente durch Pooling
-> Bewertung der Bewertungen durch statistische Signifikanztests
3
Q
Prinzipien der Cranfield-Evaluation auf TR-Systeme anwenden
A
- Idee: Erstellung wiederverwendbarer Testreihen
- Nutzer bekommen (reale) Musterdokumente
- Nutzer stellen Nutzeranfragen
→ Bewertung der Relevanz der Doks (Ideale Rangliste) TODO !!! - Sammlung von repräsentativen Musterdokumenten (reale Dokumente)
- Reihe von repräsentativen Queries/Topics (Nutzeranfragen)
- Bewertung der Relevanz (idealerweise von Anwendern, welche die Query formuliert haben ) →ideale Rangliste je Query
- Quantifizierungsmaßezur Bewertung des Systemergebnisses verglichen mit den idealen Ranglisten
- Wiederverwendbarkeit des Testdatensatzes für den Vergleich verschiedener Systeme
4
Q
Precision, Recall und Precision@k als Maße zur Evaluation von TR-Systemen erläutern
A
- Precision: P= rp/ rp+fp= richtig positive Resultate
-> „Sind die erhaltenen Resultate alle relevant?“ - Recall: R= rp/rp+fn = richtig positive
Relevante
-> „Wurden alle relevanten Dokumente vom System geliefert?“
-> Wkt, dass ein relevantes Dokument vom System als positiv bewertet wurde
Ideal: R=P=1,0 - Precision@k: P@k= richtig positive/k
(Cut-off bei k )
-> „Menge zu bewertenden Dokumenten kann durch den Schwellwert k definiert werden“
-> Wkt, dass ein vom System als positiv bewertetes Dokument relevant ist
-> Dabei werden nur die ersten k vom System zurückgegebenen Dokumente einbezogen - F-Maß: F1= 2PR/P+R (F-Measure)
-> „kombiniert Precision und Recall“
-> Harmonisches Mittel aus P und R - „Zielkonflikt zwischen Precision und Recall ist von der Suchaufgabe des Nutzers abhängig“
5
Q
Erklären, wie Ranglisten mittels Average Precision (AP) evaluiert werden können
A
- Average Precision: Standardmaß zum Vergleichen zweier Ranking-Methoden
AP = ∑ gelieferte Relevante/Relevante
-> „Durchschnittliche Precision an jedem Punkt, an dem ein neues relevantes Dokument zurückgeliefert wurde“
-> „Normalisierer = Gesamtanzahl relevanter Dokumente im Datensatz“
-> „Sensitiv gegenüber dem Rang jedes relevanten Dokuments“
–> Position des Dokumentes in der Rangliste, z. B. 3/5 - Precision für jedes durch das System gelieferte Dokument berechnen, z. B.:
-> Gesamtanzahl relevanter Dokumente im Datensatz: 10
-> AP berücksichtigt Reihenfolge aller relevanter Dokumente, in denen die Ergebnisse inder Ergebnisliste vorkommen. P@k berücksichtigt nur die ersten k Ergebnisse
-> Dadurch bekommen relevante Dokumente, die das System zuerst ausgibt, einen höheren Einfluss auf das Gesamtergebnis, als relevante Dokumente, die das System später ausgibt (also in der Rangliste weiter unten eingeordnet wurden)
6
Q
Unterschied zwischen MAP und gMAP erläutern und Anwendungsszenarien beschreiben
A
- Auswertung der AP über mehrere Queries
- MAP: arithmetisches Mittel der AP:
MAP= AP( A , q1)+ AP( A, q2)/Anzahl Queries -> (Anzahl Queries hier = 2)
-> dominiert für große Werte
-> Nutzung von MAP, wenn viele Treffer zu erwarten sind - gMAP: geometrisches Mittel der AP:
gMAP=√AP(A ,q1)∗AP( A,q2)
-> dominiert für kleine Werte
-> Nutzung von gMAP, wenn wenige Treffer zu erwarten sind
7
Q
Beschreiben, wie TR-Systeme mit Multilevel-Relevanzentscheidungen mittels nDCG@k evaluiert
werden können
A
- Anwendbar bei Multi-Level-Judgments im Bereich:“ [1 ,r],r>2
- DCG (Discounted Comulative Gain) = Abstufung der Relevanz
- nDCG (normalized Discounted Comulative Gain) = normalisierte Abstufung der Relevanz
- Kenngröße für den Nutzer, um Gesamtnutzen der besten k-Dokumente zu messen
- Niedrig eingeordnete Dokumente werden im Nutzen abgewertet
- Vergleichbarkeit wird mittels Normalisierung über alle Queries sichergestellt
8
Q
Darlegen, wozu statistische Signifikanztests nützlich sind
A
- Um zu untersuchen, ob der beobachtete Unterschied zweier oder mehrerer Systeme aus einer bestimmten Query resultieren oder ob die Systeme tatsächlich verschiedene Ergebnisse liefern