Evaluierung Flashcards
Evaluierung
Evaluierung sammelt Informationen über Performanz, Probleme und Erfahrungen
der Benutzer mit interaktiven Systemen. Evaluierung ist ein wesentlicher Bestandteil
der Mensch-Computer-Interaktion.
Warum Evaluierung ? Arten der Evaluierung
-Exploration:
Benutzeranforderungen sollen möglichst früh qualitativ und informell erkundet
werden.
-Beurteilung:
Designalternativen sollen gegeneinander abgewogen werden oder der Stand der
UI-Entwicklung soll abgeschätzt werden.
-Vergleich:
Verschiedene Alternativen sollen gegenübergestellt und verglichen werden (z.B.
auf Geschwindigkeit).
-Validierung:
Rahmenbedingungen sollen überprüft werden (z.B. Höchstfehlerrate bei der Bedienung)
Wann Evaluierung?
Evaluierung kann im Prinzip zu jeder Zeit im Entwicklungsprozess durchgeführt werden.
Man unterscheidet formative und summative Evaluierungen
Formative Evaluierung
formative Evaluierungen auch vor oder während der Entwicklung, um eine Anforderungsanalyse
zu erstellen oder verschiedene Alternativen zu testen.
Summative Evaluierung
Summative Evaluierungen
werden erst nach der Entwicklung zur Validierung oder zum Vergleich durchgeführt
Wo Evaluierung ? (Feldstudie)
Eine Feldstudie ist eine systematische wissenschaftliche Beobachtung unter natürlichen Bedingungen
-> Nur sehr schlecht um einzelne Parameter zu isolieren
Wo Evaluierung ? (Laborstudie)
Eine Laborstudie ist eine wissenschaftliche Methode, um mit Hilfe von Laborexperimenten
bestimmte Arbeitshypothesen zu testen.
-> Können nie genaue Rückschlüsse auf die Realität zulassen
Die Unterscheidung von Evaluierung
Man kann Evaluierung zwischen leicht quantifizierbare
und schwere unterscheiden.
-Im ersten Fall nennt man die objektive
-Im zweiten subjektive
Quantitative Ergebnisse
- Man versucht die Ergebnisse der Evaluierung meist zu Quantitisieren
- Quantitative Ergebnisse ermöglichen eine genaue Bestimmung von Fehlerraten und anderen Parametern.
Empirische Untersuchungen (Evaluierung)
Empirische Methoden befassen sich mit den Ergebnissen bei der Bedienung eines
interaktiven Systems. Dazu werden Testpersonen eingesetzt.
Analytische Methoden (Evaluierung)
Analytische Methoden zeichnen sich durch eine reine Analyse und das Fehlen von
Testpersonen aus. Häufig kann man so Erklärungen von Arbeitsweisen oder Eigenschaften aufdecken.
Bewertungsskalen
Um möglichst gut mit jeder Sorte Ergebnis umgehen zu können, führt man meistens Bewertungsskalen ein.
Empirische Methoden
Sammlung von Daten:
-Objektivität
Die erhobenen Daten müssen unabhängig von der Messmethode, den Erwartungen
und den Hypothesen des Experimentators sein.
-Reproduzierbarkeit
Das Experiment muss hinreichend genau beschrieben sein, um es mit denselben
Ergebnissen erneut durchführen zu können.
-Validität
Die Ergebnisse messen nur das, was sie auch messen sollen (interne Validität)
und sind repräsentativ für die Allgemeinheit (externe Validität).
-Relevanz
Die Ergebnisse liefern tatsächlich neue Erkenntnisse.
Kontrolliertes Experiment
Ein kontrolliertes Experiment zeichnet sich dadurch aus, dass alle relevanten Einflussfaktoren
bekannt sind und kontrolliert werden können.
-Es gbt abhängige und unabhängige Variablen
-Daneben noch Kontroll-, Zufallsvariablen und Störfaktoren
Datenanalyse
Nach Experiement -> Schlussfolgerung ziehen, mithilfe von quantitativen und qualitativen Daten
- Es geht meisten darum Unterschiede zu indentifizieren
- > Mithilfe von der Subgruppenanalyse und Diagrammen
Deskriptive Statistik
Mithilfe einer deskriptiven Statistik Ergebnisse beschreiben:
- Minimum, Maximum
- Mittelwert : μ = Summenzeichen/n
- Standardabweichung: sigma = Wurzel (a0−μ)2+···+(an−μ)2/ n
- Median: Mittlerer Wert in geordneter Liste
- Modus: Am häufigsten auftretender Wert
Statistische Tests
Nachdem man ein quantitatives Experiment durchgeführt hat, kann man die Ergebnisse
mit einem statistischen Test verarbeiten.
Es gilt:
-Hypothese
Eine Vorhersage, wie sich die Konditionen auf die Messwerte auswirken
-Nullhypothese
Das Gegenteil der Hypothese. Tritt ein, wenn die Vorhersage nicht gestimmt hat.
Die Testmethoden unterschieden sich unter Anderem danach, welche Variablentypen
vorliegen. Es wird unterschieden:
-Nominal
Werte ohne natürliche Ordnung (Geschlecht, Beruffstatus, . . . )
-Ordinal
Werte mit natürlicher Ordnung (jeden Tag, einmal in der Woche, . . . )
-Intervall
Werte mit natürlicher Ordnung und gleichen Abständen zwischen den Werten. Es
gibt keinen absoluten Nullpunkt. (z.B. Lickert-Skalen)
-Ratio
Werte mit natürlicher Ordnung, gleichen Abständen und absolutem Nullpunkt.
(Einkommen, Alter)
DECIDE-Framework
Das DECIDE-Framework bietet einen Ablaufplan zur Durchführung von Benutzerstudien.
-> Überlegen von Rahmenbedingungen
DECIDE -> Steht für?
-Determine Goals
Was sind die Ziele?
-Explore the Question
Welche Frage soll durch die Evaluierung beantwortet werden?
-Choose Evaluation Method
Welche Methode soll gewählt werden? Triangulation: Man verscuht verschiedene
Methden zur Erhebung der Daten zu verwenden
-Identify Practical Issues
Welche Aspekte beeinflussen reibungslosen Ablauf der Evaluierung? Pilot Studien
(nicht repräsentativ, sollen in kleinem Unfeld prüfen, ob der Test überhaupt
praktikabel ist; z.B. durch die Experimentatoren selbst)
-Decide on Ethical Issues
Wie wird mit ehtischen Fragestellungen umgegangen? Man benötigt eine Zertifizierung
der Ethikkommission.
-Evaluate
Evaluierung, Analyse und Interpretation der gesammelten Daten.