Gütekriterien Flashcards
Überblick
An die Genauigkeit und Verlässlichkeit von Messergebnissen in der Diagnostik werden Anforderungen gestellt. Man hat Kriterien (ursprünglich nur für psychologische Tests - Lienert 1967) entwickelt, die es ermöglichen, die Qualität einer Messung zu beurteilen. Gütekriterien sind also Forderungen an die diagnostischen Verfahren bezüglich der:
> Testdurchführung: Transparenz, Zumutbarkeit, Störanfälligkeit, Verfälschbarkeit > Testauswirkung: Auswertungsobjektivität, Reliabilität, Validität, Bandbreite, Änderungssensivität, Informationsausschöpfung > Testevaluation: Ökonomie, Fairness, Akzeptanz, Vergleichbarkeit, Bewährung
Überblick über Haupt- und Nebengütekriterien für diagnostische Verfahren (nach Lienert 1967; ergänzt)
Gütekriterien
Hauptgütekriterien Nebengütekriterien
—> Objektivität —> Normierung
(Durchführung, Auswertung, Interpretation) —> Nützlichkeit & Zumutbarkeit
—> Reliabilität —> Ökonomie
(Wiederholungsrel., Split-Half-Rel., Paralleltestrel. —> Vergleichbarkeit
Konsistenzanalyse) —> Akzeptanz
—> Validität
(Inhaltsvalidität, Empirische Val., Konstruktval.
Testfairness)
—> Die Güte eines Verfahrens ist am größten, wenn dieses hohe Objektivität, Reliabilität und Validität aufweist!
Objektivität Definition
= Grad, in dem Ergebnisse eines Tests unabhängig vom Untersucher sind
Lienert 1967: Ein Test wäre vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden zu gleichen Ergebnissen [Interpersonelle Übereinstimmung der Untersucher]
—> Intersubjektive Einflüsse sollen möglichst ausgeschaltet werden. Dazu müssen möglichst viele Arbeitsschritte im Beurteilungsverfahren genau festgelegt sein.
Beispiele für objektive tests: (theoretische) Führerscheinprüfung oder Intelligenztests
Gegenbeispiele (nicht-objektive Tests): sog. „Tintenklecks-Diagnostik“ oder „Rorschach-Test“, bei Persönlichkeit daraus interpretiert wird, was Proband in einem Tintenklecks sieht.
Objektivität ist (wie Reliabilität) ein formales Kriterium, es sagt nichts über den Inhalt aus!!!
Arten:
Durchführungsobjektivität, Interpretationsobjektivität, Auswertungsobjektivität
Durchführungsobjektivität
Gleiche Bedingungen für alle Prüflinge und die Untersuchung soll unabhängig von zufälligen und systematischen Verhaltensvariationen des Untersuchers sein.
Man versucht zu sichern, dass alle Lernenden bzw. Probanden den gleichen Anforderungen unter gleichen Bedingungen ausgesetzt sind.
> Situative Faktoren: Tageszeit, Hilfmittel, Intruktion, Lärm,…
> Personale Faktoren: Ermüdung, vorherige Beschäftigung
Herstellung von Durchführungsobjektivität
> Vereinhaltlichung der Aufgabenstellung, der Bearbeitungszeit, der Erläuterung der Aufgaben, der zulässigen Hilfsmittel („Bedingungskonstanz“)
> Gleichheit der Instruktionen für alle Prüflinge (z.B. schriftlich oder mit Tonband)
> Vergleichbare situative Faktoren
> Reduktion der sozialen Interaktion zwischen Proband und Untersucher aus Minimum
(manche Tests enthalten im Kommentar wiederkehrende Antworten mit zulässigen Standardantworten)
> Strikte Beachtung von Verfahrensregeln
z.B.: Beim Diagnostischen Rechtschreibtest (DRT 3) werden genaue Anleitungen zur Aussprache eines Wortes, zum Zeitraum der Testdurchführung und der Zeitdauer gegeben. Außerdem wird festgelegt, wie der Test einzuführen ist, wie die Sätze zu diktieren sind und wie oft ein Wort vorgelesen werden darf.
z.B.: vorgeschaltete Übungsaufgaben (fließen nicht in die Bewertung ein) —> Test, ob die Übungsaufgabe verstanden wurde
Schwierigkeiten:
> Personale Faktoren nur schwer beeinflussbar (z.B. Prüfungsangst, Tagesform)
> Verstehensprobleme bei formelhaften Vortragen der Anweisung
> Bei mündlichen Prfüfungen ist Durchführungsobjektivität automatisch niedriger, da keine Gleichzeitigkeit gegeben ist.
Auswertungsobjektivität
Diagnostische Ergebnisse (in Zahlen oder kategorialen Einordnungen) sollten unabhängig vom Untersucher sein. Verschiedene Beurteiler sollten also zu gleichen Ergebnissen gelangen. Die meisten Untersuchungen über die Schwächen traditioneller Leistungsbeurteilungen beziehen sich auf die mangelnde Auswertungsobjektivität.
Herstellung von Auswertungsobjektivität:
> Beurteilungsverfahren mit festgelegten Kriterien - für jede Aufgabe wird genau festgelegt, was bzw. Welche Lernergebnisse mit wie vielen Punkten bewertet wird bzw. Werden
> Kriterienkatalog
—> Nur Auszählung (z.B. Diktatfehler)
> Beurteilungsverfahren mit geschlossenen Antwortformen
z.B.: Erhebungsverfahren auf MC-Basis —> Auswertung mit Schablonen oder maschinell, störend nur Ablese- oder Rechenfehler
Schwierigkeiten:
> Bei Aufsätzen o.ä. Ist die Auswertungsobjektivität eher schwierig zu erreichen
(Bsp.: Über Satzbauqualität muss der Diagnostiker selbst entscheiden)
> HAWIK: manche Lösungen mit 0, 1 oder 2 Punkten bewerten —> Beispielantworten vorgegeben, um Auswertungsobjektivität zu erreichen, aber nicht immer eindeutig
(Bsp. Frage: Warum sollte man ein Versprechen halten?)
> Projektive Verfahren: Tests mit auslesungsfähigem Bildmaterial
z.B. Rorschachtest, Zeichentests, Handschriften
Interpretationsobjektivität
Aus gleichen Ergebnissen sollten auch die gleichen diagnostischen Schlüsse gezogen werden ( erst hier findet in der Schule Notengebung statt!). Verschiedene Beurteiler interpretieren das gleiche Auswertungsergebnis also gleich.
Interpretationsobjektivität ist schwieriger zu erreichen als Auswertungobjektivität.
Mangelnde Interpretationsobjektivität:
Schüler hat 12 Punkte erreicht —> ein Lehrer gibt Note 2, der andere Note 4
Ein Teilergebnis kann grundsätzlich nach vorliegenden Normentabellen in die Leistungsverteilung oder in das erreichte Lernniveau eingeordnet werden, es kann aber auch notwendig sein, Ergebnisse abzuwägen, zu gewichten und zu bewerten.
Z.B.: Schulleiter entscheidet, ob Kind eingeschult werden kann oder Zusätzförderung braucht - nach ärztlichen Gutachten, Angaben der Eltern…
Herstellung von Interpretationsobjektivität
> Existenz von festen Regeln für diagnostische Schlussfolgerungen (z.B. normierte Leistungstests, Fragebögen, Rohwerte aus Tabellen ablesen…)
> Möglichst umfassende Dokumentation von Datenerhebungen und -analysen
Schwierigkeiten
> Je unterschiedlicher die zu verarbeitenden Informationen und je zahlreicher sie sind, desto schwieriger ist es, sie objektiv, d.h. Unter Ausschaltung intersubjektiver Einflüsse, zu interpretieren
z.B.: bei Übertrittsgutachten: neben Schulnoten werden auch außerleistungsmäßige Faktoren wie Lernbereitschaft, Unterstützung der Eltern etc. In die Diagnose mit einfließen
> Affektive Beziehungen
> „Intuition“ des Diagnostikers oder Meinung, dass Diagnostik eine nicht schulmäßig erlernbare Kunst sei —> große Unsicherheit auf diesem Gebiet!
Objektivität ist die notwendige Voraussetzung für die Zuverlässigkeit und Gültigkeit einer Messung bzw. Eines Prüfsystems. Eine Messung, die nicht objektiv ist, kann auch nicht zuverlässig und gültig sein.
Reliabilität Definition
= Grad der formalen Messgenauigkeit
Definition Lienert 1967: Unter Reliabilität eines Tests versteht man den Grad der Genauigkeit, mit dem er ein bestimmtes Perönlichkeits- oder Verhaltensmerkmal misst.
Bei der Zuverlässigkeit einer Messung im sozialwissenschaftlichen Bereich muss bedacht werden, dass die Messung nicht zuverlässiger sein kann als die Stabilität des Merkmals. Die Messung eines labilen Merkmals (z.B. Stimmungen) ist also stets ungenauer als die eines stabilen (z.B. Persönlichkeitsmerkmale)
Reliabilität bezieht sich immer auf das Testverfahren und nicht auf die Probanden
Reliabilität ist (wie Objektivität) ein formales Kriterium, es sagt nichts über den Inhalt aus!
Zuverlässigkeitskoeffizient (Reliabilität)
Der Grad der Zuverlässigkeit einer Messung wird durch den Zuverlässigkeits- oder Realibitätskoeffizienten bestimmt.
Definition Lienert 1969:
Der Zuverlässigkeitskoeffizient r ist ein Korrelationskoeffizient, der angibt, in welchem Maße unter gleichen Bedingungen gewonnene Messwerte über ein und denselben Probanden übereinstimmen, in welchem Maße das Testergebnis als reproduzierbar ist.
Arten von Reliabilität
Wiederholungsreliabilität
Zeitliche Stabilität des Messwerts (Koeffizient der zeitlichen Stabilität)
Split-half-Reliabilität
Gleichwertigkeit von 2 Testhälften (Koeffizient der internen Konsistenz)
Paralleltest-Reliabilität
Gleichwertigkeit von 2 Paralleltests (Äquivalenzkoeffizient)
Konsistenz-Analyse
Homogenität von Testitems (Homogenitätskoeffizient)
—> Verschiedene Verfahren zur Reliabilitätsschätzung liefern verschiedene Reliabilitätskoeffizienten mit unterschiedlicher Bedeutung (keine Aussage über „die“ Reliabilität möglich)
Wiederholungsreliabilität (Test-Retest-Methode)
Nach einiger Zeit wird die gleiche Personengruppe mit dem gleichen Test erneut gemessen. Es wird mit den Ergebnissen der ersten Messung verglichen - dazu ist allerdings zeitliche Stabilität des Merkmals nötig.
—> Bildung eines Reliabilitätskoeffizienten: Koeffizient der zeitlichen Stabilität
Schwierigkeiten:
> wird bei der Leistungsmessung selten angewendet, da man bei Wiederholung mit Übungseffekt rechnen muss! —> verfälscht die Messung
> Bei Lernleistung handelt es sich nicht um ein zeitstabiles Merkmal
> Bei selegierten Stichproben (Bsp.: Kinder, Kranke) ergeben sich wegen der geringen Varianz der Stichprobe automatisch geringere Korrelationskoeffizienten
> Bei großen Zeitabständen zwischen den Messvorgängen können mehrere nichtvorhersagbare Veränderungen auftreten (Bsp.: Rückgang der stabilisierenden Gedächtniseffekte)
Split-Half-Reliabilität (Testhalbierungsmethode)
Um nicht die zeitliche Stabilität fordern zu müssen, wird beim der Split-Half-Methode von einer Personengruppe der gesamte Test bearbeitet, dann aber die Aufgabenzusammenstellung halbiert und getrennt ausgewertet. Die Ergebnisse der beiden Hälften werden korreliert und es ergibt sich der Koeffizient der internen Konsistenz
Z.B. Leistung bei Aufgaben 1-10 und 11-20 vergleichen. Danach lässt sich der Zusammenhang beider Testhälften brechen
Der Reliabilitätskoeffizient gibt an, ob die jeweiligen Testhälften gleichwertig sind
> Speed-Test (mit einfachen Items; diese können von allen bearbeitet werden; Leistungsstärken lassen sich durch unterschiedliche Bearbeitungszeit erkennen):
Testergebnisse werden nach der Testzeit geteilt und miteinander korreliert
> Power-/Niveau-Test (Tests mit Aufgaben zu verschiedenem Schwierigkeitsgrad):
Ergebnisse bei gradzahligen und ungradzahligen Items getrennt berechnen und miteinander korrelieren (Odd-even-Methode)
Schwierigkeiten:
> Flukationen in der Zuwendung, Ermüdung und dynamischen Bearbeitungsbereitschaft wirken bei Odd-Even-Methode verkleinernd, wenn sie nicht länger dauern als die Bearbeitung eines Items. Diese funktioniert nur bei konsistenten Tests, keine Staffelung nach Schwierigkeit
> Aufmerksamkeitsschwankungen über einen längeren Zeitraum führen dazu, dass die Fehlerkomponenten beider Testhälften miteinander korrelieren (Widerspruch zu klassischen Testtheorie)
> Je größer die Speed-Komponente, desto irreführender ist die Reliabilitätsabschätzung aufgrund der Testhalbierung
Prallelitätsreliabilität
Hier werden zwei oder mehrere verschiedene, aber gleichwertige (parallele) Aufgabensammlungen verwendet, die sich inhaltlich möglichst ähnlich sind. Sie werden gleichzeitig, unmittelbar nacheinander oder mit einigem zeitlichen Abstand von der gleichen Personengruppe bearbeitet.
Z.B. gleichwertige Angaben A und B in einer Schulaufgabe (Mathe: Aufgaben mit gleichen Rechenwegen, aber verschiedene Zahlen)
Der Zusammenhang der Ergebnisse kann berechnet werden. Der entstehende Äquivalenzkoeffizient gibt an, wie gleichwertig die beiden Tests sind.
Schwierigkeiten:
> Gleichwertigkeit mehrerer verschiedenen Tests ist kaum möglich
Stärken der Methode:
> Bekanntheit, Erinnerung, Sättigung,… spielen eine nicht so große Rolle wie bei der Wiederholungsmethode
Konsistenzanalyse
Ein Test wird in seine einzelnen Items, die dazu die gleichen Fähigkeiten messen müssen, zerlegt und aus dem Zusammenhang zwischen den Itembeantwortungen wird auf die Messgenauigkeit rückgeschlossen.
Dies ist sinnvoll, wenn ein diagnostisches Verfahren aus mehreren Items besteht, die alle dieselben Fähigkeiten messen. Es ist dagegen nicht sinnvoll wenn ein diagnostisches Verfahren aus strukturähnlichen, heterogenen Items besteht
Der Zusammenhang der Ergebnisse wird im Homogenitätskoeffizienten ausgedrückt.
Schwierigkeiten:
> Einfluss durch methodische Aspekte:
z.B.: wenige Items zur Verfügung —> Koeffizienz kleiner
oder weitgefächerte Antworten und somit Varianzvergrößerung oder gleiches Antwortschema —> Koeffizient erhöht
> Instrument muss homogen sein (keine untersch. Themen/Lernzielhierarchien)
Zusammenführung und Herstellung von Reliabilität
Aus diesen 4 Methoden können Koeffizienten berechnet werden, die zur Abschätzung des Messfehlers herangezogen werden. Die Reliabilität bzw. Der Standardmessfehler sind wichtige Angaben für die Messgenauigkeit eines Verfahrens. (Es lässt sich ein Vertrauensintervall um das konkrete Testergebnis berechnen, in dem der unverfälschte Wert des Probanden liegt)
Faktoren, die sich auf die Messgenauigkeit und somit auf die Reliabilität eines Tests negativ auswirken können:
> Ungenauigkeit des Messinstruments (z.B. Stichprobenfehler, die bei der Auswahl der Testaufgaben entstehen können —> Vorteile / Nachteile bei bestehenden Aufgabentypen)
> Umgebungsfaktoren (z.B. unzureichenden gelüftete Räume, Lärmpegel, Beleuchtung, abgebrochene Bleistifte,…) —> Diese Mängel sind vom Testleiter durch sorgfältige Planung auszuschalten!
> Temporäre Veränderungen des Probanden (z.B. Krankheit, Müdigkeit, Desinteresse, Sorgen, Stimmungen…
> Ungenaue Durchführung und Auswertung durch den Versuchsleiter (z.B. ungenaue, nicht eindeutige Arbeitsanweisungen, unklar formulierte Aufgaben)
Diese Faktoren gilt es zu optimieren, um möglichst gute Reliabilität zu erreichen
Es ist unmittelbar einleuchten, dass Zuverlässigkeitskoeffizient z.T. Je etwas anderes messen. Je größer der Zeitabstand zwischen den Messungen ist, desto stärker können sich Einflüsse auswirken (Motivierung, zwischenzeitliche Lernergebnisse,…) die nicht mangelnder Zuverlässigkeit des Messinstruments angelastet werden können
Bei sonst gleicher Aufgabenzahl und -qualität können wir daher nach der Methode der Konsistenzanalyse die höchsten (r >= 0,90) und nach der Methode der zu verschiedenen
Zeiten durchgeführte Prallelformen die niedrigsten (r >= 0,80) Zuverlässigkeitskoeffizienten erwarten (Ingekamp 2005)
Die Reliabilität einer Messung sagt nur etwas darüber aus, wie genau gemessen wird, aber nicht, was gemessen wird.
Aber sie ist Voraussetzung für die Gültigkeit eines Verfahrens!
Validität Definition
Die Validität eines Verfahrens sagt etwas darüber aus, ob tatsächlich das gemessen wird, was man messen will und nicht irgendetwas anderes (Ingekamp 2005)
Lienert 1967:
„Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder zu messen vorgibt, auch tatsächlich misst.
Ein Test ist demnach vollkommen valide, wenn seine Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad des zu erfassenden Persönlichkeits- oder Verhaltensmerkmal zulassen, wenn also der individuelle Testpunktewert eines Probanden diesen auf der Merkmalskala eindeutig lokalisiert.“
Validität ist keine generelle Eigenschaft, ein Test kann für einen bestimmten Zweck valide sein und für einen anderen nicht.
Validität ist (im Gegensatz zu Objektivität und Reliabilität) ein inhaltliches Kriterium!
Validität darf nicht mit Reliabilität verwechselt werden, z.B. Versuch, Intelligenz mit Meterstab zu messen —> Es ergibt sich mehrfach das gleiche Ergebnis (z.B. 173cm) —> Reliabilität ist gegeben. Aber natürlich kann Intelligenz so nicht gemessen werden.