Praxis der Testkonstruktion - Testendform & Kontrolle Testgütekriterien Flashcards

1
Q

1 Objektivität

A
  1. Objektivität:
    „Ein Test ist dann objektiv, wenn er dasjenige Merkmal das er misst, unabhängig von Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“
    = Unabhängigkeit der Testergebnisse vom Untersucher (wird nicht immer geprüft)
     verschiedene Untersucher kommen beim gleichen Probanden zu identischen Ergebnisse (vgl. z.B. Versuchsleitereffekte in Experimenten)
     Manchmal bezeichnet Objektivität auch die Undurchschaubarkeit des Tests für den Probanden: Unabhängigkeit der Testergebnisse von Kognition oder Motivation der Probanden.
    Objektivität gibt an,
    • Wie weit das Verhalten als empirisches Relativ eindeutig quantifiziert wird in Item- und Test-Scores als numerisches Relativ und
    • Wie weit diese Quantifizierung sich eindeutig interpretieren lässt.
    Arten von Objektivität: Objektivität lässt sich in je nach Stelle im (test)diagnostischen Prozess untergliedern:
    a. Durchführungsobjektivität (Testleiterunabhängigkeit)
    z.B.: Begrüßung durch VL, räumliche & zeitliche Gestaltung der diagnostischen Situation, kognitiv-emotionale Verfassung des Probanden.  bezieht sich auf die Produktion von Antworten
    Überprüfbarkeit:
    • Mehrere Testleiter können gleiche Personen zu verschiedenen Zeitpunkten testen.
    • Problem: Auch andere Bedingungen (außer TL) können mehr oder weniger variieren (z.B.: Lerneffekt, Tagesfitness des Pbn)
    • Problem: Auch bei gleichem TL ergeben sich mehr oder weniger unterschiedliche Ergebnisse (Einfluss der Reliabilität)
    • Deswegen: hohe Standardisierung der Durchführung reduziert TL-Effekte (aber dennoch z.B.: Geschlechtseffekt usw. möglich)
    b. Auswertungsobjektivität (Verrechnungssicherheit):
    Bezieht sich auf die Auswertung von Antworten (z.B.: richtig/falsch – als konkrete Angabe oder als
    Dimension)  gleichen Itemantworten sollen gleiche numerische Werte (Scores) zugeordnet werden.
    Überprüfbarkeit:
    • Einfacher als bei Durchführungsobjektivität (da erst nach Testverhalten)
    • Die Auswertungsobjektivität lässt sich überprüfen, indem verschiedene Auswerter dasselbe Antwortprotokoll kodieren. Die Übereinstimmung kann korrelativ oder varianzanalytisch erfolgen.
    • Auswertungsobjektivität abhängig von „Freiheit“ der Antworten und der Reglementierung bei der Beurteilung der Testreaktionen
    o Leicht bei gebundenen Items
    o Schwer bei freien Items
    c. Interpretationsobjektivität (Interpretationseindeutigkeit):
    Bezieht sich auf den Grad der Eindeutigkeit, mit der verschiedne Anwender dem gleichen numerischen Wert (Item-Score) die gleiche Merkmalsausprägung zuordnen.
     Verschiedene Beurteiler sollten zu den gleichen Interpretationen der Antworten kommen.
    • Einfacher als bei Durchführungsobjektivität (da erst nach Testverhalten)
    • Erhöhung der Interpretationsobjektivität durch Normtabellen.  Hohe Objektivität und Eindeutigkeit, oft aber nichts sagend durch stark verkürzte Interpretation.
    • Überprüfbarkeit: z.B.: über Normierung
    • Interpretationsproblem: Was ist wenn zwei Probanden zwar den gleichen Score erreichen, dieser aber auf disjunkten Itemmustern beruht? Bedeutet das wirklich das gleiche?
    Probleme der Objektivität
    • Die Forderung nach voller Standardisierung begründet sich aus dem Anliegen, ein Merkmale interaktionsfrei zu messen. Paradox: Der Testleiter soll mit dem Probanden interagieren, ohne Interaktionseffekte hervorzurufen.
    • Gegenposition: Tiefenpsychologie bezieht Interaktion mit dem Pbn gezielt in d. Interpretation ein.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

2 Reliabilität (rtt)

A
  1. Reliabilität (rtt)
    Definition:
    „Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal,
    dass er misst, exakt, d.h. ohne Messfehler misst.“
    • Reliabilität gilt als Messgenauigkeit des Instrumentes unter Absehung vom Inhalt (wird immer geprüft)
    • Reliabilität gilt als Bestimmung des Messfehlers, mit dem die Testwerte behaftet sind, unabhängig davon, ob die Werte auch valide sind. Z.B.: Ein Intelligenztest kann hoch reliabel sein, auch wenn er eigentlich nicht Intelligenz misst (nicht valide).
     Maß zur Kennzeichnung der Genauigkeit einer Messung

Berechnung
• Hauptanliegen der KTT ist die Abschätzung des Messfehlers bzw. der Zuverlässigkeit (Reliabilität) der Messung: Reliabilität ist der Quotient aus wahrer und beobachteter Varianz oder die Korrelation zweier Paralleltests  korrelative Bestimmung
σ²T σ²E
rtt = = 1 - = rx1,x2
σ²X σ²X
• Grundidee: Je mehr die gemessene Varianz durch die wahre Varianz bedingt ist, desto reliabler ist die Messung
o Wenn die Fehlervarianz gegen null strebt, geht die Reliabilität gegen eins.
o Wenn die Fehlervarianz gegen unendlich strebt, geht die Reliabilität gegen null.
• Werteberreich der Reliabilität: 0 ≤ rtt ≤ 1
o Immer positiv, da Varianzen immer positiv
o ≤ 1, da σT² immer ≤ σX²

Additivität der Varianzen:
Normalerweise gilt für die Varianz eines additiv zusammengesetzten Wertes (z.B.: X = T + E):
σX² = σT² + σE² + 2 ∙ σT ∙ σE ∙ ρT,E ; da ρT,E = 0  σX² = σT² + σE²
Gemessene Varianz ist immer größer als die wahre Varianz, bzw. maximal gleich, wenn einer der Summanden gleich 0 ist.

„Problem“ der Definition
• T und σT² ist unbekannt und kann auch nicht direkt abgeschätzt werden
• Trick: parallele Messungen  Es lässt sich zeigen, dass Korrelation zweier paralleler Messungen der Reliabilität entspricht (Ausgangspunkt: Produkt-Moment-Korrelation r X1,X2)
• So lassen sich praktische Methoden der Reliabilitätsbestimmung ableiten

Methoden der Reliabilitätsbestimmung:
a. Testwiederholung = Retest-Reliabilität
• Denselben Probanden wird derselbe Test unter vergleichbaren Bedingungen wenigstens zweimal vorgegeben (Testung I und Testung II)
• Die Score-Reihen von Testung I und II werden korreliert: die Höhe des Koeffizienten gilt als Schätzung der Messgenauigkeit
σ²T cov1,2
rtt = =
σ²X s1  s2
• Probleme
o Lerneffekte bei den Probanden; (differentielle) Übungseffekte
o Erinnerungseffekte (bei kurzen Zeitabständen)
o Merkmalsfluktuation (Veränderung der wahren Werte) z.B. beim Stimmungstest
• Das Paradigma der Retestreliabilität beruht auf der fundamentalen Voraussetzung, dass das Zielmerkmal relativ stabil bleibt. Wegen des Zusammenhangs mit der Stabilität des Merkmals wird Retestreliabilität oft auch als Stabilität bezeichnet.  „Stabilitätskoeffizient“

b. Paralleltestmethode
• Es werden zwei Parallelformen des Tests benötigt, die aus gleichen, aber nicht identischen Itemstichproben, d.h. sie sind äquivalent
o Äquivalenz der Verteilung (M, s, Verteilungsform)
o Äquivalenz der Validität: Beide Parallelformen müssen inhaltlich das gleiche erfassen
o Äquivalenz der Reliabilität: Messgenauigkeit der beiden Formen muss gleich sein
 In Praxis wird häufig nur erste Bedingung geprüft; andere werden als gegeben genommen, wenn Paralleltestreliabilität hinreichend hoch ist
• Vorgehen: Die gleichen Pbn bearbeiten 2 Parallelformen des gleichen Tests
o Hälfte der Probanden: zuerst Form A, dann Form B
o andere Hälfte: umgekehrte Reihenfolge
• Kennwert = Korrelation der beiden Testformen
σ²T covA,B
rtt = =
σ²X sA  sB
• Es handelt sich im Grunde um eine Quasi-Testwiederholung mit einigen Vorteilen
o keine Lern-/Erinnerungseffekte, da andere Items
o kein langer Testabstand notwendig
o auch bei eher instabilen Merkmalen anwendbar
• Probleme
o Erstellung von Parallelformen nötig
 hoher Aufwand
 teils gar nicht möglich, z.B. bei sehr eng begrenzten Merkmalen, für deren Erfassung die Menge möglicher Items sehr klein ist oder „einmalige“ Aufgaben Verwendung finden
 Anforderung „Gleiches mit Ungleichem messen“ kann kaum eingehalten werden.
o Parallelformen sind praktisch nie vollkommen äquivalent: Unterschiedlichkeit mindert Reliabilitätsschätzung (Paralleltest-Reliabilität liegt in der Regel unter Restest-Reliabilität)
o Übungseffekte sind auch bei Paralleltests möglich (Verwendung der gleichen Lösungsstrategien in beiden Tests)
c. Testhalbierung
• Test wird in zwei gleichwertige Hälften aufgeteilt (= Quasi-Parallelform). Vorteil: Ein Test muss nur einmal einer Stichprobe vorgelegt werden und dann in zwei Hälften aufgeteilt werden.
• Testhälften sollen der Äquivalenzforderung von Paralleltests entsprechen
• Halbierungsmethoden:
o zufällige Zuweisung der Items
o Odd-Even-Methode (bei nach P geordneten Items)
o Zeitpartitionierung
o v.a. bei eher heterogenen Items: Itempaarung anhand Analysedaten (P und rit je gleich)
• Jede der Testhälften liefert pro Pbn einen „Testwert“.  Testwerte der Testhälften werden korreliert (r1,2): Die Höhe der Übereinstimmung gilt als Indikator der Messgenauigkeit.
• Problem: Zusammenhang von Testlänge und Reliabilität. Korrelation der beiden Testhälften repräsentiert auch nur die Hälfte der Aussagekraft des Gesamttests.
2  r1,2
Bei Testhalbierung wird Test „verkürzt“  muss korrigiert werden rttc =
Verwendung der Spearman-Brown-Formel: 1 + r1,2
Voraussetzungen: Testhälften haben gleiche Streuung und sind gleich lang
 speziellere Formeln bei Abweichungen von diesen Annahmen
 Darstellung des Effektes der Testverlängerung auf Reliabilität in Form von Nomogrammen möglich:

• Allgemeine Spearman-Brown-Formel
o Spearman-Brown-Korrektur gilt für den Spezialfall der Testhalbierung
o mit der allgemeinen Spearman-Brown-Formel lässt sich der Effekt einer Testverlängerung auf die Reliabilität abschätzen
o Bei Verlängerung gilt: Die wahre Varianz (im Zähler) wächst rascher als die beobachtete Varianz (im Nenner).  Anteil der wahren Varainz an der beobachteten Varianz nimmt zu.
o Die allgemeine Formel wird angewandt um vorauszuschätzen, wie hoch die Reliabilität ausfallen wird, wenn ein Test um eine bestimmte Anzahl von Items verlängert oder verkürzt wird, aber auch, um zu schätzen, wie viele Items man einem Test hinzufügen muss, um eine n‘ = Items nach Verlängerung angezielte Reliabilitätshöhe zu erreichen. n = originale Itemanzahl
• Erweiterung der Spearman-Brown-Formel zur Verwendung bei Testhälften, die nicht äquivalent sind: Cronbachs α: Test mit c Items wird nicht nur in zwei Teile zerlegt, sondern in c Teile, d.h. jedes einzelne Item wird als separater Test behandelt
• nur bei homogenen Tests sinnvoll!
sj² = Varianz der Testteile/Items j
d. Interne Konsistenz sx² = Varianz der (Gesamt-)Testrohwerte
• Konsistenz als Erweiterung der Halbierungsreliabilität: c = Anzahl der Testteile (bzw. Items)
Cronbachs α (siehe oben)
• Konsistenz über das varianzanalytisches Paradigma konzipiert.

Vergleich der Methoden
• Aufwand/Zeitpunkt der Reliabilitätsprüfung
o Wiederholungsmethoden sind aufwendiger
o Konsistenzmethoden ohne weitere Erhebung direkt im Anschluss an die Aufgabenanalyse möglich  sollte auch gemacht werden!
• praktische Reliabilität vs. Messgenauigkeit
o bei Testwiederholung gehen auch andere Einflüsse (Testumgebung etc.) ein
o bei Konsistenzmethoden wird nur Messgenauigkeit erfasst (instrumentelle Reliabilität)
• Paralleltest-, Halbierungsreliabilität und Konsistenz nennt man Item-sampling-Modelle: Es wird angenommen, dass ein Universum von Items existiert, die das gleiche Merkmale umschreiben. Aus diesem Universum werden parallele Itemstichproben gezogen, um die drei Arten von Reliabilität zu schätzen.

Bewertung von Reliabilität
• ab rtt = .50  für Forschungsinstrumente ausreichend
• für individuelle Urteile: rtt ≥ .70
• für hoch standardisierte Tests werden aber in der Regel höhere Koeffizienten gefordert:
o Konsistenz α ≥ .90
o Parallel-/Retest rtt ≥ .80

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

3 Validität

A

„Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“
• Misst der Test was er zumessen vorgibt? Wie lässt sich vom Test-Score (numerischer Relativ) auf das Zielmerkmal (empirisches Relativ) schließen?
• Zentrales Testgütekriterium, das Objektivität und Reliabilität übergeordnet ist: Ein Test muss zuallererst valide sein!
Definition von Validität
a. Vom beobachteten Verhalten in der Testsituation wird geschlossen auf das ebenfalls beobachtbare Verhalten außerhalb der Testsituation
• Repräsentationsschluss liegt vor, wenn das Testverhalten als direkt repräsentativ für ein bestimmtes Gesamtverhalten angesehen wird.  Inhaltsvalidität
• Korrelationsschluss liegt vor, wenn ein empirischer Zusammenhang nachgewiesen wird zwischen dem Verhalten in der Testsituation und dem Verhalten außerhalb der Testsituation, das seinerseits repräsentiert wird durch ein Kriterium.  kriteriumsbezogene Validität
b. Vom Verhalten in der Testsituation wird geschlossen auf Fähigkeiten, Dispositionen oder Persönlichkeitsmerkmale als Grundlagen oder Bedingungen des Verhaltens (unbeobachtbare Konstrukte).  Konstruktvalidität

3 grundlegende Validitätsarten
a. inhaltliche Validität („logische Validität“, „face validity“, „Augenscheinvalidität“)
• Grundfrage: Repräsentieren die Items logisch-inhaltlich das zu erfassende Konstrukt? Sind die Items geeignet das Konstrukt zu erfassen?
o Es erfolgt also ein Repräsentationsschluss
o Letztlich geht es um die Möglichkeit, das Testergebnis über die konkreten Aufgaben hinaus auf das Universum möglicher Aufgaben zu verallgemeinern
o Repräsentationsschluss gilt v.a. für operational definierte Merkmale (Aufgaben entsprechen direkt dem zu messenden Konstrukt)
Beispiel: V.a. relevant für die universitäre Prüfungsdiagnostik (Prüfungen)
o Für theoretisch definierte Konstrukte (Extraversion…) bezieht sich Inhaltsvalidität auch darauf, in wieweit unterschiedliche Antworten mit Hilfe des betreffenden Konstruktes schlüssig erklärt werden können.
• Beurteilung erfolgt
o Auf Itemebene (Ist Item Teil der Gesamtheit interessierender Items?)
o Auf Ebene des Gesamttests (Stellen Items eine repräsentative Auswahl der Gesamtheit der interessierenden Items dar?)
• In der Regel erfolgt keine numerische Bestimmung der Inhaltsvalidität
• Gefahr der Übergeneralisierung und mangelnder Objektivität
• Objektivierung durch Beurteilung der Inhaltsvalidität durch unabhängige Experten
b. kriterienbezogene (kriteriumsbezogene) Validität
• von zentraler Bedeutung, wenn Test als Grundlage für praktische Entscheidungen dient.
• Idee: Konstrukt wird anhand eines Kriteriums erfasst
 Korrelation (r) d. Tests (t) mit d. Kriterium (c)  rtc
• Beispiele:
Test Kriterium
Schuleignungstest Schulnote
Depressionsinventar klinische Diagnose „Depression“
Test zur Rückfallgefährdung erneute Straftaten
• Unterscheidung nach Art der Kriterien
o Vorhersage- versus Übereinstimmungsvalidität
 Vorhersagevalidität: Kann ein Testwert ein Verhalten oder eine Merkmalsausprägung zu einem späteren Zeitpunkt vorhersagen: Korrelation mit einem zukünftigen Kriterium
z.B: Test auf Rückfallgefährdung
 Übereinstimungsvalidität: Kriterium und Test finden zum gleichen Zeitpunkt statt: Korrelation mit einem zeitlich koexistierenden Kriterium
z.B. Depressionsinventar und klinische Diagnose
o Innere versus äußere kriterienbezogene Validität
 Innere: anderes („etabliertes“) Testverfahren, das das gleiche Konstrukt erfasst; z.B.: kommt ein neuer Intelligenztest bei einem Probanden zum gleichen Testergebnis wie ein alter geprüfter Test
 Äußere: externe Maße wie Schulnoten, Arbeitsleistung etc.; auch z.B. Schätzurteile
• Jeder Test hat so viele Validitätskoeffizienten, wie Kriterien zur Prüfung seiner diagnostischen Leistungsfähigkeit herangezogen werden. Die Höhe und die Unterschiede dieser Koeffizienten hängen nicht nur von der Stärke der Selektionseffekte, sondern auch von der Güte und Eigenart der herangezogenen Kriterien ab.  Je nach Kriterium kann sich rtc unterscheiden
• kriterienbezogene Validität ist beschränkt durch den Reliabilitätsindex (Kennwert, der die obere Grenze der kriteriumsbezogenen Validität eines Tests festlegt.)
covt,T sT s²T
rt,T = = = √ = √rtt
st ∙ sT st s²t
o Reliabilitätsindex des Tests (√rtt)
 unreliaber Test = geringe Validität
 Einfache Minderungskorrektur
o Reliabilitätsindex des Kriteriums (√rcc)
 unreliables Kriterium = geringe Validität
 Doppelte Minderungskorrektur
• Minderungskorrektur: Man kann die Reliabilität berücksichtigen und bei der Berechnung der Validität korrigieren:
o Einfache Minderungskorrektur
rtc
rt,Tc =
√rcc
o Doppelte Minderungskorrektur
rtc
rT,Tc =
√(rcc ∙ rtt)
• Sinnhaftigkeit der Minderungskorrektur?
o Einfache Minderungskorrektur ist sinnvoll, da den Test keine „Schuld“ für die Ungenauigkeit der Kriteriumsmessung trifft
o Trotz der Korrekturmöglichkeit sollte Kriteriumsmessung möglichst reliabel sein!
o Doppelte Minderungskorrektur ist kritisch, da hier maximale Testreliabilität vorgetäuscht wird, die aber tatsächlich nicht gegeben ist.
• Scheinbar paradoxer Effekt der Minderungskorrektur: Verdünnungsparadox
Steigt die Reliabilität von Kriterium und Test dann sinkt die Korrelation zwischen wahren Test- und wahren Kriteriumswerten (rT,Tc).  Hohe Reliabilität und hohe Validität wären partiell unvereinbar.
Aber: Je reliabler das Kriterium, desto reliabler der Test, desto einfacher bekommt man eine gute Validität des Tests.
c. Konstruktvalidität
• Konzept der kriterienbezogenen Validität geht davon aus, dass das betreffende Konstrukt durch eine Kriteriumsmessung direkt sichtbar gemacht werden kann
• Konzept der Konstruktvalidität bezieht sich dagegen zunächst auf latente, theoretische Konstrukte; Idee:
o Zu messendes latentes Konstrukt steht mit anderen Konstrukten in systematischer Verbindung
o Diese Verbindungen können in Theorien dargestellt werden
o Theorien können wissenschaftlich geprüft werden
• Ziel: Einbettung des mit dem Test erfassten Konstruktes in das nomologische Netzwerk anderer, teils verwandter (konvergente Validität), teils fremder Konstrukte (diskriminante Validität)
o Konvergent: Validitäten zwischen Konstrukten bei denen ich Zusammenhänge erwarte (z.B. zwischen zwei Intelligenztest erwartet man hohe positive Validitäten)
o Diskriminant: Konstrukte die nichts miteinander zutun haben. (Intelligenz und Augenfarbe)
• Vorgehen:
o Generierung von Hypothesen zum Konstrukt
o Prüfung der Hypothesen anhand des Testverfahrens (z.B.: über Faktorenanalyse)
 komplexe Ergebnisse; kein Validitätskennwert im eigentlichen Sinne, sondern Validierungsprozess
 je mehr verschiedene Hypothesen, Erhebungs- und Auswertungsstrategien, desto besser

Multirait-Multimethod-Validierung
Möglichkeit verschiedene Validierungsarten zu verknüpfen.
Erwartungen:
• hohe Korrelationen von konvergenten Konstrukten, sowohl innerhalb einer Methode als auch über verschiedene Methoden hinweg
• geringe Korrelationen zu diskriminanten Konstrukten, …

Bewertung der Validität
• Es gibt nicht DIE Validität eines Tests
• Je nach Kriterien und Validierungsmethode unterschiedliche Kennwerte
• Validierung gleicht generell eher einem Prozess, der über die Zeit Argumente für bzw. gegen die Validität eines Verfahrens in Bezug auf bestimmte Fragen/Anwendungen liefert
Richtlinien bei der Bewertung der Validität eines Tests
• Test soll diagnostisches Urteil verbessern
• liegen keine anderen Verfahren vor, kann dies bereits mit geringeren Validitäten möglich sein
• bei langen Vorhersagezeiträumen muss man geringere Validitäten in Kauf nehmen
• Validität sollte aber höher sein
o als bereits vorhandene Verfahren zum gleichen Merkmalsbereich
o je isolierter Test im diagnostischen Prozess steht
o je aufwendiger der Test ist (Testökonomie)
o je weitreichender die Entscheidung für Testand

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Multirait-Multimethod-Validierung

A

Möglichkeit verschiedene Validierungsarten zu verknüpfen.
Erwartungen:
• hohe Korrelationen von konvergenten Konstrukten, sowohl innerhalb einer Methode als auch über verschiedene Methoden hinweg
• geringe Korrelationen zu diskriminanten Konstrukten, …

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Reliabilitäts-Validitäts-Dilemma

A

• Häufig wird einseitig die Reliabilität optimiert
• Hohe Reliabilität kann aber auch mit Verminderung der Validität einhergehen
 Reliabilitäts-Validitäts-Dilemma:
o Je homogener ein Test ist, desto reliabler
o Aber: Valide Erfassung setzt voraus, dass Konstrukt in seiner ganzen Breite erfasst wird
 reduziert die Validität
o Beispiel: Rückfallgefahr von Straftätern hängt von mehreren Faktoren ab (antisoziale Einstellung, vorherige Rückfälle, sexuelle Präferenz, …). Wenn ich aber nur sexuelle Präferenz erfasse, habe ich zwar eine sehr reliable Erfassung von sexueller Präferenz aber keine valide Erfassung der Rückfallgefahr.
o Strategie: Bilden von mehreren Untertests, die in sich homogen sind, aber zusammen reliabel sind  Verwendung von Testbatterien/Subskalen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly