03 Praxis der Testkonstruktion Flashcards
Schritte der Testkonstruktion
- Planungsphase
- Aufgabenkonstruktion
- Itemanalyse
- Erstellung der Testendform, Kontrolle der Testgütekriterien
- Normierung
- Manualerstellung und Publikation
- Testpflege
Aufgabenarten
- Anwortformate:
gebunden, frei, atypisch - Reizvorlage:
sprachlich, Bilder, Videos, Symbole usw.
Auswahlstrategien: Konstruktion der Items
- Übernahme aus vergleichbaren Verfahren
- Eigenkonstruktion
Itemformulierung und -gestaltung
- Sprachliche Gestaltung: Vermeidung von
- Mehrdeutigen und schwierigen Begriffen
- Verallgemeinerungen
- Umständlichem langen Items, aber kein Telegrammstil - Antworttendenzen:
- Positions- und seriale Effekte
- Tendenz zur unkritischen Zustimmung bzw. Ablehnung
- Soziale Erwünschtheit, Simulation bzw. Dissimulation
- Tendenz zur Mitte oder zu extremen Antworten
Provisorischer Test
- Vorläufige Fassung des Tests für weitere Konstruktion, soll weitgehend endgültiger Version entsprechen
- Wird von repräsentativen Konstruktionsstichprobe bearbeitet
- Dient v.a. für Generierung von Daten für weitere Konstruktionsschritte
- Feedback der Probanden
Konstruktionsstrategien
Strategien zur Zuordnung von Items zu Skalen
- Rationale Strategie: (deduktiv)
- Zuordnung der Items zum Konstrukt auf Grundlage vorliegender Theorien
- Items, die aus theoretischen Gründen zusammengehören, werden zu Subskala zusammengefasst - Intuitive Strategie: (deduktiv)
- Konstruktion geleitet durch Intuition und Erfahrung des Testautors (keine theoretischen Modelle zur Verfügung)
- Oft später ergänzt durch empirische Strategien - Kriteriumsorientierte Strategie: (induktiv, external)
- Empirische Auswahl der Items unter Bezugnahme externer Kriterien
- Items, die bzgl. eines externen Kriteriums gut trennen, werden zu Subskala zusammengefasst
- Skalen eher heterogen
- Validität: Kriterienbezogene Validität
- Somit entstehen eher heterogene Skalen - Faktorenanalytische Strategie: (induktiv, internal)
- Items, die auf jeweiligen Faktoren hoch laden und empirisch zusammengehören, werden zu Subskala zusammengefasst
- Skalen zwangsläufig homogen
- Validität: Konstruktvalidität
- Geschieht per Faktorenanalyse
Faktorenanalyse
- Statistische Methode zur Datenreduktion
- Ziel: Abbildung Vielzahl an Einzelvariablen durch wenige allgemeine Dimensionen (Faktoren)
In Testkonstruktion: Items zu Subskalen bilden - Faktor: Gemeinsame, Dimension, die mehreren Variablen zugrunde liegt
- Ausgangspunkt: Interkorrelationsmatrix
- Vorgehen:
1. Schrittweise Extraktion orthogonaler Faktoren, solange diese bedeutsame Informationsmenge bilden
2. Rotation der Faktoren und inhaltliche Interpretation
Itemanalyse
- Ziel: Bestimmung der Qualität eines Items bzgl. der jeweiligen Skala
- Drei zentrale Itemkennwerte: Schwierigkeit, Trennschärfe, Homogenität
- Danach Itemselektion
Schwierigkeit
- Gibt an, wie schwer bzw. leicht ein Item von betreffenden Zielpopulation gelöst werden kann
- Bei PT: Richtige Lösung bezieht sich darauf, ob Item in Indexrichtung beantwortet wird
- Je höher P, desto leichter ist Item zu lösen
- Schwierigkeit bei Ratingskalen: Negativ gepolte Items müssen VOR Itemanalyse in Indexrichtung umgepolt werden
- Bei mehrstufigen Ratingskalen kann Mittelwert herangezogen werden
- Erwünschte Schwierigkeiten:
Items ungeeignet, wenn alle oder niemand Item löst
-> Gewisse Heterogenität der Schwierigkeiten angestrebt, dass nicht nur im Mittelbereich differenziert wird: Differenzierung über gesamte Breite/ im typischen Bereich vs. Differenzierung im extremen Merkmalsbereich
Itemvarianz
- Bei Verwendung von Mittelwerten bzw. P als Indikator der Schwierigkeit ist Berücksichtigung der Varianz erforderlich
- Varianz abhängig von Antwortskala
- Bei dichotomen Antworten ist eigenständige Betrachtung der Varianz nicht nötig
- Maximale Varianz bei P = 50 erreicht (an Extremen geringer)
Trennschärfe
- Wichtigster Itemkennwert
- Wie gut trennt Item Pb mit niedriger Merkmalsausprägung von denen mit hoher?
- Als Kriterium für Merkmalsausprägung wird Gesamtskalenwert herangezogen
- > Inwieweit ist Itemantwort repräsentativ für Gesamtskala?
- Bestimmung: Korrelation des Itemwertes i mit Gesamttestwert t -> rit
- Problem: Item geht selbst in Gesamtwert ein (Selbstkorrelation) –> “Part-Whole-Korrektur”
- Konvergente Trennschärfe: Items sollen hoch mit eigener Skala korrelieren
- Diskriminante Trennschärfe: Items sollen niedrig mit anderen (fremden) Skalen korrelieren
- Zusammenhang von P und rit: Bei mittlerem P höchste Trennschärfe rit
- Eigentreffnschärfe: rit bezieht Item auf eigene Skala (internes Kriterium) -> bedeutsam für Homogenität und Reliabilität einer Testskala
- Fremdtrennschärfe: Bezug auf externes Kriterium -> bedeutsam für (kriterienbezogene) Validität einer Testskala
Homogenität
- Ausmaß, in dem Items tatsächlich exakt dasselbe erfassen -> vollständige Homogenität nicht erwünscht (Items sollen unters. Facetten erfassen)
- In KTT: Homogenität = Aufgabeninterkorrelation
Für einzelnes Item: Mittlere Korrelation der Items mit anderen Items
Für Gesamtskala: Mittlere Interkorrelation aller Items untereinander
-> Je höher Itemkorrelation, desto homogener sind Items - Homogenität eng mit Trennschärfe verbunden:
Wenn Intemkorrelation untereinander 1, dann auch Trennschärfe von 1
Itemselektion
- Elimination bzw. Auswahl geeigneten Itemsatzes für Testskala (Ergebnisse der Itemanalyse)
- Wie viele Items behalten?
Festgelegte Maximalzahl vs. Angestrebte Mindestanzahl - Welche Items behalten? -> Statistische Kriterien
- P (je nach Zielsetzung)
- rit möglichst hoch
- Mindestanforderungen
- Hohe Homogenität
- Abwägen von rit und P -> Selektionskennwert
- Methoden zur Auswahl geeigneter Items:
Sel, Quartilmethode, Gulliksentechnik
Selektionskennwert
- Reine Orientierung an Trennschräfe kann zu übermäßig homogenen Skalen führen
- Sel berücksichtigt, dass Items mit extremerem P weniger rit-Potenzial haben
- Bei gleicher Trennschärfe bevorzugt Sel extreme Items -> Auflockerung der Skalen
- Bei gleichem P bevorzugt Sel trennschärfere Items
- Wichtig:
Sel sollte nicht rein schematisch befolgt werden
Beste Strategie durch Abwägung der Einzelkriterien
Auch differenzierte Betrachtung einzelner Itemeigenschaften nützlich
Quartilmethode
- Relativ einfache Vorgehensweise: Verteilung der Löser über Quartile
- v.a. wenn sich zwei Items in P und rit übereinstimmen
Gulliksentechnik
- Elimination von Items, die im Verhältnis zur Trennschärfe geringe Validitäten haben
- Voraussetzung: Es müssen neben rit auch Itemvaliditäten bestimmt werden
- Grafische Methode, die eher heterogene Testskalen mit hoher kriterienbezogener Validität ermöglichen soll
- Validitätsindex der Items wird Reliabilität bevorzugt
Reliabilität
- Messgenauigkeit des Testverfahrens
- In KTT Bestimmung per Korrelation möglich
- Methoden: Retest, Paralleltest, Testhalbierung, Methode der internen Konsistenz
Retest: Testwiederholung
- Probanden bearbeiten test zu zwei Messzeitpunkten
- Kennwert = Korrelation eider Messwertreihen
- Probleme: Lern-, Übungs- und Erinnerungseffekte, Merkmalsfluktuation
Paralleltestmethode
- Zwei Parallelformen des Tests benötigt: Gleiche, aber nicht identische Itemstichproben:
Äquivalente Verteilung, Validität und Reliabilität - Kennwert = Korrelation beider Testformen
- Vorteile: Keine Lern- und Erinnerungseffekte, kein langer Testabstand nötig, auch bei eher instabilen Merkmalen anwendbar
- > Gilt als gute Methode der Reliabilitätsbestimmung
- Nachteile:
Erstellung der Parallelform aufwendig und teils nicht möglich
Parallelformen praktisch nie vollkommen äquivalent
Übungseffekte auch hier möglich (Strategien) - Vorgehen: Probanden bearbeiten zwei Parallelformen des Tests -> mehr/doppelt so viele Items benötigt
Items einer homogenen Skala können anhand von P und rit aufgeteilt werden - Vertikale Aufgabenpaarung: Items abh. von P gepaart
- Horizontale Aufgabenpaarung: Items abh. von rit gepaart
- Mischformen: P und rit gleichermaßen gewichtet
- Ziel: Items paaren, die beides ähnlich haben
- Heterogene Skalen: Darauf achten, dass Inhalte in beiden Parallelformen gleichermaßen repräsentiert sind -> Merkmalsanalyse der Inhalte wichtig
Testhalbierungsmethode
- Probanden bearbeiten Gesamttest, der DANACH in zwei gleichwertige Hälften aufgeteilt wird
- Halbierungsmethoden:
Zufällige Zuweisung der (homogenen) Items
Odd-Even-Methode (Items mit vers. P gleichmäßig verteilt)
Zeitpartionierung
Heterogene Items: Paarung nach Merkmalsanalyse (Inhalt) - Jede der Testhälften liefert einen “Testwert”
- Korrelation der beiden Testhälften wird ermittelt für ganzen Test
- > Problem: Zusammenhang von Testlänge und Reliabilität (je länger Test, desto besser Rel.)
Spearman-Brown-Korrektur:
- Bei Testhalbierung wird Test “verkürzt” -> muss korrigiert werden
- Voraussetzungen Testhälften gleich lang und selbe Streuung
Allgemeine Spearman-Brown-Formel:
- SBK gilt für Spezialfall der Testhalbierung
- Mit allgemeinen Formel lässt sich Effekt einer Testverlängerung auf Reliabilität abschätzen
Methode der internen Konsistenz
- Fortführung der Testhalbierung:
Test mit c Items wird in c Teile anstatt zwei zerlegt
-> Jeder einzelne Item wird als separater test behandelt - Wenn für alle Items gemacht: Darstellung von Itemscores, die gleiches Konstrukt mit unterschiedlichen Messfehlern, Schwierigkeiten, usw. erfassen
- Nur bei homogenen Tests sinnvoll
- Konsistenzmaß durch Interitemkorrelationen oder Varianzanalyse begründbar
- Interitemkorrelationen: Je höher diese, desto höher Konsistenz
- Varianzanalytische Konzeption:
Unterschiede in Itemantworten gehen zurück auf Unterschiede innerhalb oder zwischen Probanden
Vergleich Methoden Reliabilitätsbestimmung
- Aufwand bzw. Zeitpunkt:
Wiederholungsmethoden aufwendiger
Konsistenzmethoden ohne weitere Erhebung direkt anschließend an Aufgabenanalyse möglich - Praktische Reliabilität vs. Messgenauigkeit:
Bei Wiederholungsmethoden auch andere Einflüsse
-> Praktische Reliabilität
Konsistenzmethoden erfassen nur Messgenauigkeit
-> Instrumentelle Reliabilität
Validität
- Misst der Test, was er messen soll?
- Zentrales Gütekriterium, ist Objektivität und Reliabilität übergeordnet
- Drei grundlegende Arten: inhaltliche, kriterienbezogene, Konstruktvalidität
Inhaltliche Validität
- Repräsentieren Items auch logisch-inhaltlich zu erfassendes Konstrukt?
- Repräsentationsschluss erfolgt v.a. für operational definierte Merkmale
- Für theoretisch definierte Konstrukte: Inwieweit können unters. Antworten mit betreffendem Konstrukt schlüssig erklärt werden?
- Normalerweise keine numerische Bestimmung der Inhaltsvalidität
Kriterienbezogene Validität
- Zentral, wenn Test als Grundlage für praktische Entscheidungen dient
- Idee: Konstrukt wird anhand eines Kriteriums erfasst
- > Korrelation des Tests mit dem Kriterium (rtc)
- Konzept: Geht davon aus, dass betreffendes Konstrukt durch Kriteriumsmessung direkt sichtbar gemacht werden kann
- Beispiel: Test: Schuleignung, Kriterium: Schulnote
Unterscheidung Art der Kriterien:
- Vorhersagevalidität: Prognose
Übereinstimmungsvalidität: Zustand nach zB. einem Jahr
- Innere kriterienbezogene Validität: Anderes (etabliertes) Testverfahren, was gleiches Konstrukt erfasst
- Äußere kriterienbezogene Validität: Externe Maße (Schulnoten, Arbeitsleistung, usw.)
-> Test prinzipiell mehrere Validitäten
Konstruktvalidität
Konzept: Bezieht sich auf latente, theoretische Konstrukte
Idee:
- Zu messendes latentes Konstrukt mit anderen Konstrukten in systematischer Verbindung
- Diese Verbindung als Hypothese formulierbar
- Hypothesen können empirisch geprüft werden
Hypothesenprüfung:
- Nur Prüfung von Hypothesen, die als korrekt gesehen werden
- Stimmen empirische Ergebnisse mit theoretischen Vorhersagen überein: Hinweis auf Validität des Verfahrens
- Keine Übereinstimmung: Gegen Validität des Verfahrens
Bsp. Hypothese: Korrelation Intelligenz mit Schulerfolg
- Hypothese als korrekt gesehen
- Korrelation der IQ-Testergebnisse mit Schulerfolg
- Wenn Korrelation gegeben: Test erfasst Intelligenz und ist valide
Ziel:
- Einbettung des mit Test erfassten Konstrukt in nomologisches Netzwerk anderer teils verwandter oder fremder Konstrukte (konvergent bzw. diskriminant)
- Je mehr Hypothesen, Erhebungs- und Auswahlstrategien, desto besser
Multitrait-Multimethod-Matrix:
- Systematische Vorgehensweise, kann zur Konstruktvalidierung genutzt werden
- Erfassung mehrerer Konstrukte (Multitrait) mithilfe mehrerer Methoden (Multimethod)
- Ergebnis: Muster an Korrelationen (Matrix), das konvergente und diskriminante Validitäten beinhaltet
Richtlinien bei Bewertung der Validität eines Tests
- Test soll diagnostisches Urteil verbessern
- > Liegen keine Alternativen vor, kann das mit geringen Validitäten schon möglich sein
- Lange Vorhersagezeiträume: Geringere Validitäten
- Validität sollte besser sein, wenn:
Bei bereits vorhandenen Verfahren zum gleichen Merkmalsbereich
Je isolierter Test im diagnostischen Bereich steht
Je aufwendiger Test ist
Je weitreichender Entscheidung für Proband
Reliabilitäts-Validitäts-Dilemma
- Häufig wird einseitig Reliabilität optimiert
Aber hohe Reliabilität -> Verminderung der Validität - Reliabilitäts-Validitäts-Dilemma: Je homogener ein Test, desto reliabler, aber valide Erfassung setzt voraus, dass Konstrukt in ganzer Breite erfasst wird
- Lösungsversuch: Verwendung in sich homogenen Testbatterien/Subskalen, die Konstrukt aber insgesamt breit abdecken
Kriterienbezogene Validität beschränkt durch:
- Reliabilitätsindex des Tests (Theoretische Korrelation)
- Reliabilitätsindex des Kriteriums (Korrelation Kriterium mit wahrem Wert)
Unreliables Kriterium = geringe Validität des Tests?
-> Ausgleich durch Minderungskorrektur
Einfache Mindesrungskorrektur:
- Berücksichtigung und Korrektur der Validitätsbeschränkung durch Reliabilität der Kriteriumsmessung
- Sinnvoll, da Test keine “Schuld” für Ungenauigkeit der Kriteriumsmesung trifft
Doppelte Minderungskorrektur:
- Berücksichtigt zusätzlich beschränkte Reliabilität des Testverfahrens selbst
- Kritisch, da maximale Testreliabiität vorgetäuscht wird
- > Eher von theoretischer Bedeutung und um Potenzial eines Testverfahrens abzuschätzen
Normierung des Testverfahrens
- Testergebnis zunächst als Rohwert: Nicht aussagekräftig und sinnvoller Vergleichsmaßstab zur Beurteilung nötig
- Zwei Vergleichsmaßstäbe möglich: Normorientierte oder kriteriumsorientierte Interpretation
Normorientierte Interpretation
- Abgleich mit Testrohwerten anderer Personen -> Abgleich mit “normalem” Wert
- Liegt bereits vor, wenn individueller Testwert zum durchschnittlichen Rohwert einer Vergleichsgruppe in Bezug gesetzt wird
- Norm muss geschafft werden, um Rohwerte direkt einzuordnen mit Vergleichsgruppe als Grundlage
- Normierung üblich an Eichstichprobe, diese muss:
Repräsentativ für Stichprobe
Hinreichend groß (abhängig von Differenziertheit der Normen und Heterogenität der Population) - Art von Normen: Äquivalenz-, Abweichungsnormen und Prozentränge
Äquivalenznormen
- Betrachtung, in welcher Altersgruppe eine Leistung äquivalent ist
- Vorteil: Sehr anschaulich
- Nachteile:
Setzt voraus, dass Altersunterschiede vorhanden sind
Evtl. qualitative Unterschiede zwischen Altersstufen
-> heute unüblich, eher andere beiden Arten
Prozentrang-/Flächennormen
- Prozentrang PR: Wie viel Prozent der Vergleichspopulation weisen eine geringere oder maximal gleiche Merkmalsausprägung auf?
- Bsp.: PR = 40 -> 40% der Population haben geringeren oder gleichen Testwert, 60% höheren
- Nichtlineare Flächentransformation -> Flächennorm
- Bestimmung über kumulierte Häufigkeitsverteilung
- Bei kategorisierten Rohwertklassen bezieht sich PR auf Kategorienmitte
- Erstellung der Prozentrangtabelle: Interpretation des Rohwerts mit Prozentrang -> PR i.d.R. über Normwerte bestimmt
- Vorteile:
Relativ anschaulich
Verteilungsunabhängig - Nachteil: PR nicht intervallskaliert -> Unterschied zwischen PR kann nicht ohne weiteres interpretiert werden
Abweichungsnormen
- Geben an, wie weit bestimmter Testwert vom Populationsdurchschnitt entfernt ist
- Übliche Normskalen:
z-Skala, IQ-Abweichungsskala, T-Werte, Stanine-Skala
Bestimmung von Abweichungsnormen:
- Normierung über Standardnormalverteilung (Werte z-transformieren)
- Weitere Transformation in Standardnormskalen (da z-Wert negative Werte besitzt)
- Auwahl von Normskala abhängig von:
Gewünschtem Differenzierungsfähigkeit
Genauigkeit der Messung
Größe der Eichstichprobe
- Erstellung einer Normtabelle:
Für jeden einzelnen Rohwert wird Normwert ermittelt
PR wird dann i.d.R. über Normwerte bestimmt
- Vorsicht bei nicht normalverteilten Rohwerten:
Abweichungsnormen im Rahmen einer Normalisierungstransformation zu bestimmen
Andernfalls lediglich PR-Normen verwenden
Normalisierungstransformation:
- Bei nicht-normalverteilten Rohwerten ist Standardnormierung so nicht durchführbar
-> Normalisierung über Flächentransformation
- Gründe für Abweichungen:
Merkmal nicht normV (Verwendung PR-Normen)
Heterogene Analysestichprobe (Erstellung von Subgruppen)
Einseitige Itemschwierigkeit (Normalisierung sinnvoll)
- Normalisierung über Prozentränge:
1. Berechnung von Prozentrangnormen
2. Überführen der PR- in z-Werte
-> Hier Normalisierung
3. Transformation der z-Werte in Standardnormäquivalente (T-, Stanine-Skala)
Kriteriumsorientierte Interpretation
- Abgleich mit psychologisch-inhaltlichen Beschreibungen, die Bedeutung der Testrohwerte charakterisieren -> Abgleich mit “Soll”-Wert
- Beurteilung des Testwerts nicht am Durchschnitt anderer, sondern vorher festgelegtem Kriterium
Norm- vs. kriteriumsorientiert
- Verbreitete psychologische testverfahren meist normorientiert: Fokus auf vergleich einer Personen mit anderen hinsichtlich des Merkmals
- Kein grundsätzlicher Gegensatz
- Bei Normorientierter Interpretation Trennschärfe wichtiger als bei kriteriumsorientierter