03 Praxis der Testkonstruktion Flashcards

1
Q

Schritte der Testkonstruktion

A
  1. Planungsphase
  2. Aufgabenkonstruktion
  3. Itemanalyse
  4. Erstellung der Testendform, Kontrolle der Testgütekriterien
  5. Normierung
  6. Manualerstellung und Publikation
  7. Testpflege
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aufgabenarten

A
  1. Anwortformate:
    gebunden, frei, atypisch
  2. Reizvorlage:
    sprachlich, Bilder, Videos, Symbole usw.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Auswahlstrategien: Konstruktion der Items

A
  • Übernahme aus vergleichbaren Verfahren

- Eigenkonstruktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Itemformulierung und -gestaltung

A
  1. Sprachliche Gestaltung: Vermeidung von
    - Mehrdeutigen und schwierigen Begriffen
    - Verallgemeinerungen
    - Umständlichem langen Items, aber kein Telegrammstil
  2. Antworttendenzen:
    - Positions- und seriale Effekte
    - Tendenz zur unkritischen Zustimmung bzw. Ablehnung
    - Soziale Erwünschtheit, Simulation bzw. Dissimulation
    - Tendenz zur Mitte oder zu extremen Antworten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Provisorischer Test

A
  • Vorläufige Fassung des Tests für weitere Konstruktion, soll weitgehend endgültiger Version entsprechen
  • Wird von repräsentativen Konstruktionsstichprobe bearbeitet
  • Dient v.a. für Generierung von Daten für weitere Konstruktionsschritte
  • Feedback der Probanden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Konstruktionsstrategien

A

Strategien zur Zuordnung von Items zu Skalen

  1. Rationale Strategie: (deduktiv)
    - Zuordnung der Items zum Konstrukt auf Grundlage vorliegender Theorien
    - Items, die aus theoretischen Gründen zusammengehören, werden zu Subskala zusammengefasst
  2. Intuitive Strategie: (deduktiv)
    - Konstruktion geleitet durch Intuition und Erfahrung des Testautors (keine theoretischen Modelle zur Verfügung)
    - Oft später ergänzt durch empirische Strategien
  3. Kriteriumsorientierte Strategie: (induktiv, external)
    - Empirische Auswahl der Items unter Bezugnahme externer Kriterien
    - Items, die bzgl. eines externen Kriteriums gut trennen, werden zu Subskala zusammengefasst
    - Skalen eher heterogen
    - Validität: Kriterienbezogene Validität
    - Somit entstehen eher heterogene Skalen
  4. Faktorenanalytische Strategie: (induktiv, internal)
    - Items, die auf jeweiligen Faktoren hoch laden und empirisch zusammengehören, werden zu Subskala zusammengefasst
    - Skalen zwangsläufig homogen
    - Validität: Konstruktvalidität
    - Geschieht per Faktorenanalyse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Faktorenanalyse

A
  • Statistische Methode zur Datenreduktion
  • Ziel: Abbildung Vielzahl an Einzelvariablen durch wenige allgemeine Dimensionen (Faktoren)
    In Testkonstruktion: Items zu Subskalen bilden
  • Faktor: Gemeinsame, Dimension, die mehreren Variablen zugrunde liegt
  • Ausgangspunkt: Interkorrelationsmatrix
  • Vorgehen:
    1. Schrittweise Extraktion orthogonaler Faktoren, solange diese bedeutsame Informationsmenge bilden
    2. Rotation der Faktoren und inhaltliche Interpretation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Itemanalyse

A
  • Ziel: Bestimmung der Qualität eines Items bzgl. der jeweiligen Skala
  • Drei zentrale Itemkennwerte: Schwierigkeit, Trennschärfe, Homogenität
  • Danach Itemselektion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Schwierigkeit

A
  • Gibt an, wie schwer bzw. leicht ein Item von betreffenden Zielpopulation gelöst werden kann
  • Bei PT: Richtige Lösung bezieht sich darauf, ob Item in Indexrichtung beantwortet wird
  • Je höher P, desto leichter ist Item zu lösen
  • Schwierigkeit bei Ratingskalen: Negativ gepolte Items müssen VOR Itemanalyse in Indexrichtung umgepolt werden
  • Bei mehrstufigen Ratingskalen kann Mittelwert herangezogen werden
  • Erwünschte Schwierigkeiten:
    Items ungeeignet, wenn alle oder niemand Item löst
    -> Gewisse Heterogenität der Schwierigkeiten angestrebt, dass nicht nur im Mittelbereich differenziert wird: Differenzierung über gesamte Breite/ im typischen Bereich vs. Differenzierung im extremen Merkmalsbereich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Itemvarianz

A
  • Bei Verwendung von Mittelwerten bzw. P als Indikator der Schwierigkeit ist Berücksichtigung der Varianz erforderlich
  • Varianz abhängig von Antwortskala
  • Bei dichotomen Antworten ist eigenständige Betrachtung der Varianz nicht nötig
  • Maximale Varianz bei P = 50 erreicht (an Extremen geringer)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Trennschärfe

A
  • Wichtigster Itemkennwert
  • Wie gut trennt Item Pb mit niedriger Merkmalsausprägung von denen mit hoher?
  • Als Kriterium für Merkmalsausprägung wird Gesamtskalenwert herangezogen
  • > Inwieweit ist Itemantwort repräsentativ für Gesamtskala?
  • Bestimmung: Korrelation des Itemwertes i mit Gesamttestwert t -> rit
  • Problem: Item geht selbst in Gesamtwert ein (Selbstkorrelation) –> “Part-Whole-Korrektur”
  • Konvergente Trennschärfe: Items sollen hoch mit eigener Skala korrelieren
  • Diskriminante Trennschärfe: Items sollen niedrig mit anderen (fremden) Skalen korrelieren
  • Zusammenhang von P und rit: Bei mittlerem P höchste Trennschärfe rit
  • Eigentreffnschärfe: rit bezieht Item auf eigene Skala (internes Kriterium) -> bedeutsam für Homogenität und Reliabilität einer Testskala
  • Fremdtrennschärfe: Bezug auf externes Kriterium -> bedeutsam für (kriterienbezogene) Validität einer Testskala
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Homogenität

A
  • Ausmaß, in dem Items tatsächlich exakt dasselbe erfassen -> vollständige Homogenität nicht erwünscht (Items sollen unters. Facetten erfassen)
  • In KTT: Homogenität = Aufgabeninterkorrelation
    Für einzelnes Item: Mittlere Korrelation der Items mit anderen Items
    Für Gesamtskala: Mittlere Interkorrelation aller Items untereinander
    -> Je höher Itemkorrelation, desto homogener sind Items
  • Homogenität eng mit Trennschärfe verbunden:
    Wenn Intemkorrelation untereinander 1, dann auch Trennschärfe von 1
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Itemselektion

A
  • Elimination bzw. Auswahl geeigneten Itemsatzes für Testskala (Ergebnisse der Itemanalyse)
  1. Wie viele Items behalten?
    Festgelegte Maximalzahl vs. Angestrebte Mindestanzahl
  2. Welche Items behalten? -> Statistische Kriterien
    - P (je nach Zielsetzung)
    - rit möglichst hoch
    - Mindestanforderungen
    - Hohe Homogenität
    - Abwägen von rit und P -> Selektionskennwert
  • Methoden zur Auswahl geeigneter Items:
    Sel, Quartilmethode, Gulliksentechnik
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Selektionskennwert

A
  • Reine Orientierung an Trennschräfe kann zu übermäßig homogenen Skalen führen
  • Sel berücksichtigt, dass Items mit extremerem P weniger rit-Potenzial haben
  • Bei gleicher Trennschärfe bevorzugt Sel extreme Items -> Auflockerung der Skalen
  • Bei gleichem P bevorzugt Sel trennschärfere Items
  • Wichtig:
    Sel sollte nicht rein schematisch befolgt werden
    Beste Strategie durch Abwägung der Einzelkriterien
    Auch differenzierte Betrachtung einzelner Itemeigenschaften nützlich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quartilmethode

A
  • Relativ einfache Vorgehensweise: Verteilung der Löser über Quartile
  • v.a. wenn sich zwei Items in P und rit übereinstimmen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Gulliksentechnik

A
  • Elimination von Items, die im Verhältnis zur Trennschärfe geringe Validitäten haben
  • Voraussetzung: Es müssen neben rit auch Itemvaliditäten bestimmt werden
  • Grafische Methode, die eher heterogene Testskalen mit hoher kriterienbezogener Validität ermöglichen soll
  • Validitätsindex der Items wird Reliabilität bevorzugt
17
Q

Reliabilität

A
  • Messgenauigkeit des Testverfahrens
  • In KTT Bestimmung per Korrelation möglich
  • Methoden: Retest, Paralleltest, Testhalbierung, Methode der internen Konsistenz
18
Q

Retest: Testwiederholung

A
  • Probanden bearbeiten test zu zwei Messzeitpunkten
  • Kennwert = Korrelation eider Messwertreihen
  • Probleme: Lern-, Übungs- und Erinnerungseffekte, Merkmalsfluktuation
19
Q

Paralleltestmethode

A
  • Zwei Parallelformen des Tests benötigt: Gleiche, aber nicht identische Itemstichproben:
    Äquivalente Verteilung, Validität und Reliabilität
  • Kennwert = Korrelation beider Testformen
  • Vorteile: Keine Lern- und Erinnerungseffekte, kein langer Testabstand nötig, auch bei eher instabilen Merkmalen anwendbar
  • > Gilt als gute Methode der Reliabilitätsbestimmung
  • Nachteile:
    Erstellung der Parallelform aufwendig und teils nicht möglich
    Parallelformen praktisch nie vollkommen äquivalent
    Übungseffekte auch hier möglich (Strategien)
  • Vorgehen: Probanden bearbeiten zwei Parallelformen des Tests -> mehr/doppelt so viele Items benötigt
    Items einer homogenen Skala können anhand von P und rit aufgeteilt werden
  • Vertikale Aufgabenpaarung: Items abh. von P gepaart
  • Horizontale Aufgabenpaarung: Items abh. von rit gepaart
  • Mischformen: P und rit gleichermaßen gewichtet
  • Ziel: Items paaren, die beides ähnlich haben
  • Heterogene Skalen: Darauf achten, dass Inhalte in beiden Parallelformen gleichermaßen repräsentiert sind -> Merkmalsanalyse der Inhalte wichtig
20
Q

Testhalbierungsmethode

A
  • Probanden bearbeiten Gesamttest, der DANACH in zwei gleichwertige Hälften aufgeteilt wird
  • Halbierungsmethoden:
    Zufällige Zuweisung der (homogenen) Items
    Odd-Even-Methode (Items mit vers. P gleichmäßig verteilt)
    Zeitpartionierung
    Heterogene Items: Paarung nach Merkmalsanalyse (Inhalt)
  • Jede der Testhälften liefert einen “Testwert”
  • Korrelation der beiden Testhälften wird ermittelt für ganzen Test
  • > Problem: Zusammenhang von Testlänge und Reliabilität (je länger Test, desto besser Rel.)

Spearman-Brown-Korrektur:

  • Bei Testhalbierung wird Test “verkürzt” -> muss korrigiert werden
  • Voraussetzungen Testhälften gleich lang und selbe Streuung

Allgemeine Spearman-Brown-Formel:

  • SBK gilt für Spezialfall der Testhalbierung
  • Mit allgemeinen Formel lässt sich Effekt einer Testverlängerung auf Reliabilität abschätzen
21
Q

Methode der internen Konsistenz

A
  • Fortführung der Testhalbierung:
    Test mit c Items wird in c Teile anstatt zwei zerlegt
    -> Jeder einzelne Item wird als separater test behandelt
  • Wenn für alle Items gemacht: Darstellung von Itemscores, die gleiches Konstrukt mit unterschiedlichen Messfehlern, Schwierigkeiten, usw. erfassen
  • Nur bei homogenen Tests sinnvoll
  • Konsistenzmaß durch Interitemkorrelationen oder Varianzanalyse begründbar
  • Interitemkorrelationen: Je höher diese, desto höher Konsistenz
  • Varianzanalytische Konzeption:
    Unterschiede in Itemantworten gehen zurück auf Unterschiede innerhalb oder zwischen Probanden
22
Q

Vergleich Methoden Reliabilitätsbestimmung

A
  • Aufwand bzw. Zeitpunkt:
    Wiederholungsmethoden aufwendiger
    Konsistenzmethoden ohne weitere Erhebung direkt anschließend an Aufgabenanalyse möglich
  • Praktische Reliabilität vs. Messgenauigkeit:
    Bei Wiederholungsmethoden auch andere Einflüsse
    -> Praktische Reliabilität
    Konsistenzmethoden erfassen nur Messgenauigkeit
    -> Instrumentelle Reliabilität
23
Q

Validität

A
  • Misst der Test, was er messen soll?
  • Zentrales Gütekriterium, ist Objektivität und Reliabilität übergeordnet
  • Drei grundlegende Arten: inhaltliche, kriterienbezogene, Konstruktvalidität
24
Q

Inhaltliche Validität

A
  • Repräsentieren Items auch logisch-inhaltlich zu erfassendes Konstrukt?
  • Repräsentationsschluss erfolgt v.a. für operational definierte Merkmale
  • Für theoretisch definierte Konstrukte: Inwieweit können unters. Antworten mit betreffendem Konstrukt schlüssig erklärt werden?
  • Normalerweise keine numerische Bestimmung der Inhaltsvalidität
25
Q

Kriterienbezogene Validität

A
  • Zentral, wenn Test als Grundlage für praktische Entscheidungen dient
  • Idee: Konstrukt wird anhand eines Kriteriums erfasst
  • > Korrelation des Tests mit dem Kriterium (rtc)
  • Konzept: Geht davon aus, dass betreffendes Konstrukt durch Kriteriumsmessung direkt sichtbar gemacht werden kann
  • Beispiel: Test: Schuleignung, Kriterium: Schulnote

Unterscheidung Art der Kriterien:
- Vorhersagevalidität: Prognose
Übereinstimmungsvalidität: Zustand nach zB. einem Jahr
- Innere kriterienbezogene Validität: Anderes (etabliertes) Testverfahren, was gleiches Konstrukt erfasst
- Äußere kriterienbezogene Validität: Externe Maße (Schulnoten, Arbeitsleistung, usw.)
-> Test prinzipiell mehrere Validitäten

26
Q

Konstruktvalidität

A

Konzept: Bezieht sich auf latente, theoretische Konstrukte

Idee:

  • Zu messendes latentes Konstrukt mit anderen Konstrukten in systematischer Verbindung
  • Diese Verbindung als Hypothese formulierbar
  • Hypothesen können empirisch geprüft werden

Hypothesenprüfung:

  • Nur Prüfung von Hypothesen, die als korrekt gesehen werden
  • Stimmen empirische Ergebnisse mit theoretischen Vorhersagen überein: Hinweis auf Validität des Verfahrens
  • Keine Übereinstimmung: Gegen Validität des Verfahrens

Bsp. Hypothese: Korrelation Intelligenz mit Schulerfolg

  • Hypothese als korrekt gesehen
  • Korrelation der IQ-Testergebnisse mit Schulerfolg
  • Wenn Korrelation gegeben: Test erfasst Intelligenz und ist valide

Ziel:

  • Einbettung des mit Test erfassten Konstrukt in nomologisches Netzwerk anderer teils verwandter oder fremder Konstrukte (konvergent bzw. diskriminant)
  • Je mehr Hypothesen, Erhebungs- und Auswahlstrategien, desto besser

Multitrait-Multimethod-Matrix:

  • Systematische Vorgehensweise, kann zur Konstruktvalidierung genutzt werden
  • Erfassung mehrerer Konstrukte (Multitrait) mithilfe mehrerer Methoden (Multimethod)
  • Ergebnis: Muster an Korrelationen (Matrix), das konvergente und diskriminante Validitäten beinhaltet
27
Q

Richtlinien bei Bewertung der Validität eines Tests

A
  • Test soll diagnostisches Urteil verbessern
  • > Liegen keine Alternativen vor, kann das mit geringen Validitäten schon möglich sein
  • Lange Vorhersagezeiträume: Geringere Validitäten
  • Validität sollte besser sein, wenn:
    Bei bereits vorhandenen Verfahren zum gleichen Merkmalsbereich
    Je isolierter Test im diagnostischen Bereich steht
    Je aufwendiger Test ist
    Je weitreichender Entscheidung für Proband
28
Q

Reliabilitäts-Validitäts-Dilemma

A
  • Häufig wird einseitig Reliabilität optimiert
    Aber hohe Reliabilität -> Verminderung der Validität
  • Reliabilitäts-Validitäts-Dilemma: Je homogener ein Test, desto reliabler, aber valide Erfassung setzt voraus, dass Konstrukt in ganzer Breite erfasst wird
  • Lösungsversuch: Verwendung in sich homogenen Testbatterien/Subskalen, die Konstrukt aber insgesamt breit abdecken

Kriterienbezogene Validität beschränkt durch:
- Reliabilitätsindex des Tests (Theoretische Korrelation)
- Reliabilitätsindex des Kriteriums (Korrelation Kriterium mit wahrem Wert)
Unreliables Kriterium = geringe Validität des Tests?
-> Ausgleich durch Minderungskorrektur

Einfache Mindesrungskorrektur:

  • Berücksichtigung und Korrektur der Validitätsbeschränkung durch Reliabilität der Kriteriumsmessung
  • Sinnvoll, da Test keine “Schuld” für Ungenauigkeit der Kriteriumsmesung trifft

Doppelte Minderungskorrektur:

  • Berücksichtigt zusätzlich beschränkte Reliabilität des Testverfahrens selbst
  • Kritisch, da maximale Testreliabiität vorgetäuscht wird
  • > Eher von theoretischer Bedeutung und um Potenzial eines Testverfahrens abzuschätzen
29
Q

Normierung des Testverfahrens

A
  • Testergebnis zunächst als Rohwert: Nicht aussagekräftig und sinnvoller Vergleichsmaßstab zur Beurteilung nötig
  • Zwei Vergleichsmaßstäbe möglich: Normorientierte oder kriteriumsorientierte Interpretation
30
Q

Normorientierte Interpretation

A
  • Abgleich mit Testrohwerten anderer Personen -> Abgleich mit “normalem” Wert
  • Liegt bereits vor, wenn individueller Testwert zum durchschnittlichen Rohwert einer Vergleichsgruppe in Bezug gesetzt wird
  • Norm muss geschafft werden, um Rohwerte direkt einzuordnen mit Vergleichsgruppe als Grundlage
  • Normierung üblich an Eichstichprobe, diese muss:
    Repräsentativ für Stichprobe
    Hinreichend groß (abhängig von Differenziertheit der Normen und Heterogenität der Population)
  • Art von Normen: Äquivalenz-, Abweichungsnormen und Prozentränge
31
Q

Äquivalenznormen

A
  • Betrachtung, in welcher Altersgruppe eine Leistung äquivalent ist
  • Vorteil: Sehr anschaulich
  • Nachteile:
    Setzt voraus, dass Altersunterschiede vorhanden sind
    Evtl. qualitative Unterschiede zwischen Altersstufen
    -> heute unüblich, eher andere beiden Arten
32
Q

Prozentrang-/Flächennormen

A
  • Prozentrang PR: Wie viel Prozent der Vergleichspopulation weisen eine geringere oder maximal gleiche Merkmalsausprägung auf?
  • Bsp.: PR = 40 -> 40% der Population haben geringeren oder gleichen Testwert, 60% höheren
  • Nichtlineare Flächentransformation -> Flächennorm
  • Bestimmung über kumulierte Häufigkeitsverteilung
  • Bei kategorisierten Rohwertklassen bezieht sich PR auf Kategorienmitte
  • Erstellung der Prozentrangtabelle: Interpretation des Rohwerts mit Prozentrang -> PR i.d.R. über Normwerte bestimmt
  • Vorteile:
    Relativ anschaulich
    Verteilungsunabhängig
  • Nachteil: PR nicht intervallskaliert -> Unterschied zwischen PR kann nicht ohne weiteres interpretiert werden
33
Q

Abweichungsnormen

A
  • Geben an, wie weit bestimmter Testwert vom Populationsdurchschnitt entfernt ist
  • Übliche Normskalen:
    z-Skala, IQ-Abweichungsskala, T-Werte, Stanine-Skala

Bestimmung von Abweichungsnormen:
- Normierung über Standardnormalverteilung (Werte z-transformieren)
- Weitere Transformation in Standardnormskalen (da z-Wert negative Werte besitzt)
- Auwahl von Normskala abhängig von:
Gewünschtem Differenzierungsfähigkeit
Genauigkeit der Messung
Größe der Eichstichprobe
- Erstellung einer Normtabelle:
Für jeden einzelnen Rohwert wird Normwert ermittelt
PR wird dann i.d.R. über Normwerte bestimmt
- Vorsicht bei nicht normalverteilten Rohwerten:
Abweichungsnormen im Rahmen einer Normalisierungstransformation zu bestimmen
Andernfalls lediglich PR-Normen verwenden

Normalisierungstransformation:
- Bei nicht-normalverteilten Rohwerten ist Standardnormierung so nicht durchführbar
-> Normalisierung über Flächentransformation
- Gründe für Abweichungen:
Merkmal nicht normV (Verwendung PR-Normen)
Heterogene Analysestichprobe (Erstellung von Subgruppen)
Einseitige Itemschwierigkeit (Normalisierung sinnvoll)
- Normalisierung über Prozentränge:
1. Berechnung von Prozentrangnormen
2. Überführen der PR- in z-Werte
-> Hier Normalisierung
3. Transformation der z-Werte in Standardnormäquivalente (T-, Stanine-Skala)

34
Q

Kriteriumsorientierte Interpretation

A
  • Abgleich mit psychologisch-inhaltlichen Beschreibungen, die Bedeutung der Testrohwerte charakterisieren -> Abgleich mit “Soll”-Wert
  • Beurteilung des Testwerts nicht am Durchschnitt anderer, sondern vorher festgelegtem Kriterium
35
Q

Norm- vs. kriteriumsorientiert

A
  • Verbreitete psychologische testverfahren meist normorientiert: Fokus auf vergleich einer Personen mit anderen hinsichtlich des Merkmals
  • Kein grundsätzlicher Gegensatz
  • Bei Normorientierter Interpretation Trennschärfe wichtiger als bei kriteriumsorientierter