03 Praxis der Testkonstruktion Flashcards

1
Q

Schritte der Testkonstruktion

A
  1. Planungsphase
  2. Aufgabenkonstruktion
  3. Itemanalyse
  4. Erstellung der Testendform, Kontrolle der Testgütekriterien
  5. Normierung
  6. Manualerstellung und Publikation
  7. Testpflege
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aufgabenarten

A
  1. Anwortformate:
    gebunden, frei, atypisch
  2. Reizvorlage:
    sprachlich, Bilder, Videos, Symbole usw.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Auswahlstrategien: Konstruktion der Items

A
  • Übernahme aus vergleichbaren Verfahren

- Eigenkonstruktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Itemformulierung und -gestaltung

A
  1. Sprachliche Gestaltung: Vermeidung von
    - Mehrdeutigen und schwierigen Begriffen
    - Verallgemeinerungen
    - Umständlichem langen Items, aber kein Telegrammstil
  2. Antworttendenzen:
    - Positions- und seriale Effekte
    - Tendenz zur unkritischen Zustimmung bzw. Ablehnung
    - Soziale Erwünschtheit, Simulation bzw. Dissimulation
    - Tendenz zur Mitte oder zu extremen Antworten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Provisorischer Test

A
  • Vorläufige Fassung des Tests für weitere Konstruktion, soll weitgehend endgültiger Version entsprechen
  • Wird von repräsentativen Konstruktionsstichprobe bearbeitet
  • Dient v.a. für Generierung von Daten für weitere Konstruktionsschritte
  • Feedback der Probanden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Konstruktionsstrategien

A

Strategien zur Zuordnung von Items zu Skalen

  1. Rationale Strategie: (deduktiv)
    - Zuordnung der Items zum Konstrukt auf Grundlage vorliegender Theorien
    - Items, die aus theoretischen Gründen zusammengehören, werden zu Subskala zusammengefasst
  2. Intuitive Strategie: (deduktiv)
    - Konstruktion geleitet durch Intuition und Erfahrung des Testautors (keine theoretischen Modelle zur Verfügung)
    - Oft später ergänzt durch empirische Strategien
  3. Kriteriumsorientierte Strategie: (induktiv, external)
    - Empirische Auswahl der Items unter Bezugnahme externer Kriterien
    - Items, die bzgl. eines externen Kriteriums gut trennen, werden zu Subskala zusammengefasst
    - Skalen eher heterogen
    - Validität: Kriterienbezogene Validität
    - Somit entstehen eher heterogene Skalen
  4. Faktorenanalytische Strategie: (induktiv, internal)
    - Items, die auf jeweiligen Faktoren hoch laden und empirisch zusammengehören, werden zu Subskala zusammengefasst
    - Skalen zwangsläufig homogen
    - Validität: Konstruktvalidität
    - Geschieht per Faktorenanalyse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Faktorenanalyse

A
  • Statistische Methode zur Datenreduktion
  • Ziel: Abbildung Vielzahl an Einzelvariablen durch wenige allgemeine Dimensionen (Faktoren)
    In Testkonstruktion: Items zu Subskalen bilden
  • Faktor: Gemeinsame, Dimension, die mehreren Variablen zugrunde liegt
  • Ausgangspunkt: Interkorrelationsmatrix
  • Vorgehen:
    1. Schrittweise Extraktion orthogonaler Faktoren, solange diese bedeutsame Informationsmenge bilden
    2. Rotation der Faktoren und inhaltliche Interpretation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Itemanalyse

A
  • Ziel: Bestimmung der Qualität eines Items bzgl. der jeweiligen Skala
  • Drei zentrale Itemkennwerte: Schwierigkeit, Trennschärfe, Homogenität
  • Danach Itemselektion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Schwierigkeit

A
  • Gibt an, wie schwer bzw. leicht ein Item von betreffenden Zielpopulation gelöst werden kann
  • Bei PT: Richtige Lösung bezieht sich darauf, ob Item in Indexrichtung beantwortet wird
  • Je höher P, desto leichter ist Item zu lösen
  • Schwierigkeit bei Ratingskalen: Negativ gepolte Items müssen VOR Itemanalyse in Indexrichtung umgepolt werden
  • Bei mehrstufigen Ratingskalen kann Mittelwert herangezogen werden
  • Erwünschte Schwierigkeiten:
    Items ungeeignet, wenn alle oder niemand Item löst
    -> Gewisse Heterogenität der Schwierigkeiten angestrebt, dass nicht nur im Mittelbereich differenziert wird: Differenzierung über gesamte Breite/ im typischen Bereich vs. Differenzierung im extremen Merkmalsbereich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Itemvarianz

A
  • Bei Verwendung von Mittelwerten bzw. P als Indikator der Schwierigkeit ist Berücksichtigung der Varianz erforderlich
  • Varianz abhängig von Antwortskala
  • Bei dichotomen Antworten ist eigenständige Betrachtung der Varianz nicht nötig
  • Maximale Varianz bei P = 50 erreicht (an Extremen geringer)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Trennschärfe

A
  • Wichtigster Itemkennwert
  • Wie gut trennt Item Pb mit niedriger Merkmalsausprägung von denen mit hoher?
  • Als Kriterium für Merkmalsausprägung wird Gesamtskalenwert herangezogen
  • > Inwieweit ist Itemantwort repräsentativ für Gesamtskala?
  • Bestimmung: Korrelation des Itemwertes i mit Gesamttestwert t -> rit
  • Problem: Item geht selbst in Gesamtwert ein (Selbstkorrelation) –> “Part-Whole-Korrektur”
  • Konvergente Trennschärfe: Items sollen hoch mit eigener Skala korrelieren
  • Diskriminante Trennschärfe: Items sollen niedrig mit anderen (fremden) Skalen korrelieren
  • Zusammenhang von P und rit: Bei mittlerem P höchste Trennschärfe rit
  • Eigentreffnschärfe: rit bezieht Item auf eigene Skala (internes Kriterium) -> bedeutsam für Homogenität und Reliabilität einer Testskala
  • Fremdtrennschärfe: Bezug auf externes Kriterium -> bedeutsam für (kriterienbezogene) Validität einer Testskala
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Homogenität

A
  • Ausmaß, in dem Items tatsächlich exakt dasselbe erfassen -> vollständige Homogenität nicht erwünscht (Items sollen unters. Facetten erfassen)
  • In KTT: Homogenität = Aufgabeninterkorrelation
    Für einzelnes Item: Mittlere Korrelation der Items mit anderen Items
    Für Gesamtskala: Mittlere Interkorrelation aller Items untereinander
    -> Je höher Itemkorrelation, desto homogener sind Items
  • Homogenität eng mit Trennschärfe verbunden:
    Wenn Intemkorrelation untereinander 1, dann auch Trennschärfe von 1
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Itemselektion

A
  • Elimination bzw. Auswahl geeigneten Itemsatzes für Testskala (Ergebnisse der Itemanalyse)
  1. Wie viele Items behalten?
    Festgelegte Maximalzahl vs. Angestrebte Mindestanzahl
  2. Welche Items behalten? -> Statistische Kriterien
    - P (je nach Zielsetzung)
    - rit möglichst hoch
    - Mindestanforderungen
    - Hohe Homogenität
    - Abwägen von rit und P -> Selektionskennwert
  • Methoden zur Auswahl geeigneter Items:
    Sel, Quartilmethode, Gulliksentechnik
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Selektionskennwert

A
  • Reine Orientierung an Trennschräfe kann zu übermäßig homogenen Skalen führen
  • Sel berücksichtigt, dass Items mit extremerem P weniger rit-Potenzial haben
  • Bei gleicher Trennschärfe bevorzugt Sel extreme Items -> Auflockerung der Skalen
  • Bei gleichem P bevorzugt Sel trennschärfere Items
  • Wichtig:
    Sel sollte nicht rein schematisch befolgt werden
    Beste Strategie durch Abwägung der Einzelkriterien
    Auch differenzierte Betrachtung einzelner Itemeigenschaften nützlich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quartilmethode

A
  • Relativ einfache Vorgehensweise: Verteilung der Löser über Quartile
  • v.a. wenn sich zwei Items in P und rit übereinstimmen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Gulliksentechnik

A
  • Elimination von Items, die im Verhältnis zur Trennschärfe geringe Validitäten haben
  • Voraussetzung: Es müssen neben rit auch Itemvaliditäten bestimmt werden
  • Grafische Methode, die eher heterogene Testskalen mit hoher kriterienbezogener Validität ermöglichen soll
  • Validitätsindex der Items wird Reliabilität bevorzugt
17
Q

Reliabilität

A
  • Messgenauigkeit des Testverfahrens
  • In KTT Bestimmung per Korrelation möglich
  • Methoden: Retest, Paralleltest, Testhalbierung, Methode der internen Konsistenz
18
Q

Retest: Testwiederholung

A
  • Probanden bearbeiten test zu zwei Messzeitpunkten
  • Kennwert = Korrelation eider Messwertreihen
  • Probleme: Lern-, Übungs- und Erinnerungseffekte, Merkmalsfluktuation
19
Q

Paralleltestmethode

A
  • Zwei Parallelformen des Tests benötigt: Gleiche, aber nicht identische Itemstichproben:
    Äquivalente Verteilung, Validität und Reliabilität
  • Kennwert = Korrelation beider Testformen
  • Vorteile: Keine Lern- und Erinnerungseffekte, kein langer Testabstand nötig, auch bei eher instabilen Merkmalen anwendbar
  • > Gilt als gute Methode der Reliabilitätsbestimmung
  • Nachteile:
    Erstellung der Parallelform aufwendig und teils nicht möglich
    Parallelformen praktisch nie vollkommen äquivalent
    Übungseffekte auch hier möglich (Strategien)
  • Vorgehen: Probanden bearbeiten zwei Parallelformen des Tests -> mehr/doppelt so viele Items benötigt
    Items einer homogenen Skala können anhand von P und rit aufgeteilt werden
  • Vertikale Aufgabenpaarung: Items abh. von P gepaart
  • Horizontale Aufgabenpaarung: Items abh. von rit gepaart
  • Mischformen: P und rit gleichermaßen gewichtet
  • Ziel: Items paaren, die beides ähnlich haben
  • Heterogene Skalen: Darauf achten, dass Inhalte in beiden Parallelformen gleichermaßen repräsentiert sind -> Merkmalsanalyse der Inhalte wichtig
20
Q

Testhalbierungsmethode

A
  • Probanden bearbeiten Gesamttest, der DANACH in zwei gleichwertige Hälften aufgeteilt wird
  • Halbierungsmethoden:
    Zufällige Zuweisung der (homogenen) Items
    Odd-Even-Methode (Items mit vers. P gleichmäßig verteilt)
    Zeitpartionierung
    Heterogene Items: Paarung nach Merkmalsanalyse (Inhalt)
  • Jede der Testhälften liefert einen “Testwert”
  • Korrelation der beiden Testhälften wird ermittelt für ganzen Test
  • > Problem: Zusammenhang von Testlänge und Reliabilität (je länger Test, desto besser Rel.)

Spearman-Brown-Korrektur:

  • Bei Testhalbierung wird Test “verkürzt” -> muss korrigiert werden
  • Voraussetzungen Testhälften gleich lang und selbe Streuung

Allgemeine Spearman-Brown-Formel:

  • SBK gilt für Spezialfall der Testhalbierung
  • Mit allgemeinen Formel lässt sich Effekt einer Testverlängerung auf Reliabilität abschätzen
21
Q

Methode der internen Konsistenz

A
  • Fortführung der Testhalbierung:
    Test mit c Items wird in c Teile anstatt zwei zerlegt
    -> Jeder einzelne Item wird als separater test behandelt
  • Wenn für alle Items gemacht: Darstellung von Itemscores, die gleiches Konstrukt mit unterschiedlichen Messfehlern, Schwierigkeiten, usw. erfassen
  • Nur bei homogenen Tests sinnvoll
  • Konsistenzmaß durch Interitemkorrelationen oder Varianzanalyse begründbar
  • Interitemkorrelationen: Je höher diese, desto höher Konsistenz
  • Varianzanalytische Konzeption:
    Unterschiede in Itemantworten gehen zurück auf Unterschiede innerhalb oder zwischen Probanden
22
Q

Vergleich Methoden Reliabilitätsbestimmung

A
  • Aufwand bzw. Zeitpunkt:
    Wiederholungsmethoden aufwendiger
    Konsistenzmethoden ohne weitere Erhebung direkt anschließend an Aufgabenanalyse möglich
  • Praktische Reliabilität vs. Messgenauigkeit:
    Bei Wiederholungsmethoden auch andere Einflüsse
    -> Praktische Reliabilität
    Konsistenzmethoden erfassen nur Messgenauigkeit
    -> Instrumentelle Reliabilität
23
Q

Validität

A
  • Misst der Test, was er messen soll?
  • Zentrales Gütekriterium, ist Objektivität und Reliabilität übergeordnet
  • Drei grundlegende Arten: inhaltliche, kriterienbezogene, Konstruktvalidität
24
Q

Inhaltliche Validität

A
  • Repräsentieren Items auch logisch-inhaltlich zu erfassendes Konstrukt?
  • Repräsentationsschluss erfolgt v.a. für operational definierte Merkmale
  • Für theoretisch definierte Konstrukte: Inwieweit können unters. Antworten mit betreffendem Konstrukt schlüssig erklärt werden?
  • Normalerweise keine numerische Bestimmung der Inhaltsvalidität
25
Kriterienbezogene Validität
- Zentral, wenn Test als Grundlage für praktische Entscheidungen dient - Idee: Konstrukt wird anhand eines Kriteriums erfasst - > Korrelation des Tests mit dem Kriterium (rtc) - Konzept: Geht davon aus, dass betreffendes Konstrukt durch Kriteriumsmessung direkt sichtbar gemacht werden kann - Beispiel: Test: Schuleignung, Kriterium: Schulnote Unterscheidung Art der Kriterien: - Vorhersagevalidität: Prognose Übereinstimmungsvalidität: Zustand nach zB. einem Jahr - Innere kriterienbezogene Validität: Anderes (etabliertes) Testverfahren, was gleiches Konstrukt erfasst - Äußere kriterienbezogene Validität: Externe Maße (Schulnoten, Arbeitsleistung, usw.) -> Test prinzipiell mehrere Validitäten
26
Konstruktvalidität
Konzept: Bezieht sich auf latente, theoretische Konstrukte Idee: - Zu messendes latentes Konstrukt mit anderen Konstrukten in systematischer Verbindung - Diese Verbindung als Hypothese formulierbar - Hypothesen können empirisch geprüft werden Hypothesenprüfung: - Nur Prüfung von Hypothesen, die als korrekt gesehen werden - Stimmen empirische Ergebnisse mit theoretischen Vorhersagen überein: Hinweis auf Validität des Verfahrens - Keine Übereinstimmung: Gegen Validität des Verfahrens Bsp. Hypothese: Korrelation Intelligenz mit Schulerfolg - Hypothese als korrekt gesehen - Korrelation der IQ-Testergebnisse mit Schulerfolg - Wenn Korrelation gegeben: Test erfasst Intelligenz und ist valide Ziel: - Einbettung des mit Test erfassten Konstrukt in nomologisches Netzwerk anderer teils verwandter oder fremder Konstrukte (konvergent bzw. diskriminant) - Je mehr Hypothesen, Erhebungs- und Auswahlstrategien, desto besser Multitrait-Multimethod-Matrix: - Systematische Vorgehensweise, kann zur Konstruktvalidierung genutzt werden - Erfassung mehrerer Konstrukte (Multitrait) mithilfe mehrerer Methoden (Multimethod) - Ergebnis: Muster an Korrelationen (Matrix), das konvergente und diskriminante Validitäten beinhaltet
27
Richtlinien bei Bewertung der Validität eines Tests
- Test soll diagnostisches Urteil verbessern - > Liegen keine Alternativen vor, kann das mit geringen Validitäten schon möglich sein - Lange Vorhersagezeiträume: Geringere Validitäten - Validität sollte besser sein, wenn: Bei bereits vorhandenen Verfahren zum gleichen Merkmalsbereich Je isolierter Test im diagnostischen Bereich steht Je aufwendiger Test ist Je weitreichender Entscheidung für Proband
28
Reliabilitäts-Validitäts-Dilemma
- Häufig wird einseitig Reliabilität optimiert Aber hohe Reliabilität -> Verminderung der Validität - Reliabilitäts-Validitäts-Dilemma: Je homogener ein Test, desto reliabler, aber valide Erfassung setzt voraus, dass Konstrukt in ganzer Breite erfasst wird - Lösungsversuch: Verwendung in sich homogenen Testbatterien/Subskalen, die Konstrukt aber insgesamt breit abdecken Kriterienbezogene Validität beschränkt durch: - Reliabilitätsindex des Tests (Theoretische Korrelation) - Reliabilitätsindex des Kriteriums (Korrelation Kriterium mit wahrem Wert) Unreliables Kriterium = geringe Validität des Tests? -> Ausgleich durch Minderungskorrektur Einfache Mindesrungskorrektur: - Berücksichtigung und Korrektur der Validitätsbeschränkung durch Reliabilität der Kriteriumsmessung - Sinnvoll, da Test keine "Schuld" für Ungenauigkeit der Kriteriumsmesung trifft Doppelte Minderungskorrektur: - Berücksichtigt zusätzlich beschränkte Reliabilität des Testverfahrens selbst - Kritisch, da maximale Testreliabiität vorgetäuscht wird - > Eher von theoretischer Bedeutung und um Potenzial eines Testverfahrens abzuschätzen
29
Normierung des Testverfahrens
- Testergebnis zunächst als Rohwert: Nicht aussagekräftig und sinnvoller Vergleichsmaßstab zur Beurteilung nötig - Zwei Vergleichsmaßstäbe möglich: Normorientierte oder kriteriumsorientierte Interpretation
30
Normorientierte Interpretation
- Abgleich mit Testrohwerten anderer Personen -> Abgleich mit "normalem" Wert - Liegt bereits vor, wenn individueller Testwert zum durchschnittlichen Rohwert einer Vergleichsgruppe in Bezug gesetzt wird - Norm muss geschafft werden, um Rohwerte direkt einzuordnen mit Vergleichsgruppe als Grundlage - Normierung üblich an Eichstichprobe, diese muss: Repräsentativ für Stichprobe Hinreichend groß (abhängig von Differenziertheit der Normen und Heterogenität der Population) - Art von Normen: Äquivalenz-, Abweichungsnormen und Prozentränge
31
Äquivalenznormen
- Betrachtung, in welcher Altersgruppe eine Leistung äquivalent ist - Vorteil: Sehr anschaulich - Nachteile: Setzt voraus, dass Altersunterschiede vorhanden sind Evtl. qualitative Unterschiede zwischen Altersstufen -> heute unüblich, eher andere beiden Arten
32
Prozentrang-/Flächennormen
- Prozentrang PR: Wie viel Prozent der Vergleichspopulation weisen eine geringere oder maximal gleiche Merkmalsausprägung auf? - Bsp.: PR = 40 -> 40% der Population haben geringeren oder gleichen Testwert, 60% höheren - Nichtlineare Flächentransformation -> Flächennorm - Bestimmung über kumulierte Häufigkeitsverteilung - Bei kategorisierten Rohwertklassen bezieht sich PR auf Kategorienmitte - Erstellung der Prozentrangtabelle: Interpretation des Rohwerts mit Prozentrang -> PR i.d.R. über Normwerte bestimmt - Vorteile: Relativ anschaulich Verteilungsunabhängig - Nachteil: PR nicht intervallskaliert -> Unterschied zwischen PR kann nicht ohne weiteres interpretiert werden
33
Abweichungsnormen
- Geben an, wie weit bestimmter Testwert vom Populationsdurchschnitt entfernt ist - Übliche Normskalen: z-Skala, IQ-Abweichungsskala, T-Werte, Stanine-Skala Bestimmung von Abweichungsnormen: - Normierung über Standardnormalverteilung (Werte z-transformieren) - Weitere Transformation in Standardnormskalen (da z-Wert negative Werte besitzt) - Auwahl von Normskala abhängig von: Gewünschtem Differenzierungsfähigkeit Genauigkeit der Messung Größe der Eichstichprobe - Erstellung einer Normtabelle: Für jeden einzelnen Rohwert wird Normwert ermittelt PR wird dann i.d.R. über Normwerte bestimmt - Vorsicht bei nicht normalverteilten Rohwerten: Abweichungsnormen im Rahmen einer Normalisierungstransformation zu bestimmen Andernfalls lediglich PR-Normen verwenden Normalisierungstransformation: - Bei nicht-normalverteilten Rohwerten ist Standardnormierung so nicht durchführbar -> Normalisierung über Flächentransformation - Gründe für Abweichungen: Merkmal nicht normV (Verwendung PR-Normen) Heterogene Analysestichprobe (Erstellung von Subgruppen) Einseitige Itemschwierigkeit (Normalisierung sinnvoll) - Normalisierung über Prozentränge: 1. Berechnung von Prozentrangnormen 2. Überführen der PR- in z-Werte -> Hier Normalisierung 3. Transformation der z-Werte in Standardnormäquivalente (T-, Stanine-Skala)
34
Kriteriumsorientierte Interpretation
- Abgleich mit psychologisch-inhaltlichen Beschreibungen, die Bedeutung der Testrohwerte charakterisieren -> Abgleich mit "Soll"-Wert - Beurteilung des Testwerts nicht am Durchschnitt anderer, sondern vorher festgelegtem Kriterium
35
Norm- vs. kriteriumsorientiert
- Verbreitete psychologische testverfahren meist normorientiert: Fokus auf vergleich einer Personen mit anderen hinsichtlich des Merkmals - Kein grundsätzlicher Gegensatz - Bei Normorientierter Interpretation Trennschärfe wichtiger als bei kriteriumsorientierter