VL 4: Testkonstruktion, Itemanalyse Flashcards
Wie kommt man zu einer Auswahl von Items für einen Test nach der Klassischen Testtheorie?
Wie „erzeugt“ man einen großen Itempool, aus dem man dann die besten Items auswählt?
Vier verschiedene Ansätze
- Rational (deduktiv)
- External(kriteriumsbezogen)
- Induktiv (faktorenanalytisch)
- (Prototypisch)
Rationale (deduktive) Konstruktion
Definition
Eine Skalenkonstruktion erfolgt dann rational, wenn die Items aufgrund eines theoretisch fundierten und explizierten (Persönlichkeits-)Konstrukts (deduktiv) abgeleitet werden.
vs
Intuitive Skalenkonstruktion
Wenn Items aufgrund ihrer vermuteten Inhaltsvalidität zu einem theoretisch wenig explizierten Konstrukt zusammengestellt werden.
Vorgehen (psychometrische Konstruktion)
1. Vorliegen einer Theorie (z. B. Cattells Theorie) darüber, wie sich Personen hinsichtlich bestimmter Merkmale beschreiben lassen und voneinander unterscheiden.
2. Nähere Spezifizierung und Definition des interess-
ierenden Konstrukts
• Subkategorien der Intelligenz (fluide und kristalline Intelligenz
schlussfolgerndes Denken, Wortschatz…),
• Verhaltensindikatoren, wodurch sich diese hypothetischen
Konstrukte im Verhalten erkennen lassen (z.B. Lösen bestimmter Aufgaben).
3. Für jeden Bereich/ für jedes Konstrukt werden dann Items in Form von Aufgaben oder Fragen nach möglichen Verhaltensweisen/Indikatoren zu Skalen oder Subtests zusammengestellt, die als Indikatoren in Betracht kommen.
4. Anschließend sollte die Validierung der Skala an einem Kriterium erfolgen.
Externale (kriterienbezogene) Konstruktion
Definition
Eine Skalenkonstruktion erfolgt dann external, wenn Items aufgrund ihrer Diskriminationsfähigkeit zwischen Mitgliedern verschiedener Gruppen (und nicht aufgrund ihrer inhaltlichen Bedeutung) zusammengestellt werden.
Voraussetzung
Vorliegen von mind. zwei Gruppen in der sozialen Realität,
zwischen denen der zu entwickelnde Test diskriminieren soll (z.B. Haupt- vs. Sonderschüler oder psychisch Gestörte vs. Normale).
Wichtig
Diskriminieren, also unterscheiden, ist hier rein im Wortsinne (deskriptiv), nicht normativ im politischen gemeint
Vorgehen
• Den Mitgliedern der Gruppen wird eine möglichst große und inhaltlich breit gefächerte Zahl von Items vorgelegt in der Hoffnung, dass sich darunter einige befinden werden, die zwischen den Gruppen empirisch diskriminieren, also unterschiedliche Lösungswahrscheinlichkeiten zeigen.
• Es werden dann diejenigen (möglicherweise sehr heterogenen) Items selegiert und zu (inhaltlichicht interpretierbaren) Skalen zusammengefaßt, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination in einer Kreuzvalidierung bei anderen Personen standhält.
Induktive (faktorenanalytische) Konstruktion
Definition
Eine Skalenkonstruktion erfolgt dann induktiv, wenn Items (blind-analytisch) mittels einer Faktorenanalyse zu Skalen gruppiert werden, die (empirisch) hoch miteinander (und möglichst gering mit Items anderer Skalen: Einfachstruktur) korrelieren und damit
gemeinsam eine Dimension konstituieren.
Vorgehen
- Ein möglichst umfangreicher und für die Zielkonstrukte repräsentativer Itempool wird einer möglichst umfangreichen und für die Zielgruppe repräsentativen Personen zur Beantwortung vorgelegt.
- Mittels einer Faktorenanalyse werden die Items zu Gruppen hoch interkorrelierender Skalen zusammengefaßt (Ziel ist eine Einfachstruktur).
- Die einzelnen Faktoren oder Skalen werden interpretiert, indem man nach einer Gemeinsamkeit aller Items einer Skala gesucht wird.
Prototypische Konstruktion
Definition
Eine Skalenkonstruktion erfolgt prototypisch, wenn überwiegend solche Items zu Skalen zusammengefaßt werden, die für eine Dimension (z.B. intelligent, dominant,
aggressiv) besonders (proto-) typisch oder zentral sind.
Vorgehen
1. Auswählen der Eigenschaft, für die eine Skala konstruiert werden soll (z.B. Aggressivität).
2. Versuchspersonen sollen an ihnen bekannte Personen aus ihrem denken, bei denen diese Eigenschaft besonders stark ausgeprägt ist (prototypische Person).
3. Versuchspersonen sollen dann konkrete Verhaltensweisen dieser Personen nennen, die indikativ für die Eigenschaft (hier: Aggressivität) sein sollen.
4. Dann werden die so erhaltenen Items anderen Versuchspersonen vorgelegt, die sie nach ihrer Prototypizität hinsichtlich des Merkmals einschätzen sollen.
5. Diese Beurteiler sollen feststellen, wie prototypisch/ charakteristisch die für Aggressivität gesammelten Verhaltensweisen/Acts Ihrer Meinung nach
sind
Prototypische Konstruktion
Vorteile, Nachteile
Vorteile
• Mit prototypischen Items lassen sich kürzere Skalen konstruieren.
• Nach Prototypizitätseinschätzungen konstruierte Skalen zeigen
höhere Validitäten bei Fremdeinschätzungen als Kriterium.
Nachteile
Items sind extrem durchschaubar (da sie ja gerade allgemein als prototypisch/charakteristisch für z. B. Aggressivität sind und als solche von fast jedermann erkannt werden) und damit verfälschungsgefährdet (ungünstig für z.B. Personalauswahl)
Vergleich der Konstruktionsstrategien
Kombination verschiedener Ansätze hinsichtlich verschiedenster Aspekte möglich:
- Items rational und prototypisch konstruiert,
- mittels der Ergebnisse einer Faktorenanalyse bereinigt/überprüft werden und dann an
- Extremgruppen überprüft werden.
Interne Konsistenz und Reliabilität (Vergleich der Strategien)
Rational und induktiv entwickelte Skalen sind inhaltlich homogener (Items korrelieren höher miteinander) als external konstruierte Skalen, dadurch weisen sie auch eine höhere interne Konsistenz und (in der Regel) eine höhere Reliabilität bei gleicher Testlänge auf.
Stichproben-Anfälligkeit (Vergleich der Strategien)
Insbesondere induktiv konstruierte Tests sind in ihrer Validität in hohem Maße davon abhängig, inwieweit Untersuchungs- und Anwendungsstichproben ähnlich zusammengesetzt sind.
Verfälschbarkeit durch Testbeantworter (Vergleich Strategien)
- Insbesondere bei external konstruierten Skalen gering, da die Messintention oft nicht evident ist.
- Hohe Anfälligkeit für Verfälschungsversuche bei nach dem Prototypenansatz konstruierten Tests.
Validität (Vergleich)
Keine konsistente Überlegenheit einer Konstruktionsstrategien.
Ökonomie (Vergleich)
Rationale Skalen sind besonders ökonomisch zu entwickeln und ihre Testergebnisse sind aufgrund der Verwendung von alltagsnahen Dimensionen leicht kommunizierbar.
Itemanalyse
Psychometrische Itemeigenschaften werden als Kennwert bestimmt + anhand bestimmter Standards beurteilt
Item = kleines Element eines Tests
-> davon hängt Qualität ab
Items sind die kleinsten Elemente eines Tests, von denen seine Qualität abhängt.
Bei einer Itemanalyse werden die psychometrischen Itemeigenschaften als Kennwerte bestimmt und anhand bestimmter Qualitätsstandards beurteilt.
Itemanalyse umfasst meist:
1. Analyse der Rohwertverteilung (sollte normalverteilt sein), und Berechnung von 2. Itemschwierigkeit, 3. Trennschärfe, 4. Homogenität, sowie einer 5. Dimensionalitätsüberprüfung
Itemanalyse Ziel
Ziel:
Die Items auszuwählen, welche die besten psychometrischen Eigenschaften aufweisen.
Die folgenden Itemkennwerte sind sowohl psychometrische Charakteristika von Items als auch Gütekriterien zur Auswahl von für einen Test besonders geeigneten Items.
Itemschwierigkeit
Definition
Die Schwierigkeit eines (einzelnen) Items (in einer gegebenen Stichprobe!) gibt an, wie groß der relative (prozentuale) Anteil von Probanden ist, die ein Item im
Sinne höherer Merkmalsausprägungen beantworten.
Merke!
Je mehr Versuchspersonen einer Sichprobe das Item in Merkmalsrichtung beantworten, desto geringer die Schwierigkeit.
Wird eine Aufgabe von vielen Personen gelöst, gilt sie als leicht. Viele Personen haben dann eine hohe Punktzahl in der Aufgabe erzielt, der Mittelwert der Punkte in der Aufgabe über alle Personen ist hoch. Dieser Mittelwert wird auch Schwierigkeit genannt.
Aufgaben haben bei hohem Mittelwert eine geringe Schwierigkeit, bei geringem Mittelwert eine hohe Schwierigkeit.
Itemschwierigkeit und Differenzierungsfähigkeit
Mittlere Schwierigkeitskoeffizienten (um .50):
•Bedeutet größtmögliche Streuung der Itembeantwortungen über die Versuchspersonen und damit auch größtmögliche Differenzierung über die Gesamtstichprobe hinweg.
• Große Merkmalsstreuungen begünstigen (im Sinne einer notwendigen Bedingung) hohe Korrelationen, was wiederum eine günstige Voraussetzung für Trennschärfe des Items und Homogenität der Skala ist.
Extreme Schwierigkeitskoeffizienten (.05-.10, .90-.95):
• Hätte man nur Items mit mittlerer Schwierigkeit, so würde der Test nur
zwischen Lösern und Nichtlösern differenzieren .
• Um auch zwischen Versuchspersonen mit extremeren Merkmalsausprägungen differenzieren zu können, sind zusätzliche Items mit extremeren Schwierigkeitskoeffizienten notwendig. Das führt allerdings zu einer Veringerung von Trennschärfe und Homogenität.
Trennschärfe
Definition
Die Trennschärfe (item-total-correlation) eines Items gibt an, wie gut das gesamte Testergebnis aufgrund dieses einzelnen Items vorhersagbar ist.
Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Personen in Löser und Nicht- Löser durch das Item mit demjenigen durch die Skala als Ganzes übereinstimmt.
Merke!
Um so höher die Trennschärfe, desto besser misst das Item das, was auch die Skala misst.
Trennschärfe & Schwierigkeit
Trennschärfe und Itemschwierigkeit
Theoretisch
Unabhängig von seiner Schwierigkeit (außer 0 und 100) könnte jedes Item eine Trennschärfe von 1.0 erreichen
Empirisch
zeigt sich jedoch eine umgekehrt U-förmige Beziehung zwischen Schwierigkeit und Trennschärfe, wobei mit mittlerer Schwierigkeit die höchste Trennschärfe einhergeht
Die Variation von Itemschwierigkeiten führt zu..
führt zu einer Abnahme der Interkorrelationen zwischen den Items, damit zu einer Abnahme der Homogenität und zu einer Abnahme der Trennschärfe.