VL 4: Testkonstruktion, Itemanalyse Flashcards

1
Q

Wie kommt man zu einer Auswahl von Items für einen Test nach der Klassischen Testtheorie?

A

Wie „erzeugt“ man einen großen Itempool, aus dem man dann die besten Items auswählt?

Vier verschiedene Ansätze

  1. Rational (deduktiv)
  2. External(kriteriumsbezogen)
  3. Induktiv (faktorenanalytisch)
  4. (Prototypisch)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Rationale (deduktive) Konstruktion

A

Definition
Eine Skalenkonstruktion erfolgt dann rational, wenn die Items aufgrund eines theoretisch fundierten und explizierten (Persönlichkeits-)Konstrukts (deduktiv) abgeleitet werden.

vs

Intuitive Skalenkonstruktion
Wenn Items aufgrund ihrer vermuteten Inhaltsvalidität zu einem theoretisch wenig explizierten Konstrukt zusammengestellt werden.

Vorgehen (psychometrische Konstruktion)
1. Vorliegen einer Theorie (z. B. Cattells Theorie) darüber, wie sich Personen hinsichtlich bestimmter Merkmale beschreiben lassen und voneinander unterscheiden.
2. Nähere Spezifizierung und Definition des interess-
ierenden Konstrukts
• Subkategorien der Intelligenz (fluide und kristalline Intelligenz
schlussfolgerndes Denken, Wortschatz…),
• Verhaltensindikatoren, wodurch sich diese hypothetischen
Konstrukte im Verhalten erkennen lassen (z.B. Lösen bestimmter Aufgaben).
3. Für jeden Bereich/ für jedes Konstrukt werden dann Items in Form von Aufgaben oder Fragen nach möglichen Verhaltensweisen/Indikatoren zu Skalen oder Subtests zusammengestellt, die als Indikatoren in Betracht kommen.
4. Anschließend sollte die Validierung der Skala an einem Kriterium erfolgen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Externale (kriterienbezogene) Konstruktion

A

Definition
Eine Skalenkonstruktion erfolgt dann external, wenn Items aufgrund ihrer Diskriminationsfähigkeit zwischen Mitgliedern verschiedener Gruppen (und nicht aufgrund ihrer inhaltlichen Bedeutung) zusammengestellt werden.

Voraussetzung
Vorliegen von mind. zwei Gruppen in der sozialen Realität,
zwischen denen der zu entwickelnde Test diskriminieren soll (z.B. Haupt- vs. Sonderschüler oder psychisch Gestörte vs. Normale).

Wichtig
Diskriminieren, also unterscheiden, ist hier rein im Wortsinne (deskriptiv), nicht normativ im politischen gemeint

Vorgehen
• Den Mitgliedern der Gruppen wird eine möglichst große und inhaltlich breit gefächerte Zahl von Items vorgelegt in der Hoffnung, dass sich darunter einige befinden werden, die zwischen den Gruppen empirisch diskriminieren, also unterschiedliche Lösungswahrscheinlichkeiten zeigen.
• Es werden dann diejenigen (möglicherweise sehr heterogenen) Items selegiert und zu (inhaltlichicht interpretierbaren) Skalen zusammengefaßt, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination in einer Kreuzvalidierung bei anderen Personen standhält.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Induktive (faktorenanalytische) Konstruktion

A

Definition
Eine Skalenkonstruktion erfolgt dann induktiv, wenn Items (blind-analytisch) mittels einer Faktorenanalyse zu Skalen gruppiert werden, die (empirisch) hoch miteinander (und möglichst gering mit Items anderer Skalen: Einfachstruktur) korrelieren und damit
gemeinsam eine Dimension konstituieren.

Vorgehen

  1. Ein möglichst umfangreicher und für die Zielkonstrukte repräsentativer Itempool wird einer möglichst umfangreichen und für die Zielgruppe repräsentativen Personen zur Beantwortung vorgelegt.
  2. Mittels einer Faktorenanalyse werden die Items zu Gruppen hoch interkorrelierender Skalen zusammengefaßt (Ziel ist eine Einfachstruktur).
  3. Die einzelnen Faktoren oder Skalen werden interpretiert, indem man nach einer Gemeinsamkeit aller Items einer Skala gesucht wird.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Prototypische Konstruktion

A

Definition
Eine Skalenkonstruktion erfolgt prototypisch, wenn überwiegend solche Items zu Skalen zusammengefaßt werden, die für eine Dimension (z.B. intelligent, dominant,
aggressiv) besonders (proto-) typisch oder zentral sind.

Vorgehen
1. Auswählen der Eigenschaft, für die eine Skala konstruiert werden soll (z.B. Aggressivität).
2. Versuchspersonen sollen an ihnen bekannte Personen aus ihrem denken, bei denen diese Eigenschaft besonders stark ausgeprägt ist (prototypische Person).
3. Versuchspersonen sollen dann konkrete Verhaltensweisen dieser Personen nennen, die indikativ für die Eigenschaft (hier: Aggressivität) sein sollen.
4. Dann werden die so erhaltenen Items anderen Versuchspersonen vorgelegt, die sie nach ihrer Prototypizität hinsichtlich des Merkmals einschätzen sollen.
5. Diese Beurteiler sollen feststellen, wie prototypisch/ charakteristisch die für Aggressivität gesammelten Verhaltensweisen/Acts Ihrer Meinung nach
sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Prototypische Konstruktion

Vorteile, Nachteile

A

Vorteile
• Mit prototypischen Items lassen sich kürzere Skalen konstruieren.
• Nach Prototypizitätseinschätzungen konstruierte Skalen zeigen
höhere Validitäten bei Fremdeinschätzungen als Kriterium.

Nachteile
Items sind extrem durchschaubar (da sie ja gerade allgemein als prototypisch/charakteristisch für z. B. Aggressivität sind und als solche von fast jedermann erkannt werden) und damit verfälschungsgefährdet (ungünstig für z.B. Personalauswahl)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vergleich der Konstruktionsstrategien

A

Kombination verschiedener Ansätze hinsichtlich verschiedenster Aspekte möglich:

  1. Items rational und prototypisch konstruiert,
  2. mittels der Ergebnisse einer Faktorenanalyse bereinigt/überprüft werden und dann an
  3. Extremgruppen überprüft werden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Interne Konsistenz und Reliabilität (Vergleich der Strategien)

A

Rational und induktiv entwickelte Skalen sind inhaltlich homogener (Items korrelieren höher miteinander) als external konstruierte Skalen, dadurch weisen sie auch eine höhere interne Konsistenz und (in der Regel) eine höhere Reliabilität bei gleicher Testlänge auf.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Stichproben-Anfälligkeit (Vergleich der Strategien)

A

Insbesondere induktiv konstruierte Tests sind in ihrer Validität in hohem Maße davon abhängig, inwieweit Untersuchungs- und Anwendungsstichproben ähnlich zusammengesetzt sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Verfälschbarkeit durch Testbeantworter (Vergleich Strategien)

A
  • Insbesondere bei external konstruierten Skalen gering, da die Messintention oft nicht evident ist.
  • Hohe Anfälligkeit für Verfälschungsversuche bei nach dem Prototypenansatz konstruierten Tests.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Validität (Vergleich)

A

Keine konsistente Überlegenheit einer Konstruktionsstrategien.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Ökonomie (Vergleich)

A

Rationale Skalen sind besonders ökonomisch zu entwickeln und ihre Testergebnisse sind aufgrund der Verwendung von alltagsnahen Dimensionen leicht kommunizierbar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Itemanalyse

A

Psychometrische Itemeigenschaften werden als Kennwert bestimmt + anhand bestimmter Standards beurteilt
Item = kleines Element eines Tests
-> davon hängt Qualität ab

Items sind die kleinsten Elemente eines Tests, von denen seine Qualität abhängt.
Bei einer Itemanalyse werden die psychometrischen Itemeigenschaften als Kennwerte bestimmt und anhand bestimmter Qualitätsstandards beurteilt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Itemanalyse umfasst meist:

A
1. Analyse der Rohwertverteilung (sollte normalverteilt sein),
und Berechnung von
2. Itemschwierigkeit,
3. Trennschärfe,
4. Homogenität, sowie einer
5. Dimensionalitätsüberprüfung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Itemanalyse Ziel

A

Ziel:
Die Items auszuwählen, welche die besten psychometrischen Eigenschaften aufweisen.

Die folgenden Itemkennwerte sind sowohl psychometrische Charakteristika von Items als auch Gütekriterien zur Auswahl von für einen Test besonders geeigneten Items.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Itemschwierigkeit

A

Definition
Die Schwierigkeit eines (einzelnen) Items (in einer gegebenen Stichprobe!) gibt an, wie groß der relative (prozentuale) Anteil von Probanden ist, die ein Item im
Sinne höherer Merkmalsausprägungen beantworten.

Merke!
Je mehr Versuchspersonen einer Sichprobe das Item in Merkmalsrichtung beantworten, desto geringer die Schwierigkeit.

Wird eine Aufgabe von vielen Personen gelöst, gilt sie als leicht. Viele Personen haben dann eine hohe Punktzahl in der Aufgabe erzielt, der Mittelwert der Punkte in der Aufgabe über alle Personen ist hoch. Dieser Mittelwert wird auch Schwierigkeit genannt.
Aufgaben haben bei hohem Mittelwert eine geringe Schwierigkeit, bei geringem Mittelwert eine hohe Schwierigkeit.

17
Q

Itemschwierigkeit und Differenzierungsfähigkeit

A

Mittlere Schwierigkeitskoeffizienten (um .50):
•Bedeutet größtmögliche Streuung der Itembeantwortungen über die Versuchspersonen und damit auch größtmögliche Differenzierung über die Gesamtstichprobe hinweg.
• Große Merkmalsstreuungen begünstigen (im Sinne einer notwendigen Bedingung) hohe Korrelationen, was wiederum eine günstige Voraussetzung für Trennschärfe des Items und Homogenität der Skala ist.

Extreme Schwierigkeitskoeffizienten (.05-.10, .90-.95):
• Hätte man nur Items mit mittlerer Schwierigkeit, so würde der Test nur
zwischen Lösern und Nichtlösern differenzieren .
• Um auch zwischen Versuchspersonen mit extremeren Merkmalsausprägungen differenzieren zu können, sind zusätzliche Items mit extremeren Schwierigkeitskoeffizienten notwendig. Das führt allerdings zu einer Veringerung von Trennschärfe und Homogenität.

18
Q

Trennschärfe

A

Definition
Die Trennschärfe (item-total-correlation) eines Items gibt an, wie gut das gesamte Testergebnis aufgrund dieses einzelnen Items vorhersagbar ist.
Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Personen in Löser und Nicht- Löser durch das Item mit demjenigen durch die Skala als Ganzes übereinstimmt.
Merke!
Um so höher die Trennschärfe, desto besser misst das Item das, was auch die Skala misst.

19
Q

Trennschärfe & Schwierigkeit

A

Trennschärfe und Itemschwierigkeit

Theoretisch
Unabhängig von seiner Schwierigkeit (außer 0 und 100) könnte jedes Item eine Trennschärfe von 1.0 erreichen

Empirisch
zeigt sich jedoch eine umgekehrt U-förmige Beziehung zwischen Schwierigkeit und Trennschärfe, wobei mit mittlerer Schwierigkeit die höchste Trennschärfe einhergeht

20
Q

Die Variation von Itemschwierigkeiten führt zu..

A

führt zu einer Abnahme der Interkorrelationen zwischen den Items, damit zu einer Abnahme der Homogenität und zu einer Abnahme der Trennschärfe.