05 Itemanalyse und Item-Response-Theorie Flashcards
Was drückt die Itemschwierigkeit aus?
drückt aus, wie schwer oder leicht eine Aufgabe ist
Was ist mit Lösungs- bzw. Zustimmungsrate gemeint und wie formuliert man sie als Formel?
= Anteil an Personen, die ein Item i richtig lösen
pi = Ri / Ni
Ri = Anteil richtiger Antworten
Ni = Gesamtzahl der Antworten
Bsp: 15 von 20 SuS haben Aufgabe richtig beantwortet:
pi = 15/20 = 0.75
Was bedeuten die Werte 0 und 1 bei der Lösungs- bzw. Zustimmungsrate?
0 = niemand konnte Aufgabe lösen
1 = alle konnten die Aufgabe lösen
–> kleine Werte = schwer
Wie berechnet sich die Itemschwierigkeit bei Aufgaben, in denen mehr als ein Punkt erreicht werden kann?
pi = x bar / xmax
x bar = Mittelwert des Items
x max = maximale Anzahl von Punkten, die erreicht werden kann
Beispiel:
In einer Klausur kann man für eine Aufgabe maximal 3 Punkte erreichen. In einer Klassenarbeit war die durchschnittlich erreichte Punktzahl 2.4.
pi = 2.4/3 = 0.8
Welche Itemschwierigkeit sollte in Tests verwendet werden?
- sehr leichte oder schwere Items sind wenig informativ
–> p = 0.5 optimal - hier werden Fähigkeitsausprägungen besonders differenziert erfasst
- Test sollte breite Streuung von Itemschwierigkeiten umfassen (0.2-0.8)
- Dadurch ist es möglich, im unteren und oberen Fähigkeitsbereich zu differenzieren
Wie sieht eine Item-charakteristische Funktion in Bezug auf die Lösungswahrscheinlichkeit und die Information aus?
Was gibt die Steigung der Kurve bei einer Item-charakteristischen Funktion an?
Gibt an, wie informativ das Item an verschiedenen Stellen des Fähigkeitsspektrums ist.
Je trennschärfer ein Item ist, desto steiler steigt seine item-charakteristische Funktion an
Wie ist die Trennschärfe definiert?
Trennschärfe = Ausmaß, in dem ein Item das Gesamtergebnis des Tests repräsentiert
Wozu ist die Trennschärfe gut?
Sie ermöglicht eine Einschätzung, wie gut ein Item zwischen Personen mit hoher und niedriger Fähigkeitsausprägung “trennt”
Items mit geringer Trennschärfe werden von Personen unabhängig von ihrem Fähigkeitsgrad gelöst
Worüber wird die Trennschärfe üblicherweise bestimmt? Wie kann man das als Formel darstellen?
Über die Item-Gesamt-Korrelation
Das ist die Korrelation der Itembeantwortung mit dem Gesamttestwert:
rit = r(Xi, Xges-i)
Xi = die Antwort von Item i
Xges-i = der Testwert der Person auf allen anderen Items außer Item i
(Zur Erinnerung: Die mittlere Item-Gesamt-Korrelation ist ein Index für die Reliabilität (interne Konsistenz ) eines Tests -> Cronbachs alpha
Was ist der Wertebereich der Trennschärfe?
-1 bis 1
Wie wird die Trennschärfe interpretiert?
- Bei einer hohen positiven Trennschärfe erfasst das Item etwas ähnliches wie der Gesamttest.
-Eine Trennschärfe von Null bedeutet, dass das Lösungsverhalten bei dem Item nichts mit dem Antwortverhalten bei den anderen Aufgaben zu tun hat.
- Eine negative Trennschärfe bedeutet, dass eine Aufgabe von fähigen Personen seltener gelöst.
- Dies kann darauf hinweisen, dass in der Aufgabe ein Fehler ist oder die Aufgabe mehrdeutig gestellt worden ist.
–> Hohe Trennschärfe gut (> .4)
Wie sind die Trennschärfe und die Schwierigkeit miteinander verbunden?
- Je schwieriger oder leichter, desto geringer die Trennschärfe
- Je mehr Personen ein Item lösen (oder nicht lösen), desto geringer wird die Variabilität der Antworten
- Das item kann deswegen nicht mehr stark mit dem Gesamtwert eines Tests kovariieren
Was gibt die Dimensionalität eines Tests an?
Gibt an, ob der Test nur ein Merkmal bzw. Konstrukt erfasst (eindimensionaler Test) oder ob mit den Testitems mehrere Konstrukte bzw. Teilkonstrukte erfasst werden (mehrdimensionaler Test)
Was setzt das Konzept der Trennschärfe und Homogenität voraus?
Dass ein Test nur einen einheitlichen Aspekt abdeckt
Was ist eine Faktorenanalyse und was wird dabei gemacht?
Die Faktorenanalyse ist ein statistisches Verfahren, die auf der Interkorrelationsmatrix aller Items basiert
In einer Faktorenanalyse werden mehrere manifeste Items auf wenige latente, zugrunde liegende Faktoren reduziert
Was wird bei der Item-charakteristischen Funktion gegeneinander aufgetragen?
Die Lösungswahrscheinlichkeit des Items (Schwierigkeit) gegen die Personenfähigkeit
Woran kann man die Trennschärfe in einer Item-charakteristischen Kurve ablesen?
an der Steigung der Funktion
Wie geht man bei der Faktorenanalyse vor?
Gruppen von Items werden identifiziert, die untereinander hoch, aber gering mit anderen Items korrelieren
Worauf können die Gemeinsamkeiten zwischen den Items bei der Faktorenanalyse zurückgeführt werden?
Auf die latenten Faktoren
Was gibt die Faktorladung an und welcher anderen Größe entspricht sie?
- Wie sehr eine Aufgabe zu dem latenten Faktor beiträgt
- entspricht der Trennschärfe des Items und kann zur Gewichtung verwendet werden
- Items mit niedrigen Faktorladungen (< .4) zeigen, dass das ein Item nicht gut zu einem Faktor passt.
Wodurch werden die inhaltsbezogenen Aspekte von Items bei der Faktorenanalyse repräsentiert?
Durch aufgaben-spezifische Fehler
Können verschiedene latente Faktoren miteinander korrelieren?
Ja –> sog. latente Korrelation
Wie prüft man die Dimensionalität eines Tests?
Mit einer explorativen oder konfirmatorischen Faktorenanalyse
- Ein Test ist eindimensional, wenn es nur einen Faktor gibt.
- Bei mehrdimensionalen Tests wird für jeden Faktor eine separate Skala gebildet.
Was ist die Explorative Faktorenanalyse?
o bei der explorativen Faktorenanalyse trifft man keine Vorannahmen darüber, welche Aufgaben zu welchem Faktor gehören.
o man betrachtet die Faktorenstruktur korrelierter Variablen
Was ist die konfirmatorische Faktorenanalyse?
o Hypothesentestend.
o Testet, ob die Daten zu einer theoretisch angenommen Faktorenstruktur passen.
Was beschreibt die Item-Response-Theorie?
Beschreibt die Beziehung zwischen latentem Merkmal und einzelnen Items
Sie spezifiziert, bei welcher Ausprägung des zu messenden Merkmals welche Wahrscheinlichkeit für die Lösung eines Items resultiert.
Was ist die Grundannahme der Item-Response Theorie?
Die Wahrscheinlichkeit, ein bestimmtes Item zu lösen, hängt von einer latenten Merkmalsdimension ab
”Fähigere” Personen lösen ”schwierigere” Items
Von welchen Faktoren ist die Lösungswahrscheinlichkeit nach der Item-Response-Theorie abhängig?
o Personenmerkmalen (Fähigkeit, θ)
o Itemmerkmalen (Schwierigkeit, β)
Wie berechnet sich die Lösungswahrscheinlichkeit nach der Item-Response-Theorie ?
Differenz zwischen Personen- und Itemparameter:
p (X = 1) = θ–β
sog. ”subtraktive Parametrisierung”
Welche Personen werden eine Aufgabe nach der Item-Response Theorie wahrscheinlich (nicht) lösen?
Personen, deren Fähigkeit (θ) größer ist als die Schwierigkeit β, werden die Aufgabe wahrscheinlich lösen:
o θ–β > 0 → p > .5
Personen, deren Fähigkeit (θ) kleiner ist als die Schwierigkeit β, werden die Aufgabe wahrscheinlich nicht lösen:
o θ–β < 0 → p < .5
Welcher Punkt in der Auftragung der Itemcharakteristischen Funktion beschreibt die Itemschwierigkeit?
Der Punkt, an dem die Lösungswahrscheinlichkeit 50% ist
Was kann mit einer Wright-Map beurteilt werden?
die Passung des Tests
(Vergleich Personen- und Itemparameter)
Was sind die Vorteile der Item-Response-Theorie? (4 Stück)
- Spezifische Objektivität: Messung ist unabhängig von Itemauswahl und der untersuchten Stichprobe.
- Kriteriumsorientierte Messung: Am Fähigkeitswert ist direkt abzulesen, welche Aufgaben gelöst werden können.
- Multi-Matrix-Design: Nicht alle Schüler:innen müssen alle Aufgaben bearbeiten, sondern Teil der Aufgaben ausreichend.
- Adaptives Testen: Individuelle Auswahl von Items, die optimale Testung für eine:n Schüler:in ermöglicht.
Was ist PISA und wer organisiert sie und was wird gemessen?
- Internationale Schulleistungstudie
- organisiert von OECD
- Kompetenzen am Ende der Pflichtschulzeit (15 Jahre)
Wann war die erste PISA-Erhebung, was ist der Zyklus und welche “Fächer” werden abgeprüft?
- 2000 erste Erhebung
- Zyklus alle 3 Jahre
- rotierender Schwerpunkt: Lesen, Mathe, Naturwissenschaften
Wie viele Länder haben im ersten Zyklus bei PISA mitgemacht und wie viele waren es 2018?
erster Zyklus: 30 Länder
2018: ca. 90 Länder
Wie ist die PISA-Studie designt?
- Konstrukte sollen möglichst breit erfasst werden, gleichzeitig ist Testzeit pro Schüler:in begrenzt → Multi-Matrix-Design.
- Items sind in sog. Units organisiert, d.h. Itemstamm mit 3-4 Aufgaben, diese werden Clustern zugewiesen.
- Testeinheiten werden auf verschiedene Testversionen verteilt, um Positions- und Carry-over-Effekte zu kontrollieren.
Auf welcher Ebene kann die PISA Studie (keine) Aussagen machen?
Keine Aussagen auf Individual-Ebene möglich, sondern nur auf Aggregatebene
Wie funktioniert die Adaptive Testung der PISA-Studie?
- Am Anfang bearbeiten die Schüler:innen eine von 8 Basis-Units
- Abhängig von ihrer Leistung wurde in einem zweiten Schritt eine Unit mit einfachen/schweren Aufgaben zugewiesen.
- In einem dritten Schritt wurde das Vorgehen wiederholt und leistungsabhängig eine einfache oder schwere Unit bearbeitet.
Wie wird die PISA-Studie ausgewertet?
- Bestimmung von Itemparametern, Bericht auf eindimensionaler Skala
- Auswertung zunächst nur auf Populationsebene (d.h. ein Wert pro Land)
- Zusätzliche Schätzung von individuellen Personen-Parametern für Schüler:innen.
- Hierfür ist ein Hintergrundmodell notwendig, das Eigenschaften der Schüler:innen und des verwendeten Testheftes mit einbezieht.
- Auf dieser Grundlage werden aus der Populationsverteilung Individualwerte (sog. Plausible Values) gezogen.
KLAUSURFRAGE: Welche der folgenden Itemschwierigkeiten ist optimal? 0.2; 1.0; 0.5; 0.8 ?
0.5