3. Testevaluation Flashcards
Erinnerung: Normalverteilung
Gaußsche Glockenkurve
Symmetrische Verteilung
Mehrheit der Werte liegt um den Mittelpunkt der Skala
Voraussetzung für viele statistische Verfahren
Schiefe
Maß für die Symmetrie/Asymmetrie eines Items
Schiefe > 0: linkssteile Verteilung (rechtsschief)
Schiefe < 0: rechtssteile Verteilung (linksschief)
Schiefe = 0: symmetrische Verteilung (Normalverteilung)
Bodeneffekt:
Mittelwert sehr niedrig, kaum jemand „löst“ das Item, differenziert schlecht im unteren Bereich
Deckeneffekt:
Mittelwert sehr hoch, fast alle „lösen“ das Item, differenziert schlecht im oberen Bereich
Kurtosis (Exzess)
Gibt Auskunft über Breit- bzw. Schmalgipfligkeit
Wert > 0 spricht für eine schmalgipflige (spitze) Verteilung Wert < 0 spricht für eine breitgipflige (flache) Verteilung Wert = 0 keine Abweichung von Normalverteilung
Gipfligkeit (Modalität)
Ein- vs. mehrgipflige Verteilung
Normal eingipflig erwünscht (siehe Normalverteilung) Wenn zweigipflig: Item ggf. mehrdeutig formuliert?
Ursachen für Abweichungen von einer Normalverteilung
Antwortverteilung ist Zweigipflig/ Mehrgipflig:
Mögliche Ursachen: Item war polarisierend, widersprüchlich/ mehrdeutig formuliert, hat mehrere Dinge gleichzeitig abgefragt
Antwortverteilung ist schief:
Mögliche Ursache: Item war zu leicht (linksschief) oder zu schwer (rechtsschief)
Weitere Möglichkeiten für Abweichungen von Normalverteilungen:
Heterogene Stichproben (zwei Unterstichproben, die zusammen eine Mischverteilung bilden) Das Merkmal ist nicht normalverteilt
Deskriptive Daten
Mittelwerte und Streuungen
Mittelwert = zentrale Tendenz einer Verteilung. Alle Werte addiert und durch die Anzahl der Werte geteilt.
Streuung = Verteilung aller Werte um den Mittelwert. Häufig berechnet als Standardabweichung (SD).
Geringe SD = Die Werte liegen in der Regel sehr nah am Mittelwert.
Hohe SD = Die Werte liegen in der Regel weit vom Mittelwert entfernt.
Deskriptive Daten und Verteilungen
Hohe Standardabweichung spricht für große Streuung der Werte abseits des Mittelwerts (z.B. bimodale Verteilung)
Standardabweichung nahe 0 spricht für wenig (bis keine) Streuung abseits des Mittelwerts (z.B. spitze Verteilung)
Sehr hoher bzw. sehr niedriger Mittelwert spricht für Decken- bzw. Bodeneffekt (z.B. schiefe Verteilung)
Itemschwierigkeit
Der Schwierigkeitsindex (auch Popularitätsindex) 𝑃𝑃𝑖𝑖 stellt den prozentualen Anteil richtiger (bzw. zustimmender) Antworten für das Item 𝑖𝑖 in einer Stichprobe der Größe 𝑛𝑛 dar
Der Index ist hoch ( max. 100), wenn die Aufgabe leicht ist (bzw. im Sinne eines Merkmals bekräftigt wird), und niedrig ( min. 0), wenn die Aufgabe schwierig ist (bzw. das Item abgelehnt wird).
„Leichtigkeitsindex“
b) Itemschwierigkeit bei dichotomen Aufgaben
Bei dichotomen Aufgaben (z.B. richtig/ falsch):
Itemschwierigkeit = Anzahl aller, die das Item richtig beantwortet haben geteilt durch Anzahl aller Teilnehmerinnen, dann multipliziert mit 100
Hoher Schwierigkeitsindex = niedrige Schwierigkeit (leichtes Item) Niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres Item)
Beispiel: zwei Aufgaben in einer Klausur, 50 Teilnehmerinnen
Aufgabe 1: 20 Teilnehmerinnen beantworten das Item richtig: Pi = 20/50 * 100 = 0.4100 = 40
Aufgabe 2: 45 Teilnehmerinnen beantworten das Item richtig: Pi = 45/50 * 100 = 0.9100 = 90
Aufgabe 1 ist schwieriger als Aufgabe 2
Pi = nR / n * 100
b) Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben)
Power Tests
Bei Power-Tests („Niveautests“) werden Falschantworten und ausgelassene (übersprungene) gleich behandelt:
Power-Tests = Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck
b) Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben)
Speed Tests
Bei Speed-Tests werden unbearbeitete Antworten (nicht geschafft aufgrund der Zeitbegrenzung) korrigiert berücksichtigt:
Speed-Tests = Leistungstests mit Zeitbeschränkung
…bei der Berechnung des Schwierigkeitsindex werden unbearbeitete Items ausgelassen:
nB = richtige + falsche + ausgelassene
Items (= bearbeitete Items)
Pi = nR / nB * 100
b) Itemschwierigkeit bei dichotomen Aufgaben
Korrektur für Ratewahrscheinlichkeit:
Items können durch Raten gelöst werden
Kann ein Testergebnis verfälschen
Prinzipiell müsste man also noch für die Ratewahrscheinlichkeit korrigieren,
dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)
b) Itemschwierigkeit bei der Messung typischen Verhaltens
Bei metrischen Daten wird der Schwierigkeitsindex 𝑃𝑃 für intervallskalierte Stufen 𝑘𝑘 des Items 𝑖𝑖 von 0 bis 𝑘𝑘 − 1 berechnet durch Teilung der Spaltensumme durch die maximale Punktsumme
b) Itemschwierigkeit bei der Messung typischen Verhaltens
Merke:
Welche Formel zur Berechnung der Itemschwierigkeit für typisches Verhalten verwendet werden muss hängt von der Antwortskala ab
a) Dichotom oder „intervallskaliert“?
b) Niedrigster Wert 0 oder anderer Wert?
Die Itemschwierigkeit ist immer abhängig von der untersuchten Stichprobe
Höchste Differenzierung bei 𝑃𝑃𝑖𝑖 = 50
Für eine Differenzierung auch in den Extremen ist eine breite Streuung von Items
unterschiedlicher Schwierigkeiten anzustreben
c) Itemvarianz
= Wie stark unterscheiden sich die Antworten auf ein Item zwischen verschiedenen Personen?
Itemvarianz 𝑉ar(𝑥𝑖) bei dichotomen Items ist das Produkt der Wahrscheinlichkeiten, das Item zu lösen (bejahen) und es nicht zu lösen (verneinen), und hängt direkt mit dem Schwierigkeitsindex (pi) zusammen:
c) Itemvarianz und Itemschwierigkeit
Items mit mittlerer Schwierigkeit differenzieren viele Probandinnen, Items mit hoher oder niedriger Schwierigkeit wenige Probandinnen
Zusammenhang zwischen Itemschwierigkeit und Varianz ist kurvilinear (quadratisch)
Items mit mittlerer Schwierigkeit liefern die höchste
𝑉ar𝑥i =0.25bei 𝑃i =50
c) Itemvarianz bei intervallskalierten Items
Die Itemvarianz legt die Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest.
d) Itemtrennschärfe 𝒓it
…ist die Korrelation zwischen Itemwert mit einem Testwert, der aus den (übrigen) Items
des Tests gebildet wird (Item-Test-Korrelation) = rit
Prinzipiell: Wie prototypisch ist ein Item für eine Skala/ wie gut repräsentiert es die Gesamtskala?
Voraussetzung: Alle Items messen inhaltlich dasselbe Merkmal (Itemhomogenität)
Der Testwert eines Probanden wird üblicherweise als Zeilensumme sämtlicher Itemwerte des Probanden gebildet
Zusätzlich „part-whole Korrektur“ um die Trennschärfe nicht zu überschätzen
= Zeilensumme ohne das betreffende Item, weil das betreffende Item innerhalb des Skalenwerts
sonst mit in die Korrelation eingeht (Trennschärfe wird überschätzt)
d) Interpretation der Trennschärfe
Kann Werte zwischen -1 und 1 annehmen (= Korrelationskoeffizient)
𝒓𝒓𝒊𝒊𝒊𝒊 → 𝟎: Item differenziert gegenüber dem Gesamttest nicht gut und ist damit ein ungeeigneter Indikator des Gesamttestwerts
𝒓𝒓 → 𝟏: Item ist homogen gegenüber dem Gesamttest (aber: hohe Werte nicht immer gut ist Item redundant?)
Zusammenhang Item ggf. falsch kodiert/ negativ formuliert?)
𝒓𝒓𝒊𝒊𝒊𝒊 → −𝟏: Item ist invers homogen gegenüber dem Gesamttest ( bei negativem Zusammenhang Item ggf. falsch kodiert/ negativ formuliert?)
𝒓𝒓𝒊𝒊𝒊𝒊 > 𝟎. 𝟒: angemessene bis ausgezeichnete Trennschärfe je nach Homogenität bzw. Heterogenität des Konstruktes
𝒓𝒓 zwischen 0.2 und 0.4: GrenzbereichItem sollte entweder ausgeschlossen oder revidiert werden
𝒓𝒓𝒊𝒊𝒊𝒊 < 𝟎𝟎. 𝟐𝟐: Item sollte ausgeschlossen werden
e) Kriterien der Itemselektion
Bei der Itemselektion müssen Verteilung, Schwierigkeit, Varianz und Trennschärfe gleichermaßen berücksichtigt werden!
Idealerweise differenziert ein Test über den gesamten Schwierigkeitsbereich (5 ≤ 𝑃𝑃𝑖𝑖 ≤ 95):
‒ Items mit mittlerer Schwierigkeit differenzieren gut zwischen Merkmalsträger*innen mit hoher
und niedriger Merkmalsausprägung (große Itemvarianz) am besten.
‒ Zur Erfassung extremer (z. B. sehr hoher und extrem hoher) Merkmalsausprägungen sind
Items mit hoher oder niedriger Schwierigkeit (geringe Itemvarianz) auszuwählen. ‒ Jedes Item sollte aber Varianz aufweisen (differenzierungsfähig sein).
Grundsätzlich sollten Items dabei immer über eine gute Trennschärfe verfügen: 𝒓𝒓𝒊𝒊𝒊𝒊 zwischen 0.4 und 0.7
Items ohne Trennschärfe (𝒓𝒓
𝒊𝒊𝒊𝒊 → 0) sollten ausgeschlossen werden