3. Testevaluation Flashcards
Erinnerung: Normalverteilung
Gaußsche Glockenkurve
Symmetrische Verteilung
Mehrheit der Werte liegt um den Mittelpunkt der Skala
Voraussetzung für viele statistische Verfahren
Schiefe
Maß für die Symmetrie/Asymmetrie eines Items
Schiefe > 0: linkssteile Verteilung (rechtsschief)
Schiefe < 0: rechtssteile Verteilung (linksschief)
Schiefe = 0: symmetrische Verteilung (Normalverteilung)
Bodeneffekt:
Mittelwert sehr niedrig, kaum jemand „löst“ das Item, differenziert schlecht im unteren Bereich
Deckeneffekt:
Mittelwert sehr hoch, fast alle „lösen“ das Item, differenziert schlecht im oberen Bereich
Kurtosis (Exzess)
Gibt Auskunft über Breit- bzw. Schmalgipfligkeit
Wert > 0 spricht für eine schmalgipflige (spitze) Verteilung Wert < 0 spricht für eine breitgipflige (flache) Verteilung Wert = 0 keine Abweichung von Normalverteilung
Gipfligkeit (Modalität)
Ein- vs. mehrgipflige Verteilung
Normal eingipflig erwünscht (siehe Normalverteilung) Wenn zweigipflig: Item ggf. mehrdeutig formuliert?
Ursachen für Abweichungen von einer Normalverteilung
Antwortverteilung ist Zweigipflig/ Mehrgipflig:
Mögliche Ursachen: Item war polarisierend, widersprüchlich/ mehrdeutig formuliert, hat mehrere Dinge gleichzeitig abgefragt
Antwortverteilung ist schief:
Mögliche Ursache: Item war zu leicht (linksschief) oder zu schwer (rechtsschief)
Weitere Möglichkeiten für Abweichungen von Normalverteilungen:
Heterogene Stichproben (zwei Unterstichproben, die zusammen eine Mischverteilung bilden) Das Merkmal ist nicht normalverteilt
Deskriptive Daten
Mittelwerte und Streuungen
Mittelwert = zentrale Tendenz einer Verteilung. Alle Werte addiert und durch die Anzahl der Werte geteilt.
Streuung = Verteilung aller Werte um den Mittelwert. Häufig berechnet als Standardabweichung (SD).
Geringe SD = Die Werte liegen in der Regel sehr nah am Mittelwert.
Hohe SD = Die Werte liegen in der Regel weit vom Mittelwert entfernt.
Deskriptive Daten und Verteilungen
Hohe Standardabweichung spricht für große Streuung der Werte abseits des Mittelwerts (z.B. bimodale Verteilung)
Standardabweichung nahe 0 spricht für wenig (bis keine) Streuung abseits des Mittelwerts (z.B. spitze Verteilung)
Sehr hoher bzw. sehr niedriger Mittelwert spricht für Decken- bzw. Bodeneffekt (z.B. schiefe Verteilung)
Itemschwierigkeit
Der Schwierigkeitsindex (auch Popularitätsindex) 𝑃𝑃𝑖𝑖 stellt den prozentualen Anteil richtiger (bzw. zustimmender) Antworten für das Item 𝑖𝑖 in einer Stichprobe der Größe 𝑛𝑛 dar
Der Index ist hoch ( max. 100), wenn die Aufgabe leicht ist (bzw. im Sinne eines Merkmals bekräftigt wird), und niedrig ( min. 0), wenn die Aufgabe schwierig ist (bzw. das Item abgelehnt wird).
„Leichtigkeitsindex“
b) Itemschwierigkeit bei dichotomen Aufgaben
Bei dichotomen Aufgaben (z.B. richtig/ falsch):
Itemschwierigkeit = Anzahl aller, die das Item richtig beantwortet haben geteilt durch Anzahl aller Teilnehmerinnen, dann multipliziert mit 100
Hoher Schwierigkeitsindex = niedrige Schwierigkeit (leichtes Item) Niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres Item)
Beispiel: zwei Aufgaben in einer Klausur, 50 Teilnehmerinnen
Aufgabe 1: 20 Teilnehmerinnen beantworten das Item richtig: Pi = 20/50 * 100 = 0.4100 = 40
Aufgabe 2: 45 Teilnehmerinnen beantworten das Item richtig: Pi = 45/50 * 100 = 0.9100 = 90
Aufgabe 1 ist schwieriger als Aufgabe 2
Pi = nR / n * 100
b) Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben)
Power Tests
Bei Power-Tests („Niveautests“) werden Falschantworten und ausgelassene (übersprungene) gleich behandelt:
Power-Tests = Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck
b) Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben)
Speed Tests
Bei Speed-Tests werden unbearbeitete Antworten (nicht geschafft aufgrund der Zeitbegrenzung) korrigiert berücksichtigt:
Speed-Tests = Leistungstests mit Zeitbeschränkung
…bei der Berechnung des Schwierigkeitsindex werden unbearbeitete Items ausgelassen:
nB = richtige + falsche + ausgelassene
Items (= bearbeitete Items)
Pi = nR / nB * 100
b) Itemschwierigkeit bei dichotomen Aufgaben
Korrektur für Ratewahrscheinlichkeit:
Items können durch Raten gelöst werden
Kann ein Testergebnis verfälschen
Prinzipiell müsste man also noch für die Ratewahrscheinlichkeit korrigieren,
dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)
b) Itemschwierigkeit bei der Messung typischen Verhaltens
Bei metrischen Daten wird der Schwierigkeitsindex 𝑃𝑃 für intervallskalierte Stufen 𝑘𝑘 des Items 𝑖𝑖 von 0 bis 𝑘𝑘 − 1 berechnet durch Teilung der Spaltensumme durch die maximale Punktsumme