Testevaluation Flashcards
Testevaluation - Einordnung in die Schritte der Testkonstruktion
Schritt 3 (Verteilungs-, Items- & Skalenanalyse) und Schritt 4 (Itemrevision & -selektion)
Testevaluation: Verteilung - Normalverteilung
1.Gausche Glockenkurve, Symmetrische Verteilung
2. Mehrheit der Werte liegt um den Mittelpunkt der Skala
3. Vorraussetzung für viele statistische Verfahren
s F. 11
Testevaluation: Verteilung - Schiefe: Definition
Maß für die Symmetrie/ Asymmetrie eines Items
Testevaluation: Verteilung - Kurtosis (Exzess): Definition und Wertebedeutung
- Definition: gibt Auskunft über die Breit- bzw. Schmalgipfligkeit
- Wertebedeutung:
a) Wert > 0: spricht für eine schmalgipflige (spitze) Verteilung –> Leptokurtisch
b) Wette < 0: spricht für eine breitgipflige (flache) Verteilung –> platykurtisch
c) Werte = 0 keine Abweichung von Normalverteilung –> Mesokurtisch
Testevaluation: Verteilung - Gipfligkeit (Modalität)
Ein- vs. mehrgipflige Verteilung:
- Eingiflig: Normalerweise eingipflig erwünscht (siehe Normalverteilung)
- Zweigipflig (bimodale Verteilung): Wenn zweigipflig –> Item ggf. mehrdeutig formuliert?
Ursachen für Abweichungen von einer Normalverteilung
- Antwortverteilung ist Zweipigflig/Mehrgipflig:
Mögliche Ursachen - Antwort ist schief
- Weitere möglichkeiten für Abweichungen von Normalverteilung
–> Übung zur Verteilungen s. F. 16-20
Dekriptive Daten: Mittelwerte - Definition und Berechnung
- Definition: zentrale Tendenz einer Verteilung.
- Berechnung: Alle Werte addiert und durch die Anzahl der Werte geteilt
Deskriptive Daten und Verteilungen: Merksätze - Hohe SD spricht für…
… große Streuung der Werte abseits des Mittelwerts (z.B.: bimodale Verteilung)
Testevaluation: Itemschwierigkeit - Schwirigkeitsindex (Populationsindex): Ziel
Jedes Item sollte zwischen Merkmalstragenden differenzieren können (z.B.: gelöst vs. nicht gelöst, bejahen vs. verneinen, etc.)
Itemschwierigkeit bei dichotomen Aufgaben: Berechnung und Interpretation
- Definition Itemschwirigkeit bei dichotomen Aufgaben: Anzahl aller, die das Item richtig beantwortet aben geteilt durch die Anzahl aller Teilnehmenden, dann multipliziert durch 100
- Interpretation:
a) Hoher Schwirigkeitsindex = niedrige Schwierigkeit (leichtes Item)
b) niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres item)
für Beispiel s F. 26
Itemschwirigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben): Bei Power-Tests
- Definition - Power-Test: Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck –> Niveautests
- Itemschwirigkeit: Falschantworten und ausgelassene Antworten (übersprungene) werden gleich behandelt –> Formel bleibt gleich s. F. 27
Itemschwierigkeit bei dichotomen Aufgaben: Korrektur für Ratewahrscheinlichkeit
- items können durch Raten gelöst werden –> kann Testergebnis verfälschen
- Prinzipiell müsste man also für die Ratewahrscheinlichkeit korrigieren, dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)
Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt bei 0
- Anwendung:
bei metrischen Daten - Berechnung: bei metrischen Daten wird der Schwirigkeitsindex Pi für intervallskalierte Stufen k des Items i von 0 bis k -1 berechnet (Antwortskala). Durch Teilung der Spaltensummen durch die maximale Punktsumme
- Formel: Spaltensumme / ((Anzahl der Probanten mal (maximale Antwort -1)) * 100
–> Achtung Formel gilt nur, wenn Antwortskala von 0-k geht!
s. Beispiel und Formel F. 31
Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt nicht bei 0
- Änderung: Im Nenner muss nun der minimal errechbare Wert von dem maxinal erreichbaren Wert abgezogen werden
–> Achtung: es muss von jeder Probant*in der minimale Wert abgezogen werden (im Zähler) - Formel: (Spaltensumme minus minimale Antowrt für das Items für jeden Probanten) / ((Anzahl aller Probanten * (max. Antwort - min. Antwort)) * 100
s. F. 32
Itemschwirigkeit bei der Messung typischen Verhaltens - Merke
- Welche Formel verwenden: ist abhängig von der Antwortskala:
a) Dichotom oder intervallskaliert
b) Niedrigster Wert 0 oder anderer Wert - Itemschwirigkeit:
a) ist immer abhängig von der untersuchen Stichprobe
b) Höchste Differenzierung für typisches Verhalten bei P1 = 50
c) Für eine Differenzierung auf in den Extremen ist eine breite Streuung von Items unterschiedlicher Schwierigkeit anzustreben