Testevaluation Flashcards
Testevaluation - Einordnung in die Schritte der Testkonstruktion
Schritt 3 (Verteilungs-, Items- & Skalenanalyse) und Schritt 4 (Itemrevision & -selektion)
Testevaluation: Verteilung - Normalverteilung
1.Gausche Glockenkurve, Symmetrische Verteilung
2. Mehrheit der Werte liegt um den Mittelpunkt der Skala
3. Vorraussetzung für viele statistische Verfahren
s F. 11
Testevaluation: Verteilung - Schiefe: Definition
Maß für die Symmetrie/ Asymmetrie eines Items
Testevaluation: Verteilung - Kurtosis (Exzess): Definition und Wertebedeutung
- Definition: gibt Auskunft über die Breit- bzw. Schmalgipfligkeit
- Wertebedeutung:
a) Wert > 0: spricht für eine schmalgipflige (spitze) Verteilung –> Leptokurtisch
b) Wette < 0: spricht für eine breitgipflige (flache) Verteilung –> platykurtisch
c) Werte = 0 keine Abweichung von Normalverteilung –> Mesokurtisch
Testevaluation: Verteilung - Gipfligkeit (Modalität)
Ein- vs. mehrgipflige Verteilung:
- Eingiflig: Normalerweise eingipflig erwünscht (siehe Normalverteilung)
- Zweigipflig (bimodale Verteilung): Wenn zweigipflig –> Item ggf. mehrdeutig formuliert?
Ursachen für Abweichungen von einer Normalverteilung
- Antwortverteilung ist Zweipigflig/Mehrgipflig:
Mögliche Ursachen - Antwort ist schief
- Weitere möglichkeiten für Abweichungen von Normalverteilung
–> Übung zur Verteilungen s. F. 16-20
Dekriptive Daten: Mittelwerte - Definition und Berechnung
- Definition: zentrale Tendenz einer Verteilung.
- Berechnung: Alle Werte addiert und durch die Anzahl der Werte geteilt
Deskriptive Daten und Verteilungen: Merksätze - Hohe SD spricht für…
… große Streuung der Werte abseits des Mittelwerts (z.B.: bimodale Verteilung)
Testevaluation: Itemschwierigkeit - Schwirigkeitsindex (Populationsindex): Ziel
Jedes Item sollte zwischen Merkmalstragenden differenzieren können (z.B.: gelöst vs. nicht gelöst, bejahen vs. verneinen, etc.)
Itemschwierigkeit bei dichotomen Aufgaben: Berechnung und Interpretation
- Definition Itemschwirigkeit bei dichotomen Aufgaben: Anzahl aller, die das Item richtig beantwortet aben geteilt durch die Anzahl aller Teilnehmenden, dann multipliziert durch 100
- Interpretation:
a) Hoher Schwirigkeitsindex = niedrige Schwierigkeit (leichtes Item)
b) niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres item)
für Beispiel s F. 26
Itemschwirigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben): Bei Power-Tests
- Definition - Power-Test: Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck –> Niveautests
- Itemschwirigkeit: Falschantworten und ausgelassene Antworten (übersprungene) werden gleich behandelt –> Formel bleibt gleich s. F. 27
Itemschwierigkeit bei dichotomen Aufgaben: Korrektur für Ratewahrscheinlichkeit
- items können durch Raten gelöst werden –> kann Testergebnis verfälschen
- Prinzipiell müsste man also für die Ratewahrscheinlichkeit korrigieren, dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)
Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt bei 0
- Anwendung:
bei metrischen Daten - Berechnung: bei metrischen Daten wird der Schwirigkeitsindex Pi für intervallskalierte Stufen k des Items i von 0 bis k -1 berechnet (Antwortskala). Durch Teilung der Spaltensummen durch die maximale Punktsumme
- Formel: Spaltensumme / ((Anzahl der Probanten mal (maximale Antwort -1)) * 100
–> Achtung Formel gilt nur, wenn Antwortskala von 0-k geht!
s. Beispiel und Formel F. 31
Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt nicht bei 0
- Änderung: Im Nenner muss nun der minimal errechbare Wert von dem maxinal erreichbaren Wert abgezogen werden
–> Achtung: es muss von jeder Probant*in der minimale Wert abgezogen werden (im Zähler) - Formel: (Spaltensumme minus minimale Antowrt für das Items für jeden Probanten) / ((Anzahl aller Probanten * (max. Antwort - min. Antwort)) * 100
s. F. 32
Itemschwirigkeit bei der Messung typischen Verhaltens - Merke
- Welche Formel verwenden: ist abhängig von der Antwortskala:
a) Dichotom oder intervallskaliert
b) Niedrigster Wert 0 oder anderer Wert - Itemschwirigkeit:
a) ist immer abhängig von der untersuchen Stichprobe
b) Höchste Differenzierung für typisches Verhalten bei P1 = 50
c) Für eine Differenzierung auf in den Extremen ist eine breite Streuung von Items unterschiedlicher Schwierigkeit anzustreben
Testevaluation: Itemvarianz - Definition
- Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe: Wie stark unterscheiden sich die Antworten auf ein Item zwischen verschiedenen Personen?
Testevaluation: Itemvarianz und Itemschwierigkeit
- Items mit mittlerer Schwierigkeit differenzieren viele Probant*innen
- Items mit hoher oder niedriger Schwierigkeit differenzieren wenige Probant*innen
- Zusammenhang zwischen Itemschwierigkeit und Varianz ist kurvilinear (quadratisch)
- Items mit mittlerer Schwierigkeit liefern die höchste Differenzierungsfähigkeit und damit die größte Varianz:
Var(xi) = 0.25 bei Pi= 50
s. F. 37
Itenvarianz bei intervallskalierten Items
- Die itemvarianz legt die Differenzierungfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest
–> Formel nicht klausurrelevant
Testevaluation: Itemtrennschärfe: Definition, Aussagekraft & Vorraussetzung
- Definition: Ist die Korrelation zwischen Itemswert mit einem Testwert, der aus den übrigen Items des Tests gebildet wird (Item-Test-Korrelation) = rit
r = Korrelationskoeffizient, i = Item, t = Test - Aussagekraft: Wie prototypisch ist ein Item für eine Skala/ wie gut repräsentiert es die Gesamtskala?
- Vorraussetzung: Alle Items messen inhaltlich dasselbe Merkmal ( = Itemhomogenität)
Testevaluation: Itemtrennschäfte - Berechnung
- Testwert: Der Testwert eines Probanten wird üblicherweise als Zeilensumme sämtlicher Itemwerte des Probanten gebildet (z.B.: Itemwerte: Item (I) 1 = 5, I2 = 3, I3 = 4, Testwert = 5 + 3+ 4 = 12)
- “part-whole Korrektur”:
a) Zweck: Um die Trennschäfe nicht zu überschätzen
b) Berechnung: die Zeilensumme wird ohne das betreffende Item gebildet, weil das betreffende Item innerhalb des Skalenwerts sonst mit in die Korrelation eingeht (Trennschäfe wird überschätzt) (im Beispiel: part-whole Korrektur für I2= 5 + 4 = 9)
s. F. 41
Interpretation der Trennschäfe: Was bedeutet ein WErt von 1, 0 & -1?
Wertebereich: Kann Werte zwischen -1 und 1 annehmen (=Korrelationskoeffizient)
1. rit –> 0: Item differenziert gegenüber dem Gesamttest nicht gut und ist damit ein ungeeigneter Indikator des Gesamttestwerts
- rit –> 1: Ite ist homogen gegenüber dem Gesamttest. Aber hohe Werte nicht immer gut –> ist Item redundant?
- rit –> -1: Item ist invers homogen gegenüber dem Gesamttest ( –> bei negativem Zusammenhang Item ggf. falsch kodert / negativ formuliert?)
Testevaluation: Kriterien der Itemselektion: Was muss berücksichtigt werden?
- Verteilung
- Schwierigkeit
- Varianz
- Trennschäfe
gleichermaßen
Testevaluation: Verteilung - Schiefe - Arten der Schiefe
- rechtsschief: linkssteile Verteilung - Schiefe > 0
- linksschief: rechtssteile Verteilung - Schiefe < 0
- normalverteilung: symmetrische Verteilung - Schiefe = 0
Testevaluation: Verteilung - Schiefe - Effekte
- Bodeneffet: Mittelwerte sind sehr niedrig, kaum jemand “löst” das Items, differenziert schlecht im unteren Bereich
- Deckeneffekt: Mittelwert sehr hoch, fast alle “lösen” das Item, differenziert schlecht im oberen Bereich
Ursachen für Abweichungen von einer Normalverteilung: 1. Antwortverteilung ist zweipipflig/ Mehrgipflig - mögliche Ursachen
- Item war polarisierend
- Item war wiedersprüchlich/mehrdeutig formuliert
- Item hat mehrere Dinge gleichzeitg abgefragt
Ursachen für Abweichungen von einer Normalverteilung: 2. Antwort ist Schief - mögliche Ursachen
- Items war zu leicht (linksschief)
- Item war zu schwer (rechtsschief)
Ursachen für Abweichungen von einer Normalverteilung: 3. Weitere Möglichkeiten für Abweichungen von einer Normalverteilung
- Heterogene Stichproben: zwei Unterstichproben, die zusammen eine Mischverteilung bilden
- das Merkmal ist nicht normalverteilt
–> Übung zur Verteilungen s. F. 16-20
Dekriptive Daten: Streuung- Definition und Interpretation
- Definition: Streuung= Verteilung aller Werte um den Mittelwert. Häufig berechnet als Standardabweichung (SD)
- Interpretation:
a) Geringe SD: Die Werte liegen in der Regel nach am Mittelwert
b) Hohe SD: Die Werte liegen in der Regel weit vom Mittelwert entfernt
s.F. 21
Deskriptive Daten und Verteilungen: Merksätze: SD nahe 0 spricht für…
…wenig bis keine Streuung abseits des Mittelwerts (z.B.: Spitze Verteilung)
Testevaluation: Itemschwierigkeit: Schwierigkeitsindex (Populationsindex):Definition
Schwirigkeitsindex (auch Popularitätsindex) Pi stellt den prozentualen Anteil richtiger (bzw. zustimmender) Antworten für das Item i in einer Stichprobe der Größe n dar
Deskriptive Daten und Verteilungen: Merksätze: sehr hohe bzw. sehr niedrige Mittelwerte spricht für…
…Decken bzw. Bodeneffekt (z.B.: schiefe Verteilung)
Testevaluation: Itemschwierigkeit: Schwierigkeitsindex (Populationsindex): Interpretation
- Index hoch: max 100, wenn die Aufgabe leicht ist (bzw. im Sinne eines Merkmales bekräftigt wird)
- Intex niedirg: min. 0, wenn die Aufgabe schwierig ist (bzw. das Item abgelehnt wird)
–> “Leichtigkeitsindex”
Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben): bei Speed-Tests
- Definition: Leistungstests mit Zeitbeschränkung
- Itemschwierigkeit: unbearbeitete Antworten (nicht geschafft aufgrund der Zeitbeschränkung) werden korrigiert berücksichtigt
–> bei der Berechnung des Schwierigkeitsindex werden unbearbeitete Items ausgelassen: nb = richtige + flasche + ausgelassene Items
s. F. 28
Testevaluation: Itemvarianz bei dichotomen Items
ist das Produkt der Wahrscheinlichkeiten, das Item zu lösen (bejahren) und nicht zu lösen (verneinen), und hängt direkt mit der Schwirigkeitsindex (pi) zusammen
s. F. 36
Kriterien der Itemsselektion: Schwierigkeitsbereiche der Items
- Idealerweise: differenziert ein Test über den gesamten Schwierigkeitsbereich ( 5 =< Pi <= 95):
- Mittlere Schwierigkeit: Items mit mittlerer Schwierigkeit differenzieren gut zwischen Merkmalsträgern mit hoher und niedriger Merkmalsausprägung (große Itemvarianz) am besten
- extreme Merkmalsausprägungen: Zur Erfassung extremer Merkmalsausprägungen sind Items mit hoher oder niedriger Schwierigkeit (geringe Itemvarianz) auszuwählen
4.Varianz: jedes Item sollte aber Varianz aufweisen (differenzierungfähig sein)
Kritieren der Itemselektion: Trennschärfe
- Grundsätzlich sollte Items über eine gue Trennschärfe verfügen rit zwischen 0.4 und 0.7
- Items ohne Trennschärfe sollte ausgeschlossen werden (rit –> 0)
Trennschärfe: Orientierungsregeln
- rit > 0.4: angemessene bis ausgezeichnete Trennschärfe je nach Homogenität bzw. Heterogenität des Konstruktes
- rit zwischen 0.2 und 0.4: Grenzbereich: Item sollt entweder ausgeschlossen oder revidert werden
- rit < 0.2: Item sollte ausgeschlossen werden