3. Testevaluation Flashcards

Question 1

Q

Erinnerung: Normalverteilung

Answer

A

Gaußsche Glockenkurve
Symmetrische Verteilung
Mehrheit der Werte liegt um den Mittelpunkt der Skala
Voraussetzung für viele statistische Verfahren

Question 2

Q

Schiefe

Answer

A

Maß für die Symmetrie/Asymmetrie eines Items
Schiefe > 0: linkssteile Verteilung (rechtsschief)
Schiefe < 0: rechtssteile Verteilung (linksschief)
Schiefe = 0: symmetrische Verteilung (Normalverteilung)

Question 3

Q

Bodeneffekt:

Answer

A

Mittelwert sehr niedrig, kaum jemand „löst“ das Item, differenziert schlecht im unteren Bereich

Question 4

Q

Deckeneffekt:

Answer

A

Mittelwert sehr hoch, fast alle „lösen“ das Item, differenziert schlecht im oberen Bereich

Question 5

Q

Kurtosis (Exzess)

Answer

A

 Gibt Auskunft über Breit- bzw. Schmalgipfligkeit
Wert > 0 spricht für eine schmalgipflige (spitze) Verteilung Wert < 0 spricht für eine breitgipflige (flache) Verteilung  Wert = 0 keine Abweichung von Normalverteilung

Question 6

Q

Gipfligkeit (Modalität)
Ein- vs. mehrgipflige Verteilung

Answer

A

 Normal eingipflig erwünscht (siehe Normalverteilung)  Wenn zweigipflig: Item ggf. mehrdeutig formuliert?

Question 7

Q

Ursachen für Abweichungen von einer Normalverteilung

Answer

A

Antwortverteilung ist Zweigipflig/ Mehrgipflig:
Mögliche Ursachen: Item war polarisierend, widersprüchlich/ mehrdeutig formuliert, hat mehrere Dinge gleichzeitig abgefragt
Antwortverteilung ist schief:
Mögliche Ursache: Item war zu leicht (linksschief) oder zu schwer (rechtsschief)
Weitere Möglichkeiten für Abweichungen von Normalverteilungen:
Heterogene Stichproben (zwei Unterstichproben, die zusammen eine Mischverteilung bilden) Das Merkmal ist nicht normalverteilt

Question 8

Q

Deskriptive Daten
Mittelwerte und Streuungen

Answer

A

Mittelwert = zentrale Tendenz einer Verteilung. Alle Werte addiert und durch die Anzahl der Werte geteilt.
Streuung = Verteilung aller Werte um den Mittelwert. Häufig berechnet als Standardabweichung (SD).
Geringe SD = Die Werte liegen in der Regel sehr nah am Mittelwert.
Hohe SD = Die Werte liegen in der Regel weit vom Mittelwert entfernt.

Question 9

Q

Deskriptive Daten und Verteilungen

Answer

A

Hohe Standardabweichung spricht für große Streuung der Werte abseits des Mittelwerts (z.B. bimodale Verteilung)
Standardabweichung nahe 0 spricht für wenig (bis keine) Streuung abseits des Mittelwerts (z.B. spitze Verteilung)
 Sehr hoher bzw. sehr niedriger Mittelwert spricht für Decken- bzw. Bodeneffekt (z.B. schiefe Verteilung)

Question 10

Q

Itemschwierigkeit

Answer

A

Der Schwierigkeitsindex (auch Popularitätsindex) 𝑃𝑃𝑖𝑖 stellt den prozentualen Anteil richtiger (bzw. zustimmender) Antworten für das Item 𝑖𝑖 in einer Stichprobe der Größe 𝑛𝑛 dar

Der Index ist hoch ( max. 100), wenn die Aufgabe leicht ist (bzw. im Sinne eines Merkmals bekräftigt wird), und niedrig ( min. 0), wenn die Aufgabe schwierig ist (bzw. das Item abgelehnt wird).
„Leichtigkeitsindex“

Question 11

Q

b) Itemschwierigkeit bei dichotomen Aufgaben

Answer

A

Bei dichotomen Aufgaben (z.B. richtig/ falsch):
Itemschwierigkeit = Anzahl aller, die das Item richtig beantwortet haben geteilt durch Anzahl aller Teilnehmerinnen, dann multipliziert mit 100
Hoher Schwierigkeitsindex = niedrige Schwierigkeit (leichtes Item) Niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres Item)
Beispiel: zwei Aufgaben in einer Klausur, 50 Teilnehmerinnen
Aufgabe 1: 20 Teilnehmerinnen beantworten das Item richtig: Pi = 20/50 * 100 = 0.4100 = 40
Aufgabe 2: 45 Teilnehmerinnen beantworten das Item richtig: Pi = 45/50 * 100 = 0.9100 = 90

Aufgabe 1 ist schwieriger als Aufgabe 2

Pi = nR / n * 100

Question 12

Q

b) Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben)

Power Tests

Answer

A

Bei Power-Tests („Niveautests“) werden Falschantworten und ausgelassene (übersprungene) gleich behandelt:
Power-Tests = Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck

Question 13

Q

b) Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben)

Speed Tests

Answer

A

Bei Speed-Tests werden unbearbeitete Antworten (nicht geschafft aufgrund der Zeitbegrenzung) korrigiert berücksichtigt:

Speed-Tests = Leistungstests mit Zeitbeschränkung

…bei der Berechnung des Schwierigkeitsindex werden unbearbeitete Items ausgelassen:
nB = richtige + falsche + ausgelassene
Items (= bearbeitete Items)
Pi = nR / nB * 100

Question 14

Q

b) Itemschwierigkeit bei dichotomen Aufgaben
Korrektur für Ratewahrscheinlichkeit:

Answer

A

Items können durch Raten gelöst werden
Kann ein Testergebnis verfälschen
Prinzipiell müsste man also noch für die Ratewahrscheinlichkeit korrigieren,
dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)

Question 15

Q

b) Itemschwierigkeit bei der Messung typischen Verhaltens

Answer

A

Bei metrischen Daten wird der Schwierigkeitsindex 𝑃𝑃 für intervallskalierte Stufen 𝑘𝑘 des Items 𝑖𝑖 von 0 bis 𝑘𝑘 − 1 berechnet durch Teilung der Spaltensumme durch die maximale Punktsumme

Question 16

Q

b) Itemschwierigkeit bei der Messung typischen Verhaltens
Merke:

Answer

A

Welche Formel zur Berechnung der Itemschwierigkeit für typisches Verhalten verwendet werden muss hängt von der Antwortskala ab
a) Dichotom oder „intervallskaliert“?
b) Niedrigster Wert 0 oder anderer Wert?
Die Itemschwierigkeit ist immer abhängig von der untersuchten Stichprobe
Höchste Differenzierung bei 𝑃𝑃𝑖𝑖 = 50
Für eine Differenzierung auch in den Extremen ist eine breite Streuung von Items
unterschiedlicher Schwierigkeiten anzustreben

Question 17

Q

c) Itemvarianz

Answer

A

= Wie stark unterscheiden sich die Antworten auf ein Item zwischen verschiedenen Personen?
Itemvarianz 𝑉ar(𝑥𝑖) bei dichotomen Items ist das Produkt der Wahrscheinlichkeiten, das Item zu lösen (bejahen) und es nicht zu lösen (verneinen), und hängt direkt mit dem Schwierigkeitsindex (pi) zusammen:

Question 18

Q

c) Itemvarianz und Itemschwierigkeit

Answer

A

Items mit mittlerer Schwierigkeit differenzieren viele Probandinnen, Items mit hoher oder niedriger Schwierigkeit wenige Probandinnen
Zusammenhang zwischen Itemschwierigkeit und Varianz ist kurvilinear (quadratisch)
Items mit mittlerer Schwierigkeit liefern die höchste
𝑉ar𝑥i =0.25bei 𝑃i =50

Question 19

Q

c) Itemvarianz bei intervallskalierten Items

Answer

A

Die Itemvarianz legt die Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest.

Question 20

Q

d) Itemtrennschärfe 𝒓it

Answer

A

…ist die Korrelation zwischen Itemwert mit einem Testwert, der aus den (übrigen) Items
des Tests gebildet wird (Item-Test-Korrelation) = rit

 Prinzipiell: Wie prototypisch ist ein Item für eine Skala/ wie gut repräsentiert es die Gesamtskala?
 Voraussetzung: Alle Items messen inhaltlich dasselbe Merkmal (Itemhomogenität)

 Der Testwert eines Probanden wird üblicherweise als Zeilensumme sämtlicher Itemwerte des Probanden gebildet
 Zusätzlich „part-whole Korrektur“ um die Trennschärfe nicht zu überschätzen
 = Zeilensumme ohne das betreffende Item, weil das betreffende Item innerhalb des Skalenwerts
sonst mit in die Korrelation eingeht (Trennschärfe wird überschätzt)

Question 21

Q

d) Interpretation der Trennschärfe

Answer

A

Kann Werte zwischen -1 und 1 annehmen (= Korrelationskoeffizient)

𝒓𝒓𝒊𝒊𝒊𝒊 → 𝟎: Item differenziert gegenüber dem Gesamttest nicht gut und ist damit ein ungeeigneter Indikator des Gesamttestwerts
𝒓𝒓 → 𝟏: Item ist homogen gegenüber dem Gesamttest (aber: hohe Werte nicht immer gut  ist Item redundant?)
Zusammenhang Item ggf. falsch kodiert/ negativ formuliert?)
𝒓𝒓𝒊𝒊𝒊𝒊 → −𝟏: Item ist invers homogen gegenüber dem Gesamttest ( bei negativem Zusammenhang Item ggf. falsch kodiert/ negativ formuliert?)

𝒓𝒓𝒊𝒊𝒊𝒊 > 𝟎. 𝟒: angemessene bis ausgezeichnete Trennschärfe je nach Homogenität bzw. Heterogenität des Konstruktes
𝒓𝒓 zwischen 0.2 und 0.4: GrenzbereichItem sollte entweder ausgeschlossen oder revidiert werden
𝒓𝒓𝒊𝒊𝒊𝒊 < 𝟎𝟎. 𝟐𝟐: Item sollte ausgeschlossen werden

Question 22

Q

e) Kriterien der Itemselektion

Answer

A

Bei der Itemselektion müssen Verteilung, Schwierigkeit, Varianz und Trennschärfe gleichermaßen berücksichtigt werden!
Idealerweise differenziert ein Test über den gesamten Schwierigkeitsbereich (5 ≤ 𝑃𝑃𝑖𝑖 ≤ 95):
‒ Items mit mittlerer Schwierigkeit differenzieren gut zwischen Merkmalsträger*innen mit hoher
und niedriger Merkmalsausprägung (große Itemvarianz) am besten.
‒ Zur Erfassung extremer (z. B. sehr hoher und extrem hoher) Merkmalsausprägungen sind
Items mit hoher oder niedriger Schwierigkeit (geringe Itemvarianz) auszuwählen. ‒ Jedes Item sollte aber Varianz aufweisen (differenzierungsfähig sein).
Grundsätzlich sollten Items dabei immer über eine gute Trennschärfe verfügen: 𝒓𝒓𝒊𝒊𝒊𝒊 zwischen 0.4 und 0.7

Items ohne Trennschärfe (𝒓𝒓
𝒊𝒊𝒊𝒊 → 0) sollten ausgeschlossen werden