08 Empirische Überprüfung des Testentwurfs: Trennschärfe und Schwierigkeitsanalyse Flashcards
Welche Skalenkennwerte gibt es?
Reliabilität
Welche Itemkennwerte gibt es?
- Trennschärfe
- Schwierigkeitsindizes (Itemschwierigkeit, Itemvarianz)
Wie hängt psychologische Schwierigkeit mit psychometrischer Schwierigkeit zusammen
tiefe psychologische Schwierigkeit = hohe psychometrische Schwierigkeit
(Der Schwierigkeitsindex ist eigentlich ein Leichtigkeitsindex)
Was bedeutet der Trennschärfe-Index?
Je höher dieser Wert, desto besser korreliert ein Item mit seiner Skala
Wie wird Schwierigkeit ermittelt?
Wird anhand der Lösungshäufigkeit in % ermittelt
Wie lautet die Formel zur Berechnung des Mittelwerts (für die psychometrische Schwierigkeit)?
Wann ist eine Varianz 0
Wenn alle Personen gleich Antworten
Ist die Itemvarianz ein wichtiges Mass für die Schwierigkeit?
Weniger wichtig als die Itemschwierigkeit
Wie hängt die Itemvarianz mit der Trennschärfe zusammen?
Niederige Varianz = wahrscheinlich weniger Trennschärfe
Hohe Varianz = wahrscheinlich höhere Trennschärfe
Warum ist bei Itemvarianzen der Vergleich zwischen den Items wichtig
Weil Items miteinander verglichen werden sollen … wird nicht erklärt.
Was sind dichotome Items?
Ja/Nein-Antwortformate
Wie berechnet sich der Schwierigkeitsindex für dichotome Items?
Wie berechnet man den Schwierigkeitsindex mit Zufallskorrektur? (per Zufall richtige Antworten korrigieren)
Was ist Ingriffnahmekorrektur?
Wenn nicht alle Personen alle Aufgaben beantworten konnten, wird dies korrigiert.
Wie berechnet man den Schwierigkeitsindex (SI) mit Ingriffnahmekorrektur?
Wie berechnet man den Schwierigkeitsindex mit Zufalls- und Ingriffanhmekorrektur?
Wann möchten wir extreme Schwierigkeiten/Leichtigkeiten?
Wenn wir (auch) in extrembereichen messen möchten (z.B. Hochbegabung, Wissensprüfung zur Abstufung)
Wie schwierig sollen die Aufgaben bei Schnelligkeitstests sein? (Speed-Tests)
psychologisch LEICHT (psychometrisch schwierig)
Wie schwierig sollen Aufgaben bei Niveau-Tests sein? (Power-Tests)
Aufsteigende psychologische Schwierigkeit
wie schwierig sollen Aufgaben bei Speed-Power-Tests sein?
Aufsteigende Schwierigkeit, aber eher im mittleren Bereich, nicht zu schwierig
Welche Schwierigkeiten erlauben hohe Trennschärfen?
Mittlere Schwierigkeiten
Welche Schwierigkeit ist aus theoretischer Sicht ideal? Um nur zu Trennen zwischen Lösern und Nicht-Lösern
p = 0.50
Welche Schwierigkeitskontinuums sollte ein psychometrischer Test tatsächlich aufweisen und warum?
zwischen p = 0.20 und p = 0.80
-> Damit differenziertere Abstufungen möglich werden (und nicht nur Bestanden/Nicht bestanden)
Wie ist der Schwierigkeitsindex häufig bezeichnet?
Als Mittelwert (xquer) statt SI
Zwischen welchen zwei Trennschärfen kann grundsätzlich unterschieden werden?
- Eigentrennschärfe (Beziehungs eines Items zu Items aus eigener Skala)
- Fremdtrennschärfe (Beziehung eines Items zu externen Kriterien)
Was misst die Eigentrennschärfe?
Wie gut misst ein einzelnes Item die angestrebte Fähigkeit oder Eigenschaft?
Was ist die part-whole-Korrektur und warum muss sie bei der Berechnung der Trennschärfen gemacht werden?
- Der Summenwert der anderen Items muss um das Item, für das die Trennschärfe bestimmt werden soll, korrigiert werden.
- Sonst kommt es zu einer Überschätzung (denn das Item kann nicht mit sich selbst verglichen werden, sondern nur mit den anderen items)
Wovon ist die Höhe des Trennschärfekoeffizienten abhängig?
- Grad der Gemeinsamtkeit, dessen, was durch die Aufgabe und durch den gesamten Test gemessen wird
- Zahl der möglichen interindividuellen Differenzierungen, die eine Aufgbae treffen kann (z.B bei zwei Antwortmöglichkeiten 3 Differenzierungen -> 0,1,2 Punkte)
Wie hängen Trennschärfen mit Reliabilität zusammen?
Hohe Trennschärfen begünstigen hohe Reliabilität
Welche Trennschärfekoeffizienten werden angestrebt?
Möglichst hohe (< .30 ist zu niedrig)
Wie berechnet man die Anzahl Unterscheidungen bei der Trennschärfe?
Anzahl Personen mit richtiger Lösung x Anzahl Personen mit falscher Lösung
= Bei Aufgabe mittlerer Schwierigkeit können mehr Unterscheidungen gemacht werden, was eine hohe Trennschärfe begünstigt.
Welche Einflussfaktoren für die Trennschärfe gibt es?
- Varianz (bei zweigipfliger Verteilung)
- Ausreisserwerte
- Verteilungen (Items in Randbereichen)
- Homogenität in Stichproben (Weil homogene Stichproben führen zu weniger Varianz)
- Selektionskennwert
-> eigentlich läuft es hier immer auf die Varianz raus, oder?
Wann kann Varianz die Einflussfaktoren beeinflussen?
Wenn es zwei Gruppen gibt, die sich zwar ähneln, insgesamt die Varianz auseinandertreiben. (zweigipflige, bimodale Verteilung)
Was ist der Selektionskennwert?
Er korrigiert die Trennschärfe von Items mit extremer Schwierigkeit nach oben. (Hilft, das solche Items nicht so leicht ausgeschlossen werden)
Warum/Wann gibt es negative Trennschärfen?
- das Item ist ungeeignet
- Umpolung wurde vergesen
Was muss ich bei der Beurteilung des Trennschärfekoeffizienten beachten?
- Anwendungsbereich (z.B. Klinische Psychologie)
- angestrebte Personengruppe (z.B. Arbeit mit Kindern)
- Stichprobenabhängigkeit (Evaluierungsstichprobe!)
- Wie ist das Item im Vergleich zu den anderen Items des Tests/der Skala einzuschätzen?
Was ist bei Paralleltests zu beachten?
Nicht nur Items sollen gleich sein, sondern auch:
* Trennschärfe
* Schwierigkeit
Was kann eine niedrige Fremdtrennschärfe auch bedeuten?
Dass die eigenen Items besonders schwierig sind.
Was ist der Selektionskennwert?
Der Selektionskennwert korrigiert die Trennschärfen für die Itemstreuung (Trennschärfe schwieriger Items wird nach oben korrigiert)
Was ist die Itemtrennschärfe?
Indikator dafür, inwieweit ein Item etwas Ähnliches erfasst wie der übrige Test.
Was ist die Itemvarianz?
Gibt an, wie stark die Antworten auf ein Item sich zwischen Personen unterscheiden.
Wann sind Trennschärfen zufriedenstellend?
Daumenregel: ab .30 oder .40 (wenn sie tiefer sind, sind sie NICHT zufriedenstellend)
Wie hängen Schwierigkeiten mit Trennschärfen zusammen?
Mittlere Schwierigkeiten begünstigen hohe Trennschärfen (garantieren sie aber nicht)
-> d.h. bei mittleren Schwierigkeiten können mehr Unterscheidungen zwischen Personen gemacht werden als in den extremen Bereichen