W8: Empirische Überprüfung Testentwurf, Schwierigkeitsanalyse, Trennschärfe Flashcards
Was misst die Funktionalität der Items (Skalenkennwerte) untereinander?
Reliabilität
Wie können wir die Items selber (Itemkennwerte) auf ihre Funktionalität überprüfen?
-Trennschärfe
-Itemschwierigkeit
-Itemvarianz
Was sagt die Trennschärfe aus?
Die Korrelation des Items mit seiner eigenen Skala.
Je höher ein Item mit seiner Skala korreliert, desto besser repräsentiert das Item die Skala
–> Korrelationswerte
Kennwert, der Items identifiziert, die mit den Testwerten (Summenscores) assoziiert sind (möglichst hoch) und daher gut zwischen Personen und hohen und niedrigen Testwerten trennen können.
Die Itemtrennschärfe ist ein Indikator dafür, inwieweit ein Item etwas Ähnliches erfasst wie der übrige Test. Bei Itemtrennschärfen werden z.B. Untergrenzen von .30 oder .40 als Ausschlusskriterium genannt. Es ist hier aber auch darauf zu achten, wie die Trennschärfen aller Items liegen und ob ein Item durch eine deutlich unterdurchschnittliche Trennschärfe negativ auffällt. Die Itemtrennschärfe ist der wichtigste Kennwert zur Selektion messgenauer Items.Zwischen den verschiedenen Itemkennwerten bestehen einige systematische, zwangsläufige Zusammenhänge: Ein Item mit einer extrem hohen oder niedrigen Schwierigkeit kann nur noch eine eingeschränkte Varianz haben.
Was beschreibt die Itemschwierigkeit?
Die Itemschwierigkeit gibt Auskunft darüber, wie viele Personen ein Item gelöst haben bzw. wie stark einem Item im Sinne des erfassten Konstruktes(Schlüsselrichtung) zugestimmt wurde. Hinsichtlich der Itemschwierigkeit sind Items mittlerer Schwierigkeit erstrebenswert. Leichte und schwere Items können dennoch nützlich sein, um in Bereichen niedriger und hoher Merkmalsausprägung eine
differenzierte Messung zu ermöglichen. Itemschwierigkeiten kleiner als .20 oder größer als .80 werden i.d.R. als zu schwer oder zu leicht betrachtet
Was beschreibt die Itemvarianz?
Die Itemvarianz gibt an, wie stark die Antworten auf ein Item sich zwischen Personen unterscheiden. Die Itemvarianz wird selten als Selektionskriterium herangezogen, kann aber in Kombination mit den anderen Kennwerten aufschlussreich sein. Die Itemvarianz ist ein weniger bedeutender Kennwert, eine hohe Varianz ist
wünschenswert.
Wie werden Lösungshäufigkeiten in Tests auch noch genannt?
(psychologischen) Schwierigkeiten
Wenn z.B. ein Item besteht: “Wie viele Beine hat ein Hund”, und dies 99 vom 100 Kindern richtig lösen, welchen Schwierigkeitsgrad hat dann dieses Item?
Einen HOHEN Schwierigkeitsgrad/- index
(ist ein Leichtigkeitsindex)
Von was sind Schwierigkeitsindex und Trennschärfe (auch) abhängig?
Von der Stichprobe, Gruppe welche getestet wird
Wo kann ein Schwierigkeitsindex angewendet werden?
-Ratingskalen bzw. intervallskalierte Items
-dichotome Items
-(ordinalskalierte Items)
Einsetbar für Leistungstest, Selbstberichtsverfahren (Persönlichkeitsverfahren)
Nenne ein Beispiel für Schwierigkeitsindex
Bsp. Selbstberichtsverfahren.
“Ich mag es, wenn die Sonne scheint”
Psychologisches leichtes Item mit einer hohen psychometrischen Schwierigkeit. Den Leuten fällt es hier einfach, diese Items zu bejahen.
“Ich quäle gerne Tiere”
Psychologisches schwierieges Item mit einem tiefen psychometrischen Schwierigkeitswert. Den Leuten fällt es hier schwer, dieses Items zu bejahen.
Wie berechnet man die psychometrische Schwierigkeit eines Items?
Wird via Mittelwert berechnet.
Ist der Mittlerwet psychometrisch schwer, werden diesem Item viele Personen der Stichprobe zustimmen, daher wird der Mittelwert hoch ausfallen
Was sagen niedrige Mittelwerte aus?
Kennzeichnen psychometrisch leichte Items, da ihnen wenige Personen zustimmen werden
Welche Möglichkeit gibt es noch zur Berechnung?
Berechnung der Varianz eines Items. Dies ermöglicht eine Aussage darüber, wie stark das Item vom Mittelwert abweicht
Was sagt eine kleine Itemvarianz aus?
Dass viele Personen sehr ähnlich geantwortet haben.
Was sagt eine grosse Itemvarianz aus?
Beträchtliche Unterschiede in den Beantwortungen
Wann haben wir eine Itemvarianz von 0?
Alle haben das Item gleich gelöst/geantwortet. Hier können wir keine Unterschiede zwischen den Personen sehen
Warum kann sich eine eingeschränkte Itemvarianz negativ auf den Korrelationskoeffizienten auswirken?
Wenn ich z.B. eine Testung an einer Uni mache, mit allen Psychologie-Studis im 1. Sem., befrage ich v.a. viele Frauen um die 20j. Da ist die Wahrscheinlichkeit grösser, dass alle gleich und ähnlich antworte, als wenn ich eine Personengruppe aus einem grösseren Umkreis nehme (allen Alters, Geschlecht, Herkunft, Beruf etc.)
Was sind dichotome Items?
Entweder erhalte ich einen Punkt (richtig, ja) oder erhalte keinen Punkt (falsch, nein)
Wie wird der Schwierigkeitsindex bei dichotomen Items gelöst?
P = NR/N
P=Schwierigkeitsindex
NR=Anzahl Personen, die die Aufgabe richtig gelöst haben
N=Anzahl aller Personen
mit 100 multiplizieren - ergibt die %
Was sagt der Schwierigkeitsindex mit Zufallskorrektur aus?
Testverfahren, wo Personen auch durch Raten zur Lösung kommen können. Man will wirklich herausfinden, wer das Leistungspotential verfügt, um die Aufgabe zu lösen. Diese wollen wir von jenen unterscheiden, welche durch zufälliges Raten zur Lösung kommen. Dafür gibt es eine Korrekturformel.
Wenn man einen Test einmal normal und dann einmal mit Zufallskorrektur rechnet, und dann feststellt, dass diese Werte sehr unterschiedlich sind, ist das problematisch. Da muss mann dann schauen, ob bspw. durch ausmärzen der Distraktoren es einfach war, zur Lösung zu kommen.
Was sagt der Schwierigkeitsindex mit Inangriffnahmekorrektur aus?
Die Gesamtzahl muss um die Anzahl Teilnehmer*innen vermindert werden, welche die Aufgabe nicht in Angriff genommen haben. Beispiel: bei einem zeitbegrenzten Intelligenztest, bei dem nicht alle Aufgaben von allen Probanden gelöst werden
Was sagt der kombinierte Schwierigkeitsindex mit Zufalls- und Inangriffsnahmekorrektur aus?
Berücksichtigung, dass Probanden geraten haben und dass manche Probanden aufgrund Zeitmangels Items nicht bearbeitet haben.
Wann will man extreme Schwierigkeiten / Leichtigkeiten?
z.B. um Hochbegabung feststellen zu können, z.B. um bei einem Test die guten von den sehr guten zu unterschieden etc. - um im oberen Leistungsbereich gut differenzieren zu können
Welcher Schwierigkeitsindex ist aus theoretischer Sicht ideal?
p = 0.50: wenn imm dieselbe Personen die Items lösen oder nicht kösen, kann eindeutig zwischen Lösern und Nichtlösern unterschieden werden (pass oder fail in einer Prüfung).
In der Diagnostik will genauer differenziert werden und Abstufungen beschreiben werden können. Häufig möchte man Schwierigkeitsindizes von p=0.20 und 0.80.