W8: Empirische Überprüfung Testentwurf, Schwierigkeitsanalyse, Trennschärfe Flashcards

1
Q

Was misst die Funktionalität der Items (Skalenkennwerte) untereinander?

A

Reliabilität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie können wir die Items selber (Itemkennwerte) auf ihre Funktionalität überprüfen?

A

-Trennschärfe
-Itemschwierigkeit
-Itemvarianz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sagt die Trennschärfe aus?

A

Die Korrelation des Items mit seiner eigenen Skala.
Je höher ein Item mit seiner Skala korreliert, desto besser repräsentiert das Item die Skala

–> Korrelationswerte

Kennwert, der Items identifiziert, die mit den Testwerten (Summenscores) assoziiert sind (möglichst hoch) und daher gut zwischen Personen und hohen und niedrigen Testwerten trennen können.

Die Itemtrennschärfe ist ein Indikator dafür, inwieweit ein Item etwas Ähnliches erfasst wie der übrige Test. Bei Itemtrennschärfen werden z.B. Untergrenzen von .30 oder .40 als Ausschlusskriterium genannt. Es ist hier aber auch darauf zu achten, wie die Trennschärfen aller Items liegen und ob ein Item durch eine deutlich unterdurchschnittliche Trennschärfe negativ auffällt. Die Itemtrennschärfe ist der wichtigste Kennwert zur Selektion messgenauer Items.Zwischen den verschiedenen Itemkennwerten bestehen einige systematische, zwangsläufige Zusammenhänge: Ein Item mit einer extrem hohen oder niedrigen Schwierigkeit kann nur noch eine eingeschränkte Varianz haben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was beschreibt die Itemschwierigkeit?

A

Die Itemschwierigkeit gibt Auskunft darüber, wie viele Personen ein Item gelöst haben bzw. wie stark einem Item im Sinne des erfassten Konstruktes(Schlüsselrichtung) zugestimmt wurde. Hinsichtlich der Itemschwierigkeit sind Items mittlerer Schwierigkeit erstrebenswert. Leichte und schwere Items können dennoch nützlich sein, um in Bereichen niedriger und hoher Merkmalsausprägung eine
differenzierte Messung zu ermöglichen. Itemschwierigkeiten kleiner als .20 oder größer als .80 werden i.d.R. als zu schwer oder zu leicht betrachtet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was beschreibt die Itemvarianz?

A

Die Itemvarianz gibt an, wie stark die Antworten auf ein Item sich zwischen Personen unterscheiden. Die Itemvarianz wird selten als Selektionskriterium herangezogen, kann aber in Kombination mit den anderen Kennwerten aufschlussreich sein. Die Itemvarianz ist ein weniger bedeutender Kennwert, eine hohe Varianz ist
wünschenswert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie werden Lösungshäufigkeiten in Tests auch noch genannt?

A

(psychologischen) Schwierigkeiten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wenn z.B. ein Item besteht: “Wie viele Beine hat ein Hund”, und dies 99 vom 100 Kindern richtig lösen, welchen Schwierigkeitsgrad hat dann dieses Item?

A

Einen HOHEN Schwierigkeitsgrad/- index
(ist ein Leichtigkeitsindex)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Von was sind Schwierigkeitsindex und Trennschärfe (auch) abhängig?

A

Von der Stichprobe, Gruppe welche getestet wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wo kann ein Schwierigkeitsindex angewendet werden?

A

-Ratingskalen bzw. intervallskalierte Items
-dichotome Items
-(ordinalskalierte Items)

Einsetbar für Leistungstest, Selbstberichtsverfahren (Persönlichkeitsverfahren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Nenne ein Beispiel für Schwierigkeitsindex

A

Bsp. Selbstberichtsverfahren.

“Ich mag es, wenn die Sonne scheint”
Psychologisches leichtes Item mit einer hohen psychometrischen Schwierigkeit. Den Leuten fällt es hier einfach, diese Items zu bejahen.

“Ich quäle gerne Tiere”
Psychologisches schwierieges Item mit einem tiefen psychometrischen Schwierigkeitswert. Den Leuten fällt es hier schwer, dieses Items zu bejahen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wie berechnet man die psychometrische Schwierigkeit eines Items?

A

Wird via Mittelwert berechnet.

Ist der Mittlerwet psychometrisch schwer, werden diesem Item viele Personen der Stichprobe zustimmen, daher wird der Mittelwert hoch ausfallen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was sagen niedrige Mittelwerte aus?

A

Kennzeichnen psychometrisch leichte Items, da ihnen wenige Personen zustimmen werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Welche Möglichkeit gibt es noch zur Berechnung?

A

Berechnung der Varianz eines Items. Dies ermöglicht eine Aussage darüber, wie stark das Item vom Mittelwert abweicht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sagt eine kleine Itemvarianz aus?

A

Dass viele Personen sehr ähnlich geantwortet haben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sagt eine grosse Itemvarianz aus?

A

Beträchtliche Unterschiede in den Beantwortungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wann haben wir eine Itemvarianz von 0?

A

Alle haben das Item gleich gelöst/geantwortet. Hier können wir keine Unterschiede zwischen den Personen sehen

17
Q

Warum kann sich eine eingeschränkte Itemvarianz negativ auf den Korrelationskoeffizienten auswirken?

A

Wenn ich z.B. eine Testung an einer Uni mache, mit allen Psychologie-Studis im 1. Sem., befrage ich v.a. viele Frauen um die 20j. Da ist die Wahrscheinlichkeit grösser, dass alle gleich und ähnlich antworte, als wenn ich eine Personengruppe aus einem grösseren Umkreis nehme (allen Alters, Geschlecht, Herkunft, Beruf etc.)

18
Q

Was sind dichotome Items?

A

Entweder erhalte ich einen Punkt (richtig, ja) oder erhalte keinen Punkt (falsch, nein)

19
Q

Wie wird der Schwierigkeitsindex bei dichotomen Items gelöst?

A

P = NR/N

P=Schwierigkeitsindex
NR=Anzahl Personen, die die Aufgabe richtig gelöst haben
N=Anzahl aller Personen

mit 100 multiplizieren - ergibt die %

20
Q

Was sagt der Schwierigkeitsindex mit Zufallskorrektur aus?

A

Testverfahren, wo Personen auch durch Raten zur Lösung kommen können. Man will wirklich herausfinden, wer das Leistungspotential verfügt, um die Aufgabe zu lösen. Diese wollen wir von jenen unterscheiden, welche durch zufälliges Raten zur Lösung kommen. Dafür gibt es eine Korrekturformel.

Wenn man einen Test einmal normal und dann einmal mit Zufallskorrektur rechnet, und dann feststellt, dass diese Werte sehr unterschiedlich sind, ist das problematisch. Da muss mann dann schauen, ob bspw. durch ausmärzen der Distraktoren es einfach war, zur Lösung zu kommen.

21
Q

Was sagt der Schwierigkeitsindex mit Inangriffnahmekorrektur aus?

A

Die Gesamtzahl muss um die Anzahl Teilnehmer*innen vermindert werden, welche die Aufgabe nicht in Angriff genommen haben. Beispiel: bei einem zeitbegrenzten Intelligenztest, bei dem nicht alle Aufgaben von allen Probanden gelöst werden

22
Q

Was sagt der kombinierte Schwierigkeitsindex mit Zufalls- und Inangriffsnahmekorrektur aus?

A

Berücksichtigung, dass Probanden geraten haben und dass manche Probanden aufgrund Zeitmangels Items nicht bearbeitet haben.

23
Q

Wann will man extreme Schwierigkeiten / Leichtigkeiten?

A

z.B. um Hochbegabung feststellen zu können, z.B. um bei einem Test die guten von den sehr guten zu unterschieden etc. - um im oberen Leistungsbereich gut differenzieren zu können

24
Q

Welcher Schwierigkeitsindex ist aus theoretischer Sicht ideal?

A

p = 0.50: wenn imm dieselbe Personen die Items lösen oder nicht kösen, kann eindeutig zwischen Lösern und Nichtlösern unterschieden werden (pass oder fail in einer Prüfung).

In der Diagnostik will genauer differenziert werden und Abstufungen beschreiben werden können. Häufig möchte man Schwierigkeitsindizes von p=0.20 und 0.80.

25
Q

Beschreibe das Beispiel aus den Folien Vergleich Eichstichprobe (verschiedene Personen) vs. psychiatrische Vergleichsgruppe mit den Items Klossgefühl, Kurzatmigkeit, Schwächegefühl etc. mit Antwortformat 3=stark, 2=mässig, 1=kaum, 0=gar nicht

A

Die Werte (Mittelwerte, Standardabweichung und Trennschärfte) sind bei der psych. Vergleichgruppe allg. höher.

Höhere Mittelwerte: die Personen aus der psych. Vergleichsgruppe haben erwartungsgemäss stärkere, öftere und höhere Klossgefühle als die Eichstichprobe. Die Schwierigkeiten werden psychometrisch höher, sprich die psych. Gruppe konnte den Items leichter zustimmen.

Höhere Standardabweichungen: Innerhalb der psych. Gruppe gibt es grössere “Schwankungen”. D.H. es gibt Personen, welche keine Klossgefühle haben, einige aber sehr stark. Wir haben hier eine grössere Varianz.

Höhere Trennschärfe (Korrlationskoeffizient): Die Varianzen in den psych. Gruppe sind grösser.

26
Q

Was bedeutet die Eigentrennschärfe?

A

Aussage über Items der eigenen Skala.

Wie gut misst ein einzelnes Item die angestrebte Fähigkeit oder Eigenschaft?

27
Q

Wie berechnet man die Eigentrennschärfe?

A

Berechnung der Korrelation zwiscen dem einzelnen Item und der Summe aller anderen Items der entsprechenden Skala.

Part-Whole-Korrektur: das eigene Item muss bereinigt werden resp. darf nicht eingerechnet werden, ansonsten würde dies das Resultat verzerren. Korrigiert man das nicht, kommt es zu einer Überschätzung.

28
Q

Was bedeutet eine Trennschärfe von 1?

A

Das Item repräsentiert das Konstrukt oder die Skala perfekt - guter Repräsentator

Angestrebt werden möglichst hohe Trennschärfekoeffizienten. Unter .30 sind sie sehr niederig.

29
Q

Wovon ist die Höhe der Trennschärfekoeffizienten abhängig?

A

Grad der Gemeinsamkeit dessen, was durch die Aufgabe durch den gemeinsamen Test gemessen wird (Aufgaben müssen so gestaltet sein, dass sie eine sinnvolle Unterscheidung zwischen Testpersonen ermöglichen)

Zahl der möglichen interindividuellen Differenzierungen, die eine Aufgabe treffen kann (n+1)

30
Q

Wie hängen Trennschärfe und Reliabilität zusammen?

A

Hohe Trennschärfen begünstigen hohe Reliabilitäten

31
Q

Wo sind die Trennschärfen am höchsten?

A

Bei mittleren Schwierigkeiten bei den Aufgaben

32
Q

Nennen Sie ein Beispiel für eine Berechnung der Trennschärfe

A

Bei Aufgaben mittlerer Schwierigkeit können mehr Unterscheidungen gemacht werden als in den extremen Bereichen, dies begünstigt (aber garantiert nicht!!!) höhere Trennschärfekoeffizienten:

N = 100 Personen haben einen Test bearbeitet

Aufgabe A: von 50% der Personen gelöst = 50 x 50 = 2’500 Unterscheidungen

Aufgabe B: von 20% der Personen gelöst = 20 x 80 = 1’600 Unterscheidungen

Aufgabe C: von 5% der Personen gelöst = 5 x 95 = 475 Unterscheidungen

Aufgabe D: von 1% der Personen gelöst = 1 x 99 = 99 Unterscheidungen

33
Q

Welches sind Einflussfaktoren für die Trennschärfe?

A
  • Varianz: ist dann ein Problem, wenn ein Teil der Stichprobe Items anders beantwortet als der andere Teil. Bei dichtomen Items ist die Varianz direkt abhängig von der Itemschwierigkeit
  • Ausreisserwerte: können Korrelation unnatürlich in die Höhe treiben
  • Verteilungen: Angesprochen sind v.a. Items in den Randbereichen der Verteilung. Wir können aber nicht auf Items mit unterschiedlichen Verteilungen verzichten, da wir in der Diagnostik auch in extremen Bereichen messen wollen
  • Homogenität: in homogenen Stichproben (Leute sind sich sehr ähnlich) ist die Varianz der Messwerte eingeschränkt
  • Selektionskennwert: bei dichotomen Items spielt der Schwierigkeitsindex eine wichtige Rolle. Bestimmung des Selektionswert, dadurch wird die Trennschärfe von Items mit extremer Schwierigkeit nach oben korrigiert
  • Schwierigkeit!
34
Q

Was können wir zu negativen Trennschärfen sagen?

A

Können vorkommen, bspw. bei ungeeigneten Items. Z.b. wenn Items nich umgepolt werden (geht oftmals vergessen)

35
Q

Was bedeutet Fremdtrennschärfe?

A

Aussage über Beziehung eines Items zu einem (externen) Kriterium. Eine niedrige Fremtrennschärfe kann auch bedeuten, dass die Items besonders schwierig (von wenig Teilnehmer*innen gelöst) sind, ggf. kann es dann sinnvoll sein, diese weiterhin beizubehalten, um im oberen Leistungsbereich gut differenzieren zu können

36
Q

Wichtige Punkte Schwierigkeit vs. Trennschärfe

A
  • obwohl mittlere Itemschwierigkeiten optimal sind - sollte ein Test dennoch leichte und schwierige Items enthalten (z.B.: wenn ein Test kreieren und nur sagen wollen, ob jemand bestanden oder nicht bestanden hat - dann sind mittlere Itemschwierigkeitne ok. Aber wenn wir Noten verteilen wollen, müssen wir leichte und schwierige Items abfragen.
  • gleiche Itemschwierigkeit gehen nicht zwangsweise mit denselben Trennschärfen einher