Testevaluation Flashcards

1
Q

Testevaluation - Einordnung in die Schritte der Testkonstruktion

A

Schritt 3 (Verteilungs-, Items- & Skalenanalyse) und Schritt 4 (Itemrevision & -selektion)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Testevaluation: Verteilung - Normalverteilung

A

1.Gausche Glockenkurve, Symmetrische Verteilung
2. Mehrheit der Werte liegt um den Mittelpunkt der Skala
3. Vorraussetzung für viele statistische Verfahren
s F. 11

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Testevaluation: Verteilung - Schiefe: Definition

A

Maß für die Symmetrie/ Asymmetrie eines Items

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Testevaluation: Verteilung - Kurtosis (Exzess): Definition und Wertebedeutung

A
  1. Definition: gibt Auskunft über die Breit- bzw. Schmalgipfligkeit
  2. Wertebedeutung:
    a) Wert > 0: spricht für eine schmalgipflige (spitze) Verteilung –> Leptokurtisch
    b) Wette < 0: spricht für eine breitgipflige (flache) Verteilung –> platykurtisch
    c) Werte = 0 keine Abweichung von Normalverteilung –> Mesokurtisch
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Testevaluation: Verteilung - Gipfligkeit (Modalität)

A

Ein- vs. mehrgipflige Verteilung:

  1. Eingiflig: Normalerweise eingipflig erwünscht (siehe Normalverteilung)
  2. Zweigipflig (bimodale Verteilung): Wenn zweigipflig –> Item ggf. mehrdeutig formuliert?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ursachen für Abweichungen von einer Normalverteilung

A
  1. Antwortverteilung ist Zweipigflig/Mehrgipflig:
    Mögliche Ursachen
  2. Antwort ist schief
  3. Weitere möglichkeiten für Abweichungen von Normalverteilung
    –> Übung zur Verteilungen s. F. 16-20
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Dekriptive Daten: Mittelwerte - Definition und Berechnung

A
  1. Definition: zentrale Tendenz einer Verteilung.
  2. Berechnung: Alle Werte addiert und durch die Anzahl der Werte geteilt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Deskriptive Daten und Verteilungen: Merksätze - Hohe SD spricht für…

A

… große Streuung der Werte abseits des Mittelwerts (z.B.: bimodale Verteilung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Testevaluation: Itemschwierigkeit - Schwirigkeitsindex (Populationsindex): Ziel

A

Jedes Item sollte zwischen Merkmalstragenden differenzieren können (z.B.: gelöst vs. nicht gelöst, bejahen vs. verneinen, etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Itemschwierigkeit bei dichotomen Aufgaben: Berechnung und Interpretation

A
  1. Definition Itemschwirigkeit bei dichotomen Aufgaben: Anzahl aller, die das Item richtig beantwortet aben geteilt durch die Anzahl aller Teilnehmenden, dann multipliziert durch 100
  2. Interpretation:
    a) Hoher Schwirigkeitsindex = niedrige Schwierigkeit (leichtes Item)
    b) niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres item)
    für Beispiel s F. 26
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Itemschwirigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben): Bei Power-Tests

A
  1. Definition - Power-Test: Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck –> Niveautests
  2. Itemschwirigkeit: Falschantworten und ausgelassene Antworten (übersprungene) werden gleich behandelt –> Formel bleibt gleich s. F. 27
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Itemschwierigkeit bei dichotomen Aufgaben: Korrektur für Ratewahrscheinlichkeit

A
  1. items können durch Raten gelöst werden –> kann Testergebnis verfälschen
  2. Prinzipiell müsste man also für die Ratewahrscheinlichkeit korrigieren, dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt bei 0

A
  1. Anwendung:
    bei metrischen Daten
  2. Berechnung: bei metrischen Daten wird der Schwirigkeitsindex Pi für intervallskalierte Stufen k des Items i von 0 bis k -1 berechnet (Antwortskala). Durch Teilung der Spaltensummen durch die maximale Punktsumme
  3. Formel: Spaltensumme / ((Anzahl der Probanten mal (maximale Antwort -1)) * 100
    –> Achtung Formel gilt nur, wenn Antwortskala von 0-k geht!
    s. Beispiel und Formel F. 31
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt nicht bei 0

A
  1. Änderung: Im Nenner muss nun der minimal errechbare Wert von dem maxinal erreichbaren Wert abgezogen werden
    –> Achtung: es muss von jeder Probant*in der minimale Wert abgezogen werden (im Zähler)
  2. Formel: (Spaltensumme minus minimale Antowrt für das Items für jeden Probanten) / ((Anzahl aller Probanten * (max. Antwort - min. Antwort)) * 100

s. F. 32

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Itemschwirigkeit bei der Messung typischen Verhaltens - Merke

A
  1. Welche Formel verwenden: ist abhängig von der Antwortskala:
    a) Dichotom oder intervallskaliert
    b) Niedrigster Wert 0 oder anderer Wert
  2. Itemschwirigkeit:
    a) ist immer abhängig von der untersuchen Stichprobe
    b) Höchste Differenzierung für typisches Verhalten bei P1 = 50
    c) Für eine Differenzierung auf in den Extremen ist eine breite Streuung von Items unterschiedlicher Schwierigkeit anzustreben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Testevaluation: Itemvarianz - Definition

A
  1. Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe: Wie stark unterscheiden sich die Antworten auf ein Item zwischen verschiedenen Personen?
17
Q

Testevaluation: Itemvarianz und Itemschwierigkeit

A
  1. Items mit mittlerer Schwierigkeit differenzieren viele Probant*innen
  2. Items mit hoher oder niedriger Schwierigkeit differenzieren wenige Probant*innen
  3. Zusammenhang zwischen Itemschwierigkeit und Varianz ist kurvilinear (quadratisch)
  4. Items mit mittlerer Schwierigkeit liefern die höchste Differenzierungsfähigkeit und damit die größte Varianz:
    Var(xi) = 0.25 bei Pi= 50

s. F. 37

18
Q

Itenvarianz bei intervallskalierten Items

A
  1. Die itemvarianz legt die Differenzierungfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest
    –> Formel nicht klausurrelevant
19
Q

Testevaluation: Itemtrennschärfe: Definition, Aussagekraft & Vorraussetzung

A
  1. Definition: Ist die Korrelation zwischen Itemswert mit einem Testwert, der aus den übrigen Items des Tests gebildet wird (Item-Test-Korrelation) = rit
    r = Korrelationskoeffizient, i = Item, t = Test
  2. Aussagekraft: Wie prototypisch ist ein Item für eine Skala/ wie gut repräsentiert es die Gesamtskala?
  3. Vorraussetzung: Alle Items messen inhaltlich dasselbe Merkmal ( = Itemhomogenität)
20
Q

Testevaluation: Itemtrennschäfte - Berechnung

A
  1. Testwert: Der Testwert eines Probanten wird üblicherweise als Zeilensumme sämtlicher Itemwerte des Probanten gebildet (z.B.: Itemwerte: Item (I) 1 = 5, I2 = 3, I3 = 4, Testwert = 5 + 3+ 4 = 12)
  2. “part-whole Korrektur”:
    a) Zweck: Um die Trennschäfe nicht zu überschätzen
    b) Berechnung: die Zeilensumme wird ohne das betreffende Item gebildet, weil das betreffende Item innerhalb des Skalenwerts sonst mit in die Korrelation eingeht (Trennschäfe wird überschätzt) (im Beispiel: part-whole Korrektur für I2= 5 + 4 = 9)
    s. F. 41
21
Q

Interpretation der Trennschäfe: Was bedeutet ein WErt von 1, 0 & -1?

A

Wertebereich: Kann Werte zwischen -1 und 1 annehmen (=Korrelationskoeffizient)
1. rit –> 0: Item differenziert gegenüber dem Gesamttest nicht gut und ist damit ein ungeeigneter Indikator des Gesamttestwerts

  1. rit –> 1: Ite ist homogen gegenüber dem Gesamttest. Aber hohe Werte nicht immer gut –> ist Item redundant?
  2. rit –> -1: Item ist invers homogen gegenüber dem Gesamttest ( –> bei negativem Zusammenhang Item ggf. falsch kodert / negativ formuliert?)
22
Q

Testevaluation: Kriterien der Itemselektion: Was muss berücksichtigt werden?

A
  1. Verteilung
  2. Schwierigkeit
  3. Varianz
  4. Trennschäfe
    gleichermaßen
23
Q

Testevaluation: Verteilung - Schiefe - Arten der Schiefe

A
  1. rechtsschief: linkssteile Verteilung - Schiefe > 0
  2. linksschief: rechtssteile Verteilung - Schiefe < 0
  3. normalverteilung: symmetrische Verteilung - Schiefe = 0
24
Q

Testevaluation: Verteilung - Schiefe - Effekte

A
  1. Bodeneffet: Mittelwerte sind sehr niedrig, kaum jemand “löst” das Items, differenziert schlecht im unteren Bereich
  2. Deckeneffekt: Mittelwert sehr hoch, fast alle “lösen” das Item, differenziert schlecht im oberen Bereich
25
Q

Ursachen für Abweichungen von einer Normalverteilung: 1. Antwortverteilung ist zweipipflig/ Mehrgipflig - mögliche Ursachen

A
  1. Item war polarisierend
  2. Item war wiedersprüchlich/mehrdeutig formuliert
  3. Item hat mehrere Dinge gleichzeitg abgefragt
26
Q

Ursachen für Abweichungen von einer Normalverteilung: 2. Antwort ist Schief - mögliche Ursachen

A
  1. Items war zu leicht (linksschief)
  2. Item war zu schwer (rechtsschief)
27
Q

Ursachen für Abweichungen von einer Normalverteilung: 3. Weitere Möglichkeiten für Abweichungen von einer Normalverteilung

A
  1. Heterogene Stichproben: zwei Unterstichproben, die zusammen eine Mischverteilung bilden
  2. das Merkmal ist nicht normalverteilt
    –> Übung zur Verteilungen s. F. 16-20
28
Q

Dekriptive Daten: Streuung- Definition und Interpretation

A
  1. Definition: Streuung= Verteilung aller Werte um den Mittelwert. Häufig berechnet als Standardabweichung (SD)
  2. Interpretation:
    a) Geringe SD: Die Werte liegen in der Regel nach am Mittelwert
    b) Hohe SD: Die Werte liegen in der Regel weit vom Mittelwert entfernt
    s.F. 21
29
Q

Deskriptive Daten und Verteilungen: Merksätze: SD nahe 0 spricht für…

A

…wenig bis keine Streuung abseits des Mittelwerts (z.B.: Spitze Verteilung)

30
Q

Testevaluation: Itemschwierigkeit: Schwierigkeitsindex (Populationsindex):Definition

A

Schwirigkeitsindex (auch Popularitätsindex) Pi stellt den prozentualen Anteil richtiger (bzw. zustimmender) Antworten für das Item i in einer Stichprobe der Größe n dar

30
Q

Deskriptive Daten und Verteilungen: Merksätze: sehr hohe bzw. sehr niedrige Mittelwerte spricht für…

A

…Decken bzw. Bodeneffekt (z.B.: schiefe Verteilung)

31
Q

Testevaluation: Itemschwierigkeit: Schwierigkeitsindex (Populationsindex): Interpretation

A
  1. Index hoch: max 100, wenn die Aufgabe leicht ist (bzw. im Sinne eines Merkmales bekräftigt wird)
  2. Intex niedirg: min. 0, wenn die Aufgabe schwierig ist (bzw. das Item abgelehnt wird)
    –> “Leichtigkeitsindex”
32
Q

Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben): bei Speed-Tests

A
  1. Definition: Leistungstests mit Zeitbeschränkung
  2. Itemschwierigkeit: unbearbeitete Antworten (nicht geschafft aufgrund der Zeitbeschränkung) werden korrigiert berücksichtigt
    –> bei der Berechnung des Schwierigkeitsindex werden unbearbeitete Items ausgelassen: nb = richtige + flasche + ausgelassene Items
    s. F. 28
33
Q

Testevaluation: Itemvarianz bei dichotomen Items

A

ist das Produkt der Wahrscheinlichkeiten, das Item zu lösen (bejahren) und nicht zu lösen (verneinen), und hängt direkt mit der Schwirigkeitsindex (pi) zusammen
s. F. 36

34
Q

Kriterien der Itemsselektion: Schwierigkeitsbereiche der Items

A
  1. Idealerweise: differenziert ein Test über den gesamten Schwierigkeitsbereich ( 5 =< Pi <= 95):
  2. Mittlere Schwierigkeit: Items mit mittlerer Schwierigkeit differenzieren gut zwischen Merkmalsträgern mit hoher und niedriger Merkmalsausprägung (große Itemvarianz) am besten
  3. extreme Merkmalsausprägungen: Zur Erfassung extremer Merkmalsausprägungen sind Items mit hoher oder niedriger Schwierigkeit (geringe Itemvarianz) auszuwählen

4.Varianz: jedes Item sollte aber Varianz aufweisen (differenzierungfähig sein)

35
Q

Kritieren der Itemselektion: Trennschärfe

A
  1. Grundsätzlich sollte Items über eine gue Trennschärfe verfügen rit zwischen 0.4 und 0.7
  2. Items ohne Trennschärfe sollte ausgeschlossen werden (rit –> 0)
36
Q

Trennschärfe: Orientierungsregeln

A
  1. rit > 0.4: angemessene bis ausgezeichnete Trennschärfe je nach Homogenität bzw. Heterogenität des Konstruktes
  2. rit zwischen 0.2 und 0.4: Grenzbereich: Item sollt entweder ausgeschlossen oder revidert werden
  3. rit < 0.2: Item sollte ausgeschlossen werden