Voraussetzungen und theoretische Basis psychometrischer Tests Flashcards
was ist ein psychologischer Test?
- Messmethode
- mit der ein oder mehr psychologisches Merkmal erfasst wird
- standardisiertes Vorgehen
- erhebt eine verhaltensstichprobe
- Verhalten wird durch die realisierten Bedingungen im test hervorgerufen
- Variation soll weitestgehend auf Variation des zu messenden Merkmals zurükzuführen sein
- Ziel ist eine quantitative
- und / oder qualitative Aussage über das Merkmal
=> es ist Anmaßend einfach von einem Wert auf eine Eigenschaft zu schließen, dieser Schritt muss reflektiert werden!!! -> theoretische Modellannahmen über die Entstehung von testantworten
wichtigstes Kriterium, wonach sich Tests einteilen lassen?
- Messgegenstand
Grundvoraussetzungen für die Konstruktion eines Tests
- das Merkmal sollte hinreichend definiert und erforscht sein (aber auch bisschen nebulös hilft natürlich wiederum der Forschung…)
- Verhalten im Test indiziert das Merkmal: aber warum soll das Wissen darüber, wo die sonne aufgeht einen Rückschluss auf Intelligenz zulassen? -> dem test liegen Annahmen oder Modelle zugrunde (bsp. fluide und kristalline Intelligenz), Anforderungsanalyse wurde gemacht und daraufhin der test konstruiert, Symptome kennzeichnen ie Störung (Experten haben sich geeinigt)
Annahmen der KTT (klassischen Testtheorie)
KTT = Reliabilitätstheorie -> liefert theoretische Begründung der reliabilität (Messgenauigkeit) der
Annhamen:
- Testwerte sind fehlerbehaftet
für Kennwerte der Population werden grieschische und für Stichprobe lateinische Buchstaben verwendet.
- es gibt einen wahren Wert = t (grieschisch tau)
- und einen beobachteten wert = x
- und die Abweichung der beiden voneinander ist der Messfehler = E (grieschisch epsilon)
- > der Messfehler variiert von messung zu Messung -> es lassen sich Formeln zur Schätzung der Messgenauigkeit (reliabilität) herleiten -> können den Bereich bestimmen, in dem der Wahre Wert einer Person liegt
- Grundvoraussetzung ist, dass die Testwerte angemessen variieren, Varianz darf nicht Null betragen und nicht unendlich groß sein
a priori Axiome (Grundannahmen) der KTT -> stellen Grundlagen für mathematische Ableitungen dar
- jeder beobachtete Wert X einer Person i in einem Test setzt sich zusammen aus einem wahren Wert Ti dieser person i und einem fehlerwert Ei
=> Xi=Ti+Ei - für jede Person i gibt es einen wharen (damit ist nur die wahre Ausprägung eines Merkmals gemeint, wie sie in diesem Test gemessen wird) Wert im Test, wenn ich den Test unendlich widerhole (ohne Erinnerungs- oder Übungseffekte) bekomme ich den Wahren wert-> Mittelwert oder erwartungswert aller Messergebnisse
=> Ti=E(Xi) - weil der Messfehler bei ganz vielen Wiederholungen = 0 wird. Für jede Testperson i stellt der Messfehler Ei eine Zufallsvariable mit dem erwartungswert (Mittelwert bei unendlich vielen Messungen) null dar
=> E(Ei)=0 - Die Messfehler sind unabhängig vom wahren Wert: Die Fehlerwerte Ei sind unabhängig von den wahren Werten Ti der Person i im Test. (bedeutet soviel wie: der test misst im unteren Bereich ebenso genau wie im oberen Bereich. Wenn das nicht der Fall ist bedeutet es z.B.: je höher der Depressionsscore, desto größer der Messfehler)
=>Corr (Ei, Ti)=0 - Die Messfehler zweier Tests A und B sind unkorreliert. Zwischen den Fehlerwerten zweier tests besteht eine Nullkorrelation (es geht um die gleiche Person, die zwei Tests macht). Dieser grundgedanke ist auch übertragbar auf einzelne Testteile bis hin zu Items -> die korrelation zweier Testwerte muss also auf den wahren Zusammenhang der merkmale zurückzuführen sein. Messfehler = unsystematische Fehler, die korrelation zweier tests kann aber durcaus durch systematische fehler erhöht sein, etwa die Anz
tworttendenz einer person.
=> Corr (Ea, Eb)=0 - Die Messfehler in einem test A sind unabhängig von den wahren Werten in Test B. Auch wenn die Person in einem anderen Merkmal ohe Werte hat, hat das keinen Effekt auf den Messfehler und damit auf die genauigkeit der Messung (z.B. ist Messgenauigkeit eines intelligenztests nicht davon abhängig ob die testpersonen hoch oder niedrig depressiv ist).
=> Corr (Ea, Tb)=0
wie entstehen Messfehler?
- bei der Testkonstruktion (Items oder Instruktion die mehrdeutig sind)
- bei der Durchführung (Testsituation und Zustand der Testperson sowie Testleiter variiert)
- bei der Auswertung (manchmal keine standardisierung möglich)
Definition: Reliabilität
= ist der Anteil der Varianz der wahren Werte (T) an der Varianz der beobachtbaren Werte (X)
Rel = Reliabilität (rTT wird manchmal allegemein für Reliabilität verwendet, manchmal nur für Retest-reliabilität)
Ein Reliabilitätskoeffizient von .80 bedeutet, dass die beobachtete Varianz der Testwerte zu 80% auf Unterschiede zwischen den wahren Werten der Testperson zurückzuführen sind und zu 20% auf Fehlervarianz. Wir können also nur wissen, wie stark die vorliegenden Messwerte streuen.
Ableitungen aus den Axiomen der KTT
Was ist die Güte des Tests?
Wie komme ich von der reliabilität zur Retest-Reliabilität und kann somit die Reliabilität des Tests schätzen?
Reliabilität = Verhältnis der Varianz wahrer Werte zur Varianz der beobachteten Werte.
=> Rel= Var(T) / Var (X)
(wir kennen nur den Nenner, nicht den Zähler. Wenn T=0, dann beobachte ich eigentlich nur Fehler. Wenn Varianz (T) = Varianz (X), dann habe ich eine hohe Reliabilität)
beobachtete Werte setzen sich additiv aus Wahren- und Fehlerwerten zusammen
=> X=T+E
Die Kovarianz zwischen addiditv zusammengesetzten Variablen lässt sich in verschiedene Kovarianzanteile zerlegen: Cov(Xt, Xt´) der Testwerte (Xt, Xt´) aus den tests t und t´:
Cov(Xt, Xt´) = Cov(Tt,Tt´)+Cov(Tt,Et´)+Cov(Tt´Et)+Cov(Et,Et´)
Aber die Fehlerwerte zeiwer Tests (hier t und t´) sind ja unkolleiert und korrelieren auch nicht mit den wahren Werten eines anderen Tests. Deshalb werden alle Kovarianzanteile, in denen Et oder Et´enthalten sind =0
=> Kovarianz der beobachteten werte = Kovarianz der wahren Werte
=> Cov(Xt,Xt´) = Cov(Tt,Tt´)
Die Varianz der wahren Werte entspricht der Kovarianz der beobachteten Werte.
t´ist die Wiederholung von t, deshalb nehmen wir an, dass die Wahren Werte Tt und Tt´ in einer festen beziehung zueinander stehen: völlig identisch (tau-äquivalent Tt=Tt´) oder sich um einen konstanten Wert unterscheiden (Tt=Tt´+Konstante). deshalb ist die Kovarianz identisch mit der Varianz der wahren werte
=> Cov(Tt,Tt´) = Var (Tt)
Fazit: die Varianz der Wahren Werte T kann somit geschätzt werden, nämlich als Kovarianz der beobachteten Werte Cov(Xt,Xt´), die bei Wiederholung des tests unter identischen bedingungen anfallen.
In der Formel für Reliabilität können wir jetzt also die Varianz (T) durch die Kovarianz (Xz,Xt´) ersetzen undVarianz (X) durch das Produkt der Standardabweichung SD von Xt und Xt´
=> Rel= Cov(Xt,St´) / SD(Xt)xSD(Xt´) = Corr(Xt.Xt´)
Somit taucht der unbekannte “wahre Wert” jetzt nicht mehr auf. wir können die Reliabilität des tests über die Korrelation des tests mit sich selbst (durch testwiederholung) schätzen = Retest-Reliabilität
Reliabilität= Korrelation der beobachteten Werte bei einer Messwiederholung
- Was ist die Kovarianz
- was die Korrelation
- was ist die Standardabweichung SD
- der zusammenhang der Varianz zweier Werte.
- standardisierte Kovarianz (Cov)
- Varianz im Quadrat
Korrelation = Kovarianz / Standardabweichung Corr = Cov/SD
Welche vier Methoden der Reliabilitätsschätzung lassen sich aus den Axiomen der KTT ableiten?
- Retest-Reliabilität
- Paralleltest-Reliabilität
- Split-Half-Reliabilität
- Interne Konsistenz
Retest-Reliabilität
rTT
derselbe test wird der selbten Stichprobe zweimal dargeboten.
Das richtige Zeitintervall zu finden ist schwierig:
- lang genug, damit nicht Übungs und wiederholungseffekt
- kurz genug, dass sich der wahre Wert nicht verändert
=> hilft nur pragmatik: wenn Forschung zeigt, dass ein Merkmal relativ stabil, sind lange Retest-Intervalle anzustreben.
- Erinnerungs und Ermüdungseffekte hängen von den testpersonen und deren otivation ab
-> Retest-reliabilität kann sich künstlich erhöhen, wenn Probandinnen versuchen extra ähnlich zu antworten
ABER: wird nicht durch Merkmalsveränderungen beeinflusst die alle betreffen, weil Mittelwertsunterschiede zwischen erster und zweiter Messung keinen Einfluss auf die Höhe der korrelation haben.
Paralleltestreliabilität
gilt als Königsweg
2 Messzeitpunkte
identische Stichprobe
zweiter Test ist nicht mit dem ersten identisch sondern nur inhaltlich äquivalent
Reliabilität = Korrelation der beiden Tests
=> da kein Erinnerungs und Übungseffekt kann ein kurzes zeitintervall gewählt werden und dadurch verliert das problem der Merkmalsfluktuation an Bedeutung
Schwierig: die Konstruktion zweier inhaltlich äquivalenter tests ist super aufwendig. Sie sollten die gleichen Mittelwerte und Streuung aufweisen, hoch miteinander uns anderen Variablen korrelieren. Es gibt wegen des aufwands nicht viele tests mit Parallelversionen, mahmal werden einfach nur die reihenfolge der items vertauscht = Pseudo-Paralletests
Split-Half-Reliabilität
Test wird nach durchführung in möglichst gleiche Teile aufgeteilt -> zwei Testwerte für jeden Probanden
- Odd-even-Methode: Aufteilung nach geraden und ungeraden Items (gut wenn Items nach Schwierigkeit geordnet oder gar keine Ordnung aufweisen)
- Aufteilung in erste und zweite Hälfte: geht nicht, wenn test nach schwierigkeit geordnet oder zeitlich begrenzt
- Halbierung auf Basis von Itemkennwerte: für alle Items erstmal Schwierigkeit und Trennschärfe ermitteln, dann möglichst ähnliche Itempaare bilden
-> bei Split-Half wird die Korrelation der beiden Hälften unterschätzt (weil weniger items und die Reliabilität nimmt mit mehr Items zu)
=> mit der spearman-Brown Formel schätzt man deshalb, wie hoch die reliabilität mit der doppelten Itemzahl wäre
Spearman-Brown-Formel
lässt sich die Höhe der Reliabilität bei veringerung oder Verkürzung des tests um k Testteile bestimmen. Umgekehrt lässt sich auch die erforderliche Testlänge (Itemzahl) ermitteln, um gewünschte Höhe der reliabilität zu erreichen.
=> Rel korr= k x Rel / 1+ (k-1) x Rel
Rel korr: für die testlänge korrigierte Reliabilität
Rel: Reliabilität des tests
k= Faktor, um den sich die Itemzahl erhöht
beispiel: korr beider Testhälften: r=.70
Verlängerungsfaktor: k=2 (Verdoppelung der Itemzahl)
–> Rel korr=.82 für Split-Half des tests
interne Konsistenz
= Verallgemeinerung der Halbierungsmethode: test wird nicht nur in zwei Hälften zerlegt, sondern in so viele Teile wie Items -> Korrelationen müssen ermittelt und die erhaltenen Werte auf die jeweilige Länge der Skala aufgewertet werden
–> Formel von Cronbach:
alpha = Cronbachs-Alpha
in der Formel wird die Summe der Varianzen der Items mit der varianz des Testwerts in Beziehung gesetzt.
Wenn es keine Kovarianz zwischen den Items gibt, entspricht die Summe der itemvarianzen exakt der varianz des Tests und Alpha wird null.
Je größer die zusammenhänge (Kovarianzen) zwischen den Items, desto mehr geht Alpha gegen 1
Formel verrät, von welchen faktoren die Höhe von Alpha abhängig ist:
von der Itemzahl, der Itemvarianz, Varianz der Testwerte und der Kovarianz der Items
-> je höher die items interkorrelieren, desto höher fällt Alpha aus.
ABER, daraus folgt nicht der umkehrschluss, dass ein hohes alpha für eine große Homogenität des tests spricht, weil Alpha hängt noch von weiteren Faktoren ab
-> je mehr Items ein Test enthält, desto höher fällt Alpha aus
-> deshalb kann ein test für ein heterogenes Konstrukt, der aus niedrig korrelierenden Items besteht, bei vielen Items ein hohes Alpha aufweisen
-> weist ein kurzer test ein hohes Alpha auf, sind die items meist redundant
-> Wenn ein Test so konstruiert ist, dass fast alle items bis zu einem bestimmten Punkt gelöst werden und dann nicht mehr (beipsiel Speed-test bei dem kaum fehler vorkommen), dann fällt alpha extrem hoch aus und ist aber kein gutes maß zur Schätzung der reliabilität
-> Alpa ist (wie alle reliabilitätskoeffizienten) stichprobenabhängig. In heterogenen Stichproben fällt die Varianz der testwerte höher aus, was dann zu höheren Werten für alpha führt
=> das gilt alles auch für split-half-Reliabilität, die eng mit Alpha verbunden ist