5. Gütekriterien II Flashcards
Validität Definition
Unter Validität wird die Übereinstimmung von Testergebnissen mit dem, was de Test messen soll, verstanden. Es handelt sich um ein Urteil darüber, wie angemes bestimmte Schlussfolgerungen vom Testwert auf das Verhalten außerhalb des Te oder auf ein Merkmal der Person sind.
–> Gültigkeit einer Messung
Beispiel: Die Waage zeigt das Gewicht an, nicht die Temperatur
Validität gilt als das wichtigste Gütekriterium!
Validität ist vergleichbar mit Wirksamkeitsnachweis bei Medikamenten Validierung eines Verfahrens läuft in der Regel immer unterschiedlich ab
Man unterscheidet im Wesentlichen drei verschiedene Arten von Validität:
a) Inhaltsvalidität
b) Kriteriumsvalidität
c) Konstruktvalidität
…diese beinhalten noch weitere zugehörige Validitätsbegriffe / Aspekte
Inhaltsvalidität
Unter Inhaltsvalidität versteht man, wie repräsentativ die Items eines Tests für das zu messende Merkmal sind.
Inhalte (= Gesamtheit des Materials z.B. Items, Antwortmöglichkeiten, Stimuli…) messen das zu messende Merkmal
Stellen die Items eine repräsentative Auswahl aus allen möglichen Items dar, welche das interessierende Merkmal erfassen könnten?
Kann das interessierende Konstrukt Unterschiede in den beobachteten Antworten erklären?
Inhaltsvalidität ist etwas hypothetisches (kann nicht berechnet / numerisch angegeben werden)
In der Regel ist die Inhaltsvalidität als hoch anzusehen, wenn Autorinnen eines Tests ihr Konzept und Verfahren bei der Konstruktion und Auswahl von Items (Indikatoren) genau darlegen
Aber: Inhaltsvalidität ist NICHT Augenscheinvalidität („sieht doch gut aus“)
Konsens bezüglich relevanter Items kann auch numerisch ausgedrückt werden (Korrelation zwischen unabhängigen numerischen Urteilen von Expertinnen)
Kriteriumsvalidität
Unter Kriteriumsvalidität versteht man den Zusammenhang zwischen Testergebnis und konkreten Leistungen oder Verhaltensweisen außerhalb der Testsituation. Das Kriterium muss für den vorgesehenen Einsatzbereich des Tests relevant sein.
Wie stark hängt das Testergebnis mit tatsächlichem Verhalten zusammen?
- Numerisch bestimmbar (Korrelation)
- Erhebung des Kriteriums kann im gleichen Zeitraum stattfinden wie Testerhebung, aber auch z.B. zu einem deutlich späteren Zeitpunkt möglich.
Konkurrente Validität Prädiktive Validität Inkrementelle Validität
Kriteriumsvalidität
(1) Konkurrente Validität: =
= Übereinstimmungsvalidität
Korrelation zwischen Test und Kriterium innerhalb eines gegebenen Zeitpunkts (wird relativ zeitgleich erfasst)
Bsp.: Messung von Schüchternheit und Anzahl Bekannter als Kriterium
Bsp.: Messung von Konservatismus und gewählte politische Partei bei der letzten Wahl als Kriterium
Kriteriumsvalidität
(2) Prädiktive Validität =
= Vorhersagevalidität: Korrelation zwischen Test zu einem Zeitpunkt und später erfasstem/auftretendem Kriterium
Bsp.: Messung von Schüchternheit und Anzahl Bekannter als Kriterium
Bsp.: Messung von idealen Partnerwahlpräferenzen und tatsächlichen Eigenschaften eines/r späteren Partners
Kriteriumsvalidität
(3) Inkrementelle Validität:
zusätzliche Varianzaufklärung eines Tests in einem Kriterium gegenüber einem anderen etablierten Test (meist per Regressionsanalyse oder mehrere Korrelationen)
Idee:
Das interessierende Kriterium sollte möglichst umfassend erfasst werden
Wann zu benutzen?
Es gibt mehrere Tests, die ein Merkmal messen. Entscheidung welcher verwendet werden soll. (Welcher hängt stärker mit dem Kriterium zusammen/ klärt mehr Varianz auf?)
Wenn man mehrere diagnostische Verfahren ergänzend benutzen möchte, um möglichst viel Varianz eines Kriteriums aufzuklären (z.B. Auswahl von Bewerber*innen für einen Job)
Konstruktvalidität
Unter Konstruktvalidität versteht man empirische Belege dafür, dass ein Test das Konstrukt erfasst, welches er erfassen soll - und nicht ein anderes.
Konstrukte = hypothetische Konzepte/ Merkmale
erlangen ihre Bedeutung durch ein Netzwerk anderer Konstrukte im Rahmen
empirischer Forschung (Zusammenhänge zwischen den zu erfassenden Merkmalen mit anderen Merkmalen)
Konstruktvalidität ist die überzeugendste, aber auch die anspruchsvollste Form der Validierung
Erwartungen über (fehlende) Zusammenhänge zwischen dem zu validierenden Instrument und Validitätskriterien werden auf der Basis einer Theorie vorgenommen
Zusammenhang des vorliegenden Tests mit konstruktnahen Tests (konvergente Validität) kein/ geringer Zusammenhang mit konstruktfremdenTests (diskriminante/ divergente Validität)
Einordnung des Konstruktes in das nomologische Netz (Umfeld von Konzepten ähnlicher oder unterschiedlicher Bedeutung; Cronbach& Meehl, 1955)
Zusammenhang mit anderen Konstrukten
Methoden zur Bestimmung der Konstruktvalidität:
Empirische Differenzierung zwischen Gruppen auf der Basis empirischer Daten Experimentelle Differenzierung auf der Basis einer zugrundeliegenden psychologischen Theorie
und eines (quasi-) experimentellen Designs
Faktorenanalytische Differenzierung (Prinzip: hohe Faktorladungen mit dem zu messenden latenten Konstrukt)
Multitrait-Multimethod (MTMM)-Analyse (Prinzip: Korrelationen zwischen verschiedenen Maßen innerhalb eines Konstruktes > Korrelationen zwischen Konstrukten)
Konstruktvalidität
Empirische und Experimentelle Differenzierung
Empirische Differenzierung zwischen Gruppen auf der Basis empirischer Daten
z.B. Validität eines Fragebogens zur Messung von Religiosität
Gabe an 2 Gruppen: Gruppe 1 = Mitglieder einer Kirche, Gruppe 2 = aus der Kirche ausgetreten Unterscheidet der Fragebogen zwischen den beiden Gruppen?
Experimentelle Differenzierung auf der Basis einer zugrundeliegenden psychologischen Theorie und eines (quasi-) experimentellen Designs
z.B. Validität eines Depressionsfragebogens
Gabe an 2 Gruppen: Gruppe 1 erhält Psychotherapie, Gruppe 2 nicht.
Vergleich von Depressionswerten vorher/ nachher zwischen beiden Gruppen
Konstruktvalidität: Faktorenanalytische Differenzierung
Annahme: Zusammenhänge aller Items lassen sich auf gemeinsames Konstrukt zurückführen
Faktorenanalyse = multivariates statistisches Verfahren, dass viele korrelierte beobachtete (= manifeste) Variablen zu wenigen künstlichen, nicht beobachtbaren (= latenten) Variablen reduziert
z.B. Wie viele unterschiedliche Skalen stecken in den Items? Welche Items gehören zu welcher Skala?
Bildet ein Test die theoretische Grundlage ab?
Wenn z.B. nur ein Konstrukt gemessen werden soll, müsste es nur einen gemeinsamen Faktor geben
Bei zwei Subskalen = 2 Faktoren
Gehören die Items zu den jeweiligen Skalen, wie vermutet?
Anstreben einer einfachen Struktur
Konstruktvalidität: Multitrait-Multimethod-Ansatz
Verschiedene Eigenschaften werden mit verschiedenen Methoden erfasst
Darunter konstruktähnliche Eigenschaften und konstruktfremde Eigenschaften
Gleiche und andere Methoden (z.B. Fragebogen und Verhaltensbeobachtung) zur Erfassung
Daraus wird eine Korrelationsmatrix gebildet
Das Konstrukt soll mit ähnlichen Konstrukten positiv (und eher hoch) korrelieren
Das Konstrukt soll mit anderen Konstrukten nicht (oder niedrig) korrelieren
Außerdem: Reliabilität ablesbar (gleiches Konstrukt mit gleicher Methode)
Interpretationshilfe:
1. Dasselbe Merkmal + dieselben Methoden = Reliabilität.
2. Dasselbe Merkmal + verschiedene Methoden = hohe Korrelationen sprechen für die konvergente Validität der Verfahren. Das Merkmal kann also unabhängig von der gewählten Methode erfasst werden. Niedrige Korrelationen = schlechte konvergente Validität.
3. Verschiedene Merkmale + dieselbe Methode = niedrige Korrelationen sprechen für die divergente Validität der Verfahren.
4. Verschiedene Merkmale + dieselbe Methode = hohe Korrelationen deuten auf Methodeneffekte hin (UND niedrige divergente Validität).
5. Verschiedene Merkmale + verschiedene Methoden = Korrelationen sollten am niedrigsten ausfallen (spricht auch für divergente Validität und gegen Methodeneffekte).
Wie beurteilt man die Validität eines Verfahrens?
Korrelationskoeffizienten (-1 bis 1)
Insgesamt sehr schwer zu beurteilen, es gibt keine pauschalen
Kennwerte, spezifische Umstände bedeutsam (welche Art von Validität? Wie lange der Zeitraum zwischen Messzeitpunkten? Welche Verfahren werden verglichen?)
In der Regel: Vergleichswerte ähnlicher etablierter Verfahren suchen
Studie von Hemphill (2003):
Oberes Drittel von Verfahren hatte Validität r = .35 bis r = .78 Mittleres Drittel von Verfahren hatte Validität r = .21 bis r = .33 Unteres Drittel von Verfahren hatte Validität von r = .02 bis r = .21
Zusammenhang zwischen den Gütekriterien
je höher die Objektivität, desto größer die Reliabilität Fehler in Durchführung, Auswertung, Interpretation ⇒Unreliable Messung
Verletzung von Objektivität = Messfehler = niedrige
Reliabilität
geringe Reliabilität führt zu geringer Validität Reliabilität ist eine Voraussetzung für Validität
geringe Reliabilität eines Tests (oder Kriteriums) führt zu geringer Korrelation mit einem anderen Test (oder Kriterium)
Umgekehrt ist geringe Validität trotz hoher Reliabilität möglich