Gütekriterien diagnostischer Verfahren Flashcards
was sind die haupt Gütekriterien und welche Leitfragen charakterisieren sie?
Objektivität (Ergebnisse unabhängig vom Untersucher)
- Testleiterunabhängigkeit
- Verrechnungssicherheit
- Interpretationseindeutigkeit
- > wie stark hängt das Ergebnis davon ab, wer die Testdurchführung leitet, den Test auswertet und interpretiert?
Reliabilität (Messgenauigkeit: Grad der Genauigkeit, mit der best. Merkmal gemessen wird)
- Paralleltest-Reliabilität
- Retest-Reliabilität
- Interne Konsistenz (split-half Methode, Konsistenzanalyse)
- > Wie genau oder zuverlässig ist das Messergebnis? Wie stark verändert sich das Messergebnis beipielsweise bei einer Testwiederholung?
Validität / Gültigkeit
- Inhaltliche Gültigkeit (Triviale Validität)
- Konstruktvalidität (Zshg. mit hypothetischen Konstrukten; konvergente Validität, diskriminante/divergente Validität)
- Kriteriumsvalidität (Zshg. mit konkreten Leistungen/Verhaltensweisen)
- „Evaluation diagnosespezifischer Förderung“
- > wie gut gelingt es, genau das Merkmal zu messen, das mit dem test gemessen werden soll?
Normierung / Eichung (gültige Tabelle, definierte Population, repräsentative Stichprobe)
-> Wie gut lässt sich das Testergebnis mit den Ergebnissen anderer menschen vergleichen?
Weitere Gütekriterien:
Skalierung (adäquate Abbildung der empirischen Verhaltensrelation)
Ökonomie (beansprucht wenig Ressourcen – gemessen am Informationsgewinn)
Nützlichkeit
Zumutbarkeit (‚schonend‘) -> Akzeptanz ist Teilaspekt
Unverfälschbarkeit -> soziale erwünschtheit: “impression-Management” oder “Self-deception” Aber auch “Augenscheinvalidität” (bedeutet Nachvollziehbarkeit für die Testperson)
Fairness (keine Diskriminierung, soll keine Personengruppen strukturell benachteiligen)
- > Test ist nicht an sich Fair oder unfair -> wird erst unfair wenn in Pop. die zum Teil aus benachteiligten Personen besteht
- > beruht auf schätzungen, muss mit falsch positiv oder negativ abgeschätzt werden.
Definition von Objektivität
drei Störungsquellen und der Versuch ihrer Standardisierung
Ergebnisse sind unabhängig vom Untersucher. Dabei gibt es drei Störquellen: Durchführung, Auswertung, Interpretation
Standardisierung (soll Objektivität gewährleisten):
Durchführungsobjektivität: das Verfahren muss immer auf die gleiche Weise durchgeführt werden. Ziel ist die maximale Standardisierung, aber kann nie ganz erreicht werden, weil Geschlecht, Aussehen, Kleidung etc. vom Testleiter variieren. -> alle müssen den Auftrag gleich verstehen, heißt nicht, dass er immer it den gleichen Worten vorgetragen werden muss.
Auswertungsobjektivität: Verhalten wird als empirisches Relativ in Item- und Testscores als numerisches relativ eindeutig klassifiziert. _> gleiches verhalten wird stets nach den selben regeln abgebildet.
Dafür notwendig sind: Klare Anweisungen und Übereinstimmung der Auswerter
-> die auswertungsobjektivität kann varanzanalytisch bestimmt werden als Anteil der Varaianz zwischen den Testprotokollen an der Gesamtvarianz
Interpretationsobjektivität: Auswertung liefert Rohwerte -> alle testanwender müssen diese in die gleichen Aussagen über die testperson transformieren.
Im Testmanual muss klar beschrieben sein, wie man von Rohwert zu Aussage über Merkmalsausprägung kommt.
Definition von Reliabilität
Reliabilitätskoeffizienten
und die verschiedenen Schätzmethoden
Grad der Genauigkeit, mit der ein bestimmtes Merkmal gemessen wird. Dabei gehts um das, was gemessen WIRD, nicht das, was gemessen werden SOLL
-> ob die Waage wirklich das gewicht oder der Intelligenztest wirklich die Intelligenz misst ist eine Frage der Validität
Reliabilitätskoeffizienten: variieren zwischen 0-1. je höher der Wert desto höher die Reliabilität
Schätzmethoden:
Retest-Reliabilität
-> Zeitintervall -> beeinflusst durch stabilität des Merkmals => niedrige Werte also nicht unbedingt dem test anlasten
-> bei Wahl zwischen vergleichbaren Tests wäre Test mit höchsten langfristigen retest-reliabilität zu bevorzugen
Paralleltest Reliabilität
Konstruktionsanforderungen: identitische Mittelwerte und Standardabweichungen, hohe Korrelationen zwischen den parallelen Formen -> in der Praxis selten, weil sehr hoher Konstruktionsaufwand
Split-Half-Reliabilität
hier können Schwankungen der Motivation, der Stimmung, der Aufmerksamkeit bzw. Fluktuation des untersuchten Merkmals praktisch ausgeschossen werden -> kommt instrumenteller Messgenauigkeit am nächsten
Voraussetzung: Homogenität und Anzahl der Items erlaubt die Testhalbierung
Interne Konsistenz: Testskala wird in so viele Teile wie Items vorhanden sind zerlegt -> ermittlung der betreffenden Korrelationen und aufwertung der Werte auf die länge der Skala.
hierbei spielt die Itemvarianz eine wichtige Rolle: die Varianz des Skalensummenwertes setzt sich zusammen aus der summe aller einzelnen Itemvarianzen und aller Interitemkovarianzen -> das Fehlen von itemkovarianz bedeutet, dass jedes Item etwas anderes misst, die Skala also nicht reliabel im Sinne der Konsistenz ist => zur Berechnung: Cronbachs Alpha
Wie hoch soll die Reliabilität sein?
Einflussfaktoren auf die Reliabilität
es ist nicht immer eine hohe interne Konsistenz anzustreben, nur wenn homogene Merkmale gemessen werden sollen. Eine niedrige interne Konsistenz kann auch auf große Messfehler zurückzuführen sein (wenn retest oder Paralleltest reliabilität auch niedrig, dann vermutlich stark Messfehler behaftet)
Alle reliabilitätskoeffizienten sind Stichprobenhabhängig:
heterogen -> große Streuung der testwerte -> höhere Reliabilitätskoeffizienten
=> deshalb immer auf die standardabweichung schauen! wenn die groß ist, dann höhere reliabilität (kann ich auch mit der Eichstichprobe im Testmanual vergleichen)
größe der Stichprobe: Konfidenzintervall von Korrelationskoeffizienten nimmt mit Stichprobengröße ab. Kleine Stichproben erlauben daher nur eine grobe Schätzung der wahren Korrelation
Konfidenzintervall und reliabilität
Intervall in dem der wahre Testwert einer Person mit bestimmter Wahrscheinlichkeit liegt. Dieses ist umso größer, je niedriger die Reliabilität
Definition von Validität
drei Arten von Validität
inhaltliche Betrachtung. Übereinstimmung von testergebnissen mit dem, was der Test messen soll - erlaub ein Urteil darüber, wie angemessen bestimmte Schlussfolgerungen vom Testwert auf das Verhalten außerhalb des Tests oder auf Merkmale der Person sind.
- -> wichtigstes Gütekriterium
- -> komplexe betrachtungsweisen, mehere Aussagen, Urteil über Validität kann nicht durch einzelnen Wert abgebildet werden
Inhaltsvalidität, Kriteriumsvalidität, Konstruktvalidität
Inhaltsvalidität
wie repräsentativ die Items eines Tests für das zu messende Merkmal sind -> dazu sind genaue Kenntnisse des Merkmals erforderlich. Ein inhaltsvalider tets besteht aus einer repräsentativen Auswahl von items aus dem Itemuniversum
-> Inhaltsvalidität wird in der regel dadurch belegt, dass die testautorinnen ihr Vorgehen beschreiben und ihr Konzept darlegen.
Bei der Itemselektion nach Schwierigkeit und trennschärfe ist wichtig darauf zu achten, dass die Repräsentativität nicht wieder verloren geht => versuch die interne Konsistenz zu maximieren kann auf Kosten der Inhaltsvalidität gehen!
Kriteriumsvalidität und die Methoden zu ihrer Berechnung
Kriteriumsvalidität = Zusammenhang zwischen testergebnis und konkreten Leistungen oder Verhaltensweisen außerhalb der Testsituation
Kriterium = konkret, direkt messbar. (sowas wie Intelligenz oder extraversion geht also nicht, das sind Konstrukte)
Was als kriterium in Frage kommt ergibt sich aus der diagnostischen Zielsetzung.
wird meist als Korrelationskoeffizient angegeben, kann aber auch durch Mittelwertsunterschiede oder Effektstärken dargestellt werden
Übereinstimmungs-/Vorhersage Validität: damit wird das zeitliche Verhältnis der Erhebung von test und Kriterium spezifiziert
inkrementelle Validität: das Kriterium soll möglichst umfassend aufgeklärt werden. -> einsatz mehrerer diagnostischer verfahren die sich ergänzen.
Entscheidend: welcher Zuwachs an validität wird mit einem weiteren verfahren erzielt (Zuwachs = Varianzaufklärung = inkrementelle Validität) -> das zusätzliche Verfahren erfasst in diesem Fall einen bisher unberücksichtigten Aspekt des Kriteriums, es besitzt somit gegenüber dem ersten verfahren inkrementelle Vailidität.
–> kann als Semipartialkorrelation mit dem Kriterium berechnet werden oder hierarchisch multiple Korrelation
Konstruktvalidität und die Methoden zu ihrer Berechnung
was ist ein Konstrukt, welche Voraussetzungen müssen für seine erfassung gegeben sein?
-> empirische Beleg dafür, dass ein Test das Konstrukt erfasst, welches er erfassen soll (Konstrukt = gedanklich, abstraktion, theoretische Ebene)
Voraussetzung: gut definierte Konstrukte, verankert in einem nomologischen Netzwerk (Aussagen oder Gesetze, die die Beziehung zwischen beobachtbaren Merkmalen und teinem oder ehreren heoretischen Konstrukten beschreiben)
auf theoretischer Ebene gibt es mehere Konstrukte. Deshalb muss der Test nachweisen, dass er das angestrebte Konstrukt erfasst und nicht ein anderes. Mit anderen sind dem angestrebten Konstrukt nahestehende gemeint.
konvergente Validität: Zusammenhang mit weiteren Indikatoren des Konstrukts, das man erfassen will.
- > gleiches Merkmal unterschiedlich messen (multitrait-Analyse) und korreation anschauen. Wenn zweimal test wird die Korrelation höher sein als einaml Test und einmal Fremdbeobachtung -> Grund: systematische Messfehler => die höhe der Validitätskoeffizienten wird immer auch durch die Methode bestimmt. Deshalb entweder gleiche Methode einsetzen oder extra mehrere Methoden (multitrait-multimethod -Analyse)
=> soll gemeinsame Varainz anzeigen
diskriminante Validität: Zusammenhang mit Indikatoren anderer Konstrukte
=> soll spezifische Varianz anzeigen
-> die konvergente Validität sollte deutlich höher sein als die diskriminante.
=> Konstruktvaidität wird nicht durch einzelnen Koeffizienten ausgedrückt, sondern müssen eine Vielzahl von empirischen Belegen gewürdigt werden.
Belege für die Konstruktvalidität
- Gruppenunterschiede
- Korrelationen und Faktorladungen (tests zum gleichen Konstrukt sollte positiv korrelieren)
- Interne Struktur (items die as gleiche Konstrukt erfassen sollten positiv korrelieren)
- veränderungen über die Zeit
- Veränderungen durch experimentelle Intervention (z.B. niedrigere Depressionswerte nach therapie)
- Untersuchung des Antwortprozesses (untersuchen we die Antworten zustande kommen, z.B. nicht durch falsches Verstehen der Aufgabe)
welche Faktoren beeinflussen die Höhe der Vaildität?
Validität kann nie höher sein als reliabilität.
Wenn ich alles kontrollieren kann, dann ist die Reliabilität hoch, aber ich bin weit weg von der Realität und deshalb sinkt die Validität.
=> Reliabilitäts-Validitäts-Dilemma
Einflussfaktoren:
- Merkmale des Tests (Reliabilität)
- > Formaler zusammenhang von Reliabilität und Validität: lässt sich abschätzen wie hoch die Validität wäre, wenn reliabilität von 1 gegeben wäre (Minderungskorrekturen)
- Merkmale des kriteriums (reliabilität und Validität)
Wie hoch wäre die Validität des Tests bei einer reliabilität des Kriteriums von 1 ? ->Minderungskorrektur
Validität des Kriteriums: Symmetrie und gemeinsame Methodenvarianz - Gemeinsame Merkmale von Test und Kriterium (Methodenvarianz, Konfundierung mit dem gleichen Merkmal)
- Merkmale der untersuchten Personen (Stichprobenumfang, Merkmale der stichprobe)
je kleiner die Stichprobe, umso stärker kann der beobachtete Validitätskoeffizinet nach oben oder unten vom tatsächlichen Wert in der population abweichen -> Stichprobenfehler
-> die stichprobe, an der die Validität ermittelt wurde sollte der teststichprobe möglichst ähnlich sein.
-> Streuung der testwerte beachten: geringere Streuung = Minderung der Validitätskoeffizienten
-> durch Korrektur der Varianzeinschränkung kann die Validität mathematisch korrigiert werden
Validität des Kriteriums: Symmetrie
Symmetrie zwischen Prädiktor und Kriterium. Problem, wenn ein test zur allgemeinen intelligenz an einem Intelligenztest vaildiert wird, der nur schlussfolgerndes denken erfasst,
Totale asymetrie: Prädiktor und Kriterium weisen keine inhaltlichen gemeinsamkeiten auf (bsp. Fragebogen zu gewissenhaftigkeit soll mit berufserfolg korreliert werden. Aber Berufserfolg wurde über die Vorgesetztenbeurteilung von Belastbarkeit und Teamfähigkeit operationalisiert und Gewissenhaftigkeit über die fragebogenskala Ordnungsliebe und Leistungsstreben
partielle asymetrie: Prädiktor und Kriterium werden auf unterschiedlichen Generalisierungsniveaus erfasst
hybride asymetrie: generalisierungsniveau ist zwar auf beiden Seiten gleich, Prädiktor und krierium sind aber inhaltlich unterschiedlich zusammengesetzt
Validität des Kriteriums: gemeinsame Methodenvarianz
wenn ein validitätskriterium mit dem gleichen methodentypus erfasst wird wie der Test (bsp. Leistungstest an einem anderen Leistungstest validiert wird)
=> Korrealtionen kommen mit dadurch zustande, dass test und Kriterium gemeinsame Methodenvarainz aufweisen. Aus Gründen, die nichts mit dem Merkal zu tun haben, erreichen manche Personen in beiden verfahren eher hohe oder niedrige testwerte:
- Anstrengungsbereitschaft
-Soziale erwünschtheit
- Antwortstile
Normierung
Bezugssystem um individuelle testwerte im Vergelcih zu einer größeren und meist repräsentativen Stichprobeeinordnen zu können -> wichtig bei individualdiagnostik.
Variabilitäts- und abweichungsnormen setzen voraus, dass Messwerte normalverteilt sind. Normwert gibt an, wie weit eine Person mit ihrer testleistung unter oder über dem Mittelwert einer Vergleichsstichprobe liegt.ausgedrückt
Standardnormalverteilung: M=0 und s=1
Die abweichung eines Messwertes X vom mittelwert M der verteilung wird in Einheiten der jeweiligen Streung ausgedrückz = z-Werte
Wenn Messwerte nicht normalverteilt sind, kann keine Transformation in Standardnormen gemacht werden -> Prozentränge sind möglich