GPT Flashcards
Definition psy. Test
Ein Test ist ein wiss. Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psy. Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung.
Aufgabengebiete der Testtheorie
– die Formulierung des theoretischen Hintergrunds über die Verbindung von zu messendem Merkmal und im Test gezeigtem Verhalten sowie
– die Festlegung und Quantifizierung notweniger Qualitätsansprüche.
Definition Routineverfahren
Wenn Durchführung und Auswertung…
- bereits an größerer Stichprobe erprobt
- so detailliert beschrieben sind, dass das Verfahren auch von anderen TestleiterInnen bei anderen Personen einsetzbar ist
Definition psy. Merkmal
– relativ stabile und konsistente Merkmale (auch „Eigenschaften“ oder „Traits“ genannt)
– zeitlich begrenzte biologische, emotionale und kognitive Zustände sowie (auch „States“ genannt)
– Erlebens- und Verhaltensweisen.
Definition Messen
einem Objekt (empirisches Relativ) einen Zahlenwert (numerisches Relativ) so zuzuordnen, dass zumindest eine Eigenschaft des numerischen Relativs auch für das empirische Relativ gilt
Wofür wird der Begriff Fragebogen verwendet
- schriftliche Befragung zu Erhebung von Daten
- Instrument zur “Selbst- oder Fremdeinschätzung”
Testarten
– Leistungstests – Persönlichkeits- und Interessensfragebögen – objektive Persönlichkeitstests – projektive Verfahren – apparative Tests
Wodurch sind Leistungstests gekennzeichnet?
– Konstrukte erfassen, die sich auf kognitive Leistungen beziehen
– die unter der jeweiligen Testbedingung maximale Leistung erfassen möchten
– Aufgaben verwenden, bei denen es „richtige“ und „falsche“ Antworten gibt
Wodurch sind Persönlichkeitsfragbögen gekennzeichnet?
– das Ziel verfolgen, das für eine Person typische Verhalten zu erfassen,
– mehrere Fragen verwenden, um das Persönlichkeitsmerkmal zu erfassen,
– die Antworten nicht in „richtig“ und „falsch“ klassifizierbar sind, sondern „erfragen“, wie stark das interessierende Merkmal ausgeprägt ist
– im Allgemeinen leicht verfälschbar sind (z.B. durch sozial erwünschte Antworten).
Wodurch sind objektive Persönlichkeitstests gekennzeichnet?
– versuchen, das Ausmaß an „Verfälschbarkeit“ zu reduzieren indem sie
– das Persönlichkeitsmerkmal nicht durch subjektive Urteile, sondern über Verhalten in standardisierten Situationen erfassen.
Wodurch sind projektive Tests gekennzeichnet?
– versuchen, die Persönlichkeit als Ganzes zu erfassen, wobei sie
– auf individuelle Erlebnis- und Bedürfnisstrukturen Rücksicht nehmen,
– mehrdeutiges Bildmaterial verwenden, um unbewusste oder verdrängte Bewusstseinsinhalte zu erfassen und
– oft explorativen Charakter haben.
Wodurch sind apparative Tests gekennzeichnet?
– Tests, die insbesondere sensorische und motorische Merkmale erfassen
– computerbasierte Tests, die häufig spezielle Varianten von Leistungstests und Persönlichkeitsfragebogen sind
Hauptgütekriterien
- Objektivität
- Reliabilität
- Validität
Nebengütekriterien
- Normierung
- Skalierung
- Ökonomie
- Unverfälschbarkeit
- Zumutbarkeit
- Fairness
- Nützlichkeit
Definition Objektivität
Ein Test ist objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von TestleiterIn, TestauswerterIn und von der Ergebnisinterpretation misst.
3 Bereiche der Objektivität
- Durchführungsobj.
- Auswertungsobj.
- Interpretationsobj.
Definition Durchführungsobjektivität
Durchführungsobjektivität ist gegeben, wenn das Ergebnis der Testung nicht davon abhängt, welche TestleiterIn, die Testung durchgeführt . –> Testvorgabe sollte unter standardisierten Bedingungen stattfinden
Wie lässt sich Durchführungsobj. gewährleisten?
– Instruktionen, die die TestleiterInnen geben, schriftlich festgehalten
– die soziale Interaktion zwischen TestleiterIn und getesteter Person möglichst gering gehalten
– die Untersuchungssituationen möglichst ähnlich sind
Definition Auswertungsobj.
Ist gegeben, wenn beim Vorliegen der Antworten der Personen auf die Fragen (=Testprotokoll) jede(r) AuswerterIn zum selben numerischen Testergebnis kommt.
Wodurch kann Auswertungsobj. gesichert werden?
– das Vermeiden freier Antwortformate
– klare Auswertungsregeln
– die Verwendung von Multiple-Choice Antworten
- (statistische Kennzahlen zur Beurteiler Übereinstimmung wie zB Cohens Kappa)
Definition interpretationsobj.
Ist gegeben, wenn beim Vorliegen der Testergebnisse unterschiedliche „TestanwenderInnen“ zum selben „Schluss“ kommen.
Wodurch kann Interpretationsobj. gesichert werden?
– klare Regeln für die Interpretation
– Vorhandensein von Normen und Normwerten
– der Verwendung von Prozenträngen
Definition Relibilität
Ein Test ist dann (vollständig) reliabel, wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst –> “Genauigkeit”
Arten der Reliabilität
- Retest
- Paralleltest
- Innere Konsistenz
(- Split-Half)
Definition Validität
Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst. –> “Gültigkeit”
Was lässt sich durch Validität erklären?
– wie sehr ein Test wirklich das zu messende Merkmal misst (~„Konstruktvalidität“)
– wie gut der Testkennwert „Verhaltensweisen“ außerhalb der Testsituation vorhersagen kann (~„Kriteriumsvalidität“).
Arten von Validität
- Konstruktv.
- Kriteriumsv.
- Inhaltsv.
- Augenscheinv.
Definition Skalierung
Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirische Merkmalsrelation adäquat abbilden.
Definition Normierung (Eichung)
Unter Normierung (Eichung) eines Tests versteht man, das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.
Ziel der Normierung
Einen Rahmen für die Interpretation der erzielten Testergebnisse zu schaffen –> Dies erfolgt dadurch, dass die Testergebnisse in Normwerte umgewandelt werden.
Wann kann Normierung als erfüllt angesehen werden?
Wenn:
- die Eichtabellen gültig (d.h. nicht veraltet) sind
– die Population für die Eichtabellen definiert ist
– die für die Erstellung der Eichtabellen herangezogene Stichprobe repräsentativ ist
Definition Prozentrang
Der Prozentrang gibt an, wie viel Prozent der Normierungsstichprobe einen Testwert erzielen, der niedriger oder maximal ebenso hoch ist, wie der Testwert xv der Testperson v. Der Prozentrang entspricht somit dem prozentualen Flächenanteil der Häufigkeitsverteilung der Bezugsgruppe, der am unteren Skalenende beginnt und nach oben hin durch den Testwert xv begrenzt wird.
Besonderheiten von Prozenträngen
– setzen keine Intervallskalierung der Testkennwerte voraus
– setzen keine Normalverteilung der Testwerte voraus
– stellen eine inhaltlich einfache Interpretation des Testergebnisses dar
z-Werte (8)
= Standardmesswerte
– legen die relative Position des Testkennwerts der getesteten Person bezogen auf die Referenzpopulation dar
– sind positiv bei überdurchschnittlichen Leistungen
– sind negativ bei unterdurchschnittlichen Testleistungen
– Null bei durchschnittlichen Leistungen
- man kann mit ihnen intervallskalierte Testwerte in normalverteilte Testwerte transformieren
- jedem z-Wert ist ein Prozentrang zugeordnet und umgekehrt
- aus ihnen sich alle verwendeten Normwerte ableitbar
Definition ICC
= Intraklassenkorellation: Beurteilerübereinstimmung bei Messungen (Auswertungsobj.)
Ablauf der Testkonstruktion (6)
– Planung – Itemkonstruktion – Erstellung der vorläufigen Testversion – Erprobung an Stichprobe – Itemanalyse und Überarbeitung – Normierung (Eichung)
Was soll bei der Planung beachtet werden?
– Welches Merkmal soll erfasst werden?
– Welchen Geltungsbereich soll Test haben?
– Für welche Zielgruppe wird Test gemacht?
– Welche Struktur soll Test haben?
– Wie lange darf Test dauern?
Strategien zur Itemkonstruktion
– intuitive Konstruktion
– rationale Konstruktion
– externale (kriteriumsorientierte) Konstruktion
– internale (faktorenanalytische) Konstruktion
Intuitive Konstruktion
Auf eine intuitive Konstruktion der Items sollte nur zurückgegriffen werden, wenn der theoretische Kenntnisstand bezüglich des interessierenden Merkmals gering ist –> Konstruktion der Items abhängig von der Intuition der des/der TestkonstrukteurIn
Rationale Konstruktion
Bei einer rationalen Konstruktion besteht bereits eine elaborierte Theorie über die Differenziertheit von Personen hinsichtlich des interessierenden Merkmals.
– Merkmal differenzieren und spezifizieren
– Verhaltensindikatoren festlegen
Externale (kriteriumsorientierte) Konstruktion
Hierbei wird zunächst ein großer Itempool zusammengestellt und Personen vorgegeben, die sich in dem interessierenden, externalen Merkmal (Kriterium) stark unterscheiden.
Im Anschluss werden jene Items ausgewählt, die gut zwischen Gruppen mit unterschiedlichen Ausprägungen im Kriterium diskriminieren.
Zur Absicherung –> Ergebnis der Itemauswahl an einer anderen Stichprobe überprüfen
Internale (faktorenanalytische) Konstruktion
Hierbei werden zunächst Items konstruiert, die hypothetischen Verhaltensdimensionen erfassen sollen. Diese werden einer Stichprobe von Personen der interessierenden Zielgruppe vorgegeben.
Im Anschluss werden die Items einer Faktorenanalyse unterzogen und aufgrund der faktorenanalytischen Ergebnisse zu „Skalen“ zusammengefasst.
Axiome der klassischen Testtheorie
- Existenzaxiom
- Verknüpfungsaxiom
- Unabhängigkeitsaxiom
Was besagt das Existenzaxiom?
Das Existenzaxiom besagt, dass ein „wahrer Wert“ (= true score) existiert. Dieser „wahre Wert“ ist der Erwartungswert der gemessenen Leistung einer Person.
Was besagt das Verknüpfungsaxiom?
Das Verknüpfungsaxiom besagt, dass sich die gemessene Leistung einer Person aus ihrem wahren Wert und dem Messfehler zusammensetzt.
Was besagt das Unabhängigkeitsaxiom?
Das Unabhängigkeitsaxiom besagt, dass der „wahre Wert“ einer Person und der bei der Messung entstandene Messfehler nicht korrelieren.
Zusatzannahmen des Unabhängigkeitsaxioms
Messfehler ist eine Zufallsvariable, das heißt es wird auch Unkorreliertheit angenommen ziwschen:
- den Messfehlern derselben Person bei unterschiedlichen Tests
- den Messfehlern unterschiedlicher Personen beim selben Test
Folgerungen aus den Axiomen
- der Erwartungswert des Messfehlers ist 0
- Varianz des gemessenen Werts setzt sich zusammen aus Varianz der wahren Werte und Varianz der Messfehler
- Kovarianz von gemessenen Werten entspricht der Kovarianz der wahren Werte
Definition Äquivalente Messungen
Bei den äquivalenten Messungen geht es um die Frage, welche Voraussetzungen erfüllt sein müssen, um annehmen zu können, dass zwei Tests (oder auch Items), dasselbe psychologische Merkmal messen.
4 Zugänge der äquivalenten Messungen
– Replikation
– Parallelmessung
– “T”(also das Zeichen was aussieht wie ein T und den wahren Wert symbolisiert)- äquivalente Messungen
– essentielle “T”- äquivalente Messungen
Replikation
Bei der Replikation wird gefordert, dass verschiedene Messinstrumente bei derselben Person zu exakt demselben Messergebnis kommen müssen, um von einer wiederholten Messung zu sprechen. Sie stellt somit die strengsten (und für die Praxis unrealistische) Forderungen.
Parallelmessung
Um eine Parallelmessung handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert und die selbe Varianz besitzen. Parallelmessungen erfassen das gleiche psychologische Merkmal gleich genau, da die Gleichheit der Varianzen der Messwerte auch gleiche Varianzen der Messfehler bedeutet. Ein zu Test A paralleler Test wird in weiterer Folge mit A‘ bezeichnet.
“T”-äquivalente Messungen
Um “T”- äquivalente Messungen handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert aber unterschiedliche Varianz besitzen. Sie erfassen das gleiche Merkmal verschieden genau.
Essentiell “T”-äquivalente Messungen
Bei essentiell “T”- äquivalenten Messungen unterscheiden sich die Erwartungswerte zweier Tests (oder Items) um eine additive Konstante. Die Varianzen können ebenfalls verschieden sein.
Reliabilität im Rahmen der klass. TT
Varianz des Messfehlers im Vordergrund –> Je größer die Varianz des Messfehlers desto, geringer die Reliabilität
Daraus folgt:
- sie besitzt einen Wertebereich von 0 bis 1
- sie ist das Bestimmtheitsmaß der Korrelation von Messwert und wahrem Wert
- sie entspricht der Korrelation der Testergebnisse zweier paralleler Messungen (=Paralleltests)
Retest-Reliabilität
Hierbei wird derselbe Test derselben Stichprobe zweimal vorgelegt. Wenn es keine…
– Veränderungen der Messfehlereinflüsse, oder
– „unsystematische“ Veränderungen des wahren Werts gibt, … dann entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge.
Was sind unsystematische Veränderungen?
Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.B. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er. (Problem bei Leistungstests durch zB Deckeneffekte)
Paralleltest-Reliabilität
Hierbei werden Personen zwei Tests vorgelegt, die parallele Messungen darstellen. Die Korrelation der Ergebnisse schätzt die Reliabilität der beiden Tests.
Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind –> strenge Testung der Parallelität zweier Tests ist im Rahmen der klassischen Testtheorie nicht möglich –> eleganteste mögliche Prüfung: konfirmatorische Faktorenanalysen
Split-Half-Reliabilität
Hierbei wird ein aus mehreren Items bestehender Test in zwei möglichst parallele Untertests geteilt. Die Korrelation der Ergebnisse der beiden Untertests schätzt die Reliabilität des halb so langen Tests. Um auf die geschätzte Reliabilität des Gesamttests zu kommen, wird auf die Formel von Spearman-Brown zurückgegriffen.
Innere Konsistenz
Hierbei wird jedes Item eines Tests als eigene Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab. Die bekanntesten Kennwerte zur inneren Konsistenz sind:
- Cronbach-Alpha
- Lambda3 nach Guttman
Innere Konsistenz bei “T”-äquivalenten Messungen
Stellen die Items zumindest essentiell “T”- äquivalente Messungen dar, sind Cronbach-Alpha und Lambda3 nach Guttmann Schätzungen der Reliabilität des Gesamttests.
Innere Konsistenz bei nicht-äquivalenten Messungen
Für den Fall, dass die Items keine äquivalenten Messungen darstellen, sind Cronbach-Alpha und Lambda3 nach Guttmann lediglich untere Schranken der Reliabilität.
Was ist zu berücksichtigen bei der anzustrebenden Höhe der Reliabilität?
– Art des zu erfassenden Merkmals – Individual- versus Kollektivdiagnostik – Einsatzbedingungen – Kosten-Nutzen Abwägungen – Objektivierbarkeit
Welchen Einfluss hat die Art des zu erfassenden Merkmals auf die Reliabilität?
- Leistungsvariablen sind meist präziser messbar als z.B. Einstellungen oder Persönlichkeitseigenschaften.
- Bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als z.B. die Retest- oder Paralleltest Reliabilität
Welchen Einfluss hat Individual- vs. Kollektivdiagnostik auf die Reliabilität?
Bei Individualdiagnostik sollte Messgenauigkeit höher sein als bei Messung der Durchschnittleistung eines Kollektivs, da sich die Messfehler bei der Zusammenfassung von Messungen mehrerer Individuen „reduzieren“.
Welchen Einfluss haben Einsatzbedingungen auf die Reliabilität?
Bei Tests, die nicht adaptiv vorgegeben werden können, hängt die Reliabilität relativ stark von der Testlänge ab –> Tests und Fragebögen, die zum Screening eingesetzt werden und daher eher kurz sind, haben meist eine geringere Reliabilität
Welche 2 Arten von Konfidenzintervallen gibt es?
– auf Basis der Messfehlervarianz
– auf Basis der Schätzfehlervarianz
Was sollte man anstatt “Validität eines Tests” sagen?
Validität möglicher Interpretationen von Testergebnissen
Welche 2 Merkmalsdefinitionen gibt es?
- operational
- theoretisch
Operationale Merkmalsdefinition
Um eine operationale Merkmalsdefinition handelt es sich, wenn die Testaufgaben den interessierenden Anforderungsbereich direkt repräsentieren.
Ein operational definiertes Merkmal bezieht sich zunächst nur auf die spezifischen Test- bzw. Merkmalsinhalte.
Theoretische Merkmalsdefinition
Bei theoretischen Merkmalsdefinitionen werden Theorien herangezogen, die verdeutlichen, worauf bestimmte Unterschiede zwischen Personen zurückgeführt werden können und wie sich diese Unterschiede in den Testergebnissen ausdrücken.
Weitere Formen der Validität
– Übereinstimmungsvalidität
– prognostische Validität
– diskriminante Validität
– konvergente Validität
Definition Inhaltsvalidität
Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte der Tests bzw. der Items, aus denen sich ein Test zusammensetzt, tatsächlich das interessierende Merkmal erfassen.
Inhaltsval. bei operationalisierten Merkmalen
Bei operationalisierten Merkmalen bezieht sich die Inhaltsvalidität vor allem auf die Verallgemeinerbarkeit der Testergebnisse. Es geht also darum, inwieweit die ausgewählte Items eine repräsentative Auswahl aus der Menge aller möglicher Aufgaben sind.
Inhaltsval. bei theoretisch definierten Merkmalen
Auch bei theoretisch definierten Merkmalen muss die Verallgemeinerung auf eine größere Menge von Aufgaben möglich sein. Zusätzlich muss angenommen werden können, dass unterschiedliche Antworten Unterschiede im interessierenden Merkmal erklären können. Das bedeutet, es muss von den Itemantworten auf das interessierende Merkmal geschlossen werden können –> nur möglich mit guter theoretischer Fundierung und daran orientierter Itemkonstruktion
Definition Augenscheinvalidität
Augenscheinvalidität gibt an, inwieweit der Validitätsanspruch eines Tests vom bloßen Augenschein her einem Laien gerechtfertigt erscheint.
Definition Konstruktvalidität
Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl Testergebnisse als auch Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird –> Testergebnisse vor dem Hintergrund eines theoretischen Konstrukts interpretieren!
Welche 2 Bereiche gibt es bei der Konstruktvalidität?
- Bereich der Theorie
- Bereich der Beobachtung
Was machen Korrespondenzregeln?
Geben an, wie sich theoretische Zusammenhänge latenter Konstrukte (Bereich der Theorie) auf den Bereich der Beobachtung (des Beobachtbaren) auswirken –> meist Zusammenhänge zwischen manifesten Variablen oder Unterschiede zwischen Gruppen
konvergente Validität
hohe Korrelation erwarten zB Korrelation mit einem Test der dasselbe Konstrukt messen soll
Diskriminante Validität
niedrige Korrelation erwartet zB Korrelation mit einem Test, der ein anderes Konstrukt messen soll
Multi Trait Multi Method Matrix (MMTM)
= auf Korrelationen basierende Vorgehen zur Konstruktvalidierung
Sowohl das interessierende Merkmal als auch konkurrierende Merkmale (verschiedene Traits) werden mit unterschiedlichen Methoden erfasst und die erzielten Ergebnisse miteinander korreliert.
Demnach werden teilweise hohe (konvergente Validität) teilweise niedrige Korrelationen (diskriminante Validität) erwartet.