Grundlagen der Testtheorie und psychologische Diagnostik Flashcards
Drei bekannteste Antworttendenzen nennen und erklären
- Akquieszenz: Tendenz, Item zuzustimmen oder abzulehnen, unabhängig vom Iteminhalt.
- Extreme Reaktionsneigung: Tendenz mittlere oder extreme Antwort ankreuzen, unabhängig v. Inhalt
- Sozial erwünschtes Antworten: Reaktionen, von denen eine antwortende Person annimmt, dass sie den Erwartungen relevanter anderer Personen entsprechen > Zustimmung.
Schritte zur Testkonstruktion
- Zu erfassendes Konstrukt definieren
- Itempool erstellen
- Antwortformat festlegen
- Itemanalyse und -auswahl
- Testanalyse
- Skalierung und Normierung
- Testdokumentation
- Gütekriterien prüfen und Testrevision
Die Schritte 2 – 5 i.d.R. so oft wiederholt, bis endgültiger Test vorliegt. Auch nachher Gütekriterien regelmäßig überprüfen
Genauigkeit diagnostischer Verfahren erhöhen, wie?
- Regeln und Hypothesen im diagnostischen Prozess generieren und prüfen
- Bei Entscheidungsfindung Informationen verschiedener methodischer Zugänge (Selbst- und Fremdbeurteilung, Persönlichkeits- und Leistungsdaten) integrieren
- Informationen zu verschiedenen Situationen und Zeiten erfassen
- Bestimmung von Interrater-Reliabilitäten
- Zustandekommen Entscheidung transparent und explizit machen
- Verzerrungstendenzen und Fehlerquellen bewusst machen
- Normen beachten und einhalten (DIN 33430)
Zuschlag (2006) psychologisches Gutachten definieren
- Ein Gutachten ist eine wissenschaftliche Leistung eines fachlich qualifizierten psychologischen Sachverständigen
- Fragestellung wird auf Grundlage wissenschaftlich anerkannter Untersuchungsmethoden und Beurteilungen bearbeitet
- Daten werden erhoben, ausgewertet und beurteilt
- Gutachten werden meist schriftlich verfasst und ggf. mündl. ergänzt
(Zuschlag 2006)
psychologisches Gutachten von psychologischer Stellungnahme / Befund abgrenzen
Psychologischer Befund:
* Fokussiert auf Darstellung von Ergebnissen aus einer / mehreren Informationsquellen in Bezug auf Fragestellung
* Auftraggeber interpretiert Testergebnisse selbst
* Testergebnisse werden den Untertests bzw. Skalen der jeweiligen Inventare zugeordnet
* Konfidenzintervalle sollten um die Testwerte bestimmt und berichtet werden
Gutachterliche Stellungnahme:
* Beantwortung wenig komplexen Sachverhalts / einer ergänzenden Frage
* ausführliches Gutachten liegt meistens bereits vor
Beispiel: Ergänzung zu einem neurologischen Gutachten auf die Untersuchung der Konzentrationsfähigkeit eines Probanden beziehen
(Zuschlag 2006)
ethische und rechtliche Standards + fachliche Standards
Ethische und rechtliche Standards
* Einhaltung von Schweigepflicht und Offenbarungspflicht
* Transparenz im diagnostischen Prozess
* Fairness und Respekt gegenüber dem Klienten
* Neutralität, Objektivität, Unabhängigkeit, Unbestechlichkeit
Fachliche Standards
* hinreichende fachliche Qualifikation
* wissenschaftsorientiertes Vorgehen bei der Bearbeitung der Fragestellung
(Zuschlag 2006)
wie kann man Qualität von diagnostischem Prozess erhöhen?
- Fragestellung des Gutachtens in festgelegtem Zeitraum bearbeiten
- Kosten und Nutzen in angemessener Relation
- GA sollte gut lesbar, nachvollziehbar, verständlich, nachprüfbar und überzeugend sein
- Kommunizieren, Aushandeln und Anpassen von Standards
Atypische Antwortformate erklären, 4 Beispiele nennen, Vor- und Nachteile
- Probandinnen müssen eigenständig etwas tun, z.B.:
- Das Drücken von Tasten
- Das gestische Umsetzen einer Aufforderung
- Das Nachahmen
- Das Abzeichnen einer Vorlage
Vorteile:
* Keine Vorgaben müssen z. B. hinsichtlich des Formats eingehalten werden
* Vielzahl und Vielfalt von Konstrukten können erhoben werden
* Kreativität in der Konstruktion
Nachteile:
1. hoher Konstruktionsaufwand
2. spezifische Aufgaben ermöglichen keine Vergleiche
3. umfangreiche Prätests notwendig
4. keine Vergleichsstandards
Standardnormen benennen, Mittelwerte und Standardabweichungen der Skalennormen in Tabelle einfügen
- T- Werte: (T=50+10*z)
Transformierte Werte, die zu annähernd normalverteilten Werten mit einem Mittelwert von 50 und einer Standardabweichung von 10 führen. - Stanine-Werte:
Umfassen die neun ganzen Zahlen von 1 - 9. Name ist Verkürzung von „standard score of nine units“. Bei normalenverteilten Variablen ist der Mittelwert 5 und die Standardabweichung 2. - C-Werte:
oberen und unteren Kategorien der Stanine-Werte werden in zwei Kategorien aufgeteilt. C-Skala umfasst 11 Werte von 0 - 10. Werte der Skala sind die ganzen Zahlen von 0 - 10. Bei normalverteilten Variablen haben C-Werte einen Mittelwert von 5 und eine Standardabweichung von 2. - Sten-Werte:
Basieren auf demselben Prinzip wie Stanine- und C-Werte, die Skala umfasst allerdings 10 Werte, und zwar die ganzen Zahlen von 1 - 10. Im Falle normalverteilter Variablen haben Sten-Werte einen Mittelwert von 5,5 und eine Standardabweichung von 2.
Messinvarianz, prädiktive Invarianz, Test-Bias erklären
- Messinvarianz liegt vor, wenn sich die interindividuellen Unterschiede in einem meist kontinuierlichen Merkmal niederschlagen.
unabhängig von einer etwaigen Gruppenzugehörigkeit in den gemessenen Variablen (z. B. Items) - Prädiktive Invarianz liegt vor, wenn sich die interindividuellen Unterschiede in einem meist kontinuierlichen Prädiktor niederschlagen.
unabhängig von einer etwaigen Gruppenzugehörigkeit in dem Kriterium - Test-Bias (dt. Testverzerrung) bedeutet, dass Personen – wegen ihrer Gruppenzugehörigkeit – aufgrund des Prädiktors (Tests) keine ihrer Eignung entsprechende Chance haben, ausgewählt zu werden.
Vor- und Nachteile von Fragebögen
Vorteile:
* praktikabel & ökonomisch
* Vergleiche mit Normen möglich
* es existieren viele Fragebögen zu Persönlichkeitseigenschaften
* Menschen berichten in der Regel gerne über sich
* Selbstauskünfte besser als Fremdauskünfte
Nachteile:
* Personen können sozial erwünschte Antworten generieren, die die Konstruktvalidität des Inventars beeinflussen können.
* Bei Interneterhebungen kann oftmals nicht kontrolliert werden, wer die Aussagen bearbeitet.
* Beim Beantworten wird auf bestimmte Situationen oder Zeitpunkte fokussiert, so dass die Generalisierbarkeit der Beantwortung eingeschränkt sein kann.
Beispiele für Skalen zur Erfassung von Verzerrungstendenzen in Persönlichkeitsfragebögen
- Eysenck Persönlichkeits-Inventar (Lügenskala, 9 Items)
- Eysenck Personality Questionnaire, Revised (Lügenskala, 22 Items)
- Freiburger Persönlichkeitsinventar, revidierte Fassung (Skala Offenheit, 12 Items)
- Minnesota Multiphasic Personality Inventory-2 (Nichtreaktion/inkonsistente Reaktionen: CNS, VRIN, TRIN; Simulation/Aggravation: F, Fb, Fp, FBS, Fs; Dissimulation: L, K, S)
- 16-Persönlichkeitsfaktorentest, revidierte Fassung (Impression Management)
- Personality Research Form (Infrequenz-Items (Validitätsskala))
Beispiel für Fragebogen der nur zur VT-Abfrage da ist
Ein Modell / Test das / der genau zur Erfassung dieser Verzerrungstendenzerstellt wurde / VT-Abfrage
Conditional reasoning test (CRT)
(CRT–Test zum konditionalen Schlussfolgern)
-Mit Tests zum konditionalen Schlussfolgern kann untersucht werden, ob Antworten, die auf persönlichkeitsbezogenen impliziten kognitiven Verzerrungen basieren, für Personen logisch ansprechend sind.
-Im CRT sind u. a. solche Antwortoptionen enthalten, die sich auf eine Rechtfertigung bzw. eine Rationalisierung des eigenen Verhaltens beziehen.
-Im CRT wird auf die Erfassung impliziter kognitiver Verzerrungen abgestellt.
Vier Phasen des diagnostischen Prozesses und Aufgaben nach Fernandes-Ballesteros
- Analyse des Anliegens
* Fragestellung des Auftraggebers/in
* Formulierung und Konzeptualisierung des Anliegens
* Erheben der Infos
* Verarbeitung der Infos - Aufbereitung und Berichten der Ergebnisse
* Organisation - Planung der Intervention
* Durchführung der Intervention - Evaluation und Follow-up-Untersuchung
Was muss in ein Manual bzw. in die Testdokumentation?
- theoretische Grundlagen des Tests
- empfohlene Anwendungsbereiche
- empirische Belege für die Anwendungsbereiche
- Hinweise auf missbräuchliche Anwendungen
- spezifische Qualifikationen des Testanwenders
- Instruktion für die Testdarbietung
- Beispiele von Interpretationen der Testergebnisse
- Grundlagen der Testentwicklung
- Hinweise darauf, inwieweit Testergebnisse durch Übung, Coaching oder Anleitung verbessert werden können
- Infos zu Gütekriterien
- Darstellung der Normen
Nenne vier Arten der Reliabilitätsbestimmung und erklären diese
1) Retest-Reliabilität (auch: Test-Retest-Reliabilität)
- An einer Personenstichprobe werden dieselben Messungen zu zwei verschiedenen Zeitpunkten durchgeführt
- Anschließend wird die Bravais-Pearson-Korrelation beider Messungen als Schätzer für Reliabilität verwendet
Somit setzt die Retest-Reliabilität voraus, dass Merkmalsunterschiede zwischen Probanden zu beiden Zeitpunkten gleich sind
2) Paralleltest-Reliabilität
- Zwei materiell verschiedene Messverfahren (Paralleltests) werden zu zwei Messzeitpunkten verwendet, so dass Erinnerungseffekte minimiert werden
- Schwierigkeit: Zwei parallele Tests / Fragebogen für ein Merkmal zu entwickeln
- Items / Aufgaben sollen für den Probanden unterschiedlich sein und zugleich dasselbe Merkmal messen
Paralleltests sollten sich idealerweise aus Items mit denselben psychometrischen Eigenschaften (z.B. gleiche Schwierigkeiten / Faktorladungen) zusammensetzen
3) Split-Half-Reliabilität (Testhalbierungsreliabilität)
- Wenn keine Paralleltests zur Verfügung stehen und keine separaten Messzeitpunkte gewählt werden können
Möglichkeit: Parallele Messungen durch Aufteilung der Items/Aufgaben einer Messung an einem Messzeitpunkt zu erzeugen, um dann beide Testhälften zu korrelieren (entscheidend: Beide Testhälften müssen dasselbe Merkmal messen)
4) Interne Konsistenz (meistens Cronbachs-α)
- Maß für die Homogenität eines Tests. Entspricht geschätztem Mittelwert aller möglichen Split-Half-Koeffizienten, die man anhand der Items eines Tests erhalten kann.
- Cronbachs entspricht der Reliabilität der Testsummenvariablen, wenn die Voraussetzungen eines Modells essenziell -äquivalenter Variablen erfüllt sind.
- Schätzung der Korrelation zwischen zwei Zufallsstichproben von Items aus der Itempopulation des Tests
Terminale und investigatorische Entscheidungen bei diagnostischem Prozess definieren
Terminale Entscheidung:
* diagnostischer Prozess ist mit Beantwortung der Fragestellung beendet, sofern gewünscht, kann Intervention geplant werden
- Beispiel: Frage, ob ein 4,7-jähriges Mädchen Entwicklungsverzögerungen aufweist und ob eine Frühförderung angezeigt ist. In dem Fallbeispiel ergaben sich Hinweise auf Entwicklungsverzögerungen, so dass den Eltern eine Frühförderung ihres Kindes empfohlen wurde, die auch umgesetzt wurde.
Investigatorische Entscheidung:
* Mit Erhebung erster Informationen zu Fragestellung und Beantwortung dieser treten weitere Fragen auf, die einer weiteren Überprüfung im diagnostischen Prozess bedürfen
* Weitere zu beantwortende Fragen können zu einer terminalen Entscheidung führen, aber auch weitere investigatorische Entscheidungen nach sich ziehen
- Beispiel: Frage, ob eine 52-jährige Frau zum Lenken von Kraftfahrzeugen der Klasse B geeignet ist. Frage sollte im Rahmen einer verkehrspsychologischen Untersuchung bearbeitet werden, nachdem der 52-Jährigen der Führerschein aufgrund von zwei Alkoholdelikten innerhalb von fünf Jahren entzogen worden war.Fragestellung wurde dahingehend beantwortet, dass die kraftfahrspezifische Leistungsfähigkeit bei der Probandin zwar gegeben sei, wogegen eine ausreichende Bereitschaft zur Verkehrsanpassung nicht festgestellt werden konnte. In der Empfehlung hieß es daher, dass eine psychologische Beratung angezeigt erscheine, wobei die Alkoholabstinenz monatlich überprüft werden solle.
Offene/freie Antwortformate
- Offene Fragen: Es werden keine Antwortalternativen vorgegeben (Exploration)
Bsp. Kurzsatzaufgaben: Proband muss selbst Antwort formulieren, zB Ein-Wort-Sätze, kurzer Essay, eigene Zeichnung (z.B. bei Tests zum lexikalischen Wissen, oder allgemeinen Wissen)
Bsp. Ergänzungsaufgabe: Vorgabe zum Itemstamm muss vervollständigt werden (zB Sätze, Zeichnungen, Bilder benennen, Lückentext)
Vorteile:
* Wissen und persönliche Rekonstruktionen können einfach erhoben werden
* Ratewahrscheinlichkeit der VP ist gering, Wissen muss aktiv produziert werden
* Besonders für Erhebung von persönlichen Assoziationen, komplexer Lösungswege, Kreativität
Nachteile:
* Grosse Antwortvarianz > grosser Spielraum bei Auswertung (Auswertungsobjektivität)
* Erhöhter Zeitbedarf für Bearbeitung und Auswertung der Items
* Personen, die sich nicht besonders gut ausdrücken können sind potenziell benachteiligt
Geschlossene/gebundene Antwortformate
- Hier werden feste Antwortkategorien vorgegeben, aus denen eine ausgewählt werden muss. (z.B. Ordnungsaufgaben, Auswahlaufgaben)
Bsp.Ordnungsaufgaben: Zuordnung von Paaren, Oberbegriffe zuordnen
Umordnungsaufgaben: z.B. Bilder nach Größe ordnen, Bildergeschichte in logische Reihenfolge bringen, Postkorbaufgaben
Auswahlaufgaben: Zustimmung zu einer Kategorie
Ungeordnete mehrkategorielle Antwortformate wie z.B. Multiple Choice (bei dem falsche Antworten «Distraktoren» sind)
Vorteile:
Vollständige Standardisierung möglich – hohe Objektivität
Auswertung einfach und ökonomisch
Verminderter Zeitaufwand für Durchführung und Auswertung
Nachteile:
Zutreffende Antwort kann von VP geraten werden
Bei Leistungstests: Wissen nicht produziert sondern nur wiedererkannt
Höherer Konstruktionsaufwand, um gute Fragen zu finden
Welche Reihenfolgeeffekte gibt es + beschreibe diese
- Die Anordnung von Items wirkt sich auf deren Beantwortung aus. Ist v.a. dann relevant, wenn die Person noch keine feste Meinung / verfügbares Wissen hat und sich dann durch die Fragestellung eine Meinung bildet
- Arten von Reihenfolgeneffekten:
1 Ankereffekte: Vergleichsanker wird genutzt
2 Konsistenz/Assimilationseffekte: Frage ähnlich beantw, um Konsistenz zu demonstrieren
3 Kontrasteffekte: Unterschiedlichkeit zu einer früheren Frage steht im Vordergrund
4 Salienzeffekte: Durch Bearbeitung früherer Frage wird Konstrukt «salienter» und bei einer zweiten ähnlichen Frage anders bewertet
5 Primingeffekte: Bestimmt Infos sind eher verfügbar (zB Prozentrechnung >Textaufgabe)
6 Subtraktionseffekte: Befragter denkt, er soll nennen, was er davor nicht genannt hat
Welche drei Formen / Facetten der Kriteriumsvalidität gibt es? Beschreibe diese.
- Konkurrente Validität – das Kriterium wird im Wesentlichen zur gleichen Zeit erhoben (Übereinstimmungsvalidität)
- Prognostische / prädiktive / Vorhersagevalidität – das Kriterium wird zeitlich später erhoben, Testergebnisse liegen bereits vor
- Retrograde Validität – das Kriterium wurde zeitlich schon vor der Testkonstruktion bzw. -validierung erhoben
Inhalts- und Augenscheinvalidität erklären und voneinander abgrenzen
- Inhaltsvalidität:
- bedeutet, dass die Items eine repräsentative Stichprobe aus dem Itempool des theoretisch formulierten Konstrukts umfassen.
- Jeder Bereich des Konstruktes sollte abgedeckt sein.
- Sie ist unbedingt zu erfüllen bei der Erstellung eines Tests, auch wenn sie je nach Fragestellung und Anwendungsbereich mehr oder weniger zum Tragen kommt
- z.b. wichtig bei der induktiven oder kriteriumsorientierten Testkonstruktion, weniger bei der deduktiven (rationalen) oder externalen Testkonstruktion.
- Augenscheinvalidität:
- bedeutet, dass auch ein Laie erkennen kann, welche latente Variabel in einem Test erfasst werden soll.
- kann hilfreich sein, um Probanden dazu zu motivieren, den Test durchzuführen.
- Jedoch kann eine hohe Augenscheinvalidität auch dazu führen, dass es zu Verzerrungen kommt und die Probanden nicht ehrlich auf die Items antworten.
-Daher ist sie ein Gütekriterium, wonach sich die Testkonstruktion nicht zwingend richtet, z.b. im Gegensatz zur Inhaltsvalidität.
Diskutiere warum die „Weder-Noch-Kategorie“ gut oder schlecht ist + eigener Meinung
Pro: bei bipolaren SKALEN gute Wahl einer Kategorie, kommt immer auf die Skalen an! Z.B. wie hoch ist das Interesse an Sex zu zwei Messzeitpunkten
Contra:
1. durch diese Mittelkategorie kann ein Antwortmuster produziert werden
2. diese Kategorie kann verschiedenen Bedeutungen haben, die sich in ihren Bedeutungen sehr voneinander unterscheiden.
Fazit:
* diese Mittelkategorie sollte vermieden werden, wenn sie keine Bedeutung hat.
* für VP vielleicht angenehm, für Testende aber nicht sehr gut erfassbar
Unterschied zwischen psychologischer und physikalischer Messung
-> Beispiel einer physikalischen Messung ist die Bestimmung der Körpergröße bei einer medizinischen Untersuchung
- Bei psychologischen Messungen gibt es keinen „Gold-Standard“ bzw. keinen allgemein akzeptierten Vergleichstandard (Eichung) wie z. B. bei der Maßeinheit Meter. Konsequenzen hat dies in Hinsicht auf die Validität (umfangreicherer Studien sind notwendig).
- In der Psychologie kann man das interessierende Merkmal anhand eines einzelnen Messvorgangs häufig nur sehr viel gröber messen, als dies bei der Größenmessung der Fall ist, siehe z. B. die Messung von Intelligenz. Ebenfalls ist der „Feinheitsgrad“ bei der Messung eines Merkmals wie der Intelligenz wichtig (Aufgabe gelöst / Aufgabe nicht gelöst meist nicht präzise genug). Hinsichtlich der Präzision nutzt man in der Psychologie sogenannte Psychometrische-Modelle
Konstruktvalidität – Strategien zur Sicherung
Definition Konstruktvalidität:
Diese bezieht sich auf die Frage, inwieweit die Testwerte im Sinne des Konstrukts, das die beobachteten Testwerte und deren Zusammenhänge mit anderen Variablen erklären soll, interpretiert werden können.
Sicherung der Konstruktvalidität:
Um die Konstruktvalidität eines Tests zu sichern, muss nachgewiesen werden, dass die Testwerte den Erwartungen folgen, die man aus theoretischen Überlegungen zu dem Konstrukt herleiten kann.
Bsp: Will man die „Stimmung“ bestimmen (gute vs. schlechte), sollten die Werte teilweise schwanken.
1) Ebenfalls sollten die Testwerte mit denen jener Tests zusammenhängen, die ebenfalls „Stimmung“ messen. Ist dies der Fall, so spricht man von konvergenter Validität.
2) Die Testwerte von Tests, die nicht das gleiche Konstrukt messen, sollten nicht miteinander korrelieren. Kann man dies bestätigen, so liegt diskriminante Validität vor.
Inhaltlich-logische Analyse der Testelemente (Inhaltsvalidität)
Korrelation des Tests mit Aussenkriterien (Kriteriumsvalidität)
Korrelation des Tests mit anderen Tests, die andere Merkmale erfassen idealerweise niedrige Korrelation (diskriminante Validität)
Korrelation des Tests mit anderen Tests, die gleiche Merkmale erfassen idealerweise hohe Korrelation (konvergente Validität)
Analyse interindividueller Unterschiede (Verteilungen) in den Testresultation
Analyse intraindividueller Veränderungen bei wiederholter Durchführung (interne Validität)
Nenne die fünf Normen nach Kolen
- Nationale Normen
Beziehen sich auf ganze Nation, auch Subpopulationen möglich (Bildung, Geschlecht) - Lokale Normen
Fokussieren auf regionale spezifische Subpopulation (z.B. Bundesland) - Gelegenheitsnormen
Basieren auf Gelegenheitsstichproben (nicht repräsentativ vorgefunden, z.B Studierende an einer speziellen Hochschule) - Gruppenniveau-Normen
Haben nicht individuelle Werte, sondern mittlere Gruppenausprägung zum Gegenstand (z.B. mittlere Arbeitszufriedenheit in versch. Organisationen) - Itemniveau-Normen
Beziehen sich auf einzelne Items, nicht hingegen auf den gesamten Test