03 PSY - Dörfler (Allg. Psychodiagnostik) Flashcards
disponieren
bestimmen, verfügen, berechnen, messen
Dichotome Aufgaben
bestehen aus zwei Antwortmöglichkeiten
substanziell
- der wesentliche Kern einer Sache
- von äußerster Wichtigkeit für einen Sachverhalt, essentieller Bestandteil
3 (Haupt-)gütekriterien
- Objektivität
- Reliabilität
- Validität
(- Skalierbarkeit)
(Nebengütekriterien: Normierung, Vergleichbarkeit, Ökonomie, Nützlichkeit, Zumutbarkeit, Fairness, Nicht-Verfälschbarkeit)
Objektivität
- Standardisierung
- Unabhängigkeit v. den Untersuchenden
-> Wie stark hängt das Ergebnis davon ab, wer den Test durchführt, leitet, auswertet und interpretiert?
- Durchführungsobj. -> exakt beschreibende Testmanuale = jeder kann durchf.
- Auswertungsobj. -> zuvor Punktevert., Kriterienmuster festl. (wie wird bewertet?)
- Interpretationsobj. -> Referenzgrößen wie IQ- / t-Werte (Bsp.: wie viele Punkte entspr. einer Note?)
Reliabilität
- Messgenauigkeit (über Messwiederholungen)
Wie genau ist das Messergebnis? Wie stark verändert sich das Ergebnis beispielsweise bei einer Testwiederholung?
- Messwiederholungen führen zu höherer Reliabilität der Messergebnisse
- 100% reliabel = kein Messfehler (gibt es nicht)
- klassische Testtheorie: X = W + F
- beobachteter Wert = wahrer Wert + Messfehler
x1 = w + F1 x2 = w + F2 -> wahrer Wert bleibt gleich, Fehler variiert - Messfehler und Reliabilität sind umgekehrt proportional
- kein Messfehler -> hohe Reliabilität
- Viele Messfehler -> niedrige Reliabilität
Validität
(Gültigkeit, Aussagekraft)
Misst der Test was er messen soll (und nicht noch ein anderes Merkmal)?
- Grad der Gültigkeit mit der ein Merkmal gemessen wird
-Inhaltsvalidität (intern): passt Aufgabenauswahl zum Inhalt?
- Konstruktvalidität / Faktorielle Validität: Test mit einem anderen Test vergleichen
erfasst d. Test Relevantes? -> erfordert ein genau def. Konzept/ Konstrukt (Test 1 m. Test2 -> hohe Korrelation = Konstruktvalidität)
vs.
- Kriteriumsvalidität (extern): Zusammenhang mit anderen externen Kriterien, die ähnliches messen -> hohe Korrelation
(Bsp.: zuvor diagnostizierte Konzentrationsschwäche -> Anwendung des entw. Tests = Übereinstimmung? )
- Augenscheinvalidität: sieht ein Laie auf ersten Blick was gemessen werden soll?
Normierung
Wie gut lässt sich das Testergebnis mit dem Ergebnis anderer Probanden (im selben) Test vergleichen?
Rekonditionierung
Löschung von erlerntem (konditionierten) Verhalten
WISC IV (Leistungstest) - Allg. Merkmale
Wechsler Intelligence Scale for Children IV
(Individualtest)
Allg. Merkmale:
- Untersuchung der kognitiven Entwicklung von 6-16 jährigen
- Eingesetzt in der Päd. und Psych. Diagnostik
- Erfassung d. Gesamt-IQs -> Entwicklungsstand
(Gesamtheit einer Gruppe v. Einzelaspekten)
- weitere IQ-Werte -> die 4 Index-Werte (Sprachverständnis, Arbeitsgedächtnis, wahrnehmungsgebundenes logisches Denken, Verarbeitungsgeschwindigkeit)
- 15 Untertests (10 Kerntests u. 5 opt. Untertests)
HAWIK “Hamburger-Wechsler-Intelligenztest für Kinder-IV” (dt. Version des WISC IV)
- Unterschiede
Unterschiede zum WISC IV:
- nicht mehr in Verbal-IQ u. Handlungs-IQ differenziert
- 4 Indizes -> einzelne IQ-Werte möglich
- 5 neue Untertests
- aktuellere Materialien
- veränderte Abbruchkriterien
- Auswertung differenziert Index- und Untertestebene
WISC IV - Intelligenzkonzept
n. Wechsler:
- Gesamtheit einer Gruppe von Einzelaspekten (keine spezifische Fähigkeit)
- “Fähigkeit des Individuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinanderzusetzen”(Wechsler)
- eine Reihe von Skalen erfassen unterschiedliche geistige Fähigkeiten und spiegeln diese als allg. geistige Begabung des Kindes wieder.
-
WISC IV - Durchführung
- Alter: 6- 16 J.
- Form: Individualtest
- Zeit: abhängig vom Alter und dem Leistungsvermögen (10 Kerntests: 65-90 Min. , Opt. Untertests: 15-20 Min.)
- Pausen bei Müdigkeit erlaubt (max. eine Woche)
- manchmal zeitlich begrenzt
- Ablauf: 10 Kerntests, dann opt. Untertests
- Startregel: Altersentsprechende Aufgaben, Kinder mit Entwicklungsrückständen beim niedrigsten Level
- Umkehrregel: Aufgaben unterhalb des alters-spezifischen Startpunkts
- Abbruchregel: nach einer bestimmten Anzahl von aufeinanderfolgenden Aufgaben mit 0 Punkten -> Abbruch
- Übungsaufgaben: vertraut werden mit den Aufg.
WISC IV - Auswertung (unwichtig)
- Rohwertsummen der einzelnen Untertests berechnen
- Rohwerte in Punktwerte, unter Berücksichtigung des Alters, umrechnen
- Index-Werte und der Gesamt-IQ berechnen -> dann aus d. Tabelle abgeleitet
- Ergebnisse werden graphisch dargestellt (Index u. IQ)
WISC IV - Gütekriterien
Normen:
-2600 Probanden (DE, CH, AT )
- Normstichprobe
Objektivität:
- Handbuch -> Durchführungsobjektivität
- standardisierte Auswertung -> detaillierte Listen vorgegeben
Reliabilität:
- Messgenauigkeit -> mit Hilfe der Split-Half-Methode berechnet (Rohwertsummen der Untertests korreliert)
Validität:
- Interkorrelationsstudien: (sehr) hohe Korrelationen der 4 Indizes
- Konstruktvalidität: Bestimmung der 4 eigenst. Index-Werte + psy. Interpretation gelten als emp. abgesichert -> belegt die Faktorenanalyse
- Kriteriumsvalidität -> umfassend bestätigt
prädiktiv (valide)
vorhersehbar, prognostizierbar (gültig, zuverlässig)
Aufgabentypen
Testentwicklung
- freies Antwortformat: Kurzaufsatz, Ergänzungsaufg.
- gebundenes Antwortformat: Ordnungs-, Auswahl-, Beurteilungsaufgaben
- atypisches Antwortformat (=alle anderen Aufgabenformate, z. B. Zahlen verbinden)
I-S-T 2000 R
Intelligenz-Struktur-Test (atypisches Antwortformat)
Aufgabenkonstruktion
- keine mehrdeutigen Begriffe verwenden
- Begriffe/Formulierungen -> für alle zugänglich?!
- pro Item -> nur einen sachl. Inhalt
- keine doppelten Verneinungen (“Ich bin nicht leicht beunruhigt.”)
- Verallgemeinerungen vermeiden (“Alle K. machen Lärm.”)
- umständlich lange Wörter vermeiden (Friedensbewegungsbefürworter)
- Abkürzungen vermeiden (U. U. es es m. E. ….)
- Wichtiges hervorheben (fett, unterstr.)
- Zeitpunkt, Zeitspanne -> eindeutig def.
Itembias (erkennen)
- bias = Störfaktor
- Antwort-bias = system. Fehler beim Messen
- > beeinflusst alle Messungen gleich (verstärkender/ vermindernder Effekt)
- ein biasfreier Item = Wahrscheinlichkeit Item zu lösen ist für alle mit gl. Fähigkeit aus derselben Untergr. gleich
Valititätskoeffizenten
(sind in der Regel) Korrelationen
Itemschwierigkeit (pi)
- wie viele Pers. lösen die Aufg. richtig in Abhängigkeit der Gesamtheit?
- pi = n richtig / n gesamt x 100 (je gr. das Ergebnis, desto leichter die Aufg.)
=> kl. Wert -> hohe Itemschwierigkeit!
Itemtrennschärfe (r it)
-> Diskriminierungsfähigkeit
- Fähigk., die Leistungen der Probanden zu trennen (Fähigen v. Unfähigen)
Item = i
Gesamttestwert = t
r it = Korrelation (i, t)
(r it > 0,3 = gut)
Part-whole-Korrektur der Trennschärfe
Überschätzung der Trennschärfe, weil das Item selbst Teil der Skala ist
- Korrektur -> Item von der Gesamtheit abziehen
Sensitivität
Anteil der als krank diagnostizierten Personen unter den wirklich kranken [TP/ (FN+TP)]
- z.B. 67 % der wirklich Kranken wurden als solche erkannt
33% sind krank aber nicht so diagnostiziert
Pschodiagnostik
- eine Methodenlehre (angewandten Psychol.)
- Aufgabe interindividuelle Unterschiede im
Verhalten und Erleben - sowie intraindividuelle Merkmale und Veränderungen so zu erfassen
- Vorhersagen künftigen Verhaltens und Erlebens
- wie evtl. Veränderungen in definierten Situationen möglich werden
Ziele der wissenschaftlichen Psychologie
Beschreiben, Erklären, Vorhersagen, Kontrolle
Nutzen der PD i. d. päd. Psy.
Schullaufbahnberatung
- höhere Lebenszufriedenheit richtig platzierter Schüler
- bessere Berufschancen
- effizienter Einsatz der Ressource Schule
Diagnostische Verfahren
(1) Leistungstests (Bsp.: CFT, HAWIK, K-ABC; d2; DRT
(2) Persönlichkeitsfragebogen (PFK 9-14; BDI; AFS; …)
(3) Objektive Persönlichkeitstests
(4) Projektive Verfahren
(5) Diagnostisches Interview
(6) Verhaltensbeobachtung
Leistungstests
Bsp. Leistungstests:
- Intelligenztest -> CFT, HAWIK, K-ABC
- Aufmerksamkeits-/ Konzentrationstest -> d2
- Rechtschreibtest -> DRT
Persönlichkeitsfragebögen
- BFI-K: Big Five Inventory – Kurzform
- BDI: Depressionsskala
- AFS: Angstfragebogen für Schüler
- PFK 9-14: Persönlichkeitsfragebogen Kinder
Konstruktvalidität/ Faktorielle Validität
- Test mit einem anderen Test vergleichen
- faktoriell: angenommene Struktur soll sich in den Daten widerspiegeln; z.B. Item 16 lädt auf Extraversion und soll mit den anderen Items dieser Art korrelieren -> sollen in Faktoren abgebildet sein und 1 Item soll nur 1 bestimmten Faktor der Big 5 zuzuordenen sein
- Faktorielle Gültigkeit: Die Struktur des Konstruktes empirisch abbilden
Big Five Persönlichkeitsfaktoren
- Ansatz zur umfassenden Beschreibung der menschl. Persönlichkeit
- fünf Faktoren gelten als die emp. mit am besten nachgewiesenen Persönlichkeitsmerkmale
- unter Verwendung der Faktorenanalyse analysiert
1) Neurotizismus
2) Extraversion
3) Offenheit
4) Verträglichkeit
5) Gewissenhaftigkeit
Big Five - Persönlichkeitsfaktoren
1) Neurotizismus (Neigung zu emotionaler Labilität, Ängstlichkeit und Traurigkeit),
2) Extraversion (Neigung zur Geselligkeit und zum Optimismus; Gegenpol: Introversion als Neigung zur Zurückhaltung),
3) Offenheit für Erfahrung (Neigung zur Wissbegierde, Interesse an neuen Erfahrungen),
4) Verträglichkeit (Neigung zur Kooperation und Nachgiebigkeit) und
5) Gewissenhaftigkeit (Neigung zur Disziplin, zu hoher Leistungsbereitschaft Leistung, zur Zuverlässigkeit, zu Perfektionismus)
Konvergente / Konkurrente Validierung
vergleichen mit einem nahen Konstrukt: ich erwarte, dass mein neuer Mathe-Test für die 3. Klasse mit dem älteren Mathe-Test korreliert, da sie beide dasselbe messen (sollen aber nicht 1:1 korrelieren)
Divergente / Diskriminante Validierung
VALIDITÄT
vergleichen mit einem fernen Konstrukt: neuer Mathetest sollte z.B. nicht mit einem deutsch-Test korrelieren. (r= 0,1 o.ä.)
Konstruktebene
VALIDITÄT
Das Vergleichen eines Tests mit einem anderen Test: zum Überprüfen Korrelationen aufzeigen; Regressionsgeraden zeichnen etc
Arithmetisches Mittel
- Durchschnittswert
- Mittelwert -> Summe aller Elemente / Anzahl der Elemente
Korrelation
misst, wie groß der Zusammenhang zwischen zwei Merkmalen/Zuständen ist
Nach Cohen:
- 𝑟 ≥ ± 0.5 -> starker Zusammenhang
- 𝑟 ≥ ± 0.3 -> moderater Zusammenhang
- 𝑟 ≥ ± 0.1 -> schwacher Zusammenhang
- 𝑟 = 0 -> kein Zusammenhang
Wofür sind t-/z-Werte gut?
- Normierung/Standardisierung um Datensätze miteinander zu vergleichen
- Erleichtern die Interpretation
- Prädiktiv / Prognostisch
- Retrospektiv
(VALIDITÄT)
kann ein Test z.B. zukünftige Schulnoten in Mathe in 2 Jahren voraussagen; oder Berufserfolg vorhersagen
(- Kann ein Test etwas über vergangene Leistung sagen (im Schulkontext irrelevant)
Inkrementelle Validität
- meint spezifischen inkrementellen Anteil an Validität, der nur durch einen einzigen Test aufgeklärt wird
- Bsp. Vorstellungsgespräch – Alter, Abschluss etc. sagen nichts darüber aus wie gut oder schlecht jemand Löcher graben kann.
- Ein valider Test hierzu wäre das Löchergraben selbst
- > Prognoseleistung von spezifischem Verfahren
inkrementell
schrittweise erfolgend, aufeinander aufbauend
Reliabilitätkoeffizienten
Wie gibt man die Messgenauigkeit eines Testes an?
- Reliabilitätkoeffizienten/ Standardmessfehler
-> schafft es der Test die Ergebnisse der Probanden zu reproduzieren / Wie eng ist die Varianz der Testergebnisse beieinander?
- wird bestimmt durch Wiederholungen des Tests
- Durchführung Mathetest zum Zeitpunkt 1 und Mathetest zum Zeitpunkt 2 mit denselben Teilnehmenden soll eine hohe Korrelation aufzeigen (die besten sollen die besten bleiben, die schlechteren sollen die schlechteren bleiben)
- Rangreihe der Probanden sollte bei Testwiederholung nahezu gleichbleiben -> hoher Reliabilitätskoeffizient!
- > Sicherheitswahrscheinlichkeit: oft mit 95% angegeben
- > Bei kleinem Konfidenzintervall ist die Aussage nicht ganz verlässlich: z.B. nur 68% Sicherheitswahrscheinlichkeit
Itemschwierigkeit pi
- leichtes Item = viele lösen das Item richtig
- schwieriges Item = wenige Leute lösen das Item richtig
=> je gr. d. Ergebnis, desto leichter die Aufg. (Itemschwierigkeit niedrig)
pi = (N richtig/ N gesamt) x 100 = %
- gibt Auskunft über die Schwierigkeit eines Items
- Schwierigkeiten zw. 20 u. 80% sind am Besten
Itemtrennschärfe
r it = Korrelation (i,t)
- Unterscheidung guter u. schlechter Testlöser (Fähigen - Unfähige)
- nicht nur der Gesamttest, sondern auch Items sollen unterscheiden
- > Korrelation der einzelnen Item-Beantwortung mit dem Gesamttestwert (r sollte höher als 0,3 sein)
- Ergebnisse zw. -1 u. 1
- negative Trennschärfe m. d. Gesamttestwert -> Item misst nicht das Richtige => entfernen!
Reliabilität, Itemschwierigkeit und Trennschärfe
- Zwischen der Itemschwierigkeit und der Itemtrennschärfe besteht eine umgekehrte u-förmige Beziehung (nicht linear)
- Je trennschärfer die Items sind, desto mehr messen sie die gleiche latente (nicht beobachtbare) Eigenschaft und umso größer ist die Reliabilität des Gesamttests
- Trennstark, wenn Item im Mittelwertbereich liegt
- Extrem schwere oder extrem leichte Items trennen nicht
- r it = 0 -> hat mit Gesamttest nichts zu tun
Normwerte
Gausche-Glocke
durchschnittlicher Bereich- Abweichung v. M. :
- z-Werte +/-1
- T-Werte +/- 10
- IQ-Werte +/- 15
- %-Werte +/- 34%
Traditionelle Sicht
Güte diagn. Entscheidungen
- im wesentlichen bestimmt durch die prädiktive Validität der eingesetzten Verfahren ( jedoch nicht nur!)
(Präditive Validität = z.B. Korrelation zw. Test und zukünftigem Berufserfolg)
- Prädiktive Validität muss hoch sein, damit Erfolgsquote hoch ist (Vorhersage muss sinnvoll sein um zu wissen, wer gut geeignet wäre)
Erfolgsquote
Güte diagn. Entscheidungen
Erfolgsquote [= TP / Akzeptierte] hängt ab von dem Zusammenspiel aus:
1) Prädiktive Validität
2) Grundquote
3) Selektionsquote
Präditive Validität (d. Auswahlverfahrens)
Güte diagn. Entscheidungen
muss hoch sein, damit Erfolgsquote hoch ist (Vorhersage muss sinnvoll sein um zu wissen, wer gut geeignet wäre)
- Steigerung der V. (misst er d. Richtige) ist umso bedeutsamer, desto niedriger die Selektionsquote (wie viele könnte ich anstellen)
Grundquote
Güte diagn. Entscheidungen
Grundquote
[FN+TP/ FN+ TP+ TN+ FP]
= Anteil, der tatsächlich Geeigneten Personen unter allen Personen (Alle, die für diesen Beruf geeignet wären)
- Wie hoch ist die Wahrsch., dass jemand das Gesuchte hat/ kann/ erfüllt?
- bei einer Zufallsauswahl entspricht die Erfolgsquote der Grundquote
- bei hoher Grundquote führt ein Auswahlverf. allg. kaum zu einer bedeutsamen Verbesserung der Entsch.
(b. Jobs m. geringen Anforderungen)
Selektionsquote
Güte diagn. Entscheidungen
Selektionsquote
= Anteil der Akzeptierten unter allen Personen (wie viele könnte ich anstellen)
- > je weniger Plätze zur Verfügung stehen desto größer wird die Erfolgsquote
- > je mehr Plätze zur Verfügung stehen desto geringer wird die Erfolgsquote
“States” (Zustand)
oder traits
(Was bestimmt das Verhalten? )
“states” (Zustand):
- Variierender Zustand (zeit- und situationsbedingt)
- Temporäre Zustände von Aktivitäten, guter Stimmung, Anspannung etc.
- Z.B schlechte Stimmung in diesem Moment ist keine Eigenschaft, sondern ein Zustand
- Zustandsangst: z.B. Prüfungsangst -> zeitlich begrenzt
- Mittelwertsveränderungen bei wiederholten Tests -> hohe Varianz
- Genügen nicht dem Eigenschaftsbegriff!
(Was bestimmt das Verhalten? ) (states (Zustand) oder)
“traits” (Eigenschaft)?
“traits” (Eigenschaft)
- Eigenschaft die nicht stark variiert
- Beschreibung wie man sich im Allgemeinen fühlt
- Gut singen zu können ist eine Eigenschaft und kein Zustand
- Eigenschaftsangst: Ängstlichkeit als Eigenschaft -> immer ängstlich
- Keine Mittelwertsveränderungen bei wiederholten Tests -> niedrige Varianz
Gutachten - Bestandteile
- Übersicht: Benennt: Fragestellung, Untersucher, Adressaten…
- Vorgeschichte: Zusammenstellung der Einzelinformationen
- Untersuchungsbericht: Testbeschreibung, Verhaltensbeobachtung, Ergebnisbericht
- Befund: Integration der Informationen von Vorgeschichte und Untersuchungsbericht
- Stellungnahme: Beantwortung der Fragestellung, Diagnose/Prognose/Entscheid.vorschlag
Berechnungsvorschrift / Konfidenzintervalle
- Konfidenzintervall (KI) = ist ein Intervall, das die Präzision der Lageschätzung angeben soll
- hohe Sicherheitswahrsch. (SW) -> breites KI
- geringe SW -> kleines KI
- hohe Reliabilität -> schmales KI
-Erhöht man die Reliabilität, so verkleinert man das Intervall, in dem der wahre Wert der Person liegt -> schmales Konfidenzintervall
- > Am Rand der Verteilung ist Reliabilität geringer (weniger Daten/ Probanden, mehr Messfehler)
- > Am Rande der Verteilung –> Konfidenzintervall groß
Untersuchungsbericht
- sukzessive Anordnung der Untersuchungsergebnisse
- separate Darstellung v. Einzelergebnissen
- keine Verbindung zw. Einzelergebnissen
=> test- bzw. situationsbezogene Wiedergabe der Ergebnisse
Befund
- gem. Betrachtung der einzelnen Untersuchungsergebnisse
- Integration v. Einzelergebnissen zu einem Gesamtbild (Befund)
=> personenbezogene Darstellung der Ergebnisse
Spezifität
Anteil der als gesund diagnostizierten Personen unter den wirklich gesunden [TN/(TN + FP)]
- z.B. eine Untersuchung bez. einer Lernschwäche 94% der Gesunden wurden als solche erkannt (kein LS)
u. 6% erhielten d. Diagnose d. LS, jedoch ist keine LS vorhanden
- pos.
u. - neg. Korrelation
- positive Korrelation (wenn mehr, dann mehr) ist: „Mehr Futter, dickere Kühe.“
- negative Korrelation (wenn mehr, dann weniger) ist: „Mehr zurückgelegte Strecke mit dem Auto, weniger Treibstoff im Tank.“
“Mehr Punkte in einer Klausur entspricht einer kl. Zahl in der Notengebung”
=> daher immer IrI berücksichtigen (-1 u. 1 korrelieren demnach beide perfekt)
Standardmessfehler
- (Standard Error of Measurement, SEM)
- charakterisiert die Streuung (als
SD) - der beobachteten Werte um die wahren Werte
und ist ein guter und einfach interpretierbarer
Indikator für die Messgenauigkeit eines Tests.
Intelligenztest misst immer
den wahren Wert + Messfehler
Für Prognose
Retestreliabilität verwenden -> Maß f. Stabilität eines Merkmals