3 Messen und Testen (Sedlmeier) Flashcards
Worauf bezieht sich eine Messung?
Messung bezieht sich stets auf Variable
Was ist das Ziel einer Messung?
Ermittlung der Ausprägung eines Merkmals bei bestimmtem Objekt (oder Person) zu bestimmter Zeit, Merkmalsausprägung soll in Zahl ausgedrückt werden
Kritik psychologischer Messung und Relativierung
„Man kann Seele eines Menschen nicht in Zahlen fassen.“
-> gemessen werden stets nur einzelne, definierte Eigenschaften von Objekten/Menschen
Kritik: „Man kann psychische Phänomene nicht in Zahlen fassen.“
-> wir können sie in sprachlichen Aussagen fassen und diese wiederum in Zahlen
Vorteile von Zahlen gegenüber sprachlichen Äußerungen
- Bedeutung von Zahlen präziser festgelegt > erlauben damit feinere Differenzierungen zwischen verschiedenen Merkmalsausprägungen,
- Beziehungen zwischen Variablen nur durch mathematische Beschreibung möglich
Was ist eine Zuordnungsregel?
von einer Messung kann erst gesprochen werden, wenn es eine Zuordnungsregel gibt:
- muss gewährleisten, dass bestimmte Relationen zwischen den Zahlen analoge empirische Relationen zwischen den Messobjekten abbilden
Empirisches Relativ
Menge von Objekten und einer oder mehreren beobachtbaren Relationen zwischen diesen Objekten
Konkrete empirische Relationen beinhalten immer auch das zu messende Merkmal:
z.B. „hat das gleiche Geschlecht“ (Äquivalenz), „ist zufriedener“ (Ordnung)
Äquivalenzrelation
Zeichen: Schlange
verschiedene Objekte weisen hinsichtlich eines Merkmals die gleiche Ausprägung aus
Ordnungsrelation
Zeichen: >
ein Merkmal ist bei einem Objekt stärker ausgeprägt als bei einem anderen
Numerisches Relativ
Menge von Zahlen und einer bestimmten Anzahl von definierten Relationen zwischen diesen Zahlen (z.B. alle natürlichen oder alle reellen Zahlen)
Gleichheitsrelation (=) und Größer-Kleiner-Relation (>)
Abbildung
Zuordnung von Objekten und Zahlen -> empirisches Relativ wird in numerisches Relativ abgebildet
- > jedem Objekt aus empirischem Relativ muss genau eine Zahl aus dem numerischen Relativ zugeordnet werden > (Abbildungs-)Funktion
- nicht möglich: Objekt ohne Pfeil oder mit mehreren Pfeilen
- möglich: Messwert mit mehreren Pfeilen, Messwerte ohne Pfeile
Homomorphe Abbildung
Relationen zwischen den Messobjekten werden auch durch Relationen zwischen Zahlen zum Ausdruck gebracht
Messung (messtheoretische Definition)
homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ
Skala
numerisches Relativ, das aus einer homomorphen Abbildung resultiert -> Skalenniveaus
Messtheoretische Probleme
- drei Kardinalprobleme bei Erarbeitung von homomorphen Abbildungen
- sind auch für Einteilung in Skalenniveaus entscheidend
- Repräsentationsproblem
- Eindeutigkeitsproblem
- Bedeutsamkeitsproblem
Repräsentationsproblem
- Frage, ob ein bestimmtes Merkmal überhaupt messbar ist: Kann für ein bestimmtes empirisches Relativ eine homomorphe Abbildung in ein numerisches Relativ gefunden werden?
- Ein Merkmal ist messbar, wenn im empirischen Relativ bestimmte Axiome (Grundannahmen) erfüllt sind
- Axiome beziehen sich stets auf Eigenschaften der empirischen Relationen, z.B. Transitivität
- Transitivität: Eigenschaft, die gegeben sein muss, damit (mind.) auf Ordinalskala gemessen werden kann; wenn a > b und b > c, dann a > c
Transitivität
Eigenschaft, die gegeben sein muss, damit (mind.) auf Ordinalskala gemessen werden kann; wenn a > b und b > c, dann a > c
Lösung des Repräsentationsproblems
Formulierung von Axiomen, die im empirischen Relativ gelten sollen
- empirische Überprüfung, ob Axiome erfüllt sind
- bei erfolgreicher Überprüfung: homomorphe Abbildung -> Merkmal ist (auf bestimmtem Skalenniveau) messbar
- in sozialwissenschaftlicher Forschung oft nicht durchgeführt -> sehr aufwendig, teilweise kaum möglich, z.B. bei latenten Variablen, stattdessen häufig Pausibilitätsüberlegungen
- zahlreiche Messungen in Psychologie = „per fiat“-Messungen: Man vertraut, dass ein Messinstrument das jeweilige Merkmal auf einem bestimmten Skalenniveau erfasst
“per fiat”-Messung
Man vertraut, dass ein Messinstrument das jeweilige Merkmal auf einem bestimmten Skalenniveau erfasst
-> zahlreiche Messungen in der Psychologie
Eindeutigkeitsproblem
- Frage, wie Messwerte transformiert werden können, ohne dass die enthaltene Info verloren geht
- zulässige vs. unzulässige Transformationen (z.B. 2,00m und 1,60m: zulässig: x100, unzulässig: +100; bei Werten 4, 3, 2, 1: zulässig: quadrieren, multiplizieren, addieren)
- Menge der zulässigen Transformationen ist auf Ordinalskala größer als auf Intervallskala
- > Verhältnisskala ist eindeutiger als Ordinalskala
Bedeutsamkeitsproblem
- Frage, welche mathematischen Operatoren mit Messwerten zu empirisch sinnvollen Aussagen führen
- z.B. Addition normalskalierte Merkmale (1=männlich, 2=weiblich) führt nicht zu bedeutsamen Aussagen
- Verrechnung von Messwerten ist dann sinnvoll, wenn sie unter allen zulässigen Transformationen der Messwerte zu derselben Aussage führt
- z.B. Werte (3, 2, 1): 2+1=3; Quadrieren der Werte ergibt (9, 4, 1): 4+1≠9
- wichtige Konsequenzen für die Frage, welche statistischen Verfahren bei der Analyse der in einer empirischen Untersuchung erhobenen Daten angewandt werden können
- > Verrechnung von Messwerten innerhalb von statistischen Verfahren muss auch zu empirisch sinnvollen Aussagen führen
Nominalskala
- setzen Äquivalenzrelation im empirischen Relativ voraus
- ein-eindeutige Transformationen: gleiche Merkmalsausprägungen erhalten gleiche Messwerte und unterschiedliche Ausprägungen erhalten unterschiedliche Messwerte
- keine Verrechnungen möglich, nur Häufigkeit > Modalwert
Ordinalskala
- erfordern (schwache) Ordnungsrelation im empirischen Relativ
- auch wenn quantitativ geordnete Ausprägungen zu (unterschiedlich großen) Klassen zusammengefasst werden, denen jeweils der gleiche Messwert zugeordnet wird, z.B. Beaufort-Skala (Windstärke 6km/h-11km/h = Messwert 2)
- keine Aussage über Größe der Unterschiede möglich
- zulässige Transformationen: alle monoton steigenden Transformationen
- sinnvolle Aussage: Median
Auf wen geht die Klassifikation der 5 Skalenniveaus zurück?
Auf Stevens (1951)
Intervallskala
- Größe des Unterschiedes kann empirisch ermittelt werden, Maßeinheit wird definiert
- erlauben keine Aussage über Verhältnisse zwischen Messwerten, weil sie über keinen absoluten Nullpunkt verfügen: Messwert 0 wird willkürlich festgelegt und bedeutet nicht, dass ein Merkmal nicht vorhanden ist (z.B. Temperatur 0°C)
- alle linearen Transformationen sind zulässig: y=ax+b (z.B. C in F= 1,8C+32)
- Berechnung des Mittelwerts ist sinnvoll
- auf Intervallskalenniveau (und allen höheren) können alle in Psychologie gängigen statistischen Verfahren sinnvoll angewandt werden
- Messungen auf höherem Skalenniveau als Intervallskala sind in der Psychologie eher selten
- in psychischen Merkmalen kein inhaltlich sinnvoller Nullpunkt, z.B. Person, die beim IQ-Test keine Aufgabe löst, verfügt dennoch über Intelligenz
- IQ-Werte und Messungen mit Rating-Skalen meist intervallskaliert
Verhältnisskala
- Größe des Unterschieds kann empirisch ermittelt werden
- inhaltlich bedeutungsvoller Nullpunkt ist bestimmbar -> Nullpunkt wird Messwert 0 zugeteilt
- eindeutig bis auf hier zulässige Ähnlichkeitstransformation: y=a*x
- Zeit wird häufig in psychologischen Untersuchungen erfasst, z.B. Dauer von Therapien, Reaktionszeit, Bearbeitungszeit
- Indikator-Problem: Messung von Variablen selbst oder als Indikator, z.B. für sozio-ökonomischen Status? (Sozio-ökonomischer Status mithilfe von Jahreseinkommen wird auf Ordinalskala gemessen)
Absolutskala
- natürlicher Nullpunkt plus natürliche Maßeinheit -> Erfassung von Häufigkeiten
- keine Transformationen zulässig, da Nullpunkt als auch Maßeinheit eindeutig festgelegt
- nur Häufigkeiten zählen möglich
Psychometrische Tests
standardisierte Verfahren zur Erfassung latenter Variablen
- bestehen aus Reihe von Aufgaben oder Fragen -> „Items“
- Merkmalsausprägung wird aus Antwortverhalten bei Items geschlossen
- Antwortverhalten: beobachtbarer Indikator der interessierenden latenten Variablen
Leistungstests
bestehen aus Aufgaben, bei denen objektiv festgestellt werden kann, ob Antwort richtig oder falsch ist, z.B. Intelligenztests
Persönlichkeitstests
erfassen Merkmale wie Verträglichkeit, Offenheit oder Neurotizismus; Probanden geben Selbstbeschreibungen ab, keine objektiv richtige Lösung
Rohwert
- wird anhand der Antworten eines Probanden ermittelt, entspricht zumeist der Anzahl der richtigen Antworten bzw. „Ja“/“Stimmt“-Antworten bei allen Items
- bei Rating-Skalen wird jeder Antwort ein Wert zugewiesen und diese addiert
- Rohwert wird mithilfe von Normen in Testwert umgewandelt (z.B. IQ-Wert)
- Normen resultieren aus Untersuchungen mit Eichstichproben, in denen große Anzahl von Teilnehmern den Test bearbeitet -> Vergleich von Rohwert mit durchschnittlichem Wert der Eichstichprobe
Testtheorien
beschäftigen sich mit Regeln zur Konstruktion und Auswahl von Test-Items
Klassische Testtheorie
historisch älteste, große Mehrheit der heute gebräuchlichen Tests basiert darauf -> Gütekriterien
Objektivität
- verschiedene Testleiter erzielen bei demselben Probanden das gleiche Ergebnis
- Durchführungsobjektivität
- Auswertungsobjektivität
- Interpretationsobjektivität
Durchführungsobjektivität
- Wörtlich vorgegebene Instruktionen, die Testleiter nur abliest
- Soziale Aktion zwischen Teilnehmer und Versuchsleiter wird auf Minimum beschränkt
Auswertungsobjektivität
- Umfassende und klare Anweisung über Auswertung (z.B. bei offenen Fragen)
- Meist kein Problem, da geschlossene Fragen
Interpretationsobjekt
- Verschiedene Anwender ziehen aus demselben Testergebnis dieselben Schlüsse
- Angabe von Normen > Erhebung durch repräsentative Strichproben (Vergleichsmaßstab)
- Oft verschiedene Normen für verschiedene Subgruppen (Bildungsniveaus, Alter, Geschlecht)
- Bei konkreten diagnostischen Fragestellungen muss Testergebnis mit jeweiligen Anforderungen in Beziehung gesetzt werden -> können in Testanweisung höchstens beispielhaft angegeben werden, weil es zu viele denkbare Fragestellungen gibt
Reliabilität + Messfehler
- Zuverlässigkeit, Messgenauigkeit
- psychologische Messgeräte weisen häufig nur geringe Reliabilität auf, wegen unsystematischer und unkontrollierter Einflüsse
- X = T + E
X=beobachtbarer Messwert, T=tatsächlicher Wert, E=Messfehler - Messfehler E: Zufallsfehler / unsystematischer Fehler -> Werte mitteln sich aus, Mittelwert von E=0
-> Mittelwert der beobachteten Messwerte entspricht tatsächlichem Durchschnitt - Test, bei dem häufig große Messfehler auftreten, enthält größere Unterschiede zwischen den Messwerten als Test mit kleinen Messfehlern -> Varianz
- Bei Messfehler = 0 -> Reliabilität = 1
- Mit steigender Varianz der Messfehler sinkt Reliabilität
- Reliabilität = 0, wenn wahre Werte keine Varianz aufweisen
- Test misst in diesem Fall keine Unterschiede zwischen Personen (es gibt keine!), sondern erfasst ausschließlich Unterschiede zwischen den Messfehlern, die bei Testung aufgetreten sind
- Für jeden Probanden zwei Messwerte ermitteln: ähnliche Ergebnisse = Test reliabel
Retest-Methode
- Derselbe Test wird derselben Stichprobe in gewissem Zeitabstand zwei Mal vorgelegt
o Ermittlung des Korrelationskoeffizienten zwischen beiden Ergebnissen - Probleme:
o Übungseffekte
o Erinnerungseffekte -> Lösungsansatz: mehrere Wochen verstreichen lassen
Nächstes Problem: Veränderung des Merkmals bei langem Zeitraum - Bei Ermittlung von hoher Reliabilität trotz großem Zeitabstand -> Test hat geringe Messfehler und gemessenes Merkmal ist Stabil
o Retest-Reliabilität wird daher gelegentlich auch als Stabilität bezeichnet
Paralleltestmethode
- Parallele oder äquivalente Formen des Tests werden derselben Stichprobe in gewissem Zeitabstand zwei Mal vorgelegt und Ergebnisse korreliert
o Unterschiedliche Items, die aber exakt dasselbe Merkmal in exakt derselben Weise messen müssen
Gleiche Anzahl an Antwortmöglichkeiten, gleiche Schwierigkeit etc.
o Übungseffekte können auftreten, Erinnerungseffekte aber nicht - Reliabilität kann auch bei kürzeren Zeitabständen bestimmt werden
- Hohe Reliabilität bei Paralleltestmethode: wenige Messfehler und äquivalente Testformen
Testhalbierungsmethode
- Probanden bearbeiten Test einmalig, Items werden aber in zwei Hälften aufgeteilt, für jeden Teilnehmer werden zwei Messwerte bestimmt
- Ähnelt Paralleltest-Methode
- Odd-even-Methode: Items mit gerader Reihungsnummer in erste Testhälfte, Items mit ungerader Reihungsnummer in andere Testhälfte
Inhaltsvalidität
- „Itemuniversum“: Sammeln aller Items, in denen sich das interessierende Merkmal ausdrückt
o Auswahl einer repräsentativen Teilmenge, die in Test aufgenommen wird - Inhaltsvalide ist z.B. Biologietest in 9. Klasse, der Unterrichtsstoff abfragt
- Bei breiteren und komplexeren Fähigkeiten in der Regel nicht möglich Itemuniversum zu definieren
o Hinreichend präzise Vorstellung von Gesamtheit aller Aufgaben, die das Merkmal (z.B. Intelligenz) abbilden, fehlt
o Auch Intelligenztest sollte inhaltsvalide sein und repräsentative Aufgaben enthalten
Schwierig zu beurteilen, ob Test repräsentative Itemmenge enthält
o Formale Möglichkeit, Höhe der Inhaltsvalidität zu bestimmen und in Zahl auszudrücken, besteht in diesem Fall gar nicht
o Solche Tests werden ausschließlich auf Basis subjektiver (und hoffentlich übereinstimmender) Urteile von Experten Inhaltsvalidität bescheinigt bzw. abgesprochen
Kriteriumsvalidität
- Übereinstimmung zwischen Testwerten und Kriterien
- Kriterien: Variablen, mit denen die Testwerte zusammenhängen sollten
- Z.B. Intelligenzwerte von Schulkindern und Einschätzung der Lehrer über Intelligenz
- Übereinstimmung wird über Korrelationskoeffizienten ausgedrückt -> Höhe der Kriteriumsvalidität kann in Maßzahl angegeben werden
- Problem: Finden einer Kriteriumsvariable, die objektiv und reliabel ist
- I. d. R. lässt sich kein ideales Kriterium für ein Merkmal finden -> sinnvoll, einen Test an mehreren Variablen zu validieren
- Test verfügt über so viele Kriteriumsvaliditäten, wie Variablen zu seiner Überprüfung herangezogen werden
- Außenkriterien: z.B. Lehrerbewertung, Studien- und Berufserfolg
- Innere Validierung: andere Tests, die dasselbe Merkmal messen -> als Kriterium verwendeter Test sollte bereits als valides Messinstrument anerkannt sein -> irgendwann muss also zwangsläufig Bezug zu Außenkriterien hergestellt werden
- Übereinstimmungsvalidität: Test- und Kriteriumswerte werden (fast) gleichzeitig ermittelt
- Vorhersagevalidität: Kriteriumswerte werden nach der Testdurchführung erhoben
Konstruktvalidität
- Konstruktvalidierung eines Tests: Längerer, fortdauernder Prozess, in dem theoretische Aussagen über das zu messende Merkmal mithilfe des Tests überprüft werden
- Validität wird nicht über Außenkriterien ermittelt, sondern indem geprüft wird, ob möglichst vielfältige Hypothesen über das Merkmal durch Testwerte bestätigt werden
- Überprüfung kann zum Teil darauf hinauslaufen, Kriteriumswerte mit Testwerten zu korrelieren > Konstruktvalidität schließt u.U. Kriteriumsvalidität ein
- Auch Verwendung von Kriterien, die nicht mit Testwerten übereinstimmen sollten, z.B. Überprüfung, ob Intelligenztestwerte nicht mit Ergebnissen aus Konzentratiosnfähigkeitstest zusammenhängen
- Für Konstruktvalidität spricht, wenn mit einem Test möglichst viele Hypothesen über ein Merkmal bestätigt werden
- Konstruktvalidierung führt nicht zu endgültiger, numerischer Aussage über Validität, sondern gibt an, wie gut sich der Test bisher bewährt hat
- Je mehr Hypothesenüberprüfungen erfolgreich verlaufen sind, desto überzeugender die Annahme, der Test sei valide
- Einzelne Hypothesenüberprüfungen sind nur eindeutig interpretierbar, wenn jeweilige Hypothese bereits vor Validierung des Tests als gültig betrachtet werden kann