3 Messen und Testen (Sedlmeier) Flashcards

1
Q

Worauf bezieht sich eine Messung?

A

Messung bezieht sich stets auf Variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist das Ziel einer Messung?

A

Ermittlung der Ausprägung eines Merkmals bei bestimmtem Objekt (oder Person) zu bestimmter Zeit, Merkmalsausprägung soll in Zahl ausgedrückt werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Kritik psychologischer Messung und Relativierung

A

„Man kann Seele eines Menschen nicht in Zahlen fassen.“
-> gemessen werden stets nur einzelne, definierte Eigenschaften von Objekten/Menschen

Kritik: „Man kann psychische Phänomene nicht in Zahlen fassen.“
-> wir können sie in sprachlichen Aussagen fassen und diese wiederum in Zahlen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vorteile von Zahlen gegenüber sprachlichen Äußerungen

A
  • Bedeutung von Zahlen präziser festgelegt > erlauben damit feinere Differenzierungen zwischen verschiedenen Merkmalsausprägungen,
  • Beziehungen zwischen Variablen nur durch mathematische Beschreibung möglich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist eine Zuordnungsregel?

A

von einer Messung kann erst gesprochen werden, wenn es eine Zuordnungsregel gibt:
- muss gewährleisten, dass bestimmte Relationen zwischen den Zahlen analoge empirische Relationen zwischen den Messobjekten abbilden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Empirisches Relativ

A

Menge von Objekten und einer oder mehreren beobachtbaren Relationen zwischen diesen Objekten

Konkrete empirische Relationen beinhalten immer auch das zu messende Merkmal:
z.B. „hat das gleiche Geschlecht“ (Äquivalenz), „ist zufriedener“ (Ordnung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Äquivalenzrelation

A

Zeichen: Schlange

verschiedene Objekte weisen hinsichtlich eines Merkmals die gleiche Ausprägung aus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ordnungsrelation

A

Zeichen: >

ein Merkmal ist bei einem Objekt stärker ausgeprägt als bei einem anderen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Numerisches Relativ

A

Menge von Zahlen und einer bestimmten Anzahl von definierten Relationen zwischen diesen Zahlen (z.B. alle natürlichen oder alle reellen Zahlen)

Gleichheitsrelation (=) und Größer-Kleiner-Relation (>)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Abbildung

A

Zuordnung von Objekten und Zahlen -> empirisches Relativ wird in numerisches Relativ abgebildet

  • > jedem Objekt aus empirischem Relativ muss genau eine Zahl aus dem numerischen Relativ zugeordnet werden > (Abbildungs-)Funktion
  • nicht möglich: Objekt ohne Pfeil oder mit mehreren Pfeilen
  • möglich: Messwert mit mehreren Pfeilen, Messwerte ohne Pfeile
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Homomorphe Abbildung

A

Relationen zwischen den Messobjekten werden auch durch Relationen zwischen Zahlen zum Ausdruck gebracht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Messung (messtheoretische Definition)

A

homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Skala

A

numerisches Relativ, das aus einer homomorphen Abbildung resultiert -> Skalenniveaus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Messtheoretische Probleme

A
  • drei Kardinalprobleme bei Erarbeitung von homomorphen Abbildungen
  • sind auch für Einteilung in Skalenniveaus entscheidend
  • Repräsentationsproblem
  • Eindeutigkeitsproblem
  • Bedeutsamkeitsproblem
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Repräsentationsproblem

A
  • Frage, ob ein bestimmtes Merkmal überhaupt messbar ist: Kann für ein bestimmtes empirisches Relativ eine homomorphe Abbildung in ein numerisches Relativ gefunden werden?
  • Ein Merkmal ist messbar, wenn im empirischen Relativ bestimmte Axiome (Grundannahmen) erfüllt sind
  • Axiome beziehen sich stets auf Eigenschaften der empirischen Relationen, z.B. Transitivität
  • Transitivität: Eigenschaft, die gegeben sein muss, damit (mind.) auf Ordinalskala gemessen werden kann; wenn a > b und b > c, dann a > c
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Transitivität

A

Eigenschaft, die gegeben sein muss, damit (mind.) auf Ordinalskala gemessen werden kann; wenn a > b und b > c, dann a > c

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Lösung des Repräsentationsproblems

A

Formulierung von Axiomen, die im empirischen Relativ gelten sollen

  • empirische Überprüfung, ob Axiome erfüllt sind
  • bei erfolgreicher Überprüfung: homomorphe Abbildung -> Merkmal ist (auf bestimmtem Skalenniveau) messbar
  • in sozialwissenschaftlicher Forschung oft nicht durchgeführt -> sehr aufwendig, teilweise kaum möglich, z.B. bei latenten Variablen, stattdessen häufig Pausibilitätsüberlegungen
  • zahlreiche Messungen in Psychologie = „per fiat“-Messungen: Man vertraut, dass ein Messinstrument das jeweilige Merkmal auf einem bestimmten Skalenniveau erfasst
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

“per fiat”-Messung

A

Man vertraut, dass ein Messinstrument das jeweilige Merkmal auf einem bestimmten Skalenniveau erfasst

-> zahlreiche Messungen in der Psychologie

19
Q

Eindeutigkeitsproblem

A
  • Frage, wie Messwerte transformiert werden können, ohne dass die enthaltene Info verloren geht
  • zulässige vs. unzulässige Transformationen (z.B. 2,00m und 1,60m: zulässig: x100, unzulässig: +100; bei Werten 4, 3, 2, 1: zulässig: quadrieren, multiplizieren, addieren)
  • Menge der zulässigen Transformationen ist auf Ordinalskala größer als auf Intervallskala
  • > Verhältnisskala ist eindeutiger als Ordinalskala
20
Q

Bedeutsamkeitsproblem

A
  • Frage, welche mathematischen Operatoren mit Messwerten zu empirisch sinnvollen Aussagen führen
  • z.B. Addition normalskalierte Merkmale (1=männlich, 2=weiblich) führt nicht zu bedeutsamen Aussagen
  • Verrechnung von Messwerten ist dann sinnvoll, wenn sie unter allen zulässigen Transformationen der Messwerte zu derselben Aussage führt
  • z.B. Werte (3, 2, 1): 2+1=3; Quadrieren der Werte ergibt (9, 4, 1): 4+1≠9
  • wichtige Konsequenzen für die Frage, welche statistischen Verfahren bei der Analyse der in einer empirischen Untersuchung erhobenen Daten angewandt werden können
  • > Verrechnung von Messwerten innerhalb von statistischen Verfahren muss auch zu empirisch sinnvollen Aussagen führen
21
Q

Nominalskala

A
  • setzen Äquivalenzrelation im empirischen Relativ voraus
  • ein-eindeutige Transformationen: gleiche Merkmalsausprägungen erhalten gleiche Messwerte und unterschiedliche Ausprägungen erhalten unterschiedliche Messwerte
  • keine Verrechnungen möglich, nur Häufigkeit > Modalwert
22
Q

Ordinalskala

A
  • erfordern (schwache) Ordnungsrelation im empirischen Relativ
  • auch wenn quantitativ geordnete Ausprägungen zu (unterschiedlich großen) Klassen zusammengefasst werden, denen jeweils der gleiche Messwert zugeordnet wird, z.B. Beaufort-Skala (Windstärke 6km/h-11km/h = Messwert 2)
  • keine Aussage über Größe der Unterschiede möglich
  • zulässige Transformationen: alle monoton steigenden Transformationen
  • sinnvolle Aussage: Median
23
Q

Auf wen geht die Klassifikation der 5 Skalenniveaus zurück?

A

Auf Stevens (1951)

24
Q

Intervallskala

A
  • Größe des Unterschiedes kann empirisch ermittelt werden, Maßeinheit wird definiert
  • erlauben keine Aussage über Verhältnisse zwischen Messwerten, weil sie über keinen absoluten Nullpunkt verfügen: Messwert 0 wird willkürlich festgelegt und bedeutet nicht, dass ein Merkmal nicht vorhanden ist (z.B. Temperatur 0°C)
  • alle linearen Transformationen sind zulässig: y=ax+b (z.B. C in F= 1,8C+32)
  • Berechnung des Mittelwerts ist sinnvoll
  • auf Intervallskalenniveau (und allen höheren) können alle in Psychologie gängigen statistischen Verfahren sinnvoll angewandt werden
  • Messungen auf höherem Skalenniveau als Intervallskala sind in der Psychologie eher selten
  • in psychischen Merkmalen kein inhaltlich sinnvoller Nullpunkt, z.B. Person, die beim IQ-Test keine Aufgabe löst, verfügt dennoch über Intelligenz
  • IQ-Werte und Messungen mit Rating-Skalen meist intervallskaliert
25
Q

Verhältnisskala

A
  • Größe des Unterschieds kann empirisch ermittelt werden
  • inhaltlich bedeutungsvoller Nullpunkt ist bestimmbar -> Nullpunkt wird Messwert 0 zugeteilt
  • eindeutig bis auf hier zulässige Ähnlichkeitstransformation: y=a*x
  • Zeit wird häufig in psychologischen Untersuchungen erfasst, z.B. Dauer von Therapien, Reaktionszeit, Bearbeitungszeit
  • Indikator-Problem: Messung von Variablen selbst oder als Indikator, z.B. für sozio-ökonomischen Status? (Sozio-ökonomischer Status mithilfe von Jahreseinkommen wird auf Ordinalskala gemessen)
26
Q

Absolutskala

A
  • natürlicher Nullpunkt plus natürliche Maßeinheit -> Erfassung von Häufigkeiten
  • keine Transformationen zulässig, da Nullpunkt als auch Maßeinheit eindeutig festgelegt
  • nur Häufigkeiten zählen möglich
27
Q

Psychometrische Tests

A

standardisierte Verfahren zur Erfassung latenter Variablen

  • bestehen aus Reihe von Aufgaben oder Fragen -> „Items“
  • Merkmalsausprägung wird aus Antwortverhalten bei Items geschlossen
  • Antwortverhalten: beobachtbarer Indikator der interessierenden latenten Variablen
28
Q

Leistungstests

A

bestehen aus Aufgaben, bei denen objektiv festgestellt werden kann, ob Antwort richtig oder falsch ist, z.B. Intelligenztests

29
Q

Persönlichkeitstests

A

erfassen Merkmale wie Verträglichkeit, Offenheit oder Neurotizismus; Probanden geben Selbstbeschreibungen ab, keine objektiv richtige Lösung

30
Q

Rohwert

A
  • wird anhand der Antworten eines Probanden ermittelt, entspricht zumeist der Anzahl der richtigen Antworten bzw. „Ja“/“Stimmt“-Antworten bei allen Items
  • bei Rating-Skalen wird jeder Antwort ein Wert zugewiesen und diese addiert
  • Rohwert wird mithilfe von Normen in Testwert umgewandelt (z.B. IQ-Wert)
  • Normen resultieren aus Untersuchungen mit Eichstichproben, in denen große Anzahl von Teilnehmern den Test bearbeitet -> Vergleich von Rohwert mit durchschnittlichem Wert der Eichstichprobe
31
Q

Testtheorien

A

beschäftigen sich mit Regeln zur Konstruktion und Auswahl von Test-Items

32
Q

Klassische Testtheorie

A

historisch älteste, große Mehrheit der heute gebräuchlichen Tests basiert darauf -> Gütekriterien

33
Q

Objektivität

A
  • verschiedene Testleiter erzielen bei demselben Probanden das gleiche Ergebnis
  • Durchführungsobjektivität
  • Auswertungsobjektivität
  • Interpretationsobjektivität
34
Q

Durchführungsobjektivität

A
  • Wörtlich vorgegebene Instruktionen, die Testleiter nur abliest
  • Soziale Aktion zwischen Teilnehmer und Versuchsleiter wird auf Minimum beschränkt
35
Q

Auswertungsobjektivität

A
  • Umfassende und klare Anweisung über Auswertung (z.B. bei offenen Fragen)
  • Meist kein Problem, da geschlossene Fragen
36
Q

Interpretationsobjekt

A
  • Verschiedene Anwender ziehen aus demselben Testergebnis dieselben Schlüsse
  • Angabe von Normen > Erhebung durch repräsentative Strichproben (Vergleichsmaßstab)
  • Oft verschiedene Normen für verschiedene Subgruppen (Bildungsniveaus, Alter, Geschlecht)
  • Bei konkreten diagnostischen Fragestellungen muss Testergebnis mit jeweiligen Anforderungen in Beziehung gesetzt werden -> können in Testanweisung höchstens beispielhaft angegeben werden, weil es zu viele denkbare Fragestellungen gibt
37
Q

Reliabilität + Messfehler

A
  • Zuverlässigkeit, Messgenauigkeit
  • psychologische Messgeräte weisen häufig nur geringe Reliabilität auf, wegen unsystematischer und unkontrollierter Einflüsse
  • X = T + E
    X=beobachtbarer Messwert, T=tatsächlicher Wert, E=Messfehler
  • Messfehler E: Zufallsfehler / unsystematischer Fehler -> Werte mitteln sich aus, Mittelwert von E=0
    -> Mittelwert der beobachteten Messwerte entspricht tatsächlichem Durchschnitt
  • Test, bei dem häufig große Messfehler auftreten, enthält größere Unterschiede zwischen den Messwerten als Test mit kleinen Messfehlern -> Varianz
  • Bei Messfehler = 0 -> Reliabilität = 1
  • Mit steigender Varianz der Messfehler sinkt Reliabilität
  • Reliabilität = 0, wenn wahre Werte keine Varianz aufweisen
  • Test misst in diesem Fall keine Unterschiede zwischen Personen (es gibt keine!), sondern erfasst ausschließlich Unterschiede zwischen den Messfehlern, die bei Testung aufgetreten sind
  • Für jeden Probanden zwei Messwerte ermitteln: ähnliche Ergebnisse = Test reliabel
38
Q

Retest-Methode

A
  • Derselbe Test wird derselben Stichprobe in gewissem Zeitabstand zwei Mal vorgelegt
    o Ermittlung des Korrelationskoeffizienten zwischen beiden Ergebnissen
  • Probleme:
    o Übungseffekte
    o Erinnerungseffekte -> Lösungsansatz: mehrere Wochen verstreichen lassen
     Nächstes Problem: Veränderung des Merkmals bei langem Zeitraum
  • Bei Ermittlung von hoher Reliabilität trotz großem Zeitabstand -> Test hat geringe Messfehler und gemessenes Merkmal ist Stabil
    o Retest-Reliabilität wird daher gelegentlich auch als Stabilität bezeichnet
39
Q

Paralleltestmethode

A
  • Parallele oder äquivalente Formen des Tests werden derselben Stichprobe in gewissem Zeitabstand zwei Mal vorgelegt und Ergebnisse korreliert
    o Unterschiedliche Items, die aber exakt dasselbe Merkmal in exakt derselben Weise messen müssen
     Gleiche Anzahl an Antwortmöglichkeiten, gleiche Schwierigkeit etc.
    o Übungseffekte können auftreten, Erinnerungseffekte aber nicht
  • Reliabilität kann auch bei kürzeren Zeitabständen bestimmt werden
  • Hohe Reliabilität bei Paralleltestmethode: wenige Messfehler und äquivalente Testformen
40
Q

Testhalbierungsmethode

A
  • Probanden bearbeiten Test einmalig, Items werden aber in zwei Hälften aufgeteilt, für jeden Teilnehmer werden zwei Messwerte bestimmt
  • Ähnelt Paralleltest-Methode
  • Odd-even-Methode: Items mit gerader Reihungsnummer in erste Testhälfte, Items mit ungerader Reihungsnummer in andere Testhälfte
41
Q

Inhaltsvalidität

A
  • „Itemuniversum“: Sammeln aller Items, in denen sich das interessierende Merkmal ausdrückt
    o Auswahl einer repräsentativen Teilmenge, die in Test aufgenommen wird
  • Inhaltsvalide ist z.B. Biologietest in 9. Klasse, der Unterrichtsstoff abfragt
  • Bei breiteren und komplexeren Fähigkeiten in der Regel nicht möglich Itemuniversum zu definieren
    o Hinreichend präzise Vorstellung von Gesamtheit aller Aufgaben, die das Merkmal (z.B. Intelligenz) abbilden, fehlt
    o Auch Intelligenztest sollte inhaltsvalide sein und repräsentative Aufgaben enthalten
     Schwierig zu beurteilen, ob Test repräsentative Itemmenge enthält
    o Formale Möglichkeit, Höhe der Inhaltsvalidität zu bestimmen und in Zahl auszudrücken, besteht in diesem Fall gar nicht
    o Solche Tests werden ausschließlich auf Basis subjektiver (und hoffentlich übereinstimmender) Urteile von Experten Inhaltsvalidität bescheinigt bzw. abgesprochen
42
Q

Kriteriumsvalidität

A
  • Übereinstimmung zwischen Testwerten und Kriterien
  • Kriterien: Variablen, mit denen die Testwerte zusammenhängen sollten
  • Z.B. Intelligenzwerte von Schulkindern und Einschätzung der Lehrer über Intelligenz
  • Übereinstimmung wird über Korrelationskoeffizienten ausgedrückt -> Höhe der Kriteriumsvalidität kann in Maßzahl angegeben werden
  • Problem: Finden einer Kriteriumsvariable, die objektiv und reliabel ist
  • I. d. R. lässt sich kein ideales Kriterium für ein Merkmal finden -> sinnvoll, einen Test an mehreren Variablen zu validieren
  • Test verfügt über so viele Kriteriumsvaliditäten, wie Variablen zu seiner Überprüfung herangezogen werden
  • Außenkriterien: z.B. Lehrerbewertung, Studien- und Berufserfolg
  • Innere Validierung: andere Tests, die dasselbe Merkmal messen -> als Kriterium verwendeter Test sollte bereits als valides Messinstrument anerkannt sein -> irgendwann muss also zwangsläufig Bezug zu Außenkriterien hergestellt werden
  • Übereinstimmungsvalidität: Test- und Kriteriumswerte werden (fast) gleichzeitig ermittelt
  • Vorhersagevalidität: Kriteriumswerte werden nach der Testdurchführung erhoben
43
Q

Konstruktvalidität

A
  • Konstruktvalidierung eines Tests: Längerer, fortdauernder Prozess, in dem theoretische Aussagen über das zu messende Merkmal mithilfe des Tests überprüft werden
  • Validität wird nicht über Außenkriterien ermittelt, sondern indem geprüft wird, ob möglichst vielfältige Hypothesen über das Merkmal durch Testwerte bestätigt werden
  • Überprüfung kann zum Teil darauf hinauslaufen, Kriteriumswerte mit Testwerten zu korrelieren > Konstruktvalidität schließt u.U. Kriteriumsvalidität ein
  • Auch Verwendung von Kriterien, die nicht mit Testwerten übereinstimmen sollten, z.B. Überprüfung, ob Intelligenztestwerte nicht mit Ergebnissen aus Konzentratiosnfähigkeitstest zusammenhängen
  • Für Konstruktvalidität spricht, wenn mit einem Test möglichst viele Hypothesen über ein Merkmal bestätigt werden
  • Konstruktvalidierung führt nicht zu endgültiger, numerischer Aussage über Validität, sondern gibt an, wie gut sich der Test bisher bewährt hat
  • Je mehr Hypothesenüberprüfungen erfolgreich verlaufen sind, desto überzeugender die Annahme, der Test sei valide
  • Einzelne Hypothesenüberprüfungen sind nur eindeutig interpretierbar, wenn jeweilige Hypothese bereits vor Validierung des Tests als gültig betrachtet werden kann