Messung I: Grundlagen des Messens Flashcards
Ausgangspunkt - was wird bedacht?
1) Konzeptspezifikation, Operationalisierung
2) Indikatoren
3) Items
1) Konzeptspezifikation, Operationalisierung
- Konzepte und Dimensionen
- nicht direkt beobachtbare Sachverhalte
- latente Variablen (z.B. Einstellungen)
Konzeptbeispiel siehe Schema Folie 4
2) Indikatoren
- beobachtbare Sachverhalte
- manifeste Variablen
3) Items
Fragen bzw. Aussagen (Statements), denen die Befragten zustimmen
oder die die Befragten ablehnen sollen
- dichotom (z.B. bei Einstellungsfragen: Zustimmung versus Ablehnung)
- polytom (z.B. bei Einstellungsfragen: trifft voll und ganz zu; trifft eher zu;
trifft eher nicht zu; trifft überhaupt nicht zu)
Definition Messen (S. Smith Stevens 1946)
„Messen ist die Zuordnung von Zahlen zu Objekten oder Ereignissen
nach bestimmten Regeln.“
Anforderung beim Messen
strukturtreue Abbildung, d.h. korrekte Wiedergabe der
Relationen der Objekte durch die Relationen der zugeordneten
Zahlen
strukturtreue Abbildungen
Morphismen
empirisches Relativ
Menge von Objekten, über die eine Relation
definiert wurde
numerisches Relativ
Menge von Zahlen, über die eine Relation
definiert wurde
Morphismen: wie heißen sie und was bedeuten sie?
Meistens: Homomorphismus. Vom empirischen Relativ kann auf numerisches Relativ geschlossen werden, umgekehrt aber nicht.
Sonderfall: Isomorphismus. Vom empirischen Relativ kann auf numerisches Relativ geschlossen werden UND umgekehrt.
Was ist eine Skala?
Eine Skala ist eine mindestens homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ
axiomatische Messtheorie
Angabe von Bedingungen (Axiome), die erfüllt sein müssen, damit
folgende Probleme gelöst werden:
- Repräsentationsproblem (Gibt es eine mind. homomorphe Abbildung?)
- Eindeutigkeitsproblem (Welche Klassen von Transformationen sind erlaubt,
ohne dass die Strukturtreue der Abbildung verloren geht?) - Bedeutsamkeitsproblem (Welche mathematischen Operationen sind sinnvoll,
ohne dass sich der Wahrheitswert der statistischen Aussagen ändert?)
- Repräsentationsproblem (Gibt es eine mind. homomorphe Abbildung?)
• Angabe der Bedingungen, die im empirischen Relativ vorliegen
müssen, damit eine mindestens homomorphe Abbildung möglich ist
• diese Bedingungen sind empirisch prüfbar
Beispiel: Transitivitätsaxiom für Messung einer Rangfolge (etwa bei Präferenzen),
Frage: „Wie interessant finden Sie folgende Studienfächer?“
mit Antwortvorgaben überhaupt nicht interessant 1 2 3 4 5 sehr interessant
Befragte: Soziologie=5, VWL=3, Jura=1
andere Frage: „Welches Studienfach ist interessanter?“ (direkter Paarvergleich)
Soziologie>VWL; VWL>Jura; Soziologie>Jura (transitiv): 5>3>1
Soziologie>VWL; VWL>Jura; Soziologie3, 3>1 aber 5<1
- Eindeutigkeitsproblem (Welche Klassen von Transformationen sind erlaubt,
ohne dass die Strukturtreue der Abbildung verloren geht?)
• Eindeutigkeit der Abbildungsfunktion muss durch Transformationen
erhalten bleiben
• Angabe der mathematischen Operationen, die für numerisches
Relativ zulässig sind, ohne dass Strukturtreue der Abbildung verloren
geht
Beispiel: für Messung einer Rangfolge sind nur solche Transformationen erlaubt, die die
Rangfolge bewahren → positiv monotone Transformationen (Logarithmieren, Quadrieren
etc. unter Beachtung des jeweiligen Wertebereichs)
- Bedeutsamkeitsproblem (Welche mathematischen Operationen sind sinnvoll,
ohne dass sich der Wahrheitswert der statistischen Aussagen ändert?)
• Angabe derjenigen mathematischen Operationen, die für zulässige
Transformationen den Wahrheitswert statistischer Aussagen nicht
verändert
• wichtig für Anwendung statistischer Verfahren
Beispiel: Differenzen- oder Mittelwertsbildung für Messung von Rangordnungen (wie etwa
Schulnoten) nicht zulässig und nicht sinnvoll
Skalenniveaus
Klasse der zulässigen Transformationen wird als Skalenniveau
bezeichnet
Skalenniveau wird durch Repräsentations- und Eindeutigkeitstheoreme
(Lösungen des Repräsentations- bzw. des Eindeutigkeitsproblems)
der jeweiligen Messstruktur bestimmt
Skalenniveau bestimmt dann die sinnvoll zu verwendenden mathematischen Operationen (siehe Bedeutsamkeitsproblem)
Unterscheidung von Skalenniveaus in Anlehnung an Stevens (1946)
- Nominalskalen
Anforderungen: Unterscheidung von Gleichheit/Verschiedenheit
Beispiele: Geschlecht,
Parteipräferenz
Eindeutigkeit (Zulässige Transformation): eindeutige Transformationen
Bedeutsamkeit: Gleich oder verschieden - Ordinalskalen
Anforderungen: Unterscheidung von Gleichheit/Verschiedenheit+Rangordnung
Beispiele: soziale Schicht, Zufriedenheit
Eindeutigkeit (Zulässige Transformation): positiv monotone Transformationen
Bedeutsamkeit: Größer, kleiner oder gleich - Intervallskalen
Anforderungen: Unterscheidung von Gleichheit/Verschiedenheit
+Rangordnung
+Gleichheit der Intervalle
Beispiele: Intelligenzmessung, Geburtsjahr
Eindeutigkeit (Zulässige Transformation): positiv lineare Transformationen
(Multiplikation mit einem positiven Faktor und/oder Addition einer Konstanten)
Bedeutsamkeit: Vergleichbarkeit von
Differenzen
4. Ratioskalen Anforderungen: Unterscheidung von Gleichheit/Verschiedenheit \+Rangordnung \+Gleichheit der Intervalle \+Gleichheit der Verhältnisse Beispiele: Einkommen, Dauer von Arbeitslosigkeit Eindeutigkeit (Zulässige Transformation): positiv proportionale Transformationen (Multiplikation mit einem positiven Faktor) Bedeutsamkeit: Aussagen über Verhältnisse, prozentuale Vergleiche
Welche Bedeutung haben Skalenniveaus?
• Skalenniveau bestimmt, welche Berechnungen empirisch sinnvoll
sind und welche statistische Verfahren angewendet werden dürfen
(z.B. Mittelwertberechnung erst ab Intervallskala)
• es gilt: alle bei niedrigeren Skalenniveaus zulässigen Berechnungen
sind auch bei höheren zulässig, aber nicht umgekehrt
• höhere Messniveaus verfügen über höheren Informationsgehalt und
sind deshalb wenn möglich zu präferieren (daher z.B.: Einkommen
nicht von vornherein in Kategorien erheben)
Problem mit Skalenniveaus in der sozialwissenschaftlichen Praxis
häufig Messung auf ungeprüftem Skalenniveau
Gründe:
1. Empirische Überprüfung der in Repräsentations- und Eindeutigkeitstheoremen
festgelegten Bedingungen (Axiome) sehr aufwendig
2. viele Messungen basieren auf vermuteten Zusammenhängen
zwischen Indikatoren und latenten Variablen
Skalenniveau per Annahme (vereinbartes Messen, measurement per
fiat)
Gütekriterien der Messung
Ziel eines Messvorgangs: Erhebung möglichst exakter und fehlerfreier
Messwerte
Zwei zentrale Arten von Gütekriterien
1. Zuverlässigkeit (Reliabilität):
Messung erbringt bei gleichbleibendem Sachverhalt gleichbleibende
Ergebnisse
2. Gültigkeit (Validität):
Messung erfasst die inhaltlich intendierte Zieldimension
Reliabilität und Validität basieren auf Annahmen der klassischen
Testtheorie
grundsätzliche Idee: jede Messung hat Messfehler: X = T + E
X: Messwert, T: wahrer Wert (Tau), E: Messfehler (Epsilon)
(siehe auch Folie 18 mit Formeln)
Annahmen sind Grundlage für mathematisch-statistisches Modell des
Zusammenhangs zwischen Messinstrument und theoretischem
Konstrukt (latenter Variable)
->exakte Definition der Gütekriterien der Messung
Reliabilität
Maß für die Reproduzierbarkeit von Messergebnissen
• ist definiert als Verhältnis aus der Varianz der wahren Werte und der
Varianz der Messwerte (σ^2T/σ^2
X), was gleichzeitig der quadrierten
Korrelation der wahren mit den gemessenen Werten entspricht (ρ^2
TX )
Schätzung der Reliabilität über
- Ermittlung des Ausmaß der zeitlichen Stabilität der Messung
- Ermittlung der Übereinstimmung äquivalenter Messungen
Reliabilität wird ermittelt aus Korrelation zwischen gemessenen Werten
zweier Messungen: ρX1X2
die zwei Kriterien für Reliabilität
- Ausmaß zeitlicher Stabilität: Test-Retest-Methode
2. Übereinstimmung äquivalenter Messungen
Reliabilität
1. Ausmaß zeitlicher Stabilität: Test-Retest-Methode
Wiederholung derselben Messung am selben Beobachtungsobjekt
Reliabilität: Korrelation der gemessenen Werte im Zeitpunkt t1 und t2
Probleme:
• Stabilität des Sachverhalts bei längerem Zeitraum zwischen t1 und t2
nicht garantiert (Veränderung der wahren Werte über die Zeit)
• mögliche Reaktivität (z.B. konsistentes Antworten wegen Erinnerung)
bei kürzerem Zeitraum zwischen t1 und t2
Reliabilität
2. Übereinstimmung äquivalenter Messungen
Grundidee: vergleichbare Messungen zum selben Zeitpunkt
a) Methode der parallelen Tests mit zwei Messinstrumenten
Grundidee: vergleichbare Messungen zum selben Zeitpunkt durch zwei
parallele Tests A und B
Reliabilität: Korrelation der Werte aus Methode A und B
Problem: Erstellen von zwei Messinstrumenten zu einem Sachverhalt
b) Maße interner Konsistenz (itembezogen)
Grundidee:
• Aufteilung der Itembatterie in Teilmessungen
• Items messen dieselbe Dimension
• Items als unabhängige Messwiederholungen
zwei Methoden zur Ermittlung der internen Konsistenz
b1) Testhälften (split-half): Aufteilung der Items in zwei Testhälften
• Reliabilität: Korrelation der Messwerte beider Testhälften
• allerdings Unterschätzung der Reliabilität, da verkürztes
Messinstrument
• rechnerische Korrektur mit Hilfe der Spearman-Brown-Formel
Grundlagen des Messen
• geschätzte Reliabilität sollte mindestens 0.8 betragen
b2) Itemkonsistenzmethode: Durchschnitt der Korrelationen aller
möglichen Testhälften
• Nachteil der split-half-Methode: verschiedene Aufteilungen der Items
in Testhälften möglich
• daher: Berücksichtigung sämtlicher Interkorrelationen der Items
• Cronbachs α als Methode der Schätzung der Reliabilität
• geschätzte Reliabilität sollte mindestens 0.8 betragen
• Determinanten der Reliabilität
- Testlänge (n): je mehr Items, desto höher die Reliabilität
- Item-Interkorrelation: höhere Reliabilität durch Ausschluss solcher Items,
die nur sehr niedrig mit den restlichen Items korrelieren
Definition Validität
Güte der Erfassung der durch Messung inhaltlich intendierten Zieldimension
Ausmaß, in dem das Messinstrument das misst, was es messen soll
Beziehung zwischen Reliabilität und Validität
- ein Messinstrument kann reliabel, aber nicht valide sein
- ein valides Messinstrument ist jedoch immer auch reliabel
- Reliabilität notwendige Voraussetzung für Validität
theoretische Validität
Korrelation zwischen wahren und gemessenen Werten (kann nicht beobachtet werden)
empirische Validität
Korrelation zwischen Instrument (gemessene Werte) und einer anderen beobachtbaren Variable
daraus folgt: Validität eines Instruments kann nicht größer sein als die Quadratwurzel aus der Reliabilität; die Reliabilität kann aber größer sein als die Validität
drei Formen der Validität
- Inhaltsvalidität
- Kriteriumsvalidität
- Konstruktvalidität
- Inhaltsvalidität
durch Messinstrument gemessene Werte repräsentieren in angemessener Art und Weise die Zieldimension
- Berücksichtigung aller relvanten Aspekte der Dimension, die gemessen werden soll
- keine objektiven Kriterien
- eventuell: Expertenbefragung
- Kriteriumsvalidität
Zusammenhang der durch Messinstrument gemessenen Werte mit Außenkriterium
zwei verschiedene Formen der Kriteriumsvalidität:
- Vorhersagevalidität: Bestätigung von Voraussagen aus einer ersten Messung durch spätere Messungen mit anderem Instrument
- Übereinstimmungsvalidität: Beurteilung der Messung anhand gleichzeitig erhobenen Kriteriums (Beispiel: Methode der anerkannten Gruppen)
Kriteriumsvalidität wird durch Korrelation zwischen durch Messinstrument gemessenen Werten und Außenkriterium ermittelt
3.Konstruktvalidität
theoretische und empirische Zusammenhänge eines Konstruktes mit anderen Konstrukten (Konstrukt=latente Variable)
Zwei Kriterien der Konstruktvalidität
- Konvergenzvalidität: Ähnlichkeit verschiedener Operationalisierungen des Konstrukts -> Messungen eines Konstrukts müssen untereinander sehr stark zusammenhängen
- Diskriminanzvalidität: Instrument erfasst andere Sachverhalte als andere Instrumente -> Zusammenhänge zwischen Messungen verschiedener Konstrukte müssen schwächer sein als Zusammenhänge zwischen Messungen desselben Konstrukts
gemeinsames Auftreten von Konvergenz- und Diskriminanzvalidität: Messungen eines Konstrukts müssen jeweils ähnliche Zusammenhänge zu den Messungen anderer Konstrukte aufweisen
Verfahren zur Überprüfung der Konstruktvalidität
- Multitrait-Multimethod-Verfahren (MTMM); sehr aufwendig
- einacher: Analysen für Indikatoren, die mit einer einzigen Methode erhoben wurden (z.B. Indikatoren-Korrelationsmatrix, Faktorenanalyse)
(Beispiel Konstruktvalidität Folie 36)
Was kann mit der Faktoranalyse erreicht werden?
Möglichkeit der statistischen Bewertung der Konstruktvalidität
Wie funktioniert die Faktoranalyse?
Faktoren sind unbeobachtete Variablen (=Konstrukte), die die Zusammenhänge zwischen den beobachteten Variablen hervorrufen
explorative Faktoranalyse
zwei Formen der Faktoranalyse
konfirmatorische FA
explorative FA
explorative Faktoranalysen
keine theoretische Festlegung eines Messmodells, Zusammenhänge zwischen beobachteten Variablen und Faktoren werden aus Daten ermittelt
konfirmatorische Faktoranalysen
theoretische Festlegung eines Messmodells, anschließend empirische Überprüfung