7. Ausblick Regressionsanalyse Flashcards
Kausalität
Zitat Dieter Nohlen:
Kausalität (K.) im strikten Sinne unterstellt einen ursächlichen Zusammenhang zwischen zwei Variablen (Sachverhalten, Ereignissen)
in Form einer eindeutigen Ursache-Wirkung-Beziehung,
an welche die Anforderungen eines kausalen Gesetzes erhoben werden […]
Korrelation
Als Korrelation bezeichnet man die wechselseitige Beziehung zwischen zwei oder mehreren Begriffen, Phänomen, Merkmalen […].
Eine Korrelationsrechnung (K.) setzt nicht unbedingt einen Kausalzusammenhang voraus; er kann allerdings gegeben sein; zu seiner Bestimmung bedarf es einer zusätzlichen Interpretation.
Folgen: Kausalitätsannahme vor Korrelationsrechnung!
Theorieüberlegungen
-> Überlegungen zu möglichen kausalen Zusammenhängen
Hypothesenerstellung
Operationalisierung
Stichprobe
Erhebung
Auswertung
-> Korrelation feststellbar?
Überprüfung der Hypothese
-> kann diese widerlegt werden? (kritischer Rationalismus/Erkenntnisskeptizismus)
Indikatoren und tatsächliche Kausalität
Daher müssen Hypothesen immer im Vorfeld inhaltlich begründet werden
Bsp.:
biologisches Geschlecht korreliert mit Einkommensunterschieden (=Indikator)
die sozialen Geschlechterrollen sind eine mögliche Kausalität
Positiver und negativer Zusammenhang
Je höher der Wert der abhängigen Variable, desto höher der Wert der unabhängigen Variable
-> positiver Zusammenhang
Je höher die unabhängige Variable, desto niedriger die abhängige Variable
-> negativer Zusammenhang
Quantifizierung dieser Zusammenhänge durch Zusammenhangsmaße
Zusammenhangsmaße nach Gehring/Weins
„Zusammenhangsmaße drücken die Stärke der Beziehung zwischen zwei Merkmalen aus.“
Je nach Skalenniveau sind unterschiedliche Zusammenhangsmaße zu verwenden!
Welche Zusammenhangsmaße gibt es?
Korrelation bei einfachen Daten:
Korrelationskoeffizient
Kovarianz
Korrelation bei kategorialen Daten:
Chi-quadrat (X2)
Cramérs V
Kreuztabelle
Indifferenztabelle
Korrelation: Ablauf bei Lijphart
Stärke des Zusammenhanges zweier intervallskalierten Variablen - wird mit dem Pearson Korrelationskoeffizienten (r) gemessen.
Ablauf:
1. Theorieüberlegung:
Existieren Zusammenhänge zwischen den aufgestellten Indikatoren, lassen sich diese zu Dimensionen zusammenstellen.
- Hypothesenerstellung:
Zuerst: es existiert ein Zusammenhang zwischen der Anzahl der Konfliktdimensionen und der Anzahl der gewählten Parteien. - Operationalisierung
- Stichprobe
- Erhebung:
- Auswertung:
Korrelation feststellbar? - Überprüfung der Hypothese
Kovarianz
Kovarianz gibt die „gemeinsame Streuung zweier Merkmale an“ (Gehring / Weins 2009: 169). Es werden übereinstimmende Abweichungen vom arithmetischen Mittelwert erwartete.
Annahme eines positiven Zusammenhangs: xi weicht stark von x- ab, also soll yi stark von y- abweichen
Kovarianz nahe 0 = kein Zusammenhang
hoher positiver Wert = positiver Zusammenhang
hoher negativer Wert = negative Korrelation
Korrelationskoeffizient
Der Wert cov(x,y) sagt zur Einordnung wenig aus, da er nicht standardisiert ist und somit abhängig von Standardabweichung ist. Daher wird der Korrelationskoeffizient r durch eine Normierung der Kovarianz berechnet:
r = kovarianz / (Standardabweichung von x * Standardabweichung von y)
r liegt immer im Intervall [-1;1]
ab 0,20 = mittelstarke positive Korrelation.
Nutzen:
Aussagen über die Stärke von Zusammenhängen. Stärke des linearen Zusammenhangs.
Kreuztabelle
Darstellung der gemeinsamen Verteilung von 2 Merkmalen.
Nutzen:
erste Hinweise auf einen Zusammenhang zwischen zwei Merkmalen
Zusammenhangsmaß bei nominalskalierten Daten
Cramérs V
= Maßzahl, welche aufbauend auf 𝜒 2 (Chi-quadrat) angewendet werden kann, um den Zusammenhang zwischen zwei nominal skalierten Variablen anzugeben.
liegt in einem Intervall [0;1]. Je höher der Wert ist, desto stärker ist der Zusammenhang.
* Wert 0: Kein Zusammenhang
* Wert 1: Perfekter Zusammenhang
Basiert auf der Abweichung der beobachteten Häufigkeiten (Kontingenztabelle) von den erwarteten Häufigkeiten (Indifferenztabelle).
Berechnung:
* Berechnung der Indifferenztabelle
* Berechnung der Differenzen zwischen den einzelnen Zellen der Kontingenztabelle mit den entsprechenden Zellen in der Indifferenztabelle
* Berechnung des Kontingenzmaßes über diese
sqrt(Chi-quadrat / n ∗ (R − 1))
Indifferenztabelle
= erwartete Häufigkeit für jede Kombination der Merkmalsausprägungen
Randhäufigkeiten miteinander multiplizieren und durch Gesamtanzahl teilen
𝜒 2
(tatsächlich beobachtete Häufigkeiten - erwartete Häufigkeiten)^2
-> alles geteilt durch erwartete Häufigkeiten
Problem: 𝜒 2 hängt von der Zahl der Fälle ab und muss normalisiert werden. Hierbei wird der berechnete Wert in das Verhältnis zur Fallzahl gebracht, in dem 𝜒 2 durch den höchstmöglichen Wert von 𝜒 2 für eine Anzahl von Fällen geteilt wird.
𝜒𝑚𝑎𝑥 2 = n ∗ (R − 1).
Hierbei ist n die Anzahl der Fälle und R das Minimum von Spalten und Zeilenzahl in der Kreuztabelle