Korrelation, Zusammenhangsmaße Flashcards

1
Q

Erkläre Korrelation

A

Mit Korrelationen kann man beschreiben, vorhersagen und (unter bestimmten Bedingungen) kausale Inferenzen herstellen

Viele sehr komplexe Methoden für Vorhersagen und Beschreibung (machine learning, AI, …) sind im Grunde Korrelationen

=Zwei Eigenschaften der Welt tendieren systematisch, gemeinsam aufzutreten (oder nicht)

Wenn zwei Eigenschaften der Welt (Variablen) gemeinsam auftreten, gibt es eine positive Korrelation zwischen ihnen.

Wenn die zwei Variablen nicht systematisch sondern nur zufällig gemeinsam auftreten, sind sie nicht korreliert.

Wenn eine Eigenschaft präsent ist, und die andere dann eher nicht, gibt es eine negative Korrelation zwischen ihnen.

Achtung: wie wie über Korrelationen reden, hängt auch vom Skalenniveau ab.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Erkläre counterfactual dependence

A

große Frage bei Kausalität:

Wenn etwas (D) nicht passiert wäre, wäre dann …
-> Ergebnisse haben viele Ursachen
-> interessieren uns für Effekt von treatments (D), Interventionen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Kausaler Effekt Formel

A

Kausaler Effekt: Unterschied zwischen den beiden “Welten” (mit und ohne Treatment)

Wir können den kausalen Effekt “schätzen”:

Estimate = Estimand + Bias + Noise

auf Deutsch ungefähr:
Schätzung = Schätzer + Systematischer Fehler + Zufallsfehler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

welche Skalenniveaus gibt es?

A
  1. kategoriale Variablen:
    Nominal
    Ordinal

kontinuierliche Variablen:
Intervall
Verhältnis/Ratio

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Erkläre kategoriale Variablen

A

Nominal:
-Unterscheidung
-zb Geschlecht Parteiwahl

Ordinal
-ordnen, unterscheidung
-zb Zustimmung, Bildung

-Abstände können nicht interpretiert werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Erkläre kontinuierliche Variablen

A

Intervall:
-gleiche Abstände
-ordnen, unterscheiden
-zb Temperatur, IQ, Datum

Verhältnis/Ratio:
-echter Nulltpunkt
-gleiche Abstände
-ordnen, unterscheiden
-zb Stimmenanteil, Inflation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Korrelation berechnen bei zwei binären Variablen

A

zb Demokratie oder Autokratie
und Öl produzent oder kein öl produzent

Anzahl der demokratischen Länder durch Anzahl der (nicht)öl produzierenden Länder dividieren

Anzahl der Autokratien durch Anzahl der (nicht)öl produzierenden Länder dividieren
-> Werte vergleichen, Wahrscheinlichkeit bei Demokratie und nicht öl produzieren höher -> negative Korrelation zwischen Demokratie und Öl produktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Korrelation mit zwei kontinuierlichen Variablen

A

Daten auf Koordinationsystem ergibt scatterplot -> regressionslinie zeigt korrelation

achsen können vertauscht werden -> steigung selbst ändert sich zwar aber vorzeichen der korrelation immer gleich

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Zusammenhangsmaße für kategorische Variablen

A

Prozentsatzdifferenz / relatives Risiko (dichotome Merkmale)

odds Ratio (dichotome Merkmale)

Chi-Quadrat (nominale Merkmale)

Cramérs V (nominale Merkmale)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

erkläre Prozentsatzdifferenz und relatives Risiko

A

bei Prozentsatzdifferenz Anteile wie vorher berechnen und zb den von Demokratie und Autokratie vergleichen -> 0,8 - 0,45 = Wahrscheinlichkeit Demokratie zu sein, bei Ländern, die keine großen Ölproduzenten sind, 35 Prozentpunkte höher

Relatives Risiko:
0,8 / 0.45 = 1.78
das “risiko”/ Wahrscheinlichkeit, eine Demokratie zu sein, ist bei Ländern die keine großen Ölproduzenten sind, 1.78 mal so hoch / 78% höher

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Erkläre Odds Ratio

A

Odds of democracy bei nicht-öl produktion: demokratie/gesamtnichtölprod / autokratie/gesamtnichtölprod = 4

odds of democracy bei öl produktion: demokratie/gesamtölprod / autokratie/gesamtölprod = 0.82

Odds ratio: 4/0.82 =4.88
chancen, eine demokratie zu sein, ist bei den Ländern, die keine Ölproduzenten sind, 4.88 mal so hoch / 388 % höher

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Erkläre Chi-Square

A

Wie sehr weichen die beobachteten und erwarteten Werte voneinander ab?

Erwartet: hypothetische Werte, wenn es keinen Zusammenhang gäbe

chi² für demokratie und nicht öl produzent:

Pr(demokratie) = demokratien/anzahl aller länder
Pr (nichtölprod) = nichtölprodu/anzahl aller länder

Pr(dem) x Pr(nichtölp) x anzahl länder = 111,79

-> Erwartungswert = 112 Länder Demokratien und nicht Öl produzenten

-> (tatsächlicher Wert - 112)² / 112 = 0.32

..mit allen Kombis so machen…
alle abweichungen zsusammen addieren= 10.95

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

erkläre Cramérs V

A

= Maß für die Stärke der Korrelation
0 bis 1 (kein Zusammenhang bis perfekter Zusammenhang)

wurzel aus ( chi² / n * min(m-1, k-1) )

-> min(m-1, k-1)
Anzahl der zeilen (m) -1
Anzahl der spalten (k) -1
kleinere der beiden Werte
*n (Anzahl gesamt)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Korrelation messen für kontinuierliche Variablen

A

arithmetisches Mittel:
μ = all werte von x summieren / anzahl der observations

σ² = Varianz = Unterschiede jedes Wertes von x und dem arithmetischen Mittel -> Abweichungen quadrieren

σ = standardabweichung = wurzel aus varianz, wie weit ist eine Beobachtung durchschnittlich vom Mittel entfernt? -> betont aber weite entfernungen durch quadrieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Kovarianz

A

für Kovarianz zuerst μ von x und y berechnen

Abweichungen von x und y von ihren μ berechnen -> miteinander multiplizieren

durch Anzahl N dividieren
= measure of correlation, weil:
-wenn x und y beide über ihren μ sind = Produkt der Abweichungen positiv
-wenn beide darunter sind, auch positiv
-> überdurchschnittliche werte des einen treten gemeinsam mit überdurchschnittlichen des anderen auf -> positive korrelation
-wenn eines darunter, eines darüber, dann negativ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Korrelationskoeffizient

A

Pearson’s r = corr (x,y) =

cov (x,y) / (σ(x) * σ (y))

-> vorzeichen des corr ist dasselbe wie der cov

corr von -1 bis 1
1 = positive, lineare, deterministische Beziehung zwischen x und y
-1 = negative lineare, deterministische Beziehung

-> ist keine perfekte Voraussage von einem Wert auf den anderen möglich, dann wo dazwischen
-> Vorzeichen positive oder negative Korrelation
-> absolutwerte über stärke des Zusammenhangs zwischen x und y

17
Q

r-squared statistic

A

r (Korrelationskoeffzient) quadriert

= zwischen 0 und 1
= interpretations als der Anteil der Variation in y, die durch y erklärt wird und vice versa

erklärt bedeutet keine kausale Interpretation von Korrelation

18
Q

Lineariät

A

-> bei Korrelation geht es um lineare Zusammenhänge
-> nicht alle Zusammenhänge linear

wenn zb anderer Zusammenhang, würde r = 0 -> bedeutet aber nicht, dass kein Zusammenhang