Korrelation, Zusammenhangsmaße Flashcards
Erkläre Korrelation
Mit Korrelationen kann man beschreiben, vorhersagen und (unter bestimmten Bedingungen) kausale Inferenzen herstellen
Viele sehr komplexe Methoden für Vorhersagen und Beschreibung (machine learning, AI, …) sind im Grunde Korrelationen
=Zwei Eigenschaften der Welt tendieren systematisch, gemeinsam aufzutreten (oder nicht)
Wenn zwei Eigenschaften der Welt (Variablen) gemeinsam auftreten, gibt es eine positive Korrelation zwischen ihnen.
Wenn die zwei Variablen nicht systematisch sondern nur zufällig gemeinsam auftreten, sind sie nicht korreliert.
Wenn eine Eigenschaft präsent ist, und die andere dann eher nicht, gibt es eine negative Korrelation zwischen ihnen.
Achtung: wie wie über Korrelationen reden, hängt auch vom Skalenniveau ab.
Erkläre counterfactual dependence
große Frage bei Kausalität:
Wenn etwas (D) nicht passiert wäre, wäre dann …
-> Ergebnisse haben viele Ursachen
-> interessieren uns für Effekt von treatments (D), Interventionen
Kausaler Effekt Formel
Kausaler Effekt: Unterschied zwischen den beiden “Welten” (mit und ohne Treatment)
Wir können den kausalen Effekt “schätzen”:
Estimate = Estimand + Bias + Noise
auf Deutsch ungefähr:
Schätzung = Schätzer + Systematischer Fehler + Zufallsfehler
welche Skalenniveaus gibt es?
- kategoriale Variablen:
Nominal
Ordinal
kontinuierliche Variablen:
Intervall
Verhältnis/Ratio
Erkläre kategoriale Variablen
Nominal:
-Unterscheidung
-zb Geschlecht Parteiwahl
Ordinal
-ordnen, unterscheidung
-zb Zustimmung, Bildung
-Abstände können nicht interpretiert werden
Erkläre kontinuierliche Variablen
Intervall:
-gleiche Abstände
-ordnen, unterscheiden
-zb Temperatur, IQ, Datum
Verhältnis/Ratio:
-echter Nulltpunkt
-gleiche Abstände
-ordnen, unterscheiden
-zb Stimmenanteil, Inflation
Korrelation berechnen bei zwei binären Variablen
zb Demokratie oder Autokratie
und Öl produzent oder kein öl produzent
Anzahl der demokratischen Länder durch Anzahl der (nicht)öl produzierenden Länder dividieren
Anzahl der Autokratien durch Anzahl der (nicht)öl produzierenden Länder dividieren
-> Werte vergleichen, Wahrscheinlichkeit bei Demokratie und nicht öl produzieren höher -> negative Korrelation zwischen Demokratie und Öl produktion
Korrelation mit zwei kontinuierlichen Variablen
Daten auf Koordinationsystem ergibt scatterplot -> regressionslinie zeigt korrelation
achsen können vertauscht werden -> steigung selbst ändert sich zwar aber vorzeichen der korrelation immer gleich
Zusammenhangsmaße für kategorische Variablen
Prozentsatzdifferenz / relatives Risiko (dichotome Merkmale)
odds Ratio (dichotome Merkmale)
Chi-Quadrat (nominale Merkmale)
Cramérs V (nominale Merkmale)
erkläre Prozentsatzdifferenz und relatives Risiko
bei Prozentsatzdifferenz Anteile wie vorher berechnen und zb den von Demokratie und Autokratie vergleichen -> 0,8 - 0,45 = Wahrscheinlichkeit Demokratie zu sein, bei Ländern, die keine großen Ölproduzenten sind, 35 Prozentpunkte höher
Relatives Risiko:
0,8 / 0.45 = 1.78
das “risiko”/ Wahrscheinlichkeit, eine Demokratie zu sein, ist bei Ländern die keine großen Ölproduzenten sind, 1.78 mal so hoch / 78% höher
Erkläre Odds Ratio
Odds of democracy bei nicht-öl produktion: demokratie/gesamtnichtölprod / autokratie/gesamtnichtölprod = 4
odds of democracy bei öl produktion: demokratie/gesamtölprod / autokratie/gesamtölprod = 0.82
Odds ratio: 4/0.82 =4.88
chancen, eine demokratie zu sein, ist bei den Ländern, die keine Ölproduzenten sind, 4.88 mal so hoch / 388 % höher
Erkläre Chi-Square
Wie sehr weichen die beobachteten und erwarteten Werte voneinander ab?
Erwartet: hypothetische Werte, wenn es keinen Zusammenhang gäbe
chi² für demokratie und nicht öl produzent:
Pr(demokratie) = demokratien/anzahl aller länder
Pr (nichtölprod) = nichtölprodu/anzahl aller länder
Pr(dem) x Pr(nichtölp) x anzahl länder = 111,79
-> Erwartungswert = 112 Länder Demokratien und nicht Öl produzenten
-> (tatsächlicher Wert - 112)² / 112 = 0.32
..mit allen Kombis so machen…
alle abweichungen zsusammen addieren= 10.95
erkläre Cramérs V
= Maß für die Stärke der Korrelation
0 bis 1 (kein Zusammenhang bis perfekter Zusammenhang)
wurzel aus ( chi² / n * min(m-1, k-1) )
-> min(m-1, k-1)
Anzahl der zeilen (m) -1
Anzahl der spalten (k) -1
kleinere der beiden Werte
*n (Anzahl gesamt)
Korrelation messen für kontinuierliche Variablen
arithmetisches Mittel:
μ = all werte von x summieren / anzahl der observations
σ² = Varianz = Unterschiede jedes Wertes von x und dem arithmetischen Mittel -> Abweichungen quadrieren
σ = standardabweichung = wurzel aus varianz, wie weit ist eine Beobachtung durchschnittlich vom Mittel entfernt? -> betont aber weite entfernungen durch quadrieren
Kovarianz
für Kovarianz zuerst μ von x und y berechnen
Abweichungen von x und y von ihren μ berechnen -> miteinander multiplizieren
durch Anzahl N dividieren
= measure of correlation, weil:
-wenn x und y beide über ihren μ sind = Produkt der Abweichungen positiv
-wenn beide darunter sind, auch positiv
-> überdurchschnittliche werte des einen treten gemeinsam mit überdurchschnittlichen des anderen auf -> positive korrelation
-wenn eines darunter, eines darüber, dann negativ