Korrelation/Regression Flashcards
Was beschreibt die Korrelation
den Zusammenhang zweier metrischer Variablen,
Die (Produkt-Moment-)Korrelation 𝑟xy der Variablen X und Y ist die
standardisierte Kovarianz der beiden Variablen.
Korrelation Wertebereich
-1 & +1
Wann ist die Korrelation am schwächsten
bei 0
Wann ist die Korrelation am stärksten
je näher die dem betrag 1 kommen
Eigenschaften der Korrelation
Ist eine der Variablen eine Konstante, ist die Korrelation nicht definiert.
Die Korrelation 𝑟xy ist gleich der Korrelation 𝑟yx
Die Korrelation reagiert sensibel auf Ausreißerwerte.
Bei einer Korrelation von 1 haben alle Personen auf beiden Variablen die gleichen z-Werte. Der Punkteschwarm im Streudiagramm ist in diesem Fall eine Linie.
Der Korrelationskoeffizient ist invariant gegenüber linearen Transformationen der beteiligten Variablen (nur das Vorzeichen kann sich umkehren, wenn die lineare Transformation genau eine der beiden Variablen „umpolt“).
Die Korrelation ist nur ein Maß für den linearen Zusammenhang von Variablen.
Auch bei einer Korrelation von 𝑟 = 0 können nicht-lineare Zusammenhänge (z.B. quadratische) vorlieg
Interpretation der Korrelation (Effektstärke)
0,10 schwacher Zusammenhang
0,30
0,50
Wann kann überprüft werden ob die Korrelation ungleich 0 ist
wenn die beiden an der Korralation beteiligten Variablen normalverteit sind
Hypothesen für Test auf Unkorreliertheit im ungereichteten Fall
h0: pxy = 0
H1: pxy ungeleich 0
Hypothesen für Test auf Unkorreliertheit im gereichteten Fall
H0; pxy kleiner gleich 0
H1: pxy > 0
Wozu ist der Test auf Unkorreliertheit geeignet?
m eine Korrelation gegen 0 zu testen
um in Datensätzen zu schauen, welche Korrelationen sich von 0 unterscheiden. In diesen Fällen muss natürlich beachtet werden, dass es zu einer massiven a-Fehler-Kumulierung kommen kann, weshalb dann Korrekturen (wie Bonferroni) angemessen sind
Um Korrelationen gegen einen anderen Wert zu testen oder um mehrere Korrelationen zu vergleichen,
sind andere Tests nötig (wozu die Korrelationen transformiert werden müssen
Einfache Regression
Durch eine Prädiktorvariable wird ein Wert auf der Kriteriumsvariablen vorhergesagt:
Residualwerte Eigenschaften:
1) Die Summe aller Regressionsresiduen sind gleich 0
2) Die Summe aller quadrierten Regressionsresiduen ist minimal
3) Die Korrelation zwischen X und E ist gleich 0:
4) Die Korrelation zwischen 𝑌 und E ist gleich 0
Warum lässt sich die Varianz von Y in zwei Teile aufteilen
da der Fehler und die vorhergesagten Werte unkorreliert sind
Determinationskoeffizient
Der Anteil an der Gesamtvarianz von Y, der durch 𝑌 geschätzt erklärt wird
Wertebereich Determinationskoeffizient
0 &1
Was entspricht der Determinationskoeffizient in der einfachen linearen Regression
dem Quadrat der Korrelation von Prädiktor &Kriterium
Was bedeutet ein Determnationskoeffizient von 1
dass die gesamte Varianz im Kriterium vom Prädiktor erklärt werden kann
Regression untersucht ob
eine metrische UV Varianz in einer metrischen AV erklären kann
Steigung Hypothesen
𝐻0:𝛽1=0
𝐻1:𝛽1≠0
Achsenabschnitt Hypothesen
𝐻0:𝛽0=0
H1:𝛽0≠0
Voraussetzungen der Regressionsanalyse für Modell mit deterministischem Regressor
Homoskedastizität: Die Varianz der y-Werte muss für jeden Wert von x gleich sein. Da diese Varianz jeweils der Fehlervarianz entspricht (da die y-Werte ja
jeweils um den vorhergesagten Wert schwanken) gilt: 𝑉𝑎𝑟 (𝑌 /𝑋)= 𝑉𝑎𝑟( 𝜀 /𝑋)
Bedingte Normalverteilung: Die Werte von y müssen für jeden Wert von x normalverteilt sein.
Unabhängigkeit der Fehler: Die Abweichungen der einzelnen Personen vom vorhergesagten Wert müssen unabhängig sein.
Voraussetzungen der Regressionsanalyse
Für ein Modell mit stochastischem Regressor
Zusätzlich Bivariate Normalverteilung von X und Y: Wenn beide Variablen bivariat normalverteilt sind, folgt die Homoskedasitzität und die bedingte Normalverteilung automatisch.
Wenn die 0 nicht im KI enthalten ist (Einfache Regression)
dann wird die H0 verworfen
Modell mit deterministischen Regressor
Prädiktor wird messfrei gemessen (Experiment,kontrolliert)
Modell mit stochastischen Regresse
UV als Zufallsvariable