Einfache lineare Regression Flashcards
Korrelation und Regression
Korrelation: ungerichteter Zusammenhang zw. X und Y
Regression: unterstellt kausale Richtung -> Daher erlaubt Vorhersage des Wertes einer Variablen bei Kenntnis/ Annahme eines Wertes auf einer anderen Variablen
Terminologie- Regression:
Kriterium: vorhergesagte Variable
Prädiktor: zur Vorhersage genutzte Variable
Regressionsgleichung: optimale Funktion
Was ist der Ausgangspunkt einer einfachen linearen Regression?
Geradengleichung: Y^ = b * X + a
Y^ sind die Werte auf dem Kriterium, die für die Werte des Prädiktors X von der Gleichung vorhergesagt werden
Gesucht: Werte für b und a, mit denen die Summe der Abweichungen minimal wird
Was ist a?
der Achsenabschnitt, also der Schnittpunkt mit der y-Achse
Was ist b? Wann ist b mit den Korrelationskoeffizienten identisch?
- die Steigung der Geraden, B beschreibt also, um wie viel Y zunimmt, wenn X um eine Einheit zunimmt
- Bei der einfachen linearen Regression zweier z-Standadisierten Variablen ist das Regressionsgewicht mit dem Korrelationskoeffizienten identisch. Die Korrelation ist also nichts anderes als das Regressionsgewicht zweier z-standadisierter Variablen.
Rechnerischer Ansatz der einfachen linearen Regression
Gehen wir davon aus, wir würden die gesuchte Gerade bereits kennen, dann könnten wir für jeden Punkt x_i, eine zugehörige Funktion f(x_i) berechnen, der dann logischerweise auf dieser Geraden liegt. Bezeichnen wie diese vorhergesagten y-Werte mit y ̂, können sie daher beschrieben werden als:
y ̂_i=bx_i +a
Residuuen
Die Abweichung der vorhergesagten von den gemessenen Werten werden als Residuuen bezeichnet:
e_i=y_i-y ̂_i
je größer die Residuen, umso größer die Abweichung eines beobachteten vom vorhergesagtem Wert. Ist ein Residum gleich 0, liegt der beobachtete Wert auf der Regressionsgeraden
Summe Q der quadratischen Residuen
Also sollen die tatsächlichen y_i-Werte möglichst gut durch die y ̂_i-Werte beschrieben werden, daher muss die Gerade so gewählt werden, dass die Residuen möglichst klein werden.
Minimiert werden soll die Summe Q der quadratischen Residuen. Würden wir die Abweichungen e_i einfach so aufsummieren, würden diese sich gegeneinander aufheben, und die Gesamtabweichung wäre 0. Daher sollten wir die Summe der absoluten Abweichungen oder die Summe der quadrierten Abweichungen betrachten. I.d.R. wird als Gesamtabweichungsmaß die quadratischen Abweichung Q benutzt (Formel s. Lernzettel)
Wann repräsentiert eine Gerade die Punkte bestmöglich?
Wenn Q möglichst klein wird und es keine andere Gerade gibt, bei der Q noch kleiner wird –> das nennt man die Methode (Kritierum) der kleinsten Quadrate
Also die Summe der quadrierten Abstände der beobachteten Kriteriumswerte von der Regressionsgeraden ergibt ein Minimum
Wie kommt man von Q zu den Formel für a und b?
- in die Funktion von Q setzten wir statt y^i die Geradengleichung (b+xi+a) ein. Nun die Q eine Funktion mit zwei Variablen, nämlich a und b
- jetzt ist das Ziel, a und b so zu bestimmen, dass die Funktion Q (a,b) ihr Minimum annimmt: dafür
a) bildet man die partielle Ableitung von Q(b,a)
b) setzt beide Ableitungen gleich null
c) und löst das entstehende Gleichungssystem
Was sind die optimalen Werte von b und a?
b = Kov(X,Y)/ S²x =rxySy/Sx
a= My - bMx
Beide Werte werden als Regressionskoeffizieten bezeichnet: b dann als Regressionsgewicht oder Slope und a als Intercept
Wie sagt man wenn man y durch x vorhersagt?
Man spricht von der Regression von Y auf X. Entgegen der Intuition
Bemerkungen zur Regressionsgrade: Wie sieht die Regressionsgrade aus, wenn |rxy| =0?
- Es liegt kein linearer Zusammenhang vor, daher reduziert sich die Regressionsgleichung zu Y^= My.
- Die Regressionsgrade verlauf parallel zur x-Achse und schneidet die y-Achse bei My.
- Die beste Vorhersage für jeden y-Wert ist also der Mittelwert My.
Bemerkungen zur Regressionsgrade: Wie sieht die Regressionsgerade aus, wenn |rxy| = 1
- es besteht ein vollständiger linearer Zusammenhang –> Alle Punkte liegen auf der Geraden
Wo liegt der Betrag von b immer?
zwischen 0 und dem Quotienten der Standardabweichung
0 größer/gleich |b| größer gleich Sy/Sx
Zusammenhang von M_y^ und M_y
- Der Mittelwert von Y^ ist gleich dem Mittelwert von Y
- Die Varianz von Y^ ist gleich der um das Quadrat der Korrelation geminderten Varianz von Y
Eigenschaften der Residuenvariable E: Mittelwert und Varianz
I. Der Mittelwert von E ist 0: da: M_E= M_(Y-Y ̂ ) = M_Y-M_Y ̂ =M_Y-M_Y = 0
II. Die Varianz von E ist S_E^2= (1 -r_XY^2)*S_Y^2
Sie wird auch als Schätzfehlervarianz bezeichnet und ihre Wurzel wird auch Standardschätzfehler genannt:
a) Wenn vollständige lineare Abhängigkeit besteht, dann wird die Varianz der Residuen 0: wenn
b) Bei vollständiger linearer Unabhängigkeit entspricht die Varianz der Residuen der Varianz von Y
Kovarianz von X und Y
- E geht aus Y hervor, indem von Y der “lineare” Trend subtrahiert wird, daher sind E und X unkorreliert:
a) Kov(X, E) = 0.: Da die Residuen den Teil des Merkmals Y repräsentieren, der nicht mit dem Merkmal X zusammenhängt und damit sind auch
b) E und ˆ Y unkorreliert: Kov( ˆ Y , E) = 0: Da X und Y^ immer perfekt miteinander korreliert sind - Achtung: X und E können jedoch nicht-linear zusammenhängen! Residuenplot immer anschauen um nicht-linear Anteile zu erkennen
Varianzaufteilung der Varianz von Y
- setzt sich additiv zusammen aus der Varianz der vorhergesagten Werte Y ̂ und der Varianz der Residuen E.
- Die Varianz von Y kann also aufgeteilt werden in einen durch die lineare Beziehung aufgeklärten Varianzanteil S_Y ̂^2, der durch den Prädiktor X gebunden (erklärt, determiniert) wird und die Fehlervarianz S_E^2
Wie sieht die Varianzaufteilung von Y aus, wenn alle Punkt auf einer Geraden liegen? (Extremfall)
- Es würden dann also gelten: |rxy| = 1
- Die Varianz der Resudien wäre 0
- Die Varianz von Y wäre also die Varianz von Y^ welche sich umformen lässt in S²y = b² * S²x
- Die Varianz von Y ist also vollständig determiert durch die Varianz der Werte auf X –> Die Varianz von Y wird vollständig durch die Varianz von X aufgeklärt
Wie sieht die Varianzaufteilung von Y aus, wenn die Korrelation von xy < 1 ist?
- daher ist auch S²E > 0
- Varianz von Y^ ist nach wie vor vollständig durch die lineare Beziehung aufgeklärt
- als Maß der Varianzaufklärung berechnen wir nun den Anteil der durch die lineare Beziehung aufgeklärten Varianz an der Gesamtvarianz von Y: S²y^ / S²Y = S²y^/ (S²y^+ S²E)
Wegen: S²y^= r²xy * S²Y können wir auch schreiben:
(r²xy * S²Y)/S²y = r²xy
Was ist der Determinationskoeffizient?
Die quadrierte Korrelation von Kriterium Y und Prädiktor X
Also der Anteil der gerklärten Varianz an der Gesamtvarianz
Rechnerische Durchführung mit R: Modellsprache R. Wie drückt man in R aus, dass das Kriterium durch den Prädiktor modeliert werden soll?
Krierium ~ Prädiktor(en)
Funktion lm() bei R
- Die Funktion lm() wird i.d.R. mit Dataframes genutzt, daher x und y erstmal in Frames packen (s.F. 28)
- mit modell$coefficients kann man sich die Koeffizienten einzeln rausgeben lassen.
- mit resid(modell) kann man sich die Residuen ausgeben lassen und mit predict(modell) lassen sich die vorhergesagten Werte extrahieren
- mit summary(modell) lassen sich die gesamten Ergebnisse abrufen –> Intercept ist der Wert für a und x ist der Wert für b!!
Wie berechne ich mit R den Determinationscoeffizienten?
cor(daten$X, daten$Y)^2
der wert steht aber auch bei der Ausgabe von Summary(modell) unter “multiple R-squared”
Graphische Überprüfung der Verteilungsannahme
viele Tests, und auch Regressionen, machen Verteilungsannahmen über bestimmte Werte diese Annahmen können oft grafisch inspiziert werden:
I. Histogramm
II. Kerndichteplots (Kernel-Density Plots)
III. Quantil-Quantil-Plots (Q-Q Plots):
Q-Q-Plots
a) Vergleichen empirische Verteilung mit Referenzverteilung (hier: Normalverteilung)
b) sortieren empirische Werte auf der Y-Achse
c) jeweils theoretisch erwartetes Quantil auf der x-Achse
d) wenn Daten zur Referenzverteilung passen, sollten die Punkte auf einer Geraden liegen