Lineare Regression Flashcards

1
Q

(Lineare) Regression

A
  • die (lineare) Regression ist eine Art Zusammenhangsmaß (wie die Korrelation)
  • Variablen müssen mindestens intervallskaliert sein
  • Unterschied zur Korrelation: Die Regression ist gerichtet (also: kausal)
  • Die Regression dient der Vorhersage der Werte einer Variable (Kriterium) durch die Werte einer anderen Variable (Prädiktor)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Regressionsgerade

A

Ziel: Finde eine Geradengleichung, die eine gute Vorhersage des Kriteriums leistet

  • Regressionsgleichung: y = bx + a
    • Ich sage also y aus x vorher, ich stelle y als Funktion von x dar
  • Regressionskoeffizienten: b, a
  • Regressionsgewicht: b = Kovarianz(x,y) : Varianz(x)
  • Vorhersagefehler (Residuum):
    • alles über/unter „der Geraden“
    • die Differenz zwischen dem tatsächlichen y-Wert und dem vorhergesagten y-Wert

Lösung: Minimiere die Summe der quadrierten Residuen (Vorhersagefehler) Kriterium der kleinsten Quadrate!

–> große Vorhersagefehler werden durch die Quadrierung stärker gewichtet als kleine

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Eigenschaften der Regressionsgerade

A
  • Es gibt keine andere Gerade, von der die tatsächlichen y insgesamt weniger abweichen - Die Summe der Abweichungen der tatsächlichen y von der Regressionsgerade ist exakt gleich 0

Wenn es keinen Zusammenhang zwischen den beiden Variablen gibt (r=0):

  • Das Regressionsgewicht b ist dann unabhängig von der „Skalierung“ immer Null
  • Der intercept/Ordinatenabschnitt entspricht dem Mittelwert des Kriteriums

–> Logisch, denn hat man keine Information über eine Variable, ist ihr Mittelwert die beste Schätzung

Wenn ich z-Standardisierte Variablen verwende:

  • Effekt der z-Standardisierung: MW=0, SD=1
  • Das standardisierte Regressionsgewicht (beta) entspricht der Korrelation
  • Die Regressionsgerade geht durch den Ursprung des Koordinatensystems

Wenn ich Prädiktor und Kriterium vertausche:

  • Die Regressionsgerade ändert sich in Abhängigkeit der Verschiedenheit der Skalierung bzw. Varianz der Variablen

–> Das bedeutet, dass nur bei gleichen Standardabweichungen die Regressionsgeraden identisch sind.

  • ABER: Die Regressionsgleichung ist im Prinzip symmetrisch: Wenn sich die Variable Y aus X vorhersagen lässt, dann kann auch die Variable X aus Y vorhergesagt werden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Regressionseffekt (Regression zur Mitte)

A
  • Phänomen, dass nach einem extrem ausgefallenen Messwert die nachfolgende Messung wieder näher am Durchschnitt liegt
  • Der Satz „Der Zustand depressiver Kinder, die mit Energiedrinks therapiert werden, verbessert sich signifikant über einen Zeitraum von drei Monaten.“ ist wahr, aber wegen der Regression zur Mitte, nicht aufgrund der Wirkung der Getränke.
  • bei Planung und Interpretation von empirischen Studien relevant
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Güte der Vorhersage - Varianzzerlegung

A

Nachdem wir eine Regressionsgerade berechnet haben, stellt sich die Frage, wie gut oder exakt die Vorhersagen sind, die diese Regressionsgerade liefert.

Regressionsvarianz

  • Die Abweichung der Messwerte des Kriteriums zu ihrem Mittelwert lässt sich in die vorhergesagte Abweichung und das Residuum zerlegen.
  • In anderen Worten: Die Gesamtvarianz der y-Werte lässt sich in die vorhergesagte Varianz (=Regressionsvarianz) und die Fehlervarianz zerlegen
  • Gesamtvarianz y = Regressionsvarianz + Fehlervarianz

Der Determinationskoeffizient/das Bestimmtheitsmaß R^2

  • R^2 ist der Anteil der Regressionsvarianz an der Gesamtvarianz
  • R^2 = Regressionsvarianz / Gesamtvarianz
  • Wenn R^2 = 0: Prädiktor erlaubt keine Vorhersage des Kriteriums
  • Wenn R^2 = 1: Prädoktor sagt das Kriterium perfekt vorher, alle tatächlichen y liegen genau auf der Regressionsgerade. 100% der Varianz der tatsächlichen y-Werte können aus der Regressionsgleichung vorhergesagt werden
  • Der Determinationskoeffizient entspricht einfach dem quadrierten Korrelationskoeffizienten r, die beiden sind identisch
  • Determinationskoeffizient für Y aus X = Determinationskoeffizient für X aus Y
  • Der Determinationskoeffizient kann auch als Maß dafür interpretiert werden, wie stark die Vorhersagefehler durch die Regressionsanalyse verringert werden können. Er gibt an, um wie viel Prozent sich der Vorhersagefehler verringert, wenn bei der Vorhersage des Kriteriums der Prädiktor berücksichtigt wird.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Standardschätzfehler

A
  • Der Standardschätzfehler se ist die Wurzel aus der Fehlervarianz
  • Gibt an, wie stark die tatsächlichen Werte um die von der Regressionsgerade vorhergesagten Werte streuen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Verzerrungen der Regressionsrechnung

A
  • Zusammenhang zwischen den Variablen ist nicht linear
  • Ausreißer/Extremwerte (sollten ausgeschlossen/relativiert werden)
  • Einschränkungen der Variabilität (Einschränkung erkennen und ggf. beseitigen)
  • Zusammenfassung heterogener Stichproben (sollten unabhängig voneinander untersucht werden – aufgrund von Niveauunterschieden)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly