Regressionsanalyse Flashcards
Regressionsgerade
Regressionsgeradengleichung
Beispiel Regressionskoeffizient
Standardisierter Regressionskoeffizient
- standardisiert man ihn (er heißt dann Beta, β), ist sein Wertebereich auf Werte von -1 bis +1 begrenzt
Determinationskoeffizient - Varianzaufklärung: Standardschätzfehler s(e)
- äquivalent dazu kann auch der StandardSchätzfehler s(e)betrachtet werden:
- bei r²=1 wäre der Schätzfehler 0
Regressionsgleichung für die multiple Regression
Multiple Regression
- analysiert mehr als einen Prädiktor
- identifiziert den relativen (spezifischen) Einfluss einer Reihe von Prädiktoren (X1, X2…) auf das Kriterium
- die Betas sind entweder gleich groß wie oder – und das ist die Regel – kleiner als die rs
- die Varianzaufklärung wird durch den multiplen Determinations-Koeffizienten R² für alle Prädiktoren zusammen angegeben
LOWESS-Prozedur (locally weighted scatterplot smoother, manchmal auch LOESS für local regression)
- die Idee: für jeden einzelnen Datenpunkt wird eine lokale Regression durchgeführt (mit einer bestimmten Anzahl von Nachbarpunkten) – der alte Punkt erhält dann eine neue Position direkt auf der Regressionsgeraden
- alle Punkte passen sich nun besser in ihre Nachbarpunkte ein
- es entsteht eine Kurve, die den wahren Zusammenhang zweier Variablen zeigt
Zusammenfassung Regression
- die Regression ist eine Vorhersageanalyse: wenn Variablen korrelieren, lässt sich die eine Variable aus der anderen vorhersagen
- die Regressionsgerade repräsentiert alle Datenpunkte so gut wie möglich und dient der Vorhersage von Y aus X
- ihre Steigung wird durch den Regressionskoeffizienten b beschrieben
- die standardisierte Form des Koeffizienten wird Beta oder Beta-Gewicht genannt
- bei mehr als einem Prädiktor (multiple Regression) beschreiben die Betas den relativen Einfluss der Prädiktoren auf das Kriterium
- der Determinationskoeffizient R² quantifiziert die aufgeklärte Varianz des Kriteriums
- die Regression kann der Vorhersage konkreter Werte dienen oder der theoretischen Beschreibung des Zusammenhangs von Variablen
- bei der Logistischen Regression liegt das Kriterium in Kategorien vor
- der Einfluss der Prädiktoren auf das Kriterium wird hier durch die Odds Ratios bestimmt
Galtons Entdeckung
Größere Väter haben größere Söhne, aber deren Größe tendiert zum Mittelwert zurück.
Galton nannte dies “Regression zur Mitte”.
Grundlage der Regressionsanalyse
Galtons Entdeckung bildet die Grundlage für das Vorhersagen von Variablen aus anderen Variablen.
Das Vorliegen einer Korrelation kann zur Formulierung von Vorhersagen verwendet werden.
Die vorhersagende Variable heißt Prädiktor, die vorherzusagende Variable Kriterium.
Regressionsgerade - Definition
Die Regressionsgerade wird verwendet, um Y aus X vorherzusagen.
Die Gerade minimiert den durchschnittlichen Abstand aller Punkte zur Geraden (Quadratsumme der Abweichungen, “kleinste Quadrate”).
Vorhersage und Vorhersagefehler
Die Vorhersage von Y gelingt besser, je näher die Punkte an der Regressionsgeraden liegen (hohe Korrelation).
Abweichungen von der Geraden können durch fehlende Korrelation, zusätzliche Variablen oder Messfehler verursacht werden.
Vertikale Abweichungen heißen Residuen; deren Varianz ist die nicht erklärte Varianz in Y.
Regressionskoeffizient
Der Regressionskoeffizient
b1 beschreibt die Stärke des Zusammenhangs von X und Y.
Der unstandardisierte Koeffizient ist abhängig von der Skalierung der Variablen.
Standardisiert (β), liegt der Wertebereich zwischen -1 und +1.
Bei einfacher linearer Regression sind β und r identisch.
Determinationskoeffizient - Varianzaufklärung
Die aufgeklärte Varianz von Y durch X wird durch den Determinationskoeffizienten r² beschrieben.
r² reicht von 0 bis 1, was einer Varianzaufklärung von 0 bis 100% entspricht.
Bei r²=1 wäre der Schätzfehler 0.
Anwendung der Regressionsanalyse
Nicht nur für intervallskalierte Variablen: Auch Unterschiede (Mittelwerte) und Zugehörigkeit zu Gruppen können analysiert werden.
Regressionsanalyse ist ein universelles Werkzeug zur Analyse von Effekten und Varianzaufklärung.
Regression und Kausalität
Wie bei der Korrelation kann Kausalität nicht direkt aus der Regression abgeleitet werden.
Die unterstellte Kausalrichtung beeinflusst die Parameter der Regressionsgeraden.