Einfache Lineare Regression Flashcards
mit k=1 Prädiktoren
Was modelliert eine einfache lineare Regression? Was ist ihre Modellgleichung?
Anhand einer Datenwolke wird eine Funktion modelliert für den Zusammenhang zwischen einer Prädikatorvariable (X) und einem Outcome (Y)
yᵢ=b₀+b₁Xᵢ+ɛᵢ
Outcome = Interzept + Slope x Input + Fehler
Was ist die Bedeutung des Interzepts in der einfachen linearen Regression?
Es ist der Achsenabschnitt b₀
Was ist die Bedeutung des Slope Parameters?
Steigung der Regressionsgeraden
Änderung im Outcome wenn sich Prädiktor um eine Einheit verändert
unstandardisiert/standardisiert
Was ist die Beziehung zwischen ALM und Regressionsanalyse?
Regression ist Spezialfall und Grundlage für viele Erweiterungen
vereint Zusammenhangsanalyse und Mittelwertsvgl (wie auch t-Test und ANOVA)
Was ist die Bedingung der Parameterschätzung in der einfachen linearen Regression?
Kleinste quadrate Schätzung:
Slope und Interzept werden so geschätzt, dass die Summe der Abweichungsquadrate minimal ist
Σᵢɛᵢ²=min
Welche Besonderheiten gibt es bei k=1 in der einfachen linearen Regressionsanalyse?
unstandartisierter Slope Parameter steht in unmittelbarem Zusammenhang mit Produkt-Moment-Korrelation von Prädiktor X mit Outcome Y
r(x,y) = b1 * ( s(x)/s(y) ) = Beta
r(x,y)²=R²
t² = F
Wann ist ein Regressionsmodell besser?
Desto mehr Varianz vom Outcome es vorhersagen kann
Was ist R²? Wie wird es berechnet? Welchen Wertebereich kann R² annehmen?
Anteil erklärte Varianz
R²= s(ŷ²) / s(y²)
- Quotient der Varianz der vorhergesagten und beobachteten Werte
- kann nur positiv sein
- kann nur 1 sein wenn ŷᵢ=yᵢ
- im Normalfall: s ŷ²<y² und daher R²<1
bei k=1
R²=r²( ŷᵢ , yᵢ)
R²= [b₁ * s(x) / s(y)]²
Berechnung:
1) Anteil der Modellvarianz an der Gesamtvarianz
2) bei k=1 über Slope oder Regressionsparameter
Was ist R?
- multiple Korrelation
- nur positiv (?)
Wie wird in der einfachen linearen Regression auf Signifikanz getestet?
- mittels F-Test
- einseitig aber ungerichtete H1
- testet bei K=1 die H0: b1 = 0 ; H1: b1 ≠ 0
-> ist slope 0? Gibt es einen Zusammenhang?
F= mittlere QS Residuum / mittlere QS gesamt
F= R²(N-k-1) / k (1-R²). (??)
F-Wert wird mit df1 und df2 bei gewähltem Alpha verglichen
Deckt Modell einen signifikanten Anteil an Varianz auf?
Welche Modellannahmen hat das Modell der einfachen linearen Regression? Welche sind prüfbar?
1) UV ist metrisch oder dichotom. AV ist metrisch
2) linearer Zusammenhang
3) Homoskedastizität
4) Normalverteilung der Residuen
5) Unabhängigkeit der Beobachtungen
*) Prädiktor muss Varianz > 0 haben
2-4 sind statistisch oder graphisch prüfbar
Was bedeutet Homoskedastizität?
Streuung der AV ist über Gruppen bzw. Prädiktoren halbwegs gleichmäßig verteilt
-> kontinuierliche Prädiktoren
Was sind Varianzschätzer in der Regressionsanalyse? Wie sind sie verteilt?
mittlere Quadratsummen
siehe Zsmfsg Statistik
Varianzschätzer sind Chi² verteilt
Was testet der F-Test?
Vgl Varianzschätzer
F = mittlere QS(Modell) / mittlere QS(Residuum)
große F Werte sprechen für H1
Wie kann die Signifikanz der einzelnen Koeffizienten in der einfachen linearen Regression berechnet werden?
Teststatistik:
t = b / SE(b). mit df=N-k-1
-> Parameter / Ungenauigkeit des Parameters
bei k=1 ist F = t²