Multiple lineare Modelle Flashcards
Multiple lineare Modelle (Definition)
Während du bei der einfachen linearen Regression nur einen Prädiktor betrachtest, verwendest du bei der multiplen linearen Regression mehrere Prädiktoren, um das Kriterium zu schätzen.
Herausforderungen (2)
Anzahl der Prädiktoren durch die Wiederholungen begrenzt
Korrelation der Prädiktoren
Faustregel für Anzahl der Prädiktoren
p<n/10
Anzahl der Wiederholungen/10 sollte größer oder gleich der Anzahl der Prädiktoren sein
Problem bei hochkorrelierenden Prädiktoren (3)
erklären den selben Varianzanteil der Response-Variable
Führt zu Verzerrung von Koeffizienz und Signifikanz
-> nur einer der Prädiktoren sollte in das Modell
Wertebereich hochkorrelierender Prädiktoren
r > 0.7 / < 0.7
Lösungsansatz für hohe Korrelation
vorher testen, ob es sehr hohe Korrelationen unter den Prädiktoren gibt; ggf. wird ein Prädiktor, der die Varianz sehr gut erklärt durch die Anwesenheit eines anderen Prädiktoren beeinflusst
Ziele der Modellvereinfachung (2) +
Ansatz zur Vereinfachung (2)
Ziele:
- einfaches Modell mit hohem Erklärungswert
- hohe Übertragbarkeit des Modells auf andere Fälle
Ansatz:
- Entfernung irrelevanter Prädiktoren aus dem Modell
- Vergleich der Modellgüte mit Gütemaßen, die die Anzahl der Prädiktoren bestrafen
Maß der Modellgüte: R^2
Wert für den Prozentualen Anteil der erklärten Varianz an der Gesamtvarianz (hohes Gütemaß)
Berechnung R^2 adjusted
1- ((SSE/n-p) / (SST/n-1))
n-p -> Wiederholungen - Prädiktoren
Warum Bestrafung der Prädiktoren?
Bestrafung der Prädiktoren führt dazu, dass nur die Prädiktoren einen Einfluss auf den Wert nehmen, die wirklich signifikant etwas verändern und nicht nur durch das hinzunehmen den Wert in die Höhe treiben
Wann ist Blick auf R^2 adjusted sinnvoll?
sinnvoll wenn ich unterschiedliche Modelle im gleichen Kontext vergleiche, die eine unterschiedliche Kombination oder Anzahl der Prädiktoren haben
Problem von R^2 im multiplen Modell
jeder weitere Prädiktor erklärt irgendeinen Teil der Varianz in den Daten
Modelle werden deshalb auch durch „schlechte“ Prädiktoren „besser“
Modellgütemaß AIC
basiert auf der log Likelihood
𝑨𝑰𝑪=−𝟐𝒍𝒐𝒈𝑳+𝟐𝒑+1
je größer AIC desto schlechter das Gütemaß; Wert wird größer mit Prädiktoren, die relativ wenig zu der erklärten Deviance beitragen
Deviance
Maß für erklärte Varianz (negatives Vorzeichen)
Verfahren für vereinfachtes Modell
(minimal adequate modell)
schrittweise Rückwärtsselektion