Multiple lineare Modelle Flashcards
Multiple lineare Modelle (Definition)
Während du bei der einfachen linearen Regression nur einen Prädiktor betrachtest, verwendest du bei der multiplen linearen Regression mehrere Prädiktoren, um das Kriterium zu schätzen.
Herausforderungen (2)
Anzahl der Prädiktoren durch die Wiederholungen begrenzt
Korrelation der Prädiktoren
Faustregel für Anzahl der Prädiktoren
p<n/10
Anzahl der Wiederholungen/10 sollte größer oder gleich der Anzahl der Prädiktoren sein
Problem bei hochkorrelierenden Prädiktoren (3)
erklären den selben Varianzanteil der Response-Variable
Führt zu Verzerrung von Koeffizienz und Signifikanz
-> nur einer der Prädiktoren sollte in das Modell
Wertebereich hochkorrelierender Prädiktoren
r > 0.7 / < 0.7
Lösungsansatz für hohe Korrelation
vorher testen, ob es sehr hohe Korrelationen unter den Prädiktoren gibt; ggf. wird ein Prädiktor, der die Varianz sehr gut erklärt durch die Anwesenheit eines anderen Prädiktoren beeinflusst
Ziele der Modellvereinfachung (2) +
Ansatz zur Vereinfachung (2)
Ziele:
- einfaches Modell mit hohem Erklärungswert
- hohe Übertragbarkeit des Modells auf andere Fälle
Ansatz:
- Entfernung irrelevanter Prädiktoren aus dem Modell
- Vergleich der Modellgüte mit Gütemaßen, die die Anzahl der Prädiktoren bestrafen
Maß der Modellgüte: R^2
Wert für den Prozentualen Anteil der erklärten Varianz an der Gesamtvarianz (hohes Gütemaß)
Berechnung R^2 adjusted
1- ((SSE/n-p) / (SST/n-1))
n-p -> Wiederholungen - Prädiktoren
Warum Bestrafung der Prädiktoren?
Bestrafung der Prädiktoren führt dazu, dass nur die Prädiktoren einen Einfluss auf den Wert nehmen, die wirklich signifikant etwas verändern und nicht nur durch das hinzunehmen den Wert in die Höhe treiben
Wann ist Blick auf R^2 adjusted sinnvoll?
sinnvoll wenn ich unterschiedliche Modelle im gleichen Kontext vergleiche, die eine unterschiedliche Kombination oder Anzahl der Prädiktoren haben
Problem von R^2 im multiplen Modell
jeder weitere Prädiktor erklärt irgendeinen Teil der Varianz in den Daten
Modelle werden deshalb auch durch „schlechte“ Prädiktoren „besser“
Modellgütemaß AIC
basiert auf der log Likelihood
𝑨𝑰𝑪=−𝟐𝒍𝒐𝒈𝑳+𝟐𝒑+1
je größer AIC desto schlechter das Gütemaß; Wert wird größer mit Prädiktoren, die relativ wenig zu der erklärten Deviance beitragen
Deviance
Maß für erklärte Varianz (negatives Vorzeichen)
Verfahren für vereinfachtes Modell
(minimal adequate modell)
schrittweise Rückwärtsselektion
Schritte für Rückwärtsselektion (5)
1) full model erstellen (alle Prädiktoren im Modell)
-> vorher nach stark korrelierenden Prädiktoren filtern
2) 2.) Prädiktoren mit dem schlechtesten fit (höchster p
Wert) herausnehmen und ein zweites Modell rechnen
3) 1. und 2. Modell mit
Gütemaß vergleichen (AIC)
4.) solange wiederholen, wie AIC dadurch geringer wird
5.) wenn AIC steigt, Variable wieder aufnehmen
Ergebnis minimal adequate Modell
es bleiben nur die Prädikatoren übrig, die die Bestrafung des Modells durch hohe signifikanz aufheben
Kritik an MAM (3)
1) p-Wert nicht immer geeignetes Kriterium
2) gegenseitige Beeinflussung von Prädiktoren sehr stark
3)Die Reihenfolge der Prädiktoren in der Modellgleichung spielt
eine Rolle –> wie entscheiden, welcher zuerst kommt
Alternativen zu MAM (3)
1) Alle sinnvollen Modelle (Vorauswahl der Prädiktoren durch
Sachlogik, Vorinformationen) mit AIC vergleichen
2) Generell die Anzahl der Prädiktoren beschränken, immer nur
das full model angeben
3) Vorauswahl der Prädiktoren durch „ machine learning “ sehr
rechenintensive Algorithmen, die Relevanz von Prädiktoren
vergleichen können
Unterschied Mulitple R-Squared u. Adjusted R-Squared
wenn wir gute Prädiktoren im Modell haben, dann ist der Unterschied von Multiple R und Adjusted R nur ein geringer
Berechnung erklärter Varianzanteil eines Prädiktors
Berechnet durch sum of squares
-> dieser Wert kann aus der Anova-Tabelle der Regression herausglesen werden
Berechnung
sum of squares des Prädiktors / Summe aller sum of squares
(in Anova, Regression, Ancova)
Unterschied summary - anova einer multiplen Regression
Die Signifikanzen der Prädiktorvariablen unterscheiden sich geringfügig von denen der Funktion summary , da hier ein F Test statt ein t Test gemacht wird.
Modelldiagnostik/ Residualdiagnostik
Sind die Residuen des Modells (halbwegs) normalverteilt?
Es macht gerade bei komplexen, multiplen Modellen mehr Sinn,
sich die Residuen anzuschauen als die Verteilung der Response
Variable (das ist auch die eigentliche „Voraussetzung“)
Residualdiagnostik plot
Gut: gleichmäßige Verteilung
der Punkte im Diagramm
Schlecht: Muster erkennbar
z.B. Trichter
Grund für Muster:
in Hintergrund der Residuen ist etwas, das nicht erklärt worden ist (z.B. wichtiger Prädiktor vergessen im Modell)
Heteroskadistizität
Ob Streuung der Residuen über den Wertebreich der vorhergesagten Werte in einem Modell (Entlang der Geraden) zunimmt oder abnimmt
Gerade im Plot der Regressionsdiagnostik
plot(Modellobjekt)
erster plot : vorhergesagte
Werte gegen die Residuen
Residuals vs. Fitted
wenn Regressionline fast gerade ist, dann ist gute Verteilung der Punkte übers ganze Diagramm gegeben
Logistische Regression
spezialfall mit nominale response variable -> zwei Ausprägungen (0 oder 1) Gegensatzpaare als einen nominalen Faktor