Modellvergleiche&Allgemine lineares Modell Flashcards
Modell
Set aus Prädiktoren und der Kriteriumsvariablen
Jedes Modell erklärt unterschiedlich
viel Varinaz auf der kriteriumsvariablen
Zwei Modelle heißen geschachtelt (englisch: genested) wenn
das größere Modell sämtliche Prädiktoren des kleineren Modells und noch mindestens einen weiteren enthält.
Bei genesteten Modellen ist es möglich zu überprüfen, ob
das größere Modell signifikant mehr Varianz erklärt. zusätzliche Varianz würde dann durch die
zusätzlichen Prädiktoren erklärt werden. Auf diese Weise kann auch der Beitrag eines einzelnen Prädiktors untersucht werden, wenn das eingeschränkte Modell
Modellvergleiche - Idee
wissenschaftliche Erklärungen & Modelle möglichst wenige Entitäten (sprich: Variablen) enthalten sollten. Nur wenn eine weitere Variable wirklich notwendig ist, um etwas zu erklären, sollte sie aufgenommen werden.
Dies heißt auch Parsimonitätsprinzip oder Ockhams Rasiermesser.
Vorgehensweisen bei der schrittweisen Aufnahme von Prädiktoren
Theoretische Auswahl
datengesteuerten Auswahl
Theoretische Auswahl
basiert auf begründeten Annahmen über die Prädiktoren.
Dies ist wissenschaftlich gesehen die beste Vorgehensweise. Allerdings kann es je nach Überlegung unterschiedliche präferierte Reihenfolgen geben (z.B. nach erwartetem Einfluss, nach kausaler Priorität oder nach Pragmatismus)
datengesteuerten Auswahl
wird automatisiert aufgrund der Ergebnisse einzelner Regressionen entschieden, welche Prädiktoren aufgenommen werden. Dabei wird vorher ein a-Niveau festgelegt, um festzulegen, ab wann ein zusätzlicher Prädiktor einen Beitrag zur Erklärung der Varianz liefert.
datengesteuerten Auswahl drei Typen:
Vorwärtsselektion
Rückwärtselimination
schrittweise Regression
Vorwärtsselektion:
zunächst der stärkste Prädiktor & dann immer der weitere, der den größten Zuwachs erzeugt, dies wird fortgesetzt, bis die Hinzunahme nicht signifikant besser wird.
Rückwärtselimination:
Alle Prädiktoren werden aufgenommen, dann wird Schritt für Schritt immer derjenige entfernt, deren F-Wert am geringsten und nicht-signifikant ist und die daher am Varianz aufklärt. Dies wird fortgesetzt, bis alle F-Werte signifikant sind.
Die schrittweise Regression:
Das Vorgehen gleicht zunächst der Vorwärtsselektion, wobei es zwischendurch dazu kommen kann, dass bereits aufgenommene Prädiktoren wieder entfernt werden.
Effektgröße Modellvergleich
Determinationskoeffizient korrigiert
Metrische Prädiktoren:
mind. kardinalskalierte Variablen,
Dichotome Prädiktoren:
Also Variablen mit genau zwei Ausprägungen,
Prognosefähigkeit
überprüfen, ob ein Modell tatsächlich in der Lage ist, unbekannte Werte vorherzusagen,
Datensatz in 2 Teile aufgeteilt
1 Teil:Regressionsgleichung errechnet
Gleichung im zweite Teil verwendet um individuelle Werte vorherzusagen
Korrelation vorhergesagte Werte&tasächliche Werte -Prognosengüte
Overfitting
Prognosegüte für unbekannte Daten kann bei einem umfangreichen Modell mit vielen Prädiktoren sogar schlechter sein als bei einem kleineren Modell
entsteht, wenn zu viele Prädiktoren in das Modell aufgenommen wurden. Dadurch können die individuellen Prognosen sogar schlechter sein als bei einem kleineren Modell.
Aus diesem Grund sollte man es vermeiden, Prädiktoren in die Gleichung aufzunehmen, die in der Population ein Regressionsgewicht von 0 haben
Wann kann die Stichporbengröße durch G Power im VOrfeld bestimmt werden?
wenn a, b und die erwartete Effektgröße bekannt sind.
Überprüfung der Voraussetzungen: Homoskedastizität
Residuenplots betrachtet Residuen (auf der y- Achse) in Relation zu den geschätzten Werden (auf der x-Achse) gesetzt.Die Varianz der Residuen sollte über alle Werte hinweg unsystematisch um 0 schwanken.
Tests überprüft werden. Eine einfache Variante wäre beispielsweise das Unterteilen der Stichprobe in Gruppen anhand ihrer x-Werte und dem Vergleich der Varianzen in den (möglichst gleich großen) Teilstichproben. Die Varianzen sollten dabei um weniger als den Faktor 10 unterschiedlich sein.
Wenn Heterosekdastizität festgestellt wird,
kann bei sehr großen Stichproben auf eine gewichtetes Kleinste-Quadrate-Schätzverfahren zurückgegriffen werden. Dies sorgt dann aber dafür, dass manche Kenngrößen wie der Determinationskoeffizent ihre klare Bedeutung verlieren.
Überprüfung der Voraussetzungen: Unabhängigkeit der Residuen
vor allem verletzt, wenn Klumpenstichproben vorliegen oder bei serialen Abhängigkeiten
Ist die Unabhängigkeit der Residuen verletzt, so steigt die Wahrscheinlichkeit eines a-Fehlers deutlich.
Das Problem kann durch eine sorgfältige Versuchsplanung vermieden werden. Abhängigkeiten durch Klumpen können grade in großen Stichproben durch hierarchische lineare Modelle abgebildet werden
Hypothen Modellvergleich
H0:Pu = Pe
H1: Pu> Pe
Wofür steht jede Dummy Variable
für den Unterschied einer Faktorstufe zu einer Referenzbedimgumg