Semester 2 Flashcards
Modellvergleiche
Für lineare Modelle : F-Test
Für GLMs: Likelihood-Quotienten Test
Likelihood-Quotienten-Test
LQ = volles Modell / H0 Modell
(Geht nur für genestete, parametrische Modelle)
Zur ML-Schätzung: Welcher Wert?
-> Likelihood wird maximiert um plausibelsten Wert für Parameter zu finden
Für Modell Vergleich: Wie gut Passung?
-> Schätzer bereits bestimmt
-> Likelihood Wert an dieser Stelle = Max der Likelihood -> wird für Modellvergleich verwendet
-> Je höher Max, desto besser passt Modell zu den Daten
In R:
Anova(lm1, lm2, lm3, test = „Chisq“)
Informationskriterien
AIC/BIC -> je kleiner desto besser
BIC: bestraft #Parameter stärker -> bevorzugt sparsame Modelle -> verhindert overfitting -> eher bei grossen SP geeignet
Stepwise Forward/Backward
Problem: Reihenfolge und SP abhängig
In R:
- AIC() / BIC()
Starmodell <- lm0
Grösstes_modell <- y~.
Stepwise_lm <- step(startmodell, scope = grösstes_modell, direction = „forward“)
Summary(stepwise_lm)
Kreuzvalidierung
Zur realistischen Abschätzung der Vorhersagegüte
- Trainingsdatensatz in k Teile teilen
- K-1 Teile für LernSP
- Letzter Teil für TestSP
Bei Overfitting ist Fehlklassifikationsrate deutlich kleiner als FKR nach Kreuzvalidierung
Sparsamkeit & Praxistauglichkeit bei Modellauswahl berücksichtigen
Achtung!!: Signifikanztest nach Variablenselektion nicht mehr zuverlässig -> frische Daten/korrektur nötig
In R:
cv(lm1, K=5)
Mischverteilungsmodelle / latent class Modelle
- Wahre Gruppenzugehörigkeit nicht bekannt/unsupervised/interessieren nicht
- Multimodale Verteilungen (mehrere NV ineinander)
- # Klassen werden vorher festgelegt
- gewichtetes Mittel
Clusteranalyse
- keine y-Variable
- kennt Gruppenzugehörigkeit nicht
- Ziel: Personen anhand ihrer Ähnlichkeit in Gruppen einteilen
-> Dendrogramm - wenn nötig vorher standardisieren
Einfach: bei 1 x
Kompliziert: bei mehreren x
- Euklidische Distanz (wie Pythagoras)
- Manhattan/Cityblock Distanz
Distanz zwischen Cluster:
- single linkage = Distanz zw nächsten Beobachtungen
- complete linkage = Distanz zw weitest entfernten Beobachtungen (besser wenn alle Beobachtungen sehr nahe)
- average linkage = Mittelwert über Distanz zw allen Beobachtungen
In R:
- hc <- hclust(dist(dd, method = „euclidean“/„manhattan“), method = „single“/„complete“)
- plot(hc)
Gemischte Modelle / Mixed Models
!!! Nicht Mischverteilungs/latent class Modelle !!!
Spezialannahme: Werte der Personen müssen nicht unabhängig sein (Messwiederholung, genestete)
Random Intercept Model:
- gleiche Steigung, anderes Intercept
- zufällige & feste Effekte (gemischt)
- Durchschnittsgerade (zb Klasse von der Schüler abweicht)
- Jede Klasse andere Regressionsgerade die anderes Intercept als Durchschnitt hat
Random Intercept & Slope Model: (!! Nicht Quantilregression !!)
- andere Steigung und anderes Intercept
- zufällige & feste Effekte
- Durchschnittsgerade (zb Klasse von der Schüler abweicht)
- Jede Klasse andere Regressionsgerade die anderes Intercept und andere Steigung als Durchschnitt hat
Feste Effekte = normale Regression (wenige Kategorien, einzelne Effekte interessant)
Zufällige Effekte = Abweichung vom Durchschnitt (viele Kategorien, Individuen, nicht interessant)
In R:
- rim <- lmer(y ~ x1 + x2 + (1|x3), data = dd)
-> Intercept je nach Klasse (x3) unterschiedlich
- rsm <- lmer(y ~ x1+ x2 + (x1|x3), data = dd)
-> Intercept und Steigung (Interaktion mit Note (x1), je nach Klasse (x3) unterschiedlich
Fehlende Werte
MCAR: Missing completely at random
- zufall
- keine syst. Verzerrung
- nur Infoverlust
MAR: Missing at random
- fehlende Werte nur von anderen Variablen abhängig
- mit stat. Verfahren behandelbar
-> unabh. Variablen konstant halten
-> Ergebnisse getrennt betrachten
MNAR: Missing not at random
- fehlende Werte abhängig von Variable selber
- syst. Verzerrung
- stat. nicht zu retten
-> gibt kein Test für welcher Fehler vorliegt
Umgang mit fehlenden Werten
- vermeiden
- Anreiz/Komfort für Vpn
- Intervall statt genauen Wert abfragen
- Anonymität zusichern
- Zwang (in Fragebogen)
- Wichtigkeit klar machen
- Kontakt halten (bei Wegzug)
Statistischer Umgang mit fehlenden Werten
Ausschlussverfahren:
- Listwise/Casewise Deletion:
Personen mit fehlenden Werten ausschliessen -> verliere aber viele Daten
- Pairwise Deletion:
Person ausschliessen, die in aktueller Variabel fehlenden Wert hat -> aber untersch. SP für untersch. Analysen
Imputation:
- Mittelwertsimputation:
Fehlende Werte durch Variablen Mittelwert ersetzen -> aber Varianzreduktion, Unterschätzung der Korr.
- Regressionsimputation:
Regression schätzen und daraus fehlende Werte prognostizieren -> aber Varianzreduktion, Überschätzung der Korr.
- Stochastische Regressionsimputation:
Gleich, einf. auch noch zufälligen Fehler dazu simulieren
- Multiple Imputation:
Fehlende Werte durch mehrere Werte ersetzen -> mehrere Datensätze -> Unsicherheit darstellen
Weitere Verfahren:
- EM- Algorithmus
- Surrogate Variable
Survivalanalyse
Zeit bis best. Ereignis eintritt
Trifft Ereignis ein ist Datensatz für diese Vpn abgeschlossen
Verliert man Vpn schon vorher -> Zensierung:
- Rechtszensierung: Ereignis liegt gedanklich weiter rechts
- Linkszensierung: Ereignis liegt schon vor Studienbeginn
- Intervallzensierung: Wenn geneuer Zeitp. des Ereignis unbekannt
Survivalfunktion
Gibt für jeden Zeitpuznkt Wahrscheinlichkeit an, diesen Zeitpunkt zu überleben
Schätzung mit Kaplan-Meier-Schätzung
Berücksichtigt Zensierung
Hazardrate
Rate in einem kurzen Zeitintervall nach Zeitpunkt t zu sterben, wenn man bis t überlebt hat
- zunehmend: zb Alterung
- abnehmend: zb Abstossung nach Organtransplantation
- Badewanne: Alterung bei hoher Säuglingssterblichkeit
Cox-Regression
- Y = überlebenszeiten
- Proportional Hazards Annahme
- Abweichung von Baseline Hazardrate
- Logarithmieren damit Addition möglich ist
- Hazardrate für alle konstant aber für gew. Gruppen höher/tiefer
- Cox-regr. vergleicht verschiedene Regressionen miteinander
Metaanalyse
Ergebnisse mehrerer Studien zur selben Frage zusammenzufassen
-> gewichteter Mittelwert der Effektstärken allen Studien
Zutaten:
- Effektstärke Mass
- Standardfehler des Effektstärkemass
Schritte:
- Ein-/Ausschlusskriterien festlegen
- Suche in lit. Datenbank
- Tabelle mit Studiendaten
- Zusmf grafisch/rechnerisch
- Diskussion (von Publication bias)
Probleme:
- mindestanz. Primärstudien
- Publication Bias
- Apfel-Birne Problem
- Garbage in / out
- Missing data