11 Regression Flashcards

1
Q

Bedeutung von Regressionsmodellen (2 Möglichkeiten, 8 Erweiterungen von Standardverfahren)

A

> Assoziationsmaße berechnen
adjustierte Assoziationen: Z Variablen von Y abkoppeln

8 Erweiterungen von Standardverfahren:
> nicht-normalverteilte Y –> GLM
> nicht-parametrische Regression: keine Annahme über X/Y Verteilung
> Längsschnittsdaten: random effects und dropout verücksichtigen
> Mehrebenenmodelle: mehrere Ebenen (z.B. Klinik, Therapeut, Pat., Zeit)
> komplexe Stichproben: gewichtete oder korrelierte Daten
> robuste Schätzverfahren
> Bayesianisch: Vorinfos und Wahrscheinlichkeiten brücksichtigen
> latente Klassen: latent mixture models

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Einfache lineare Regression (Formel, 3 Voraussetzungen)

A

Y(i) = beta0 + beta1*x + E

  • E = Residuen, müssen voneinander und von x unabhängig sein UND gleiche Varianz haben
  • x muss metrisch oder dichotom/dummy-kodiert sein
  • Zusammenhang muss linear sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Regressionsmodell liefert… (1, Bsp, Interpretation beta1)

A

… Vorhersage von Y: bedingter Erwartungswert von Y gegeben x:

  • Zweck: weiß man NUR Geschlecht von Person i, kann man mit Schätzung von beta0 und beta1 aus Stichprobe Yi vorhersagen
  • allgemeine Interpretation von beta1: Veränderung im Erwartungswert Y wenn x um 1 größer wird
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Spezialfall binäres x = 0/1

(beta1 Schätzung, 2 Spezialfälle, lineare Transformationen)

A

Schätzung von beta1 = Mittelwertsunterschied in Stichprobe

Spezialfälle:
1. x ist zentriert –> x - Xmean –> Mittelwert 0 –> beta0 Schätzung mittlerer Y-Wert
2. x = 0 / 1 –> beta0 Schätzung = Mittelwert von Y unter x = 0

lineare Transformationen von X/Y ändern nur beta und ihre Interpretation, aber nicht p-Werte (z.B. Alter/10, oder Alter zentriert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Anmerkungen zu linearer Regression

(X binär, mehrkategorial, Regression als.., beta Verteilung)

A

Wenn X binär: lineare Regression äquivalent zu t-test (gleicher p-Wert)

Wenn X mehrkategorial (2+ Kategorien, >1 Dummy Variablen): lineare Regression äquivalent zu ANOVA (gleicher p-Wert)

–> Regression als Verallgemeinerung der Verfahren (kann/liefert aber mehr, z.B. KI)

beta Schätzung t-verteilt & (in großen 100+ Stichproben) annähernd normalverteilt –> Grundlage für Chi-Quadrat, Wald-F Test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Standardisierung im Regressionsmodell: beta1 Interpretation

(Y, X, beide, Spezialfall X binär, ergo)

A

Y standardisiert: wenn X um 1 Einheit erhöht, um wieviele SD ändert sich Y

X standardisiert: wenn x um 1 SD erhöht, um wieviele Einheiten ändert sich Y

beide standardisiert: wenn X sich um 1 SD erhöht, um wieviele SD verändert sich dann Y ! beta entspricht hier Pearson’s - standardisierter Regressionskoeffizient

Spezialfall: Y standardisiert, x = 0 / 1 –> beta1 entspricht Effektstärke Cohen’s d

–> Regressionsmodelle können gleichzeitig binäre, quantitative und mehrkategoriale x enthalten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

GLM (2 + Formel, 3 Bestandteile)

A
  • Y nicht normalverteilt, sondern z.B. bernoulliverteilt (Y = 0/1)
  • Y nicht (unbedingt) in linearem Zusammenhang mit X, sondern erst durch Transformation:
    Linkfunktion g(Y) = beta0 + beta1*x

GLM Bestandteile:
- Wahl des Verteilungsmodells für Y gegeben X
- Wahl einer Linkfunktion, z.B: logistische Linkfunktion für binäres Y
- Spezifikation der X Variablen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Statistische Inferenz für GLM

(Residuen, Koeffizienten, Test, Parameter N)

A
  • keine Residuen im Modell (können nicht normalverteilt sein)
  • Koeffizienten beta mittelns Maximum-Likelihood-Prinzip geschätzt –> in großen Stichproben ist beta bei (N >100) normalverteilt –> Berechnung von Tests, KIs, p-Werten möglich
  • gebräuchlichster Test: Wald Chi^2
  • empfohlen: pro Parameter 20 Beobachtungen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Linkssteile, rechtsschiefe Verteilungen

(Gamma 3, Linkfunktion: Formel & Interpretation, GLM Aussage)

A
  • Gamma-Verteilung: theoretisches Min. = 0, oft SD > mean, multiplikativer Zusammenhang
  • einfachste Linkfunktion: natürlicher Logarithmus ln(Y) –> ermöglicht MR (mean ratio) Berechnung:
    e^beta1 = Faktor, um den Y sich ändert, wenn X um 1 größer wird

–> multiplikative Aussage mit GLM kann Daten besser entsprechen als lineares Regressionsmodell

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Verteilungsmodell negative Binomialverteilung

(Erweiterung, Verteilung, korrelierte Ereignisse)

A
  • Erweiterung der Poinsson-Verteilung - voneinander UNabhängige, gleichwahrscheinliche Ereignisse
  • Verteilung für Zählvariablen: 0,1,2… intervallskaliert, diskret verteilt
  • für korrelierte Ereignisse: Varianz oft deutlich größer als Erwartungswert –> zusätzlicher Überdispersionsparameter in neg. Binomialverteilung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Gebräuchliche Verteilungen (6) und Linkfunktionen (8)

A

Verteilungstypen:
Gaussian (normal)
Inverse Gaussian
Bernoulli/binomial
Poisson
neg. binomial
gamma

Linkfunktionen:
log
logit
probit
cloglog
power
odds power
neg. binomial
log-log

teilweise schwer zu interpretieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Rechtssteile, linksschiefe Verteilung (1)

A
  • einfach umdrehen: Yneu = Maximalwert - Yalt –> Gamma-Regression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Dichotom abhängige Variablen

(Verteilung, Linkfunktion, log. Regr., Logit)

A
  • Y ist bernoulli-verteilt
  • Logit-Linkfunktion verwenden: g(p) = ln( p / (1-p) )
  • log. Regr.: nur wenige Parameter nötig bei natürlichem log, daher oft einfachstes, passendes Modell bei binären Y
  • Logit stellt sicher, dass vorhergesagte Wahrscheinlichkeit zw. 0 und 1:
    p = beta0 + beta1*x <– p Bereich zw. 0 und 1 ABER rechte Seite - bis + unendlich –> p durch Rücktransformation bestimmen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

OR, RR, RD

A

Odds ratio OR:
> g(p) = logit(p)
> für binäres x: e^beta1 = OR
> für x allgemein: wird x um 1 größer, ändert sich odds für Y=1 um Faktor e^beta1

Risk ratio RR:
> g(p) = ln(p)
> für binäres x: e^beta1 = RR
> für x allgemein: wird x um 1 größer, ändert sich Risiko für Y=1 um Faktor e^beta1
> Problem: Modell kann Wahrscheinlichkeiten >1 vorhersagen

Risikodifferenz RD:
> g(p) = p
> für binäres x: beta1 = RD
> allgemein: wird x um 1 größer, ändert sich das Risiko für Y=1 um beta1
> Problem: Modell kann neg. Wahrscheinlichkeiten und Wahrscheinlichkeiten >1 vorhersagen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly