logistische Regression Flashcards

1
Q

Worum geht es in der logistischen Regression?

A

binäres Kriterium: In der logistischen Regression sagen wir ein Kriterium vorher, welches nur zwei Werte, nämlich 1 oder Null annehmen kann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Probleme einer normalen linearen Regression auf ein binäres Kriterium

A
  1. unzulässiger Wertebereich
  2. Normalverteiltheit der Residuen nicht möglich
  3. Homogenität der bedingten Varianzen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Probleme einer normalen linearen Regression auf ein binäres Kriterium: 1. unzulässiger Wertebereich

A

wendet man auf ein binäres Kriterium eine normale Regression an, treten Werte in einen unzulässigen Wertebereich auf (also einem Wertebereich für das Kriterium der außerhalb von 0 oder 1 liegt) –> wir müssen also eine Funktion finden, die die Daten möglichst gut beschreibt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Probleme einer normalen linearen Regression auf ein binäres Kriterium: 2. Normalverteiltheit der Residuen nicht möglich

A

Um Nullhypothesen-Signifikanztests über Parameter durchführen zu können, haben wir nämlich eine Normalverteiltheit der Residuen Die Normalverteiltheit von Residuen setzt eine kontinuierliche Variable voraus. Da keine kontinuierliche Variable bei einem binären Kritierum vorliegt, sondern die Variable nur zwei Werte annehmen kann, können auch die bedingten Residuen nur zwei Werte annehmen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Probleme einer normalen linearen Regression auf ein binäres Kriterium: 3. Homogenität der bedingten Varianzen

A

die Zweite Voraussetzung für Nullhypothesen-Signifikanztests über Parameter ist die Homogenität der bedingten Varianzen. Da die Varianz einer binären Variable wie folgt berechnet wird: 〖S²〗_X=P*(1-p)
Dies bedeutet, dass die Varianz eine Funktion von P ist. Sie erreicht ihr Maximum 0.25 bei P = 0.5 und wird ansonsten kleiner

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie löst die logistische Regression die beschriebenen Probleme?

A

Indem die „Zielfunktion“ der logistischen Funktion durch eine sog. Link-Funktion linearisiert wird und das Ergebnis wiederum durch eine Linearkombination von Prädiktoren modelliert werden kann. Insofern kann das Verallgemeinerte Lineare Modell mit drei Komponenten beschrieben werden als: E(Y)=g(µ)=a+b_1 X_1+⋯+b_q X_q

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Zusammensetzung der logistischen Funktion

A
  1. systematische Komponente (ganz rechts)
  2. zufällige Komponente (ganz links)
  3. Link-Funktion g(µ)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Zusammensetzung der logistischen Funktion: 1. systematische Komponente (ganz rechts)

A

als Linearkombination von Prädiktoren, ganz ähnlich wie bei der multiplen linearen Regression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Zusammensetzung der logistischen Funktion: 2. zufällige Komponente

A

(ganz links): die das Kriterium und dessen Verteilung spezifiziert. Auch dies ist analog zum linken Teil der linearen Regression, wo eben eine Normalverteilung des Kriteriums angenommen wird.
(i) binären Kriteriums: Binominalverteilung wird angenommen
(ii) intervallskaliertes Kriterium: Normalverteilung wird angenommen (wie bei linearer Regression)
(iii) Häufigkeiten als Kriterium: Posson-Verteilung wird angenommen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Zusammensetzung der logistischen Funktion: Link-Funktion g(µ)

A
  1. spezifiziert die Beziehung zwischen der zufälligen und der systematischen Komponente. Dadurch wird erreicht, dass die zufällige Komponente nicht mehr normalverteilt sein muss.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Die logistische Funktion: Eigenschaften

A
  1. Verteilungsfunktion: ist die Verteilungsfunktion der logistischen Verteilung ist.
  2. Werte von 0 und 1: kann nur Werte von 0 und 1 annimmt, also Werte im zulässigen Wertebereich.
  3. Eine stetige Zufallsvariable sei logistisch verteilt mit den Parametern a und b (wobei b > 0 sei),
    für die Formel:
    a = Lageparmeter
    b= Skalierungsparamter
    e = Euler´sche Zahl (ungefähr 2.71828)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wofür brauchen wir in der logistischen Regression Odds und Logits?

A

Um nun mit einer Linearkombination eine logistische Funktion modellieren zu können, müssen die Werte der Kriteriums so transformiert werden, dass aus der logistischen Funktion eine Gerade wird. Dazu wenden wir zwei Transformationen an, die dafür sorgen, dass der Wertebereich von −∞ bis +∞ geht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Odds: Definition

A

(Wettchance): Verhältnis einer Wahrscheinlichkeit P zu ihrer Gegenwahrscheinlichkeit 1 – P:
O = P/(1-P)
Umgekehrt, kann aus Odds auch die Wahrscheinlichkeit berechnet werden:
P=O/(1+O)
Odds tragen also Informationen über Wahrscheinlichkeiten in sich, haben aber einen weiteren Vorteil: Sie haben 0 als untere Grenze, nach oben geht der Wertebereich aber bis +∞.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Logits: Definition

A

natürlicher Logarithmus der Odds:

Logit=In(0)=In(P/(1-P))
Dadurch wird bewirkt, dass der Wertebreich auch seine untere Grenze verliert und nun also von −∞ bis +∞ geht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Beziehung zwischen logistischer Funktion und Logits

A
  1. Die logit-Transformation ist die Umkehrfunktion der logistischen Funktion
  2. Das bedeutet auch: werden wir auf die Werte einer logistische Funktion die Logit-Transformation an, so resultiert eine Gerade – und diese Gerade können wir mit einer Linearkombination von Prädiktoren modellierten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Regressionsgleichung der logistischen Regression

A

Die Gleichung für die logistische Regression gibt es in drei verschiedenen Varianten, je mit Vor- und Nachteilen, manchmal auch fachspezifische Vorlieben. Die Regressionsgleichung können bezogen werden auf:
1. logits
2. Odds
3. Wahrscheinlichkeiten

17
Q

Bestimmung der Parameter a und b

A

I. Spezialfall der Normalverteilung und der Identity-Link-Funktion: Methode der kleinsten Quadrate
II. ansonsten: iterative Maximum-Likelihood Schätzungen: Etwas vereinfacht gesagt ist das Vorgehen wie folgt:
(i) erst einmal wichtig: wir haben ein konkretes Ergebnis im Sinne einer Stichprobe vorliegen
(ii) nun werden diejenigen Parameter gesucht, die am wahrscheinlichsten im Angesicht der Daten sind: Maximum-Likelihood
(iii) oft dafür keine analytische Lösung, sondern Algorithmen starten mit bestimmten Werten für Parameter, bestimmen die Likelihood, und dann werden die Parameter auf bestimmte Weisen verändert und getestet, ob sich die Likelihood dadurch erhöht
(iv)Wenn keine Erhöhung mehr möglich ist, hat das Modell konvergiert: ein Durchgang wird als Iteration bezeichnet

18
Q

Interpretation der Ergebnisse von R

A

Die letzte Zeile bei der Ausgabe Summary() gibt an, wieviele Iterations benötigt wurden, um das Modell zu schäzten, eine höhe Zahl (manchmal > 25) deutet darauf hin, dass das Modell nicht gut mit den Daten zusammenpasst.

19
Q

Interprepation der Koeffizienten bezogen auf Logits

A

a ist der Wert in Logit, der vorhergesagt wird, wenn alle Prädiktoren den Wert 0 annehmen.
b gibt an, um welchen Wert sich der Logit erhöht, wenn der Prädiktor um den Wert 1 erhöht, wird
-> Problem: ganz schön gewöhnungsbedürftige Interpretation

20
Q

Interpretation der Koeffizienten bezogen auf Odds

A
  1. Gleichung: O=e^(a+bX)=e^a*e^bX
  2. X = 0: dann gibt e^a (statt a!!) die Odds eines Erfolges (also dass das Kriterium den Wert 1 annimmt) an, wenn alle Prädiktoren auf Null gesetzt sind. mit der Funktion exp() bestimmen:
  3. in R: mit der Funktion exp() bestimmen:
    Exp(coef(glm.ergebnis)):
    a) Den entstehenden Wert des Inercepts kann man nun als Chance interpretieren, die auf dem Kriterium mit 1 koodierte Ausprägung zu haben, wenn X = 0 ist.
    b) Wenn X um einen Schritt erhöht wird und X = 1 ist, dann muss also ea mit eb multipliziert werden. Das Ergebnis ist dann wieder ein Odds, als die Chance ein Erfolg auf dem Kriterium (Wert 1) zu bekommen, wenn X =1 ist.
    c) Nach Umformungen erhalten wir für das exponierte b, also e^b den Quotienten zwei Odds. Dies wiederum wird als Odds Ratio bezeichnet und man könnte auch sagen:
    e^b=O_(nach Erhöhung um 1)/ O_(vor Erhöhung um 1)
    e^b gibt also die Veränderung der Odds an, wenn der Wert von X um 1 erhöht wird.
21
Q

Interpretation der Koeffizienten bezogen auf Wahrscheinlichkeiten

A

Bezogen auf Wahrscheinlichkeiten können wir unsere Regressionsgleichung wie folgt umformulieren:
P=e^(a+bX)/(1+e^(a+bX) )=(e^ae^bX)/(1+(e^ae^bX ) )
Wenn X = 0 bleibt also:
P=e^a/(1+e^a )

Die Wahrscheinlichkeit eines Erfolges, wenn alle Prädiktoren den Wert 0 annehmen. (Mit der Formel können wir auch die respektiven Wahrscheinlichkeiten für anderen Werte von X berechnen, indem wir diese Werte für X in die Formel einsetzten.

22
Q

Modelltest: Deviance-Statistik: Berechnung von Deviance-Statistik

A

Erinnerung: Modelltest  es geht darum zu testen, ob unser Modell gut auf die empirischen Daten passt, wir wollen also die Güte unseres Modells herausfinden.
I: Berechnung der Deviance-Statistik: Die Maximum-likelihood Methode zur Schätzung der Parameter wirft als „Nebenprodukt“ die (maximierten) Log-Likelihood ℓ ab, also der logarithmierte Maximalwert der Likelihood (der typischerweise erreicht wird, wenn der Schätzer-Algorithmus kovergiert). Als ℓ sehr eindach die sog. Deviance-Statistik errechnet werden:
Deviance = – 2 * ℓ

23
Q

Eigenschaften von Deviance-Statistik

A
  1. Analogie: analog zur Quadratsumme der Residuen interpretiert werden, auch sie hat damit zutun, wie viel Information in den Daten unerklärt bleibt, wenn die „besten“ Koeffizienten gefunden wurden.
  2. je höher der Wert ist, desto schlechter kann das Modell die Daten erklären
  3. Differenzen der Deviance-Statiatik für ver. aufeinander aufbauende Modelle können dann an einer χ²-Verteilung mit m Freiheitsgraden getestet werden, wobei m die Differenz in der Anzahl der Parameter ist, die beide Modelle haben
24
Q

Modellvergleiche: Linklihood-Ratio-Test (LRT)

A

I. Basis: siehe (iv) Defferenzen der Deviance- Statistik für …
II. Idee: Analog zum F-test zum Vergleich verschiedener linearer Modelle.
III. Ausgabe in R: In der Ausgabe von summary(glm.ergebnis) gibt es zwei Zeile mit Werten füpr Deviance-Statistiken:
(i) Null deviance: Deviance-Statistik für das sog. Nullmodell, welches nur den Parameter a und keine weiteren Prädiktoren beinhaltet
(ii) Residual deviance: Deviance-Statistik für das Modell mit dem anderen Prädiktoren zusätzlich
(iii). Der Wert für die Resudal deviance sollte kleiner sein, als der für die Null deviance. Anders ausgedrückt, je größer die Differenz beider Deviance-Statistiken ist, umso besser kann das Modell mit Prädiktoren die Daten erklären.

25
Q

Modellvergleiche: Berechnung des LRT

A

(i) Nullmodell berechnen: Diese Differenz (von Residual deviance und Null deviance) kann nun mit dem LRT auf signifikant getestet werden. Dazu berechnen wir zusätzlich noch das Nullmodell, indem wir nur den Parameter a zulassen. Dies wird getan, indem rechts von der Tilde ~ eine 1 steht:
Glm.ergebnis.null <- glm(Kriterium ~ 1, data=daten, family =“binomial“)
(ii). LRT mit anova(): Die vergleichenden Mdoelle werden hintereinadner übergeben in aufstegender Reihenfolge und zusätzlich wird der verwendete χ²-Test spezifiziert:
Anova(glm.ergbnis.null, glm.ergbnis, test =“chisq“)
(iii) Ausgabe lesen: Unter dem Punkt „Deviance“ finden wir die Differenz der Diviance-Statistik, welche an einer χ²-Verteilung mit m Freiheitsgraden (diese finden wir unter Df) getestet wurde. Pr(>chi) gibt uns den P Wert. Wenn er signifikant wird, verbessert sich das Modell durch die Hinzunahme des Prädiktors signifikant.

26
Q

Wald-Test

A

Analog zum t-Test der Koeffizienten im linearen Modell gegen die Nullhypothese β= 0, können wir in der logistischen Regression die Koeffizienten mit den Wald-Test testen.
I. Quotient eines quadrierten Koeffizienten und dessen quadrierten Standardfehlers ist approximativ χ²-verteilt mit 1 Freiheitsgrad
II. Dieser Test hat den Vorteil, dass er leicht auf J Parameter gleichzeitig ausgedehnt werden kann
III. Für den Fall eines einzelnen Parameters kann eine Ableitung aus diesen Fällen benutzt werden, bei der auf die Normalverteilung zurückgegriffen werden kann
Dieser Test ist auch der, den summary() im fall der logistischen Regression ausgibt

27
Q

Konfidenzintervalle für Koeffizienten

A

für die Koeffizienten können leicht mit der Funktion confit() angefordert werden, die auf das glm()-Objekt angewendet wird:
Confint(glm.ergebnis)
V. Ebenso können wir für die exponierten Koeffizienten, die ja eine leichtere Interpretation als Odds Ratio erlauben, und die dazugehöhrigen Konfidenzintervalle anfordern:
Exp(coef(glm.ergbnis))  Exponierten Koeffizienten
Exp(confint(glm.ergebnis))  und deren Konfidenzintervalle
VI. Diese Werte werden üblicherweise im Ergebnisteil mit berichtet. Wenn wir statt summary() die Funktion S() benutzen, werden diese Werte direkt mit ausgegeben (ganz am Ende)

28
Q

logistische Regression mit mehreren Prädiktoren

A

I. Schreibweise: einfache Erweiterung der Syntax durch + zwischen den Prädiktoren
Glm.ergebnis.multiple <- glm(Kriterium ~ Prädiktor1 + Prädiktor 2,
data = daten, family = binominal())
II. Interpretation: ähnliche Interpretation dann wie bei multipler linearer Regression. Jeder Koeffizient gibt nun Veränderungen an (des logit, der Odds oder der Wahrscheinlichkeit), wenn die anderen Prädiktoren konstant gehalten werden. LRT können zum Modellvergleich leicht verallgemeinert werden.

29
Q

Multinominale Regression

A

I. Definition: Erweiterung der logistischen Regression auf den Fall nominalskalierter Variablen mit mehr als zwei Ausprägungen als Kriterium. Die logistische Regression ist ein Spezialfall der Multinominalen Regression.
II. Annahme: Das Kriterium ist multinominal-verteilt (die Binominalverteilung ist ein Spezialfall dieser Verteilung)
III. Vorgehen: Die J Kategorien werden durch J-1 Variablen dargestellt (ähnlich wie bei der Dummy-kodierung) und es werden J -1 logistische Regressionen simultan dargestellt, d.h. die Likelihood wird über alle Gleichungen simultan maximiert, um die Koeffizienten zu bestimmen.

30
Q

Poisson-Regression

A

I. Definition: Häufigkeiten als Kriterium. Stellen eine Besonderheit da, da sie 0 als untere Grenze haben.
II. Annahme: Im Wesentlichen wird hier angenommen, dass Häufigkeiten einer Poisson-Verteilunf folgen und als kanonische Link-Funktion wird der Logarithmus verwendet. Daher redet man dann auch von einer Poisson-Regression.

31
Q

Wie rechne ich die Koeffizienten in Odds um? Steht nicht auf der Formel-Sammlung!

A

O = e^a * e ^bX
in R:
wir die Euler´ische Zahl mit exp() angegeben. In die Klammer dann also a und bX geben:
exp(coef(modell)[1]) * exp(coef(modell)[2] * X)

32
Q

Hierarisch lienare Modell (HLM) (multilevel Modell oder Mixed Effekt modelle

A
  1. wichtige Erweiterung der Regressionsrechnung
  2. Ausgangslage: Beobachtungen werden in übergeordneten Ebenen strukturiert