fragen Flashcards

1
Q

Für was werden Regressionsmodelle benötigt?

A

Zur Schätzung und Vorhersage.
Inferenz u. Prädiktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

was bedeutet Regression?

A

Zusammenhang zwischen 2 oder mehreren Variablen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

was ist der Unterschied zwischen einem Regressionskoeffizienten und einem Korrelationskoeffizienten?

A

Regression: wie stark reagiert die AV auf Veränderungen in der UV?

Korrelation: misst die Stärke u. Richtung der linearen Beziehung zwischen X u. Y. Kann Werte zwischen -1 und 1 annehmen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

welches Symbol für erklärte Varianz?

A

R hoch 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

wie kann eine einfache lineare Regression in R berechnet werden?

A

summary
anova

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist der Unterschied zwische einem einfachen linearen Regressionsmodell und einem multiplen linearem Regressionsmodell?

A

Einfach: x –> y

Multipel: x1 x2 x3 –>Y
Prädiktoren können auch untereinander assoziert sein. Die Stärke dieses Zusammenhangs kann einen großen Einfluss auf die Resultate haben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

welche zwei Hypothesen gibt es im MLR?

A

Globalhypothese
spezifische Hypothese

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

was erfrägt die Globalhypothese?

A

wie gut erklärt das MLR die Daten Gesamtheit?
wie viel Varianz der AV wird durch alle UVs erklärt?
(Multiples R Quadrat)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

was erfrägt die spezifische Hypothese?

A

welchen Einfluss hat eine bestimmte UV auf die AV?
Ist der Koeffizient einer UV verschieden von 0 oder äquivalent?

Sind beide Prädiktorvariablen dafür verantwortlich oder nur eine? Deshalb weniger an Globalhyp. interessiert, sondern mehr daran, ob spezifische UVs einen signifikanten Beitrag zur Güte des Modells beitragen oder nicht?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

wie kann man den Korrelationskoeffizienten im MLR berechnen?

A
  • partialkorrelation
  • semipartialkorrelation
  • standardisierter Regressionskoeffizient ß
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist die Partialkorrelation?

A

Korrelation zwischen Y und X1 nachdem alle übrigen Faktoren aus X1 und Y herauspartialisiert wurden.

Maß dafür wie viel Varianz von Y nur durch X1 und keinen anderen Prädiktor erklärt werden kann.

liegt zwischen -1 und 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

was ist die Semipartialkorrelation?

A

Korrelation zwischen Y und X1, nachdem alle übrigen Prädiktoren aus Y herauspartialisiert wurden.

Misst die Stärke und Richtung der Beziehung zwischen X u. Y, nachdem nur der Effekt einer bestimmten Variable Z kontrolliert wurde.

liegt zwischen -1 und 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie erhält man den standardisierten Regressionskoeffizienten?

A

ß erhält man wenn man ein MLR rechnet indem AV und UVs vorher standardisiert werden.

(standardisiert = bringt Variablen auf eine gemeinsame Skala)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

welches sind Maße für die Effektstärke?

A

b (Steigung)
ß (standardisierter Regressionskoeffizient)
prx (Partial)
srx (Semi)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

was versteht man unter einem Suppressionseffekt?

A

wenn der Effekt einer UV auf die die AV durch das Hinzufügen einer zusätzlichen UV nicht wie erwartet verringert wird sondern erhöht oder die Richtung wechselt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

was sind kategoriale Prädiktoren?

A

dichotom (sex: w u. m.)
nominal (mehr als 2 Ausprägungen: Job: Handwerker, Lehrer,..)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

wie sieht ein Interaktionseffekt in R aus?

A

Interaktionseffekt = Prädiktoren interagieren miteinander

sleep:activity wenn der Wert positiv ist, bedeutet das die Kombination von sleep u. activity eine postive Auswirkung auf die Stimmung mood hat.

D.h. wenn sich die UV sleep/activity um einen Einheit erhöht (alle anderen UVs konstant gehalten) dann erhöht/verändert sich die AV mood um … Einheiten.

  • Aus der Sicht des Prädiktors sleep gibt er an, um welchen Betrag sich die Steigung des Zusammenhangs zwischen Schlafdauer und Stimmung ändert, wenn sich die körperliche Aktivität um eine Einheit ändert
  • Aus der Sicht des Prädiktors activity gibt er an, um welchen Betrag sich die Steigung des Zusammenhangs zwischen körperlicher Aktivität und Stimmung ändert, wenn sich die Schlafdauer um eine Einheit ändert
18
Q

was ist eine polynomiale Regression?

A

MLRs können nicht nur linear sein sondern auch kurvlinear.
z.B. könnte man testen ob der Zusammenhang zwischen Sprachnote und Mathenote kurvlinear ist.

weicht die Krümmung (quadratisches Polynom) signifikant vom linearen Verlauf ab? Ja denn:
I(sprachnote^2) 3.67 (t) u. ***

19
Q

was zeigt das quadratische Polynom an?

A

I(sprachnote^2) 0.042
Wenn Zahl positiv: dann wir die Steigung immer steiler, je größer die Sprachnote –> konvexer Verlauf

Wenn Zahl negativ: dann wird die Stegung immer flacher –> konkaver Verlauf

D.h. wenn die Sprachnote steigt, dann steigt auch die Mathenote und zwar umso stärker je höher die Sprachnote.

20
Q

was versteht man unter einer prospektiven Poweranalyse?

A

wie groß muss die SP einer geplanten Studie sein, damit man mit großer Wahrscheinlichkeit einen Effekt statistisch nachweisen kann.
(macht nur Sinn wenn es Hypothesen gibt)

21
Q

wie berechnet man die Größe einer SP?

A

Alpha
Beta
Teststärke 1-ß
Effektstärke f^2

22
Q

welche Voraussetzungen gibt es für das MLR?

A

1) unabhängige Residuen
2) normalverteilte Residuen (Pbl bei SP<30)
3) Varianzhomogenität (Homoskedastizität) (Werte sollten = stark streuen)

  • metrische AV u. UV
  • linearer Zusammenhang
  • fehlerfrei gemessene Prädiktoren
  • Multikollinearität
  • Ausreisser (Cook’s Distance)
23
Q

warum sind fehlende Werte ein Problem?

A

statistische Power: je mehr Fehler desto kleiner die SP

verzerrte Resultate: es werden Ergebnisse berichtet die zu hoch/niedrig sind

24
Q

was gibt es für Muster von fehlenden Werten?

A

MCAR (missing completly at random)
MAR (missing at random)
NMAR (not missing at random)

25
Q

was versteht man unter MCAR?

A
  • das kleinste Problem
  • das Fehlen von Werten ist rein zufällig und deswegen harmlos
    z.B. Frage übersehen
26
Q

was versteht man unter MAR?

A
  • kein zufälliges Fehlen
  • könnte auch mit Schätzen zu tun haben
    z.B. Männer brechen eher eine Therapie ab als Frauen
27
Q

was versteht man unter NMAR?

A
  • größtes Problem
  • Informationen die wir nicht erhoben haben
    z.B. Personen mit einem hohen Einkommen, geben das Einkommen nicht an
28
Q

wie geht man mit fehlenden Werten um?

A
  • falls weniger als 5% der Werte fehlen, muss nichts getan werden
  • bei mehr als 5-10% muss man entweder: FIML (full information maximum Likelihood)
    Multiple Imputation (mehrmaliges Schätzen)
29
Q

was passiert mit der Steigung u. dem Standardfehler wenn für die fehlenden Werte der Mittelwert eingesetzt wird?

A

die Steigung und der Standardfehler nehmen ab

30
Q

warum kann bei einem logistischen Regressionsmodell kein einfaches lineares Regressionsmodell verwendet werden?

A
  • gefittete Werte können im Modell kleiner als 0 oder größer 1 sein (was bei einem logistischen Regressionsmodell nicht möglich ist)
  • Residuen sind nicht normalverteilt da dichotom (ja/nein)
  • Varianzhomogenität ist bei Logistischen Modellen auch nicht gegeben
    –> es sind zu viele Voraussetzungen verletzt
31
Q

in welchem Bereich liegen sigmoide oder logistische Kurven?

A

zwischen 0 und 1

32
Q

Was gibt das OR an?

A

Das OR gibt an, um welchen Faktor sich die Odds ändert, wenn die UV um eine Einheit zunimmt.

OR>1 positiver Zusammenhang zwischen UV und AV
OR<1 negativer Zusammenhang zwischen UV und AV

33
Q

was gibt die Steigung b an?

A

Die Steigung b gibt an, um welchen Wert sich der Logit der Wahrscheinlichkeit p ändert, wenn die UV um genau eine Einheit zunimmt.

34
Q

was gibt der OR e^b an?

A

Die OR gibt an, um welchen Faktor sich die Odds ändert, wenn die UV um genau eine Einheit zunimmt.

35
Q

was ist die Maximum Likelihood Schätzung?

A

es werden Parameter ausgewählt, die am wahrscheinlichsten sind.
Je kleiner der Max. Lik. Wert desto besser.

36
Q

Wie wird die Modellgüte bewertet: in einfachen linearen Regressionsmodellen und in logistischen Regressionsmodellen?

A

Einfach lineares Regressionsmodell:
hoher Wert von R^2: gutes Modell
tiefer Wert von R^2: schlechtes Modell

Logistisches Regressionsmodell:
Log-Likelihood (LL)
zwischen 0 und minus unendlilch
Je größer die SP desto negativer der Wert. Eine Person hat immer einen negativen Wert, im besten Fall 0. D.H. je mehr Personen, desto negativer wird der LL.
(Angaben des LL macht am meisten Sinn für den Vergleich zwischen 2 oder mehr Modellen)

37
Q

Wie nennt sich die Teststatistik für den Modellvergleich von Logistischen Regressionsmodellen.

A

Likelihood-Ratio-Test (LRT)

Bei R: Deviance
(wenn = 0 keine Abweichung)

38
Q

Welche 2 Informationskriterien gibt es?

A

AIC Index (Akaike Information Criterion)
BIC (Bayesian Information Criterion)

Das Modell welches die kleineren AIC u. BIC Werte besitzt, wäre das bessere.
Wäre es das Modell 1 mit age, dann wäre dieser Prädiktor relevant. Ist es wert das Modell um den Prädiktor age zu ergänzen? nur bedingt weil in M0 : AIC < M1 : AIC
M0: BIC > M1 : BIC

39
Q

welche kategoriale Prädiktoren gibt es?

A

dichotome (sexe)
Frauen höheres Odds zu überleben als Männer.
Frauen überleben 74% eher als Männer.

nominale Prädiktoren (Schiffsklasse 1, 2, 3)
je besser die Klasse desto eher überlebt.

40
Q

welches Symbol hat der Regressionskoeffizient und der Korrelationskoeffizient? Wann sind sie identisch?

A

Regressionskoeffiezient: b1 (Steigung)
Korrelationskoeffizient: rxy

Koeffizienten sind identische, wenn x und y die gleiche Standardabweichung besitzen.

Wenn man beide Variablen vor der Analyse standardisiert, dann entspricht b1 immer genau rxy.