Regressionsanalyse Flashcards

1
Q

Regressionsgerade

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Regressionsgeradengleichung

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Beispiel Regressionskoeffizient

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Standardisierter Regressionskoeffizient

A
  • standardisiert man ihn (er heißt dann Beta, β), ist sein Wertebereich auf Werte von -1 bis +1 begrenzt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Determinationskoeffizient - Varianzaufklärung: Standardschätzfehler s(e)

A
  • äquivalent dazu kann auch der StandardSchätzfehler s(e)betrachtet werden:
  • bei r²=1 wäre der Schätzfehler 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Regressionsgleichung für die multiple Regression

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Multiple Regression

A
  • analysiert mehr als einen Prädiktor
  • identifiziert den relativen (spezifischen) Einfluss einer Reihe von Prädiktoren (X1, X2…) auf das Kriterium
  • die Betas sind entweder gleich groß wie oder – und das ist die Regel – kleiner als die rs
  • die Varianzaufklärung wird durch den multiplen Determinations-Koeffizienten R² für alle Prädiktoren zusammen angegeben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

LOWESS-Prozedur (locally weighted scatterplot smoother, manchmal auch LOESS für local regression)

A
  • die Idee: für jeden einzelnen Datenpunkt wird eine lokale Regression durchgeführt (mit einer bestimmten Anzahl von Nachbarpunkten) – der alte Punkt erhält dann eine neue Position direkt auf der Regressionsgeraden
  • alle Punkte passen sich nun besser in ihre Nachbarpunkte ein
  • es entsteht eine Kurve, die den wahren Zusammenhang zweier Variablen zeigt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Zusammenfassung Regression

A
  • die Regression ist eine Vorhersageanalyse: wenn Variablen korrelieren, lässt sich die eine Variable aus der anderen vorhersagen
  • die Regressionsgerade repräsentiert alle Datenpunkte so gut wie möglich und dient der Vorhersage von Y aus X
  • ihre Steigung wird durch den Regressionskoeffizienten b beschrieben
  • die standardisierte Form des Koeffizienten wird Beta oder Beta-Gewicht genannt
  • bei mehr als einem Prädiktor (multiple Regression) beschreiben die Betas den relativen Einfluss der Prädiktoren auf das Kriterium
  • der Determinationskoeffizient R² quantifiziert die aufgeklärte Varianz des Kriteriums
  • die Regression kann der Vorhersage konkreter Werte dienen oder der theoretischen Beschreibung des Zusammenhangs von Variablen
  • bei der Logistischen Regression liegt das Kriterium in Kategorien vor
  • der Einfluss der Prädiktoren auf das Kriterium wird hier durch die Odds Ratios bestimmt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Galtons Entdeckung

A

Größere Väter haben größere Söhne, aber deren Größe tendiert zum Mittelwert zurück.
Galton nannte dies “Regression zur Mitte”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Grundlage der Regressionsanalyse

A

Galtons Entdeckung bildet die Grundlage für das Vorhersagen von Variablen aus anderen Variablen.
Das Vorliegen einer Korrelation kann zur Formulierung von Vorhersagen verwendet werden.
Die vorhersagende Variable heißt Prädiktor, die vorherzusagende Variable Kriterium.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Regressionsgerade - Definition

A

Die Regressionsgerade wird verwendet, um Y aus X vorherzusagen.
Die Gerade minimiert den durchschnittlichen Abstand aller Punkte zur Geraden (Quadratsumme der Abweichungen, “kleinste Quadrate”).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vorhersage und Vorhersagefehler

A

Die Vorhersage von Y gelingt besser, je näher die Punkte an der Regressionsgeraden liegen (hohe Korrelation).
Abweichungen von der Geraden können durch fehlende Korrelation, zusätzliche Variablen oder Messfehler verursacht werden.
Vertikale Abweichungen heißen Residuen; deren Varianz ist die nicht erklärte Varianz in Y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Regressionskoeffizient

A

Der Regressionskoeffizient
b1 beschreibt die Stärke des Zusammenhangs von X und Y.
Der unstandardisierte Koeffizient ist abhängig von der Skalierung der Variablen.
Standardisiert (β), liegt der Wertebereich zwischen -1 und +1.
Bei einfacher linearer Regression sind β und r identisch.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Determinationskoeffizient - Varianzaufklärung

A

Die aufgeklärte Varianz von Y durch X wird durch den Determinationskoeffizienten r² beschrieben.
r² reicht von 0 bis 1, was einer Varianzaufklärung von 0 bis 100% entspricht.
Bei r²=1 wäre der Schätzfehler 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Anwendung der Regressionsanalyse

A

Nicht nur für intervallskalierte Variablen: Auch Unterschiede (Mittelwerte) und Zugehörigkeit zu Gruppen können analysiert werden.
Regressionsanalyse ist ein universelles Werkzeug zur Analyse von Effekten und Varianzaufklärung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Regression und Kausalität

A

Wie bei der Korrelation kann Kausalität nicht direkt aus der Regression abgeleitet werden.
Die unterstellte Kausalrichtung beeinflusst die Parameter der Regressionsgeraden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Anwendungsfälle der Regression

A
  1. Bestimmung konkreter Werte für Y.
    Beispiel: Therapieerfolg und Therapiestunden.
    Unstandardisiertes b liefert die konkrete Vorhersage.
  2. Theoretische Anwendung in der Forschung.
    Fokus auf den theoretischen Zusammenhang.
    Hauptinformationen:
    b, β und r².
19
Q

Multiple Regression

A

Analysiert den spezifischen Einfluss mehrerer Prädiktoren auf das Kriterium.
Die Betas sind oft kleiner als die rs.
Die Varianzaufklärung wird durch den multiplen Determinationskoeffizienten R² angegeben.

20
Q

Voraussetzungen für (multiple) Regression

A

Variablen müssen intervallskaliert sein.
Linearität der Zusammenhänge ist sicherzustellen (z.B. durch LO(W)ESS-Line).
Bei Abweichungen von der Linearität können Ergebnisse verzerrt oder unsinnig sein.

21
Q

LOWESS-Prozedur

A

LOWESS (locally weighted scatterplot smoother): Lokale Regression für jeden Datenpunkt, um eine besser passende Kurve zu erzeugen.
Zeigt den wahren Zusammenhang zwischen zwei Variablen auf.

22
Q

Binär Logistische Regression

A

Kriterium liegt in Kategorien vor (dichotom/binär).
Ziel: Vorhersage der Wahrscheinlichkeit des Eintretens einer Kategorie.
Ergebnis wird durch das Chancenverhältnis (Odds Ratio, OR) angegeben.

23
Q

Logistische Regression - Interpretation

A

OR drückt aus, wie eine Veränderung in X die Wahrscheinlichkeit für das Eintreten einer Kategorie beeinflusst.
Wertebereich der OR: 0 bis +unendlich.
Beispiel: OR = 2 bedeutet, dass sich die Wahrscheinlichkeit für das Eintreten von “1” verdoppelt.

24
Q

Logistische Regression - Ergebnis

A

Odds Ratios und ein Maß für die insgesamt aufgeklärte Varianz des Kriteriums.
Pseudo-R² als Analogon zu
R² bei der linearen Regression.

25
Q

Zusammenfassung der Regressionsanalyse

A

Regression ist eine Vorhersageanalyse basierend auf Korrelationen.
Regressionsgerade minimiert Abweichungen und dient der Vorhersage.
Steigung der Geraden wird durch den Regressionskoeffizienten
𝑏
b beschrieben.
Multiple Regression analysiert mehrere Prädiktoren.
Logistische Regression analysiert Kategorien und verwendet Odds Ratios zur Interpretation.

26
Q

Regressionsgleichung - Formel

A

Die Regressionsgerade kann durch die Gleichung Y=b0+b1X beschrieben werden.
b0 ist der Achsenabschnitt (Intercept), der Wert von Y, wenn X = 0 ist.
b1 ist der Regressionskoeffizient (Slope), der die Veränderung in Y pro Einheit von X angibt.

27
Q

Regressionsgerade - Interpretation

A

Die Regressionsgerade visualisiert die Beziehung zwischen Prädiktor und Kriterium.
Punkte, die auf der Geraden liegen, entsprechen den vorhergesagten Werten von Y.
Abweichungen von der Geraden (Residuen) repräsentieren die nicht erklärte Varianz.

28
Q

Standardschätzfehler

A

Der Standardschätzfehler (Standard Error of Estimate) ist die Wurzel der Varianz der Residuen.
Er repräsentiert den durchschnittlichen Fehler beim Schätzen von Y.
Ein kleiner Standardschätzfehler deutet auf eine gute Vorhersagequalität hin.

29
Q

Residuen - Bedeutung

A

Residuen sind die Differenzen zwischen den beobachteten und den vorhergesagten Werten von Y.
Sie zeigen an, wie gut das Modell die Daten beschreibt.
Große Residuen können auf einen schlecht passenden Regressionsansatz oder auf Ausreißer hinweisen.

30
Q

Standardisierte Regressionskoeffizienten (β)

A

Standardisierte Koeffizienten (β) erlauben den Vergleich der Stärke des Zusammenhangs zwischen Prädiktoren und Kriterium, unabhängig von der Skalierung der Variablen.
Ein β von 0,9 bedeutet, dass eine Erhöhung des Prädiktors um eine Standardabweichung eine Erhöhung des Kriteriums um 0,9 Standardabweichungen bewirkt.

31
Q

Unstandardisierte vs. Standardisierte Koeffizienten

A

Unterschiede:

Unstandardisierte Koeffizienten (b) sind abhängig von der Maßeinheit der Variablen.
Standardisierte Koeffizienten (β) sind skalenunabhängig und ermöglichen den Vergleich zwischen verschiedenen Prädiktoren.

32
Q

Regressionsanalyse - Voraussetzungen

A

Linearität der Beziehung zwischen Prädiktor und Kriterium.
Homoskedastizität: Die Varianz der Residuen sollte über alle Werte von X konstant sein.
Normalverteilung der Residuen.
Keine starke Multikollinearität zwischen Prädiktoren bei multipler Regression.

33
Q

Multikollinearität

A

Multikollinearität tritt auf, wenn Prädiktoren stark miteinander korrelieren.
Sie führt zu instabilen Schätzungen der Regressionskoeffizienten und erschwert die Interpretation der Ergebnisse.
Kann durch die Berechnung des Variance Inflation Factor (VIF) erkannt werden.

34
Q

Variance Inflation Factor (VIF)

A

Der VIF misst, wie stark die Varianz eines Regressionskoeffizienten aufgrund der Korrelation mit anderen Prädiktoren aufgebläht wird.
Ein VIF-Wert über 10 deutet auf ein ernsthaftes Multikollinearitätsproblem hin.

35
Q

Homoskedastizität vs. Heteroskedastizität

A

Homoskedastizität: Die Varianz der Residuen ist konstant über alle Werte von X.
Heteroskedastizität: Die Varianz der Residuen variiert, was zu ineffizienten Schätzungen führt.
Heteroskedastizität kann durch visuelle Inspektion der Residuenplots diagnostiziert werden.

36
Q

Regressionsdiagnostik

A

Überprüfung, ob die Annahmen der Regression erfüllt sind.
Enthält die Analyse von Residuenplots, Identifikation von Ausreißern und die Prüfung auf Multikollinearität.
Diagnostische Tests wie der Durbin-Watson-Test prüfen Autokorrelation in den Residuen.

37
Q

Logistische Regression - Pseudo-R²

A

Pseudo-R² ist ein Maß für die Varianzaufklärung in der logistischen Regression.
Es ist nicht direkt vergleichbar mit R² der linearen Regression, aber gibt an, wie gut das Modell die Daten erklärt.

38
Q

Odds Ratio (OR) - Interpretation

A

Ein OR > 1 bedeutet, dass der Prädiktor die Wahrscheinlichkeit für das Eintreten von “1” erhöht.
Ein OR < 1 bedeutet, dass der Prädiktor die Wahrscheinlichkeit für das Eintreten von “1” verringert.
Beispiel: OR = 3 bedeutet, dass die Wahrscheinlichkeit für das Eintreten des Ereignisses dreimal höher ist.

39
Q

Multiple Regression - Interpretation von R²

A

R² gibt an, wie viel Varianz im Kriterium durch die Prädiktoren zusammen erklärt wird.
In der multiplen Regression zeigt R² , wie gut das Modell mit allen Prädiktoren die Daten erklärt.
Ein höheres R² deutet auf ein besser passendes Modell hin.

40
Q

Regressionsanalyse in der Praxis

A

Vorhersage von Ergebnissen, wie z.B. Therapieerfolg, basierend auf bestimmten Prädiktoren.
Analyse der Einflussfaktoren in wissenschaftlichen Studien, um Zusammenhänge zu identifizieren und zu quantifizieren.
Verwendung in Wirtschafts-, Sozial- und Gesundheitswissenschaften zur Modellierung von Beziehungen zwischen Variablen.

41
Q

Lineare Regression vs. Logistische Regression

A

Lineare Regression: Kriterium ist intervallskaliert, Beziehung wird als lineare Gerade dargestellt.
Logistische Regression: Kriterium ist dichotom, Beziehung wird durch eine s-förmige (logistische) Kurve dargestellt.

42
Q

Regressionsanalyse - Interpretation von b und β

A

b: Zeigt die Veränderung in Y für eine Einheit Veränderung in X, abhängig von der Skalierung der Variablen.

β: Standardisiert, zeigt die Veränderung in Y für eine Standardabweichungseinheit Veränderung in X, unabhängig von der Skalierung.

43
Q
A