1 Multiple Regression Flashcards by Anita Guggisberg

Warum ist Regressionsdiagnostik wichtig?

Die Regressionsdiagnostik ist wichtig, um sicherzustellen, dass die Annahmen der multiplen Regressionsanalyse erfüllt sind. Sie hilft dabei, mögliche Probleme zu erkennen, die die Gültigkeit der Ergebnisse beeinträchtigen könnten.

How well did you know this?

Not at all

Perfectly

Wie unterscheidet sich Multiple Regression von Bivariater Regression?

Bivariate Regression hat eine UV und eine AV und es wird ermittelt, wie viel der UV zur AV beiträgt.
Multiple Regression hat mehr Prädikatoren (UV) UND diese korrelieren höchstwahrscheinlich auch unterinander
Weitere Prädiktoren werden nur in dem Anteil gerechnet, in d em sie die AV ZUSÄTZLICH ERKLÄREN (wenn sie überschneident sind mit anderen Prädikatoren, wird dieser nicht gerechnet)

How well did you know this?

Not at all

Perfectly

Was ist der Vorteil einer multiplen Regression im vergleich zu einer einfachen linearen Regression?

Wir können den genauen, alleinigen Beitrag einer Variable ermitteln und dabei Redundanzen berücksichtigen sowie Störvariablen kontrollieren.

How well did you know this?

Not at all

Perfectly

Warum kann man bei der multiplen Regression nicht einfach Kausalität annehmen?

Nur weil die eine Variable ans UV und die andere als AV definiert wird, bedeutet es nicht automatisch Kausalität. Dafür bedarf es noch anderen Bedingungen, z.B.:
- Ursache vor Wirkung
- Stabilität des Effekts bei Einschluss weiterer Prädiktoren

How well did you know this?

Not at all

Perfectly

Wie lautet die Regressionsgleichung für die bivariate Regression?

Beispiel:
x = Gehalt
y = Mitarbeitendenzufriedenheit
a = Bereich, wo die Gerade anfängt
b = Bereich der Steigung

How well did you know this?

Not at all

Perfectly

Wie lautet die Regressionsgleichung für die multiple Regression?

Beispiel:
x = Gehalt
y = Mitarbeitendenzufriedenheit
a = Bereich, wo die Gerade anfängt
b = Bereich der Steigung

Jeder Prädiktor hat einen eigenen Steigungsbereich, also z.b. x1 + b1, x2 + b2, x3 + b3, …)

How well did you know this?

Not at all

Perfectly

Was ist Lineare Regression?

Lineare Regression ist ein Oberbegriff, der sowohl die bivariate (einfache) als auch die multiple (mit mehreren Prädiktoren) Regression umfasst.

How well did you know this?

Not at all

Perfectly

Was sind die Voraussetzungen für die Multiple Regression?

Die AV muss metrisch sein (Skalenniveau NICHT ordinal oder nominal)
Residuen müssen Unabhängig sein (Autokorrelation) -> es darf keine logische Reihenfolge der erfassten Daten geben, z.B. keine Wochentage)
Normalverteilung der Residuen (Stichprobe muss gross genug sein)
Ausreisser und Einflussreiche Datenpunkte sollten erkennt werden -> und ausgeschlossen? (z.B. mit Residuals vs Leverage Diagramm)
Keine Multikolinearität
Keine Homoskedaszität

How well did you know this?

Not at all

Perfectly

Was sind Residuen?

Residuen in der multiplen Regression sind die Differenzen zwischen den tatsächlich beobachteten Werten der abhängigen Variable und den vorhergesagten Wertendurch das Regressionsmodell.

How well did you know this?

Not at all

Perfectly

Was ist Multikolinearität?

wenn zwei oder mehr unabhängige Variablen stark miteinander korrelieren. Das bedeutet, dass eine Variable fast vollständig durch eine andere (oder eine Kombination anderer) vorhergesagt werden kann.

How well did you know this?

Not at all

Perfectly

Was ist Homoskedastizität?

Homoskedastizität ist eine wichtige Annahme in der linearen Regression, die besagt, dass die Varianz der Residuen konstant über alle Werte der unabhängigen Variablen bleibt. (Fehlerverteilung ist gleich verteilt) -> Levine Test oder Grafisch gemäss Bild

How well did you know this?

Not at all

Perfectly

Woran erkenne ich Multikollinearität in einer Regressionstabelle?

Hohe Standardfehler & instabile Koeffizienten
Signifikantes Modell (hohes R²), aber unsignifikante Einzelvariablen
Hohe Korrelation zwischen Prädiktoren (>0.8)
Hoher VIF (>5 oder >10 kritisch)

How well did you know this?

Not at all

Perfectly

Wie kann ich Multikollinearität in Jamovi prüfen?

Mit dem VIF-Wert (Colinearity Statistics)

Interpretation siehe Anhang

How well did you know this?

Not at all

Perfectly

Wie kann ich Homoskedastizität in Jamovi prüfen?

Über die Residuenplots. Interpretation siehe Anhang.

How well did you know this?

Not at all

Perfectly

Wie erkenne ich Autokorrelation der Residuen?

🔹 Durbin-Watson-Test → Schnellste Methode für einfache Regressionsmodelle. (2 ist gut, alles andere ist schlecht)

DW ≈ 2 → Keine Autokorrelation (✅ Gut).
DW < 1,5 → Positive Autokorrelation (🔴 Problem: Residuen hängen zusammen, oft in Zeitreihen).
DW > 2,5 → Negative Autokorrelation (🟠 Problem: Extreme Schwankungen zwischen Residuen).

Später:
🔹 Residuenplot → Hilft, visuelle Muster zu erkennen.
🔹 Ljung-Box-Test → Nützlich für langfristige Autokorrelation in Zeitreihen.
🔹 Korrelationsmatrix der Residuen → Für detaillierte Analyse von Verzögerungen.

How well did you know this?

Not at all

Perfectly

Wie erkenne ich Normalverteilung der Residuen?

Shapiro-Wilk-Test:

p > 0.05 = Normalverteilung
p < 0.05 signifikant nicht Normalverteilt

How well did you know this?

Not at all

Perfectly

Wie erkenne ich Ausreisser bei der multiplen Regression?

How well did you know this?

Not at all

Perfectly

Was ist das Ziel der multiplen Regression?

Lineare Vorhersage einer intervallskalierten abhängigen Variable (Av, Kriterium) anhandm ehrerer unabhängiger Variablen (UVs, Prädiktoren) vorherzusagen.

How well did you know this?

Not at all

Perfectly

Was muss gegeben sein, d amit die Kausalität (und nicht nur Prognose) erfüllt ist?

Die Ursache muss zu einem früheren Zeitpunkt passiert sein.
Der Effekt muss auch dann bleiben, wenn weitere Prädiktoren ins Modell dazu kommen

Welche zwei gleichungen gibt es jeweils?

Eine auf Stichprobenebene
Eine auf Populationsebene

Wie ist die Gleichung der Multiplen Regression für zwei unabhängige Variablen?

Wie ist die Gleihcung der Multiplen Regression für mehrere unabhängige Variablen?

Was ist das kleinste-quadrate-kriterium?

Das Kleinste-Quadrate-Kriterium der multiplen Regression minimiert die Summe der quadrierten Abweichungen zwischen den vorhergesagten und den tatsächlichen Werten auf der y-Achse, um die bestmögliche Anpassung der Regressionsgeraden an die Daten zu gewährleisten.

Welches ist der beste Schätzwert, wenn man nichts anderes weiss?

Der Mittelwert

Wann (bei welcher Zahl) sind die Prädiktoren geeignet für die Vorsage und wann nicht?

0 = gänzlich ungeeignet zur Vorhersage 1 = geänzlichc geeignet zur Vorhersage

Wann ist der Effekt einer Regression gross, mittel und schwach?

Wann liegt eine bedingte Regressionsanalyse vor?

Wenn wir die Ausprägungen aller anderen unabhängigen Variablen konstant halten.

Was sind Regressionsgewichte?

Regressionsgewichte (auch Regressionskoeffizienten oder β β-Koeffizienten) sind die Zahlen, die in einer Regressionsgleichung die Stärke und Richtung des Einflusses einer unabhängigen Variable auf die abhängige Variable angeben.

Was sind unstandardisierte Regressionsgewicchte?

- sind die häufigsten - sind nützlichc zur Prognose des Kriteriums (enthalten die Metrik) - sie erklären Veränderungen in Einheiten - ermöglichen Gruppenvergleicche

Was sind standardisierte Regressionsgewichte?

- in Publikationsen anzutreffen - häufig zum Vergleich verschiedener Studien mit unterschiedlichenMessinstrumenten - sie erklären Veränderungen in Standardabweichungen (nicht in Einheiten)

Was sind die Annahmen der Regressionsdiagnostik? (Welche Annahmen müssen erfüllt sein?)

- Korrekte Spezifikation des Modells (Underfitting oder Overfitting) - Messfehlerfreiheit der unabhängigen Variablen - Homoskedastizität - Normalverteilung der Residuen - Unabhängigkeit der Residuen

Welche weiteren Probleme (ausser nichterfüllung der Annahmen) können auftreten?

- Ausreisser und einflussreiche Datenpunkte - Multikollinearität (wenn zwei oder mehrere Prädiktoren besonders viel Varianz miteinander teilen)

Nenne ein Beispiel für Underfitting

Es wird z.B. eine Lineare Regression zwischen zwei Variablen angenommen, es handelt sich aber um eine Kurve. (es gibt aber aucch weitere Gründe)

Was ist Overfitting

z.B. wenn Prädiktoren ins Modell eingefügt werden, die zur Erklärung irrelevant sind.

Welche Probleme kann es beid er Messfehlerfreiheit der unabhängigen Variablen geben?

- Wenn UV nicht realiabel ist - Wenn UV nicht valide ist (oder beides

Was ist Heteroskedastizität?

Wie testen wir auf Homoskedastizität?

- Breusch-Pagan-Test - White's Test p > .05

Wie teste ich auf Normalverteilung?

- Kolmogorov-Smirnov-Test - Shapiro-Wilk-Test

Wann treffen wir Abhängigkeit der Residuen oft an?

- bei Klumpenstrichproben (test: intra-klassen-koeffizienten (ICC) > .05 - bei Zeitreihenfolgen (Test: Durbin-Watson-Statistik)ç

Was ist die datengesteuerte Auswahl von Prädiktorvariablen?

Die datengesteuerte Auswahl von Prädiktorvariablen ist ein Verfahren, bei dem automatisch oder systematisch bestimmt wird, welche unabhängigen Variablen in einem Regressionsmodell verwendet werden sollen. Ziel ist es, ein Modell zu finden, das möglichst präzise Vorhersagen trifft, aber nicht unnötig komplex ist.

Wann ist die datengesteuerte Auswahl von Prädikatorvariablen sinnvoll?

- Wenn es sehr viele gibt - Wenn nicht klar ist, welche Variablen sinnvoll sind (z.b keine klare theoretische Grundlage) - Wenn man Overfitting vermeiden will

Was ist Kreuzvalidierung in der Prädikatorenauswahl?

Die Kreuzvalidierung ist eine Technik zur Bewertung der Modellgüte, insbesondere in der datengesteuerten Auswahl von Prädiktorvariablen. Sie hilft zu überprüfen, ob das gewählte Modell nicht nur auf den vorhandenen Daten gut funktioniert, sondern auch auf neuen, unbekannten Daten zuverlässige Vorhersagen liefert.

Warum kann man bei der multiplen Regression den Einfluss von Störvariablen kontrollieren.

In der multiplen Regression kann man den Einfluss von Störvariablen kontrollieren, weil mehrere unabhängige Variablen gleichzeitig in das Modell aufgenommen werden. Dadurch wird der Einfluss einer Variablen auf die abhängige Variable bereinigt, indem die Effekte anderer Variablen statistisch konstant gehalten werden. So kann man den isolierten Effekt einer Variablen auf die Zielgröße bestimmen, ohne dass Störvariablen das Ergebnis verzerren.

Was ist der Interzept?

Das Interzept (β0), auch Achsenabschnitt, ist der Wert der abhängigen Variable (Y), wenn alle unabhängigen Variablen (X1, X2, ... Xn) gleich null sind.

Wann ist das Interzept wichtig?

✔ Wenn X = 0 eine realistische Bedeutung hat (z. B. Einkommen bei 0 Berufserfahrung). ✔ Wenn man eine Referenzbasis für die Interpretation braucht.

Wann ist das Interzept nicht sinnvoll interpretierbar?

❌ Wenn X=0 nicht realistisch vorkommt (z. B. Alter = 0 Jahre). ❌ Wenn die Prädiktoren keinen natürlichen Nullpunkt haben. 👉 In solchen Fällen kann man die Variablen zentrieren, damit das Interzept eine verständlichere Bedeutung bekommt.

Welche Formen von Datengesteuerten Auswahlverfahren gibt es?

- Vorwärtsselektion - Rückwärtselimination - Schrittweise Regression - Lasso Regression - Ridge Regression - Elastic Net Regression - AIC/BIC