FLB 1 Flashcards

1
Q

Allgemeine Fakten: Regressionsanalyse

A
  • Am häufigsten eingesetztes multivariates statistisches Auswertungsverfahren
  • Modellieren von Existenz und Stärke von Zshängen zw verschiedenen Variablen & Art der Zshänge
  • Einteilung der Variablen in abhängige (Kriteriums-, Ziel-) bzw. unabhängige (Prädiktor-, Einfluss-) Variablen (KV oder PV)
  • Form der hypothetischen Beziehung zw KV und PV: Linear, nichtlinear
  • Je nach Anzahl der PV: Einfache oder multiple Analyse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aufgabe: Einfache lineare Regressionsanalyse (ELR)

A
  • Beschreibung der Art des linearen Zshangs zw EINER Kriteriums- & EINER Prädiktorvariable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Definition: Methode der kleinsten Quadrate (MkQ)

A
  • Universelles Schätzprinzip zur Ermittlung von Punktschätzungen für Parameter (nicht)linearer und einfacher / multipler Regressionsgleichungen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Ziel: Einfache lineare Regressionsgleichung (ELR)

A
  • Ermittlung einer Regressionsgleichung:
    Y (KV) = b0 (Nulldurchgang) + b1 (Steigung) · X (PV)
    => Gesucht: Gerade, die sich „am besten“ an ggb Punktwolke anpasst
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Ausführung: Einfache lineare Regressionsgleichung (ELR)

A
  • Gerade bzgl. Anpassungsgüte beurteilen: Abstand (Residuum) der gemessenen Werte ermitteln
  • yi der Kriteriumsvariablen von dazugehöriger Schätzung ^yi auf Gerade betrachten: ei = yi - ^yi (i = 1,…, n)

yi: Wert Kriteriumsvariable Y des i-ten Probanden
^yi: Schätzwert für Kriteriumsvariable Y des i-ten Probanden
ei: Residuum des i-ten Probanden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vorgehen: Methode der kleinsten Quadrate (MkQ)

A
  • Abstandswerte von positiven u negativen Werten addieren sich zu Null => Quadrierte Abstandswerte nehmen
  • Suche der Regressionsgeraden, bei der Summe der quadrierten Abweichungen der Messwerte von Schätzwerten auf Geraden minimal sind
    => Suche nach Parametern ^b0 und ^b1 (bei ELR)
  • Formel:
    QSrest = []ei^2 = ^2 = ^2 —b0, b1—> Minimum

QSrest = Fehler-Quadratsumme
yi: Wert für Kriteriumsvariable Y des i-ten Probanden
^yi: Schätzwert für Kriteriumsvariable Y des i-ten Probanden
xi: Wert Prädiktorvariable X des i-ten Probanden
ei: Residuum des i-ten Probanden
[]: Summenzeichen; oben n; unten i = 1
b0, b1: Regressionskoeffizienten
n: Anzahl der Probanden

  • Formel Parameterschätzungen ^b0, ^b1:
    ^b0 = _y - ^b1 * _x
    ^b1 = n * []xi * yi - []xi * [] yi / n * []xi^2 - ([]xi)^2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Voraussetzungen: Einfach lineare Regression (ELR)

A
  1. Festlegung von Prädiktor & Kriterium
  2. Gültigkeit des linearen Modells
  3. Statistische Unabhängigkeit der Modellfehler
  4. Normalverteilung der Modellfehler nach N(0, klein theta^2)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vorteile, Nachteil: Quadrierung der Abstandswerte von Mess- und Schätzwerten

A

Vorteile:
- Negative u positive Abweichungen von Mess- und Schätzwerten werden gleichermaßen herangezogen
- Große Abweichungen werden stärker berücksichtigt

Nachteil:
- Gewisse Anfälligkeit ggü Ausreißern

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
  1. Voraussetzung ELR: Gültigkeit des linearen Modells
A

yi = b0 + b1 · xi + ei (i = 1, …, n)
yi: Wert der Kriteriumsvariablen Y des i-ten Probanden
xi: Wert der Prädiktorvariablen X des i-ten Probanden
ei: Residuum des i-ten Probanden
b0, b1: Regressionskoeffizienten
n: Anzahl der Probanden
- Annahme: Zw Variablen X & Y besteht linearer Zshang
- Die für einzelne Probanden bestehenden Abweichungen von linearer Beziehung werden durch Residuen ei als Wert des Modellfehlers E dargestellt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. Voraussetzung ELR: Statistische Unabhängigkeit der Modellfehler
A
  • Modellfehler für jeden Probanden ist unabhängig von Modellfehlern der anderen Probanden
  • Ggb, wenn Zufallsauswahl aus der Population
  • Nicht ggb: Mehrere Werte derselben Person; Autokorrelation: Abhängigkeit aufeinanderfolgender Beobachtungen derselben Person
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  1. Voraussetzung ELR: Normalverteilung der Modellfehler nach N(0, klein theta^2)
A
  • Modellfehler unterliegen einer Normalverteilung mit dem Erwartungswert 0
  • Varianzen der Modellfehler sollen unabhängig vom konkreten Wert xi des Prädiktors sein (Homoskedastizität)
    => Zur Überprüfung der Voraussetzung der Homoskedastizität wird häufig die grafische Ggüstellung der Residuen und Schätzungen für KV oder statistische Verfahren benutzt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Definition: Residuum

A
  • Beschreibt Abweichungen des jeweiligen Messwertes des Kriteriums vom Schätzwert der Regressionsfunktion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Bewertung der Voraussetzungen: ELR

A
  • Voraussetzungen I, II und III müssen definitiv erfüllt sein
  • Gegen Voraussetzung IV kann geringfügig verstoßen werden, ohne dass Schätzung der relativ robusten Regressionsanalyse großartig verzerrt wird
  • Wenn alle vier Voraussetzungen ggb, bietet MkQ unverzerrte Schätzung mit kleinstmöglicher Varianz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Varianzzerlegung: ELR

A
  • Beurteilung der Güte einer Regression: Bestimmung des Anteils der Gesamtvarianz der KV, der durch Regression, also PV erklärt wird
  • Gesamtvarianz = erklärte Varianz + nichterklärte Varianz
  • Messwerte yi der KV Y setzen sich aus Schätzwerten ^yi auf Regressionsgeraden und Residuen ei zs
    => Quadratsummenzerlegung der KV Y in den durch Regression erklärten Anteil QS(^y) und den nicht durch Regression erklärten Anteil QS(e)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist das Bestimmtheitsmaß?

A
  • Determinationskoeffizient r^2 (auch: b)
  • Wichtiges globales Gütekriterium der Regressionsanalyse
  • Berechnung: Erklärte Varianz / Gesamtvarianz
  • Anteil der Varianz der KV, der mit Hilfe der Regression, also durch PV aufgeklärt werden kann
  • Bei ELR: Quadrat des Produkt-Moment-Koeffizienten r; kann Werte zwischen 0 und 1 annehmen
    => Totale lineare Abhängigkeit r^2 = 1; zwei vollständig unkorrelierte Variablen r^2 = 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Zentrale Größen zur Beurteilung der globalen Güte der Regression

A
  1. Bestimmtheitsmaß r^2
  2. Standardfehler der Schätzung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was macht Standardfehler der Schätzung?

A

Gibt an, welcher mittlere Fehler bei Verwendung der ermittelten Regressionsfunktion zur Schätzung der KV gemacht wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist der Signifikanztest und wie wird er interpretiert? (ELR)

A
  • Zur statistischen Absicherung der Signifikanz des Bestimmtheitsmaßes (H0: r^2 = 0) wird F-Test durchgeführt
    => Führt bei ELR zum gleichen Ergebnis wie Signifikanztest des Korrelationskoeffizienten r
  • Nichtsignifikante Prüfgröße: Führt zu Ergebnis, dass PV keine statistisch nachweisbare Beziehung zur KV hat
    => PV zur Erklärung der Varianz der KV wahrscheinlich nicht geeignet (weitere Ergebnisse der Regressionsanalyse dann bestenfalls deskriptive Bedeutung)
19
Q

Wie lauten die Schritte zur statistischen Prüfung der Regressionskoeffizienten?

A
  1. Standardfehler des Koeffizienten berechnen
    => Aus Daten der vorliegenden Stichprobe schätzen
  2. Mittels Standardfehler des Regressionskoeffizienten lässt sich T-Test mit Wert = t angeben
    => Äquivalent zum t-Test ist Angabe von Konfidenzintervallen für Regressionskoeffizienten
20
Q

Wie ergibt sich eine Vorhersage des Wertes ^y0 der KV aus einem bekannten Wert der PV x0 im Intervall [xmin, xmax]?

A
  • Ergibt sich durch Einsetzen in ermittelte Regressionsgleichung
    => Intervall [xmin, xmax] bezeichnet Wertebereich der PV, aus dem Werte für Berechnung der Regressionsgeraden zur Verfügung standen
  • Wenn Ziel konkrete Vorhersage von Werten der KV, dann zusätzlich zu Punktschätzung die Angabe eines Konfidenzintervalls für Schätzwert erforderlich
21
Q

Aufgabe: Multiple lineare Regression (MLR) => Modell und Schätzprinzip

A
  • Beschreibung der Art des linearen Zshangs zw EINER Kriteriums- Y & k Prädiktorvariablen X1, X2, X3, … Xk
    => yi = b0 + b1 · x1i + b2 · x2i +…+ bk · xki + ei (i = 1, …,n)
    yi: Wert der KV Y des i-ten Probanden
    x1i, x2i, …, xki: Werte der Prädiktorvariablen X1, X2, …, Xk des i-ten Probanden
    ei: Residuum des i-ten Probanden
    b0, b1,…, bk: Regressionskoeffizienten
    n: Anzahl der Probanden
  • Gesucht: Multiple Regressionsgleichung
    Y = b0 + b1 · X1 + b2 · X2 + … + bk · Xk
22
Q

Allgemeines Schätzprinzip zur Bestimmung der Regressionskoeffizienten

A
  • Methode der kleinsten Quadrate
23
Q

Voraussetzungen: MLR

A
  • Entsprechen Voraussetzungen des Verfahrens bei ELR
  • Für praktische Anwendungen wichtig: Mögliche uneingeschränkte Verwendung von dichotomen Variablen als PV
  • Einbeziehung von kategorialen Variablen mit mehr als zwei Ausprägungen über entsprechende Kodierungen mit Dummy-Variablen => Voraussetzung: Werte der KV für alle Kombis der Ausprägungen der dichotomen Variablen sollten normalverteilt und varianzhomogen sein
24
Q

Berechnung des Bestimmtheitsmaßes: MLR

A
  • Analog zur einfachen linearen Regression
  • Multiples Bestimmtheitsmaß als Quadrat des multiplen Korrelationskoeffizienten R
    => Bezeichnung oft: R^2 (oder B)
25
Q

Signifikanztest, Standardfehler des Schätzers: MLR

A
  • Analog zu ELR
26
Q

Interpretation der Ergebnisse von MLR: Beta-Gewichte

A
  • Analog zu ELR + unterschiedlichen Einfluss der einzelnen PVs innerhalb der Regression sicht- und vergleichbar machen
    => Dazu sind Regressionskoeffizienten ungeeignet, da abhängig vom Wertebereich der jeweiligen PV
  • Beta-Gewichte: Ergeben sich im Ergebnis der MkQ, wenn ALLE beteiligten Variablen vor Analyse z-transformiert werden (Mittelwert 0, Standardabweichung 1)
    => Variablen vergleichbar, und Regressionskoeffizienten (Beta-Gewichte) ermöglichen Vergleich der unterschiedlichen Bedeutung der PVs für Vorhersage
    => Interpretation nicht allein auf Grundlage der Beta-Gewichte machen: Mögliche Effekte werden nicht berücksichtigt, die durch deutliche Korrelationen zw PVs (Multikollinearität) auftreten können => zB Redundanz von Prädiktoren, Suppressionseffekte (auch: traditioneller Suppressionseffekt)
27
Q

Was bedeutet Redundanz von Prädiktoren?

A
  • Mögliche Folge hoher Multikollinearität
    => Eine der beiden Variablen wird redundant und zur Vorhersage der KV nicht mehr benötigt, wenn andere Variable im Satz der Prädiktoren enthalten und Vorhersagebeitrag durch diese mit geleistet wird
  • Durch MkQ wird festgestellt, welche der beiden betrachteten Variablen zs mit übrigen PVs besser zur Vorhersage geeignet ist
    => Verhältnis kann sich umkehren, wenn weitere Prädiktoren aufgenommen werden
28
Q

Umgang mit Multikollinearität

A
  • In praktischen bzw. empirischen Untersuchungen kaum zu vermeiden - Führt zwangsläufig zu Instabilitäten und Ungenauigkeiten der Schätzungen
    => Sehr sorgfältige Interpretation nötig
  • Verfahren der Merkmalsselektion oder Ridge-Regression anwenden
    => Bei Letzterem gegenseitige „Glättung“ der hochkorrelierten PVs
29
Q

Was bedeuten Suppressionseffekte?

A
  • Liegt vor, wenn PV dadurch ein hohes Beta-Gewicht erlangt, dass sie unerwünschte Varianzanteile von anderen, für die Vorhersage bedeutenden PVs, unterdrückt
    z.B. indem eine PV, die mit einer anderen mit der KV hoch korrelierenden PV, mit negativem Vorzeichen in die Regressionsgleichung eingeht
  • In Summe der r^2 der PVs ergibt sich z.B. ein deutlich geringerer Wert als das gesamte R^2 aller PVs zs
    => Zswirken der PVs in multipler Regressionsanalyse ergibt durch Suppressorvariable eine wesentlich höhere Varianzaufklärung als in Summe der Aufklärungen der Einzelvariablen
30
Q

Wie geht man mit Suppressorvariablen um?

A
  • Meist ungünstig
  • Praktisch einzig möglicher Ausweg: In Modellbildungsphase nach alternativen Modellen zu suchen, die ähnliche Varianzaufklärung ohne Suppressoreffekte besitzen
31
Q

Korrigiertes Bestimmtheitsmaß

A
  • Zur Bewertung der Varianzaufklärung im Verhältnis zur Anzahl der einbezogenen Prädiktoren und zur Anzahl der Probanden
  • Formel:
    R^2korr = R^2 – (k · (1 – R^2) / n – k – 1)

R^2korr: Korrigiertes multiples Bestimmtheitsmaß
R^2: multiples Bestimmtheitsmaß
k: Anzahl der Prädiktoren
n: Anzahl der Probanden

32
Q

Was ist das Merkmalsselektionsverfahren?

A
  • Ziel, mit möglichst wenig PVs eine gute Vorhersage der KV
    => Optimierung des ökonomischen, inhaltlichen und statistischen Aufwands im Regressionsmodell
  • Vorteile:
    1. Vermindert erforderlichen Aufwand
    2. Erlaubt klare inhaltliche Interpretationen
    3. Vermeidet unnötige Fehlervarianzen
33
Q

Wie lautet das Grundprinzip des Merkmalsselektionsverfahrens?

A
  • Besteht darin, für einzelne PVs zu beurteilen, inwieweit sich durch ihre Hinzunahme / Entfernung aus Merkmalssatz das multiple Bestimmtheitsmaß signifikant verändert
    => F-Test
  • Es gibt drei prinzipielle Herangehensweisen
    => Exploratorische, hypothesengenerierende Verfahren
    => Interpretation der Ergebnisse der Merkmalsselektionsverfahren ist oft schwierig und mit großer Sorgfalt zu tun
    => Verschiedene Verfahren können zu grundsätzl unterschiedl optimalen Merkmalsmengen führen (u.a., weil sich Bedeutung von einzelnen PVs in Abhängigkeit von den anderen im Merkmalssatz enthaltenen Variablen sehr stark verändern)
34
Q

Wie funktioniert das Verfahren der schrittweisen Merkmalsentfernung?

A
  • Auch: „Rückwärtsverfahren“
  • Beginnt mit vollständigem Satz aller PVs
    1. Variable wird untersucht, deren Entfernung zum geringsten Rückgang des Bestimmtheitsmaßes führen würde
    2. Wenn sich multiples Bestimmtheitsmaß der Regression bei Weglassen dieser Variablen nicht signifikant verkleinert, wird sie aus Merkmalssatz entfernt
    3. Verfahren fortsetzen, bis sich durch Entfernen der nächsten Variablen das Bestimmtheitsmaß signifikant verkleinern würde
  • Vergleich der Ergebnisse unterschiedl Verfahren zulässig und oft nützlich
35
Q

Wie funktioniert das Verfahren der schrittweisen Merkmalsaufnahme?

A
  • Auch: „Vorwärtsverfahren“
    1. Zunächst PV mit höchstem Korrelationskoeffizienten mit KV in den Merkmalssatz aufnehmen
    2. Wenn resultierendes multiples Bestimmtheitsmaß signifikant, anschließend diejenige Variable untersuchen, die zs mit bereits im Merkmalssatz enthaltenen zum höchsten Bestimmtheitsmaß führt
    3. Wenn durch Hinzufügen dieser Variablen resultierende Zunahme des Bestimmtheitsmaßes signifikant, wird PV ebenfalls aufgenommen
    4. Verfahren entsprechend fortführen, bis Hinzunahme einer neuen PV nicht zu signifikanter Zunahme des Bestimmtheitsmaßes führt
36
Q

Wie funktioniert das Verfahren der schrittweisen Merkmalsentfernung bzw. Merkmalsaufnahme?

A
  • Auch: „Schrittweises Verfahren“
  • Kombination aus Rückwärts- und Vorwärtsverfahren
  • Ergänzung zum Vorwärtsverfahren: Vor jedem Schritt zusätzlich untersuchen, ob durch Entfernung einer bereits aufgenommenen PV das Bestimmtheitsmaß nicht signifikant abnehmen würde
37
Q

Hierarchische Regressionsanalyse

A
  • Untersuchungen über den Erklärungsbeitrag inhaltlich strukturierter Merkmalsmengen
    1. PV in thematische Blöcke einteilen
    2. Bestimmtheitsmaß R1^2 für ersten Block berechnen
    3. Variablen des zweiten Blocks in Bestimmtheitsmaß R2^2 einbeziehen
    4. F-Test zur Prüfung, ob sich DeltaR12^2 signifikant von 0 unterscheidet
    5. Analog verfahren und schauen, ob sich durch DeltaR23^2 das multiple Bestimmtheitsmaß signifikant erhöht, usw.
38
Q

Was ist die Moderatoranalyse?

A
  • Moderatoranalyse basiert darauf, einen Interaktionsterm als Produkt von Prädiktor und potentieller Moderatorvariable zu bilden und in multiple Regression zur Vorhersage der KV einzubeziehen
  • Signifikanz des Interaktionsterms = Signifikante Moderatorwirkung der Moderatorvariablen
39
Q

Analyse von Moderatoreffekten: Nominalskalierte Moderatorvariable (MV)

A
  • Nominalskalierte Variablen sind durch Kodiervariablen auszudrücken
  • Multiple Regression zur Vorhersage der KV durch PV und MV
    yi = b0 + b1 · xi + b2 · mi + b3 · xi · mi + ei (i = 1, …, n)
  • Nach Umstellung in: yi = (b0 + b2 · mi) + (b1 + b3 · mi) · xi + ei (i = 1, …, n)
    => Werte von m einsetzen zB Dummy-Kodierung weiblich = 0 und männlich = 1
  • Vergleich der bedingten Regressionen in den Gruppen
    => Statistisch nachweisbare Moderatorwirkung über Signifikanztest der Regressionskoeffizienten ermitteln
  • Zur Verminderung von Interpretationsproblemen: Zentrierung der metrischen PVs (Abziehen des Stichproblenmittelwertes von jedem Wert)
  • Wenn die nominalskalierte MV mehr als 2 Stufen hat, erhöht sich Anzahl der erforderlichen Kodiervariablen und so Zahl der Produktterme
    => Empfehlung: Hierarchische Regressionsanalyse in der alle Produktterme in einem Schritt aufgenommen werden
    => Statistische Beurteilung des Zuwachses des Bestimmtheitsmaßes in diesem Schritt = Grundlage für Nachweis Interaktionseffekt
40
Q

Analyse von Moderatoreffekten: Metrische Moderatorvariable (MV)

A
  • Bildung eines Produktterms zw PV X und (möglicher) MV M
  • Signifikanz des Produktterms in multipler Regressionsanalyse gleichbedeutend mit Nachweis der Moderatorwirkung
  • Anstieg der linearen Regression zw PV und KV: b1* = b1 + b3 · PV
    => Regressionskoeffizient b3 ungleich 0 bzw. sich Regressionsanstiege in Abhängigkeit von PV unterscheiden, liegt für PV Moderatoreffekt vor
  • PV X und MV M müssen vor Analyse, d.h. vor der Bildung der PV, zentriert werden, um hohe Multikollinearität zu vermeiden
    => p-Wert betrachten, wenn nicht signifikant = Keine Moderatorwirkung
  • Grafische Veranschaulichung, indem Anstiege der Regressionsanalyse in Teilgruppen verglichen werden
41
Q

Was ist eine Moderatorvariable?

A
  • Von Ihrer Ausprägung hängt Stärke des Zshanges zweier Variablen ab
42
Q

Was ist der Mediatoreffekt?

A
  • Beeinflussung einer Variable durch andere Variable erfolgt nicht (nur) auf direktem Wege, sondern ganz / wenigstens teilweise durch eine Mediatorvariable vermittelt
43
Q

Wie wird die Mediatoranalyse durchgeführt?

A
  1. Untersuchen, ob es zw allen beteiligten Variablen signifikante Korrelationen gibt
    => Wenn nicht, würde sich Suche nach indirekten Effekten erübrigen
    => Möglichkeit beachten, dass direkter- und Mediatoreffekt unterschiedl Vorzeichen aufweisen könnten, dann könnte trotz nicht vorhandener Korrelation zw PV & KV eine relevante Mediation vorliegen
  2. Multiple Regressionsanalyse durchführen
    => Wenn zw allen Variablen hohe Korrelationen vorliegen und folgendes Analyseergebnis vorläge: b1 gleich 0, gleichzeitig der Regressionskoeffizient zur zweiten Variablen b2 = ungleich Null geschätzt würde => vollständige Mediation
    => Wenn beide Regressionskoeffizienten signifikant = Partielle Mediation (Effekte von b1 teilt sich in direkten & indirekten Effekt auf); Nachgewiesen, wenn indirekter Effekt bei gleichzeitiger Verringerung des direkten Effekts ggü dem Modell ohne Mediator signifikant ist (Signifikanztest über Sobel-Test (einfach) / lineare Strukturgleichungsmodelle (komplex))
44
Q

Sobel-Test

A
  • Durchführung zweier einfacher linearer Regressionen „entlang des indirekten Pfades“
  • In erster Regressionsanalyse ist ursprüngl. PV1 die KV und die PV2 die PV
  • In zweiter Analyse ist ursprüngl KV die KV und KV aus erster Analyse (eigentl P1) die PV der Prädiktor
  • Aus beiden Analysen werden die Regressionskoeffizienten (unstandardisiert) und deren Standardfehler für Berechnung des Wertes der Teststatistik des Sobel-Tests benötigt
    => In einfachen Modellen durchführbar, setzt große Stichprobengröße voraus