FLB 1 Flashcards
Allgemeine Fakten: Regressionsanalyse
- Am häufigsten eingesetztes multivariates statistisches Auswertungsverfahren
- Modellieren von Existenz und Stärke von Zshängen zw verschiedenen Variablen & Art der Zshänge
- Einteilung der Variablen in abhängige (Kriteriums-, Ziel-) bzw. unabhängige (Prädiktor-, Einfluss-) Variablen (KV oder PV)
- Form der hypothetischen Beziehung zw KV und PV: Linear, nichtlinear
- Je nach Anzahl der PV: Einfache oder multiple Analyse
Aufgabe: Einfache lineare Regressionsanalyse (ELR)
- Beschreibung der Art des linearen Zshangs zw EINER Kriteriums- & EINER Prädiktorvariable
Definition: Methode der kleinsten Quadrate (MkQ)
- Universelles Schätzprinzip zur Ermittlung von Punktschätzungen für Parameter (nicht)linearer und einfacher / multipler Regressionsgleichungen
Ziel: Einfache lineare Regressionsgleichung (ELR)
- Ermittlung einer Regressionsgleichung:
Y (KV) = b0 (Nulldurchgang) + b1 (Steigung) · X (PV)
=> Gesucht: Gerade, die sich „am besten“ an ggb Punktwolke anpasst
Ausführung: Einfache lineare Regressionsgleichung (ELR)
- Gerade bzgl. Anpassungsgüte beurteilen: Abstand (Residuum) der gemessenen Werte ermitteln
- yi der Kriteriumsvariablen von dazugehöriger Schätzung ^yi auf Gerade betrachten: ei = yi - ^yi (i = 1,…, n)
yi: Wert Kriteriumsvariable Y des i-ten Probanden
^yi: Schätzwert für Kriteriumsvariable Y des i-ten Probanden
ei: Residuum des i-ten Probanden
Vorgehen: Methode der kleinsten Quadrate (MkQ)
- Abstandswerte von positiven u negativen Werten addieren sich zu Null => Quadrierte Abstandswerte nehmen
- Suche der Regressionsgeraden, bei der Summe der quadrierten Abweichungen der Messwerte von Schätzwerten auf Geraden minimal sind
=> Suche nach Parametern ^b0 und ^b1 (bei ELR) - Formel:
QSrest = []ei^2 = ^2 = ^2 —b0, b1—> Minimum
QSrest = Fehler-Quadratsumme
yi: Wert für Kriteriumsvariable Y des i-ten Probanden
^yi: Schätzwert für Kriteriumsvariable Y des i-ten Probanden
xi: Wert Prädiktorvariable X des i-ten Probanden
ei: Residuum des i-ten Probanden
[]: Summenzeichen; oben n; unten i = 1
b0, b1: Regressionskoeffizienten
n: Anzahl der Probanden
- Formel Parameterschätzungen ^b0, ^b1:
^b0 = _y - ^b1 * _x
^b1 = n * []xi * yi - []xi * [] yi / n * []xi^2 - ([]xi)^2
Voraussetzungen: Einfach lineare Regression (ELR)
- Festlegung von Prädiktor & Kriterium
- Gültigkeit des linearen Modells
- Statistische Unabhängigkeit der Modellfehler
- Normalverteilung der Modellfehler nach N(0, klein theta^2)
Vorteile, Nachteil: Quadrierung der Abstandswerte von Mess- und Schätzwerten
Vorteile:
- Negative u positive Abweichungen von Mess- und Schätzwerten werden gleichermaßen herangezogen
- Große Abweichungen werden stärker berücksichtigt
Nachteil:
- Gewisse Anfälligkeit ggü Ausreißern
- Voraussetzung ELR: Gültigkeit des linearen Modells
yi = b0 + b1 · xi + ei (i = 1, …, n)
yi: Wert der Kriteriumsvariablen Y des i-ten Probanden
xi: Wert der Prädiktorvariablen X des i-ten Probanden
ei: Residuum des i-ten Probanden
b0, b1: Regressionskoeffizienten
n: Anzahl der Probanden
- Annahme: Zw Variablen X & Y besteht linearer Zshang
- Die für einzelne Probanden bestehenden Abweichungen von linearer Beziehung werden durch Residuen ei als Wert des Modellfehlers E dargestellt
- Voraussetzung ELR: Statistische Unabhängigkeit der Modellfehler
- Modellfehler für jeden Probanden ist unabhängig von Modellfehlern der anderen Probanden
- Ggb, wenn Zufallsauswahl aus der Population
- Nicht ggb: Mehrere Werte derselben Person; Autokorrelation: Abhängigkeit aufeinanderfolgender Beobachtungen derselben Person
- Voraussetzung ELR: Normalverteilung der Modellfehler nach N(0, klein theta^2)
- Modellfehler unterliegen einer Normalverteilung mit dem Erwartungswert 0
- Varianzen der Modellfehler sollen unabhängig vom konkreten Wert xi des Prädiktors sein (Homoskedastizität)
=> Zur Überprüfung der Voraussetzung der Homoskedastizität wird häufig die grafische Ggüstellung der Residuen und Schätzungen für KV oder statistische Verfahren benutzt
Definition: Residuum
- Beschreibt Abweichungen des jeweiligen Messwertes des Kriteriums vom Schätzwert der Regressionsfunktion
Bewertung der Voraussetzungen: ELR
- Voraussetzungen I, II und III müssen definitiv erfüllt sein
- Gegen Voraussetzung IV kann geringfügig verstoßen werden, ohne dass Schätzung der relativ robusten Regressionsanalyse großartig verzerrt wird
- Wenn alle vier Voraussetzungen ggb, bietet MkQ unverzerrte Schätzung mit kleinstmöglicher Varianz
Varianzzerlegung: ELR
- Beurteilung der Güte einer Regression: Bestimmung des Anteils der Gesamtvarianz der KV, der durch Regression, also PV erklärt wird
- Gesamtvarianz = erklärte Varianz + nichterklärte Varianz
- Messwerte yi der KV Y setzen sich aus Schätzwerten ^yi auf Regressionsgeraden und Residuen ei zs
=> Quadratsummenzerlegung der KV Y in den durch Regression erklärten Anteil QS(^y) und den nicht durch Regression erklärten Anteil QS(e)
Was ist das Bestimmtheitsmaß?
- Determinationskoeffizient r^2 (auch: b)
- Wichtiges globales Gütekriterium der Regressionsanalyse
- Berechnung: Erklärte Varianz / Gesamtvarianz
- Anteil der Varianz der KV, der mit Hilfe der Regression, also durch PV aufgeklärt werden kann
- Bei ELR: Quadrat des Produkt-Moment-Koeffizienten r; kann Werte zwischen 0 und 1 annehmen
=> Totale lineare Abhängigkeit r^2 = 1; zwei vollständig unkorrelierte Variablen r^2 = 0
Zentrale Größen zur Beurteilung der globalen Güte der Regression
- Bestimmtheitsmaß r^2
- Standardfehler der Schätzung
Was macht Standardfehler der Schätzung?
Gibt an, welcher mittlere Fehler bei Verwendung der ermittelten Regressionsfunktion zur Schätzung der KV gemacht wird