2. Lineare Regression Flashcards
Was ist die lineare Regression?
• relevanteste Form der Regressionsanalyse, untersucht einen linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen
• erlaubt also Vorhersagen von Werten der AV (Y) mit Hilfe einer UV (X) und gibt Aufschluss darüber, wie sich der Wert der abhängigen Variablen ändert, wenn die unabhängige Variable geändert wird
❗️abhängige Variable: (AV) soll vorhergesagt werden: auch Kriterium/Y
❗️unabhängige Variable: (UV) wird zur Vorhersage herangezogen: auch Prädikator/X
Voraussetzung lineare Regression
- Intervallskalenniveau der abhängigen Variablen
- Linearität: die Beziehung zwischen Prädiktor und Kriterium lässt sich durch eine Regressionsgerade beschreiben (grafische Prüfung: Streudiagramm bzw. Residualplots)
- Homoskedastizität: Gleich große Varianz der Fehler (Varianzhomogenität), d.h. mit steigenden Werten der UV sollten die Werte der AV nicht weiter streuen
- Abwesenheit von Ausreißern und einflussreichen Beobachtungen: Einflussreiche Beobachtungen beeinflussen in besonderem Maße die Schätzung der Statistiken der linearen Regression (z.B. Regressionskoeffizient, Fehlervarianz, Standardschätzfehler). Daher Prüfung untypischer Datenpunkte, da sie die Lage der Regressionsgeraden und damit die Regressionsgewichte stark beeinflussen und häufig auf eine Verletzung der Normalverteilungsannahme deuten.
- Annahme normalverteilter Fehler: visuelle Prüfung mittels Histogramm der Fehlerterme
a) Prädiktor und Kriterium sind intervallskaliert und normalverteilt
b) Homodaskezität liegt vor
c) die Unabhängigkeit der Regressionsresiduen muss gegeben sein
d) Regressionsresiduen sind normalverteilt
Welche der folgenden Aussagen zur Regression sind korrekt?
a) eine Voraussetzung der linearen Regression ist, dass keine Homodaskezität vorliegen darf
b) Je größer die Streuung des Kriteriums, desto größer ist der Standartschätzfehler
c) Standartfehler kann als die Streuung der tatsächlichen y-Werte um die Regressionsgerade aufgefasst werden
d) Je größer die Korrelation zwischen Prädiktor und Kriterium, desto kleiner Standardschätzfehler
e) Die abhängige Variable in der Regression wird Prädiktor genannt
a) falsch, Homodaskezität muss vorliegen
b) richtig
c) falsch, Merkmal des Standartschätzfehlers
d) richtig
e) falsch, Prädiktor ist unabhängig
Erläutern Sie das Prinzip der kleinste Quadrate Schätzung.
= Methode zur Schätzung der Parameter in linearen Regressionen durch:
• Bestimmung des Regressionskoeffizienten b und der additiven Konstante a immer so, dass der Vorhersagefehler minimal ist
• Es wird somit versucht, den Fehler bei der Schätzung so gering wie möglich zu halten, so dass der Abstand zwischen geschätztem y-Wert und wahrem y-Wert (Residuum bezeichnet ( ei = yi — ŷ) ) so klein wie möglich ist
• Da Gefahr besteht, dass sich positive und negative Fehler bei der Summenbildung ausgleichen können, wird das Prinzip der kleinsten Quadrate herangezogen, hierbei wird die Summe der Vorhersagefehler quadriert
Erläutern Sie die Vor- und Nachteile der Maximum Likelihood Schätzung von Parametern.
= parametrisches Schätzverfahren, mit dem man die Parameter der Grundgesamtheit aus der Stichprobe schätzt. Zudem ist es das grundlegendste Verfahren zur Konstruktion von Schätzern und beruht auf dem Prinzip der Plausibilität. Die Idee des Verfahrens ist es, als Schätzwerte für die wahren Parameter der Grundgesamtheit diejenigen auszuwählen, unter denen die beobachteten Stichprobenrealisationen am wahrscheinlichsten sind, also die Plausibilität am höchsten ist.
_____________________________________________________________________________________________________________________
✅ VORTEILE:
• ist einfach zu berechnen & zu interpretieren
• ist oft konsistent (Schätzungen werden mit zunehmender Stichprobengröße genauer)
• ist asymptotisch effizient (eignet sich für große Stichprobenumfänge)
• ist asymptotisch normalverteilt
⛔️ NACHTEILE:
• erfordert Kenntnis über Verteilung der Daten
• Maximum-Likelihood-Schätzer können Effizienzprobleme und systematische Fehler in kleinen Stichproben aufweisen.
• kann empfindlich auf Ausreißer reagieren, was die Schätzungen beeinflussen kann
Was besagt das 95% Konfidenzintervall (KT) für einen Regressionsparameter Beta?
= ein Intervall, das anhand von Stichprobendaten aus einer unendlichen Reihe berechnet wird, von denen 95 % den Populationsparameter enthalten
• Das 95% Konfidenzintervall für einen Regressionsparameter (z.B. Beta) gibt also an, mit welcher Wahrscheinlichkeit der wahre Wert des Parameters innerhalb eines bestimmten Bereichs liegt.
• Im Falle von Beta (ß) bezieht sich das Konfidenzintervall auf den Schätzwert des Regressionsparameters, der die Abhängigkeit zwischen einer unabhängigen Variablen und einer abhängigen Variablen beschreibt.
• Das Konfidenzintervall gibt also eine Schätzung des Bereichs, in dem der wahre Wert von ß mit einer gewissen Wahrscheinlichkeit liegt.
Definieren Sie Kreuzvalidierung, was ist das Ziel?
Definition:
• Die Kreuzvalidierung ist eine Methode, welche dazu dient, die Generalisierbarkeit der Regressionsgleichung zu überprüfen. Sie dient der Überprüfung der externen Validität.
_____________________________________________________________________________________________________________________
Durchführung:
- Validierung entweder bei zwei natürlich vorliegenden Stichproben oder künstliche Unterteilung einer Stichprobe in zwei Teilstichproben
- Berechnung einer Regressionsgleichung anhand der Daten der ersten Stichprobe
- Die ermittele Regressionsgleichung wird angewendet, um die Werte der zweiten Stichprobe vorherzusagen
- Der geschätzte Wert wird mit dem wahren Kriteriumswert in der zweiten Stichprobe verglichen (sind beide Korrelationskoeffizienten sehr ähnlich, gilt Regressionsgleichung als valide)
- Eine vollständige Kreuzvalidierung erfordert, dass diese drei Schritte noch einmal „über Kreuz“ durchgeführt werden, d.h., dass umgekehrt von der zweiten Stichprobe auf die erste Stichprobe geschlossen wird
- Ergebnis einer vollständigen Kreuzvalidierung sind somit zwei Regressionsgleichungen
_________________________________________________________________________________________________________________
Ziel:
• Verbesserung der externen Validität der Studie
• Kontrolle einer Stichprobenabhängigkeit: da die gefunden Korrelationskoeffizienten von der zufälligen Zusammensetzung der Stichprobe abhängen
Regressionseffekt mit Beispiel aus psychologischem Kontext erklären.
Definition: Regressionseffekt beschreibt eine Tendenz von Extremwerten zur Mitte (wenn Personen in der ersten Messung extrem hohe/niedrige Merkmalsausprägungen hatten, ist es wahrscheinlicher, dass extreme Merkmalsausprägungen bei wiederholter Messung in Richtung Mittelwert tendieren)
• Anwendung bei Messwiederholungen/Arbeit mit Extremgruppen
_______________________________________________________________________________________________________________________
Beispiel Psychotherapie: da hauptsächlich akut stark belastete Personen (Extremgruppen) die Hilfe eines Therapeuten suchen, ist die Wahrscheinlichkeit hoch, dass es ihnen nach der Therapie besser geht (Tendenz zum Mittelwert nach wiederholter Messung)
In einem Wahrnehmungsexperiment soll die Reaktionszeit der Teilnehmer aus den in einem Intelligenztest erhobenen IQ Werten vorhergesagt werden. Bei der Planung der Studie überlegen Forscher, ob sie nur Studierende oder Querschnitt der Bevölkerung rekrutieren sollen.
Welcher Effekt auf den Standartschätzfehler ist durch die unterschiedliche Stichprobenwahl zu erwarten? Welche Effekte ergeben sich außerdem?
Studierende:
• Gefahr eines “Restriction of Range” Effekts (der IQ-Wert der Studierenden im Vergleich zur allgemeinen Bevölkerung ist begrenzt, was zu einer Verzerrung der Ergebnisse führen kann)
• künstliche Einschränkung des Merkmals hat zur Folge, dass die berechnete Korrelation in der Stichprobe sinkt und dadurch die Korrelation in der Population unterschätzt wird (Je stärker die Einschränkung der Merkmalsstreuung, desto größer ist die Unterschätzung der Populationskorrelation)
• Auswirkung auf Standardschätzfehler: Niedrigere Variabilität der IQ Werte = höherer Standartschätzfehler
_________________________________________________
Querschnitt der Bevölkerung:
• Variabilität der IQ-Werte größer = geringerer Standardschätzfehler
• Höhere Repräsentativität der Ergebnisse durch größere Vielfalt von Teilnehmern
• Nachteil: entdecken signifikanter Unterschiede ist bei heterogenen Merkmalsverteilungen/Stichproben schwieriger ist als bei homogenen Gruppen (Studenten)
_________________________________________________
Um einen möglichst geringen Standardschätzfehler und eine möglichst hohe Repräsentativität der Ergebnisse zu erreichen, wäre es am besten, einen Querschnitt der Bevölkerung in die Studie einzubeziehen.
Was versteht man unter einem Prädiktor und Kriterium
In der statistischen Analyse unterscheidet man zwischen einem Prädiktor (unabhängige Variable X oder Inputvariable) und einem Kriterium (abhängige Variable Y oder Outputvariable).
• Prädiktor = eine Variable, die verwendet wird, um die Werte des Kriteriums vorherzusagen
• Kriterium = die Variable, die vorhergesagt werden soll.
Demnach wird die Abhängige Variable durch die unabhängige Variable beeinflusst/erklärt.