2. Lineare Regression Flashcards

1
Q

Was ist die lineare Regression?

A

• relevanteste Form der Regressionsanalyse

• untersucht einen linearen Zusammenhang zwischen abhängigen/unabhängigen Variablen

• Variable, die vorhergesagt werden soll: abhängige Variable (AV)/Kriterium/Y

• Variable, welche zur Vorhersage herangezogen wird: unabhängige Variable (UV)/Prädikator/X

• Regressionsanalyse erlaubt also Vorhersagen von Werten der abhängigen Variablen Y mit Hilfe einer unabhängigen Variablen X und gibt Aufschluss darüber, wie sich der Wert der abhängigen Variablen ändert, wenn die unabhängige Variable geändert wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Voraussetzung lineare Regression

A
  1. Intervallskalenniveau der abhängigen Variablen
  2. Linearität: die Beziehung zwischen Prädiktor und Kriterium lässt sich durch eine Regressionsgerade beschreiben (grafische Prüfung durch optische Inspektion des Streudiagramms bzw. Residualplots).
  3. Homoskedastizität: Gleich große Varianz fet Fehler (Varianzhomogenität), d.h. mit steigenden Werten der unabhängigen Variablen (x) sollen die Werte der AV nicht weiter streuen.
  4. Abwesenheit von Ausreißern und einflussreichen Beobachtunge: Prüfung untypischer Datenpunkte, da sie die Lage der Regressionsgeraden und damit die Regressionsgewichte stark beeinflussen oder häufig auf eine Verletzung der Normalverteilungsannahme deuten. Einflussreiche Beobachtungen beeinflussen in besonderem Maße die Schätzung der Statistiken der linearen Regression (z.B. Regressionskoeffizient, Fehlervarianz, Standardschätzfehler).
  5. Annahme normalverteilter Fehler: visuelle Prüfung mittels Histogramm der Fehlerterme.

a) Prädiktor und Kriterium sind intervallskaliert und normalverteilt

b) Homodaskezität liegt vor

c) die Unabhängigkeit der Regressionsresiduen muss gegeben sein

d) Regressionsresiduen sind normalverteilt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welche der folgenden Aussagen zur Regression sind korrekt?

a) eine Voraussetzung der linearen Regression ist, dass keine Homodaskezität vorliegen darf

b) Je größer die Streuung des Kriteriums, desto größer ist der Standartschätzfehler

c) Standartfehler kann als die Streuung der tatsächlichen y-Werte um die Regressionsgerade aufgefasst werden

d) Je größer die Korrelation zwischen Prädiktor und Kriterium, desto kleiner Standardschätzfehler

e) Die abhängige Variable in der Regression wird Prädiktor genannt

A

a) falsch, Homodaskezität muss vorliegen

b) richtig

c) falsch, Merkmal des Standartschätzfehlers

d) richtig

e) falsch, Prädiktor ist unabhängig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Erläutern Sie das Prinzip der kleinste Quadrate Schätzung.

A

= Methode zur Schätzung der Parameter in linearen Regressionen

• Bestimmung des Regressionskoeffizienten b und der additiven Konstante a immer so, dass der Vorhersagefehler (Residuum) minimal ist

• Es wird somit versucht, den Fehler bei der Schätzung so gering wie möglich zu halten, so dass der Abstand zwischen geschätztem y-Wert und wahrem y-Wert so klein wie möglich ist

• Dieser Abstand oder Fehler wird als Residuum bezeichnet ( ei = yi — ŷ)

• Da Gefahr besteht, dass sich positive und negative Fehler bei der Summenbildung ausgleichen können, wird das Prinzip der kleinsten Quadrate herangezogen

• Hierbei wird die Summe der Vorhersagefehler quadriert. Diese Methode basiert also auf dem Konzept, dass die Summe der quadratischen Abweichungen zwischen den tatsächlichen und vorhergesagten Werten der abhängigen Variablen minimiert wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Erläutern Sie die Vor- und Nachteile der Maximum Likelihood Schätzung von Parametern.

A

= parametrisches Schätzverfahren, mit dem man die Parameter der Grundgesamtheit aus der Stichprobe schätzt. Zudem ist es das grundlegendste Verfahren zur Konstruktion von Schätzern und beruht auf dem Prinzip der Plausibilität. Die Idee des Verfahrens ist es, als Schätzwerte für die wahren Parameter der Grundgesamtheit diejenigen auszuwählen, unter denen die beobachteten Stichprobenrealisationen am wahrscheinlichsten sind, also die Plausibilität am höchsten ist.
_________________________________________________

VORTEILE:

• ist einfach zu berechnen & zu interpretieren

• ist oft konsistent (Schätzungen werden mit zunehmender Stichprobengröße genauer)

• ist asymptotisch effizient (eignet sich für große Stichprobenumfänge)

• ist asymptotisch normalverteilt

NACHTEILE:

• erfordert Kenntnis über Verteilung der Daten: Daher müssen Schätzungen anhand von Annahme über die gesamte Verteilung der Zufallsvariable getroffen werden. Wenn diese jedoch verletzt ist, kann es sein, dass die Maximum-likelihood-Schätzer inkonsistent sind.

• Maximum-Likelihood-Schätzer können Effizienzprobleme und systematische Fehler in kleinen Stichproben aufweisen.

• kann empfindlich auf Ausreißer reagieren, was die Schätzungen beeinflussen kann

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was besagt das 95% Konfidenzintervall (KT) für einen Regressionsparameter Beta?

A

= ein Intervall, das anhand von Stichprobendaten aus einer unendlichen Reihe berechnet wird, von denen 95 % den Populationsparameter enthalten

• Das 95% Konfidenzintervall für einen Regressionsparameter (z.B. Beta) gibt also an, mit welcher Wahrscheinlichkeit der wahre Wert des Parameters innerhalb eines bestimmten Bereichs liegt.

• Im Falle von Beta (ß) bezieht sich das Konfidenzintervall auf den Schätzwert des Regressionsparameters, der die Abhängigkeit zwischen einer unabhängigen Variablen und einer abhängigen Variablen beschreibt.

• Das Konfidenzintervall gibt also eine Schätzung des Bereichs, in dem der wahre Wert von ß mit einer gewissen Wahrscheinlichkeit liegt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definieren Sie Kreuzvalidierung, was ist das Ziel?

A

Definition:

• Die Kreuzvalidierung ist eine Methode, welche dazu dient, die Generalisierbarkeit der Regressionsgleichung zu überprüfen. Sie dient der Überprüfung der externen Validität.
_________________________________________________

Durchführung:

  1. Validierung entweder bei zwei natürlich vorliegenden Stichproben oder künstliche Unterteilung einer Stichprobe in zwei Teilstichproben
  2. Berechnung einer Regressionsgleichung anhand der Daten der ersten Stichprobe
  3. Die ermittele Regressionsgleichung wird angewendet, um die Werte der zweiten Stichprobe vorherzusagen
  4. Der geschätzte Wert wird mit dem wahren Kriteriumswert in der zweiten Stichprobe verglichen (sind beide Korrelationskoeffizienten sehr ähnlich, gilt Regressionsgleichung als valide)
  5. Eine vollständige Kreuzvalidierung erfordert, dass diese drei Schritte noch einmal „über Kreuz“ durchgeführt werden, d.h., dass umgekehrt von der zweiten Stichprobe auf die erste Stichprobe geschlossen wird
  6. Ergebnis einer vollständigen Kreuzvalidierung sind somit zwei Regressionsgleichungen
    _________________________________________________

Ziel:

• Verbesserung der externen Validität der Studie

• Kontrolle einer Stichprobenabhängigkeit: da die gefunden Korrelationskoeffizienten von der zufälligen Zusammensetzung der Stichprobe abhängen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Regressionseffekt mit Beispiel aus psychologischem Kontext erklären.

A

Definition:

• Regressionseffekt beschreibt eine Tendenz von Extremwerten zur Mitte (wenn Personen in der ersten Messung extrem hohe/niedrige Merkmalsausprägungen hatten, ist es wahrscheinlicher, dass extreme Merkmalsausprägungen bei wiederholter Messung in Richtung Mittelwert tendieren)

• Anwendung bei Messwiederholungen/Arbeit mit Extremgruppen
_________________________________________________

Beispiel Psychotherapie: da hauptsächlich akut stark belastete Personen (Extremgruppen) die Hilfe eines Therapeuten suchen, ist die Wahrscheinlichkeit hoch, dass es ihnen nach der Therapie besser geht (Tendenz zum Mittelwert nach wiederholter Messung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

In einem Wahrnehmungsexperiment soll die Reaktionszeit der Teilnehmer aus den in einem Intelligenztest erhobenen IQ Werten vorhergesagt werden. Bei der Planung der Studie überlegen Forscher, ob sie nur Studierende oder Querschnitt der Bevölkerung rekrutieren sollen.

Welcher Effekt auf den Standartschätzfehler ist durch die unterschiedliche Stichprobenwahl zu erwarten? Welche Effekte ergeben sich außerdem?

A

Studierende:

• Gefahr eines “Restriction of Range” Effekts (der IQ-Wert der Studierenden im Vergleich zur allgemeinen Bevölkerung ist begrenzt, was zu einer Verzerrung der Ergebnisse führen kann)

• künstliche Einschränkung des Merkmals hat zur Folge, dass die berechnete Korrelation in der Stichprobe sinkt und dadurch die Korrelation in der Population unterschätzt wird (Je stärker die Einschränkung der Merkmalsstreuung, desto größer ist die Unterschätzung der Populationskorrelation)

• Auswirkung auf Standardschätzfehler: Niedrigere Variabilität der IQ Werte = höherer Standartschätzfehler
_________________________________________________

Querschnitt der Bevölkerung:

• Variabilität der IQ-Werte größer = geringerer Standardschätzfehler

• Höhere Repräsentativität der Ergebnisse durch größere Vielfalt von Teilnehmern

• Nachteil: entdecken signifikanter Unterschiede ist bei heterogenen Merkmalsverteilungen/Stichproben schwieriger ist als bei homogenen Gruppen (Studenten)
_________________________________________________

Um einen möglichst geringen Standardschätzfehler und eine möglichst hohe Repräsentativität der Ergebnisse zu erreichen, wäre es am besten, einen Querschnitt der Bevölkerung in die Studie einzubeziehen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was versteht man unter einem Prädiktor und Kriterium

A

In der statistischen Analyse unterscheidet man zwischen einem Prädiktor (unabhängige Variable X oder Inputvariable) und einem Kriterium (abhängige Variable Y oder Outputvariable).

• Prädiktor = eine Variable, die verwendet wird, um die Werte des Kriteriums vorherzusagen

• Kriterium = die Variable, die vorhergesagt werden soll.

Demnach wird die Abhängige Variable durch die unabhängige Variable beeinflusst/erklärt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly