2. Lineare Regression Flashcards

Question 1

Q

Was ist die lineare Regression?

Answer

A

• relevanteste Form der Regressionsanalyse, untersucht einen linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen

• erlaubt also Vorhersagen von Werten der AV (Y) mit Hilfe einer UV (X) und gibt Aufschluss darüber, wie sich der Wert der abhängigen Variablen ändert, wenn die unabhängige Variable geändert wird

❗️abhängige Variable: (AV) soll vorhergesagt werden: auch Kriterium/Y

❗️unabhängige Variable: (UV) wird zur Vorhersage herangezogen: auch Prädikator/X

Question 2

Q

Voraussetzung lineare Regression

Answer

A

Intervallskalenniveau der abhängigen Variablen
Linearität/Normalverteilung von Prädiktor und Kriterium:Beschreibung der Beziehung zwischen Prädiktor und Kriterium durch eine Regressionsgerade
Homoskedastizität: Gleich große Varianz der Fehler (Varianzhomogenität), d.h. mit steigenden Werten der UV sollten die Werte der AV nicht weiter streuen
Abwesenheit von Ausreißern und einflussreichen Beobachtungen: Einflussreiche Beobachtungen beeinflussen in besonderem Maße die Schätzung der Statistiken der linearen Regression (z.B. Regressionskoeffizient, Fehlervarianz, Standardschätzfehler).
Unabhängigkeit und Normalverteilung der Regressionsresiduen

Question 3

Q

Welche der folgenden Aussagen zur Regression sind korrekt?

a) eine Voraussetzung der linearen Regression ist, dass keine Homodaskezität vorliegen darf

b) Je größer die Streuung des Kriteriums, desto größer ist der Standartschätzfehler

c) Standartfehler kann als die Streuung der tatsächlichen y-Werte um die Regressionsgerade aufgefasst werden

d) Je größer die Korrelation zwischen Prädiktor und Kriterium, desto kleiner Standardschätzfehler

e) Die abhängige Variable in der Regression wird Prädiktor genannt

Answer

A

a) falsch, Homodaskezität muss vorliegen

b) richtig

c) falsch, Merkmal des Standartschätzfehlers

d) richtig

e) falsch, Prädiktor ist unabhängig

Question 4

Q

Erläutern Sie das Prinzip der kleinste Quadrate Schätzung.

Answer

A

= Methode zur Schätzung der Parameter in linearen Regressionen durch:

• Bestimmung des Regressionskoeffizienten b und der additiven Konstante a immer so, dass der Vorhersagefehler minimal ist

• Versuch, den Fehler bei der Schätzung so gering wie möglich zu halten, dass der Abstand zwischen geschätztem y-Wert und wahrem y-Wert (Residuum bezeichnet ( ei = yi — ŷ) ) so klein wie möglich ist

• Gefahr, dass sich positive und negative Fehler bei der Summenbildung ausgleichen können: es wird das Prinzip der kleinsten Quadrate herangezogen, hierbei wird die Summe der Vorhersagefehler quadriert

Question 5

Q

Erläutern Sie die Vor- und Nachteile der Maximum Likelihood Schätzung von Parametern.

Answer

A

= parametrisches Schätzverfahren, mit dem man die Parameter der Grundgesamtheit aus der Stichprobe schätzt. Zudem ist es das grundlegendste Verfahren zur Konstruktion von Schätzern und beruht auf dem Prinzip der Plausibilität. Die Idee des Verfahrens ist es, als Schätzwerte für die wahren Parameter der Grundgesamtheit diejenigen auszuwählen, unter denen die beobachteten Stichprobenrealisationen am wahrscheinlichsten sind, also die Plausibilität am höchsten ist.
_____________________________________________________________________________________________________________________

✅ VORTEILE:

• ist einfach zu berechnen & zu interpretieren

• ist oft konsistent (Schätzungen werden mit zunehmender Stichprobengröße genauer)

• ist asymptotisch effizient (eignet sich für große Stichprobenumfänge)

• ist asymptotisch normalverteilt

⛔️ NACHTEILE:

• erfordert Kenntnis über Verteilung der Daten

• Maximum-Likelihood-Schätzer können Effizienzprobleme und systematische Fehler in kleinen Stichproben aufweisen.

• kann empfindlich auf Ausreißer reagieren, was die Schätzungen beeinflussen kann

Question 6

Q

Was besagt das 95% Konfidenzintervall (KT) für einen Regressionsparameter Beta?

Answer

A

= ein Intervall, das anhand von Stichprobendaten aus einer unendlichen Reihe berechnet wird, von denen 95 % den Populationsparameter enthalten

• Das 95% Konfidenzintervall für einen Regressionsparameter (hier ß) gibt also an, mit welcher Wahrscheinlichkeit der wahre Wert des Parameters (hier ß) innerhalb eines bestimmten Bereichs liegt

• Im Falle von Beta (ß) bezieht sich das Konfidenzintervall auf den Schätzwert des Regressionsparameters, der die Abhängigkeit zwischen einer unabhängigen Variablen und einer abhängigen Variablen beschreibt

Question 7

Q

Definieren Sie Kreuzvalidierung, was ist das Ziel?

Answer

A

Definition:

• Die Kreuzvalidierung ist eine Methode, welche dazu dient, die Generalisierbarkeit der Regressionsgleichung zu überprüfen. Sie dient der Überprüfung der externen Validität.
_____________________________________________________________________________________________________________________

Durchführung:

Validierung entweder bei zwei natürlich vorliegenden Stichproben oder künstliche Unterteilung einer Stichprobe in zwei Teilstichproben
Berechnung einer Regressionsgleichung anhand der Daten der ersten Stichprobe
Die ermittele Regressionsgleichung wird angewendet, um die Werte der zweiten Stichprobe vorherzusagen
Der geschätzte Wert wird mit dem wahren Kriteriumswert in der zweiten Stichprobe verglichen (sind beide Korrelationskoeffizienten sehr ähnlich, gilt Regressionsgleichung als valide)
Eine vollständige Kreuzvalidierung erfordert, dass diese drei Schritte noch einmal „über Kreuz“ durchgeführt werden, d.h., dass umgekehrt von der zweiten Stichprobe auf die erste Stichprobe geschlossen wird
Ergebnis einer vollständigen Kreuzvalidierung sind somit zwei Regressionsgleichungen
_________________________________________________________________________________________________________________

Ziel:

• Verbesserung der externen Validität der Studie

• Kontrolle einer Stichprobenabhängigkeit: da die gefunden Korrelationskoeffizienten von der zufälligen Zusammensetzung der Stichprobe abhängen

Question 8

Q

Regressionseffekt mit Beispiel aus psychologischem Kontext erklären.

Answer

A

Definition: Regressionseffekt beschreibt eine Tendenz von Extremwerten zur Mitte (wenn Personen in der ersten Messung extrem hohe/niedrige Merkmalsausprägungen hatten, ist es wahrscheinlicher, dass extreme Merkmalsausprägungen bei wiederholter Messung in Richtung Mittelwert tendieren)

• Anwendung bei Messwiederholungen/Arbeit mit Extremgruppen
_______________________________________________________________________________________________________________________

Beispiel Psychotherapie: da hauptsächlich akut stark belastete Personen (Extremgruppen) die Hilfe eines Therapeuten suchen, ist die Wahrscheinlichkeit hoch, dass es ihnen nach der Therapie besser geht (Tendenz zum Mittelwert nach wiederholter Messung)

Question 9

Q

In einem Wahrnehmungsexperiment soll die Reaktionszeit der Teilnehmer aus den in einem Intelligenztest erhobenen IQ Werten vorhergesagt werden. Bei der Planung der Studie überlegen Forscher, ob sie nur Studierende oder Querschnitt der Bevölkerung rekrutieren sollen.

Welcher Effekt auf den Standartschätzfehler ist durch die unterschiedliche Stichprobenwahl zu erwarten? Welche Effekte ergeben sich außerdem?

Answer

A

Um einen möglichst geringen Standardschätzfehler und eine möglichst hohe Repräsentativität der Ergebnisse zu erreichen, wäre es am besten, einen Querschnitt der Bevölkerung in die Studie einzubeziehen.

Bei Studenten:

Einschränkung der Varianz der IQ Werte (Restriction of Range Effekt), da Studierende oft in einem höheren IQ Bereich liegen, als allgemeine Bevölkerung
Standartschätzfehler wird größer, weil die geringere Varianz der unabhängigen Variable (IQ) dazu führt, dass Korrelation zwischen IQ und Reaktionszeit unterschätzt wird, was zu falschen Schlussfolgerungen führen kann
Einschränkung der Generalisierbarkeit (externe. Validität), da Ergebnisse nicht auf Gesamtpopulation übertragen werden können, da Stichprobe nicht repräsentativ
Vorhersagekraft wird eingeschränkt

+ Homogenität der Stichprobe erhöht interne Validität der Studie, einfachere und klarere Interpretation der Effekte, allerdings nur bei Fokus auf spezifische Zielgruppe

Bei Querschnitt:

Stichprobe bildet Gesamtpopulation besser ab, deshalb bessere Generalisierbarkeit und geringerer Standartschätzfehler

Question 10

Q

Was versteht man unter einem Prädiktor und Kriterium

Answer

A

In der statistischen Analyse unterscheidet man zwischen einem Prädiktor (unabhängige Variable X oder Inputvariable) und einem Kriterium (abhängige Variable Y oder Outputvariable).

• Prädiktor = eine Variable, die verwendet wird, um die Werte des Kriteriums vorherzusagen

• Kriterium = die Variable, die vorhergesagt werden soll.

Demnach wird die Abhängige Variable durch die unabhängige Variable beeinflusst/erklärt.

2. Lineare Regression Flashcards

(10 cards)