Statistik für Fortgeschrittene Flashcards

1
Q

Erklären Sie den Begriff Residuen im Rahmen der linearen Regressionsanalyse und setzen Sie ihn in Bezug zur Methode der kleinsten Quadrate

A
  • Ein Residuum ist die Abweichung eines vorhergesagten Wertes vom tatsächlich beobachteten Wert in der linearen Regressionsanalyse.
  • Indem die Residuen minimiert werden, wird das Modell optimiert und es können genauere Vorhersagen getroffen werden.
    -> Für die Optimierung nutzt man die Methode der kleinsten Quadrate
  • Da diejenige Regressionsgerade gesucht werden soll, bei der die Abweichungen vom gemessenen Wert zum Schätzwert minimal werden, können sich positive und negative Differenzen aufaddieren.
  • Um dieses Problem zu vermeiden, geht die Methode der kleinsten Quadrate von quadrierten Abstandswerten aus.
  • Damit wird einerseits erreicht, dass negative und positive Abweichungen von Mess- und Schätzwerten gleichermaßen für die Ermittlung der Regressionsgeraden herangezogen werden.
  • Andererseits werden große Abweichungen durch die quadratische Einbeziehung stärker berücksichtigt, so dass sich die Regressionsgerade besser an Extremwerte anpasst.
  • Hieraus resultiert jedoch auch eine gewisse Anfälligkeit der Methode gegenüber Ausreißern.
  • Mit der Methode der kleinsten Quadrate wird also diejenige Regressionsgerade gesucht, bei der die Summe der quadrierten Abweichungen der Messwerte von den Schätzwerten auf der Gerade minimal wird.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Koeffizienten interpretieren

A
  • b0 ist der Wert des Kriteriums, wenn alle anderen Prädiktoren Null sind (Nulldurchgang)
    -> Der Achsenabschnitt b0 ist der vorhergesagte Wert für Y, wenn X den Wert 0 annimmt
  • b1 ist die Steigung des Regressionskoeffizienten, wenn dieser um eine Einheit zunimmt. Dieser Wert hebt den Y Wert um b-Einheiten an, wenn alle anderen Prädiktoren konstant sind.
    -> Das Regressionsgewicht b1 drückt aus, welche Veränderungen man in Y erwartet, wenn X um eine Einheit erhöht wird. Es ist damit ein Maß für den Zusammenhang zwischen X und Y
  • z. B.: Motivation = 13.82 + .29 · Leistungsstreben > eine Erhöhung der Variablen Leistungsstreben um einen Punkt führt demnach zu einer durchschnittlichen Motivationssteigerung von 0.29, bei einem Probanden mit einem (theoretischen) Wert des Leistungsstrebens von Null würde sich als Schätzwert für die Motivation der Wert 13.82 ergeben.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

In einem Supermarkt wird die Auswirkung der Lautstärke der Hintergrundmusik auf das Kaufverhalten untersucht. Gegeben ist ein Streudiagramm mit der Dezibelzahl auf der x-Achse und der Kaufwahrscheinlichkeit in Prozent auf der y-Achse. Ganz grob beschrieben: Bei 0 Dezibel war die Kaufwahrscheinlichkeit ca. 100 Prozent und bei ca. 120 Dezibel ist die Wahrscheinlichkeit bis auf 0 % gefallen.

a) Welchen Wert nimmt Y an, wenn X = 150 Dezibel?

b) Beschreiben Sie, wo das Problem bei der Interpretation liegt.

A

a) Welchen Wert nimmt Y an, wenn X = 150 Dezibel?

  • Pi(X/Y) = (Prädiktor/Kriterium) = (Dezibel/Kaufwahrscheinlichkeit)
  • P1(0/100): x = 0 / y = 100
  • P2(120/0): x = 120 / y = 0
  1. Schritt: Intercept (b0 bei x = 0 ermitteln)
    * Punkt P1 einsetzen in lineare Gleichung
    * y = b0 + b1 * x
    * 100 = b0 + b1 * 0
    * 100 = b0 + 0
    * 100 = b0
  2. Schritt: Steigung (b1 bei y = 0 ermitteln)
    * Punkt P2 und b0 in lineare Gleichung einsetzen
    * y = b0 + b1 * x
    * 0 = 100 + b1 * 120 (beidseitig -100)
    * -100 = b1 * 120 (beidseitig :120)
    * -100/120 = b1 * 1
    * -0.83 = b1
  3. Schritt: Regressionsgleichung aufstellen
    * Y = 100 + (-0,83) * x
  4. Schritt: Zu analysierenden Wert für Prädiktor (x = 150) in die Gleichung aufnehmen
    * Einsetzen für x = 150: y = 100 + (-0,83) * 150 = -25
    * Y(150) = - 25

b) Beschreiben Sie, wo das Problem bei der Interpretation liegt.
* Da das Kaufverhalten der Kunden bereits bei 120 Dezibel einen Wert von null Prozent erreicht hat, kann das Kaufverhalten nicht weiter sinken.
* Das bedeutet unabhängig der stetig steigenden Lautstärke werden nicht weniger als keine Kunden kommen.
* Ab 120 Dezibel kommen keine Kunden mehr in den Markt, es kommen aber auch keine Kunden mehr in den Markt, wenn die Lautstärke höher ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Residuenplot (Dokument S. 7)

Die Achse „Fitted:x“ des Resiudenplots kennzeichnet die vorhergesagten Werte. Welche Schlussfolgerungen ziehen Sie in Bezug auf die Gültigkeit der Annahmen der Regressionsanalyse in diesem Anwendungsfall? Welche Annahmen werden verletzt sein? Warum?

A
  1. Annahme der Homoskedastizität verletzt
    o Die bedingte Varianz der Residuen ist im Bereich negativer gefitteter Werte größer als im Bereich positiver gefitteter Werte.
    o Die Varianz der Werte ist uneinheitlich.
  2. Linearitätsannahme verletzt, da die Residuen nicht unsystematisch um den Wert 0 schwanken, sondern ein kurvenlineares Muster aufweisen.
    o Die Werte verlaufen nicht linear, sondern kurvenförmig
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Stellen Sie die allgemeine Formel zur Bestimmung des linearen Zusammenhangs zwischen einem selbstgewählten Prädiktor und einem Kriterium auf.
Definieren Sie die einzelnen Parameter und Kenngrößen der Gleichung.

A

yi = b0 + b1 · xi + ei (i = 1,…,n)

yi: Wert der Kriteriumsvariablen Y des i-ten Probanden
xi: Wert der Prädiktorvariablen X des i-ten Probanden
ei: Residuum des i-ten Probanden
b0, b1: Regressionskoeffizienten
n: Anzahl der Probanden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sagt das Bestimmtheitsmaß R2 in der linearen Regressionsanalyse aus?

A
  • Der Determinationskoeffizient R2 gibt den Anteil der durch das lineare Regressionsmodell aufgeklärten Varianz der abhängigen Variable an.
  • Er kann Werte von 0 – 1 annehmen.
  • Ein hoher R2-Wert spricht für hohe Varianzaufklärung und damit für ein gutes Modell zur Erklärung der abhängigen Variable.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

aufgeklärte Varianz ablesen / R² ablesen und Bedeutung aufschreiben

A
  • Output-Block V > Multiple R-squared = 0.3128 = quadrierter (multipler) Korrelationskoeffizient = R2
  • Dieses Bestimmtheitsmaß gibt den Varianzanteil von Y an, der durch X aufgeklärt wird
  • die Varianz der Variablen Y kann somit zu 31% durch die Prädiktorvariable X aufgeklärt werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Beurteilung der globalen Güte der Regression

A
  • Die zentrale Größe zur Beurteilung der globalen Güte einer Regression ist das Bestimmtheitsmaß r².
  • Zur statistischen Absicherung der Signifikanz des Bestimmtheitsmaßes (Nullhypothese H0: r2 = 0) wird in SPSS ein F-Test durchgeführt mit der Prüfstatistik
  • Eine nichtsignifikante Prüfgröße würde zu dem Ergebnis führen, dass die unabhängige Variable keine statistisch nachweisbare Beziehung zur abhängigen Variablen hat.
  • Damit könnte nicht gezeigt werden, dass die Prädiktorvariable zur Erklärung der Varianz der Kriteriumsvariablen geeignet sein könnte.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Prüfstatistik in der lin. Regression

A
  • läuft über Bestimmtheitsmaß und F-Wert

o Mithilfe einer ANOVA kann überprüft werden, ob sich das Bestimmtheitsmaß R2 signifikant von 0 unterscheidet.
o In unserem R-Output sind die Ergebnisse der Analyse mit F-Wert, Freiheitsgraden und p-Wert angegeben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sagt der F-Wert in der linearen Regressionsanalyse aus? (Interpretation)

A
  • Zur statistischen Absicherung der Signifikanz des Bestimmtheitsmaßes wird ein F-Test durchgeführt.
  • Wenn der F-Test nicht signifikant ist, hat die UV keine statistisch nachweisbare Beziehung zur AV.
  • Der F-Wert kann beliebige Werte annehmen, dabei gilt: Je höher der F-Wert, desto besser ist das Modell und desto mehr Varianz der abhängigen Variable kann aufgeklärt werden.
  • Ein hoher F-Wert geht automatisch mit einem hohen Wert des Bestimmtheitsmasses R2 einher.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Prüfung der Regressionskoeffizienten

A
  • Unter Verwendung des Standardfehlers lässt sich ein Test des Regressionskoeffizienten angeben
  • Der Wert ist bei Gültigkeit der H0: b = b* bzw. der H0: b = 0 Realisierung einer mit n − k − 1 Freiheitsgraden t-verteilten Teststatistik.
  • Äquivalent zum t-Test ist die Angabe von Konfidenzintervallen für die Regressionskoeffizienten möglich.
  • Konfidenzintervall = Bereich eines Parameters
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

R-Output mit odds Ratio AK-Frage zu einer Studie ob menschen mit Panikattacken höhere Chancen haben eine Depression zu bekommen. Aus 6 MC aussagen musste man eine wählen (die MC aussagen haben sich alle um die OR gedreht).
Erklären ob der test zu einem signifikanten Ergebnis kommt.

A
  • Odds Ratios werden mit Konfidenzintervallen (lower / upper angegeben)
  • Wenn Odds Ratio = 1 -> Veränderung von 1 auf Prädiktor, verändert sich nichts

-> NUR BEI SIGNIFIKANTEN ERGEBNISSEN! (bei anderen erhöht sich auch Chance für Erkrankung, aber ist halt nicht signifikant)
- Odds Ratios z.B. 5.12 (Erblich Vorbelastet), dann: wenn erblich vorbelastet, dass ist die Chance selbst Krankheit zu entwickeln um das 5,12-fache erhöht (oder 412%)
-> Pro Punkt erblich vorbelastet steigt Chance um 412%

-> auch pro Punkt Alter steigt Chance um 51,7% (trotzdem nicht signifikant)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Screeplot (sah sehr uneindeutig aus)war gegeben und man musste angeben wieviele faktoren in die Faktorenanalyse aufgenommen werden.

Danach wieviele nach dem kaiser Guttmann kriterium aufgenommen werden.

Screenplot Kaiser Gutmann Kriterium (wie viele Faktoren) - auswählen?

A
  • Anzahl der Faktoren vor dem Knick -> also da, wo Verlauf den Umbruch hat
    -> Faktoren ohne Knick “Ellebogen”
  • Nach Kaiser-Guttmann-Kriterium nur Faktoren mit Eigenwert größer 1 verwenden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Aufgabe mit der 2x2 Tabelle mit den Mann/Frau und English/Mathe + Balkendiagramm.
Man sollte die angegeben Daten auf die möglichen Effekte einer ANOVA (ich vermute Haupt-/interaktionseffekt) hin interpretieren.

Ergebnismuster zur 2-faktoriellen ANOVA, gegeben war Tabelle
(2x2 Design, und Balkendiagramm (wenig TV/viel TV vs. Englisch / Mathematik)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

R-Output Lineare Regression

3.1. Aufgabe
(1 Punkt) verbal
Welcher Anteil der Variable Leistungsfähigkeit kann durch alle Prädiktoren gemeinsam aufgeklärt werden?

3.2 Aufgabe
(5 Punkte) verbal
Regressionsgleichungleichung aufstellen.

3.3. Aufgabe
(2 Punkte) verbal
Welche Prädiktoren sind signifikant bei Alpha-Niveau 5%?

A

3.3 signifikante Prädiktoren:
- wenn Pr t / z / … kleiner als 0.05 ist, haben wir ein signifikantes Ergebnis#
-> wie wahrscheinlich ist es, dass ein solcher oder extremerer t/z/…-Wert zufällig auftritt, wenn Parameter Estimate = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Aus Abbildung Begriffe zuordnen: Messmodell, Strukturmodell, exogene / endogene latente Variable

-Endogene und Exogene Variablen: hier in Grafik alles angeben mit Messmodellen/ Strukturmodell und dann in MC danach sagen ob Pfeile aus Regression oder Faktorenanalysesind

A
  • Messmodell: Definiert Beziehung zwischen latenten und beobachtbaren Variablen

Beispiel FLB 4 S.55: + ANKI IIII - 2,1 S.26

> Angebot (Lehrangebot, Zusatzangebot (oben)) = Messmodell für erste endogene latente Variable
Freiheitsgrade (Auswahl, Ablauf (oben)) = Messmodell für zweite exogene latente Variable
Zufriedenheit (Studienfach, Universität (unten)) = Messmodell für endogene latente Variable
Strukturmodell (Angebot, Freiheitsgrade, Zufriedenheit) = Strukturmodell für latente Variablen

17
Q

Interpretation lineare Regression

A
  • Achsenabschnitt: Repräsentiert Erwartungswert, wenn alle Prädiktoren = 0
  • andere Parameter: Veränderung des geschätzten Erwartungswertes, wenn sich diese Variable um 1 verändert