WS: Regression Flashcards

1
Q

Was ist Pseudo R² und wie interpretiert man es?

A
  • Gibt Auskunft über die Güte einer logistischen Modellschätzung
  • Pseudo-R²-Werte basieren auf Vergleich zwischen den Log-Likelihood-Werten der ersten Iteration (= Null-Modell) und letzten Iteration (= beste Modellschätzung)
  • Werte zwischen 0,2-0,4 gelten schon als hoch
  • Interpretation: Ein Pseudo R²-Wert von 0,2 sagt aus, dass sich der Schätzerfolg des Modells bzw. des letzten Iterationsschritts im Vergleich zum Nullmodell durch die Hinzunahme der UVs um 20% verbessert.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

A
  • Auch: Determinationskoeffizient R²
  • [0;1]
  • 0,6 - 0,8 gilt als gut
  • R² besagt, dass die UV “Lernen” … % (R²· 100) der Varianz der AV “Klausurerfolg” linear erklärt bzw. determiniert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Lagemaße - Modus

Bedeutung
Skalenniveau
Berechnung

A
  • Die Merkmalsausprägung, die am häufigsten vorkommt
  • Nominal, ordinal und metrisch
  • Ablesen der Kategorie mit dem höchsten Wert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Lagemaße - Mittelwert

Bedeutung
Skalenniveau
Berechnung

A

*Metrisch
* Addition aller Werte und
Division durch die Anzahl
der Zahlen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Lagemaße - Median, Perzentile & Co.

Skalenniveau
Bedeutung
Berechnung

A

*Ordinal, metrisch
*Von der kleinsten zur höchsten Ausprägung die relativen Häufigkeiten
kumulieren, bis der gewünschte Prozentwert überschritten wurde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Streuungsmaße für nominale Daten

A

Keine! Keine Rangordnung, also auch keine sinnvolles Maß für Streuung „um etwas herum“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Streuungsmaße für ordinale und metrische Daten

A

*Range (Spannweite): Differenz zwischen größter und kleinster Merkmalsausprägung, also wo beginnt und wo endet der Wertebereich?

*(Mittlerer) Quartilsabstand: Differenz zwischen drittem und erstem Quartil, also:
In welchem Wertebereich liegen die mittleren 50% der Verteilung?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Streuungsmaße für metrische Daten

A

*Variation: Summe der quadrierten Abweichungen aller Fälle vom Mittelwert (Wert für gesamte Verteilung)

*Varianz: Anschließende Division durch n-1

*Standardabweichung: Wurzel daraus ziehen

*Standardfehler des Mittelwerts: Standardfehler geteilt durch die Wurzel von n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Normalverteilung
* Charakteristika

A
  • Hat eine Glockenform (Gauß-Verteilung)
  • Der Kurvenverlauf ist symmetrisch
  • Mittelwert, Median und Modus sind identisch
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Standardnormalverteilung

A
  • Besondere Form der Normalverteilung
  • Unterschied: Mittelwert = 0 und Standardabweichung = 1
  • 90% der Verteilung liegen im Bereich -1,64s bis +1,64s
  • 95% der Verteilung liegen im Bereich -1,96s bis +1,96s
  • 99% der Verteilung liegen im Bereich -2,58s bis +2,58s
  • 99,9% der Verteilung liegen im Bereich -3,29s bis +3,29s
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Z-Standardisierung

A

NORMIERUNG & ZENTRIERUNG

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Alpha- und Betafehler

A
  • Wahrscheinlichkeit beider Fehlerarten nicht gleichzeitig kontrollierbar
  • Minimierung des Alpha-Fehlers vergrößert Wahrscheinlichkeit des Beta-Fehlers
  • Beta-Fehler sinkt mit steigender Stichprobengröße
  • Alphafehler: Nullhypothese wird fälschlicherweise abgelehnt, obwohl sie wahr ist.
    *Betafehler: Nullhypothese wird fälschlicherweise beibehalten, obwohl sie falsch ist.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Kovarianz
* Skalenniveau
*Erläuterung

A

*Metrische Daten
*Die Kovarianz ist ein statistisches Maß, das die gemeinsame Variation zwischen zwei Variablen misst. Sie gibt an, wie sich diese beiden Variablen gemeinsam verändern.
*Eine positive Kovarianz zeigt an, dass die beiden Variablen tendenziell gemeinsam steigen oder fallen, während eine negative Kovarianz darauf hinweist, dass sie tendenziell in entgegengesetzte Richtungen variieren. Die Kovarianz allein liefert jedoch keine standardisierte Maßeinheit und ist daher schwer zu interpretieren. Sie wird oft in Kombination mit der Varianz verwendet, um den Korrelationskoeffizienten (Korrelation) zu berechnen, der die Stärke und Richtung des linearen Zusammenhangs zwischen den Variablen angibt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Pearsons r
* Wertebereich
* Skalenniveau
* Definition
*Berechnung
*Signifikanz

A
  • [-1;1]
  • Maß, das die Stärke und Richtung des linearen Zusammenhangs zwischen zwei metrischen Variablen beschreibt –> wie wirken sich Veränderungen in einer Variable auf die andere aus?
  • r ergibt sich aus der Standardabweichung der Kovarianz geteilt durch das Produkt der Standardabweichungen von x und y
  • Signifikanztest erfolgt meist über die t-Verteilung (da r selbst nichts über die Sig. aussagt)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Der Chi²-Test

A
  • Mit dem Chi²-Test ermittelt man die statistische Signifikanz der Zusammenhänge zwischen zwei kategorialen Variablen in Form einer Kreuztabelle.
  • Dabei werden die beobachteten Häufigkeiten mit den erwarteten Häufigkeiten verglichen, unter der Annahme, dass die beiden Variablen unabhängig voneinander sind.
  • Ist der berechnete Chi²-Wert signifikant, deutet das auf einen statistisch signifikanten Zusammenhang zwischen den Variablen hin.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Der Chi²-Test
* Vorgehensweise

A

Schritt 1: Berechnung der einzelnen Erwartungswerte (theoretische Verteilung) mithilfe der empirischen Verteilung

Schritt 2: Berechnung der Chi²-Werte für die einzelnen Zellen

Schritt 3: Aufsummieren der einzelnen ausgerechneten Chi² Werte, um den gesamten Chi²-Wert zu erhalten.

Schritt 4: Vergleich des empirischen mit dem theoretischen Chi-Quadrat-Wert
(x²𝑒𝑚𝑝 > 𝜒²𝑡ℎ𝑒𝑜) (4.1. Berechnung df’s 4.2. Vergleich mit Tabelle 4.3. Aussage über Sig. treffen)

17
Q

Cramers V
*Allgemein
*Wertebereich und Bedeutung
* Berechnung

A

*Maß für den Stärke des Zusammenhangs zwischen den kategorialen Variablen, das auf dem Chi²-Test basiert.
* [0;1]
* 0 = kein Zusammenhang
* Ab ca. 0,2 = beachtenswert; ab ca. 0,5 = starker Zusammenhang
* 1 = perfekter Zusammenhang
* Berechnung: Wuzel aus der Division von chi² durch n * das Minimum von i (Zeile) oder j (Spalte)

18
Q

Methode der kleinsten Quadrate // Ordinary Least Square Method

A
19
Q

Regressionsgleichung
*Empirisch
*Geschätzt

A

Empirisch, also beobachteter Wert:
yi = a + b · xi + ei

Geschätzter Wert:
y’i = a + b ∙ xi

20
Q

OLS-Methode

A

Empirische Werte bilden eine Punktewolke. Mit der OLS wird die Regressionsgerade so in die Punktwolke gelegt, dass die Summe der quadrierten Abweichungen (Residuen) minimal, also möglichst klein ist.

21
Q

Residuen
*Definition

A

Differenz aus beobachtetem und dem durch die Regressionsgerade geschätzten Wert.

22
Q

Ausreißer
*Def.
*Problem
*Bedenke

A
  • Definition: Datenpunkt, der besonders weit von der Regressionsgrade entfernt liegt.
  • Problem: Hat deshalb großen Einfluss auf die Ausrichtung der Regressionsgerade, obwohl es nur ein einzelner Messwert ist.
  • Bedenke: Ausreißerwerte tragen auch deshalb besonders viel zur Varianz bei, weil die Abstände quadriert werden!
23
Q

Residuen
* Modellierungsannahmen
*Verletzung erkennbar an
*Wozu führt die Verletzung?

A
  1. Annahme: Normalverteilung: Die Residuen verteilen sich links und rechts von der Modellgeraden wie bei einer Normalverteilung um den Mittelpunkt herum: symmetrisch und mit höherer Verteilungsdichte in der Nähe der Geraden
    Verletzung erkennbar an: Ausreißerwerte (liegen je nach Definition min. 2 bis 4 Standardabweichungen vom Mittelwert entfernt)
  2. Annahme: Homoskedastizität: Die Varianz der Residuen muss für jeden Wert der unabhängigen Variablen gleich sein –> Streuung der Residuen darf nicht von den Variablen des Modells abhängen
    Verletzung erkennbar an: Systematisch-ungleichmäßige Streuung, Bspw. Trichterförmigkeit der Residuen

Probleme der Verletzungen: Schätzparameter werden verzerrt –> ineffiziente Modellschätzung

24
Q

yi

A

Gemessener Wert

25
Q

y’i

A

Bzw. y Dach = Geschätzter Wert

26
Q

Varianzanalyse
*Skalenniveau
*Wofür nutzt man sie?

A
  • AV: metrisch, UV kategorial (auch: dummysiert) –>Wie beeinflussen die verschiedenen Ausprägungen einer UV eine metrische AV?
  • Untersuchung, ob statistisch sign. Unterschiede zwischen den Mittelwerten der Gruppen bestehen und ob durch die Gruppenaufteilung die Varianz der AV erklärt werden kann
27
Q

𝜂2
* Defintion
* Wertebereich
* Interpretation

A
  • Ist, wie 𝑅2, ein Maß für den Anteil der erklärten Varianz an der Gesamtvarianz in der Varianzanalyse
  • [0;1]
    *z.B.: Durch die Aufteilung in die Gruppen können 77% der Varianz der AV erklärt werden.
  • Ein Wert von η² von 0 bedeutet, dass die unabhängige Variable (Gruppenzuordnung) überhaupt keine Erklärung für die Varianz in der abhängigen Variable liefert
28
Q

Varianzanalyse
* Vorgehensweise

A

Schritt 1: Mittelwert der AV berechnen
Schritt 2: Mittelwerte der einzelnen Gruppen der UV berechnen
Schritt 3: Streuungen berechnen (SST, SSE, SSR)
Schritt 4: Varianzaufklärung (𝜂2)
Schritt 5: Signifikanz (t- bzw. F-Test)

29
Q

Standardisierter Koeffizient Beta
* Warum wird b standardisiert?
* Wertebereich
* Worauf achten?

A
  • In der multiplen Regressionsanalyse werden die Regressionskoeff. “b“ durch die verschiedenen Messeinheit der Variablen beeinflusst, sodass sie sich einer direkten Vergleichbarkeit entziehen.

Lösung:
* z-Standardisierung von X und Y!
* Berechnung eines Beta-Werts (Betaj) für jeden b-Wert (bj) (–> Transformation von b zu Beta)
* Nun sind die Effekte der Regressionskoeffizienten auf die AV miteinander vergleichbar
* [-1; +1]
* ACHTUNG: Falls wir die standardisierten Koeffizienten interpretieren, fällt die Konstante komplett weg, da sie durch die Standardisierung auf Null gesetzt wird!!!!

30
Q

Multiple Regression
* Interpretation des Effekts einer UV

A

Die Veränderung einer UV x1 wird unter Kontanthaltung der weiteren UVs auf die Konstante bezogen.

31
Q

Beta in der einfachen linearen Regression

A
  • In der einfachen Regressionsanalyse, also nur eine UV, entspricht Beta r, denn r ist eh schon standardisiert. Es handelt sich bei beiden also um transformierte Werte (redundante Information).
32
Q

Beta
*Formel

A

Beta = b · sx/sy , also:
Beta = b · Standardabweichung von x /Standardabweichung von y
Dadurch wird b Normiert

33
Q

Adjustiertes R²
*Wozu?
* Wie?

A

*In der multiplen Regression relevanter Korrekturfaktor von R²

*Da der R²-Wert durch die Hinzunahme weiterer UVs ansteigt, sollte er anhand der Freiheitsgrade adjustiert werden.
*Das adjustierte R² besteht aus dem Wert des einfachen R², welcher mit einem “Strafterm” belegt wird. Daher nimmt das adjustierte R² in der Regel einen geringeren Wert als das einfache R² an und kann in manchen Fällen sogar negativ werden.
*Die “Strafe” steigt mit der Anzahl der unabhängigen Variablen. Durch Hinzunahme einer neuen Variablen kann das Modell im Sinne des adjustierten R² nur dann verbessert werden, wenn der zusätzliche Erklärungsgehalt den Strafterm übersteigt.
–> Das adjustierte R² berücksichtigt die Anzahl der unabhängigen Variablen und hilft so, die Varianzaufklärung des Modells realistischer zu bewerten

„n“ steht für die Anzahl der Beobachtungen und „P“ für die Anzahl der unabhängigen Variablen

34
Q

Interaktionseffekte

A

Zwei (oder mehrere) UVs beeinflussen sich in ihrem Einfluss auf AV

Lösungen
1. Getrennte Analysen für beide Gruppen
2. Gemeinsame Modellierung des Interaktionseffekts, indem das Modell um das Produkt der beiden Interaktionsvariablen ergänzt wird
Nachdem eine relevante Interaktion identifiziert wurde, erstellt man einen neuen Term im Modell, der das Produkt der beiden beteiligten unabhängigen Variablen darstellt. Zum Beispiel, wenn Sie Geschlecht (G) und Alter (A) als Interaktion betrachten, erstellen Sie den Term G * A.

Y = b0 (Redemenge) + b1 * x1 (Geschlecht, G) + b2 *x2 (Alkohol) + b3 * (G * A) + u (Residuum).

35
Q

Multikollinearität

A
  • Meint die Überlagerungen der Effekte der UVs
    Entsteht bspw. durch:
  • hohe Korrelationen der UV untereinander, oft nahe bei +1 oder -1. Kritischer Wert ca. bei r = 0,90

Test von Multikol. durch Toleranzwert

36
Q

Toleranzwert

A

*Zur Überprüfung von Multikollinearität
* 𝑇𝑜𝑙 = 1 – 𝑅²𝑗, wobei R2j der quadrierte multiple Korrelationskoeffizient zwischen der UV xj und allen anderen UVs ist.
*Werte unter 0,1 sind problematisch (Variable xj korreliert stark mit den anderen UVs –> Multikollinearität)
* Werte nahe 1: geringe Multik.

37
Q

Systematische Messfehler

A

Systematischer Messfehler ist eine Art von Messfehler, bei dem die Abweichung von den wahren Messwerten in einer bestimmten Richtung oder nach einem festen Muster erfolgt, was zu konsistenten Verzerrungen in den Messungen führt.

38
Q

Autokorrelation

A

Autokorrelation ist das statistische Phänomen, bei dem die aufeinanderfolgenden Werte in einer Zeitreihe oder die Residuen eines Modells voneinander abhängig sind, was darauf hinweist, dass es eine Beziehung oder Muster zwischen den zeitlichen Beobachtungen gibt, die über den Zufall hinausgeht.

39
Q

Logistische Regression
*Wahrscheinlichkeitsansatz

A

Es werden nicht mehr die Werte der abhängigen Variable selbst erklärt, sondern die Wahrscheinlichkeit dafür, dass das Ereignis 1 (hier: teilgenommen) oder 0 (hier: nicht teilgenommen) eintritt
* Wertebereich der Wahrscheinlichkeiten: zwischen 0 (Ereignis tritt mit Sicherheit nicht ein) und 1 (Ereignis tritt sicher ein)
* Werte dazwischen: sinnvoll als Wahrscheinlichkeitswerte interpretierbar