WS: Regression Flashcards
Was ist Pseudo R² und wie interpretiert man es?
- Gibt Auskunft über die Güte einer logistischen Modellschätzung
- Pseudo-R²-Werte basieren auf Vergleich zwischen den Log-Likelihood-Werten der ersten Iteration (= Null-Modell) und letzten Iteration (= beste Modellschätzung)
- Werte zwischen 0,2-0,4 gelten schon als hoch
- Interpretation: Ein Pseudo R²-Wert von 0,2 sagt aus, dass sich der Schätzerfolg des Modells bzw. des letzten Iterationsschritts im Vergleich zum Nullmodell durch die Hinzunahme der UVs um 20% verbessert.
R²
- Auch: Determinationskoeffizient R²
- [0;1]
- 0,6 - 0,8 gilt als gut
- R² besagt, dass die UV “Lernen” … % (R²· 100) der Varianz der AV “Klausurerfolg” linear erklärt bzw. determiniert
Lagemaße - Modus
Bedeutung
Skalenniveau
Berechnung
- Die Merkmalsausprägung, die am häufigsten vorkommt
- Nominal, ordinal und metrisch
- Ablesen der Kategorie mit dem höchsten Wert
Lagemaße - Mittelwert
Bedeutung
Skalenniveau
Berechnung
*Metrisch
* Addition aller Werte und
Division durch die Anzahl
der Zahlen
Lagemaße - Median, Perzentile & Co.
Skalenniveau
Bedeutung
Berechnung
*Ordinal, metrisch
*Von der kleinsten zur höchsten Ausprägung die relativen Häufigkeiten
kumulieren, bis der gewünschte Prozentwert überschritten wurde
Streuungsmaße für nominale Daten
Keine! Keine Rangordnung, also auch keine sinnvolles Maß für Streuung „um etwas herum“
Streuungsmaße für ordinale und metrische Daten
*Range (Spannweite): Differenz zwischen größter und kleinster Merkmalsausprägung, also wo beginnt und wo endet der Wertebereich?
*(Mittlerer) Quartilsabstand: Differenz zwischen drittem und erstem Quartil, also:
In welchem Wertebereich liegen die mittleren 50% der Verteilung?
Streuungsmaße für metrische Daten
*Variation: Summe der quadrierten Abweichungen aller Fälle vom Mittelwert (Wert für gesamte Verteilung)
*Varianz: Anschließende Division durch n-1
*Standardabweichung: Wurzel daraus ziehen
*Standardfehler des Mittelwerts: Standardfehler geteilt durch die Wurzel von n
Normalverteilung
* Charakteristika
- Hat eine Glockenform (Gauß-Verteilung)
- Der Kurvenverlauf ist symmetrisch
- Mittelwert, Median und Modus sind identisch
Standardnormalverteilung
- Besondere Form der Normalverteilung
- Unterschied: Mittelwert = 0 und Standardabweichung = 1
- 90% der Verteilung liegen im Bereich -1,64s bis +1,64s
- 95% der Verteilung liegen im Bereich -1,96s bis +1,96s
- 99% der Verteilung liegen im Bereich -2,58s bis +2,58s
- 99,9% der Verteilung liegen im Bereich -3,29s bis +3,29s
Z-Standardisierung
NORMIERUNG & ZENTRIERUNG
Alpha- und Betafehler
- Wahrscheinlichkeit beider Fehlerarten nicht gleichzeitig kontrollierbar
- Minimierung des Alpha-Fehlers vergrößert Wahrscheinlichkeit des Beta-Fehlers
- Beta-Fehler sinkt mit steigender Stichprobengröße
- Alphafehler: Nullhypothese wird fälschlicherweise abgelehnt, obwohl sie wahr ist.
*Betafehler: Nullhypothese wird fälschlicherweise beibehalten, obwohl sie falsch ist.
Kovarianz
* Skalenniveau
*Erläuterung
*Metrische Daten
*Die Kovarianz ist ein statistisches Maß, das die gemeinsame Variation zwischen zwei Variablen misst. Sie gibt an, wie sich diese beiden Variablen gemeinsam verändern.
*Eine positive Kovarianz zeigt an, dass die beiden Variablen tendenziell gemeinsam steigen oder fallen, während eine negative Kovarianz darauf hinweist, dass sie tendenziell in entgegengesetzte Richtungen variieren. Die Kovarianz allein liefert jedoch keine standardisierte Maßeinheit und ist daher schwer zu interpretieren. Sie wird oft in Kombination mit der Varianz verwendet, um den Korrelationskoeffizienten (Korrelation) zu berechnen, der die Stärke und Richtung des linearen Zusammenhangs zwischen den Variablen angibt.
Pearsons r
* Wertebereich
* Skalenniveau
* Definition
*Berechnung
*Signifikanz
- [-1;1]
- Maß, das die Stärke und Richtung des linearen Zusammenhangs zwischen zwei metrischen Variablen beschreibt –> wie wirken sich Veränderungen in einer Variable auf die andere aus?
- r ergibt sich aus der Standardabweichung der Kovarianz geteilt durch das Produkt der Standardabweichungen von x und y
- Signifikanztest erfolgt meist über die t-Verteilung (da r selbst nichts über die Sig. aussagt)
Der Chi²-Test
- Mit dem Chi²-Test ermittelt man die statistische Signifikanz der Zusammenhänge zwischen zwei kategorialen Variablen in Form einer Kreuztabelle.
- Dabei werden die beobachteten Häufigkeiten mit den erwarteten Häufigkeiten verglichen, unter der Annahme, dass die beiden Variablen unabhängig voneinander sind.
- Ist der berechnete Chi²-Wert signifikant, deutet das auf einen statistisch signifikanten Zusammenhang zwischen den Variablen hin.