8 Datenqualität & Ausreißer Flashcards
Statistik = Hilfsmittel, kein Selbstzweck (3)
- sollte immer minimalsuffizient sein (so kompliziert wie nötig und so einfach wie möglich)
- komplizierte Auswertung kompensiert kein schlechtes Design
- Ascombe-Quartett: mit Standardanalyse ergeben 4 verschiedene Verteilungen gleiches Bild (Mittelwert, Medien, Varianz, Korrelation…)
Datenqualität überprüfen: Verteilung der in Analyse eingehenden Daten
Verteilung einzelner Variablen (4 + grafisch 2)
&
gemeinsame Verteilung von 2 Variablen (grafisch 2)
Verteilung einzelner Variablen:
- erstmal deskriptiv angucken:
> plausibles N?
> fehlende Werte richtig kodiert als missing?
> realistisches Min, Max, Mittelwert, SD, %?
> Variablen richtig gepolt (keine doppelte Verneinung? - am besten grafisch untersuchen:
> Histogramm (Achtung: Anzahl/Dicke der Balken)
> Kerndichteschätzung
gemeinsame Verteilung von 2 Variablen:
> mit Kreuztabelle -> Frage: plausible Kombos?
> mit Streudiagramm -> Frage: extreme Datenpunkte? (beeinflussen Regression übermäßig)
Zusammenhänge zwischen 2 Variablen untersuchen
(3: 1, 2, 3)
- X kategorial, Y kategorial:
> Kreuztabelle (oder Balkendiagramm der rel. Häufigkeit) - X kategorial, Y metrisch (intervallskal./dimens.) (oder andersherum):
> Mittelwert/Median/SD im Balkendiagramm
> Kerndichteschätzung - beide metrisch:
> Streudiagramm
> nicht-parametrische Funktionslinie (local polynomial smoother) zeichnen
-> linear? log? U-shaped? keine Korrelation rechnen, diese übersieht alles nicht-Lineare!
Deskriptive Auswertung (3 + 2 besser als)
- offenbart Fehler, vermittelt Datengefühl, zeigt Analysemöglichkeiten auf, lässt neue Hypothesen generieren
- Überprüfung von Modellvoraussetzungen
- Verteilung in Stichprobe - nich Population wichtig
- besser als statistische Tests, welche von Stichprobengröße abhängig und daher als Entscheidung, ob Testvoraussetzungen erfüllt, ungenügend sind:
> kleine Stichprobe: geringe stat. Power/großer beta-Fehler -> zeigt Voraussetz. zu leicht als erfüllt
> große Stichprobe: kleine Abweichungen sind bereits statistisch signifikant, Auswertung wird so unnötig kompliziert gemacht
Ausreißer und Extremwerte Definition
Ausreißer: stammt aus einer anderen Population, trägt nicht zu richtigen Schlüssen bei -> weglassen
Extremwerte: aus gleicher Population -> nicht pauschal weglassen aber bei Analyse beachten
Uni- (2) und multivariate (4) Ausreißer
Univariate Ausreißer:
- hinsichtlich einer Variablen
- nur Werte dieser 1 Variablen bei Ausreißerbestimmung hinzuziehen
Multivariate Ausreißer:
- aus anderer Population bzgl. Merkmalsausprägung
- weit entfernt vom Mean beider Werte -> beeinflusst Regressionsgerade
- Methode der kleinsten Quadrate -> alle Punkte nahe Geraden
- Problem: durch Extremwerte sind viele(!) Punkte weiter von der Geraden entfernt -> geringe Anwendungsbreite -> Ergebnisse sagen wenig über Individuen aus
Inhaltliche Ausreißeridentifikation (1, 2, un/plausibel)
- immer primär durchführen!
- bereits ähnlich hohe Werte in ähnlicher Population berichtet?
- Wert hinsichtlich anderer Werte des Individuums glaubwürdig?
-> wenn plausibel: Wert belassen & bei Auswertung beachten -> robustes Alternativverfahren
-> wenn nicht plausibel:
1. Fall rausnehmen -> als missing codieren
ODER
2. durch plausiblen (ebenfalls hohen) Wert ersetzen -> Winsorization: ersetze mit dem k-tem Perzentil (k willkürlich) (Bsp. k = 1, also Wert, wo 99% der Stichprobe drunter liegen)
Statistische Ausreißeridentifikation (2, 2)
- nicht als alleinige Entscheidungsgrundlage nehmen!
- braucht Referenzmodell zu Norm des Verteilungstyps
- bei Normalverteilung: +/- 3 x SD (3 willkürlich) -> Wahrscheinlichkeit, dass Wert über/unter dieser Spanne liegt bei Normalverteilung 0.3%)
- bei schiefen Verteilungen ist SD ungeeingnet, weil stark von Ausreißern beeinflusst - non-parametrische Alternative: Interquartilsabstand: Median +/- 1.5 x IQ (entspricht Boxplot-whiskers) (1.5 auch hier willkürlich)
Problematische Variation in möglichen Ergebnissen (Ursache, Befürchtung, Lösung)
- durch unterschiedlichen möglichen Umgang mit Extremwerten (& Aureißern)
- kann missbraucht werden um erwünschte Ergebnisse zu erhalten -> p-hacking
- Lösung: Auswertung präregistrieren
Empfohlener Umgang mit Extremwerten & Ausreißern (2, Methode)
- Willkür beim Kriterium/manuellen Herauslassen kritisch
- robuste Alternativverfahren verwenden -> falls Ergebnis anders als Standardverfahren, rob. Ergebnis verwenden
- z.B. mit robuster linearer Regression