8 Datenqualität & Ausreißer Flashcards

1
Q

Statistik = Hilfsmittel, kein Selbstzweck (3)

A
  • sollte immer minimalsuffizient sein (so kompliziert wie nötig und so einfach wie möglich)
  • komplizierte Auswertung kompensiert kein schlechtes Design
  • Ascombe-Quartett: mit Standardanalyse ergeben 4 verschiedene Verteilungen gleiches Bild (Mittelwert, Medien, Varianz, Korrelation…)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Datenqualität überprüfen: Verteilung der in Analyse eingehenden Daten

Verteilung einzelner Variablen (4 + grafisch 2)
&
gemeinsame Verteilung von 2 Variablen (grafisch 2)

A

Verteilung einzelner Variablen:

  • erstmal deskriptiv angucken:
    > plausibles N?
    > fehlende Werte richtig kodiert als missing?
    > realistisches Min, Max, Mittelwert, SD, %?
    > Variablen richtig gepolt (keine doppelte Verneinung?
  • am besten grafisch untersuchen:
    > Histogramm (Achtung: Anzahl/Dicke der Balken)
    > Kerndichteschätzung

gemeinsame Verteilung von 2 Variablen:
> mit Kreuztabelle -> Frage: plausible Kombos?
> mit Streudiagramm -> Frage: extreme Datenpunkte? (beeinflussen Regression übermäßig)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Zusammenhänge zwischen 2 Variablen untersuchen

(3: 1, 2, 3)

A
  • X kategorial, Y kategorial:
    > Kreuztabelle (oder Balkendiagramm der rel. Häufigkeit)
  • X kategorial, Y metrisch (intervallskal./dimens.) (oder andersherum):
    > Mittelwert/Median/SD im Balkendiagramm
    > Kerndichteschätzung
  • beide metrisch:
    > Streudiagramm
    > nicht-parametrische Funktionslinie (local polynomial smoother) zeichnen
    -> linear? log? U-shaped? keine Korrelation rechnen, diese übersieht alles nicht-Lineare!
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Deskriptive Auswertung (3 + 2 besser als)

A
  • offenbart Fehler, vermittelt Datengefühl, zeigt Analysemöglichkeiten auf, lässt neue Hypothesen generieren
  • Überprüfung von Modellvoraussetzungen
  • Verteilung in Stichprobe - nich Population wichtig
  • besser als statistische Tests, welche von Stichprobengröße abhängig und daher als Entscheidung, ob Testvoraussetzungen erfüllt, ungenügend sind:
    > kleine Stichprobe: geringe stat. Power/großer beta-Fehler -> zeigt Voraussetz. zu leicht als erfüllt
    > große Stichprobe: kleine Abweichungen sind bereits statistisch signifikant, Auswertung wird so unnötig kompliziert gemacht
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Ausreißer und Extremwerte Definition

A

Ausreißer: stammt aus einer anderen Population, trägt nicht zu richtigen Schlüssen bei -> weglassen

Extremwerte: aus gleicher Population -> nicht pauschal weglassen aber bei Analyse beachten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Uni- (2) und multivariate (4) Ausreißer

A

Univariate Ausreißer:
- hinsichtlich einer Variablen
- nur Werte dieser 1 Variablen bei Ausreißerbestimmung hinzuziehen

Multivariate Ausreißer:
- aus anderer Population bzgl. Merkmalsausprägung
- weit entfernt vom Mean beider Werte -> beeinflusst Regressionsgerade
- Methode der kleinsten Quadrate -> alle Punkte nahe Geraden
- Problem: durch Extremwerte sind viele(!) Punkte weiter von der Geraden entfernt -> geringe Anwendungsbreite -> Ergebnisse sagen wenig über Individuen aus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Inhaltliche Ausreißeridentifikation (1, 2, un/plausibel)

A
  • immer primär durchführen!
  • bereits ähnlich hohe Werte in ähnlicher Population berichtet?
  • Wert hinsichtlich anderer Werte des Individuums glaubwürdig?

-> wenn plausibel: Wert belassen & bei Auswertung beachten -> robustes Alternativverfahren

-> wenn nicht plausibel:
1. Fall rausnehmen -> als missing codieren
ODER
2. durch plausiblen (ebenfalls hohen) Wert ersetzen -> Winsorization: ersetze mit dem k-tem Perzentil (k willkürlich) (Bsp. k = 1, also Wert, wo 99% der Stichprobe drunter liegen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Statistische Ausreißeridentifikation (2, 2)

A
  • nicht als alleinige Entscheidungsgrundlage nehmen!
  • braucht Referenzmodell zu Norm des Verteilungstyps
  1. bei Normalverteilung: +/- 3 x SD (3 willkürlich) -> Wahrscheinlichkeit, dass Wert über/unter dieser Spanne liegt bei Normalverteilung 0.3%)
    - bei schiefen Verteilungen ist SD ungeeingnet, weil stark von Ausreißern beeinflusst
  2. non-parametrische Alternative: Interquartilsabstand: Median +/- 1.5 x IQ (entspricht Boxplot-whiskers) (1.5 auch hier willkürlich)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Problematische Variation in möglichen Ergebnissen (Ursache, Befürchtung, Lösung)

A
  • durch unterschiedlichen möglichen Umgang mit Extremwerten (& Aureißern)
  • kann missbraucht werden um erwünschte Ergebnisse zu erhalten -> p-hacking
  • Lösung: Auswertung präregistrieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Empfohlener Umgang mit Extremwerten & Ausreißern (2, Methode)

A
  • Willkür beim Kriterium/manuellen Herauslassen kritisch
  • robuste Alternativverfahren verwenden -> falls Ergebnis anders als Standardverfahren, rob. Ergebnis verwenden
  • z.B. mit robuster linearer Regression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly