Data Screening Flashcards
1
Q
Warum ist Data-Screening sinnvoll?
A
- essentiell für eine “ehrliche” Analyse (z.B. Fehleranalyse, Prüfung stat. Voraussetzungen)
- Fehler im Datensatz könnten Ergebnisse substantiell verzerren
- wichtig: geplantes Vorgehen
2
Q
Wie können Fehler im Datensatz die Ergebnisse substantiell verzerren?
A
- “erhöhte Fehlervarianz”
- Ausreißer
- Systematische Verzerrungen
3
Q
Checkliste für das Data-Screening
A
- Überprüfung der univariaten Deskriprivstatistik (Out-of-Range Werte, Plausbilität MW und SD, Univariate Ausreißer)
- Analyse von Umfang und Verteilung von fehlenden Werten
- Überprüfung von paarweisen Scatterplots (Nonlinearität, Heteroskedastizität)
- Überprüfung von Normalverteilung (Schiefe und Kurtosis; ggf. Variablen transformieren)
- Identifikation multivariater Ausreißer (Welche Variablen sind beteiligt?)
- Ausschluss von Multikollinearität und Singularität
4
Q
Was bedeutet Multikollinearität?
A
Variablen sind sehr hoch korreliert (r > .90)
z.B. zwei Intelligenztests sind multikollinear
5
Q
Was versteht man unter Singularität?
A
- Variablen sind perfekt korreliert (d.h. r = 1).
- Eine Variable lässt sich als Linearkombination anderer Variablen darstellen
- z.B. Das Gesamtergebnis eines Tests ist singulär zu den Ergebnissen der Sub-Tests
6
Q
Welche Probleme gibt es bei Multikollinearität und Singularität?
A
- Redundante Information wird aufgenommen
- Statistisches Problem: die Inverse Matrix ist nicht mehr definiert bzw. ist instabil
7
Q
Wie lassen sich die Probleme von Multikollinearität und Singularität lösen?
A
Durch die Entfernung einer redundanten Variablen.