Fachbegriffe Flashcards
Hier eine Ansammlung von Begriffen, die mir öfters untergekommen sind
Deskriptive Statistik
Darstellen von Daten: Variabilität beschreiben, Information verdichten
Beurteilende Statistik
Datensätze vergleichen vergleichen: Trennung von Zufall und Effekt, Basis für objektivierbaren Entscheidungen
Bestimmtheitsmaß (R²)
Gibt an, wieviel % der Varianz modelliert werden. Je mehr Prädiktoren, umso mehr Varianz wird beschrieben.
Akaike-Informationskriterium (AIC)
Hilft dabei, ein Modell auszuwählen, das sowohl die Daten gut beschreibt, als auch robust gegenüber neuen Daten ist.
Ein kleiner Wert = bessere Modellierung.
Für kleinere Stichproben wird oft die korrigierte Version AICc verwendet.
Monte-Carlo-Methoden
(=Permutationsmethoden)
Nutzt Zufallszahlen (zufällige Simulationen), um Probleme zu lösen, und basiert oft auf Modellen und Annahmen.
Arbeitet, wie auch Bootstrapping mit vielen Wiederholungen.
Bootstrapping
Arbeitet mit echten Daten und braucht keine zusätzlichen Annahmen.
Verwendet viele Wiederholungen, um etwas über Wahrscheinlichkeiten oder Unsicherheiten herauszufinden.
Bayes-Grundsatz
Grad der vernünftigen Erwartung
~Glaubwürdigkeit (credibility)
Verzerrte Stichprobe (Bias)
Entsteht, wenn Fehler nicht symmetrisch um Null sind.
- problematisch
Häufige Ursachen für Verletzung der stochastischen Unabhängigkeit
- Pseudoreplikation: ungeplante mehrfache Erhebung von Daten am selben Objekt.
- Zeitliche Abhängigkeit: früher gesammelte Daten können spätere beeinflussen.
- Räumliche Abhängigkeit: benachbarte Objekte haben oft ähnliche Eigenschaften.
- (Phylo-)genetische Abhängigkeit: Gemeinsamkeit aufgrund gemeinsamer Abstammung.
Wichtige Skalentypen
metrisch - stetige Messwerte (Länge, Temperatur, Konzentration,…)
ordinal - ganzzahlige Größen (Schulnoten, Ränge,…)
kategorial - Zugehörigkeit zu Klassen (Zahlhäufigkeiten)
Stetige Variable
Kann jeden beliebigen Wert in einem Intervall annehmen, einschließlich Dezimal- und Bruchzahlen.
Diskrete Variable
Kann nur eine endliche, oder abzählbare Anzahl von Werten annehmen. Zischen zwei Werten gibt es keine Zwischenwerte.
Modalität
Anzahl der Gipfel (unimodal, bimodal)
gleichförmig (uniform): ohne klarer Häufigkeitsspitze.
Mittelwert (x)
Arithmetisches Mittel
Mathematisch optimal, aber empfindlich.
Median (m)
Teilt die Stichprobe in zwei gleich große Hälften.
Dichtemittel (D)
=Modus
häufigster beobachteter Wert auch bei sehr schiefen Verteilungen sinnvoll!
Spannweite (Range)
Differenz zwischen Maximalwert und Minimalwert (empfindlich gegenüber Ausreißern und Stichprobenumfang)
Perzentil
%-Anteil der beobachteten Werte (unempfindlich gegenüber Ausreißern)
Interquartilbereich (IQR)
Abstand zwischen dem 1. Quartil (Q1) und dem 3. Quartil (Q3) an. (Zentrale 50%)
Residuum
Abweichung zwischen den tatsächlichen Datenpunkten und den durch ein Modell vorhergesagten Werten
Ausreißer
Datenpunkt, der extrem von der Mehrheit der anderen Daten abweicht.
Vertrauenswahrscheinlichkeit (p)
Gibt an wie scharf ein Ergebnis ist.
Bei hoher Vertrauenswahrscheinlichkeit (p) ist das Ergebnis sehr scharf und der Konfidenzintervall schmal
Irrtumswahrscheinlichkeit (1 - p)
= Fehlerrisiko
für eine sichere Aussage braucht man niedriges 1 - p und gleichzeitig ein breiteres Konfidenzintervall
Nullhypothese H0
kein Effekt - Unterschiede durch Zufall
Alternativhypothese HA
Effekt - Unterschiede nicht allein durch Zufall
alpha-Fehler
- Fehlerart
Falscher Alarm
unberechtigtes Ablehnen von H0
beta-Fehler
- Fehlerart
verpasste Gelegenheit
unberechtigtes Beibehalten von H0
Power
=Teststärke
Wahrscheinlichkeit der Entdeckung eines vorhandenen Effekts bzw. die 2. Fehlerart zu vermeiden.
Bei vorgegebenem Signifikanzniveau (alpha) wächst die die Power mit dem Stichprobenumfang (N).
Einseitiger Test
Nur bei gerichteter Alternativhypothese (HA), wenn plausibel.
Mehr Power als zweiseitig
Zweiseitiger Test
Geht in beide Richtungen und ist immer zulässig.
Ist jedoch weniger Trennscharf.
Signifikanz
Testet, ob ein Effekt sich von 0 unterscheidet.
(ist nicht gleich Effektstärke)
Signifikanztests prüfen, ob ein beobachteter Effekt so groß ist, dass er nicht nur durch Zufall einstanden sein kann.
Effektstärke
Gibt an, wie stark ein Effekt ist, unabhängig davon, ob er statistisch signifikant ist.
Parametrische Tests
Verteilungsabhängig
Daten auf Intervall- oder Verhältnisskala (meist normal verteilt)
höhere (optimale) Power und Effizienz
Nicht-parametrische Tests
Verteilungsfrei
keine Annahmen über die Verteilung der Daten. Wenn Normalisierung nicht gelingt.
Weniger Power & Effizienz, aber robuster und konservativ
Signifikanzniveau (alpha)
Die maximale Fehlerrate, die wir akzeptieren, wenn wir die Nullhypothese ablehnen. Die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie wahr ist und der Effekt rein zufällig war.
Kontingenztafel
Eine Tabelle, die die Häufigkeiten von Kombinationen von zwei oder mehr Merkmalen darstellt.
Nullhypothese: Wenn die Zeilen/Spalten proportional zu den Summen sind.
Vierfeldertafeln
Bei vorgegebenen Randsummen ist nur eine Zelle frei wählbar.
Signifikanz-Prüfung von x² hängt nur von der Zahl des einen FG ab.
Gesamtstichprobe sollte n > 40 sein, sonst Fisher-Test
Häufigkeiten müssen absolut sein und können von einer 3. (übersehenen) Hintergrund-Variablen abhängen.
Bonferroni-Korrektur
Reduktion auf “interessante Zellen durch Vorwissen. Weglassen von auffallend weniger relevanten Tests oder nicht signifikanten Variablen, um die Korrektur nicht unnötig zu verschärfen.
Korrelation
Zeigt, dass zwei Variablen zusammenhängen. Wenn sich eine Variable ändert, verändert sich die andere ebenfalls in einer bestimmten Weise.
Kausal-Zusammenhang
Bedeutet, dass eine Variable die Ursache für die Veränderung der anderen ist.
Problematische Korrelationen
Gemeinsamkeitskorrelationen - abhängig von gemeinsamer dritter (Hintergrund-) Variable
Zeitreihen - 2 Parameter am selben Objekt wiederholt über längere Zeit gemessen. (Freiheitsgrade überschätzt; Varianz unterschätzt)
Indexkorrelation - erzwingt stets einen rechnerischen Zusammenhang von zwei Größen, ohne inhaltlicher Basis, durch die Division einer 3. Größe
formale Korrelation - inhaltlich unbegründeter Zusammenhang zwischen Variablen nur aufgrund von mathematischen Konstruktionen oder Strukturzwängen
inhomogenitätskorrelation - Zusammenlegen heterogener Punktwolken. Erzeugt rechnerischen, aber oft fragwürdigen Zusammenhang
Logit-Transformation
Relative Anteile normalisieren
Wandelt eine Wahrscheinlichkeit (0 < p < 1) in eine Zahl im Bereich von -unendlich bis +unendlich um.
Wird verwendet um eine Linearität herzustellen.
Regressionsanalyse
Prüft die Form des Zusammenhangs. Wird häufig genutzt, um Prognosen aufzustellen.
Prädiktor
unabhängige Variable (X) - kontrollierbar
Zielvariable
abhängige Variable (Y)
Die Variable, dessen Veränderung gemessen wird, um den Einfluss der unabhängigen Variablen zu erkennen.
Korrelationskoeffizient (r)
Zeigt Stärke und Richtung des linearen Zusammenhangs zwischen der abhängigen und unabhängigen Variablen.
Residual Sum of Squares (RSS)
Gesamtabweichung aller Datenpunkte summiert und quadriert.
immer positv
Residuenanalyse
Differenzen: Ei = reale Messwerte - Regressionslinie
Prüfung der Zulässigkeit des gewählten Regressionsmodell auf dem Datensatz
Allgemeine Lineare Modelle
(~General Linear Models)
Zielvariable: normalverteilte Zufallsgröße (Gauß-Verteilung)
Kombination aus stetigen und kategorialen Prädiktorvariablen
Streuungszerlegung in additive Varianzkompetenzen:
- stetig
- kategorial
- Restvarianz
Prüfung: F-Statistik
Verallgemeinerte Lineare Modelle
(~Generalized Linear Models)
Zielvariable: auch exponentiell Verteilte Zufallsgrößen (Poisson, Binomial,..)
Kombination aus stetigen und kategorialen Prädiktorvariablen
Streuungszerlegung in additive Varianzkompetenzen:
- stetig
- kategorial
- Restvarianz
Prüfung:
Gesamtmodell - x²-Statistik (Signifikanz); R², n² (Güte)
Hypothesentest - z-Statistik (Prädiktoren-Signifikanz)
Kategoriale Prädiktoren
diskrete Kategorien oder Gruppen anstelle von Zahlenwerten.
F-Statistik: zeigt Stärke des Einflusses
Regressionskoeffizient: Zeigt Richtung beim Wechsel von Kategorie-Stufen
Stetige Prädiktoren
Können jeden numerischen Wert innerhalb eines bestimmten Bereichs annehmen.
standardisierter Regressions-Koeffizient (beta): zeigt Stärke und Richtung des Einflusses
Pearson (r): zeigt Korrelation
Konfidenzbänder
Geben an in welchem Bereich die wahren Werte mit einer bestimmten Wahrscheinlichkeit liegen.
Je niedriger das Bestimmtheitsmaß (R²-Wert), desto größer ist die Unsicherheit, und damit breiter die Konfidenzbänder.
Optimumkurven
Teil der Bivariaten Regression
Anpassung einer quadratischen Funktion
(y = ax² + bx + c) mittels OLS-Regression, statt linearer OLS-Regression
Chancenverhältnis (O)
(=odds ratio)
Verhältnis von Korrekt zu Falsch klassifizierten Fällen
optimal: O möglichst groß (zuverlässig)
Achtung kein echtes R²
- Pseudo-R², Tjur’s R² (empfohlen)