Fachbegriffe Flashcards
Hier eine Ansammlung von Begriffen, die mir öfters untergekommen sind
Deskriptive Statistik
Darstellen von Daten: Variabilität beschreiben, Information verdichten
Beurteilende Statistik
Datensätze vergleichen vergleichen: Trennung von Zufall und Effekt, Basis für objektivierbaren Entscheidungen
Bestimmtheitsmaß (R²)
Gibt an, wieviel % der Varianz modelliert werden. Je mehr Prädiktoren, umso mehr Varianz wird beschrieben.
Akaike-Informationskriterium (AIC)
Hilft dabei, ein Modell auszuwählen, das sowohl die Daten gut beschreibt, als auch robust gegenüber neuen Daten ist.
Ein kleiner Wert = bessere Modellierung.
Für kleinere Stichproben wird oft die korrigierte Version AICc verwendet.
Monte-Carlo-Methoden
(=Permutationsmethoden)
Nutzt Zufallszahlen (zufällige Simulationen), um Probleme zu lösen, und basiert oft auf Modellen und Annahmen.
Arbeitet, wie auch Bootstrapping mit vielen Wiederholungen.
Bootstrapping
Arbeitet mit echten Daten und braucht keine zusätzlichen Annahmen.
Verwendet viele Wiederholungen, um etwas über Wahrscheinlichkeiten oder Unsicherheiten herauszufinden.
Bayes-Grundsatz
Grad der vernünftigen Erwartung
~Glaubwürdigkeit (credibility)
Verzerrte Stichprobe (Bias)
Entsteht, wenn Fehler nicht symmetrisch um Null sind.
- problematisch
Häufige Ursachen für Verletzung der stochastischen Unabhängigkeit
- Pseudoreplikation: ungeplante mehrfache Erhebung von Daten am selben Objekt.
- Zeitliche Abhängigkeit: früher gesammelte Daten können spätere beeinflussen.
- Räumliche Abhängigkeit: benachbarte Objekte haben oft ähnliche Eigenschaften.
- (Phylo-)genetische Abhängigkeit: Gemeinsamkeit aufgrund gemeinsamer Abstammung.
Wichtige Skalentypen
metrisch - stetige Messwerte (Länge, Temperatur, Konzentration,…)
ordinal - ganzzahlige Größen (Schulnoten, Ränge,…)
kategorial - Zugehörigkeit zu Klassen (Zahlhäufigkeiten)
Stetige Variable
Kann jeden beliebigen Wert in einem Intervall annehmen, einschließlich Dezimal- und Bruchzahlen.
Diskrete Variable
Kann nur eine endliche, oder abzählbare Anzahl von Werten annehmen. Zischen zwei Werten gibt es keine Zwischenwerte.
Modalität
Anzahl der Gipfel (unimodal, bimodal)
gleichförmig (uniform): ohne klarer Häufigkeitsspitze.
Mittelwert (x)
Arithmetisches Mittel
Mathematisch optimal, aber empfindlich.
Median (m)
Teilt die Stichprobe in zwei gleich große Hälften.
Dichtemittel (D)
=Modus
häufigster beobachteter Wert auch bei sehr schiefen Verteilungen sinnvoll!
Spannweite (Range)
Differenz zwischen Maximalwert und Minimalwert (empfindlich gegenüber Ausreißern und Stichprobenumfang)
Perzentil
%-Anteil der beobachteten Werte (unempfindlich gegenüber Ausreißern)
Interquartilbereich (IQR)
Abstand zwischen dem 1. Quartil (Q1) und dem 3. Quartil (Q3) an. (Zentrale 50%)
Residuum
Abweichung zwischen den tatsächlichen Datenpunkten und den durch ein Modell vorhergesagten Werten
Ausreißer
Datenpunkt, der extrem von der Mehrheit der anderen Daten abweicht.
Vertrauenswahrscheinlichkeit (p)
Gibt an wie scharf ein Ergebnis ist.
Bei hoher Vertrauenswahrscheinlichkeit (p) ist das Ergebnis sehr scharf und der Konfidenzintervall schmal
Irrtumswahrscheinlichkeit (1 - p)
= Fehlerrisiko
für eine sichere Aussage braucht man niedriges 1 - p und gleichzeitig ein breiteres Konfidenzintervall
Nullhypothese H0
kein Effekt - Unterschiede durch Zufall