Fachbegriffe Flashcards

Hier eine Ansammlung von Begriffen, die mir öfters untergekommen sind

1
Q

Deskriptive Statistik

A

Darstellen von Daten: Variabilität beschreiben, Information verdichten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Beurteilende Statistik

A

Datensätze vergleichen vergleichen: Trennung von Zufall und Effekt, Basis für objektivierbaren Entscheidungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Bestimmtheitsmaß (R²)

A

Gibt an, wieviel % der Varianz modelliert werden. Je mehr Prädiktoren, umso mehr Varianz wird beschrieben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Akaike-Informationskriterium (AIC)

A

Hilft dabei, ein Modell auszuwählen, das sowohl die Daten gut beschreibt, als auch robust gegenüber neuen Daten ist.
Ein kleiner Wert = bessere Modellierung.
Für kleinere Stichproben wird oft die korrigierte Version AICc verwendet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Monte-Carlo-Methoden

A

(=Permutationsmethoden)
Nutzt Zufallszahlen (zufällige Simulationen), um Probleme zu lösen, und basiert oft auf Modellen und Annahmen.
Arbeitet, wie auch Bootstrapping mit vielen Wiederholungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Bootstrapping

A

Arbeitet mit echten Daten und braucht keine zusätzlichen Annahmen.
Verwendet viele Wiederholungen, um etwas über Wahrscheinlichkeiten oder Unsicherheiten herauszufinden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Bayes-Grundsatz

A

Grad der vernünftigen Erwartung
~Glaubwürdigkeit (credibility)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Verzerrte Stichprobe (Bias)

A

Entsteht, wenn Fehler nicht symmetrisch um Null sind.
- problematisch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Häufige Ursachen für Verletzung der stochastischen Unabhängigkeit

A
  1. Pseudoreplikation: ungeplante mehrfache Erhebung von Daten am selben Objekt.
  2. Zeitliche Abhängigkeit: früher gesammelte Daten können spätere beeinflussen.
  3. Räumliche Abhängigkeit: benachbarte Objekte haben oft ähnliche Eigenschaften.
  4. (Phylo-)genetische Abhängigkeit: Gemeinsamkeit aufgrund gemeinsamer Abstammung.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wichtige Skalentypen

A

metrisch - stetige Messwerte (Länge, Temperatur, Konzentration,…)

ordinal - ganzzahlige Größen (Schulnoten, Ränge,…)

kategorial - Zugehörigkeit zu Klassen (Zahlhäufigkeiten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Stetige Variable

A

Kann jeden beliebigen Wert in einem Intervall annehmen, einschließlich Dezimal- und Bruchzahlen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Diskrete Variable

A

Kann nur eine endliche, oder abzählbare Anzahl von Werten annehmen. Zischen zwei Werten gibt es keine Zwischenwerte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Modalität

A

Anzahl der Gipfel (unimodal, bimodal)
gleichförmig (uniform): ohne klarer Häufigkeitsspitze.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Mittelwert (x)

A

Arithmetisches Mittel
Mathematisch optimal, aber empfindlich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Median (m)

A

Teilt die Stichprobe in zwei gleich große Hälften.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Dichtemittel (D)

A

=Modus
häufigster beobachteter Wert auch bei sehr schiefen Verteilungen sinnvoll!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Spannweite (Range)

A

Differenz zwischen Maximalwert und Minimalwert (empfindlich gegenüber Ausreißern und Stichprobenumfang)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Perzentil

A

%-Anteil der beobachteten Werte (unempfindlich gegenüber Ausreißern)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Interquartilbereich (IQR)

A

Abstand zwischen dem 1. Quartil (Q1) und dem 3. Quartil (Q3) an. (Zentrale 50%)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Residuum

A

Abweichung zwischen den tatsächlichen Datenpunkten und den durch ein Modell vorhergesagten Werten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Ausreißer

A

Datenpunkt, der extrem von der Mehrheit der anderen Daten abweicht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Vertrauenswahrscheinlichkeit (p)

A

Gibt an wie scharf ein Ergebnis ist.
Bei hoher Vertrauenswahrscheinlichkeit (p) ist das Ergebnis sehr scharf und der Konfidenzintervall schmal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Irrtumswahrscheinlichkeit (1 - p)

A

= Fehlerrisiko
für eine sichere Aussage braucht man niedriges 1 - p und gleichzeitig ein breiteres Konfidenzintervall

24
Q

Nullhypothese H0

A

kein Effekt - Unterschiede durch Zufall

25
Alternativhypothese HA
Effekt - Unterschiede nicht allein durch Zufall
26
alpha-Fehler
1. Fehlerart Falscher Alarm unberechtigtes Ablehnen von H0
27
beta-Fehler
2. Fehlerart verpasste Gelegenheit unberechtigtes Beibehalten von H0
28
Power
=Teststärke Wahrscheinlichkeit der Entdeckung eines vorhandenen Effekts bzw. die 2. Fehlerart zu vermeiden. Bei vorgegebenem Signifikanzniveau (alpha) wächst die die Power mit dem Stichprobenumfang (N).
29
Einseitiger Test
Nur bei gerichteter Alternativhypothese (HA), wenn plausibel. Mehr Power als zweiseitig
30
Zweiseitiger Test
Geht in beide Richtungen und ist immer zulässig. Ist jedoch weniger Trennscharf.
31
Signifikanz
Testet, ob ein Effekt sich von 0 unterscheidet. (ist nicht gleich Effektstärke) Signifikanztests prüfen, ob ein beobachteter Effekt so groß ist, dass er nicht nur durch Zufall einstanden sein kann.
32
Effektstärke
Gibt an, wie stark ein Effekt ist, unabhängig davon, ob er statistisch signifikant ist.
33
Parametrische Tests
Verteilungsabhängig Daten auf Intervall- oder Verhältnisskala (meist normal verteilt) höhere (optimale) Power und Effizienz
34
Nicht-parametrische Tests
Verteilungsfrei keine Annahmen über die Verteilung der Daten. Wenn Normalisierung nicht gelingt. Weniger Power & Effizienz, aber robuster und konservativ
35
Signifikanzniveau (alpha)
Die maximale Fehlerrate, die wir akzeptieren, wenn wir die Nullhypothese ablehnen. Die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie wahr ist und der Effekt rein zufällig war.
36
Kontingenztafel
Eine Tabelle, die die Häufigkeiten von Kombinationen von zwei oder mehr Merkmalen darstellt. Nullhypothese: Wenn die Zeilen/Spalten proportional zu den Summen sind.
37
Vierfeldertafeln
Bei vorgegebenen Randsummen ist nur eine Zelle frei wählbar. Signifikanz-Prüfung von x² hängt nur von der Zahl des einen FG ab. Gesamtstichprobe sollte n > 40 sein, sonst Fisher-Test Häufigkeiten müssen absolut sein und können von einer 3. (übersehenen) Hintergrund-Variablen abhängen.
38
Bonferroni-Korrektur
Reduktion auf "interessante Zellen durch Vorwissen. Weglassen von auffallend weniger relevanten Tests oder nicht signifikanten Variablen, um die Korrektur nicht unnötig zu verschärfen.
39
Korrelation
Zeigt, dass zwei Variablen zusammenhängen. Wenn sich eine Variable ändert, verändert sich die andere ebenfalls in einer bestimmten Weise.
40
Kausal-Zusammenhang
Bedeutet, dass eine Variable die Ursache für die Veränderung der anderen ist.
41
Problematische Korrelationen
Gemeinsamkeitskorrelationen - abhängig von gemeinsamer dritter (Hintergrund-) Variable Zeitreihen - 2 Parameter am selben Objekt wiederholt über längere Zeit gemessen. (Freiheitsgrade überschätzt; Varianz unterschätzt) Indexkorrelation - erzwingt stets einen rechnerischen Zusammenhang von zwei Größen, ohne inhaltlicher Basis, durch die Division einer 3. Größe formale Korrelation - inhaltlich unbegründeter Zusammenhang zwischen Variablen nur aufgrund von mathematischen Konstruktionen oder Strukturzwängen inhomogenitätskorrelation - Zusammenlegen heterogener Punktwolken. Erzeugt rechnerischen, aber oft fragwürdigen Zusammenhang
42
Logit-Transformation
Relative Anteile normalisieren Wandelt eine Wahrscheinlichkeit (0 < p < 1) in eine Zahl im Bereich von -unendlich bis +unendlich um. Wird verwendet um eine Linearität herzustellen.
43
Regressionsanalyse
Prüft die Form des Zusammenhangs. Wird häufig genutzt, um Prognosen aufzustellen.
44
Prädiktor
unabhängige Variable (X) - kontrollierbar
45
Zielvariable
abhängige Variable (Y) Die Variable, dessen Veränderung gemessen wird, um den Einfluss der unabhängigen Variablen zu erkennen.
46
Korrelationskoeffizient (r)
Zeigt Stärke und Richtung des linearen Zusammenhangs zwischen der abhängigen und unabhängigen Variablen.
47
Residual Sum of Squares (RSS)
Gesamtabweichung aller Datenpunkte summiert und quadriert. immer positv
48
Residuenanalyse
Differenzen: Ei = reale Messwerte - Regressionslinie Prüfung der Zulässigkeit des gewählten Regressionsmodell auf dem Datensatz
49
Allgemeine Lineare Modelle (~General Linear Models)
Zielvariable: normalverteilte Zufallsgröße (Gauß-Verteilung) Kombination aus stetigen und kategorialen Prädiktorvariablen Streuungszerlegung in additive Varianzkompetenzen: - stetig - kategorial - Restvarianz Prüfung: F-Statistik
50
Verallgemeinerte Lineare Modelle (~Generalized Linear Models)
Zielvariable: auch exponentiell Verteilte Zufallsgrößen (Poisson, Binomial,..) Kombination aus stetigen und kategorialen Prädiktorvariablen Streuungszerlegung in additive Varianzkompetenzen: - stetig - kategorial - Restvarianz Prüfung: Gesamtmodell - x²-Statistik (Signifikanz); R², n² (Güte) Hypothesentest - z-Statistik (Prädiktoren-Signifikanz)
51
Kategoriale Prädiktoren
diskrete Kategorien oder Gruppen anstelle von Zahlenwerten. F-Statistik: zeigt Stärke des Einflusses Regressionskoeffizient: Zeigt Richtung beim Wechsel von Kategorie-Stufen
52
Stetige Prädiktoren
Können jeden numerischen Wert innerhalb eines bestimmten Bereichs annehmen. standardisierter Regressions-Koeffizient (beta): zeigt Stärke und Richtung des Einflusses Pearson (r): zeigt Korrelation
53
Konfidenzbänder
Geben an in welchem Bereich die wahren Werte mit einer bestimmten Wahrscheinlichkeit liegen. Je niedriger das Bestimmtheitsmaß (R²-Wert), desto größer ist die Unsicherheit, und damit breiter die Konfidenzbänder.
54
Optimumkurven
Teil der Bivariaten Regression Anpassung einer quadratischen Funktion (y = ax² + bx + c) mittels OLS-Regression, statt linearer OLS-Regression
55
Chancenverhältnis (O)
(=odds ratio) Verhältnis von Korrekt zu Falsch klassifizierten Fällen optimal: O möglichst groß (zuverlässig) Achtung kein echtes R² - Pseudo-R², Tjur's R² (empfohlen)