Fachbegriffe Flashcards

Hier eine Ansammlung von Begriffen, die mir öfters untergekommen sind

1
Q

Deskriptive Statistik

A

Darstellen von Daten: Variabilität beschreiben, Information verdichten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Beurteilende Statistik

A

Datensätze vergleichen vergleichen: Trennung von Zufall und Effekt, Basis für objektivierbaren Entscheidungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Bestimmtheitsmaß (R²)

A

Gibt an, wieviel % der Varianz modelliert werden. Je mehr Prädiktoren, umso mehr Varianz wird beschrieben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Akaike-Informationskriterium (AIC)

A

Hilft dabei, ein Modell auszuwählen, das sowohl die Daten gut beschreibt, als auch robust gegenüber neuen Daten ist.
Ein kleiner Wert = bessere Modellierung.
Für kleinere Stichproben wird oft die korrigierte Version AICc verwendet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Monte-Carlo-Methoden

A

(=Permutationsmethoden)
Nutzt Zufallszahlen (zufällige Simulationen), um Probleme zu lösen, und basiert oft auf Modellen und Annahmen.
Arbeitet, wie auch Bootstrapping mit vielen Wiederholungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Bootstrapping

A

Arbeitet mit echten Daten und braucht keine zusätzlichen Annahmen.
Verwendet viele Wiederholungen, um etwas über Wahrscheinlichkeiten oder Unsicherheiten herauszufinden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Bayes-Grundsatz

A

Grad der vernünftigen Erwartung
~Glaubwürdigkeit (credibility)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Verzerrte Stichprobe (Bias)

A

Entsteht, wenn Fehler nicht symmetrisch um Null sind.
- problematisch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Häufige Ursachen für Verletzung der stochastischen Unabhängigkeit

A
  1. Pseudoreplikation: ungeplante mehrfache Erhebung von Daten am selben Objekt.
  2. Zeitliche Abhängigkeit: früher gesammelte Daten können spätere beeinflussen.
  3. Räumliche Abhängigkeit: benachbarte Objekte haben oft ähnliche Eigenschaften.
  4. (Phylo-)genetische Abhängigkeit: Gemeinsamkeit aufgrund gemeinsamer Abstammung.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wichtige Skalentypen

A

metrisch - stetige Messwerte (Länge, Temperatur, Konzentration,…)

ordinal - ganzzahlige Größen (Schulnoten, Ränge,…)

kategorial - Zugehörigkeit zu Klassen (Zahlhäufigkeiten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Stetige Variable

A

Kann jeden beliebigen Wert in einem Intervall annehmen, einschließlich Dezimal- und Bruchzahlen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Diskrete Variable

A

Kann nur eine endliche, oder abzählbare Anzahl von Werten annehmen. Zischen zwei Werten gibt es keine Zwischenwerte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Modalität

A

Anzahl der Gipfel (unimodal, bimodal)
gleichförmig (uniform): ohne klarer Häufigkeitsspitze.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Mittelwert (x)

A

Arithmetisches Mittel
Mathematisch optimal, aber empfindlich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Median (m)

A

Teilt die Stichprobe in zwei gleich große Hälften.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Dichtemittel (D)

A

=Modus
häufigster beobachteter Wert auch bei sehr schiefen Verteilungen sinnvoll!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Spannweite (Range)

A

Differenz zwischen Maximalwert und Minimalwert (empfindlich gegenüber Ausreißern und Stichprobenumfang)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Perzentil

A

%-Anteil der beobachteten Werte (unempfindlich gegenüber Ausreißern)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Interquartilbereich (IQR)

A

Abstand zwischen dem 1. Quartil (Q1) und dem 3. Quartil (Q3) an. (Zentrale 50%)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Residuum

A

Abweichung zwischen den tatsächlichen Datenpunkten und den durch ein Modell vorhergesagten Werten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Ausreißer

A

Datenpunkt, der extrem von der Mehrheit der anderen Daten abweicht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Vertrauenswahrscheinlichkeit (p)

A

Gibt an wie scharf ein Ergebnis ist.
Bei hoher Vertrauenswahrscheinlichkeit (p) ist das Ergebnis sehr scharf und der Konfidenzintervall schmal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Irrtumswahrscheinlichkeit (1 - p)

A

= Fehlerrisiko
für eine sichere Aussage braucht man niedriges 1 - p und gleichzeitig ein breiteres Konfidenzintervall

24
Q

Nullhypothese H0

A

kein Effekt - Unterschiede durch Zufall

25
Q

Alternativhypothese HA

A

Effekt - Unterschiede nicht allein durch Zufall

26
Q

alpha-Fehler

A
  1. Fehlerart
    Falscher Alarm
    unberechtigtes Ablehnen von H0
27
Q

beta-Fehler

A
  1. Fehlerart
    verpasste Gelegenheit
    unberechtigtes Beibehalten von H0
28
Q

Power

A

=Teststärke
Wahrscheinlichkeit der Entdeckung eines vorhandenen Effekts bzw. die 2. Fehlerart zu vermeiden.
Bei vorgegebenem Signifikanzniveau (alpha) wächst die die Power mit dem Stichprobenumfang (N).

29
Q

Einseitiger Test

A

Nur bei gerichteter Alternativhypothese (HA), wenn plausibel.
Mehr Power als zweiseitig

30
Q

Zweiseitiger Test

A

Geht in beide Richtungen und ist immer zulässig.
Ist jedoch weniger Trennscharf.

31
Q

Signifikanz

A

Testet, ob ein Effekt sich von 0 unterscheidet.
(ist nicht gleich Effektstärke)
Signifikanztests prüfen, ob ein beobachteter Effekt so groß ist, dass er nicht nur durch Zufall einstanden sein kann.

32
Q

Effektstärke

A

Gibt an, wie stark ein Effekt ist, unabhängig davon, ob er statistisch signifikant ist.

33
Q

Parametrische Tests

A

Verteilungsabhängig
Daten auf Intervall- oder Verhältnisskala (meist normal verteilt)
höhere (optimale) Power und Effizienz

34
Q

Nicht-parametrische Tests

A

Verteilungsfrei
keine Annahmen über die Verteilung der Daten. Wenn Normalisierung nicht gelingt.
Weniger Power & Effizienz, aber robuster und konservativ

35
Q

Signifikanzniveau (alpha)

A

Die maximale Fehlerrate, die wir akzeptieren, wenn wir die Nullhypothese ablehnen. Die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie wahr ist und der Effekt rein zufällig war.

36
Q

Kontingenztafel

A

Eine Tabelle, die die Häufigkeiten von Kombinationen von zwei oder mehr Merkmalen darstellt.
Nullhypothese: Wenn die Zeilen/Spalten proportional zu den Summen sind.

37
Q

Vierfeldertafeln

A

Bei vorgegebenen Randsummen ist nur eine Zelle frei wählbar.
Signifikanz-Prüfung von x² hängt nur von der Zahl des einen FG ab.
Gesamtstichprobe sollte n > 40 sein, sonst Fisher-Test
Häufigkeiten müssen absolut sein und können von einer 3. (übersehenen) Hintergrund-Variablen abhängen.

38
Q

Bonferroni-Korrektur

A

Reduktion auf “interessante Zellen durch Vorwissen. Weglassen von auffallend weniger relevanten Tests oder nicht signifikanten Variablen, um die Korrektur nicht unnötig zu verschärfen.

39
Q

Korrelation

A

Zeigt, dass zwei Variablen zusammenhängen. Wenn sich eine Variable ändert, verändert sich die andere ebenfalls in einer bestimmten Weise.

40
Q

Kausal-Zusammenhang

A

Bedeutet, dass eine Variable die Ursache für die Veränderung der anderen ist.

41
Q

Problematische Korrelationen

A

Gemeinsamkeitskorrelationen - abhängig von gemeinsamer dritter (Hintergrund-) Variable

Zeitreihen - 2 Parameter am selben Objekt wiederholt über längere Zeit gemessen. (Freiheitsgrade überschätzt; Varianz unterschätzt)

Indexkorrelation - erzwingt stets einen rechnerischen Zusammenhang von zwei Größen, ohne inhaltlicher Basis, durch die Division einer 3. Größe

formale Korrelation - inhaltlich unbegründeter Zusammenhang zwischen Variablen nur aufgrund von mathematischen Konstruktionen oder Strukturzwängen

inhomogenitätskorrelation - Zusammenlegen heterogener Punktwolken. Erzeugt rechnerischen, aber oft fragwürdigen Zusammenhang

42
Q

Logit-Transformation

A

Relative Anteile normalisieren
Wandelt eine Wahrscheinlichkeit (0 < p < 1) in eine Zahl im Bereich von -unendlich bis +unendlich um.
Wird verwendet um eine Linearität herzustellen.

43
Q

Regressionsanalyse

A

Prüft die Form des Zusammenhangs. Wird häufig genutzt, um Prognosen aufzustellen.

44
Q

Prädiktor

A

unabhängige Variable (X) - kontrollierbar

45
Q

Zielvariable

A

abhängige Variable (Y)
Die Variable, dessen Veränderung gemessen wird, um den Einfluss der unabhängigen Variablen zu erkennen.

46
Q

Korrelationskoeffizient (r)

A

Zeigt Stärke und Richtung des linearen Zusammenhangs zwischen der abhängigen und unabhängigen Variablen.

47
Q

Residual Sum of Squares (RSS)

A

Gesamtabweichung aller Datenpunkte summiert und quadriert.
immer positv

48
Q

Residuenanalyse

A

Differenzen: Ei = reale Messwerte - Regressionslinie
Prüfung der Zulässigkeit des gewählten Regressionsmodell auf dem Datensatz

49
Q

Allgemeine Lineare Modelle
(~General Linear Models)

A

Zielvariable: normalverteilte Zufallsgröße (Gauß-Verteilung)

Kombination aus stetigen und kategorialen Prädiktorvariablen

Streuungszerlegung in additive Varianzkompetenzen:
- stetig
- kategorial
- Restvarianz

Prüfung: F-Statistik

50
Q

Verallgemeinerte Lineare Modelle
(~Generalized Linear Models)

A

Zielvariable: auch exponentiell Verteilte Zufallsgrößen (Poisson, Binomial,..)

Kombination aus stetigen und kategorialen Prädiktorvariablen

Streuungszerlegung in additive Varianzkompetenzen:
- stetig
- kategorial
- Restvarianz

Prüfung:
Gesamtmodell - x²-Statistik (Signifikanz); R², n² (Güte)
Hypothesentest - z-Statistik (Prädiktoren-Signifikanz)

51
Q

Kategoriale Prädiktoren

A

diskrete Kategorien oder Gruppen anstelle von Zahlenwerten.
F-Statistik: zeigt Stärke des Einflusses
Regressionskoeffizient: Zeigt Richtung beim Wechsel von Kategorie-Stufen

52
Q

Stetige Prädiktoren

A

Können jeden numerischen Wert innerhalb eines bestimmten Bereichs annehmen.
standardisierter Regressions-Koeffizient (beta): zeigt Stärke und Richtung des Einflusses
Pearson (r): zeigt Korrelation

53
Q

Konfidenzbänder

A

Geben an in welchem Bereich die wahren Werte mit einer bestimmten Wahrscheinlichkeit liegen.

Je niedriger das Bestimmtheitsmaß (R²-Wert), desto größer ist die Unsicherheit, und damit breiter die Konfidenzbänder.

54
Q

Optimumkurven

A

Teil der Bivariaten Regression
Anpassung einer quadratischen Funktion
(y = ax² + bx + c) mittels OLS-Regression, statt linearer OLS-Regression

55
Q

Chancenverhältnis (O)

A

(=odds ratio)
Verhältnis von Korrekt zu Falsch klassifizierten Fällen

optimal: O möglichst groß (zuverlässig)

Achtung kein echtes R²
- Pseudo-R², Tjur’s R² (empfohlen)