Bs Flashcards

1
Q

Reliabilität

A

Wiederholte Messung führt zu gleichem Ergebnis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Validität

A

Datengewinnung misst das, was gemessen werden soll

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Zentrale Tendenz

A

Median
Modus
Mittelwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Diskrete Variable

A

Set positiver Werte ist zählbar (z.B. Noten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Stetige Variable

A

Set positiver Werte ist nicht zählbar (z.B. Größe, Zeit)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Nominalskala

A

Diskrete Variable
Niedrigstes Messniveau
Keine Rangfolge
Nur Vergleiche

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Ordinalskala

A

Diskrete Variable
Variable mit natürlicher Ordnung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Intervallskala

A

Diskrete oder stetige Variable
Vergleiche von Distanzen von Ausprägung möglich
Kein absoluter Nullpunkt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ratioskala

A

Stetige Variable
Absoluter Nullpunkt
Verhältnisse können gebildet werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Lageparameter

A

Modus
Median
Mittelwert
Quantile
Quartile
Geometrisches Mittel
Boxplot
Ausreißer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Streuungsparameter

A

Minimum
Maximum
Spannweite
Varianz
Standardabweichung
Interquartilsabstand
Standardfehler
Schiefe
Kurtosis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Chi-Quadrat-Wert

A

Fasst Abweichungen zwischen erwarteten Häufigkeiten und beobachteten Häufigkeiten über alle Kategorien zusammen
Summe [ (O-E)^2 / E ]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Spearmansche Korrelationskoeffizient

A

Vergleich von Rangfolge der Werte zweier Variablen werden berücksichtigt
Positive Korrelation: niedrige Werte der einen gehen mit niedrigen Werten der anderen Variable einher
[0, +1]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Normalverteilung

A

Gauß‘sche Glockenkurve, stetige Verteilung
Eingipflig
Symmetrisch
[- unendlich, + unendlich]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Z-Transformation

A

Umrechnung einer speziellen Normalverteilung in eine Standardnormalverteilung (und umgekehrt)
Standardnormalverteilung: eingipflig, symmetrisch, Modus = Median = Mittelwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

keine Normalverteilung

A

Verteilungsfreie Verfahren verwenden (statt Mittelwert Median, statt
Standardabweichung Quartilsabstand)

Transformation der Daten (logarithmisch)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Poissonverteilung

A

diskrete Wahrscheinlichkeitsverteilung
Beschreibt die Verteilung von seltenen Ereignissen (Erfolgshäufigkeit in einem festen Zeitintervall, z.B. radioaktiver Zerfall oder Auftreten von Mutationen). E(X) = λ = n x p
Ist λ sehr groß, nähert sich die Poissonverteilung einer Normalverteilung an mit μ = λ und σ2 = λ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Konfidenzintervall

A

Intervall, in dem die wahre Lage eines Parameters mit einer gewissen Wahrscheinlichkeit liegt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Schätzer/Punktschätzer

A

Wenn die Parameter einer Grundgesamtheit unbekannt sind,
können diese aus einer Stichprobe abgeleitet werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Nullhypothese

A

Annahme, dass kein Zusammenhang vorliegt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Alternativhypothese

A

Annahme, dass es einen Zusammenhang gibt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Bias

A

Systematische Abweichung des Schätzers vom wahren Wert der Verteilung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Kleinste-Quadrate-Methode

A

Es wird eine Linie durch die Punkteverteilung zweier Variablen so bestimmt, dass die Summe der quadratischen Abweichung der Punkte auf der Kurve von den beobachteten Werten minimal ist.
Abweichungen heißen Residuen.
Methode wird z.B. in der Regressionsanalyse verwendet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Maximum-Likelihood-Schätzung

A

Auswahl der Schätzparameter für die wahren Parameter der Grundgesamtheit nach dem Prinzip der größten Wahrscheinlichkeit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Parametrische Tests

A

Vorausgesetzt ist eine bestimmte Art von Verteilung (z.B. Normalverteilung), dabei kann die Nullhypothese über die
Parameter formuliert werden, z.B. μ.

26
Q

Nicht-parametrische Tests

A

Keine bestimmte Verteilung vorausgesetzt (bei Nominalskalenniveau allgemein H0: Kein Zusammenhang).

27
Q

P-Wert

A

Bei der Auswertung wird oft nicht die Teststatistik angegeben (Vergleiche mit Tabellen), sondern ein p-Wert mit p ∈ [0 ; 1], der bedeutet, wie wahrscheinlich die betrachtete Stichprobe ist, wenn die Nullhypothese stimmen würde (bei gegebenem Signifikanzniveau). Berechnet wird also die Überschreitungswahrscheinlichkeit p, mit der die Stichprobe zufällig unter der Nullhypothese entstanden sein kann: kritische Schranke)
P ≤ α : Nullhypothese wird abgelehnt
P > α : Nullhypothese wird beibehalten

28
Q

Power

A

Es ist zumeist anschaulicher, nicht den β-Fehler als Wert anzugeben (z.B. das Risiko, dass der Test einen vorhandenen Unterschied übersieht, liegt bei 10%), sondern 1-β
Macht, Trennschärfe oder Güte eines statistischen Tests (z.B. der statistische Test hat eine Power von 90%)
bezeichnet Wahrscheinlichkeit, einen tatsächlich vorhandenen Unterschied zu erkennen
Power eines statistischen Tests ist abhängig von:
Fallzahl n
wahrem Unterschied zwischen den Gruppen
gewähltem Signifikanzniveau (Powerfunktion)

Je größer die Fallzahl, desto größer die Power
Je größer der Unterschied, desto größer die Power
Je höher das Risiko (α), desto größer die Power.

29
Q

Standardfehler

A

SE: Schätzung der Variabilität in einem theoretischen Set von Mittelwerten um die wahre Grundgesamtheit. Geringere Variabilität als in einer Verteilung, aber schwerer zu interpretieren.
SE = S / Wurzel(n)

30
Q

Standardabweichung

A

SD: Variabilität um den Mittelwert herum.
Leichter zu interpretieren als die Varianz.
s = Wurzel(s^2)

31
Q

Schiefe

A

Schwerpunkt der Verteilung einer Kurve.
S>0 rechtsschiefe, linkssteile Verteilung
Mittelwert > Median > Modus

S<0 linksschiefe, rechtssteile Verteilung
Mittelwert < Median < Modus

32
Q

Korrelationskoeffizient Pearson‘s r

A

Gibt die Stärke des
linearen Zusammenhangs zweier Variablen wieder.

1.0-0.9: Sehr hohe positive (negative) lineare Korrelation
0.0- -0.3: Vernachlässigbare lineare Korrelation

Niedriger Werte von r bedeuten nicht, dass es keinen Zusammenhang gibt, es können z.B. folgende Sachverhalte eine Rolle spielen:
- Ausreißer
- Kein linearer Zusammenhang
- Partielle Korrelationen („Confounder“)
- Gemeinsamkeits- oder Untergruppenkorrelation

33
Q

Kann Normalverteilung angenommen werden?

A
  • Stetiges Merkmal (mindestens 60 Ausprägungen möglich).
  • Falls Merkmale nur im positiven Bereich definiert sind (z.B. Größe, Gewicht): Mittelwert sollte 2-3 Mal so groß sein wie die Standardabweichung.
  • Unterscheid zwischen Mittelwert und Median sollte nicht zu groß sein (da sonst eine deutlich schiefe Verteilung vorliegt).
  • Eingipflig und symmetrisch.
  • Mehr als 100 Fälle, wenige Ausreißer/Extremfälle (nicht mehr als 3% der Fälle).
  • Etwa zwei Drittel der Fläche (68%) sollte zwischen
    Mittelwert +- Standardabweichung liegen
  • Test auf Normalverteilung, z.B. Kolmogorov-Smirnov-Anpassungstest.
34
Q

Binomialverteilung

A

diskrete Wahrscheinlichkeitsverteilung

Eintreten von genau zwei möglichen Ergebnissen „Erfolg“ und „Misserfolg“ mit der Wahrscheinlichkeit p und 1-p und E(X) = n x p.

Ist die Anzahl der Ereignisse sehr groß, nähert sich die Binomialverteilung einerNormalverteilung an mit μ = n x p.

35
Q

Poissonverteilung

A

diskrete Wahrscheinlichkeitsverteilung

Beschreibt die Verteilung von seltenen Ereignissen (Erfolgshäufigkeit in einem festen Zeitintervall, z.B. radioaktiver Zerfall oder Auftreten von Mutationen). E(X) = λ = n x p.

Ist λ sehr groß, nähert sich die Poissonverteilung einer Normalverteilung an mit μ = λ und σ2 = λ.

36
Q

Schätzungen

A

Eine Schätzung ist dann notwendig, wenn die Parameter einer Verteilung in der Grundgesamtheit unbekannt sind (z.B. μ und σ bei einer Normalverteilung, λ bei einer Poissonverteilung).

Eine genaue Bestimmung der wahren Parameter ist meist nicht möglich (z.B. keine Datenerhebung für die gesamte Population), deshalb sollen die ungefähren Werte aus einer Stichprobe abgeleitet werden, anhand von Schätzern, z.B. ොμ (oder തμ).

37
Q

Konfidenzintervalle

A

geben einen Wertebereich an, in dem sich mit einer gewissen Wahrscheinlichkeit der wahre Parameter der Grundgesamtheit befindet (Vertrauensbereich).

Das Konfidenzniveau ist üblicherweise 95%, es sind jedoch auch 99% etc. möglich.

38
Q

Richtige Entscheidung und Fehlertypen

A

Eine richtige Entscheidung trifft man, wenn man aufgrund der Stichprobe die Nullhypothese nicht verwirft, wenn sie tatsächlich in der Grundgesamtheit zutrifft. Ebenso, wenn man sie verwirft und sie trifft tatsächlich nicht zu.

Eine falsche Entscheidung trifft man, wenn man anhand der Stichprobe die Nullhypothese beibehält, obwohl in der Grundgesamtheit die Alternativhypothese zutrifft oder man sich für die Alternativhypothese entscheidet, obwohl die Nullhypothese stimmt.

H0 beibehalten, H0 wahr: Richtige Entscheidung
H0 abgelehnt, H0 wahr: Fehler 1. Art (α)
H0 beibehalten, H0 falsch: Fehler 2. Art (β)
H0 abgelehnt, H0 falsch: Richtige Entscheidung

39
Q

Chi-Quadrat-Unabhängigkeits-Test

A

Der Chi-Quadrat-Unabhängigkeits-Test ist geeignet, um Zusammenhänge zwischen zwei qualitativen Variablen zu überprüfen.
Voraussetzung: mindestens Nominalskalenniveau.

  1. Berechnung des Chi-Quadrat-Wertes.
  2. Festlegen des Signifikanzniveaus.
  3. Berechnung der Freiheitsgrade.
  4. Vergleich mit Tabellenwert.
  5. Prüfen, ob Chi-Quadrat-Wert größer ist als Vergleichswert der Tabelle.
  6. Bestimmen, ob die Nullhypothese verworfen werden kann oder beibehalten wird.
40
Q

Chi-Quadrat-Anpassungs-Test

A

untersucht, ob eine Stichprobe einer bestimmten Verteilung unterliegt oder signifikant davon abweicht. Man kann mit diesem Test untersuchen, ob die Stichprobe aus einer Binomialverteilung, einer Normalverteilung oder einer sonstigen Verteilung kommt.

  1. Einteilung in Klassen (bei stetigen Verteilungen in Intervalle zusammenfassen).
  2. Berechnung der erwarteten Häufigkeit für jede Klasse.
  3. Nullhypothese: Tatsächliche Anzahl in der Klasse = erwartete Häufigkeit in der Klasse.
  4. Berechnung der Teststatistik (Chi-Quadrat-Wert) bei gegebenem Signifikanzniveau und
    Freiheitsgraden.
  5. Prüfen, ob Chi-Quadrat-Wert größer ist als Vergleichswert der Tabelle.
  6. Bestimmen, ob die Nullhypothese verworfen werden kann oder beibehalten wird.
41
Q

t-Test

A

Überprüfung von zwei unabhängigen Stichproben X und Y auf Unterschiede zwischen den beiden Stichproben.

Annahmen: Normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert und unbekannter Varianz. Da diese Parameter in den meisten empirischen Untersuchungen unbekannt sind, kommt dem t-Test eine große praktische Bedeutung zu. t-Tests können durchgeführt werden für eine oder zwei Stichproben oder für unabhängige oder verbundene Stichproben.

42
Q

Wilcoxon-Test

A

auch Wilcoxon-Vorzeichen-Rang-Test

überprüft, ob die zentralen Tendenzen zweier abhängiger Stichproben (Messwiederholung, Paare, Matching) verschieden sind. Der Test wird verwendet, wenn die Voraussetzungen für die Anwendung eines t-Tests nicht erfüllt sind. Dabei werden nicht die Differenzen der Messwerte, sondern die Differenzen der Ränge betrachtet.

Beginnend mit der kleinsten Differenz (0 ausgeschlossen) werden die Differenzen unabhängig vom Vorzeichen aufwärts nummeriert. Mehrfach vorkommenden Messwerte („verbundene Ränge“) werden gemittelt. Positive und negative Rangplätze werden getrennt verzeichnet.

Der Wert der Teststatistik ist der kleinere der beiden Werte aus: (n: Anzahl der von 0 verschiedenen Paardifferenzen, T: Anzahl der positiven/negativen Ränge).

43
Q

Effektstärke

A

d von Cohen

dient zur Beurteilung der Bedeutsamkeit eines Ergebnisses. Es kann sein, dass die Unterschiede zwar signifikant sind, jedoch stellt sich die Frage, ob sie auch bedeutsam sind.

Zur Beurteilung dient die Einteilung von Cohen (1992):
r=0.10: schwacher Effekt.
r=0.25: mittlerer Effekt.
r=0.40: starker Effekt.

44
Q

Kolmogorov-Smirnov-Test

A

Mit dem Kolmogorov-Smirnov-Test kann man überprüfen, ob die Stichprobe mit einer vermuteten Verteilung (z.B. Normalverteilung) übereinstimmt. Dabei geht der Test davon aus, dass die tatsächliche Verteilung von einer hypothetischen Verteilung in einem beliebigen Punkt eine bestimmte flächenmäßige Abweichung nicht überschreiten darf, sonst würde man die Annahme der hypothetischen Verteilung verwerfen. Die größte auftretende Abweichung wird bewertet (extremste Differenzen).

Anwendbar für alle Skalenniveaus, für stetige Variablen jedoch wenig trennscharf. Auch für kleinere Stichproben verwendbar.

45
Q

Logrank-Test

A

überprüft die Nullhypothese, dass die Überlebenskurven zweier oder mehr Gruppen gleich sind. Für jede Gruppe wird die erwartete Anzahl mit der beobachteten Anzahl verglichen (entsprechend Chi-Quadrat-Unabhängigkeitstest).

46
Q

Exakter-Fisher-Test

A

überprüft die Unabhängigkeit zweier qualitativer Merkmale (Kontingenztabelle) entsprechend dem Chi-Quadrat-Unabhängigkeitstest. Allerdings kann der Exakte Fisher- test auch bei sehr kleinen Häufigkeiten korrekt berechnet werden.

47
Q

Mann-Whitney U-Test

A

Wilcoxon-Test für zwei Parallelgruppen; Rangsummen-Test

Verteilungsfreies Verfahren (wenn z.B. die Verteilungen sehr schief sind und deshalb der Mittelwert als Maß für die zentrale Tendenz ungeeignet ist), bei dem Ränge für beide Parallelgruppen berechnet werden, der Rangsummenwert der Gruppe A wird mit dem der Gruppe B verglichen. Es wird angenommen, dass sich die Rangsumme im Verhältnis der Fallzahlen auf die beiden Gruppen verteilt. Es werden demnach die erwarteten Häufigkeiten und die Teststatistik bestimmt, mit einer kritischen Schranke verglichen (bei gegebenem Signifikanzniveau).

48
Q

Kruskal-Wallis H-Test

A

Verallgemeinerung des Wilcoxon-Tests auf mehr als 2 Parallelgruppen. Dabei wird als Nullhypothese angenommen, dass alle Gruppen den gleichen Wert annehmen. Die Alternativhypothese heißt nicht, dass sich alle Gruppen unterscheiden. Ist der Test signifikant heißt das, dass sich mindestens eine Gruppe von den anderen unterscheidet.

49
Q

Varianzanalyse

A

statistisches Verfahren, um Mittelwerte miteinander zu vergleichen (ähnlich t-Test, jedoch vielseitiger). Die Varianz wird auf zwei Arten berechnet: Innerhalb der einzelnen Gruppen und zwischen den Gruppen. Dann wird getestet, ob sich die errechneten Varianzen unterscheiden.

Der dazugehörige Test heißt F-Test (F wie Fisher), der prüft, ob sich zwei Varianzen unterscheiden, in der Varianzanalyse prüft er, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen.
F = Varianz zwischen den Gruppen / Varianz innerhalb der Gruppen

Voraussetzung für die Anwendung:
- Stetige Variablen.
- Homogenität der Varianz in den Gruppen (der wahre Wert der Varianz innerhalb der Gruppen ist in allen Gruppen gleich und die beobachteten Varianzen unterscheiden sich
nur zufällig).
- F-Test: Normalverteilung der Zielgröße (unabhängige Variable).

50
Q

Lineare Regression

A

Das wichtigste und am häufigsten verwendete Analyseverfahren.

Aufgabe: Kausalanalyse (Ursache-Wirkungs-Beziehungen)

Die Wirkungen von einer oder mehreren unabhängigen
(=erklärenden) Variablen auf eine abhängige Variable werden
untersucht.

Anwendungen:
- Quantitative Beschreibung und Erklärung von Zusammenhängen
- Testen von Zusammenhangshypothesen („Je…desto“-Hypothesen)
- Durchführung von Prognosen

Voraussetzungen: abhängige und unabhängige Variablen sind metrisch

51
Q

Levene-Test

A

überprüft, ob die Varianzen zwischen den Gruppen sich nicht unterscheiden (= homogen sind). Varianzhomogenität ist eine Voraussetzung für die ANOVA.

52
Q

Korrelationskoeffizient r/R

A

Wertebereich: -1 ≤ r ≤ +1

Die Grenzfälle r=+1 und r=-1 treten auf, wenn alle gemessenen Punkte (xi,yi) auf einer Geraden liegen

Bei positiven Werten (r>0) steigt die Gerade, bei negativen Werten (r<0) sinkt sie.

Für r=0 verläuft die Gerade parallel zur x-Achse.

53
Q

Bestimmtheitsmaß r2/R2

A

Quadrat des Korrelationskoeffizienten, auch Determinationskoeffizient

Interpretation als Anteil der durch die Regression erklärten Streuung der Y-Werte

Hat man z.B. r=0.7 erhalten, dann ist r2=0.49, d.h. 49 % der Streuung der Y-Werte werden durch die lineare Abhängigkeit von X erklärt.

54
Q

Beta-Koeffizient

A

standardisierter Partial- koeffizient im Bereich -1 bis +1; sorgt für Vergleichbarkeit im multiplen Modell

55
Q

Logistische Regression

A

Variante der Regressionsanalyse mit einer abhängigen Variable Y.

Zielsetzungen: Erklärung von Gruppenunterschieden durch bestimmte Variablen, Berechnung von Gruppenzugehörigkeitswahrscheinlichkeiten, Entwicklung von Prognosemodellen.

Abhängige Variable:
- Dichotom (Ausprägungen 0 und 1) → binäre logistische Regression.
- Mulitnomial → multinomiale logistische Regression.

Unabhängige Variablen: metrisch oder dichotom.

56
Q

Odds Ratio

A

auch Effekt-Koeffizient Exp (B) genannt.

Odds Ratios beschreiben die Stärke des Zusammenhangs zwischen zwei Variablen => Maß der Effektstärke.

57
Q

Effekt-Koeffizient

A

exp(bj) bezeichnet das Verhältnis der Auswirkungen von zwei Ausprägungen einer unabhängigen Variable.

Steigt die unabhängige Variable um eine Einheit, verändern sich die Odds zugunsten des Ereignisses Y=1 um den Faktor ebj.

Der Effekt-Koeffizient kann Werte im Bereich ]0;+∞[ annehmen:
- Werte > 1 vergrößern die Odds
- Werte < 1 verringern die Odds
- Wert des Effekt-Koeffizienten = 1 hat keine Auswirkung auf Odds, also kein Einfluss.

Aus dem Regressionskoeffizient bj einer logistischen Regression kann direkt das Odds Ratio berechnet werden durch OR = exp(bj).

58
Q

Cox-Regression

A

analysiert die Zeit, bis ein bestimmtes Ereignis eintritt (z.B. Überleben), unter Berücksichtigung von einer oder mehreren Variablen.

Zensierungen: Ausscheiden aus der Beobachtung, ohne dass das betrachtete Ereignis eingetreten ist (sollte nicht mehr als ein Drittel der Fälle umfassen). Mit jeder Zensierung verringert sich die Fallzahl.

Systematischer Fehler: Für zensierte Fälle wird angenommen, dass sie eine unverzerrte Stichprobe sind, dies ist jedoch manchmal nicht gegeben (Bias z.B. durch Ausscheiden spezifischer Subgruppen, Erkrankungen etc.).

59
Q

Kaplan-Meier-Schätzer

A

Die Wahrscheinlichkeit, bis zu einer bestimmten Zeit zu überleben, setzt sich zusammen aus den bedingten Wahrscheinlichkeiten, von einem Zeitintervall zum nächsten zu überleben.

60
Q

Faktorenanalyse

A

Variablenverdichtung geht mit Informationsverlust einher, Verlust an erklärter Varianz: die Faktoren können i.d.R. in der Summe nur weniger Varianz erklären als die Ausgangsvariablen besitzen

Ziel: hohe Datenreduktion bei möglichst geringem Informationsverlust

Ähnliche Variablen werden zusammengefasst

61
Q

Clutteranalyse

A

exploratives Datenanalyseverfahren

Ziel: Erzeugung von Gruppen (= Klassen / Clustern), Klassifikation von Untersuchungsobjekten, die einander in Hinblick auf bestimmte Merkmale „ähnlich“ sind und sich gleichzeitig von anderen Klassen unterscheiden → Strukturentdeckung in Datenbeständen