Bs Flashcards

1
Q

Reliabilität

A

Wiederholte Messung führt zu gleichem Ergebnis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Validität

A

Datengewinnung misst das, was gemessen werden soll

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Zentrale Tendenz

A

Median
Modus
Mittelwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Diskrete Variable

A

Set positiver Werte ist zählbar (z.B. Noten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Stetige Variable

A

Set positiver Werte ist nicht zählbar (z.B. Größe, Zeit)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Nominalskala

A

Diskrete Variable
Niedrigstes Messniveau
Keine Rangfolge
Nur Vergleiche

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Ordinalskala

A

Diskrete Variable
Variable mit natürlicher Ordnung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Intervallskala

A

Diskrete oder stetige Variable
Vergleiche von Distanzen von Ausprägung möglich
Kein absoluter Nullpunkt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ratioskala

A

Stetige Variable
Absoluter Nullpunkt
Verhältnisse können gebildet werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Lageparameter

A

Modus
Median
Mittelwert
Quantile
Quartile
Geometrisches Mittel
Boxplot
Ausreißer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Streuungsparameter

A

Minimum
Maximum
Spannweite
Varianz
Standardabweichung
Interquartilsabstand
Standardfehler
Schiefe
Kurtosis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Chi-Quadrat-Wert

A

Fasst Abweichungen zwischen erwarteten Häufigkeiten und beobachteten Häufigkeiten über alle Kategorien zusammen
Summe [ (O-E)^2 / E ]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Spearmansche Korrelationskoeffizient

A

Vergleich von Rangfolge der Werte zweier Variablen werden berücksichtigt
Positive Korrelation: niedrige Werte der einen gehen mit niedrigen Werten der anderen Variable einher
[0, +1]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Normalverteilung

A

Gauߑsche Glockenkurve, stetige Verteilung
Eingipflig
Symmetrisch
[- unendlich, + unendlich]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Z-Transformation

A

Umrechnung einer speziellen Normalverteilung in eine Standardnormalverteilung (und umgekehrt)
Standardnormalverteilung: eingipflig, symmetrisch, Modus = Median = Mittelwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

keine Normalverteilung

A

Verteilungsfreie Verfahren verwenden (statt Mittelwert Median, statt
Standardabweichung Quartilsabstand)

Transformation der Daten (logarithmisch)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Poissonverteilung

A

diskrete Wahrscheinlichkeitsverteilung
Beschreibt die Verteilung von seltenen Ereignissen (Erfolgshäufigkeit in einem festen Zeitintervall, z.B. radioaktiver Zerfall oder Auftreten von Mutationen). E(X) = λ = n x p
Ist λ sehr groß, nähert sich die Poissonverteilung einer Normalverteilung an mit μ = λ und σ2 = λ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Konfidenzintervall

A

Intervall, in dem die wahre Lage eines Parameters mit einer gewissen Wahrscheinlichkeit liegt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Schätzer/Punktschätzer

A

Wenn die Parameter einer Grundgesamtheit unbekannt sind,
können diese aus einer Stichprobe abgeleitet werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Nullhypothese

A

Annahme, dass kein Zusammenhang vorliegt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Alternativhypothese

A

Annahme, dass es einen Zusammenhang gibt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Bias

A

Systematische Abweichung des Schätzers vom wahren Wert der Verteilung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Kleinste-Quadrate-Methode

A

Es wird eine Linie durch die Punkteverteilung zweier Variablen so bestimmt, dass die Summe der quadratischen Abweichung der Punkte auf der Kurve von den beobachteten Werten minimal ist.
Abweichungen heißen Residuen.
Methode wird z.B. in der Regressionsanalyse verwendet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Maximum-Likelihood-Schätzung

A

Auswahl der Schätzparameter für die wahren Parameter der Grundgesamtheit nach dem Prinzip der größten Wahrscheinlichkeit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Parametrische Tests
Vorausgesetzt ist eine bestimmte Art von Verteilung (z.B. Normalverteilung), dabei kann die Nullhypothese über die Parameter formuliert werden, z.B. μ.
26
Nicht-parametrische Tests
Keine bestimmte Verteilung vorausgesetzt (bei Nominalskalenniveau allgemein H0: Kein Zusammenhang).
27
P-Wert
Bei der Auswertung wird oft nicht die Teststatistik angegeben (Vergleiche mit Tabellen), sondern ein p-Wert mit p ∈ [0 ; 1], der bedeutet, wie wahrscheinlich die betrachtete Stichprobe ist, wenn die Nullhypothese stimmen würde (bei gegebenem Signifikanzniveau). Berechnet wird also die Überschreitungswahrscheinlichkeit p, mit der die Stichprobe zufällig unter der Nullhypothese entstanden sein kann: kritische Schranke) P ≤ α : Nullhypothese wird abgelehnt P > α : Nullhypothese wird beibehalten
28
Power
Es ist zumeist anschaulicher, nicht den β-Fehler als Wert anzugeben (z.B. das Risiko, dass der Test einen vorhandenen Unterschied übersieht, liegt bei 10%), sondern 1-β Macht, Trennschärfe oder Güte eines statistischen Tests (z.B. der statistische Test hat eine Power von 90%) bezeichnet Wahrscheinlichkeit, einen tatsächlich vorhandenen Unterschied zu erkennen Power eines statistischen Tests ist abhängig von: Fallzahl n wahrem Unterschied zwischen den Gruppen gewähltem Signifikanzniveau (Powerfunktion) Je größer die Fallzahl, desto größer die Power Je größer der Unterschied, desto größer die Power Je höher das Risiko (α), desto größer die Power.
29
Standardfehler
SE: Schätzung der Variabilität in einem theoretischen Set von Mittelwerten um die wahre Grundgesamtheit. Geringere Variabilität als in einer Verteilung, aber schwerer zu interpretieren. SE = S / Wurzel(n)
30
Standardabweichung
SD: Variabilität um den Mittelwert herum. Leichter zu interpretieren als die Varianz. s = Wurzel(s^2)
31
Schiefe
Schwerpunkt der Verteilung einer Kurve. S>0 rechtsschiefe, linkssteile Verteilung Mittelwert > Median > Modus S<0 linksschiefe, rechtssteile Verteilung Mittelwert < Median < Modus
32
Korrelationskoeffizient Pearson‘s r
Gibt die Stärke des linearen Zusammenhangs zweier Variablen wieder. 1.0-0.9: Sehr hohe positive (negative) lineare Korrelation 0.0- -0.3: Vernachlässigbare lineare Korrelation Niedriger Werte von r bedeuten nicht, dass es keinen Zusammenhang gibt, es können z.B. folgende Sachverhalte eine Rolle spielen: - Ausreißer - Kein linearer Zusammenhang - Partielle Korrelationen („Confounder“) - Gemeinsamkeits- oder Untergruppenkorrelation
33
Kann Normalverteilung angenommen werden?
- Stetiges Merkmal (mindestens 60 Ausprägungen möglich). - Falls Merkmale nur im positiven Bereich definiert sind (z.B. Größe, Gewicht): Mittelwert sollte 2-3 Mal so groß sein wie die Standardabweichung. - Unterscheid zwischen Mittelwert und Median sollte nicht zu groß sein (da sonst eine deutlich schiefe Verteilung vorliegt). - Eingipflig und symmetrisch. - Mehr als 100 Fälle, wenige Ausreißer/Extremfälle (nicht mehr als 3% der Fälle). - Etwa zwei Drittel der Fläche (68%) sollte zwischen Mittelwert +- Standardabweichung liegen - Test auf Normalverteilung, z.B. Kolmogorov-Smirnov-Anpassungstest.
34
Binomialverteilung
diskrete Wahrscheinlichkeitsverteilung Eintreten von genau zwei möglichen Ergebnissen „Erfolg“ und „Misserfolg“ mit der Wahrscheinlichkeit p und 1-p und E(X) = n x p. Ist die Anzahl der Ereignisse sehr groß, nähert sich die Binomialverteilung einerNormalverteilung an mit μ = n x p.
35
Poissonverteilung
diskrete Wahrscheinlichkeitsverteilung Beschreibt die Verteilung von seltenen Ereignissen (Erfolgshäufigkeit in einem festen Zeitintervall, z.B. radioaktiver Zerfall oder Auftreten von Mutationen). E(X) = λ = n x p. Ist λ sehr groß, nähert sich die Poissonverteilung einer Normalverteilung an mit μ = λ und σ2 = λ.
36
Schätzungen
Eine Schätzung ist dann notwendig, wenn die Parameter einer Verteilung in der Grundgesamtheit unbekannt sind (z.B. μ und σ bei einer Normalverteilung, λ bei einer Poissonverteilung). Eine genaue Bestimmung der wahren Parameter ist meist nicht möglich (z.B. keine Datenerhebung für die gesamte Population), deshalb sollen die ungefähren Werte aus einer Stichprobe abgeleitet werden, anhand von Schätzern, z.B. ොμ (oder തμ).
37
Konfidenzintervalle
geben einen Wertebereich an, in dem sich mit einer gewissen Wahrscheinlichkeit der wahre Parameter der Grundgesamtheit befindet (Vertrauensbereich). Das Konfidenzniveau ist üblicherweise 95%, es sind jedoch auch 99% etc. möglich.
38
Richtige Entscheidung und Fehlertypen
Eine richtige Entscheidung trifft man, wenn man aufgrund der Stichprobe die Nullhypothese nicht verwirft, wenn sie tatsächlich in der Grundgesamtheit zutrifft. Ebenso, wenn man sie verwirft und sie trifft tatsächlich nicht zu. Eine falsche Entscheidung trifft man, wenn man anhand der Stichprobe die Nullhypothese beibehält, obwohl in der Grundgesamtheit die Alternativhypothese zutrifft oder man sich für die Alternativhypothese entscheidet, obwohl die Nullhypothese stimmt. H0 beibehalten, H0 wahr: Richtige Entscheidung H0 abgelehnt, H0 wahr: Fehler 1. Art (α) H0 beibehalten, H0 falsch: Fehler 2. Art (β) H0 abgelehnt, H0 falsch: Richtige Entscheidung
39
Chi-Quadrat-Unabhängigkeits-Test
Der Chi-Quadrat-Unabhängigkeits-Test ist geeignet, um Zusammenhänge zwischen zwei qualitativen Variablen zu überprüfen. Voraussetzung: mindestens Nominalskalenniveau. 1. Berechnung des Chi-Quadrat-Wertes. 2. Festlegen des Signifikanzniveaus. 3. Berechnung der Freiheitsgrade. 4. Vergleich mit Tabellenwert. 5. Prüfen, ob Chi-Quadrat-Wert größer ist als Vergleichswert der Tabelle. 6. Bestimmen, ob die Nullhypothese verworfen werden kann oder beibehalten wird.
40
Chi-Quadrat-Anpassungs-Test
untersucht, ob eine Stichprobe einer bestimmten Verteilung unterliegt oder signifikant davon abweicht. Man kann mit diesem Test untersuchen, ob die Stichprobe aus einer Binomialverteilung, einer Normalverteilung oder einer sonstigen Verteilung kommt. 1. Einteilung in Klassen (bei stetigen Verteilungen in Intervalle zusammenfassen). 2. Berechnung der erwarteten Häufigkeit für jede Klasse. 3. Nullhypothese: Tatsächliche Anzahl in der Klasse = erwartete Häufigkeit in der Klasse. 4. Berechnung der Teststatistik (Chi-Quadrat-Wert) bei gegebenem Signifikanzniveau und Freiheitsgraden. 5. Prüfen, ob Chi-Quadrat-Wert größer ist als Vergleichswert der Tabelle. 6. Bestimmen, ob die Nullhypothese verworfen werden kann oder beibehalten wird.
41
t-Test
Überprüfung von zwei unabhängigen Stichproben X und Y auf Unterschiede zwischen den beiden Stichproben. Annahmen: Normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert und unbekannter Varianz. Da diese Parameter in den meisten empirischen Untersuchungen unbekannt sind, kommt dem t-Test eine große praktische Bedeutung zu. t-Tests können durchgeführt werden für eine oder zwei Stichproben oder für unabhängige oder verbundene Stichproben.
42
Wilcoxon-Test
auch Wilcoxon-Vorzeichen-Rang-Test überprüft, ob die zentralen Tendenzen zweier abhängiger Stichproben (Messwiederholung, Paare, Matching) verschieden sind. Der Test wird verwendet, wenn die Voraussetzungen für die Anwendung eines t-Tests nicht erfüllt sind. Dabei werden nicht die Differenzen der Messwerte, sondern die Differenzen der Ränge betrachtet. Beginnend mit der kleinsten Differenz (0 ausgeschlossen) werden die Differenzen unabhängig vom Vorzeichen aufwärts nummeriert. Mehrfach vorkommenden Messwerte („verbundene Ränge“) werden gemittelt. Positive und negative Rangplätze werden getrennt verzeichnet. Der Wert der Teststatistik ist der kleinere der beiden Werte aus: (n: Anzahl der von 0 verschiedenen Paardifferenzen, T: Anzahl der positiven/negativen Ränge).
43
Effektstärke
d von Cohen dient zur Beurteilung der Bedeutsamkeit eines Ergebnisses. Es kann sein, dass die Unterschiede zwar signifikant sind, jedoch stellt sich die Frage, ob sie auch bedeutsam sind. Zur Beurteilung dient die Einteilung von Cohen (1992): r=0.10: schwacher Effekt. r=0.25: mittlerer Effekt. r=0.40: starker Effekt.
44
Kolmogorov-Smirnov-Test
Mit dem Kolmogorov-Smirnov-Test kann man überprüfen, ob die Stichprobe mit einer vermuteten Verteilung (z.B. Normalverteilung) übereinstimmt. Dabei geht der Test davon aus, dass die tatsächliche Verteilung von einer hypothetischen Verteilung in einem beliebigen Punkt eine bestimmte flächenmäßige Abweichung nicht überschreiten darf, sonst würde man die Annahme der hypothetischen Verteilung verwerfen. Die größte auftretende Abweichung wird bewertet (extremste Differenzen). Anwendbar für alle Skalenniveaus, für stetige Variablen jedoch wenig trennscharf. Auch für kleinere Stichproben verwendbar.
45
Logrank-Test
überprüft die Nullhypothese, dass die Überlebenskurven zweier oder mehr Gruppen gleich sind. Für jede Gruppe wird die erwartete Anzahl mit der beobachteten Anzahl verglichen (entsprechend Chi-Quadrat-Unabhängigkeitstest).
46
Exakter-Fisher-Test
überprüft die Unabhängigkeit zweier qualitativer Merkmale (Kontingenztabelle) entsprechend dem Chi-Quadrat-Unabhängigkeitstest. Allerdings kann der Exakte Fisher- test auch bei sehr kleinen Häufigkeiten korrekt berechnet werden.
47
Mann-Whitney U-Test
Wilcoxon-Test für zwei Parallelgruppen; Rangsummen-Test Verteilungsfreies Verfahren (wenn z.B. die Verteilungen sehr schief sind und deshalb der Mittelwert als Maß für die zentrale Tendenz ungeeignet ist), bei dem Ränge für beide Parallelgruppen berechnet werden, der Rangsummenwert der Gruppe A wird mit dem der Gruppe B verglichen. Es wird angenommen, dass sich die Rangsumme im Verhältnis der Fallzahlen auf die beiden Gruppen verteilt. Es werden demnach die erwarteten Häufigkeiten und die Teststatistik bestimmt, mit einer kritischen Schranke verglichen (bei gegebenem Signifikanzniveau).
48
Kruskal-Wallis H-Test
Verallgemeinerung des Wilcoxon-Tests auf mehr als 2 Parallelgruppen. Dabei wird als Nullhypothese angenommen, dass alle Gruppen den gleichen Wert annehmen. Die Alternativhypothese heißt nicht, dass sich alle Gruppen unterscheiden. Ist der Test signifikant heißt das, dass sich mindestens eine Gruppe von den anderen unterscheidet.
49
Varianzanalyse
statistisches Verfahren, um Mittelwerte miteinander zu vergleichen (ähnlich t-Test, jedoch vielseitiger). Die Varianz wird auf zwei Arten berechnet: Innerhalb der einzelnen Gruppen und zwischen den Gruppen. Dann wird getestet, ob sich die errechneten Varianzen unterscheiden. Der dazugehörige Test heißt F-Test (F wie Fisher), der prüft, ob sich zwei Varianzen unterscheiden, in der Varianzanalyse prüft er, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. F = Varianz zwischen den Gruppen / Varianz innerhalb der Gruppen Voraussetzung für die Anwendung: - Stetige Variablen. - Homogenität der Varianz in den Gruppen (der wahre Wert der Varianz innerhalb der Gruppen ist in allen Gruppen gleich und die beobachteten Varianzen unterscheiden sich nur zufällig). - F-Test: Normalverteilung der Zielgröße (unabhängige Variable).
50
Lineare Regression
Das wichtigste und am häufigsten verwendete Analyseverfahren. Aufgabe: Kausalanalyse (Ursache-Wirkungs-Beziehungen) Die Wirkungen von einer oder mehreren unabhängigen (=erklärenden) Variablen auf eine abhängige Variable werden untersucht. Anwendungen: - Quantitative Beschreibung und Erklärung von Zusammenhängen - Testen von Zusammenhangshypothesen („Je…desto“-Hypothesen) - Durchführung von Prognosen Voraussetzungen: abhängige und unabhängige Variablen sind metrisch
51
Levene-Test
überprüft, ob die Varianzen zwischen den Gruppen sich nicht unterscheiden (= homogen sind). Varianzhomogenität ist eine Voraussetzung für die ANOVA.
52
Korrelationskoeffizient r/R
Wertebereich: -1 ≤ r ≤ +1 Die Grenzfälle r=+1 und r=-1 treten auf, wenn alle gemessenen Punkte (xi,yi) auf einer Geraden liegen Bei positiven Werten (r>0) steigt die Gerade, bei negativen Werten (r<0) sinkt sie. Für r=0 verläuft die Gerade parallel zur x-Achse.
53
Bestimmtheitsmaß r2/R2
Quadrat des Korrelationskoeffizienten, auch Determinationskoeffizient Interpretation als Anteil der durch die Regression erklärten Streuung der Y-Werte Hat man z.B. r=0.7 erhalten, dann ist r2=0.49, d.h. 49 % der Streuung der Y-Werte werden durch die lineare Abhängigkeit von X erklärt.
54
Beta-Koeffizient
standardisierter Partial- koeffizient im Bereich -1 bis +1; sorgt für Vergleichbarkeit im multiplen Modell
55
Logistische Regression
Variante der Regressionsanalyse mit einer abhängigen Variable Y. Zielsetzungen: Erklärung von Gruppenunterschieden durch bestimmte Variablen, Berechnung von Gruppenzugehörigkeitswahrscheinlichkeiten, Entwicklung von Prognosemodellen. Abhängige Variable: - Dichotom (Ausprägungen 0 und 1) → binäre logistische Regression. - Mulitnomial → multinomiale logistische Regression. Unabhängige Variablen: metrisch oder dichotom.
56
Odds Ratio
auch Effekt-Koeffizient Exp (B) genannt. Odds Ratios beschreiben die Stärke des Zusammenhangs zwischen zwei Variablen => Maß der Effektstärke.
57
Effekt-Koeffizient
exp(bj) bezeichnet das Verhältnis der Auswirkungen von zwei Ausprägungen einer unabhängigen Variable. Steigt die unabhängige Variable um eine Einheit, verändern sich die Odds zugunsten des Ereignisses Y=1 um den Faktor ebj. Der Effekt-Koeffizient kann Werte im Bereich ]0;+∞[ annehmen: - Werte > 1 vergrößern die Odds - Werte < 1 verringern die Odds - Wert des Effekt-Koeffizienten = 1 hat keine Auswirkung auf Odds, also kein Einfluss. Aus dem Regressionskoeffizient bj einer logistischen Regression kann direkt das Odds Ratio berechnet werden durch OR = exp(bj).
58
Cox-Regression
analysiert die Zeit, bis ein bestimmtes Ereignis eintritt (z.B. Überleben), unter Berücksichtigung von einer oder mehreren Variablen. Zensierungen: Ausscheiden aus der Beobachtung, ohne dass das betrachtete Ereignis eingetreten ist (sollte nicht mehr als ein Drittel der Fälle umfassen). Mit jeder Zensierung verringert sich die Fallzahl. Systematischer Fehler: Für zensierte Fälle wird angenommen, dass sie eine unverzerrte Stichprobe sind, dies ist jedoch manchmal nicht gegeben (Bias z.B. durch Ausscheiden spezifischer Subgruppen, Erkrankungen etc.).
59
Kaplan-Meier-Schätzer
Die Wahrscheinlichkeit, bis zu einer bestimmten Zeit zu überleben, setzt sich zusammen aus den bedingten Wahrscheinlichkeiten, von einem Zeitintervall zum nächsten zu überleben.
60
Faktorenanalyse
Variablenverdichtung geht mit Informationsverlust einher, Verlust an erklärter Varianz: die Faktoren können i.d.R. in der Summe nur weniger Varianz erklären als die Ausgangsvariablen besitzen Ziel: hohe Datenreduktion bei möglichst geringem Informationsverlust Ähnliche Variablen werden zusammengefasst
61
Clutteranalyse
exploratives Datenanalyseverfahren Ziel: Erzeugung von Gruppen (= Klassen / Clustern), Klassifikation von Untersuchungsobjekten, die einander in Hinblick auf bestimmte Merkmale „ähnlich“ sind und sich gleichzeitig von anderen Klassen unterscheiden → Strukturentdeckung in Datenbeständen