Bs Flashcards

Question

Parametrische Tests

Answer 1

Vorausgesetzt ist eine bestimmte Art von Verteilung (z.B. Normalverteilung), dabei kann die Nullhypothese über die Parameter formuliert werden, z.B. μ.

Answer 2

Keine bestimmte Verteilung vorausgesetzt (bei Nominalskalenniveau allgemein H0: Kein Zusammenhang).

Answer 3

Bei der Auswertung wird oft nicht die Teststatistik angegeben (Vergleiche mit Tabellen), sondern ein p-Wert mit p ∈ [0 ; 1], der bedeutet, wie wahrscheinlich die betrachtete Stichprobe ist, wenn die Nullhypothese stimmen würde (bei gegebenem Signifikanzniveau). Berechnet wird also die Überschreitungswahrscheinlichkeit p, mit der die Stichprobe zufällig unter der Nullhypothese entstanden sein kann: kritische Schranke) P ≤ α : Nullhypothese wird abgelehnt P > α : Nullhypothese wird beibehalten

Answer 4

Es ist zumeist anschaulicher, nicht den β-Fehler als Wert anzugeben (z.B. das Risiko, dass der Test einen vorhandenen Unterschied übersieht, liegt bei 10%), sondern 1-β Macht, Trennschärfe oder Güte eines statistischen Tests (z.B. der statistische Test hat eine Power von 90%) bezeichnet Wahrscheinlichkeit, einen tatsächlich vorhandenen Unterschied zu erkennen Power eines statistischen Tests ist abhängig von: Fallzahl n wahrem Unterschied zwischen den Gruppen gewähltem Signifikanzniveau (Powerfunktion) Je größer die Fallzahl, desto größer die Power Je größer der Unterschied, desto größer die Power Je höher das Risiko (α), desto größer die Power.

Answer 5

SE: Schätzung der Variabilität in einem theoretischen Set von Mittelwerten um die wahre Grundgesamtheit. Geringere Variabilität als in einer Verteilung, aber schwerer zu interpretieren. SE = S / Wurzel(n)

Answer 6

SD: Variabilität um den Mittelwert herum. Leichter zu interpretieren als die Varianz. s = Wurzel(s^2)

Answer 7

Schwerpunkt der Verteilung einer Kurve. S>0 rechtsschiefe, linkssteile Verteilung Mittelwert > Median > Modus S<0 linksschiefe, rechtssteile Verteilung Mittelwert < Median < Modus

Answer 8

Gibt die Stärke des linearen Zusammenhangs zweier Variablen wieder. 1.0-0.9: Sehr hohe positive (negative) lineare Korrelation 0.0- -0.3: Vernachlässigbare lineare Korrelation Niedriger Werte von r bedeuten nicht, dass es keinen Zusammenhang gibt, es können z.B. folgende Sachverhalte eine Rolle spielen: - Ausreißer - Kein linearer Zusammenhang - Partielle Korrelationen („Confounder“) - Gemeinsamkeits- oder Untergruppenkorrelation

Answer 9

- Stetiges Merkmal (mindestens 60 Ausprägungen möglich). - Falls Merkmale nur im positiven Bereich definiert sind (z.B. Größe, Gewicht): Mittelwert sollte 2-3 Mal so groß sein wie die Standardabweichung. - Unterscheid zwischen Mittelwert und Median sollte nicht zu groß sein (da sonst eine deutlich schiefe Verteilung vorliegt). - Eingipflig und symmetrisch. - Mehr als 100 Fälle, wenige Ausreißer/Extremfälle (nicht mehr als 3% der Fälle). - Etwa zwei Drittel der Fläche (68%) sollte zwischen Mittelwert +- Standardabweichung liegen - Test auf Normalverteilung, z.B. Kolmogorov-Smirnov-Anpassungstest.

Answer 10

diskrete Wahrscheinlichkeitsverteilung Eintreten von genau zwei möglichen Ergebnissen „Erfolg“ und „Misserfolg“ mit der Wahrscheinlichkeit p und 1-p und E(X) = n x p. Ist die Anzahl der Ereignisse sehr groß, nähert sich die Binomialverteilung einerNormalverteilung an mit μ = n x p.

Answer 11

diskrete Wahrscheinlichkeitsverteilung Beschreibt die Verteilung von seltenen Ereignissen (Erfolgshäufigkeit in einem festen Zeitintervall, z.B. radioaktiver Zerfall oder Auftreten von Mutationen). E(X) = λ = n x p. Ist λ sehr groß, nähert sich die Poissonverteilung einer Normalverteilung an mit μ = λ und σ2 = λ.

Answer 12

Eine Schätzung ist dann notwendig, wenn die Parameter einer Verteilung in der Grundgesamtheit unbekannt sind (z.B. μ und σ bei einer Normalverteilung, λ bei einer Poissonverteilung). Eine genaue Bestimmung der wahren Parameter ist meist nicht möglich (z.B. keine Datenerhebung für die gesamte Population), deshalb sollen die ungefähren Werte aus einer Stichprobe abgeleitet werden, anhand von Schätzern, z.B. ොμ (oder തμ).

Answer 13

geben einen Wertebereich an, in dem sich mit einer gewissen Wahrscheinlichkeit der wahre Parameter der Grundgesamtheit befindet (Vertrauensbereich). Das Konfidenzniveau ist üblicherweise 95%, es sind jedoch auch 99% etc. möglich.

Answer 14

Eine richtige Entscheidung trifft man, wenn man aufgrund der Stichprobe die Nullhypothese nicht verwirft, wenn sie tatsächlich in der Grundgesamtheit zutrifft. Ebenso, wenn man sie verwirft und sie trifft tatsächlich nicht zu. Eine falsche Entscheidung trifft man, wenn man anhand der Stichprobe die Nullhypothese beibehält, obwohl in der Grundgesamtheit die Alternativhypothese zutrifft oder man sich für die Alternativhypothese entscheidet, obwohl die Nullhypothese stimmt. H0 beibehalten, H0 wahr: Richtige Entscheidung H0 abgelehnt, H0 wahr: Fehler 1. Art (α) H0 beibehalten, H0 falsch: Fehler 2. Art (β) H0 abgelehnt, H0 falsch: Richtige Entscheidung

Answer 15

Der Chi-Quadrat-Unabhängigkeits-Test ist geeignet, um Zusammenhänge zwischen zwei qualitativen Variablen zu überprüfen. Voraussetzung: mindestens Nominalskalenniveau. 1. Berechnung des Chi-Quadrat-Wertes. 2. Festlegen des Signifikanzniveaus. 3. Berechnung der Freiheitsgrade. 4. Vergleich mit Tabellenwert. 5. Prüfen, ob Chi-Quadrat-Wert größer ist als Vergleichswert der Tabelle. 6. Bestimmen, ob die Nullhypothese verworfen werden kann oder beibehalten wird.

Answer 16

untersucht, ob eine Stichprobe einer bestimmten Verteilung unterliegt oder signifikant davon abweicht. Man kann mit diesem Test untersuchen, ob die Stichprobe aus einer Binomialverteilung, einer Normalverteilung oder einer sonstigen Verteilung kommt. 1. Einteilung in Klassen (bei stetigen Verteilungen in Intervalle zusammenfassen). 2. Berechnung der erwarteten Häufigkeit für jede Klasse. 3. Nullhypothese: Tatsächliche Anzahl in der Klasse = erwartete Häufigkeit in der Klasse. 4. Berechnung der Teststatistik (Chi-Quadrat-Wert) bei gegebenem Signifikanzniveau und Freiheitsgraden. 5. Prüfen, ob Chi-Quadrat-Wert größer ist als Vergleichswert der Tabelle. 6. Bestimmen, ob die Nullhypothese verworfen werden kann oder beibehalten wird.

Answer 17

Überprüfung von zwei unabhängigen Stichproben X und Y auf Unterschiede zwischen den beiden Stichproben. Annahmen: Normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert und unbekannter Varianz. Da diese Parameter in den meisten empirischen Untersuchungen unbekannt sind, kommt dem t-Test eine große praktische Bedeutung zu. t-Tests können durchgeführt werden für eine oder zwei Stichproben oder für unabhängige oder verbundene Stichproben.

Answer 18

auch Wilcoxon-Vorzeichen-Rang-Test überprüft, ob die zentralen Tendenzen zweier abhängiger Stichproben (Messwiederholung, Paare, Matching) verschieden sind. Der Test wird verwendet, wenn die Voraussetzungen für die Anwendung eines t-Tests nicht erfüllt sind. Dabei werden nicht die Differenzen der Messwerte, sondern die Differenzen der Ränge betrachtet. Beginnend mit der kleinsten Differenz (0 ausgeschlossen) werden die Differenzen unabhängig vom Vorzeichen aufwärts nummeriert. Mehrfach vorkommenden Messwerte („verbundene Ränge“) werden gemittelt. Positive und negative Rangplätze werden getrennt verzeichnet. Der Wert der Teststatistik ist der kleinere der beiden Werte aus: (n: Anzahl der von 0 verschiedenen Paardifferenzen, T: Anzahl der positiven/negativen Ränge).

Answer 19

d von Cohen dient zur Beurteilung der Bedeutsamkeit eines Ergebnisses. Es kann sein, dass die Unterschiede zwar signifikant sind, jedoch stellt sich die Frage, ob sie auch bedeutsam sind. Zur Beurteilung dient die Einteilung von Cohen (1992): r=0.10: schwacher Effekt. r=0.25: mittlerer Effekt. r=0.40: starker Effekt.

Answer 20

Mit dem Kolmogorov-Smirnov-Test kann man überprüfen, ob die Stichprobe mit einer vermuteten Verteilung (z.B. Normalverteilung) übereinstimmt. Dabei geht der Test davon aus, dass die tatsächliche Verteilung von einer hypothetischen Verteilung in einem beliebigen Punkt eine bestimmte flächenmäßige Abweichung nicht überschreiten darf, sonst würde man die Annahme der hypothetischen Verteilung verwerfen. Die größte auftretende Abweichung wird bewertet (extremste Differenzen). Anwendbar für alle Skalenniveaus, für stetige Variablen jedoch wenig trennscharf. Auch für kleinere Stichproben verwendbar.

Answer 21

überprüft die Nullhypothese, dass die Überlebenskurven zweier oder mehr Gruppen gleich sind. Für jede Gruppe wird die erwartete Anzahl mit der beobachteten Anzahl verglichen (entsprechend Chi-Quadrat-Unabhängigkeitstest).

Answer 22

überprüft die Unabhängigkeit zweier qualitativer Merkmale (Kontingenztabelle) entsprechend dem Chi-Quadrat-Unabhängigkeitstest. Allerdings kann der Exakte Fisher- test auch bei sehr kleinen Häufigkeiten korrekt berechnet werden.

Answer 23

Wilcoxon-Test für zwei Parallelgruppen; Rangsummen-Test Verteilungsfreies Verfahren (wenn z.B. die Verteilungen sehr schief sind und deshalb der Mittelwert als Maß für die zentrale Tendenz ungeeignet ist), bei dem Ränge für beide Parallelgruppen berechnet werden, der Rangsummenwert der Gruppe A wird mit dem der Gruppe B verglichen. Es wird angenommen, dass sich die Rangsumme im Verhältnis der Fallzahlen auf die beiden Gruppen verteilt. Es werden demnach die erwarteten Häufigkeiten und die Teststatistik bestimmt, mit einer kritischen Schranke verglichen (bei gegebenem Signifikanzniveau).

Answer 24

Verallgemeinerung des Wilcoxon-Tests auf mehr als 2 Parallelgruppen. Dabei wird als Nullhypothese angenommen, dass alle Gruppen den gleichen Wert annehmen. Die Alternativhypothese heißt nicht, dass sich alle Gruppen unterscheiden. Ist der Test signifikant heißt das, dass sich mindestens eine Gruppe von den anderen unterscheidet.

Answer 25

statistisches Verfahren, um Mittelwerte miteinander zu vergleichen (ähnlich t-Test, jedoch vielseitiger). Die Varianz wird auf zwei Arten berechnet: Innerhalb der einzelnen Gruppen und zwischen den Gruppen. Dann wird getestet, ob sich die errechneten Varianzen unterscheiden. Der dazugehörige Test heißt F-Test (F wie Fisher), der prüft, ob sich zwei Varianzen unterscheiden, in der Varianzanalyse prüft er, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. F = Varianz zwischen den Gruppen / Varianz innerhalb der Gruppen Voraussetzung für die Anwendung: - Stetige Variablen. - Homogenität der Varianz in den Gruppen (der wahre Wert der Varianz innerhalb der Gruppen ist in allen Gruppen gleich und die beobachteten Varianzen unterscheiden sich nur zufällig). - F-Test: Normalverteilung der Zielgröße (unabhängige Variable).

Answer 26

Das wichtigste und am häufigsten verwendete Analyseverfahren. Aufgabe: Kausalanalyse (Ursache-Wirkungs-Beziehungen) Die Wirkungen von einer oder mehreren unabhängigen (=erklärenden) Variablen auf eine abhängige Variable werden untersucht. Anwendungen: - Quantitative Beschreibung und Erklärung von Zusammenhängen - Testen von Zusammenhangshypothesen („Je…desto“-Hypothesen) - Durchführung von Prognosen Voraussetzungen: abhängige und unabhängige Variablen sind metrisch

Answer 27

überprüft, ob die Varianzen zwischen den Gruppen sich nicht unterscheiden (= homogen sind). Varianzhomogenität ist eine Voraussetzung für die ANOVA.

Answer 28

Wertebereich: -1 ≤ r ≤ +1 Die Grenzfälle r=+1 und r=-1 treten auf, wenn alle gemessenen Punkte (xi,yi) auf einer Geraden liegen Bei positiven Werten (r>0) steigt die Gerade, bei negativen Werten (r<0) sinkt sie. Für r=0 verläuft die Gerade parallel zur x-Achse.

Answer 29

Quadrat des Korrelationskoeffizienten, auch Determinationskoeffizient Interpretation als Anteil der durch die Regression erklärten Streuung der Y-Werte Hat man z.B. r=0.7 erhalten, dann ist r2=0.49, d.h. 49 % der Streuung der Y-Werte werden durch die lineare Abhängigkeit von X erklärt.

Answer 30

standardisierter Partial- koeffizient im Bereich -1 bis +1; sorgt für Vergleichbarkeit im multiplen Modell

Answer 31

Variante der Regressionsanalyse mit einer abhängigen Variable Y. Zielsetzungen: Erklärung von Gruppenunterschieden durch bestimmte Variablen, Berechnung von Gruppenzugehörigkeitswahrscheinlichkeiten, Entwicklung von Prognosemodellen. Abhängige Variable: - Dichotom (Ausprägungen 0 und 1) → binäre logistische Regression. - Mulitnomial → multinomiale logistische Regression. Unabhängige Variablen: metrisch oder dichotom.

Answer 32

auch Effekt-Koeffizient Exp (B) genannt. Odds Ratios beschreiben die Stärke des Zusammenhangs zwischen zwei Variablen => Maß der Effektstärke.

Answer 33

exp(bj) bezeichnet das Verhältnis der Auswirkungen von zwei Ausprägungen einer unabhängigen Variable. Steigt die unabhängige Variable um eine Einheit, verändern sich die Odds zugunsten des Ereignisses Y=1 um den Faktor ebj. Der Effekt-Koeffizient kann Werte im Bereich ]0;+∞[ annehmen: - Werte > 1 vergrößern die Odds - Werte < 1 verringern die Odds - Wert des Effekt-Koeffizienten = 1 hat keine Auswirkung auf Odds, also kein Einfluss. Aus dem Regressionskoeffizient bj einer logistischen Regression kann direkt das Odds Ratio berechnet werden durch OR = exp(bj).

Answer 34

analysiert die Zeit, bis ein bestimmtes Ereignis eintritt (z.B. Überleben), unter Berücksichtigung von einer oder mehreren Variablen. Zensierungen: Ausscheiden aus der Beobachtung, ohne dass das betrachtete Ereignis eingetreten ist (sollte nicht mehr als ein Drittel der Fälle umfassen). Mit jeder Zensierung verringert sich die Fallzahl. Systematischer Fehler: Für zensierte Fälle wird angenommen, dass sie eine unverzerrte Stichprobe sind, dies ist jedoch manchmal nicht gegeben (Bias z.B. durch Ausscheiden spezifischer Subgruppen, Erkrankungen etc.).

Answer 35

Die Wahrscheinlichkeit, bis zu einer bestimmten Zeit zu überleben, setzt sich zusammen aus den bedingten Wahrscheinlichkeiten, von einem Zeitintervall zum nächsten zu überleben.

Answer 36

Variablenverdichtung geht mit Informationsverlust einher, Verlust an erklärter Varianz: die Faktoren können i.d.R. in der Summe nur weniger Varianz erklären als die Ausgangsvariablen besitzen Ziel: hohe Datenreduktion bei möglichst geringem Informationsverlust Ähnliche Variablen werden zusammengefasst

Answer 37

exploratives Datenanalyseverfahren Ziel: Erzeugung von Gruppen (= Klassen / Clustern), Klassifikation von Untersuchungsobjekten, die einander in Hinblick auf bestimmte Merkmale „ähnlich“ sind und sich gleichzeitig von anderen Klassen unterscheiden → Strukturentdeckung in Datenbeständen

Bs Flashcards

(61 cards)