Angewandte Statistik Flashcards
Skalen (Def., Niveau, Arten)
- Skala = Einteilung des Wertebereichs eines Merkmals
- je nach Differenzierungsgrad höheres oder niedrigeres Messniveau = Skalenniveau
- Skalenniveau: wichtigste Entscheidungsgrundlage für die Auswahl statistischer Verfahren
- Nominal-, Ordinal-, Intervall-, Rationalskala
Nominalskala (Katgorieskala)
- kategoriale Skala
- Datentyp: qualitativ, diskret
- Ausprägungen nominaler Merkmale:
- Namen der Kategorien
- KEINE Zahlen (auch, wenn Zahlencodes verwendet werden!)
- keine natürliche Rangordnung
- Maß der zentralen Tendenz: Modus (Modalwert) -> bezeichnet das Merkmal, das am häufigsten ausgeprägt ist
- z.B. Geschlecht, Haarfarbe,…
Ordinalskala (Rangskala)
- kategoriale Skala
- Datentyp: semiqualitativ, diskret
- natürliche Rangordnung (Größer-Kleiner- Beziehung) -> Anordnung nach bestimmten Kriterien/ Ausprägungsstärke
- Merkmalsausprägungen sind KEINE Zahlen (auch , wenn Zahlencodes verwendet werden!)
- keine Aussage zu Abständen
- Kategorien oftmals nicht aquidistant
- Bsp.:Krankheitsstadien, Schichtzugehörigkeit, Bidungsabschluss, sozialer Status
- zentrale Tendenz: Median (Zentralwert) -> steht in der Mitte, wenn alle Werte hierarchisch in einer Reihe geordnet sind
- Maß für Streuung: Interquartilenabstand
Intervallskala (Einheitenskala)
- metrische Skala
- Datentyp: quantitativ, diskret oder stetig
- äquidistante Einheiten (gleiche Intervalle)
- Merkmalsausprägungen sind Zahlen
- Besonderheit: Nullpunkt willkürlich festgelegt -> KEINEN absoluten Nullpunkt
- sinnvolle Berechnungen: Addition/ Subtraktion (KEINE Multiplikation/ Division)
- Berechnugn von Mittelwert (arithmetischem Mittel) und Standardabweichung kann erfolgen
- Bsp.: Temperaturskala nach Celsius
Verhältnisskala (Rational-/ Absolutskala)
- metrische Skala
- Datentyp: quantitativ, diskret oder stetig
- absoluter Nullpunkt
- Berechnungen: Addition/ Subtraktion, Multiplikation/ Division
- Bsp.: Körpergewicht, Temp. in Kelvin, Reaktionszeiten, Enzymaktivitäten,…
- Maß der zentralen Tendenz: geometrisches Mittel (n-te Wurzel des Produkts von n Zahlen)
Beschreibende Statistik von qualitativen Merkmalen
- nominalskalierte M.: nur durch Angabe von Häutigkeiten und Modalwert möglich
- ordinalskalierte M.: zusätzlich kann der Median (oder eine andere Perzentile) bestimmt werden -> ist jedoch wenig sinnvoll
- Darstellung: Kreis-/ Balkendiagramme
absolute und relative Häufigkeit
- Häufigkeiten = Ergebnisse einer Zählung
- absolute H. (ni): Fallzahl in Kategorie Nr. i von k -> die absoluten Häufigkieten addieren sich zur Gesamtzahl n
-
relative H. (hi): Anteil von ni an n
- Nominierung auf n -> bessere Vergleichbarkeit
- addieren sich zu 1 = 100%

Modalwert
= häufigste Wert in der Stichprobe
Beschreibende Statistik von quantitativen Merkmalen
- Berechnung von Lagemaßen z.B. Mittelwert, Percentilen
- Angabe von Streumaßen
- Darstellung: Boxplot, Histogramm, Streudiagramm
Lagemaße
= fassen alle Werte eines Merkmals in einer Zahl zusammen und lassen die Charakterisierung der Stichprobe zu
- Mittelwert
- Zentralwert -> bei gerader Werteanzahl nimmt man die beiden Zentralwerte und bildet darauß den Mittelwert
- Quantile / Perzentile und Quartile: geben Sie einen Wert der Stichprobe unterschreitet
- Quantil: Angabe als Zahlt zwischen 1 und 0 -> Bsp .: das 0,15- Quantil ist der Wert der Stichprobe, der von 0,15 der Teilnehmer unterschrieben wird
- Perzentil (Prozentrang): Angabe als Prozentsatz -> Bsp .: ein 10-jähriger Junde mit der Größe 1,47m liegt auf dem 90% - Perzentil (0,9-Quantil) wurde beduetet, nämlich 90% der Jungen im gleichen Alter sind
- Quartil = spezifisches Quantile, 1/4 (1.Quartil), 1/2 (2. Quantil) oder 3/4 (3. Quantil) unterschritten wird
-> Median = 50% - Perzentil = 0,5 - Quantil = 2. Quartil
Streumaße
= geben an wie weit die Daten von einem Lagemaß abweichen
- Spannweite (größter Wert - kleinster Wert)
- Interquartilabstand ( 3. Quartil - 1. Quartil)
- Standardabweichung ( mittlere Abweichung vom Mittelwert) = Wurzel der Varianz
Kaplan- Meier- Analyse
= Sonderfall, beschreibende Statistik bei Ereigniszeitdaten (z.B. Zeit bis bei Pat. ein Ereignis eintritt)
- Ereigniszeitdaten sind weder qual. noch quant. Daten (nicht bei allen Pat. tritt Ereignis bis Ende der Studie ein, von manchen Pat. hat man keine Daten, da sie z.B. ausgeschieden sind)
- Zensierung von Studienteilnehmern mit unbekanntem Status
- Anwendung: Überlebenszeitanalyse, Krankheitsprogressionszeit -> Vergleich der ereignisfreien Zeit unter verschiedenen Therapien oder Risikofaktoren
- x- Achse: Zeit, y-Achse: Pat. ohne Ereignis
- Info über:
- mediane Ereigniszeit (Zeit nach der noch 50% ereignisfrei)
- 5- Jahres- Überlebensrate (Prozentzahl, die nach 5 Jahren noch ereignisfrei)

schließende (induktive) Statistik (Def., Bereiche)
= versucht von der Stichprobe auf die Grundgesamtheit zu schließen
- 2 Bereiche: Schätzen und Testen
statistisches Schätzen (Def., Formen)
= man möchte aus erhobenen Stichprobenwerten den unbekannten wahren Wert in der Grundgesamtheit ableiten
- wichtig ist die Abgrenzung von Maßzahlen, die in der Stichprobe gelten (Lage-/Streumaß) und dem Schätzwert für den man annimmt, dass er für die Grundgesamtheit gilt
-
Formen:
- Punktschätzer
- Intervallschätzer
Punktschätzer
= statistische Maßzahl, die in Stichprobe berechnet wird und dann als Schätzwert für die Grundgesamtheit dient (als Maßzahlen könnten z.B. Mittelwert o. relatives Risijo dienen)
- Annahme: Stichprobe ist repräsentativ für die Grundgesamtheit
- Interpretation: der errechnete Schätzer ist ungefähr mit der entsprechenden Maßzahl der Grundgesamtheit identisch
Intervallschätzer
= Erweiterung des Punktschätzers um einen Bereich in dem der wahre Wert der Grundgesamtheit mit hoher Wahrscheinlichkeit liegt (Unsicherheit des Punktschätzers mit einbezogen) = Intervall, dass um den Punktschätzer herum liegt
- übliches Intervall: 95%- Konfidenzintervall
- Interpretation: in 95% der Fälle enthält das Konfidenzintervall den wahren Wert aus der Grundgesamtheit, der mit dem Punktschätzer geschätzt wird
- je größer Stichprobe, desto kleiner wird das Konfidenzintervall und damit die Unsicherheit
Statistisches Testen
- Ziel: Vergleichen von Hypothesen
- Bsp.: gibt es zwischen 2 Gruppen tatsächlich einen Unterschied (Alternativhypothese H1) oder ist die Differenz der Schätzwerte ehr Zufall (Nullhypothese H0)
- Berechnung eines p- Werts, der eine Einschätzung erlaubt wie wahrscheinlich eine rein zufälliges Ergebnis ist
- Nullhypothese H0H
- Alternativhypothese H1
- Ziel
- Durchführung
- H0 = kein Effekt (“ Nulleffekt”) in der Grundgesamtheit z.B. Medikament wirkt nicht
- H1 = Effekt in der Grundgesamtheit vorhanden z.B. Medikament wirkt
- Alternativhypothese belegen
- vor Studienbeginn sollte die zu untersuchende Hypothese formuliert werden - Berechnung des p- Werts durch einen statistischen Test (z.B. t-Test) zum Beibehalten der H0 oder Annehmen der H1 (= Widerlegen der H0)
Fehlerquellen
- α- Fehler = Fehler 1. Ordnung: fälschliches Annehmen der Altenativhypothese H1
- β- Fehler = Fehler 2. Ordnung: fälschliches Beibehalten der Nullhypothese H0
-> α - Fehler gelten als schwerwiegender und werden durch das Festlegen eines niedrigen Signifikanzniveaus versucht unwahrscheinlicher zu machen
p- Wert
= Ergebnis eines statistischen Tests
- erlaubt eine Einschätzung, ob ein Unterschied in der Grundgesamtheit “echt” oder zufällig in der Stichprobe aufgetreten ist
- Wahrscheinlichkeit, dass ein Effekt in der Stichprobe nur durch Zufall zustande gekommen ist
- Signifikanzniveau: vor Studie sollte festgelegt werden wie wahrscheinlich ein α- Fehler max. sein darf -> häufig p= 0,05 (5%)
- wenn p- Wert kleiner als Signifikanzniveau -> signifikantes Ergebnis
- ein stat. signifikantes Ergebnis darf von der Stichprobe auf die Grundgesamtheit übertragen werden
- große Stichproben führen zu niedrigeren p- Werten (Gefahr: bereits kleine Unterschiede gelten als signifikant)
- p-Wert zu niedrig -> β- Fehler wahrscheinlicher
- Ein nicht-signifikanter p-Wert bedeutet, dass man die Nullhypothese nicht ablehnen darf. Er beweist aber die Nullhypothese nicht, sondern kann auch durch eine zu kleine Fallzahl entstehen
statistische Signifikanz bei Intervallschätzern
-> erlauben in manchen Situationen eine schnelle Abschätzung der Signifikanz
- Schätzer für ein rel. Risiko/ Odds Ratio: sign. Ergebnis, wenn 1 nicht im Intervall enthalten (1= Nulleffekt, bzw. kein Unterschied in der Odds)
- Schätzer für ein Parameter in mehreren Gruppen: sig. Ergebnis, wenn die Intervalle der Gruppen sich nicht überschneiden (dann gibt es definitiv einen Unterschied zwischen den Gruppen, da sich wahren Werrte nicht überlappen)
Korrelation
= Beschreibung der Stärke eines Zusammenhangs -> inwieweit gehen Veränderungen des einen Merkmals mit Veränderungen des anderen Merkmals einher?
- Angabe eines Korrelationskoeffizienten (häufig: r = Pearson KE)
- lineare Korrelation: beschreibt die Stärke eines linearen Zusammenhangs zwischen 2 Größen
- mögliche Werte: zwischen -1 und 1; 0= i.d.R. keine lineare Korrelation

Regression
= weiter führende Analyse nach der Korrelation
- ein Merkmal wird als “Zielgröße” (= abhängige Variable) und eines als “Einflussgröße” (= unabhängige Variable) festgelegt -> wie beeinflusst die eine Größe die andere?
- lineare Regression: im Streudiagramm wird eine Linie erstellt, die alle Punkte am besten zusammen fasst = Regressionsgerade
- Interpretation: Steigung lässt Rückschluss auf Zusammenhang zwischen den Parametern zu