Angewandte Statistik Flashcards
Skalen (Def., Niveau, Arten)
- Skala = Einteilung des Wertebereichs eines Merkmals
- je nach Differenzierungsgrad höheres oder niedrigeres Messniveau = Skalenniveau
- Skalenniveau: wichtigste Entscheidungsgrundlage für die Auswahl statistischer Verfahren
- Nominal-, Ordinal-, Intervall-, Rationalskala
Nominalskala (Katgorieskala)
- kategoriale Skala
- Datentyp: qualitativ, diskret
- Ausprägungen nominaler Merkmale:
- Namen der Kategorien
- KEINE Zahlen (auch, wenn Zahlencodes verwendet werden!)
- keine natürliche Rangordnung
- Maß der zentralen Tendenz: Modus (Modalwert) -> bezeichnet das Merkmal, das am häufigsten ausgeprägt ist
- z.B. Geschlecht, Haarfarbe,…
Ordinalskala (Rangskala)
- kategoriale Skala
- Datentyp: semiqualitativ, diskret
- natürliche Rangordnung (Größer-Kleiner- Beziehung) -> Anordnung nach bestimmten Kriterien/ Ausprägungsstärke
- Merkmalsausprägungen sind KEINE Zahlen (auch , wenn Zahlencodes verwendet werden!)
- keine Aussage zu Abständen
- Kategorien oftmals nicht aquidistant
- Bsp.:Krankheitsstadien, Schichtzugehörigkeit, Bidungsabschluss, sozialer Status
- zentrale Tendenz: Median (Zentralwert) -> steht in der Mitte, wenn alle Werte hierarchisch in einer Reihe geordnet sind
- Maß für Streuung: Interquartilenabstand
Intervallskala (Einheitenskala)
- metrische Skala
- Datentyp: quantitativ, diskret oder stetig
- äquidistante Einheiten (gleiche Intervalle)
- Merkmalsausprägungen sind Zahlen
- Besonderheit: Nullpunkt willkürlich festgelegt -> KEINEN absoluten Nullpunkt
- sinnvolle Berechnungen: Addition/ Subtraktion (KEINE Multiplikation/ Division)
- Berechnugn von Mittelwert (arithmetischem Mittel) und Standardabweichung kann erfolgen
- Bsp.: Temperaturskala nach Celsius
Verhältnisskala (Rational-/ Absolutskala)
- metrische Skala
- Datentyp: quantitativ, diskret oder stetig
- absoluter Nullpunkt
- Berechnungen: Addition/ Subtraktion, Multiplikation/ Division
- Bsp.: Körpergewicht, Temp. in Kelvin, Reaktionszeiten, Enzymaktivitäten,…
- Maß der zentralen Tendenz: geometrisches Mittel (n-te Wurzel des Produkts von n Zahlen)
Beschreibende Statistik von qualitativen Merkmalen
- nominalskalierte M.: nur durch Angabe von Häutigkeiten und Modalwert möglich
- ordinalskalierte M.: zusätzlich kann der Median (oder eine andere Perzentile) bestimmt werden -> ist jedoch wenig sinnvoll
- Darstellung: Kreis-/ Balkendiagramme
absolute und relative Häufigkeit
- Häufigkeiten = Ergebnisse einer Zählung
- absolute H. (ni): Fallzahl in Kategorie Nr. i von k -> die absoluten Häufigkieten addieren sich zur Gesamtzahl n
-
relative H. (hi): Anteil von ni an n
- Nominierung auf n -> bessere Vergleichbarkeit
- addieren sich zu 1 = 100%
Modalwert
= häufigste Wert in der Stichprobe
Beschreibende Statistik von quantitativen Merkmalen
- Berechnung von Lagemaßen z.B. Mittelwert, Percentilen
- Angabe von Streumaßen
- Darstellung: Boxplot, Histogramm, Streudiagramm
Lagemaße
= fassen alle Werte eines Merkmals in einer Zahl zusammen und lassen die Charakterisierung der Stichprobe zu
- Mittelwert
- Zentralwert -> bei gerader Werteanzahl nimmt man die beiden Zentralwerte und bildet darauß den Mittelwert
- Quantile / Perzentile und Quartile: geben Sie einen Wert der Stichprobe unterschreitet
- Quantil: Angabe als Zahlt zwischen 1 und 0 -> Bsp .: das 0,15- Quantil ist der Wert der Stichprobe, der von 0,15 der Teilnehmer unterschrieben wird
- Perzentil (Prozentrang): Angabe als Prozentsatz -> Bsp .: ein 10-jähriger Junde mit der Größe 1,47m liegt auf dem 90% - Perzentil (0,9-Quantil) wurde beduetet, nämlich 90% der Jungen im gleichen Alter sind
- Quartil = spezifisches Quantile, 1/4 (1.Quartil), 1/2 (2. Quantil) oder 3/4 (3. Quantil) unterschritten wird
-> Median = 50% - Perzentil = 0,5 - Quantil = 2. Quartil
Streumaße
= geben an wie weit die Daten von einem Lagemaß abweichen
- Spannweite (größter Wert - kleinster Wert)
- Interquartilabstand ( 3. Quartil - 1. Quartil)
- Standardabweichung ( mittlere Abweichung vom Mittelwert) = Wurzel der Varianz
Kaplan- Meier- Analyse
= Sonderfall, beschreibende Statistik bei Ereigniszeitdaten (z.B. Zeit bis bei Pat. ein Ereignis eintritt)
- Ereigniszeitdaten sind weder qual. noch quant. Daten (nicht bei allen Pat. tritt Ereignis bis Ende der Studie ein, von manchen Pat. hat man keine Daten, da sie z.B. ausgeschieden sind)
- Zensierung von Studienteilnehmern mit unbekanntem Status
- Anwendung: Überlebenszeitanalyse, Krankheitsprogressionszeit -> Vergleich der ereignisfreien Zeit unter verschiedenen Therapien oder Risikofaktoren
- x- Achse: Zeit, y-Achse: Pat. ohne Ereignis
- Info über:
- mediane Ereigniszeit (Zeit nach der noch 50% ereignisfrei)
- 5- Jahres- Überlebensrate (Prozentzahl, die nach 5 Jahren noch ereignisfrei)
schließende (induktive) Statistik (Def., Bereiche)
= versucht von der Stichprobe auf die Grundgesamtheit zu schließen
- 2 Bereiche: Schätzen und Testen
statistisches Schätzen (Def., Formen)
= man möchte aus erhobenen Stichprobenwerten den unbekannten wahren Wert in der Grundgesamtheit ableiten
- wichtig ist die Abgrenzung von Maßzahlen, die in der Stichprobe gelten (Lage-/Streumaß) und dem Schätzwert für den man annimmt, dass er für die Grundgesamtheit gilt
-
Formen:
- Punktschätzer
- Intervallschätzer
Punktschätzer
= statistische Maßzahl, die in Stichprobe berechnet wird und dann als Schätzwert für die Grundgesamtheit dient (als Maßzahlen könnten z.B. Mittelwert o. relatives Risijo dienen)
- Annahme: Stichprobe ist repräsentativ für die Grundgesamtheit
- Interpretation: der errechnete Schätzer ist ungefähr mit der entsprechenden Maßzahl der Grundgesamtheit identisch