Statistic Flashcards

1
Q
  1. Deskriptive Biostatistik

Lagemaße

Arithmetischer MW

Median

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
  1. Deskriptive Biostatistik

getrimmter Mittelwert

A
  • Der getrimmte Mittelwert ist eng mit dem arithmetischen Mittel verwandt. Im Gegensatz zu diesem wird bei dem getrimmten Mittelwert ein gewisser Anteil der größten und der kleinsten Stichprobenelemente ignoriert. Daher ist das getrimmte Mittel robuster als das arithmetische Mittel, verändert sich also weniger bei Modifikationen der Stichprobe.
  • Der Wert, bei dem die Häufigkeit ihr Maximum erreicht, wird als Modalwert bezeichnet. Bei einer zusammengesetzten Verteilung kann es mehrere (lokale) Modalwerte geben (ähnlich wie lokale Maxima).
  • Der Median liegt dicht am Modalwert mit 0.33.
  • Der arithmetische Mittelwert liegt mit 1.0 weit entfernt vom Modalwert und vom Median und charakterisiert die Lage der Verteilung nur schlecht. Hier wird deutlich, wie empfindlich der arithmetische MW bei Extremwerten (Rechtsausschläge) ist.
  • Am besten kommt der Median in die Nähe des Maximums. Allerdings ist der Median ein nichtlineares Maß und daher für die Analyse denkbar ungeeignet. Zumal die im Folgenden behandelten Streumaße sich auf den Mittelwert beziehen. Daher versucht man den MW – der ein lineares Maß ist – so zu trimmen, dass zwar die Operation linear bleibt, man aber trotzdem näher an das Maximum kommt.
  • Trimmen bedeutet, dass man einen Anteil T (0 bis 1) der kleinsten bzw. größten Werte (der geordneten Stichprobe) aus der Berechnung des MW ausschließt. Wie den Zahlenbeispielen zu entnehmen ist, je höher der Anteil der abgewiesenen Werte ist, umso mehr nähert man sich dem Median. So lässt sich der Median auch interpretieren: es ist der letzte nicht abgewiesen Wert beim totalen symmetrischen Trimmen.
  • Welchen Anteil man bei einer konkreten Aufgabe trimmt, ist ein rein empirisches Problem, wie so oft in der Statistik.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Deskriptive Biostatistik

Streumaße

Varianz

A

Die Varianz gibt den mittleren Abstand der Messwerte vom Mittelwert an, ist also ein Maß für die Breite der Verteilung der Daten. Da sie auf den MW bezogen (zentriert) ist , ist sie von der Lage der Verteilung unabhängig, und heißt daher auch zweites zentrales Moment.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Deskriptive Biostatistik

Streumaße

Standardfehler des Mittelwertes,

SEM (standard error of the mean)

A

Bei einer Normalverteilung der Daten kann man an Hand der SD abschätzen, wie viele Daten innerhalb einer bestimmten Streubreite enthalten sind. So kann man bspw. davon ausgehen, dass bei einer Streubreite von 2SD in diesem Bereich 95% aller Daten enthalten sind, man also fast alle Daten erfasst. Bei anderen Verteilungen sieht es natürlich anders aus und muss im konkreten Fall untersucht werden.

Ein wichtiges Maß ist der Standardfehler des MW, der SEM (Siehe Konfidenzintervall). Diese Beziehung ergibt sich aus dem Fakt, dass bei der arithmetischen Mittelung von stochastischen Daten die Varianz des Mittels um den Faktor n reduziert wird, wobei n die Anzahl der gemittelten Daten angibt.

Manchmal wird in Studien oder Publikationen gerade der SEM angegeben, was im Grunde nicht falsch ist. Allerdings kann man oft unterstellen, dass dem statistisch nicht kundigen Leser eine viel höhere Genauigkeit vorgetäuscht werden soll, als sie tatsächlich war und zumindest mit der gleichzeitigen Angabe der SD auch dokumentiert werden müsste. Bspw. wird bei 100 Versuchen der SEM 10mal geringer ausfallen als die SD. Das kann im Zweifelsfall zu falsch begründeten Entscheidungen führen, z.B. beim Kauf eines bestimmten Medizingerätes aus einem größeren Angebot von Produkten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Deskriptive Biostatistik

Streumaße

A

Das p-Quantil gibt an, bis zum welchen Wert von x (von links, von niedrigeren Werten her gesehen) der Anteil p von allen Daten liegt. Damit ist das Quantil zwar ein Streumaß, gleichzeitig aber auch eine Information über die Lage der empirischen Verteilung (siehe Box-Whisker-Plot). Quantile sind an sich Rangparameter, da sie Information über die Anteile (Häufung) der Daten liefern und nicht über die Ausprägung der Merkmale selbst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. Deskriptive Biostatistik

Streumaße

Variationskoeffizient

A

Der Variationskoeffizient kann in der Datenerfassung durch Messung als Genauigkeit interpretiert werden. Allerdings muss man bei der Interpretation der Ergebnisse unterscheiden, wodurch die Streuung entstanden ist. D.h. welchen Anteil der Messfehler und welchen die natürlich vorhandene Variabilität einnimmt. Im Normalfall wird gefordert, dass die Messgenauigkeit um mindestens eine Größenordnung höher liegt, als die natürliche Schwankung der Messdaten. Vor allem aber in der Medizin ist diese Forderung oft nicht erfüllbar.

Die Standardabweichung einer Stichprobe wird durch den jeweiligen Mittelwert dividiert. Der Korrelationskoeffizient drückt daher das relative Verhältnis der Streuung zum Mittelwert aus. Der Variationskoeffizient besitzt keine Einheit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  1. Deskriptive Biostatistik

Darstellung – „Box und Whiskers“

A

Der Boxplot ist eine sehr anschauliche Darstellung der Daten mit wenigen Parametern, die die Verteilung der Daten repräsentiert. Aus den beiden Stichproben lassen sich die wichtigsten Eigenschaften ermitteln. Währen die linke Verteilung symmetrisch ist (Gaussdaten), zeigt die rechte Spalte eine deutliche Unsymmetrie. Das untere Quartil ist vom Median deutlich weniger entfernt als das obere Quartil, was auf eine Häufung der Daten im unteren Teil hindeutet. Der Einschnitt (notch) beim Median zeigt den Bereich des Medians an, in dem der Median mit 95%-Sicherheit tatsächlich liegt (sog. Konfidenzintervall, siehe Analytische Statistik). Man kann auf diese Weise mit einem Blick erkennen, ob die beiden Mediane voneinander signifikant unterschiedlich sind. Wenn sich nämlich die Einschnitte nicht überdecken, so kann man von unterschiedlichen Medianen ausgehen. In dieser Darstellung wäre die Entscheidung allerdings grenzwertig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q
A

Diese Grafik soll veranschaulichen, wie effektiv die Darstellung an Hand des Boxplots ist. Während man für die empirische Verteilung (unten) u.U. sehr viele Parameter braucht (hier 100 Klassen), so reichen für den Boxplot fünf Parameter, die Quartile. Allerdings gibt der Boxplot keine Auskunft über den Modus und den Mittelwert.

IQ:Interquartile = Q3-Q1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
  1. Deskriptive Biostatistik

Formmaße

Schiefe

A

Rechtsschiefe Verteilungen sind typisch für Medizin und Biologie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. Deskriptive Biostatistik

Formmaße

Exzeß

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  1. Deskriptive Biostatistik
A

In der Statistik werden diese Funktionen vollständig als Wahrscheinlichkeitsverteilungsfunktion bzw. Wahrscheinlichkeitsdichtefunktion bezeichnet. Da es hier später gleichermaßen um Häufigkeiten wie auch Wahrscheinlichkeiten gehen wird, werden die Bezeichnungen Verteilung und Verteilungsdichte verwendet.

Für kontinuierliche Verteilungen gilt, dass die Verteilungsdichte sich aus der ersten Ableitung der Verteilung nach der Zufallsvariablen ergibt. Bei diskreten ZV werden die entsprechenden diskreten Zuwächse herangezogen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q
  1. Deskriptive Biostatistik

Der zentrale Grenzwertsatz

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q
  1. Deskriptive Biostatistik

Hypergeometrische Verteilung

A

超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
  1. Deskriptive Biostatistik

Poisson-Verteilung

A

Poisson-Verteilung ist typisch für diskrete Zufallsvariable mit geringer WS des Auftretens. Für sehr hohe n setzt man für die beiden Parameter n und p in der Binomialverteilung durch deren Produkt lambda = n*p ein, so erhält man die Poisson-V.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
  1. Deskriptive Biostatistik

Lineare Regression von y auf x

A
  • Die einfachste Approximation eines statistischen Zusammenhangs ist die lineare Regression. Sie ist gleichzeitig die Lösung für die Methode der kleinsten Fehlerquadrate, ohne dass das die Methode hier explizit angewandt wurde.
  • byx ist der Regressionskoeffizient der Regression von y auf x. Dieser ist anders als bxy, also in der Regression von x auf y,
  • syx ist die Kovarianz, sie ist symmetrisch, Details später,
  • sxx ist die Varianz,
  • ayx ist der nullte Polynomterm
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q
  1. Deskriptive Biostatistik

Bivariate Datenbeschreibung

A

Die Regression kann grundsätzlich zwischen jedem Paar von Variablen angewandt werden, so auch auf den Zeitverlauf. Zeitliche Verläufe sind allerdings Gegenstand von Zeitreihenanalysen bzw. Analyse der stochastischen Prozesse. Daher wird im weiteren auf dieses Thema verzichtet, siehe BSV2.

Die Geburtenzahlen in NRW seit 1990 sind als Zusammenhang zwischen männlichen und weiblichen Neugeborenen dargestellt, also ohne einen Zeitbezug. Man kann auf den ersten Blick erkennen, dass der Zusammenhang sehr stark ist, also wenig Schwankungen zwischen den Geburtenzahlen auftreten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q
  1. Deskriptive Biostatistik

Bivariate Datenbeschreibung

A

Natürlich sind auch Zufallsvariable voneinander nichtlinear abhängig, so wie exakt ermittelbare physikalische und technische Größen. Die Schwierigkeit besteht in der Bestimmung des Grades der Nichlinearität, die umso größer wird, je höher die Streuung der Daten. In diesem Beispiel wäre auch eine andere gerade Nichtlinearität denkbar, z.B. die vierte Ordnung, oder der Cosinus. Ich habe die zweite Ordnung für das Fitting gewählt, weil ich natürlich wußte, wie ich die Daten generiert habe. Die Wahl der Fittingfunktion ist nicht trivial, da sie in der weiteren Analyse auf die Modellierung von System- und/oder Signalparametern Einfluß haben kann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q
  1. Deskriptive Biostatistik

Bivariate Datenbeschreibung

Korrelationskoeffizient nach Pearson

A

Der KK nach Pearson gibt AUSSCHLIESSLICH über den linearen Zusammenhang Auskunft. Das heißt, dass jedes Wertepaar mit dem selben Faktor und einer gewissen Streuung beschreibbar ist. Jeder weitere Zusammenhang ist theoretisch nicht nachweisebar. Praktisch jedoch hängt Vieles von den konreten Daten ab, wie später gezeigt wird. Selbst bei hoch nichtlinearen Zusammenhängen können nachweisbare KK heraus kommen, die theoretisch nicht vorhanden sind. Man kann diesen Fakt in etwa so interpretieren, dass der KK nach Pearson einen Zusammenhang umso deutlicher zeigt, je näher er an die lineare Abhängigkeit heran kommt.

Ein wesentlicher Nachteil des Pearson-KK ist, dass er exakt nur ausgewertet werden kann, wenn die untersuchten ZG normalverteilt sind. Und das ist in der praktischen Analyse sehr selten der Fall bzw. man kann über die Verteilung keine Aussage treffen.

Für die praktische Analyse gelten ganz grob die aufgeführten Faustregeln.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q
  1. Deskriptive Biostatistik

Bivariate Datenbeschreibung

Rang-Korrelationskoeffizient nach Spearman

A

Wie wir schon beim Median, Quantilen und getrimmeten Mittelwerten beobachten konnten, bringen Rangfolgen eine gewisse Robustheit in die Analyse. Und obwohl – oder gerade weil - sie selbst nichtlineare Operatoren sind, können sie einen nichtlinearen Zusammenhang besser identifizieren. Ausserdem sind sie robust gegen die Forderung nach der Normalverteilung der Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q
  1. Deskriptive Biostatistik

Interpretation der Korrelation

  • Formale Korelation
  • Selektionskorrelation
  • Korrelation durch Ausreißer
  • Inhomogenitätskorrelation
  • Gemeinsamkeitskorrelation
A
  • Formale Korelation
  • Selektionskorrelation
  • Korrelation durch Ausreißer
  • Inhomogenitätskorrelation
  • Gemeinsamkeitskorrelation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q
  1. Deskriptive Biostatistik

Korrelationsanalyse - Fehlinterpretationen

A
  • unrealistisch hoher KK wegen großer Spannweite des Messbereichs. Innerhalb des Nutzbereichs deutlich geringer
  • unrealistisch hoher KK bei systematischen Fehlern: beim hohen CO-Anteil (> 1%) ändert sich die Anzeige im Pulsoximeter nicht, d.h. r << 0.48 bzw. r << 0.96
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q
  1. Analytische Biostatistik

Schätzverfahren

A

In diesem Beispiel handelt es sich offensichtlich um eine Binomialverteilung, da die ZG nur zwei Werte annehmen kann (0 – nicht erfolgreich, 1 – erfolgreich). Die theoretische Erfolgswahrscheinlichkeit ist aber nicht bekannt, sonst müssten wir die klinische Studie nicht durchführen. Sie ist auch nicht genau berechenbar, denn dazu bräuchten wir sehr viele Einzelversuche (n > 10e6), die unter identischen Voraussetzungen durchzuführen wären. Und das ist praktisch nicht realisierbar. Daher werden wir versuchen, den Erfolg an Hand einer Stichprobe (SP) aus der Grundgesamtheit (GG) zu schätzen. Damit die SP die gesuchten Parameter gut abbildet, muss sie repräsentativ sein. Praktisch heißt das, aller für die Studie relevanten Merkmale müssen in der SP anteilig so vertreten sein, wie in der GG. Und dies ist eines der größten Probleme bei der praktischen analytischen Statistik. Wenn man genau wüsste, wie die einzelnen Merkmale in der GG verteilt sind, müsste man sie nicht untersuchen. Der Ausweg besteht darin, dass man die SP nach Möglichkeit sehr groß wählt in der Hoffnung, dass die Merkmale damit rein statistisch der Originalverteilung der GG entsprechen. Aus der SP werden nach bestimmten Schätzverfahren die gesuchten Parameter der GG geschätzt. Bsp.: In einer Studie zu Blutdruck senkenden Mitteln dürfte man nicht Patienten einschließen, deren BD am oberen Ende des möglichen Bereiches liegt. Da bei diesen physiologisch ohnehin nur noch eine Absenkung möglich ist, würden sie fälschlicherweise einen Therapieerfolg demonstrieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q
  1. Analytische Biostatistik

Schätzverfahren

A

Die Verwendung der Schreibweise ist die gleiche, wie in der deskriptiven Statistik: mit kleinen Buchstaben werden konkrete (gemessene, ermittelte) Werte, mit großen Buchstaben die statistischen Größen (Variable, Maße).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q
  1. Analytische Biostatistik

Schätzverfahren

A
  • Wird der gesuchte Parameter der GG durch einen einzigen Wert geschätzt, so sprechen wir von einer Punktschätzung.
  • Die Vorschrift, nach der dieser Wert berechnet wird, heißt Schätzfunktion oder Schätzer. In diesem Beispiel der arithmetische Mittelwert.
  • Die Werte, die der Schätzer in der SP annimmt, heißen Schätzwerte.
  • Erwartungswerte werden in der Regel über arithmetische Mittelwerte der SP berechnet.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q
  1. Analytische Biostatistik

Schätzverfahren

A
  • nehmen wir an, es liegt eine normalverteilte GG vor. Aus dieser GG wird eine SP entnommen, zunächst mit 10 Realisierungen. Das Histogramm (empirische Verteilung) der Realisierungen ist links oben dargestellt. Bildet man für jede Realisierung den AMW, so ergeben diese Mittelwerte eine Verteilung mit den Lagemaßen m und s2/n.
  • gehen wir davon aus, dass keine N-Verteilung vorliegt, sondern z.B. eine Exponentialverteilung. Wird der AMW berechnet, so bilden die Mittelwerte ab einem Stichprobenumfang n>30 ebenfalls eine näherungsweise N-Verteilung. Dies ist die praktische Auswirkung des Zentralen Grenzwertsatzes. Dies hat positive Auswirkungen auf die praktische Analyse: Zur Untersuchung von Mittelwerten kann man bei genügend hohem Umfang der SP davon ausgehen, dass die AMW in etwa normalverteilt sind.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q
  1. Analytische Biostatistik

Schätzverfahren

A
  • gehen wir von derselben N-Verteilung aus, wie bei der MW-Bestimmung. Nun interessiert die Varianz der Verteilung. Wenn wir diese über die Realisierungen als Histogramm darstellen, so ergeben sie die sog. Chi-Quadrat-Verteilung (χ2- Verteilung).
  • Die theoretische χ2 -Verteilung ist mit Hilfe der Gamma-Funktion (wie viele statistischen Größen) definiert.
  • von praktischer Bedeutung ist die Tatsache, dass eine normierte und skalierte Varianzverteilung χ2-verteilt ist.
  • die Maßzahlen Erwartungswert und Varianz ergeben folgende Werte: s. o.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q
  1. Analytische Biostatistik

Schätzverfahren

A
  • theta zu schätzender Parameter der Verteilung P(X), g(X) – Schätzer, – Funktional des Parameters theta oder der Parameter selbst
  • t – erwartungstreuer Schätzer, e - Effizienz
  • Ein Schätzer heißt erwartungstreu, wenn sein Erwartungswert gleich dem wahren Wert des zu schätzenden Parameters ist
  • Konsistenz bedeutet, dass mit zunehmender Zahl der Schätzwerte die Varianz der Schätzung abnimmt, die Zuverlässigkeit der Schätzung nimmt daher zu. Wenn die Konsistenz erst mit unendlich hohem n gegen Null konvergiert, heißt ein solcher Schätzer asymptotisch konsistent.
  • Die Effizienz gibt an, wie gut ein Schätzer mit der jeweiligen Anzahl der Schätzwerte schätzen kann. Je kleiner die Varianz der Schätzung bei gleicher Anzahl der Schätzwerte, umso höher die Effizienz. Eine hohe Effizienz bedeutet, dass selbst bei einer kleinen Stichprobe eine brauchbare Schätzung vorliegt (z.B. Median bei sehr kleinen SP).
  • Suffizienz bedeutet, ein Schätzer „holt alle Informationen“ aus der Stichprobe heraus.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q
  1. Analytische Biostatistik

Schatzverfahren

A
  • In der Statistik wird oft die oben angegebene Formel für das zweite zentrale Moment zur Berechnung der Varianz verwendet. Der Erwartungswert der Varianz entspricht nicht der wahren Varianz, sondern besitzt einen systematischen Fehlerfaktor von (n-1)/n, die wahre Varianz wird also unterschätzt. Dieser Fehler nimmt mit steigendem n ab.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q
  1. Analytische Biostatistik

Schätzverfahren

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q
  1. Analytische Biostatistik

Schätzverfahren

A
  • Die Effizienz der bekanntesten Lagemaße MW und Median wurde an Hand des Bildes verglichen. Die Lagemaße wurden in den Spalten geschätzt (n=2000) und anschließend gemittelt (m=3000). Die ZG waren weder normal noch identisch verteilt. Die Varianz des Medians ist 13-mal kleiner als die des Mittelwertes. Dies ist auch nicht überraschend, da der Median der robusteste Schätzer ist. Daraus folgt eindeutig, dass der Median der effizientere Schätzer ist.
  • Das Histogramm (die Häufigkeitsverteilung) zeigt mehrere Maxima, es liegt also eine multimodale Verteilung vor. Je nach Interpretation würde man zwischen vier bis sieben Modi finden. Es liegt offensichtlich eine rechtsschiefe Verteilung vor, so dass man bereits an dieser Stelle damit rechnen kann, dass der Median links vom MW angesiedelt ist. Dies bestätigt auch die Auswertung (vgl. Folie 59).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q
  1. Analytische Biostatistik

Schätzverfahren

A

Die genannten Gütekriterien der Schätzer machen natürlich Sinn. Dennoch ist es dann schwierig zu beurteilen, welcher Schätzer nun gut ist oder nicht. Eine Möglichkeit besteht darin, ein gemeinsames Maß einzuführen. In der Fachwelt wird als Maß der MSE (Mean Square Error, mittlerer quadratischer Fehler) verwendet und akzeptiert, denn dieser vereint zumindest die Varianz und den Bias eines Schätzers und damit faktisch auch die Effizienz. Dieser läßt sich relativ einfach interpretieren: die bisher verwendete Varianz ist ein zentrales Moment, ist also vom Mittelwert unabhängig. Da die Information über den Mittelwert des Fehlers im Bias steckt, gibt also der MSE die komplette Information über die Schätzgüte wider.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q
  1. Analytische Biostatistik

Schätzverfahren – Schätzgüte der Varianz

A

Für die Varianz eines Schätzers gilt grundsätzlich, dass sie sich aus dem EW des Quadrates der geschätzten Größe abzüglich des Quadrates des EW der geschätzten Größe (MW) ergibt. Daraus lässt sich der EW der geschätzte Größe berechnen.

Mit dem Schätzer S wird die wahre Standardabweichung unterschätzt. Beispiel in Matlab:

n=randn(10,1000); nstdunbia=std(n);

mean(nstdunbia) % kleiner als 1

((mean(nstdunbia))^2+var(nstdunbia))^0.5 % die Summe muss 1 (mit stat. Schwankungen) ergeben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q
  1. Analytische Biostatistik

Schätzverfahren - Methoden

A
  • Momente sind als Ableitungen der Ordnung k an der Stelle X=0 der charakteristischen Funktion einer Verteilung definiert. Man versucht diese Momente aus einer SP zu schätzen. Mit Hilfe der Schätzer werden die Momente geschätzt und direkt für die gesuchten Momente eingesetzt. Daher die Bezeichnung „Momentenmethode“. Sie sind i. A. einfach berechenbar, aber oft nicht erwartungstreu bzw. nicht konsistent.
  • Zentrale Momente, zentriert um den Mittelwert (hier die Varianz). Da sie auf 1/n normiert wird, ist sie nicht erwartungstreu, da dafür eine Normierung 1/(n-1) notwendig wäre.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q
  1. Analytische Biostatistik

Schätzverfahren - Methoden

A
  • Die ersten Momente, gleich den MW, geben zunächst eine Orientierung, sagen aber nichts mehr aus.
  • Die zweiten Momente sagen als Zahl kaum etwas aus.
  • Erst wenn man die zweiten Momente zentriert, erhält man die Varianz.
  • Die Standardabweichung ist ein informatives Streuungsmaß, da bekannt ist, dass (zumindest bei der Normalverteilung) im Intervall +/- 3s 99% aller Werte liegen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q
  1. Analytische Biostatistik

Schätzverfahren - Methoden

Maximum-Likelihood-Methode

A
  • Ist der Parameter π einer Verteilung gegeben (bekannt), so lässt sich die Verteilungsfunktion von n Realisierungen parametrisieren, angenommen, die Realisierungen sind voneinander unabhängig (also disjunkt). Anschließend kann man das Maximum einer solchen Verteilungsfunktion suchen, das zwangsläufig über der Realisierung liegen muss, die am nächsten am wahren Parameter liegt.
  • In der Praxis liegt das Problem jedoch umgekehrt. Man realisiert die ZG n-mal (wiederholte Messung), um den wahren Parameter π zu ermitteln. Dazu wird die Likelihood-Funktion aufgestellt, die sich aus dem Produkt der WS (der relativen Häufigkeiten) ergibt. Anschließend wird ihr Maximum gesucht. Wird dieses ermittelt, so ergibt die ihn liefernde Bedingung den besten Schätzer für den wahren Parameter.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q
  1. Analytische Biostatistik

Schätzverfahren - Methoden

Maximum-Likelihood-Methode Beispiel: Binomialverteilung

A
  • Geht man zunächst davon aus, dass die Klinik eine riesige Zahl von Patienten in Behandlung hat (>10000), so kann man auf der Binomialverteilung aufbauen. Man kann verschiedene WS „durchprobieren“, um zu sehen, bei welcher das Maximum auftritt. Der gesuchte Parameter ist also nicht die Anzahl der Versuche, wie üblich, sondern die höchste WS für p bei 3 Frauen von 10. Hier ist der Einfachheit halber der gesuchte Parameter gleich seiner WS.
  • In der praktischen Analyse kann man natürlich nicht von unendlich großen Patientenzahlen ausgehen. Im Gegenteil, die SP bleibt immer im überschaubaren Rahmen. Bei 10 Versuchen wurden 3 Frauen und 7 Männer ermittelt. Die gesuchte WS p geht entsprechend in das Produkt der ML-Funktion ein.
  • Gesucht wird das Maximum, so dass die erste Ableitung von L nach p gleich Null gesetzt wird. Daraus ergibt sich erwartungsgemäß die theoretische WS von 0.3
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q
  1. Analytische Biostatistik

Schätzverfahren - Methoden

Maximum-Likelihood-Methode Beispiel: Normalverteilung

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q
  1. Analytische Biostatistik

Schätzverfahren - Methoden

Maximum-Likelihood-Methode Eigenschaften

A
  • i.d.R. die effizienteste Methode zur Parameterschätzung
  • Annahme zur WS-Funktion der ZG notwendig
  • trifft Annahme nicht zu, kann ML-Schätzer inkonsistent werden
  • Pseudo-ML-Schätzer sind konsistent auch wenn Annahme nicht erfüllt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q
  1. Analytische Biostatistik

Schätzverfahren - Methoden

LS-Methode (kleinste Quadrate)

A

Im Normalfall ist zur Bestimmung der Regressionsgeraden ausreichend, zwei Punkte zu bestimmen, im mehrdimensionalen Fall entsprechend mehr Punkte. Da aber die Messwerte streuen, braucht man zur Bestimmung der Geraden ein deutlich überbestimmtes Gleichungssystem, d.h. mehr Gleichungen als Unbekannte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q
  1. Analytische Biostatistik

Schätzverfahren - Methoden

LS-Methode (kleinste Quadrate)

A
  • Bei nichtlinearen Zusammenhängen und stochastisch verteilten Daten ist eine analytische Lösung i.d.R. unmöglich. Zum einen, weil die Nichtlinearität im Normalfall qualitativ gar nicht bekannt ist. Zum anderen, weil durch die Streuung der Daten mehrere mögliche Nichtlinearitäten in Frage kommen und es dann gar nicht möglich ist zu entscheiden, welche Nichtlinearität denn die wahre ist.
  • Unter diesem Gesichtspunkt kann man zunächst eine Tugend aus der Not machen: Die meisten Nichtlinearitäten lassen sich mit dem Polynomansatz „fitten“ (Approximieren auf den kleinsten mittleren quadratischen Fehler). Diese Ansätze sind auch unter dem Begriff „Splines“ bekannt. Allerdings sind die Splines umstritten und analytisch nicht immer korrekt anwendbar. Man kann durch die Splines zusätzliche (höhere) Nichtlinearitätsordnungen rein zufällig hineinbringen, die es in der Realität nicht gibt, die allerdings mit dem Argument der statistischen Sicherheit akzeptiert werden. Das kann zu fatalen Fehlern führen.
  • Dass die nichtlinearen Zusammenhänge analytisch schwierig sind, ist erwiesen. Numerisch aber kann trotzdem eine im Sinne der kleinsten Quadrate optimale Lösung gefunden werden: Dazu werden iterative Verfahren eingesetzt, z.B. Newton.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q
  1. Analytische Biostatistik

Intervallschätzung - Konfidenzintervalle

A

Intervallschätzung ist eine andere Methode der Parameterbestimmung. Im Vergleich zur Punktschätzung bietet sie einige Vorteile, z.B. man kann direkt die Signifikanz ablesen (siehe Statistische Tests).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q
  1. Analytische Biostatistik

Konfidenzintervalle

A
  • Durch Zentrieren (Abzug des MW) und Normieren (dividieren durch die Standardabweichung) erhält man die so genannte Standard-NV
  • Die Standard-NV wird üblicherweise mit Z bzw. z bezeichnet
43
Q
  1. Analytische Biostatistik

Konfidenzintervalle

A

Die t-Verteilung berücksichtigt, dass beide Verteilungsparameter mund s geschätzte Größen sind. Daher ist sie für kleine Stichproben flacher und breiter als die Normalverteilung.

44
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall für den Mittelwert

A

Mit zunehmender Größe der Stichprobe konvergiert die t-Verteilung zur Normalverteilung. Ab einem n=100 kann sie praktisch als Normalverteilung angenommen werden. Dies ist eine der praktischen Auswirkungen des Gesetzes der großen Zahlen.

45
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall für den Mittelwert

A
46
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall für den Mittelwert

A

Konfidenzintervall des MW in Abhängigkeit vom Umfang der Stichprobe: Der wahre MW liegt bei 1. Die Streuung des MW und folglich die Breite des KI nehmen mit dem Umfang der Stichprobe ab. Beim Umfang der SP von n=100 liegt praktisch die NV vor und das KI entspricht in etwa +/- 2σ.

47
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall

Eigenschaften des Konfidenzintervalls:

A

Die Eigenschaften gelten auch für die nachfolgende Varianz. Die qualitativen Zusammenhänge für n und s können aus der Formel direkt hergeleitet werden. Hinsichtlich der statistischen Unsicherheit a kann logisch geschlussfolgert werden, dass eine gesteigerte Sicherheit nur auf Kosten des KI gehen kann: Je breiter das KI, desto unsicherer wird die Schätzung. Quantitativ wird dies mit der t-Verteilung exakt beschrieben.

48
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall für die Varianz

A

Es ist bekannt, dass die Varianz einer normalverteilten ZG χ2-verteilt ist. Da die χ2-Verteilung unsymmetrisch ist, so sind auch die Quantile um den MW unsymmetrisch angeordnet. Im Normalfall geht man immer von einem zweiseitigen KI aus. Es gibt jedoch auch Fragestellungen, bei den nur ein Ende der Verteilung – also nur ein einseitiges KI – von Interesse ist. Eine solche Fragestellung könnte heißen: Bis zu welchem maximalem Wert muss man mit einer Sicherheit von 1-α mit der Varianz rechnen. Gefragt ist also ein rechtsseitiges KI, das zwischen 0 und Q1-α liegt.

49
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall für die Varianz

A

Dieses Beispiel zeigt (und beweist), dass der qualitative Verlauf der χ2-Verteilung nicht von der Standardabweichung (da auf diese normiert), sondern allein vom Umfang der Stichprobe (Freiheitsgrad) abhängig ist. Die STD sind in Zehnerschritten abgestuft, daher folgt die Varianz in Hunderterstufen, sonst aber sind die Verteilungen (statistisch) völlig gleich.

50
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall für die Varianz

A

Dieses Beispiel zeigt die Abhängigkeit der χ2-Verteilung vom Umfang der SP. Mit zunehmendem Umfang der SP ähnelt die χ2-Verteilung immer mehr der Normalverteilung, ab etwa n=100 kann sie als normalverteilt betrachtet werden. Die zugehörigen KI zeigen in Folge der Symmetrisierung der Verteilung eine stärkere Verkürzung des rechten Randes im Vergleich mit dem linken Rand. Während sich bei einer Verzehnfachung des Probenumfangs (von 10 auf 100) der linke Teil des KI in etwa halbiert, verkleinert sich der rechte Teil des KI auf etwa ein Siebentel.

51
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall für den Median

A

Der Median ist als das 50%-Quantil der robusteste Schätzer und dementsprechend (als Rangstatistik) stark nichtlinear und irreversibel. Die Robustheit folgt aus seiner Eigenschaft, dass einzelne Werte nicht mit ihrem Zahlenwert, sondern mit ihrem Platz in der geordneten Folge eingehen. Daher müssen selbst extreme Ausreißer nicht unbedingt zur Geltung kommen. Um aber etablierte Methoden der Statistik nutzen zu können, sind u. U. Näherungen notwendig: Für einen Umfang der SP von mehr als 50 und einer Irrtums-WS von weniger als 10% können die Intervallgrenzen mit Hilfe der Standard-NV ermittelt werden. Während die Bedingung mit höchstens 10% Irrtums-WS in der Praxis gut erfüllt ist, ist die Forderung nach dem SP-Umfang oft nicht erfüllt. In diesen Fällen kann die Rangstatistik auf eine Normalverteilung transformiert werden.

52
Q
  1. Analytische Biostatistik

Konfidenzintervalle

Konfidenzintervall für den Median

A

Die Indizes der Messwerte in diesem Beispiel sind so gerundet (notwendig, da Indizes ganze Zahlen: der untere nach unten, der obere nach oben), dass das berechnete KI größer wird. Dadurch wird die Irrtums-WS niedriger als vorgegeben. Ein solches Vorgehen wird als „konservativ“ bezeichnet, d.h. man schätzt mit einer höheren Sicherheit als gefordert. Aus dem KI folgt, dass dieses etwa 35% der Spannweite (Range) der Messdaten beträgt. Obwohl der Median wesentlich robuster ist als der Mittelwert, ist das immer noch ein hoher Anteil. Solche Maße sind in der Biologie und in der Medizin jedoch üblich.

53
Q
  1. Analytische Biostatistik

Statistische Tests

Beispiel: Wirkung eines neuen blutdrucksenkenden Mittels

A
  • Das neue Mittel müsste theoretisch und biochemisch begründet wirksam sein. Getestet wird an 20 Hypertonikern. Der BD wird vor und eine gewisse Zeit nach der Einnahme des Mittels gemessen.
  • Ausgewählt wird der t-Test (wird anschließend behandelt), der mit einer Unsicherheit von 5% die Hypothese bestätigt. Nun muss man aber auch die Möglichkeit einräumen, dass das Mittel in Wahrheit nicht wirkt. Dann würde sich die Frage stellen, wie hoch die WS dafür ist, dass man hier die Hypothese fälschlicherweise als richtig angenommen hat, also falsch positiv entschieden hat. Dazu folgt die Fehlerbetrachtung.
  • Die notwendige Bedingung zur Anwendung des t-Tests sind normalverteilte Daten. Dies müsste also überprüft werden. Bei einem so kleinen SP-Umfang wird es mit der Prüfung schwierig. Man kann aber Tests anwenden, die diese Bedingung nicht stellen.
54
Q
  1. Analytische Biostatistik

Statistische Tests

A
  • α in der Biostatistik üblich bei 5%, ausnahmsweise 1%, 0,1% oder 10%.
  • Aus α ergibt sich der Annahmebereich und der Ablehnungsbereich (kritischer Bereich) der Nullhypothese
  • Wenn die Alternativhypothese nicht explizit angegeben wird, kann ß nicht bestimmt und nicht angegeben werden. Dennoch hängt ß von α ab: Je kleiner ist α, umso größer der Annahmebereich der Nullhypothese und umso seltener wird diese abgelehnt. Dies führt aber dazu, dass sie auch angenommen wird, obwohl Alternativhypothese richtig ist. Diese Beziehung gilt grundsätzlich für alle statistischen Tests.
  • ß kann insbesondere bei kleinen Stichproben sehr groß werden. Daher muss man die Annahme der Nullhypothese – wenn die Alternativhypothese nicht exakt aufgestellt ist – sehr vorsichtig formulieren: “Die Nullhypothese kann auf dem Signifikanzniveau α nicht verworfen werden”.
  • Die Größe 1-ß wird auch als Güte eines statistischen Tests bezeichnet, international auch als Power.
  • Zeichnet man α gegen 1-ß auf, so entsteht die sog. ROC-Kurve (Receiver Operating Characteristic), die ein sehr informatives Maß für die Testgüte ist (Abhängigkeit der WS von richtig positiven Entscheidungen vs. Ws von falsch positiven Entscheidungen).
55
Q
  1. Analytische Biostatistik

Statistische Tests

Klassifikation von Tests nach Parametern:

A
  • Lagetests: Prüfung von Erwartungswerten
  • Dispersionstests: Prüfung von Streuungsmaßen
  • Assoziationstests: Prüfung von Zusammenhängen
  • Homogenitätstest: Prüfung der Verteilung in Stichproben
  • Anpassungtests: Vergleich empirischer und theoretischer Verteilung
56
Q
  1. Analytische Biostatistik

Statistische Tests

Klassifikation von Tests nach Prüfgrößen:

A
  • t – Tests
  • Rangsummentests
  • Binomialtests
  • Chi2 – Tests
  • Multivariate Tests
57
Q
  1. Analytische Biostatistik

Statistische Tests, t - Tests

parametrische Tests: geprüft werden nur ausgewählte Parameter

A
  • Gehen wir davon aus, dass eine SP aus einer normalverteilten GG entnommen wird, xi sind die Realisierungen dazu.
  • Die Nullhypothese lautet, dass der Erwartungswert μ0 erreicht, einen vorgebbaren Testwert.
  • Die Alternativhypothese lautet, dass der Erwartungswert nicht gleich dem vorgegebenen Wert ist. Es ist zu prüfen, ob die Nullhypothese angenommen oder verworfen wird. Hier ist festzuhalten, dass die Entscheidung allein über die Nullhypothese zu fällen ist. Da die Alternativhypothese nicht explizit formuliert wird, kann man über diese auch keine weiteren Angaben (Signifikanz) machen.
  • Zum Lageparameter Erwartungswert wird eine mathematische Teststatistik erstellt.
  • An Hand der Teststatistik wird für reale Daten die Prüfgröße berechnet.
  • Liegt die Prüfgröße beim zweiseitigen Test betragsmäßig unterhalb des kritischen Wertes für t, so wird die Nullhypothese angenommen (genau genommen, die Nullhypothese wird nicht verworfen).
  • Liegt die Prüfgröße betragsmäßig über dem kritischen Wert, so wird die Nullhypothese auf dem Signifikanzniveau a verworfen. Wie zuverlässig die Alternativhypothese in diesem Fall ist, lässt sich jedoch nicht ermitteln.
58
Q
  1. Analytische Biostatistik

Statistische Tests, t - Tests

A
  • Beim zweiseitigen Test wird der kritische Wert für die halbe Unsicherheit ermittelt. Bei einem einseitigen Test je nach Lage (links oder rechts) mit der vollen Unsicherheit.
  • Notwendige Voraussetzung zur Anwendung des t-Tests ist die Normalverteilung der getesteten Größe. Da man in der Biostatistik grundsätzlich davon ausgehen muss, dass keine einzige Zufallsgröße diese Bedingung erfüllt, gibt es zwei mögliche Wege: Zum einen wird geprüft (Anpassungstest folgt später), ob die ZG normalverteilt ist. Hier besteht das zuvor genannte Problem: Wird die Nullhypothese nicht verworfen, heißt es noch lange nicht, dass sie zuverlässig wahr ist. Zum anderen kann man davon ausgehen, dass bei hinreichend großem Umfang der SP der Lageparameter Erwartungswert auf Grund des ZGWSes normalverteilt ist. Dies gilt zuverlässig bei etwa n>30. Selbst bei n=10 und etwa symmetrisch verteilten SP ist dieser Test für praktische Anwendung ausreichend robust.
  • Fazit ist, für ausreichend umfangreiche SP ist der t-Test trotz Verletzung der Annahmen gut anwendbar. Bei geringen SP muss ein anderer Test eingesetzt werden.
59
Q
  1. Analytische Biostatistik

Statistische Tests, t - Tests

A
  • H0: Nullhypothese, dass m gleich (oder größer) ist als m0. Das heißt, man hat zu prüfen, ob die Differenz nicht negativ ist. Daher wird linksseitig geprüft, also zum t- Quantil mit alpha
  • Ist Testgröße T kleiner als t, so wird Nullhypthese abgelehnt.
60
Q
  1. Analytische Biostatistik

Statistische Tests, t - Tests

Wie formuliert man Hypothesen?

A
61
Q
  1. Analytische Biostatistik
A
62
Q
  1. Analytische Biostatistik

Statistische Tests

Beispiel: EKG und Artefakterkennung

A
  • Am Beispiel eines realen EKG wird gezeigt, welche Schritte in der Artefaktdetektion notwendig sind: In dieser Grafik sind die Verläufe eines gestörten und eines ungestörten EKG dargestellt. Man kann sehr gut das typische Bewegungsartefakt erkennen, das es zu eliminieren gilt. Zu beachten sind zwei Indikatoren für ein Bewegungsartefakt: Ein relativ langsamer Ausgleichsvorgang, verursacht durch die analogen Filter im Messverstärker und eine hohe negative Amplitude, die im normalen EKG nicht auftritt.
63
Q
  1. Analytische Biostatistik

Statistische Tests

Beispiel: EKG und Artefakterkennung

A

Die Histogramme dieser Verläufe zeigen: Es ist deutlich erkennbar – auch schon aus dem Zeitverlauf – dass das gestörte EKG wesentlich größere negative Werte annimmt. Das wird als Diskriminationskriterium genutzt: Eine Amplitudenschwelle wird bei ca. -0.7mV gesetzt (hinreichender Abstand zum korrekten EKG wegen Fehlalarm) und jedes EKG, das diese Schwelle unterschreitet wird für artefaktbehaftet erklärt.

64
Q
  1. Analytische Biostatistik

Statistische Tests – Alternativhypothese bekannt

A
  • Wenn genügend Daten aus beiden Stichproben vorhanden sind, d.h. aus der Verteilung bei gültiger Nullhypothese sowie aus der Verteilung bei gültiger Alternativhypothese, oder sind diese Verteilungen theoretisch berechenbar, kann nach mehreren Kriterien (Kosten von Falschentscheidungen) eine Entscheidungsschwelle gesetzt werden. Die Aussagen RN (richtig negativ), RP (richtig positiv), FN (falsch negativ), FP (falsch positiv) beziehen sich auf das Vorhandensein eines Artefakts. Die Annahme der Nullhypothese führt demnach zur richtig negativen Entscheidung über die Anwesenheit eines Artefakts.
  • Für die Detektion eines Effekts sind primär die Entscheidungen RP und FP von Interesse.
  • Zu beachten ist, dass je näher die beiden Verteilungen beieinander liegen, umso schwieriger wird es eine zuverlässige Aussage über das Vorhandensein eines Artefakts zu treffen. Damit wird auch das grundlegende Problem beim Fehlen der Alternativhypothese deutlich: Man wählt die Irrtumswahrscheinlichkeit α=5% (FP-Rate) und damit bleibt die statistische Sicherheit der Nullhypothese bei 95% (RN-Rate). Man erhält jedoch überhaupt keine Information über die FN-Rate, also man kann nicht einschätzen, mit welcher WS die richtige Alternativhypothese verworfen wird.
  • Anm.: Bei der Wahl von α und ß würde hier ein einseitiger Test ausreichen: Für die Nullhypothese der rechtsseitige (a>0), für die Alternativhypothese der linksseitige (a<2).
65
Q
  1. Analytische Biostatistik

Statistische Tests – Alternativhypothese bekannt

Beispiel: EKG und Artefakterkennung

A
  • An Hand der kumulativen Häufigkeitsfunktion können die einzelnen WS direkt abgelesen werden.
  • Die Sensitivität (Empfindlichkeit eines Tests, um einen vorhandenen Effekt nachzuweisen) ist die WS dafür, dass ein vorhandener Effekt auch erkannt wird. Die Spezifität ist die WS dafür, dass das Fehlen eines untersuchten Effekt auch nachgewiesen wird. Beide Größen sind wichtig in der Beurteilung von statistischen Tests. Ein guter Test hat hohe Sensitivität, aber auch hohe Spezifität.
  • Beispiel: Das Glaukom (grüner Star) wird im Screening u.a. durch Messung des Augeninnendrucks vordiagnostiziert. Diese Druckmessung hat in Bezug auf das Glaukom eine schlechte Sensitivität, die zwischen etwa 65% bis 80% liegt. Die Spezifität liegt sogar noch darunter bei bis zu 50%. Das bedeutet einerseits, dass nicht jedes Glaukom erkannt wird, jedes dritte bis fünfte wird übersehen. Andererseits heißt das, dass jeder Zweite mit einem hohen Augeninnendruck gar kein Glaukom hat. Also jeder zweite Glaukompatient wird unnötig behandelt.
66
Q
  1. Analytische Biostatistik

Statistische Tests – Alternativhypothese bekannt

Beispiel: EKG und Artefakterkennung

A
  • Ein sehr informatives Qualitätskriterium zur Bewertung von statistischen Tests ist die ROC (Receiver Operating Characteristic, ein Begriff aus der Nachrichtentechnik). Man kann die ROC theoretisch herleiten oder experimentell ermitteln und sich dann für die beste Kombination aus Sensitivität und Spezifität entscheiden. Welche die beste Komination ist, hängt entscheidend von der medizinischen Zielstellung ab. Einerseits kann die Sensitivität sehr wichtig sein, z.B. Tumorerkennung bei der Mammographie. Zum anderen kann die Spezifität sehr wichtig sein, z.B. bei der Festlegung der Grenzen von bestrahlten Gewebeteilen in der Strahlentherapie.
  • Die ROC-Güte nimmt in Richtung Eckpunkt der Charakteristik zu. Sind die beiden Verteilungen unter den Hypothesen weit auseinander bzw. völlig getrennt, erreicht die ROC den Eckpunkt bei FP=0 und RP=1. Überdecken sich die Verteilungen unter beiden Hypothesen vollständig, ist die ROC gleich der Nebendiagonale (gestrichelte blaue Linie), so dass eine Entscheidung gar nicht möglich ist. Anm,: FP = α, 1-RP = ß.
67
Q
  1. Analytische Biostatistik

Statistische Tests, t - Tests

A
  • Die Softwaretools geben heute beim t-Test auch einen sog. p-Wert zurück. Dieser Wert gibt die WS an, mit der der berechnete t-Wert oder ein größerer Wert auftritt. Ist er niedriger als α, liegt tp rechts (links im negativen Bereich) vom kritischen Wert und die Nullhypothese ist zu verwerfen (wie oben gezeigt). Der p-Wert kann auch als Signifikanz der Nullhypothese interpretiert werden.
  • Man könnte das Ergebnis so interpretieren, dass die Ablehnung der 0-Hypothese auch zum p-Niveau möglich gewesen wäre. Und davor warnen die um eine exakte Statistik besorgten Experten. Die Besorgnis beruht auf der Überlegung, dass die SP bereits mit der Unsicherheit α entnommen wurde und daher eine weitere “Steigerung” der Sicherheit gar keinen Sinn mache. Diese Begründung ist insofern gerechtfertigt, dass man mit der vorgegebenen Irrtums-WS in ein Experiment hinein geht und dieses entsprechend plant. In der Praxis jedoch erhält man viel öfter experimentelle Daten (z.B. Statistisches Bundesamt), auf deren Erhebung man gar keinen Einfluss hatte bzw. die Versuchsbedingungen nicht beeinflussen konnte. Dann ist es selbst streng methodisch genommen nicht falsch, die Nullhypothese zu unterschiedlichen Signfikanzniveaus zu testen. Allerdings muss man schon sehr gut aufpassen, ob man mit einem extrem niedrigen α nicht zu sehr in den Bereich der richtig positiven Alternativhypothese fällt, von dem man ja gar keine Information besitzt. Fazit ist, man sollte sich von einem wesentlich niedrigeren p-Wert als dem vorgegebenen α nicht zu einer “Steigerung” der Sicherheit verleiten lassen.
68
Q
  1. Analytische Biostatistik

Statistische Tests, t -Test für 2 verbundene SP

A
  • Beim zweiseitigen Test beträgt die IrrtumsWS 1-a/2, beim einseitigen Test 1-a
  • Für D wird eine Normalverteilung verlangt. Wie schon früher erwähnt, praktisch reicht es für den t-Test aus, wenn bei n>10 die Verteilung der ZG annähernd symmetrisch ist. In diesem Test wird die Differenz von zwei ZG gebildet und damit entschärft sich die Bedingung dahingehend, dass es ausreicht, wenn X und Y gleiche, wenn auch unsymmetrische Verteilungen besitzen. Durch die Differenzbildung gleicht sich die Unsymmetrie zum großen Teil aus.
  • Anm.: Paarige SP sind SP mit Wertepaaren, wobei die einzelnen Realisierungen der
    Wertepaare weiterhin voneinander statistisch unabhängig sein müssen.
69
Q
  1. Analytische Biostatistik

Statistische Tests, t -Test für 2 verbundene SP

A
  • Beispiel: Die Datenpaare x1 und x2 repräsentieren zwei exponentielle rechtsschiefe Verteilungen, wie sie in der Biostatistik häufig vorkommen. Beide stammen aus GG mit Erwartungswert 1 (Modus=0). Die Differenz ist symmetrisch verteilt, da die ursprünglichen Verteilungen x1 und x2 beide rechtsschief sind und in etwa gleiche Verteilungsparameter besitzen. Bei dem SP-Umfang von 500 kann man annehmen, dass der Mittelwert von d zur Berechnung von t normalverteilt ist (ZGWS).
  • Matlab liefert folgendes Ergebnis:
    • h = 0, d.h. H0 wird nicht verworfen. Man kann jedoch nicht sagen, dass H0 richtig ist!
    • p = 0.93, d.h. p>a, (a=5% default in Matlab-ttest), also gibt es keinen Grund, H0 zu verwerfen
    • ci gibt das Konfidenzintervall auf dem Niveau 95% an
    • tstat ist die berechnete Testgröße t
    • df ist der Freiheitsgrad
    • sd ist die Standardabweichung der SP
  • ​​Dazu Matlab-Übung, experimentelle Daten unter ttest_beispiel.mat. Alternativ in Matlab die hier angegebenen Schritte durchspielen. Betrachten Sie die Entwicklung der Varianz und der Korrelation von generierenden Daten bis hin zur Differenz, die mit dem t-Test geprüft wird.
70
Q
  1. Analytische Biostatistik

Statistische Tests, t -Test für 2 unverbundene SP

A
  • Die Bedingung der identischen Standardabweichung ist relativ streng und muss überprüft werden. Für die Berechnung der Testgröße t gehen beide Varianzen mit entsprechenden Gewichten ein, denn diese werden praktisch immer unterschiedlich sein, auch auf Grund unterschiedlicher SP und ihrer Umfänge.
  • Zu Voraussetzungen:
    • Die geforderte NV zu überprüfen ist problematisch, siehe Einführung zu t-Tests. Praktisch ist es sicherer, sich auf den ZGWS zu verlassen, d.h. ausreichend große SP zu entnehmen.
    • Die geforderte Identität der Varianzen zu überprüfen ist ebenso problematisch, da der in Frage kommende F-Test zur Überprüfung der Gleichheit von zwei Varianzen (genauso wie der Anpassungstest zur Überprüfung der NV) bei kleinem SP-Umfang durch Beibehaltung der H0 einen riesigen Fehler aufweisen kann.
    • Für praktische Analyse sollten daher die SP-Umfänge ausreichend groß (n>10…20) und die ZG X und Y in etwa gleich verteilt sein. Dies lässt sich in der Versuchsplanung gut berücksichtigen. Bei ungeplanten Experimenten bleibt nur noch eine sinnvolle und routinierte Datenselektion übrig, die jedoch – bewusst oder unbewusst – zu falschen Schlussfolgerungen führen kann.
    • Dieser Test ist relativ robust und bei Einhaltung der praktischen Hinweise auch zuverlässig.
71
Q
  1. Analytische Biostatistik

Statistische Tests, t -Test für 2 unverbundene SP

A
  • In diesem Beispiel werden bereits vorhandene simulierte Daten verwendet.
  • Aus den beiden schiefen, doppeltexponentiell verteilten SP x1 und x2 werden zwei ungleich große SP gebildet. Die Varianzen der beiden SP unterscheiden sich naturgemäß wegen des unterschiedlichen SP-Umfangs, während die Varianz der GG identisch ist. Dies ist gesichert, da die Daten als ursprüngliche eine einzige SP generiert wurden. An dieser Stelle müsste man prüfen, ob nun die beiden SP in der GG identische Varianz hatten. Dazu käme zunächst der F-Test in Frage (siehe F-Test später). Dieser würde – selbst bei diesen hohen SP-Umfängen – das Ergebnis bringen, dass die H0 (Varianzen gleich) nicht verworfen wird. Damit findet man sich am Anfang der Signifikanzanalyse wieder: Die H0 wird zwar nicht verworfen, aber ob H1 gültig ist, kann man nicht testen.
  • In der praktischen Vorgehensweise wird daher die gewichtete Varianz berechnet und in der Hoffnung, dass der ZGWS hier wirkt, wird der t-Test durchgeführt. Zu beachten ist, dass die gemeinsame Varianz nicht in der Mitte zwischen den beiden SP-Varianzen liegt, sondern immer näher an der Varianz der größeren SP (Wichtung durch den SP- Umfang).
  • Für den zweiseitigen t-Test wird der kritische Wert ermittelt. Der Vergleich zeigt, dass die Prüfgröße kleiner ist als der kritische Wert, daher wird die H0 auf dem Signifikanzniveau 95% nicht verworfen.
72
Q
  1. Analytische Biostatistik

Statistische Tests, t-Tests

Stichprobenumfang bei t-Tests

A

Das Problem bei der Abschätzung des notwendigen SP-Umfangs ist, dass die Größen, von den er abhängt, nicht bekannt sind und letztendlich von n abhängen. Qualitativ lassen sich die Zusammenhänge des SP-Umgangs und der weiteren statistischen Parameter jedoch gut beschreiben: Der SP-Umfang n

  • steigt mit der empirischen Varianz s2
  • ist umgekehrt proportional der quadratischen Differenz des wahren und des empirischen Mittels,
  • steigt mit abnehmender Irrtumswahrscheinlichkeit a .

​An dieser Stelle wird an den p-Wert erinnert: Wird ein Experiment mit a = 5% geplant und durchgeführt, so wird eine nachträgliche “Erhöhung” der Sicherheit auf p bei p

In der analytischen Praxis liegt bei den meisten Fragestellungen im Normalfall Vorwissen vor, zumindest die Rahmenbedingungen sind bekannt. Weiterhin kann man einen erwarteten Effekt quantifizieren, z.B. ein Fiebersenkungsmittel wird als wirksam angesehen, falls die erreichte Absenkung mindestens 0.5 Grad Celsius beträgt (Differenz des theoretischen und des empirischen Mittels). Aus empirischen Daten ist auch die Standardabweichung bei H0 bekannt – etwa 1.0 oC. Allein aus diesen Daten lässt sich der SP-Umfang beim Testen der Wirkung des Fiebersenkungsmittels auf etwa n=16 (t0,95 wird etwa 2 gesetzt) abschätzen.

73
Q
  1. Analytische Biostatistik

Statistische Tests, t-Test für die Korrelation nach Pearson

A
  • Diese Anwendung des t-Tests ist der sog. Assoziationstest, mit dem geprüft wird, ob man an Hand des empirischen KK nach Pearson auf einen (linearen!) Zusammenhang in der GG schließen kann.
  • Unter bestimmten Bedingungen (SP-Umfang ausreichend groß, n>30..100) sind die KK der SP, die aus der GG gezogen wurden, normalverteilt (Übung in Matlab). Daher kann der t-Test zunächst angewandt werden. Normalerweise ist dieser Test einseitig, es sei denn, man will die H0 bestätigen. Aus der Formel geht hervor, je höher der empirische KK und je größer die SP, umso eher wird die H0 abgelehnt. Allerdings sind die Voraussetzungen relativ streng: Die ZG müssen N-verteilt sein, d.h. die Projektion der Verbundverteilung auf die Achsen muss einer Normalverteilung entsprechen (siehe Kapitel zu KK).
74
Q
  1. Analytische Biostatistik

Statistische Tests, t-Test für die Korrelation nach Pearson

Beispiel: vorhandene simulierte Daten vom vorherigen Beispiel

A

Die Prüfung der ZG, deren Zusammenhang geprüft werden soll, beschränkt sich praktisch auf die visuelle Inspektion der Daten und Kontrolle der empirischen Maße auf näherungsweise Normalverteilung und Homogenität (siehe Kapitel zu KK). Für spätere Prüfung der Residuen sollten aus der GG immer mehrere SP entnommen werden, um ausreichend Statistik zur Residuenprüfung zu erhalten. Dies geht natürlich nur, wenn insgesamt genügend Daten zur Verfügung stehen. Bei kleinen SP kommt diese Prüfung gar nicht in Frage.

75
Q
  1. Analytische Biostatistik

Statistische Tests, t-Test für die Korrelation nach Pearson

Beispiel: vorhandene simulierte Daten vom vorherigen Beispiel

A
  • Für die simulierten Daten ergibt sich ein KK von 0,5277. Dies an sich ist kein überzeugender Wert, da er gerade in der Mitte zwischen keiner (r=0) und vollständiger (r=1) Korrelation liegt. Allerdings ist der SP-Umfang mit n=1000 relativ hoch, was auch zu einem großen Wert der Prüfgröße führt. Vor allem auf Grund der großen SP wird der kritische Wert weit überschritten und die H0 kann verworfen werden. Hier ist zu beachten (siehe ROC), dass das statistisch sichere Verwerfen der H0 noch lange nicht bedeutet, dass H1 auch als sicher gilt. Man würde es demnach so interpretieren, dass mit einer Signifikanz von 95% die Annahme eines fehlenden linearen Zusammenhangs verworfen werden kann. Also ein Zusammenhang ist vorhanden, nur weiß man nicht, wie sicher er ist.
  • Bei kleinen SP ist es nicht möglich, die ZG auf NV zu prüfen, auf Residuen schon gar nicht (n<30..100). In der Praxis hat man daher zwei Schwellen akzeptiert, nach den der KK klassifiziert wird: Ist r<0.2, so nimmt man einen fehlenden, ist r>0.8, so nimmt man einen vorhandenen Zusammenhang an. Ist 0.2
76
Q
  1. Analytische Biostatistik

Statistische Tests, t-Test für die Korrelation nach Pearson

Beispiel: vorhandene simulierte Daten vom vorherigen Beispiel

A

Wenn genügend Daten zur Verfügung stehen, so dass man auch hinreichend viele SP entnehmen kann (n>1000), so empfiehlt sich zur statistischen Absicherung die Analyse der Residuen. Als Residuen werden Daten bezeichnet, die sich als Differenz zwischen modellierten und realen Daten ergeben. So kann man bereits bei einer einzigen SP die Verteilung der Residuen auf Normalverteilung und Erwartungswert prüfen. Wie in diesem Beispiel gezeigt, fällt diese Prüfung positiv aus. Da aber nur eine SP zur Verfügung stand, kann man über die Eigenschaften Homogenität der Varianzen und Unabhängigkeit der Residuen keine weiteren Aussagen treffen. In Matlab Übung zu mehreren SP, um auch diese Eigenschaften zu testen.

77
Q
  1. Analytische Biostatistik

Statistische Tests, t-Test für die Korrelation nach Pearson

Beispiel: vorhandene simulierte Daten vom vorherigen Beispiel

A

Eigenschaften des KK bei der Verletzung der Bedingung von normalverteilten ZG: Der Zusammenhang zwischen rechtsschiefen, doppeltexponentiell verteilten Daten (vorheriges Beispiel), sollte mit dem KK nach Pearson untersucht werden. Die Verteilung von 1000 Stichproben (m=1000) vom Umfang n=100 wurde untersucht. Die ZG sind ganz klar rechtsschief und exponentiell (mw=1, modus=0, var=5). Der KK ist näherungsweise NV mit mw=0.3872 und var=0.0153 (std=0.1237). In sofern scheint der KK selbst bei der verletzten Bedingung der NV gut zu funktionieren. Allerdings liegt der theoretische Wert für den KK bei 0.5 (ergibt sich aus der Datensimulation), was auch experimentell in vorangegangenen Beispielen bestätigt wurde. Daraus folgt, dass die Verletzung der Voraussetzung bezüglich NV dazu geführt hat, dass der KK unterschätzt wird und daher der Test sich konservativ verhalten wird, obwohl er korrekt auf einen NV- KK angewandt wurde. Dies ist in der praktischen Analyse nicht immer von Vorteil.

78
Q
  1. Analytische Biostatistik

Statistische Tests, Rangsummentests

A

Mit rangbasierten Tests entschärft sich die Situation dahingehen, dass die ZG nicht mehr NV sein müssen, man kann also eine wesentlich größere Robustheit der Tests erwarten. Allerdings verbergen diese Tests – wie Rangstatistiken generell – massive Gefahren in der Interpretation der Ergebnisse. Rangstatistiken sind nämlich grundsätzlich nichtlinear und die Transformation der Daten auf ihren Rang ist irreversibel. Daraus folgt, dass man zwar auf dem Hinweg zum Test die Rangtransformation nutzen kann und auch ein robustes Ergebnis erhält. Allerdings ist die rückwärtsgerichtete Implikation nicht immer korrekt, verallgemeinert formuliert sogar unzulässig. Dazu später ein Beispiel.

Die Hypothesen sind zunächst mit denen eines Einstichproben-Tests identisch.

79
Q
  1. Analytische Biostatistik

Statistische Tests, Wilcoxon-Test

A
  1. Die experimentellen Daten werden aufsteigend sortiert und der sortierten SP werden ebenfalls aufsteigend Rangzahlen beginnend mit Eins vergeben.
  2. Man addiert aller Ränge oberhalb und unterhalb von µ0 und bildet die Rangsummen. Zur Rechenkontrolle wird die Summe überprüft.

Hier werden dieselben Daten verwendet, wie in vorangegangenen Beispielen: Rechtsschief, doppelt exponentiell, mit Modus=0 und Mittelwert=1.

80
Q
  1. Analytische Biostatistik

Statistische Tests, Wilcoxon-Test

A
  • Die Vorgehensweise war korrekt, die H1 wird nur angenommen, wenn R kleiner ist als der Tabellenwert. Im Extremfall kann R=0 sein, was bedeutet, dass sich die Rangsummen maximal unterscheiden. Dann ist auch kein Test mehr notwendig, entweder liegen alle Werte links oder rechts von µ0. Sonst nimmt R Werte zwischen 0 und n(n+1)/4 an. Im Unterschied zu anderen Tests ist es hier so, dass kleine Werte der Prüfgröße R auf große Unterschiede hindeuten.
  • Nun ist es angebracht, diesen Test bzw. die Daten näher zu betrachten. Die Testdaten sind rechtsschief und doppeltexponentiell verteilt, wie auf den Folien 142 und 150 gezeigt. Das heißt, die Voraussetzung der symmetrischen Verteilung wurde nicht eingehalten. Denn bei symmetrischer Verteilung liegen in etwa genauso viele Ränge unter wie über µ0 Das ist hier offenbar nicht der Fall. Die Testgröße R ist größer als der Tabellenwert, daher wird die H0 nicht verworfen. Bereits der t-Test (Folie 144) hat H0 nicht verworfen.
  • Fazit ist, der Wilcoxon-Test ist viel robuster gegen die Verletzung der Forderung nach einer Normalverteilung, allerdings ist er selbst empfindlich gegen die Forderung nach der Symmetrie der Daten. Da diese in diesem Beispiel unsymmetrisch sind, entscheidet der Test fälschlicherweise für die H0, wobei klar ist (durch die Datenerzeugung ist dies sicher), dass H1 richtig ist.
81
Q
  1. Analytische Biostatistik

Statistische Tests, Wilcoxon-Test für 2 verbundene SP

A

Dieser Test bildet das Analogon zu einem t-Test für verbundene SP: Man kann die Frage nach Gleichheit der Lageparameter auf eine ZG reduzieren – auf die Differenz. Dieser Test ist praktisch viel robuster als der Wilcoxon-Test für eine SP. Der Grund liegt darin, dass zwei SP, die verglichen werden sollen, meistens zumindest qualitativ gleiche Verteilungen haben, also auch gleich schiefe. Daher ist ihre Differenz meistens symmetrisch, womit alle Voraussetzungen für diesen Test (vorausgesetzt stetige ZG) erfüllt wären.

82
Q
  1. Analytische Biostatistik

Statistische Tests, U-Test

A
  • Der U-Test bildet Rangstatistik-basierte Alternative zum t-Test für unverbundene Stichproben. Die einzige Voraussetzung ist die Stetigkeit der Zufallsgröße. Sie ist in der Praxis im Normalfall immer erfüllt. Sonst müssen bei diesem Test keine weiteren Voraussetzungen erfüllt sein und daher ist er sehr robust. Robustheit ist ohnehin eine typische Eigenschaft von Rangstatistiken. Allerdings ist diese ansonsten sehr positive Eigenschaft nur auf Kosten der Interpretierbarkeit und der Irreversibilität zu haben: Rangstatistiken sind grundsätzlich nichtlinear, wobei der Grad der Nichtlinearität nicht bekannt und stochastisch ist. Sie sind irreversibel, da nach der Transformation der Daten auf Ränge der Bezug zu Daten verloren geht. In Ausnahmefällen kann über die ganze Analyse der Bezug (Indexierung der Daten) mitgenommen werden, was allerdings mit einem enormen Aufwand verbunden ist.
  • Anm: Der Grund für die Forderung nach einer stetigen ZG ist, dass nur dann sichergestellt werden kann, dass es keine zwei oder mehr identische Werte der ZG gibt und die Rangzahlen eindeutig vergeben werden können. Dennoch kann es vorkommen, dass man einen oder mehrere identische Werte erhält. Dann bekommen alle identischen Werte das arithmetische Mittel der sonst zu vergebenden Rangzahlen. Zum Beispiel tritt der Messwert 134 für den Blutdruck zweimal auf: Die Werte würden die Ränge 4 und 5 bekommen, daher bekommen beide 4,5.
83
Q
  1. Analytische Biostatistik

Statistische Tests, U-Test

A
84
Q
  1. Analytische Biostatistik

Statistische Tests, U-Test

A
  1. Die Stichproben (lila und blau) wurden den in früheren Beispielen verwendeten Daten entnommen: Doppelt exponentielle, rechtsschiefe Verteilungen.
  2. Aus den beiden SP wird eine gemeinsame SP gebildet. Dazu müssen die Indizes gespeichert werden, um hinterher die sortierten Daten den Stichproben 1 und 2 zuordnen zu können.
  3. Aus den Rängen der geordneten gemeinsamen SP (die zu den ursprünglichen SP zugehörigen Ränge sind entsprechend farblich markiert) werden die Rangsummen (farblich markiert) gebildet.
  4. Die Prüfgröße in diesem Fall ist größer als die kritische Größe, die H0 wird nicht verworfen. Wenn die Prüfgröße kleiner wäre, hätte man die H0 verworfen. Pauschal gilt, dass je näher die Prüfgröße an 0 liegt, umso sicherer kann die H0 verworfen werden.
85
Q
  1. Analytische Biostatistik

Statistische Tests, t-Lagetests vs. Rangsummentests

A

Als Testdaten wurden dieselben (doppelt exponentiell, rechtsschief) Daten verwendet, wie in vorangegangenen Beispielen. Der Test wurde in Matlab ausgeführt.

Nun stellt sich die Frage, welchem der beiden Tests man vertrauen soll. Beide wurden zur Irrtums-WS von 5% durchgeführt, bei beiden sind die Voraussetzungen praktisch erfüllt. Allerdings ist bei beiden Tests nicht bekannt, wie die Datenverteilung aussieht, falls die H1 wahr ist. Und dies ist der entscheidende Punkt:

  • Rangtests neigen dazu (konservativ), H0 zu bevorzugen. Das führt jedoch zur Reduktion der Sensitivität (1-ß), d.h. der “test power”, obgleich zur Steigerung der Spezifität.
  • Die t-Tests neigen dazu, bei nicht erfüllten Voraussetzungen (die in der Praxis nie restlos erfüllt sind) schneller für signifikant zu entscheiden, als es das Fehlerniveau a zulässt. Dadurch wird a entgegen den Vorgaben faktisch erhöht. Zwar wird dadurch auch die Sensitivität angehoben, aber nur auf Kosten der Spezifität.
  • Pragmatisches Vorgehen: Im Normalfall will man eine Wirkung nachweisen, d.h. man möchte H0 ablehnen. Dafür würde sich der t-Test scheinbar besser eignen. Dann muss man aber sehr genau prüfen, ob die Voraussetzungen hinreichend gut erfüllt sind. Bei Unsicherheit sollte man eher auf Rangtests zurückgreifen. Damit bleibt das erhoffte Ergebnis möglicherweise aus. Man erspart sich aber einen Imageschaden und weitere Konsequenzen, falls man sich zu optimistisch für H1 entschieden hat, H0 jedoch richtig war.
86
Q
  1. Analytische Biostatistik

Statistische Tests, Binomialtest

A

Der Binomialtest ist bei ZG anwendbar, die (theoretisch) einer Binomialverteilung unterliegen, also bei Alternativmerkmalen, wie männlich/weiblich, Lebewesen vorhanden/nicht vorhanden, im Nachrichtenkanal eine logische 0/1, usw. Wie bereits bei der Binomialverteilung erläutert, setzt man bei Unkenntnis der wahren WS die theoretische WS p0=0.5 an. Dann wird beim zweiseitigen Test geprüft, ob H0 anzunehmen ist, beim einseitigen Test wird p>p0 oder p

0 geprüft.

87
Q
  1. Analytische Biostatistik

Statistische Tests, Binomialtest

A
  • Wie schon bei der Binomialverteilung besprochen, liegt die theoretische Verteilung nur dann vor, wenn die GG unendlich (bzw. hinreichend) groß ist. Dann kann man aus der theoretischen Verteilung den Annahmebereich 1-a berechnen, einfach aus der inversen Verteilungsfunktion.
  • In der praktischen Analyse (die Annahme der theoretischen Verteilung gilt nicht) kann man für genügend großen SP-Umfang davon ausgehen, dass die Prüfgröße np0 normalverteilt ist mit oben angegebenen Parametern. Der Wert 1,96 ist der z- Wert für das Signifikanzniveau 1-a/2. Durch den Term 0,5 wird der Annahmebereich von H0 erweitert: Dies ist die sog. Stetigkeitskorrektur (Weiß: Basiswissen Medizinische Statistik).
  • Der Binomialtest ist vielseitig einsetzbar, da er als 1-SP-Test für jedes Merkmal als Alternativmerkmal aufgefasst werden kann. Hinzu kommt, dass die Voraussetzungen zu seiner praktischen Anwendung sich allein auf genügenden Umfang der SP beschränken, der ohnehin fast bei jedem Test verlangt wird. Damit ist der Test auch sehr robust bei verschiedensten Verteilungen der ZG (siehe ZGWS).
88
Q
  1. Analytische Biostatistik

Statistische Tests, Vorzeichentest

A

Bei gültiger H0 geht man davon aus, dass bei gleich vielen Wertepaaren die Differenz positiv und negativ ist, daher im Mittel Null. Die Voraussetzung ist fast immer erfüllt, daher kann der Test faktisch immer eingesetzt werden. Er ist also sehr robust, viel robuster, als rangsummenbasierte Tests. Die höhere Robustheit ergibt sich aus der Tatsache, dass hier nicht einmal die Werte eine Rolle spielen, wie bei Rangstatistiken, sondern allein das Vorzeichen. Diese Robustheit wird natürlich auf Kosten anderer wichtiger Eigenschaften erkauft. Vor allem die “test power” wird stark herabgesetzt, da dieser Test extrem konservativ ist.

89
Q
  1. Analytische Biostatistik

Statistische Tests, Vorzeichentest

A
90
Q
  1. Analytische Biostatistik

Statistische Tests, Vorzeichentest

A
  • Für kleine SP kann die WS einer bestimmten Anzahl von +/- berechnet werden. Allerdings geht man von einer theoretischen WS für +/- von 0,5. Aus signalanalytischer Sicht sind die Daten faktisch binarisiert mit der Diskriminanzschwelle 0. Und da die theoretische WS gleich 0,5 gesetzt wurde, geht man implizit davon aus, dass zumindest dem Vorzeichen nach ihre Differenz symmetrisch ist. Diese Voraussetzung ist in der Praxis selbst bei stark schiefen Verteilungen gut erfüllt.
  • Für große n kann die Standardnormalverteilung mit dem EW=n.0,5 und Varianz n.0,25 als Teststatistik verwendet werden.
91
Q
  1. Analytische Biostatistik

Statistische Tests, Vorzeichentest

A

Die Entscheidung zwischen zwei verschiedenen Testergebnissen ist qualitativ das selbe Problem, wie beim Vergleich des t-Tests und des Wilcoxon-Tests. Die simulierten Daten sind wegen guter Vergleichbarkeit verschiedener Testergebnisse dieselben, wie in vorangegangenen Beispielen. Wie man an den Matlab-Simulationen erkennen kann, wurde die zweite SP um den Wert 1 verschoben, so dass eine richtige Entscheidung heißen würde, die H0 zu verwerfen. Der Wilcoxon-Test, der an sich schon robust ist, trifft die richtige Entscheidung. Der Vorzeichentest ist jedoch konservativer und behauptet daher, H0 wäre anzunehmen. An diesem Beispiel wird die Problematik wieder einmal sehr deutlich, die sich pauschal wie folgt ausdrücken lässt: Steigerung der statistischen Sicherheit gegen den Fehler einer Art führt zur Erhöhung des Fehlers der anderen Art. Angewandt auf dieses Beispiel heißt es, der Vorzeichentest ist stark konservativ, was den Fehler der ersten Art a reduziert, dafür nimmt aber der Fehler der zweiten Art b zu bzw. die test power 1-b nimmt ab. Wo ein annehmbarer Kompromiss liegt, hängt von weiteren Überlegungen ab, die zusätzlich die Fehlerkosten berücksichtigen. Dazu wird auf einschlägige Literatur verwiesen.

Der Vorzeichentest sollte nicht als alleiniger Entscheidungstest verwendet werden, eher als eine erste Orientierung. Denn robuste Tests sind zwar fast völlig unabhängig von weiteren Bedingungen, dafür aber sehr konservativ, wie hier gezeigt wurde.

92
Q
  1. Analytische Biostatistik

Statistische Tests, mehrere Stichproben

Mehrstichprobenproblem

A

In der Praxis tritt oft das Problem auf, dass der Einfluss mehrerer Parameter untersucht werden muss, z.B. die Wirkung von drei oder mehr Behandlungsmethoden. Dazu werden mehrere SP generiert und nach dem angegebenen Schema ein geeigneter Test ausgewählt. Für die Varianzanalyse gelten dieselben Voraussetzungen, wie bei 1- und 2-SP-t-Tests. Vor allem wird es problematisch sein, die Bedingung der Normalverteilung zu erfüllen. Auf die Rangbasierten Tests werden ebenso die bisher behandelten Voraussetzungen übertragen.

Mit diesen Tests wird allein die Signifikanz zwischen den SP geprüft, nicht die möglichen Querbeziehungen. Praktisch wird es wie im folgenden Beispiel dargestellt durchgeführt: Drei Blutdruck senkende Medikamente werden auf ihre Wirksamkeit getestet. Diese werden Hypertonikern verabreicht und anschließend getestet. Der Test sagt aus, welches Medikament wirkt. Er sagt aber nicht aus, ob eine Kombination aus den Medikamenten wirkt und auch nicht, ob es einen Zusammenhang zwischen Merkmalen der Hypertoniker (Alter, Gewicht, Fitness) mit den jeweiligen Medikamenten gibt. Um auch diese Zusammenhänge, die natürlich vom fundamentalen Interesse sind, zu testen, sind multivariate Analysemethoden notwendig.

93
Q
  1. Analytische Biostatistik

Statistische Tests, multivariate Analysen

A
  • •Das Ziel der Diskriminanzanalyse besteht darin, Daten zu gruppieren und die Gruppen mit analytisch (Gerade, Parabel) oder statistisch (neuronale Netze) ermittelten Grenzen voneinander zu trennen. Es handelt sich faktisch um ein Klassifizierungsverfahren. Ein Objekt wird an Hand seiner Merkmale einer Gruppe zugeordnet.
  • •Die PCA ist eine Methode, die vorhandenen Daten, die bei mehr als drei Dimensionen gar nicht mehr dargestellt und daher kaum interpretiert werden können, in ein neues Koordinatensystem zu transformieren. Die neuen Variablen sind zueinander orthogonal und repräsentieren die Originaldaten als Linearkombination der neuen Variablen. Dadurch werden die nichtorthogonalen (abhängige) Daten überflüssig und man erreicht eine Datenreduktion ohne Datenverlust. In der Bildverarbeitung ist diese Transformation auch als Karhunen-Loeve-Transformation bekannt. Die PCA liefert keine Information über die statistischen Zusammenhänge zwischen den Originaldaten. Sie ist lediglich eine Redundanz minimierende Orthogonalisierungsmethode, die dadurch zur Reduktion der Dimension von Daten führt.
  • Die FA ist auch eine Methode zur Reduktion der Datendimension. Allerdings geht sie von einem anderen Datenmodell aus, das im Unterschied zur PCA auch Korrelationen zwischen Originaldaten berücksichtigt. Daher ist die FA dazu geeignet, die Art und die Stärke der Zusammenhänge zu analysieren. Oft werden die PCA und die FA als Synonym behandelt und mit gleichen Algorithmen berechnet. Der fundamentale Unterschied im Datenmodell und seine Auswirkung auf die Interpretation der Daten sollte deshalb immer berücksichtigt werden.
  • •MANOVA ist wie die PCA eine Methode zur orthogonalen Zerlegung der Eingangsdaten, die mit Hilfe einer Linearkombination so modelliert werden, dass die Trennung der Gruppen maximal ist. Dies ist der wesentliche Unterschied zur PCA, bei der die Linearkombinationen nach maximaler Varianz der Komponenten geordnet werden. Obwohl sich die Methoden PCA, FA und MANOVA im Datenmodell bzw. der Interpretation der Wechselbeziehungen unterscheiden, werden sie im Kern mit identischen Algorithmen berechnet (Eigenwerte und Eigenvektoren).
  • Clusteranalyse ist eine Methodengruppe, mit der versucht wird, Cluster an Hand ähnlicher Merkmale zu bilden, die voneinander durch unterschiedliche Merkmale getrennt sein sollen. Bekannteste Clusteranalysen: Hierarchisch (Abstandsbasiert), Partitionierend (k-means, self-organizing maps), fuzzy-clustering
94
Q
  1. Analytische Biostatistik

Statistische Tests, Zusammenfassung

A
  • Bei der Testauswahl sind grundsätzlich alle in den Eingangsdaten verfügbaren Informationen auszuschöpfen. Bei der statistischen Analyse und Interpretation der Ergebnisse können Effekte auftreten, die bei der Planung von Versuchen nicht bekannt oder nicht absehbar waren.
  • 1-seitiger Test ist anwendbar, wenn die Richtung einer möglichen Veränderung von vornherein bekannt ist bzw. nur eine möglich ist (Körpergröße zwischen dem 12. und dem 15. Lebensjahr, Cholesterin senkendes Mittel). Allerdings sind 1-seitige Tests empfindlicher gegen Verletzung der Voraussetzungen. Dies gilt pauschal und ist dadurch erklärbar, dass beim 2-seitigen Test die Unsicherheit nach beiden Seiten gleich verteilt ist und nur halb so hoch, so dass stochastische Abweichungen nach beiden Seiten toleriert werden und nur “halb so schlimm” sind.
  • Der Ermessensspielraum bei der Testauswahl und bei der Festlegung der statistischen Parameter ist sehr weit, was zur “adaptiven Anpassung” geradezu einlädt. Mit “adaptiver Anpassung” ist hier wissenschaftlich ironisch ein höchst verwerfliches Vorgehen gemeint, bei dem der Test oder die Parameter (SP-Umfang, Unsicherheit) nach einem unerwünschten Testergebnis so lange “angepasst” werden, bis sich das erhoffte Testergebnis einstellt. So z.B. könnte man nach einem 2-seitigen Test, der die Ergebnisrichtung gezeigt hat, auf die Idee kommen, hinterher einen 1-seitigen Test nachzuschieben um so die Signifikanz zu erreichen oder sie vermeintlich zu verbessern. Allerdings beträgt dann die Unsicherheit nicht a, sondern 2a.
  • Der p-Wert liefern die heutigen Computertests. Liegt dieser unter a, so ist H0 abzulehnen, liegt er über a, so wird H0 angenommen. Bei pa könnte man versucht sein, die Daten zu trimmen, um unter a zu kommen. Beides ist methodisch unsauber und kann bei Verifikationen zu sehr unangenehmen Konsequenzen führen.
  • •Zu niedriger SP-Umfang nimmt immer H0 an, zu hoher lehnt sie immer ab. Wann ist er richtig? Praktisch wichtige Differenz festlegen, daraus Umfang schätzen. Der beste Weg über sequentielle Tests (praktisch nicht immer machbar): Iterative Erhöhung von n um 1 bis H0 verworfen. Natürlich nicht bis ins Unendliche, sondern angemessen und praktikabel. Der benötigte SP-Umfang ist dann optimal, nicht zu hoch und nicht zu niedrig.
95
Q
  1. Analytische Biostatistik

Statistische Tests, Zusammenfassung

A
  • Signifikanz sagt lediglich aus: ein Unterschied ist vorhanden. Dieser muss jedoch noch keine praktische Bedeutung haben. Bei einem signifikanten Unterschied im Blutdruck von 3 mmHg vor und nach Medikamentengabe kann man noch nicht über die Wirksamkeit des Medikaments urteilen, die Differenz hat bei den Messmethoden (mind. 10% Messfehler) keine praktische Bedeutung. Ist der Unterschied nicht signifikant, heißt es noch lange nicht, dass er nicht besteht. Vielleicht ist nur der SP-Umfang zu klein. Man ist nicht nur für die korrekte Testvorbereitung und - durchführung verantwortlich, sondern auf für die Interpretation.
  • Die heutige Ausstattung erlaubt problemlose Auswertung riesiger Datenfluten im Krankenhaus. Man könnte auf die Idee kommen, z.B. die Wirkung von Blutgerinnung hemmenden Mitteln in mehreren OPs und Intensivstationen gleichzeitig zu prüfen. So wird ein Test in 15 Stationen durchgeführt in der Hoffnung auf mindestens ein signifikantes Ergebnis. Da eine gemeinsame Aussage getroffen werden soll, müssen die Signifikanzniveaus miteinander multipliziert werden. Dies führt auf eine gemeinsame Signifikanz von 46% (faktisch kann man gleich mit einer Münze entscheiden) und zum Anstieg der Unsicherheit auf 54% ! Korrekt wäre eine Zusammenfassung aller Ergebnisse und Test auf 1 bzw. 2 Stichproben mit der Unsicherheit von 5%.
96
Q
  1. Versuchsplanung, klinische Studie

Bestandteile der Versuchsplanung

A
  • Bei deskriptiven Studien Merkmale erfassen und beschreiben. Bei analytischen Studien werden mögliche und hypothetisch formulierte Zusammenhänge untersucht und auf Art des Zusammenhangs analysiert. Eine theoretisch hergeleitete und mit Vorwissen untermauerte Hypothese wird aufgestellt. Man verlangt zwar, dass eine klare und dokumentierte Hypothese formuliert wird und dieser in der Studie nachgegangen wird. Diese strenge Vorgabe schließt jedoch nicht aus, dass andere Zusammenhänge oder Effekte auftreten, die vorher nicht absehbar waren. Daher muss man die Bedeutung einer vorab gestellten Arbeitshypothese nicht verabsolutieren.
  • Nach Möglichkeit sollten alle bekannten Einflussgrößen in die Studie einbezogen werden. Das kann schnell zu einer riesigen Datenflut anwachsen, die schließlich eine enorme Steigerung des SP-Umfangs zur Folge haben kann. In diesem Fall muss eine Entscheidung getroffen werden, welcher Anteil der wichtigen Einflussgrößen einbezogen wird. Dazu sind Vorstudien eine gute Sammlung.
  • •Die unverzerrende SG ist zufällig und hebt sich im Mittel meistens auf. Die verzerrende SG ist problematischer: Sie hat Einfluss auf die Zielgröße, ist selbst aber nicht kausal für den Zusammenhang. Oft ist es daher schwierig, zwischen einer Einflussgröße und einer Störgröße zu unterscheiden. Zunehmendes Alter führt zum Anstieg der Sterblichkeit. Verheiratete leben länger als Unverheiratete. Störgröße ist der Partnerstatus. Falsche Schlussfolgerung wäre zu heiraten, nur um länger zu leben.
  • Nicht alles, was statistisch untersucht werden kann, ist auch ethisch. Jede Studie sollte durch eine Ethikkomission genehmigt werden. Für den Umfang einer Studie und dadurch meistens auch für ihren Erfolg, zumindest im statistischen Sinne, sind die verfügbaren Ressourcen (Geld, Zeit, Raum, Ausstattung, Personal) und ausreichend viele rekrutierbare Patienten von entscheidender Bedeutung. Eine schlechte Planung führt nicht nur in eine Sackgasse, sondern sie vernichtet auch noch die ohnehin knappen Ressourcen. Daher ist eine verantwortungsvolle Planung genau so wichtig wie die Studie selbst.
97
Q
  1. Versuchsplanung, klinische Studie

Vergleich von Gruppen

A
  • Sollen Gruppen miteinander verglichen werden, so muss man logischerweise gewährleisten, dass die Gruppen sich nur in dem untersuchten Merkmal (hoher Blutdruck) unterscheiden, das man ja ändern möchte. Wie schwierig das ist, wird klar, wenn man sich ein Bild darüber macht, welche sonstigen Größen (Einflussgrößen) das Merkmal beeinflussen (Beim Blutdruck Alter, Gewicht, Ernährung, Rauchen, Alkohol, Stress, psychische Probleme, Umwelt, usw.). Bei einer großen verfügbaren GG können die Gruppen durch Randomisierung gebildet werden, d.h. die Gruppenzuordnung erfolgt nach einem Zufallsgenerator. Dabei hofft man auf eine Gleichverteilung der Einflussgrößen über die Gruppen. Bei niedriger Anzahl von Untersuchten funktioniert die Randomisierung nicht (siehe Gesetzmäßigkeiten bei kleinen Zahlen). Daher werden vor der Randomisierung Schichten (strata) gebildet, um nach bekannten Parametern vorab zu klassifizieren, so z.B. altersbezogene Schichten vor einer Gesichtsfelduntersuchung (Das Gesichtsfeld ist altersabhängig und jedem Alter gilt eine andere Norm). Gleichzeitig können weitere Schichten gebildet werden, z.B. nach Geschlecht oder Erkrankungen der Vorfahren. Kleine Schichten bilden sog. Blöcke, z.B. paarige Organe (Augen, Nieren), Kinder einer identischen Mutter. Beispielsweise kann bei dem Test auf Wirksamkeit von Augentropfen ein Auge mit dem getesteten Mittel zur Absenkung des Augeninnendrucks behandelt werden, das andere Auge mit einem Placebo.
  • Da bei klinischen Studien die Beobachtungen weitgehend subjektiv sind, ist es notwendig, dass das selbe Personal die Gruppen im selben Zeitraum und mit derselben Methode untersucht. Aus Gründen der subjektiven Einflüsse seitens der Patienten wie auch der Mediziner ist die sicherste die doppeltblinde Studie, bei der weder der Mediziner noch der Patient wissen, ob sie Wirkmittel oder Placebo bekommen. Wenn nur der Mediziner informiert ist, handelt es sich um eine einfach blinde Studie. Wenn alle Bescheid wissen, ist es eine offene Studie. Die letztgenannte ist sehr problematisch, da sehr oft sog. Placeboeffekte auftreten. Bei diesen tritt allein durch die Erwartungshaltung der Patienten ein therapeutischer Effekt auf, obwohl das Wirkmittel nicht wirkt.
98
Q
  1. Grundlagen der Wahrscheinlichkeitstheorie

Positiver Vorhersagewert (Relevanz, Wirksamkeit), positive predictive value (PPV)

A

Es ist unbedingt zu beachten, dass der PPV in einem gegebenen Kollektiv (z. B. Gesamtbevölkerung) nur dann Gültigkeit besitzt, wenn die Prävalenz der betreffenden Erkrankung im diesem Kollektiv mit der Prävalenz in jenem Kollektiv, in dem der PPV erhoben wurde, übereinstimmt. Beispiel: Wurden zur Bestimmung des PPV 100 HIV-Patienten und 100 gesunde Kontrollpatienten untersucht, so entspricht dies nicht der tatsächlichen Prävalenz von HIV in der Gesamtbevölkerung. Die Angabe des in einem solchen, selektiven Kollektiv erhobenen PPV-Wertes ist nicht zulässig und irreführend.

99
Q
  1. Grundlagen der Wahrscheinlichkeitstheorie
A
  • Die WS, dass man tatsächlich krank ist, beträgt rund 1/4 ! Anders formuliert, drei von vier Personen werden fälschlicherweise als krank klassifiziert. Im Nenner steht faktisch die totale WS für B, P(B), siehe Satz von der totalen WS.
  • Zusammenfassung: Man kennt die Sensitivität des Tests, also die WS P(B|A), mit der ein tatsächlich Kranker als krank erkannt wird. Die WS P(A) ist die Prävalenz. Die totale WS P(B) ist unbekannt, muss daher aus den Angaben über komplementäre Ereignisse ermittelt werden. Die WS P(B|Ac) ist die WS dafür, dass man fälschlicherweise als krank bezeichnet wird wenn man gesund ist und P(B|A) die WS dafür, dass man als krank bezeichnet wird wenn man tatsächlich krank ist.
100
Q
  1. Grundlagen der Wahrscheinlichkeitstheorie

Bayestheorem, Satz von Bayes

A
  • Die A-priori-Wahrscheinlichkeit ist ein Wahrscheinlichkeitswert, der aufgrund von Vorwissen (zum Beispiel symmetrische Eigenschaften eines Würfels) gewonnen wird. Die älteste Methode für die Bestimmung von A-priori-Wahrscheinlichkeiten stammt von Laplace: Sofern es keinen expliziten Grund gibt, etwas anderes anzunehmen, wird allen elementaren Ereignissen dieselbe Wahrscheinlichkeit zugeordnet. Zum Beispiel sind bei einem Münzwurf die elementaren Ereignisse “Kopf” und “Zahl”. Solange man keinen Grund hat, anzunehmen, die Münze sei manipuliert, wird man also beiden Ereignissen dieselbe Wahrscheinlichkeit 1/2 zuordnen.
  • Als A-posteriori-Wahrscheinlichkeit (auch statistische Wahrscheinlichkeit) wird eine empirisch ermittelte Wahrscheinlichkeit bezeichnet. Während einige Zufallsprozesse aus etwa geometrischen Gründen plausible Erwartungen einer so genannten A-priori-Wahrscheinlichkeit erlauben - etwa die Gleichwahrscheinlichkeit aller sechs Augenzahlen beim Würfelspiel wegen der Symmetrie des Würfels -, ist man in vielen anderen Fällen darauf angewiesen, zuerst eine möglichst lange Reihe von Zufallsexperimenten durchzuführen. Wegen des empirischen Gesetzes der großen Zahlen darf dabei die relative Häufigkeit des Auftretens eines Ereignisses in der Versuchsreihe als bestmöglicher Schätzwert seiner Auftretenswahrscheinlichkeit betrachtet werden.
101
Q
  1. Grundlagen der Wahrscheinlichkeitstheorie
A
  • Die Tabelle gibt eine Übersicht über die Möglichkeiten, wobei uns in diesem Beispiel vor allem interessiert, wie viele der geimpften Männer erkrankt sind. Wird diese Tabelle in Form von WS dargestellt, dient sie der Beurteilung von Spezifität und Sensitivität (siehe statistische Tests)
  • Der Anteil geimpfter und erkrankter Männer hn(A und B) beträgt 6%, allerdings bezüglich der Grundgesamtheit. Für die Auswertung der Wirksamkeit einer Impfung ist aber der Anteil der erkrankten bei den geimpften Männer wichtig. Dieser ist zwar mit 16% geringer als in der Grundgesamtheit. Allerdings stellt sich die Frage, ob das Absinken von 20% auf 16% signifikant – also statistisch sicher ist – oder nur eine natürliche Schwankung darstellt. Dazu später bei statistischen Tests.
102
Q
  1. Grundlagen der Wahrscheinlichkeitstheorie

Das Gesetz der kleinen Zahlen (Zwei-Drittel-Gesetz)

A

Ein weit verbreiteter Irrtum in der Deutung der Wahrscheinlichkeit besteht darin, dass man davon ausgeht, dass gleich wahrscheinliche Ereignisse auch gleich häufig auftreten werden. An dieser Stelle möge man sich die vorherige Folie in Erinnerung rufen: Die relative Häufigkeit konvergiert auf die theoretische WS erst im Falle sehr vieler Versuche. Im Umkerschluß heißt das, dass bei einer kleinen Zahl der Versuche die Häufigkeit u.U. ganz anders aussehen kann. Und leider tut sie es auch. Sie entspricht nämliche dem Gesetz der kleinen Zahlen, das sich an die Poisson-Verteilung orientiert (lambda=1). Diese wird später detailliert behandelt. Hier sollen nur die Konsequenzen aus dieser Erkenntnis gezeigt werden: Ein Drittel tritt gar nicht ein (daher auch die Bezeichnung Gesetz des einen Drittels), ein Drittel tritt genau einmal ein und sogar die Hälfte der Eintritte passiert mehrfach. Man kann diesen Effekt auch so interpretieren, dass jede – auch noch so unmöglich erscheinende Kombination – auftreten kann (siehe Wiederholungen von Ziffern im Lotto beim Spiel 77 und Super 6). Hierbei ist die Anzahl der Versuche gleich der Anzahl der möglichen Ereignisse. Lambda ist die theoretische Häufigkeit für das Auftreten einer Zahl. Bei 37 Zahlen und 37 Ziehungen also ist Lambda=1.

103
Q

1 Einführung

Umgang mit Wahrscheinlichkeiten

A
104
Q
  1. Grundlagen der Wahrscheinlichkeitstheorie

Das Gesetz der großen Zahlen

A