Biostatistik Klausur Flashcards
Aufgabe 1.
Das Konfidenzintervall gibt den aus n Realisierungen berechneten Wertebereich an, der mit einer vorgegebenen Irrtumswahrscheinlichkeit 𝛼 den zu schätzenden wahren Wert einschließt. Die Breite des Konfidenzintervalls ändert sich in Abhängigkeit von der Anzahl der Realisierungen n und von der Irrtumswahrscheinlichkeit 𝛼. Erläutern Sie diese Abhängigkeit qualitativ. [5P]
Aufgabe 2.
Die Lage einer empirischen Verteilung kann mit dem arithmetischen Mittelwert (AMW), mit dem getrimmten Mittelwert (GMW) oder mit dem Median (MED) geschätzt werden. Wählen Sie eine empirische Verteilung (Zahlen oder Häufigkeitsdichte) und erläutern sie die Eigenschaften der genannten Lagemaße in Bezug auf ihre Robustheit. Welcher der Maße eignet sich für lineare Analyse und warum? [5P]
- Doppelt exponentielle unsymmetrisch ZG
- Am besten kommt der Median in die Nähe von das Maximum Allerdings ist der Median ein nichtlineares Maß.
- Der AWM liegt weit entfernt vom Median und charakterisiert die Lage der Verteilung nur schlecht.
- getrimmten MW: je höher der Anteil der abgewiesenen Werte ist, umso mehr nähert man sich dem Median.
Aufgabe 3.
Der Korrelationskoeffizient nach Spearman (SPR) kann im Unterschied zu dem nach Pearson (PER) nichtlineare Zusammenhänge schätzen. Erläutern Sie die Voraussetzungen für die Verwendung von SPR, die beim PER nicht erfüllt sind. [5P]
- Die zu korrelierenden Größen sind mindestens ordinal skaliert.
- Der Zusammenhang ist monoton.
- Voraussetzungen von KK nach Spearman:
- Keine Normalverteilung der Daten notwendig
- Monotone nichtlineare Zusammenhänge erfassbar
- Die zu korrelierende Daten sind mindestens ordinal skaliert.
- Voraussetzungen von KK nach Pearson:
- Normalverteilung der Daten
- Die Punktwolke sind linearen Zusammenhang
Aufgabe 4.
Erläutern Sie die Voraussetzungen zur Anwendung des Zentralen Grenzwertsatzes (ZGWS)! Der ZGWS kann auch auf Prozesse angewandt werden (Biosignale). Welche Eigenschaft muss theoretisch ein solcher Prozess aufweisen hinsichtlich seines Spektrums? [5P]
- Voraussetzungen:
- n ist sehr groß
- Xi sind unabhängig und identisch verteilt Zufallsvariablen.
- Sie Summe einer großen Anzahl von Zufallsvariablen ist normalverteilt. Das gilt unabhängig davon, wie die ZV selbst verteilt sind.
Aufgabe 5.
Es ist bekannt, dass 100 von 10000 Personen eine bestimmte Krankheit haben, ohne es zu wissen. Zur Früherkennung dieser Krankheit wird ein Untersuchungsverfahren angewendet, welches folgende Fehlerquellen aufweist: es werden 5 % aller Personen, die krank sind ohne es zu wissen nicht als krank erkannt. Jedoch werden 20 % aller untersuchten Personen als krank eingestuft, obwohl sie nicht krank sind. [10P]
Erstellen Sie ein Baumdiagramm und die Vierfeldertabelle!
Wie groß ist die Wahrscheinlichkeit, dass bei einer Untersuchung eine als krank eingestufte Person nicht an dieser Krankheit leidet und wie groß ist die Wahrscheinlichkeit, dass eine vermeidlich gesunde Person dennoch erkrankt ist.
Wie groß sind Sensitivität, Spezifität und der positive Vorhersagwert? Was sagen diese Werte aus?
Aufgabe 8.
Die Verpackung des Blutfettmedikamentes AntiFett soll einen mittleren Wirkstoffgehalt von 15 mg pro Tablette aufweisen. Es wurde eine Stichprobe von 100 Tabletten getestet. Dabei ergaben sich ein mittlerer Wirkstoffgehalt von 14 mg und eine Standardabweichung von 4 mg. Kann aus dem Ergebnis der Stichprobe auf dem 1%-igen Signifikanzniveau der Schluss gezogen werden, dass der tatsächliche Wirkstoffgehalt im Mittel unter 15 mg liegt? Erläutern Sie in Stichpunkten: Welchen Test wählen Sie und warum, wie gehen Sie vor. [10P]
Aufgabe 6.
Der t-Test einer Stichprobe mit einem Umfang von N=15 lehnt die Nullhypothese ab, ein Rangsummentest lehnt sie nicht ab. Welches Ergebnis ist sicherer? Begründen Sie Ihre Vermutung! [10P]
- Kann man nicht einschätzen, da die Alternativhypothese nicht überprüfbar ist. (N=20)
- Der Rangsummentest , weil er bei kleinen Stichproben robuster ist (nur wenn N=17 ) (für Husar ist 17 scheinbar eine kleine und 20 eine große Stichprobe)
Aufgabe 7.
Es wurde untersucht, ob die Schlafzeit tatsächlich mit dem Alter zusammenhängt. Dazu wurden jeweils 100 zufällig ausgewählte Probandinnen und Probanden in den Altersgruppen 20 bis 30 Jahre und 60 bis 70 Jahre befragt. Die Schlafzeiten betrugen im Mittel 7 Stunden in der jüngeren Gruppe und 5.5 Stunden in der älteren Gruppe, wobei die Standardabweichung in etwa gleich war und 2 Stunden betrug. Der t-Test ergab, dass zu einem Signifikanzniveau von 5% die Nullhypothese abzulehnen ist, d.h. die Schlafzeiten sind unterschiedlich. Im Ergebnis wurde auch der p-Wert von 0.002 geliefert. Interpretieren Sie diesen Wert in Stichpunkten. Könnte man den t-Test unter dem Signifikanzniveau von 0.002 wiederholen? Begründen Sie Ihre Interpretation. [10P]
- P-Value gibt die WS an, mit der der berechnete t-Wert oder ein größerer Wert auftritt.
- Ist er niedriger als a, liegt tp rechts (links im negativen Bereich) vom kritischen Wert und die Nullhypothese ist zu verwerfen
- Der p-Wert kann auch als Signifikanz der Nullhypothese interpretiert werden.
SS2011 7.
SS2011 8.
SS2011 9.
SS2011 10.
1.
Das Gesetz der kleinen Zahlen besagt, dass bei einer kleinen Anzahl von Versuchen in einer Grundgesamtheit mit gleich wahrscheinlichen Elementarereignissen…
(A) Alle Ereignisse etwa gleich häufig eintreten
(B) Etwa ein Drittel der Ereignisse nicht eintritt
(C) EtwadieHälftederEreignissenichteintritt
(D) Etwa zwei Drittel der Ereignisse nicht eintritt
B
2.
Der Median als Lageschätzer einer empirischen Verteilung ist sehr robust, weil:
(A) Er aus dem arithmetischen Mittelwert durch 10%iges Trimmen berechnet wird
(B) Er aus dem arithmetischen Mittelwert durch 80%iges Trimmen berechnet wird
(C) Er nur aus den Vorzeichen der empirischen Daten ermittelt wird
(D) Er aus der Rangfolge der empirischen Daten ermittelt wird
D
3.
Der zentrale Grenzwertsatz wird angewandt, um aus den Realisierungen von Zufallsvariablen eine normalverteilte Statistik zu erhalten. Die zu erfüllenden Vorraussetzungen lauten: Die Zufallsvariablen müssen:
(A) Normalverteilt und unabhängig
(B) Unabhängig und identisch verteilt
(C) Symmetrischverteiltundabhängig
(D) Abhängig und diskret sein.
B