Inferenzstatistik Flashcards
Ergebnisraum und Wahrscheinlichkeiten
Ergebnisraum:
- Ergebnisraum (Ω) – Menge aller möglichen Ausgänge eines einfachen Zufallsexperiments
- Ergebnis – ein einzelnes Element des Ergebnisraums
- Ereignis – bestimmte Teilmenge des Ergebnisraums
- Elementarereignis – Teilmenge, die aus nur einem Element besteht –> ein Ergebnis kann also als Elementarereignis aufgefasst werden
Wahrscheinlichkeiten:
- Wahrscheinlichkeiten sind bestimmte Zahlen, die jedem Ereignis einer Ergebnisraums zugewiesen werden
- Axiome:
- Positivität: p(A) >= 0
- Normiertheit: p(Ω) = 1
- Die Wahrscheinlichkeit einer Menge disjunkter Ereignisse ist gleich den aufsummierten Wahrscheinlichkeiten dieser Ereignisse
Relative Häufigkeit
- Wenn alle Elementarereignisse gleich wahrscheinlich sind, dann entspricht die Wahrscheinlichkeit eines Ereignisses seiner relativen Häufigkeit im Ergebnisraum
- Die relative Häufigkeit des Auftretens von Ereignis (A) nähert sich der Wahrscheinlichkeit des Ereignisses (A) an, wenn die Anzahl der Wiederholungen gegen unendlich geht (Bernoulli’s Theorem)
Binomialverteilung
- Die Binomialverteilung ist eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen.
- Sie beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und unabhängigen Versuchen, die jeweils genau zwei mögliche Ergebnisse haben („Erfolg“ oder „Misserfolg“).
- Solche Versuchsserien werden auch Bernoulli-Prozesse genannt.
- Sie ist meistens/fast immer asymmetrisch
- Erwartungswert = n*p
- Varianz = n*p*q
Inferenzstatistik - was ist das?
Ziel der Inferenzstatistik:
- Überprüfung von Theorien (bzw. den daraus abgeleiteten Hypothesen). Hypothesen sind Aussagen über Populationen.
Problem:
- Stichprobenziehen ist fehlerbehaftet. Nur bei n = ∞ (oder n = Population) erhalte ich den exakten Populationswert
- Das Stichprobenergebnis wird sowohl durch den Populationswert als auch den Stichprobenfehler bestimmt
- Wie kann man also aufgrund von Stichprobenergebnissen und den daraus berechneten Stichprobenstatistiken, Schlüsse auf die entsprechenden Populationsparameter ziehen?
- –> über die sogenannte Stichprobenverteilung
Inferenzstatistische Verfahren, u.A.:
- Konfidenzintervalle –> Genauigkeitsaussagen treffen
- Signifikanztests –> Hypothesen über Populationskennwerte prüfen
Stichprobenverteilung
- eigtl besser: Stichprobenkennwerteverteilung
- Ich betrachte den Stichprobenkennwert als Zufallsvariable
- Wie verteilt sich der Stichprobenkennwert durch das Zufallsexperiment „Stichprobenziehen“
- Stichprobenverteilung = Verteilung der Zufallsvariable
- Welche Realisierungen der Zufallsvariable kommen mit welcher Wahrscheinlichkeit vor?
- Stichprobenverteilungen sind das „Bindeglied“ zwischen Stichprobenergebnissen und Schlüssen (Inferenzen) auf Populationsparameter
- Aber: Alle Schlüsse (Inferenzen) auf die Population sind immer nur Wahrscheinlichkeitsaussagen.
Bestimmung der Stichprobenverteilung:
- Ganz oft Stichproben ziehen ist unrealistisch –> theoretisch herleiten (allerdings geknüpft an sogenannte Verteilungsannahmen)
- Die Varianz der Stichprobenverteilung erhält man, indem man die Populationsvarianz nochmals durch n teilt (oder analog: den Standardfehler der Stichprobenverteilung erhält man, indem man die Standardabweichung der Population nochmals durch n teilt) → wird viel kleiner
- Der Mittelwert der Stichprobenverterilung ist gleich dem Populationsmittelwert
Testverfahren der Inferenzstatistik - wovon hängt es ab, welches man nimmt?
Je nach Design der Untersuchung und je nach Verteilung müssen unterschiedliche Prüfgrößen berechnet werden.
Relevante Eigenschaften:
-
Anzahl der AVs und UVs
- Im Prinzip gibt es statistische Verfahren für alle möglichen Anzahlen an UVs und AVs
- In diesem Modul behandeln wir aber nur Designs mit einer AV und höchstens zwei UVs
-
Anzahl der Ausprägungen der Variablen
- Ist die Variable stetig oder diskret (wie viele Ausprägungen gibt es?)
- diskrete Variablen sind meistens die UV (z.B. Gruppenvariablen: Mann/Frau oder Experimentalgruppe/Kontrollgruppe; hier ist entscheidend, ob es nur 2 oder mehr Ausprägunsmerkmale gibt)
- stetige Variablen sind meistens die AV (z.B. Körpergröße)
-
Abhängige oder unabhängige Stichproben
- Abhängige Stichproben: Ausprägung eines Messwertes hängt von der Ausprägung eines anderen ab. Meist Within-Subject-Designs.
- Unabhängige Stichproben: Ausprägung eines Messwertes hängt nicht von der Ausprägung eines anderen ab. Meist Between-Subject-Designs
-
Verteilungsform in der Population
- Bei einem parametrischen Test werden Aussagen über Kennwerte einer postulierten Verteilung getroffen: Z.b: Mittelwert oder Varianz einer normalverteilten Population. Annahmen über Form der Verteilung nötig (meist: Normalverteilung und Varianzhomogenität)
- Bei einem non-parametrischen Test werden keine Aussagen über die Verteilung getroffen: Es sind keine Vorannahmen notwendig, um die Verteilung der Prüfgröße ableiten zu können. Können sich aber trotzdem auch auf Parameter einer Verteilung beziehen
Schwaches Gesetz der großen Zahlen
- ist eine beobachtbare Gesetzmäßigkeit (kein mathematisches Gesetz)
- Wenn ich die Stichprobengröße n erhöhe, wird der Standardfehler der Stichprobenverteilung kleiner –> die Schätzung von Populationsparametern wird mit steigender Stichprobengröße n also genauer
- Denn wenn ich n erhöhe, dann wird es immer unwahrscheinlicher eine sehr extreme Stichprobe zu bekommen, die von den wahren Populationsparametern weit entfernt ist.
- Die Stichprobenverteilung wird also schmaler und ist weniger breit um ihren Mittelwert gestreut.
- Gedankenexperiment: Die größtmögliche Stichprobengröße n ist einfach die gesamte Population. Dann wird der Standardfehler der Stichprobenverteilung gleich 0, denn jede Stichprobe liefert den exakt gleichen Kennwert - den “wahren” Populationskennwert.
Zentraler Grenzwertsatz
- Wenn ich die Stichprobengröße n erhöhe, wird die Stichprobenverteilung “normaler”
- Die Form einer Stichprobenverteilung nähert sich mit steigender Stichprobengröße n immer mehr einer Normalverteilung an, völlig unabhängig davon, wie die Populationsverteilung der Variablen aussieht.
- Die Populationsverteilung eines Münzwurfs besteht z.B. nur aus zwei Ergebnissen, 0 und 1. Das sind einfach zwei diskrete Balken nebeneinander. Aber die Stichprobenverteilung dazu wird eine Normalverteilung mit Mittelwert 0,5.
- Die Populationsverteilung kann auch völlig crazy sein. Ein sonderbarer Würfel, der die 6 zu 50% würfelt, die 3 und die 1 zu jeweils 25% und den Rest nie. Die Stichprobenverteilung bzgl des Anteils an Dreien oder des Mittelwerts der gewürfelten Augenzahl wird für n gegen unendlich trotzdem eine Normalverteilung.
VORSICHT: In der Vorlseung heißt es, das gilt nur wenn die Populationsverteilung normal ist??
Häufigkeitsverteilung vs Stichprobenverteilung
Häufigkeitsverteilungen
- beziehen sich auf die Werte aus Stichproben. Sie bilden die Häufigkeit aller Werte abgebildet
Stichprobenverteilungen
- beziehen sich auf die Verteilung von Stichprobenkennwerten (z. B. Mittelwerten oder Anteilen).
- Solche Stichprobenverteilungen werden oft theoretisch abgeleitet (theoretische Stichprobenverteilungen), können aber auch als Verteilung von Stichprobenkennwerten aus vielen Studien entstehen (empirische Stichprobenverteilungen)