Klassische Inferenzstatistik Flashcards
Was ist das Ziel psychologischer Forschung?
Das Ziel psychologischer Forschung ist das Verstehen und Erklären menschlichen Erlebens und Verhaltens
Was sind die Merkmale einer wissenschaftlichen Theorie?
- Allgemeingültigkeit
-Überwindung des Einzelfalls
Wer legte Anfang des 20. Jahrhunderts die Grundlagen für den kritischen Rationalismus?
Karl Popper
Welche Ansicht vertrat Karl Popper in Bezug auf die Bildung von Theorien?
Karl Popper vertrat die Ansicht, dass Theorien nicht aus Einzelbeobachtungen abgeleitet werden können
Was ist Induktion und warum argumentierte Popper dagegen?
- Induktion ist der Schluss vom Einzelfall auf eine allgemeingültige Regel
- Popper argumentierte, dass dieser Schluss nicht zwingend logisch ist
Wie kann man eine Theorie und Beobachtung in einem Konditionalsatz darstellen und was bedeutet das für die Überprüfung einer Theorie?
Eine Theorie und Beobachtung können in einem Konditionalsatz dargestellt werden, wobei die Beobachtung die Theorie nicht beweist, sondern nur widerlegen kann
Was ist Modus Tollens und warum ist es wichtig für wissenschaftliche Theorien?
Modus Tollens besagt, dass wenn die Konsequenz einer Theorie nicht eintritt, die Theorie falsch sein muss
> wichtig, um Theorien zu überprüfen
Was bedeutet es, dass eine Theorie falsifizierbar sein muss?
- Eine Theorie muss falsifizierbar sein, um wissenschaftlich zu sein
> bedeutet, dass sie anhand von Beobachtungen widerlegt werden kann
Was sind Hypothesen und wie werden sie aus einer Theorie abgeleitet?
Hypothesen sind Vorhersagen oder Erwartungen, die aus einer Theorie abgeleitet werden
Was ist Deduktion und warum ist sie wichtig für die wissenschaftliche Arbeit?
- das Ableiten spezifischer Hypothesen aus einer allgemeinen Theorie
> ist wichtig für die wissenschaftliche Arbeit, da sie die Grundlage für Hypothesentests bildet
Was sind Hypothesentests und warum sind sie entscheidend für die wissenschaftliche Arbeit?
- sind entscheidend für die wissenschaftliche Arbeit
- ermöglichen die Überprüfung von Hypothesen
Was ist eine Population und wie steht sie in Beziehung zur Stichprobe?
- Ist die Gesamtheit der Elemente, auf die eine Theorie und abgeleitete Hypothesen zutreffen
- Die Stichprobe ist eine Teilmenge der Population
Was ist Inferenzstatistik und warum ist sie wichtig für den Umgang mit Stichproben?
- um von Stichproben auf Populationen zu schließen
- um Wahrscheinlichkeitsaussagen zu treffen
Statistische Hypothesentests werden verwendet, um …
- … die Passung zwischen Erwartung und Beobachtung zu quantifizieren
- … Hypothesen zu überprüfen
Was ist die klassische oder frequentistische Inferenzstatistik und was ist ihre Grundlage?
- basiert auf der Definition von Wahrscheinlichkeit als relative Häufigkeit
- betrachtet Wahrscheinlichkeiten als Eigenschaften von hypothetischen unendlichen Folgen von Beobachtungen
Was ist eine Hypothese und wie unterscheidet sie sich von einer Tatsachenbeschreibung?
Eine Hypothese ist eine Vorhersage über den Zustand der Welt, die keine Tatsachenbeschreibung, sondern eine mögliche Situation darstellt
Welche Arten von Hypothesen sind in der Psychologie üblich und welche Beispiele werden genannt?
In der Psychologie sind verbale Hypothesen üblich, die oft quantifiziert werden müssen.
> Beispiele sind Hypothesen über Erinnerung, Wahrnehmung oder Wirksamkeit von Therapien
Warum ist es schwierig, psychologische Hypothesen zu testen?
Psychologische Hypothesen sind oft schwer zu testen, da sie oft vage formuliert sind und schwierig zu quantifizieren sind
Warum müssen psychologische Hypothesen oft in statistische Hypothesen umgewandelt werden?
- um sie mit Daten zu überprüfen
Wie kann statistisches Rauschen die Überprüfung einer Hypothese beeinflussen?
kann die Ergebnisse einer Studie beeinflussen, da es zu unvorhersehbaren Variationen in den Daten führt
Welches Konzept wird verwendet, um mit dem statistischen Rauschen umzugehen, und wie wird es angewendet?
Das Konzept der Zufallsvariable
> Es definiert die Ergebnisse eines Experiments als Variable mit einer bestimmten Verteilung
Was ist eine Zufallsvariable und wie wird sie im Kontext der psychologischen Forschung verwendet?
Eine Zufallsvariable wird verwendet, um die Ergebnisse eines Experiments zu beschreiben
> sie unterliegt einer bestimmten Wahrscheinlichkeitsverteilung
Was ist die Binomialverteilung und wie wird sie im Zusammenhang mit psychologischen Experimenten angewendet?
Die Binomialverteilung wird verwendet, um die Wahrscheinlichkeit von Erfolgen oder Misserfolgen in einer festgelegten Anzahl von Versuchen zu beschreiben
Welche Parameter beschreiben die Binomialverteilung und wie werden sie definiert?
Die Binomialverteilung wird durch zwei Parameter beschrieben
- die Wahrscheinlichkeit eines Erfolgs (λ)
- und die Anzahl der Versuche (N)
Was sind Erfolge und Misserfolge in Bezug auf die Binomialverteilung und wie werden sie verwendet, um die Wahrscheinlichkeit eines Ereignisses zu berechnen?
- werden in Bezug auf die Binomialverteilung definiert, um die Wahrscheinlichkeit eines Ereignisses zu berechnen
> Erfolge sind das Ereignis von Interesse
> während Misserfolge das Gegenteil sind
Wie wird eine binomialverteilte Zufallsvariable notiert und was bedeutet diese Notation?
Eine binomialverteilte Zufallsvariable wird notiert als X Binomial(λ, N)
> was bedeutet, dass X binomialverteilt ist mit einer Wahrscheinlichkeit λ und N Versuchen
Welche beiden Parameter bestimmen die Binomialverteilung?
- die Wahrscheinlichkeit λ
- die Anzahl der Versuche n
Was ist die Nullhypothese und wie wird sie definiert?
Die Nullhypothese ist eine Hypothese, die einen Zustand “ohne Effekt” repräsentiert
> wird normalerweise als H0 bezeichnet
Warum repräsentiert die Nullhypothese typischerweise einen Zustand “ohne Effekt”?
Die Nullhypothese repräsentiert typischerweise einen Zustand “ohne Effekt”
> um zu testen, ob ein Unterschied oder Zusammenhang besteht
Was bedeutet es, dass die Nullhypothese im Fall des Marmeladentoast-Experiments besagt, dass die Landungen auf beiden Seiten gleich wahrscheinlich sind?
Die Nullhypothese im Marmeladentoast-Experiment besagt, dass die Landungen auf beiden Seiten gleich wahrscheinlich sind
Wie wird eine inhaltliche Hypothese in eine statistische Hypothese übersetzt?
indem sie in eine Vorhersage über den Wert eines oder mehrerer Parameter der Zufallsverteilung umgewandelt wird
Was bedeutet die statistische Nullhypothese H0: λ = 0.50 im Zusammenhang mit dem Marmeladentoast-Experiment?
H0: λ = 0.50 besagt, dass die Wahrscheinlichkeit, dass der Toast auf der Marmeladenseite landet, 50 % beträgt
> was bedeutet, dass es keinen Unterschied in den Landungen auf den beiden Seiten gibt
Abbildung 1: Wahrscheinlichkeit der Ergebnisse des Toastwurfsexperiments
Wie wird die Zufallsvariable Xi definiert und welche Verteilung liegt ihr zugrunde?
Die Zufallsvariable Xi wird definiert als der IQ-Wert einer Person i in einem IQ-Test
> sie liegt einer Normalverteilung zugrunde
Was bedeutet die Notation Xi Normal (μ, σ)?
dass Xi normalverteilt ist mit einem Mittelwert μ und einer Standardabweichung σ
Wie wird die Wahrscheinlichkeit für bestimmte Ergebnisse in einem IQ-Test unter der Nullhypothese quantifiziert?
indem man angibt, wie wahrscheinlich es ist, dass der IQ-Wert in einem bestimmten Bereich liegt
Warum können wir unter der Nullhypothese die Wahrscheinlichkeit für bestimmte IQ-Werte quantifizieren, aber nicht für einen spezifischen IQ-Wert?
- weil die Normalverteilung eine stetige Verteilung ist
> aber nicht für einen spezifischen IQ-Wert, da er unendlich viele mögliche Werte haben kann
Abbildung 2: Wahrscheinlichkeitsdichte von IQ-Werten unter der H0:μ mit σ = 15
Wer ist der Statistiker, der die Logik des Signifikanztests entwickelt hat, und wann?
Ronald Fisher
> er veröffentlichte seine Arbeit darüber im Jahr 1935
Was ist die Grundidee eines Signifikanztests?
- die Passung der Daten zur Nullhypothese zu prüfen
> um zu sehen, wie wahrscheinlich es ist, dass die beobachteten Daten unter der Nullhypothese auftreten
Wie wird die Nullhypothese typischerweise spezifiziert und was repräsentiert sie?
- wird spezifiziert als das logische Komplement der inhaltlichen Hypothese
> repräsentiert die Abwesenheit eines Effekts oder Zusammenhangs
Welche Frage stellen wir uns, wenn wir die Passung unserer Daten zur Nullhypothese prüfen?
wie wahrscheinlich es ist, unter der Nullhypothese solche Daten zu beobachten, wie wir sie tatsächlich beobachtet haben
Was ist eine Teststatistik und warum ist sie wichtig bei der Durchführung eines Signifikanztests?
Eine Teststatistik ist ein statistischer Kennwert unserer Stichprobe
> erlaubt uns, eine Aussage über den Populationsparameter zu treffen, den wir in der Nullhypothese spezifiziert haben
Was ist das entscheidende Kriterium bei der Auswahl einer geeigneten Teststatistik?
- dass wir die Zufallsverteilung dieser Statistik unter der Annahme kennen müssen, dass die Nullhypothese wahr ist
> Teststatistiken sind z.B. Chi Quadrat Test, t-test, z-test usw. (Man muss die Verteilung unter der Nullhypothese kennen, um die richtige Teststärke zu wählen)
Welche Teststatistik wird im Beispiel des IQ-Tests verwendet und wie ist ihre Verteilung unter der Nullhypothese?
Im Beispiel des IQ-Tests wird der Stichprobenmittelwert als Teststatistik verwendet
- seine Verteilung unter der Nullhypothese ist normalverteilt mit einem Mittelwert von μ und einem Standardfehler von σ / √N
Was ist die Stichprobenverteilung und was repräsentiert sie im Kontext des Signifikanztests?
Die Stichprobenverteilung repräsentiert die Verteilung der Teststatistik unter der Nullhypothese
> das heißt, die Verteilung der Mittelwerte von unendlich vielen Stichproben aus der Population
Was ist der Standardfehler des Mittelwerts und welche Bedeutung hat er in der Stichprobenverteilung?
Der Standardfehler des Mittelwerts ist die Standardabweichung der Stichprobenverteilung
> er repräsentiert die Genauigkeit der Schätzung des Mittelwerts der Population
Wie wird die Stichprobenverteilung unter der Nullhypothese definiert?
wird definiert als die Verteilung der Mittelwerte von unendlich vielen Stichproben aus der Population
> wenn die Nullhypothese wahr ist
Abbildung 3: Stichprobenverteilung des Mittelwerts
Was ist der p-Wert und welche Funktion hat er im Signifikanztest?
Der p-Wert ist die Wahrscheinlichkeit, unter der Nullhypothese ein Ergebnis so extrem oder extremer zu beobachten wie das tatsächlich Beobachtete
Wie wird der p-Wert definiert und wie wird er berechnet?
Der p-Wert ist der Anteil der Fläche unter der Kurve der Stichprobenverteilung, der über dem beobachteten Wert liegt
- Er wird oft durch Software berechnet
- kann auch aus einer zugehörigen Tabelle abgelesen werden
Welche Bedeutung hat der p-Wert bei einer Signifikanzprüfung?
Der p-Wert ermöglicht es uns, die Evidenz der Daten gegen die Nullhypothese zu bewerten
Wie wird die Interpretation des p-Werts als bedingte Wahrscheinlichkeit erklärt?
Der p-Wert wird als bedingte Wahrscheinlichkeit beschrieben, die angibt, wie wahrscheinlich das beobachtete Ereignis unter der Annahme ist, dass die Nullhypothese wahr ist
Was beschreibt die bedingte Wahrscheinlichkeit im Kontext des Signifikanztests?
Die bedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis eingetreten ist, wobei das Ereignis das Auftreten des beobachteten oder eines extremeren Werts der Teststatistik ist
Wie erklärt Fisher die Bedeutung des p-Werts in Bezug auf die Evidenz gegen die Nullhypothese?
- Fisher betrachtet den p-Wert als Maß für die Evidenz der Daten gegen die Nullhypothese
> Ein kleiner p-Wert deutet auf starke Evidenz gegen die Nullhypothese hin
Welchen Begriff verwendet Fisher, um die Evidenz gegen die Nullhypothese zu beschreiben?
Fisher bezeichnet die Evidenz gegen die Nullhypothese als “Signifikanzlevel”
Was bedeutet die “Fishers Disjunktion” im Zusammenhang mit einem kleinen p-Wert?
besagt, dass entweder ein sehr unwahrscheinliches Ereignis eingetreten ist oder die Nullhypothese nicht zutrifft.
> Ein kleiner p-Wert unterstützt diese Disjunktion
Was ist der z-Wert?
- ein an Mittelwert
und Standardabweichung
normierter Messwert
> In z-Werte transformierte
Messwerte haben grundsätzlich
einen Mittelwert von 0 und eine Standardabweichung von 1
z-Wert berechnen:
Was ist das Ziel in der Inferenzstatistik im Zusammenhang mit statistischen Tests?
Das Ziel ist es, statistische Entscheidungen über Hypothesen zu treffen
Was sind klassische statistische Tests und welche Information geben sie normalerweise?
Klassische statistische Tests geben normalerweise Informationen darüber, wann die Nullhypothese verworfen werden kann
Was ist der Nullhypothesen-Signifikanztest (NHST) und wie ist er mit Fishers Signifikanztest verbunden?
Der NHST ist eine Entscheidungsprozedur, die auf Fishers Signifikanztest basiert
> zielt darauf ab zu entscheiden, ob die Nullhypothese verworfen werden kann
Wie wird die Poppersche Falsifikationslogik im NHST angewendet?
wird angewendet, um zu entscheiden, ob die Nullhypothese falsifiziert werden kann
> basierend auf dem p-Wert als Maß der Evidenz gegen die Nullhypothese
Welche Entscheidungen können beim NHST getroffen werden und wie werden sie interpretiert?
- Es kann entweder die Nullhypothese abgelehnt werden, was die inhaltliche Hypothese unterstützt
oder
- sie bleibt erhalten, was keinen Schluss über die Hypothese zulässt
Wie ist die Entscheidungsregel beim NHST definiert und auf welchem Schema basiert sie?
- basiert auf der Fehlerwahrscheinlichkeit 1. Art
- unterscheidet zwischen vier möglichen Szenarien
Welche vier möglichen Szenarien ergeben sich aus der Kombination des wahren Zustands der Welt und unserer Entscheidung beim NHST?
- ergeben sich aus der Kombination des wahren Zustands der Welt (wahr oder falsch)
und
- unserer Entscheidung (Ablehnung der Nullhypothese oder Beibehaltung)
Tabelle 1: Entscheidungsmatrix bei Nullhypothesen-Signifikanztests (NHST)
Was beschreibt der Fehler 1. Art im Kontext von Hypothesentests?
Der Fehler 1. Art beschreibt die Situation, in der die Nullhypothese zutrifft, aber fälschlicherweise abgelehnt wird
Wie wird die Irrtumswahrscheinlichkeit α definiert und wie wird sie im Hypothesentest verwendet?
- wird als die Wahrscheinlichkeit definiert, einen Fehler 1. Art zu begehen
- wird verwendet, um den Rejektionsbereich und den kritischen Wert zu bestimmen
Warum wird α häufig per Konvention auf 5 % festgelegt, und welche Kritik gibt es an dieser Festlegung?
α wird häufig auf 5 % festgelegt, jedoch gibt es Kritik, da der Wert gut begründet sein und sich an den Kosten einer falschen Entscheidung orientieren sollte
Was ist das Signifikanzniveau α und wie unterscheidet es sich von der Signifikanz im Zusammenhang mit dem p-Wert?
- Das Signifikanzniveau α beschreibt die vorab festgelegte Wahrscheinlichkeit, einen Fehler 1. Art zu begehen
> während die Signifikanz im Zusammenhang mit dem p-Wert die Stärke der Evidenz gegen die Nullhypothese beschreibt
Wie wird der p-Wert im Nullhypothesen-Signifikanztest (NHST) interpretiert?
Im NHST wird der p-Wert nicht interpretiert, sondern verglichen, ob er kleiner als das Signifikanzniveau α ist
Was bedeutet es, wenn das Ergebnis eines Tests als signifikant betrachtet wird?
Ein Ergebnis wird als signifikant betrachtet, wenn der p-Wert kleiner als das Signifikanzniveau α ist, und die Nullhypothese wird abgelehnt
Warum können wir bei dieser Testlogik die Nullhypothese zwar ablehnen, aber nicht annehmen oder bestätigen?
Bei dieser Testlogik können wir die Nullhypothese ablehnen, aber nicht annehmen oder bestätigen, da wir nur die Evidenz gegen die Nullhypothese bewerten
Was ist ein einseitiger Hypothesentest und wie wird er angewendet?
Ein einseitiger Hypothesentest ist eine Art von Test, bei dem die Nullhypothese nur bei ausreichend starker Abweichung in eine bestimmte Richtung abgelehnt wird
Welche Art von Hypothese wird in einem einseitigen Hypothesentest verwendet, und warum wird sie als gerichtete Hypothese bezeichnet?
In einem einseitigen Hypothesentest wird eine gerichtete Hypothese verwendet, die eine klare Richtung definiert, in der eine Abweichung von der Nullhypothese erwartet wird
Abbildung 5: Rejektionsbereich und kritischer Wert bei einem einseitigen Test
Beispiel: Rejektionsbereich für Toastwurfexperiment bestimmen
N = 10 Toasts
- wir erwarten, dass der Toast häufiger auf der Marmeladenseite landet als auf der Brotseite
- Dazu testen wir die Nullhypothese, dass die Wahrscheinlichkeit für beide Seiten jeweils 50% beträgt auf einem α = 5% Signifikanzniveau
> Es bieten sich zwei relevante Teststatistiken an:
- Entweder die Anzahl k der Marmeladenlandungen
- Oder aber der erwartungstreue Schätzer für die Wahrscheinlichkeit einer Marmeladenlandung: λ = k : N
Warum können wir das geforderte Signifikanzniveau nicht exakt einhalten, wenn die Binomialverteilung diskret ist?
Die Binomialverteilung ist diskret, daher können wir den kritischen Wert nicht genau bestimmen, um das Signifikanzniveau exakt einzuhalten
Wie wählen wir den kritischen Wert, wenn das geforderte Signifikanzniveau nicht exakt eingehalten werden kann?
Wir wählen den konservativeren Wert als kritischen Wert, der das geforderte Signifikanzniveau nicht überschreitet
Wie wird der Rejektionsbereich definiert, wenn wir die Nullhypothese bei einem gerichteten Test ablehnen möchten?
Beim gerichteten Test wird der Rejektionsbereich so definiert, dass wir die Nullhypothese ablehnen, wenn das beobachtete Ergebnis extrem genug in die erwartete Richtung abweicht
Was bedeutet es, wenn eine inhaltliche Hypothese keine Richtung vorgibt?
Wenn eine inhaltliche Hypothese keine Richtung vorgibt, wird sie als ungerichtet bezeichnet
Warum benötigen wir bei einem zweiseitigen Hypothesentest zwei kritische Werte und Rejektionsbereiche?
Bei einem zweiseitigen Hypothesentest definieren wir die Rejektionsbereiche so, dass die Irrtumswahrscheinlichkeit gleichmäßig aufgeteilt ist
> um sicherzustellen, dass die Wahrscheinlichkeit für einen Fehler 1. Art nicht erhöht wird
Abbildung 6: Kritische Werte und Rejektionsbereiche bei einem zweiseitigen Test
Wie wird ein Ergebnis als signifikant bezeichnet, wenn der p-Wert für den beobachteten Wert der Teststatistik mit dem Signifikanzniveau α verglichen wird?
Ein Ergebnis wird als signifikant bezeichnet, wenn der p-Wert kleiner als das Signifikanzniveau α ist
Was muss beachtet werden, wenn der p-Wert mit dem Signifikanzniveau α verglichen wird?
Beim Vergleich des p-Werts mit dem Signifikanzniveau α muss berücksichtigt werden, dass der p-Wert normalerweise nur den Bereich an einem Ende der Verteilung beschreibt
> daher muss er entweder verdoppelt oder das Signifikanzniveau halbiert werden
Warum wird in vielen Statistikprogrammen standardmäßig ein zweiseitiger Test durchgeführt?
um beide Richtungen der Abweichung von der Nullhypothese zu berücksichtigen
Wie wird der p-Wert behandelt, wenn ein zweiseitiger Test durchgeführt wird?
Wenn ein zweiseitiger Test durchgeführt wird, wird der verdoppelte p-Wert ausgegeben, der direkt mit dem Signifikanzniveau α verglichen werden kann
Welche Bedeutung hat der Vermerk “2-tailed” in Statistikprogrammen?
zeigt an, dass ein zweiseitiger Test durchgeführt wird, der beide Richtungen der Abweichung von der Nullhypothese berücksichtigt.
Was sind die Hauptkritikpunkte an Signifikanztests und dem Nullhypothesentest (NHST)?
Die Hauptkritikpunkte betreffen sowohl die praktische Anwendung als auch die theoretische Fundierung von Signifikanztests und dem NHST
Welche Unterschiede bestehen zwischen Fishers Signifikanztest und dem NHST in Bezug auf ihre Vorgehensweise und Ziele?
- Fishers Signifikanztest beinhaltet die Berechnung des p-Werts als Maß für die Evidenz gegen die Nullhypothese
- Der NHST legt explizite Regeln für das Ablehnen oder Beibehalten der Nullhypothese basierend auf dem Signifikanzniveau α fest
Warum wird der NHST oft als Hybrid bezeichnet?
da er Elemente von Signifikanztests und einer anderen statistischen Prozedur enthält, die sich mit statistischen Entscheidungen und der Kontrolle von Fehlerwahrscheinlichkeiten befasst
Was ist der probabilistische Modus Tollens und wie wird er im Zusammenhang mit dem Signifikanztest diskutiert?
Der probabilistische Modus Tollens im Signifikanztest argumentiert, dass das Eintreten eines unwahrscheinlichen Ereignisses nicht zwangsläufig bedeutet, dass die Nullhypothese falsch ist, da das Ereignis unter einer anderen Hypothese möglicherweise noch unwahrscheinlicher ist
Warum wird argumentiert, dass der Schluss des Fishers Disjunktion, der im Signifikanztest verwendet wird, nicht logisch korrekt ist?
Der Fishers Disjunktion-Schluss im Signifikanztest wird als nicht logisch korrekt betrachtet, da er aus probabilistischen Prämissen eine deterministische Schlussfolgerung zieht, ohne andere mögliche Hypothesen zu berücksichtigen
Warum wird argumentiert, dass im Nullhypothesentest (NHST) und im Signifikanztest nur ein signifikantes Ergebnis als gültiges Ergebnis betrachtet wird?
Im NHST und im Signifikanztest wird nur ein signifikantes Ergebnis als gültig betrachtet, da nur in diesem Fall die Nullhypothese abgelehnt wird
Welches Problem entsteht, wenn die Nullhypothese im NHST oder im Signifikanztest nicht zutrifft?
Wenn die Nullhypothese nicht zutrifft, wird das Ergebnis weiterhin unter der Annahme betrachtet, dass sie zutrifft, was zu einer unbalancierten Entscheidungssituation führt
Warum ist die Entscheidungssituation im NHST und im Signifikanztest als unbalanciert beschrieben?
Diese unbalancierte Entscheidungssituation bedeutet, dass das Nichtsignifikante nicht interpretiert werden kann, da es keine Möglichkeit gibt, die Nullhypothese zu bestätigen
Welche Auswirkungen hatte dieser Mangel an Möglichkeit, die Nullhypothese zu bestätigen oder abzulehnen, auf die Veröffentlichungspraxis in der wissenschaftlichen Forschung?
Dies führte dazu, dass es lange Zeit schwierig war, Experimente zu veröffentlichen, deren statistische Analyse zu einem nichtsignifikanten Ergebnis führte
Warum wird die Berücksichtigung einer Alternativhypothese als notwendiger Bestandteil eines sinnvollen statistischen Hypothesentests betrachtet?
Die Berücksichtigung einer Alternativhypothese ist notwendig, um einen sinnvollen statistischen Hypothesentest durchzuführen
> da sie eine alternative Annahme über den hypothetischen Zustand der Welt darstellt, wenn die Nullhypothese nicht zutrifft
Wie definieren Neyman und Pearson den Hypothesentest in ihrer statistischen Prozedur?
Neyman und Pearson definieren den Hypothesentest als eine Entscheidungsregel zwischen zwei möglichen Handlungsoptionen
Was ist das Ziel der Neyman-Pearson-Prozedur?
Das Ziel der Neyman-Pearson-Prozedur ist es, den Anteil an falschen Entscheidungen langfristig zu kontrollieren
Warum können wir bei einer einzelnen Entscheidung im Hypothesentest nie sicher sein, ob sie korrekt ist?
Bei einer einzelnen Entscheidung im Hypothesentest können wir nie sicher sein, ob sie korrekt ist, da wir den wahren Zustand der Welt nicht kennen
Wie wird das Prinzip der Neyman-Pearson-Prozedur anhand des Würfelbeispiels verdeutlicht?
Das Prinzip der Neyman-Pearson-Prozedur wird anhand des Würfelbeispiels verdeutlicht, indem gezeigt wird, wie eine Entscheidung basierend auf Wahrscheinlichkeiten über viele Wiederholungen hinweg kontrolliert werden kann
Nach welchem Prinzip funktionieren Neyman-Pearson-Tests, und warum?
Neyman-Pearson-Tests funktionieren nach dem frequentistischen Prinzip, bei dem der Anteil der falschen Entscheidungen über viele Wiederholungen genau kontrolliert wird
Tabelle 2: Entscheidungsmatrix bei Neyman-Pearson-Tests
Was ist das entscheidende Merkmal der Neyman-Pearson-Theorie?
Das entscheidende Merkmal der Neyman-Pearson-Theorie ist die konkret auf einen Punkt spezifizierte Alternativhypothese
Was sind die beiden Hypothesen, die bei einem Hypothesentest betrachtet werden?
Die beiden Hypothesen, die bei einem Hypothesentest betrachtet werden, sind die Nullhypothese (H0) und die Alternativhypothese (H1)
Wie unterscheidet sich die Behandlung der Alternativhypothese in der Neyman-Pearson-Theorie von der im NHST?
Im Gegensatz zum NHST, bei dem die Alternativhypothese nur als Komplement zur Nullhypothese verstanden wird, wird in der Neyman-Pearson-Theorie eine präzise Hypothese als Alternative zur Nullhypothese spezifiziert
Warum ist es wichtig, eine präzise Hypothese als Alternative zur Nullhypothese zu spezifizieren?
Es ist wichtig, eine präzise Hypothese als Alternative zur Nullhypothese zu spezifizieren, um eine balancierte Entscheidungssituation zu schaffen und jede der beiden Hypothesen annehmen zu können
Was sind Fehler 1. und Fehler 2. Art, und wie werden sie in der Neyman-Pearson-Theorie quantifiziert?
- Fehler 1. Art bezieht sich auf die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie tatsächlich wahr ist
- während Fehler 2. Art die Wahrscheinlichkeit bezeichnet, die Nullhypothese anzunehmen, wenn eigentlich die Alternativhypothese wahr ist.
> Diese werden in der Neyman-Pearson-Theorie quantifiziert, um alle Irrtumswahrscheinlichkeiten der Testprozedur zu erfassen
Was ist Fehler 2. Art/Teststärke und wie wird sie definiert?
Fehler 2. Art/Teststärke ist die bedingte Wahrscheinlichkeit, die Nullhypothese anzunehmen, wenn tatsächlich die Alternativhypothese wahr ist
Wie wird die Wahrscheinlichkeit eines Fehlers 2. Art, β, quantifiziert?
Die Wahrscheinlichkeit eines Fehlers 2. Art, β, entspricht dem Anteil der Fläche unter der Alternativhypothese-Stichprobenverteilung, der links vom kritischen Wert liegt
Was bezeichnet die Teststärke und wie wird sie berechnet, wenn die Alternativhypothese wahr ist?
Die Teststärke ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie tatsächlich falsch ist. Wenn die Alternativhypothese wahr ist, beträgt die Teststärke 1−β
Welchen Zusammenhang gibt es zwischen α und β?
Wenn die Irrtumswahrscheinlichkeit eines Fehlers 1. Art (α) verringert wird, steigt automatisch die Wahrscheinlichkeit eines Fehlers 2. Art (β) bzw. sinkt die Teststärke. Umgekehrt steigt die Teststärke, wenn α ansteigt
Welche Eigenschaften/Parameter beeinflussen die Teststärke eines statistischen Tests?
- Irrtumswahrscheinlichkeit 1. Art (α)
- Effektstärke (unter der Nullhypothese und der Alternativhypothese)
- Stichprobengröße
Was beschreibt der Begriff “Effektstärke”?
Die Effektstärke beschreibt den standardisierten Unterschied zwischen der Null- und der Alternativhypothese
Wie wird die Effektstärke standardisiert definiert?
Die Effektstärke ist standardisiert, was bedeutet, dass sie unabhängig von der Skala bzw. Einheit ist, in der die in den Hypothesen spezifizierten Parameter angegeben sind
Warum ist es wichtig, dass die Effektstärke unabhängig von der Skala bzw. Einheit ist?
Es ist wichtig, dass die Effektstärke unabhängig von der Skala bzw. Einheit ist, damit sie vergleichbar bleibt, unabhängig von den spezifischen Messungen oder Variablen
Welche Maße gibt es für die Effektstärke?
Es gibt viele Maße für die Effektstärke, je nach Art der Analyse und des Untersuchungsdesigns
Wie wird die angenommene Effektstärke definiert und was bedeutet eine größere Effektstärke in Bezug auf die Stichprobenverteilung?
Die angenommene Effektstärke wird als der (standardisierte) Unterschied zwischen H1 und H0 verstanden
- Eine größere Effektstärke bedeutet, dass die Stichprobenverteilung unter der H1 stärker von der Verteilung unter der H0 abweicht
Wie hängt die Stichprobenverteilung der relevanten Teststatistik mit der Größe der Stichprobe zusammen?
Die Stichprobenverteilung der relevanten Teststatistik wird direkt von der Größe der Stichprobe beeinflusst
Was sind die Konzepte Erwartungstreue und Konsistenz?
Erwartungstreue betrifft den Erwartungswert (bzw. Mittelwert) der Stichprobenverteilung, während sich die Konsistenz auf deren Varianz/Streuung bezieht
Was betrifft die Erwartungstreue, und worauf bezieht sich die Konsistenz?
Erwartungstreue bezieht sich auf den Erwartungswert der Stichprobenverteilung, während sich die Konsistenz auf deren Varianz/Streuung bezieht
Wie beeinflusst die Stichprobengröße den Standardfehler?
Der Standardfehler wird in der Regel kleiner, je größer die Stichprobe ist
Was bedeutet ein kleinerer Standardfehler in Bezug auf die Verteilung der Stichprobenschätzer?
Ein kleinerer Standardfehler bedeutet, dass sich die Werte der Stichprobenschätzer enger um die Erwartungswerte verteilen
Wie lässt sich die Auswirkung der Stichprobengröße auf die Teststärke mit einem Beispiel illustrieren?
Mit wachsender Stichprobengröße nimmt die Teststärke zu, da der kritische Wert näher an den Erwartungswert unter der H0 rückt und der Anteil der Verteilung unter der H1, der über dem kritischen Wert liegt, steigt
Was ist das Ziel der Neyman-Pearson-Prozedur?
Das Ziel der Neyman-Pearson-Prozedur ist die Kontrolle von langfristigen Fehlerraten bzw. der Wahrscheinlichkeit von Entscheidungsfehlern
Warum ist es wichtig, die Fehlerwahrscheinlichkeiten eines Tests zu minimieren?
Es ist wichtig, die Fehlerwahrscheinlichkeiten eines Tests zu minimieren, um die Zuverlässigkeit der Ergebnisse zu gewährleisten
Welche fünf entscheidenden Komponenten hat die Testprozedur?
- die statistischen Hypothesen (H0 und H1),
- die angestrebten Fehlerwahrscheinlichkeiten α und β (bzw. die Teststärke 1 − β)
- die Stichprobengröße
Wie hängen die Komponenten der Testprozedur miteinander zusammen?
Jede dieser Komponenten ist eine Funktion der anderen vier, sodass vier Freiheitsgrade bei der Gestaltung eines Tests bestehen, während eine Komponente immer durch die anderen vier definiert ist
Was ist eine Poweranalyse?
Eine Poweranalyse ist die Konstruktion eines Experiments oder statistischen Hypothesentests
> mit dem Ziel, bestimmte Hypothesen mit bestimmten Fehlerwahrscheinlichkeiten zu testen
Warum sollte einer statistischen Test immer eine Poweranalyse vorangehen?
sollte immer vor einem statistischen Test durchgeführt werden, um sicherzustellen, dass der Test sinnvoll ist und die gewünschten Hypothesen mit angemessener Genauigkeit getestet werden können
Wie könnte die Teststärke verbessert werden, indem α angepasst wird?
Die Teststärke könnte verbessert werden, indem α erhöht wird, aber dies könnte die Irrtumswahrscheinlichkeit unter der H0 erhöhen
Warum ist eine Balance zwischen α und β wichtig?
Eine Balance zwischen α und β ist wichtig, um eine angemessene Fehlerkontrolle zu gewährleisten
Warum ist es problematisch, die statistischen Hypothesen anzupassen, um die Teststärke zu erhöhen?
Das Anpassen der statistischen Hypothesen, um die Teststärke zu erhöhen, könnte dazu führen, dass der Test nicht mehr die inhaltliche Hypothese angemessen testet
Was ist eine Punkthypothese?
Eine Punkthypothese ist eine exakte Hypothese, die einem Parameter genau einen Wert zuweist
Wie kann der minimale relevante Effekt verwendet werden, um eine Punkthypothese zu definieren
Der minimale relevante Effekt wird verwendet, um die H1 so zu spezifizieren, dass der Unterschied zur H0 gerade noch relevant ist
Warum ist es wichtig, die statistischen Hypothesen von inhaltlichen Überlegungen leiten zu lassen?
um sicherzustellen, dass der Test relevante Effekte angemessen untersucht
Welche Komponente können wir sinnvoll anpassen, um die Teststärke zu erhöhen, wenn Hypothesen und α feststehen?
Die Stichprobengröße kann angepasst werden, um die Teststärke zu erhöhen, wenn Hypothesen und α feststehen
Wozu wird der Begriff “Poweranalyse” synonym verwendet?
Der Begriff “Poweranalyse” wird synonym für die Festlegung der Stichprobe a priori verwendet
Wie wird die Stichprobengröße in einer Poweranalyse für klassische, frequentistische Hypothesentests bestimmt?
Die Stichprobengröße für klassische, frequentistische Hypothesentests wird durch eine Poweranalyse bestimmt
Was sind Möglichkeiten, die Stichprobengröße für eine Poweranalyse zu bestimmen, wenn eine analytische Lösung nicht möglich ist?
Wenn eine analytische Lösung nicht möglich ist, kann die Stichprobengröße für eine Poweranalyse mithilfe von Computersimulationen bestimmt werden
> es stehen Softwarepakete wie G*Power zur Verfügung
Wie wird der NHST häufig in Bezug auf Neyman-Pearson-Tests beschrieben?
Der NHST wird häufig als Hybrid mit Elementen von Fishers Signifikanztest und Neyman-Pearson-Tests beschrieben
Was ist das Ziel sowohl von Neyman-Pearson-Tests als auch des NHST?
Das Ziel sowohl von Neyman-Pearson-Tests als auch des NHST ist es, eine statistische Entscheidung zu treffen und langfristig Fehlerraten zu kontrollieren
Welche Hypothese wird im NHST genau spezifiziert, und welche nicht?
Im NHST wird die Nullhypothese genau spezifiziert, während die Alternativhypothese nicht genau definiert ist
Warum wird die Teststärke im NHST in der Regel nicht kontrolliert?
Die Teststärke wird im NHST in der Regel nicht kontrolliert, da die Alternativhypothese nicht genau spezifiziert ist
Was war lange Zeit in der Anwendung gängige Praxis im Hinblick auf die Teststärke?
Lange Zeit wurde die Teststärke weitestgehend ignoriert, und nur “signifikante” Ergebnisse fanden Beachtung
Warum ist das Bewusstsein für die Bedeutung der Teststärke und die Wichtigkeit einer Poweranalyse in den letzten Jahren gestiegen?
Das Bewusstsein für die Bedeutung der Teststärke und die Wichtigkeit einer Poweranalyse ist in den letzten Jahren gestiegen, um eine angemessene Fehlerkontrolle sicherzustellen
Warum benötigt ein sinnvoller statistischer Test neben der Nullhypothese auch eine Alternativhypothese?
Ein sinnvoller statistischer Test benötigt neben der Nullhypothese auch eine Alternativhypothese, um alle relevanten Aspekte des Phänomens zu berücksichtigen
Welche beiden Aspekte müssen neben der Irrtumswahrscheinlichkeit 1. Art ebenfalls beachtet werden?
Neben der Irrtumswahrscheinlichkeit 1. Art muss auch die Teststärke beachtet werden, um die Leistungsfähigkeit des Tests zu beurteilen
Was sind Hypothesentests, und warum sind sie ein zentraler Bestandteil wissenschaftlicher Arbeit?
Hypothesentests sind Verfahren, um empirisch Hypothesen zu überprüfen, und sind ein wesentlicher Bestandteil wissenschaftlicher Arbeit
Welche Art von Vorhersagen nutzen wir, um Theorien empirisch zu überprüfen?
Um Theorien kritisch zu testen, leiten wir Vorhersagen (Hypothesen) ab
Auf welcher Definition von Wahrscheinlichkeit basiert die klassische Inferenzstatistik?
Die klassische Inferenzstatistik basiert auf der frequentistischen Definition von Wahrscheinlichkeit, bei der Wahrscheinlichkeit eine relative Häufigkeit beschreibt
Was ist das Ziel der frequentistischen Hypothesentests, insbesondere der Neyman-Pearson-Testprozedur?
Das Ziel der frequentistischen Hypothesentests, insbesondere der Neyman-Pearson-Testprozedur, ist es, statistische Entscheidungen über Hypothesen zu treffen und dabei die Wahrscheinlichkeit, eine Hypothese fälschlicherweise abzulehnen, zu kontrollieren
Welche zwei statistischen Hypothesen müssen spezifiziert werden, um eine statistische Entscheidung zu treffen?
Es müssen die Null- und die Alternativhypothese spezifiziert werden, um eine statistische Entscheidung zu treffen
Wie wird die Fehlerwahrscheinlichkeit 1. Art kontrolliert?
Die Fehlerwahrscheinlichkeit 1. Art wird durch die Wahl eines geeigneten kritischen Werts der Teststatistik kontrolliert
Wie wird die Fehlerwahrscheinlichkeit 2. Art bzw. die Teststärke kontrolliert?
Die Fehlerwahrscheinlichkeit 2. Art bzw. die Teststärke wird durch die Wahl einer ausreichend großen Stichprobe kontrolliert
Was ist vor der Durchführung eines klassischen Hypothesentests erforderlich?
- es müssen beide Hypothesen spezifiziert werden
- es müssen die gewünschten Fehlerraten/Teststärke festgelegt werden
- es muss die benötigte Stichprobengröße mithilfe einer Poweranalyse ermittelt werden
Was ist das Ziel der Poweranalyse a priori?
Bestimmung der Stichproben Größe, damit ein bestimmter Effekt mit gewisser Wahrscheinlichkeit detektiert werden kann
Von was hängt der Kritische Wert ab?
Von der Nullhypothese
Von Alpha (a-Fehler)
Was ist 1–ß?
Teststärke/Power
-> Wahrscheinlichkeit, die Nullhypothese korrekt abzulehnen
Warum ist der P-Wert kein geeignetes Maß für statistische Evidenz für die Nullhypothese?
- Daten beziehen sich nur auf die Nullhypothese
- Evidenz = Daten unter einer alternativen Hypothese müssten miteinbezogen werden
Entscheidungstabelle Hypothesentests
Was ist ein Fehler 2. Art?
Wenn die Nullhypothese fälschlicherweise beibehalten wird, obwohl sie tatsächlich falsch ist
Alternativ: Wenn die Alternativhypothese wahr ist
Wie verändert sich die Wahrscheinlichkeit eines Fehlers 2. Art, wenn sich die Fehlerwahrscheinlichkeit 1. Art (alpha) vergrößert?
Je größer alpha festgelegt wird, desto kleiner der kritische Wert der Teststatistik (1–ß)
> wodurch die Wahrscheinlichkeit eines Fehlers 2. Art ebenfalls sinkt
Wie verändert sich die Wahrscheinlichkeit eines Fehlers 2. Art, wenn sich die EFFEKTSTÄRKE verringert?
Effektstärke = Unterschied zwischen H0 und H1
Wie verändert sich die Wahrscheinlichkeit eines Fehlers 2. Art, wenn statt zweiseitig nun EINSEITIG getestet wird
Wenn einseitig getestet word, wird der kritische Wert kleiner (da er nun alpha statt alpha/2% der Verteilung abtrennt)
> Dadurch sinkt die Wahrscheinlichkeit eines Fehlers 2. Art
Was heißt X~Normal (100,15)
Beschreibt eine Zufallsvariable X, die einer Normalverteilung folgt
mü = 100
Sigma / Standardabweichung = 15
Was sagt die Standardabweichung von 15?
Es bedeutet, dass die Streuung der Werte um den Mittelwert herum 15 beträgt
Was sind die 4 Komponenten, die den Rejektionsbereich beeinflussen
- Signifikanzniveau
- Verteilung der Teststatistik
- Freiheitsgrade
- Ein- oder zweiseitiger Test
Was sind Freiheitsgrade?
Freiheitsgrade sind die Anzahl unabhängiger Werte, die in die Berechnung der Teststatistik eingehen
Wie lautet die Streuung der Stichprobenvarianz?
alpha wird auch …
… Signifikanzniveau genannt
Szenarien, wie sich die Teststärke verändert:
- Erhöhung der Stichprobengröße: Erhöht die Teststärke
- Erhöhung des Signifikanzniveaus (𝛼): Erhöht die Teststärke, aber auch die Fehlerwahrscheinlichkeit 1. Art
- Größerer Effekt: Erhöht die Teststärke, da größere Effekte leichter zu entdecken sind
Tests für verschiedene Skalenniveaus:
Nominal:
Chi-Quadrat-Test
Fisher’s Exact Test
Ordinal:
Mann-Whitney-U-Test
Wilcoxon-Rangsummentest
Intervallskaliert:
t-Test
ANOVA
Pearson-Korrelation
Wer hat den Signifikanztest erfunden?
Der Signifikanztest wurde von Ronald A. Fisher erfunden
Was sind die wesentlichen Kritikpunkte am NHST?
- Überbetonung von p-Werten: Fokussierung auf Signifikanz statt auf Effektgrößen und praktische Relevanz.
- Dichotomes Denken: Ergebnisse werden als entweder signifikant oder nicht signifikant interpretiert.
- Missverständnisse: Fehlinterpretation der p-Werte und der Wahrscheinlichkeit der Nullhypothese.
- Power und Stichprobengröße: Geringe Teststärke bei kleinen Stichproben.
Sie führen ein Experiment mit einer Stichprobe von N = 100 durch. Anschließend wiederholen Sie das Experiment unter gleichen Bedingungen und mit den gleichen Hypothesen, diesmal allerdings mit N = 75 Teilnehmenden. In beiden Experimenten beobachten Sie exakt den gleichen Wert der Teststatistik.
Wie verhält sich der p-Wert?
Der p-Wert ist im zweiten Experiment größer.
> da bei kleineren Stichproben die Verteilung der Teststatistik breiter ist, was dazu führt, dass der gleiche Wert der Teststatistik einen höheren p-Wert ergibt
Wie nennt man die Streuung bei einer Stichprobenverteilung eines statistischen Kennwerts?
Streuung: Standardfehler (Standard Error, SE)
> Erklärung: Der Standardfehler misst die Streuung der Stichprobenmittelwerte um den Populationsmittelwert
Formel Standardabweichung
Formel Standardfehler (SE)
Formel Berechnung z-Wert
Formel kritischer Wert
1 – alpha =
Wahrscheinlichkeit, die Nullhypothese korrekt beizubehalten
1 – beta =
Wahrscheinlichkeit, die Nullhypothese korrekt abzulehnen (Teststärke/Power)