statistische Inferenz Flashcards
Survey errors
Ansatz: Wie halten wir den Fehler so klein wie möglich mit den Ressourcen, die zur Verfügung stehen
Fehlerarten: durch Zufall und systematisch
zwei Quellen: Messung und Bevölkerungsabbildung
Messung:
-invalid concept
-measurment error
-proccessing error
representation:
-coverage error
-sampling errror
-nonresponse error
Beginn der Meinungsforschung
Literary Digest:
-5 von 20 Mio schickten antwort
bei Präsidentschaftswahl besser: Gallup
-sampling frame (wer bekam Umfrage?)
-response bias (wer schickte sie zurück?)
Stichprobenverfahren
Probabilistische Verfahren
-Einfache Zufallsstichprobe
-Geschichtete Stichprobe
-Klumpenstichprobe
nicht-probabilistische Verfahren:
-> keine durch Statistik gesicherten Rückschlüsse auf die Grundgesamtheit möglich
-willkürliche Auswahl
-bewusste Auswahl
-> Quotenstichprobe
-> theoretische Auswahl
Fehler in der Stichprobe
statistischer Zufallsfehler (sampling error)
(Nicht)-Erfassungsfehler ([non-]coverage error)
Erhebungsmethoden
schriftlich (Post, Email, online)
mündlich (telefonisch, face-toface)
zu beachten
-Kosten
-Stichprobenziehung
-Erreichbarkeit
Kognitionspsychologie
Verstehen
Information abrufen
Entscheidung für eine Antwort
Zuordnung der Antwort zu den Antwortoptionen
Satisficing -> Jon Krosnick
-Erste vernünftige Antwort auswählen
-Zustimmen (Acquiescence)
-Tendenz zum Status quo
-Ratings gleich einstufen
-Weiß-Nicht-Antworten
-Zufälliges Antworten
-Non-attitudes -> Public Affairs Act
-Biases (Verzerrung)
-Gedächtnisprobleme
-Fehlerhafte Selbsteinschätzung („self-reports“) von Ereignissen und Beweggründen
probleme der heutigen Umfrageforschung
Sinkende Antwortbereitschaft
-Zu viele Umfragen
-Umstieg auf Mobiltelefone
Online keine perfekte Alternative
Kosten guter Umfragen sind hoch
Einfluss von Gewichtung hoch
Grundgleichung für Estimate
Estimate = Estimand + Bias + Noise
There’s an important distinction between the estimate (the result we get) and the estimand (the thing we were hoping to estimate). The two ways those things can diverge are bias and noise.
Bias refers to systematic reasons why the estimate will consistently be off the mark. E.g., if Democrats are more likely to answer political polls, this will create a consistent bias in our estimate of the vote share in an upcoming election.
Noise refers to idiosyncratic reasons why the estimate will be off the mark. The noise is zero, on average, but noise leads us to sometimes over or underestimate the estimand because of things like sampling variability
bias and precision
We’d like our bias and noise to be close to zero. That is, we’d like to generate estimates that are unbiased and precise.
Unbiased means that if we repeated our estimator (the procedure we use to generate our estimate) over and over again on independent data, the average estimate would be the estimand.
Precise means that if we repeated our estimator over and over again on independent data, the estimates would all be close to each other.
standardfehler
Standard error (Standardfehler): Die Standardabweichung der möglichen Schätzungen, die wir hätten bekommen können
Standardfehler eines Anteils = sqrt (q+(1-q)/N)
N= Stichprobengröße
q und N beeinflussen beide den Standardfehler
q kennen wir ja eigentlich nicht – man benutzt stattdessen den Schätzer aus der Stichprobe.
standard errors estimates are themselves estimates and they can, in certain circumstances, be unreliable
Mehr N bringt immer weniger Genauigkeit (diminishing marginal returns): größere sample size bedeutet zwar smaller standard errors, aber bei 10facher vergrößerung sample nur mehr 3fache verkleinerung error
Central limit theorem
= zentraler Grenzwertsatz
= Gesetz der großen Zahl
Die Verteilung der Schätzer wäre ungefähr “normal”.
Normalverteilung: Symmetrisch um den Durchschnitt – “Glockenkurve”. Wichtig: 95% der Beobachtungen sind weniger als zwei Standardabweichungen vom Mittelwert.
Das ist die bekannte Schwankungsbreite (ca. 2x Standardfehler)
In den Sozialwissenschaften nennen wir ähnliche Maße das “95% Konfidenzintervall”
Bedeutung: Vorausgesetzt unser Schätzer ist unverzerrt (“unbiased”) und wir wiederholen die Studie mit immer neuen Daten, dann wird der wahre Wert (𝛽) in 95% der Fällen innerhalb des Konfidenzintervalles liegen
ODER VEREINFACHT: Das Konfidenzintervall enthält mit einer Wahrscheinlichkeit von 95% den wahren Wert (𝛽)
Normalverteilung
glockenförmiger Verlauf
Symmetrisch:
-Median = Mittelwert
-50% der Fläche links, 50% rechts vom Mittelwert
Um eine Normalverteilung zu beschreiben, reichen zwei Parameter:
-Mittelwert μ und Varianz σ²
Kurve erreicht bis ±∞ nie 0 auf der x-Achse
Besondere Eigenschaft der
Normalverteilung:
68% der Fälle innerhalb +/- 1 Standardabweichung
95% der Fälle innerhalb +/- 2 Standardabweichungen
99.7% der Fälle innerhalb +/- 3 Standardabweichungen
Verteilung des arithmetischen Mittels
Die Verteilung von Mittelwerten aus Stichproben (mit n<30) ist ‚normal‘.
Das stimmt unabhängig von der der Verteilung der Werte in der Grundgesamtheit!
„Die Verteilung von arithmetischen Mittelwerten aus Stichproben vom Umfang n, die sämtlich derselben Grundgesamtheit entnommen wurden, geht mit wachsendem n in eine Normalverteilung über“ (Zentraler Grenzwertsatz)
Der Standardfehler ist die Standardabweichung der Verteilung der Mittelwerte
Wie weit werden Schätzer von dem Bevölkerungswert sein?
Interpretation Konfidenzintervall
Achtung bei der Interpretation eines Konfidenzintervalls!
Das KI sagt: wenn wir von vielen Stichproben jeweils das KI berechnen, würden von 100 Stichproben 95 (bzw. 99) KI den Bevölkerungswert enthalten
Am besten als Bandbreite plausibler Werte ansehen
Berechnung Konfidenzintervall für Anteilswerte
Benötigte Informationen:
-arithmetisches Mittel in der Stichprobe
-Standardabweichung
-Stichprobengröße
Mit der Standardabweichung und der Stichprobengröße ermitteln wir den Standardfehler (Standardabweichung der Mittelwertverteilung
Formel:
breite des Konfidenzintervalls
Wird größer, wenn wir eine kleinere Stichprobe haben
Wird größer, wenn wir größere Sicherheit haben wollen (also wollen, dass das KI öfter den Wert beinhaltet)
Wird größer, wenn die Streuung (=Standardabweichung) der Stichprobe zunimmt
Für Anteilswerte: wenn q näher an 0,5 ist
statistische Signifikanz in Regressionsmodellen
𝐼𝑛𝑐𝑜𝑚𝑒_𝑖=α+β∗𝑌𝑒𝑎𝑟𝑠 𝑜𝑓 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛_𝑖+ε_𝑖
α and β schätzen wir aufgrund des Regressionsmodells. Hier ist β unseren wichtigsten zu schätzenden Wert: wie sehr hängen Bildungsjahre im Durchschnitt mit Einkommen zusammen?
Zufallsstichprobe, Regressionsmodell mit Bildung und Einkommen gibt uns den Schätzer β̂ (nicht β an sich!).
Regressionsmodelle geben uns auch den Standardfehler von β̂ (müssen wir natürlich nicht selber berechnen!). Damit können wir auch hier Konfidenzintervalle berechnen und Hypothesentests durchführen.
P-wert
Die Wahrscheinlichkeit – sofern die Nullhypothese stimmt – den beobachteten Wert oder einen noch „extremeren“ Wert zu erhalten
statistische Inferenz für gesamtbevölkerung
Statistische Inferenz: Ist der Zusammenhang „echt”, oder einfach nur Zufall?
Oft haben wir aber Daten für die gesamte Bevölkerung (Alle Studierende, alle UN-Länder, alle Österreicher*innen)? Kann man dann noch Unsicherheit berechnen?
Es gibt immer noch Zufallszusammenhänge.
-> Man stellt sich eine größere, nicht existierende Bevölkerung vor, aus der die beobachtete Welt “gesampled” wurde (‘hypothetical population’)
substantive vs statistical significance
Substantive significance: Wie groß ist der Zusammenhang?
Statistical significance: Ist der Zusammenhang zufällig?
Nicht das gleiche, aber werden oft verwechselt!
remember that failure to reject the null hypothesis is not proof of the null hypothesis.
hypothesentest errors
type 1 error: false positive
type 2 error: false negative
publication bias
p-Hacking:
Wir wissen, dass wir unser Resultat eher veröffentlichen können und damit Aufsehen erregen, wenn es statistisch significant ist (z.B. p < .05). Wir spielen mit dem Sample, mit dem Modell, mit den Variablen, bis wir auf p<0.05 kommen, und berichten nur dieses Ergebnis.
p-screening:
Der Prozess an sich ist korrekt, nur veröffentlichen wir nur die signikanten Ergebnisse, weil diese spannender sind.
Ergebnis: Overestimates und false positives
viele Tests + selektive Inklusion = nicht zuverlässige Resultate
lösungen für publication bias
Skeptisch sein
Multiple testing vermeiden und miteinbeziehen
Replizieren
Preregistration
Härtere Signifikanzgrenzen (p < .005)?
Statistische Signifikanz ganz ignorieren?