statistische Inferenz Flashcards
Survey errors
Ansatz: Wie halten wir den Fehler so klein wie möglich mit den Ressourcen, die zur Verfügung stehen
Fehlerarten: durch Zufall und systematisch
zwei Quellen: Messung und Bevölkerungsabbildung
Messung:
-invalid concept
-measurment error
-proccessing error
representation:
-coverage error
-sampling errror
-nonresponse error
Beginn der Meinungsforschung
Literary Digest:
-5 von 20 Mio schickten antwort
bei Präsidentschaftswahl besser: Gallup
-sampling frame (wer bekam Umfrage?)
-response bias (wer schickte sie zurück?)
Stichprobenverfahren
Probabilistische Verfahren
-Einfache Zufallsstichprobe
-Geschichtete Stichprobe
-Klumpenstichprobe
nicht-probabilistische Verfahren:
-> keine durch Statistik gesicherten Rückschlüsse auf die Grundgesamtheit möglich
-willkürliche Auswahl
-bewusste Auswahl
-> Quotenstichprobe
-> theoretische Auswahl
Fehler in der Stichprobe
statistischer Zufallsfehler (sampling error)
(Nicht)-Erfassungsfehler ([non-]coverage error)
Erhebungsmethoden
schriftlich (Post, Email, online)
mündlich (telefonisch, face-toface)
zu beachten
-Kosten
-Stichprobenziehung
-Erreichbarkeit
Kognitionspsychologie
Verstehen
Information abrufen
Entscheidung für eine Antwort
Zuordnung der Antwort zu den Antwortoptionen
Satisficing -> Jon Krosnick
-Erste vernünftige Antwort auswählen
-Zustimmen (Acquiescence)
-Tendenz zum Status quo
-Ratings gleich einstufen
-Weiß-Nicht-Antworten
-Zufälliges Antworten
-Non-attitudes -> Public Affairs Act
-Biases (Verzerrung)
-Gedächtnisprobleme
-Fehlerhafte Selbsteinschätzung („self-reports“) von Ereignissen und Beweggründen
probleme der heutigen Umfrageforschung
Sinkende Antwortbereitschaft
-Zu viele Umfragen
-Umstieg auf Mobiltelefone
Online keine perfekte Alternative
Kosten guter Umfragen sind hoch
Einfluss von Gewichtung hoch
Grundgleichung für Estimate
Estimate = Estimand + Bias + Noise
There’s an important distinction between the estimate (the result we get) and the estimand (the thing we were hoping to estimate). The two ways those things can diverge are bias and noise.
Bias refers to systematic reasons why the estimate will consistently be off the mark. E.g., if Democrats are more likely to answer political polls, this will create a consistent bias in our estimate of the vote share in an upcoming election.
Noise refers to idiosyncratic reasons why the estimate will be off the mark. The noise is zero, on average, but noise leads us to sometimes over or underestimate the estimand because of things like sampling variability
bias and precision
We’d like our bias and noise to be close to zero. That is, we’d like to generate estimates that are unbiased and precise.
Unbiased means that if we repeated our estimator (the procedure we use to generate our estimate) over and over again on independent data, the average estimate would be the estimand.
Precise means that if we repeated our estimator over and over again on independent data, the estimates would all be close to each other.
standardfehler
Standard error (Standardfehler): Die Standardabweichung der möglichen Schätzungen, die wir hätten bekommen können
Standardfehler eines Anteils = sqrt (q+(1-q)/N)
N= Stichprobengröße
q und N beeinflussen beide den Standardfehler
q kennen wir ja eigentlich nicht – man benutzt stattdessen den Schätzer aus der Stichprobe.
standard errors estimates are themselves estimates and they can, in certain circumstances, be unreliable
Mehr N bringt immer weniger Genauigkeit (diminishing marginal returns): größere sample size bedeutet zwar smaller standard errors, aber bei 10facher vergrößerung sample nur mehr 3fache verkleinerung error
Central limit theorem
= zentraler Grenzwertsatz
= Gesetz der großen Zahl
Die Verteilung der Schätzer wäre ungefähr “normal”.
Normalverteilung: Symmetrisch um den Durchschnitt – “Glockenkurve”. Wichtig: 95% der Beobachtungen sind weniger als zwei Standardabweichungen vom Mittelwert.
Das ist die bekannte Schwankungsbreite (ca. 2x Standardfehler)
In den Sozialwissenschaften nennen wir ähnliche Maße das “95% Konfidenzintervall”
Bedeutung: Vorausgesetzt unser Schätzer ist unverzerrt (“unbiased”) und wir wiederholen die Studie mit immer neuen Daten, dann wird der wahre Wert (𝛽) in 95% der Fällen innerhalb des Konfidenzintervalles liegen
ODER VEREINFACHT: Das Konfidenzintervall enthält mit einer Wahrscheinlichkeit von 95% den wahren Wert (𝛽)
Normalverteilung
glockenförmiger Verlauf
Symmetrisch:
-Median = Mittelwert
-50% der Fläche links, 50% rechts vom Mittelwert
Um eine Normalverteilung zu beschreiben, reichen zwei Parameter:
-Mittelwert μ und Varianz σ²
Kurve erreicht bis ±∞ nie 0 auf der x-Achse
Besondere Eigenschaft der
Normalverteilung:
68% der Fälle innerhalb +/- 1 Standardabweichung
95% der Fälle innerhalb +/- 2 Standardabweichungen
99.7% der Fälle innerhalb +/- 3 Standardabweichungen
Verteilung des arithmetischen Mittels
Die Verteilung von Mittelwerten aus Stichproben (mit n<30) ist ‚normal‘.
Das stimmt unabhängig von der der Verteilung der Werte in der Grundgesamtheit!
„Die Verteilung von arithmetischen Mittelwerten aus Stichproben vom Umfang n, die sämtlich derselben Grundgesamtheit entnommen wurden, geht mit wachsendem n in eine Normalverteilung über“ (Zentraler Grenzwertsatz)
Der Standardfehler ist die Standardabweichung der Verteilung der Mittelwerte
Wie weit werden Schätzer von dem Bevölkerungswert sein?
Interpretation Konfidenzintervall
Achtung bei der Interpretation eines Konfidenzintervalls!
Das KI sagt: wenn wir von vielen Stichproben jeweils das KI berechnen, würden von 100 Stichproben 95 (bzw. 99) KI den Bevölkerungswert enthalten
Am besten als Bandbreite plausibler Werte ansehen
Berechnung Konfidenzintervall für Anteilswerte
Benötigte Informationen:
-arithmetisches Mittel in der Stichprobe
-Standardabweichung
-Stichprobengröße
Mit der Standardabweichung und der Stichprobengröße ermitteln wir den Standardfehler (Standardabweichung der Mittelwertverteilung
Formel: