prov. Fragenkatalog 106 - 120 Flashcards
- Welche Datenquellen können als Auswahlrahmen für die Stichprobenziehung dienen?
- Telefonverzeichnisse
- Wählerlisten
- Zentrales Melderegister (nur amtliche Statistik)
- Adresslisten
- Kundenlisten
- Alumni-Listen
- Was ist der Vorteil bei probabilistischen Sampling-Techniken, und welche dieser Techniken kennen Sie?
Der Vorteil probabilistischen Sampling-Techniken ist es, dass sie es erlauben, Populationsparameter
mit entsprechender Präzision zu schätzen. Durch das Zufallselement verhindern sie systematische
Fehler. Sie sind theoretisch klar überlegen, nachvollziehbar und verhindern bias.
Probabilistische Sampling-Techniken:
- Einfache Zufallsstichprobe (simple random sampling)
- Geschichtete/stratifizierte Stichprobe (stratified sample)
- Klumpenstichprobe (cluster sampling)
- Mehrstufige Stichprobe (multi-stage sampling)
- Systematisches („implizites“) sampling / implizite Schichtung
- Was ist eine einfache Zufallsstichprobe, und welche Vorteile/Schwierigkeiten sind dabei zu nennen?
Bei einer einfachen Zufallsstichprobe zieht man aus einer vollständigen Liste aller Objekte der Zielpopulation nach dem Zufallsprinzip eine Auswahl von Objekten, wobei die
Auswahlwahrscheinlichkeit aller Objekte gleich groß sein muss.
Vorteile: Sie ist einfach und effizient, es kann kein systematischer bias entstehen, die
Konfidenzintervalle lassen sich nach der einfachen Formel berechnen bzw. die Signifikanzprüfung ist
mit den üblichen Verfahren (t-Test, Varianzanalysen…) möglich. Wenn das sampling perfekt ist, dann
wird das sample umso repräsentativer, je größer unser n ist.
Eine Schwierigkeit der Technik ist, dass jedes Untersuchungsobjekt der Population erfasst sein muss.
- Erklären Sie systematisches Sampling.
Das systematische Sampling nennt sich auch „implizite Schichtung“. Dabei nehme ich von einem Startwert weg jeden k-ten Fall von einer Liste oder aus einer Reihenfolge (z.B. jeden 5-ten Kunden).
Wenn die Reihenfolge relevante Informationen in sich trägt (z.B. Zeitpunkt der Einschreibung), wird diese automatisch ausbalanciert – es sei denn, man kommt in Periodizitäten rein, z.B. „jeder 7-te Tag“.
- Was ist eine geschichtete Stichprobe? Warum schichtet man?
Bei der geschichteten (stratifizierten) Stichprobe wird die Population auf Basis eines oder mehrerer
Merkmale (z.B. Geschlecht, Alter) in Teilpopulationen (Schichten) eingeteilt. Pro Merkmalsausprägung
bzw. -kombination entstehen also Teilpopulationen (nj) und aus jeder dieser Schichten wird eine
Zufallsstichprobe entnommen. Wenn die Stichprobenumfänge nj zu den jeweiligen Teilpopulationen
proportional sind, spricht man von proportional geschichteten Stichproben. Wenn man die Eckdaten der
demographischen Variablen kennt, kann man auch eine sog. Poststratifizierung durchführen, d.h. man
wählt die Gewichte der Schichten so, dass sie der Population entsprechen (im Nachhinein, d.h. bei der
Stichprobenziehung wurde noch nicht geschichtet).
Die Schichtung ist dann effizient, wenn sich die Mittelwerte zwischen den Schichten stark unterscheiden.
Die Schichtung hat zwei Anwendungsvorteile:
- Sie reduziert die Varianz, die durch die zufälligen Abweichungen von den entsprechenden Eckzahlen entstehen (die Varianz „zwischen“).
- Sie reduziert den systematischen Fehler, der durch mangelnde Repräsentativität hinsichtlich der Schichtungsvariablen entstehen kann (z.B. zu wenig ältere Personen)
Im Gegensatz zu Klumpen decken Schichten die gesamte Population ab. Schichten bilden meist demographische Merkmale ab.
- V: Eine Stichprobe ist geschichtet nach Geschlecht, die 40 Frauen weisen bezüglich der Anzahl der Dienstjahre in der Firma eine Standardabweichung von 3.6 auf, die 20 Männer eine von 4.8. Welche Varianz hat der Mittelwert der Anzahl der Dienstjahre in der Gesamtstichprobe? (gesuchte Zahl: 0.272) Wie lautet der Gesamtmittelwert, wenn die Frauen eine mittlere Anzahl von Dienstjahren 12 und die Männer eine von 9 haben? (Antwort: 11)
- Skizzieren Sie kurz die Auswertung innerhalb eines sogenannten „komplexen Designs“ in SPSS.
Die Auswertung darf nicht mit regulären Methoden durchgeführt werden. Mit der Option Complex
Samples kann man eine Stichprobe nach einem komplexen Design auswählen und die Designspezifikationen in die Datenanalyse integrieren, um sicherzustellen, dass die Ergebnisse gültig sind.
Zuerst muss man ein Designfile anlegen oder ein vorhandenes heranziehen:
- Analyse -> Complex Samples -> Prepare for Analysis
- Hier muss die Schichtungsvariable angegeben werden (welche Variable spezifiziert die verschiedenen Schichten, z.B. Geschlecht)
- Auch muss man eine Gewichtungsvariable angeben (wie viele Personen jeder Fall in der Population repräsentiert).
- Dann kann man eine Schätzmethode für den Standardfehler wählen.
- Die Populationsgröße pro Schicht muss angegeben werden
- Finish
Anschließend: Analysen ausführen
- Analyse -> Complex Samples -> Descriptives
- Was ist Post-Stratifizierung, und wie kann man sie durchführen?
Eine Post-Stratifizierung kann man durchführen, wenn man die Eckdaten der demographischen
Variablen kennt.Dabei wählt man dieGewichteder Schichten so, dass sie der Populationentsprechen
(im Nachhinein, d.h. bei der Stichprobenziehung wurde noch nicht geschichtet).
Dies kann man z.B. in SPSS machen. Da geht es über Complex Samples, wobei sample weights verwendet
werden, die unterschiedlich groß für die verschiedenen Strata (Schichten) sein können (bzw. deren
Kombination – z.B. jüngere Männer mit niedriger Bildung).
- Was lässt sich zur Wahl der Größe der Schichten bei einer geschichteten Stichprobe sagen?
Oft wählt man die Schichten proportional, d.h. der Anteil der Schicht in der Stichprobe entspricht genau jenem in der Population. Man kann aber auch bewusst over- bzw. untersamplen, z.B. um kleinere Gruppen oder bestimmte Risikogruppen mit ausreichender Stichprobengröße erfassen zu können.
Da in die Fehlervarianzen die Varianzen innerhalb der Schichten eingehen, kann man bei optimaler
Schichtung die Versuchspersonen so zuteilen, dass mehr Personen jenen Schichten zugeteilt werden,
welche sonst besonders viel Fehlervarianz generieren würden.
Bei proportionaler Schichtung beträgt die eingesparte Fehlervarianz: 𝑽𝒂𝒓𝒊𝒂𝒏𝒛 𝒅𝒆𝒓 𝑺𝒄𝒉𝒊𝒄𝒉𝒕𝒎𝒊𝒕𝒕𝒆𝒍𝒘𝒆𝒓𝒕𝒆/𝒏
-> (d.h. durch die Schichtung fällt der Fehler weg)
Varianz der Schichtmittelwerte = Varianz „zwischen“ den Schichten
- Was sind Klumpenstichproben? Warum benutzt man dieses Design? Was ist dabei zu beachten?
Bei einer Klumpenstichprobe handelt es sich ebenfalls um eine probabilistische Technik der Stichprobenauswahl. Dabei zieht man aus einer in natürliche Gruppen (Klumpen; meist organisatorische Einheiten) gegliederten Population (z.B. Schulen, Orte etc.) nach dem Zufallsprinzip eine Anzahl von Klumpen und untersucht diese Klumpen dann vollständig.
Man verwendet das Design aufgrund seiner technischen und ökonomischen Vorteile – es hat jedoch keine
statistischen (anders als die geschichtete Stichprobe). Im Allgemeinen steigt der Standardfehler bei
Klumpenstichproben im Vergleich zur einfachen Zufallsauswahl. Allerdings bieten
Klumpenstichproben interessante analytische Möglichkeiten (Analyse der Varianzen zwischen den
Klumpen, Mehrebenenanalyse).
Zu beachten ist, dass sich die Klumpen nicht überschneiden dürfen! Man sollte außerdem immer bedenken, dass Klumpen nicht die gesamte Population abdecken (anders als Schichten). Außerdem führen kleine Unterschiede zwischen den Klumpen zu einem großen Standardfehler (bei Schichten umgekehrt).
Bei der mehrstufigen Stichprobe wird zunächst zufällig eine Klumpenstichprobe mit großen Klumpen gezogen (1. Stufe). Diese Klumpen werden aber nicht vollständig untersucht, sondern aus ihnen wird eine Zufallsstichprobe gezogen (2. Stufe). Daraus kann wieder eine Klumpenstichprobe gewinnen, aus der man wieder eine Zufallsstichprobe zieht.
- Was ist der Unterschied zwischen einer Klumpen- und einer geschichteten Stichprobe?
Schichten decken die gesamte Population ab – Klumpen nicht. Klumpen bilden außerdem meist organisatorische Einheiten ab, Schichten eher demographische Merkmale. Und ein wichtiger Unterschied ist noch, dass große Unterschiede zwischen Schichten zu einem kleinen Standardfehler
führen – bei Klumpen braucht es dafür kleine Unterschiede (zwischen den Klumpen).
- Erläutern Sie, warum man Klumpenstichproben nicht wie einfache Zufallsstichproben ausgewertet werden dürfen.
Klumpenstichproben dürfen nicht wie einfache Zufallsstichproben ausgewertet werden, weil die
statistischen Einheiten innerhalb der Klumpen in der Regel voneinander abhängig sind (es macht
einen Unterschied ob man 200 (Schüler) oder 8 (Schulklassen) Einheiten hat!). Ein signifikanter
Unterschied zwischen 30 geschlechtssepariert unterrichteten Mädchen und 15 gemischt unterrichteten
Mädchen kann interpretiert werden – ein Unterschied zwischen zwei Klassen nicht ohne weiteres
(Alternativerklärungen, z.B. bessere Lehrkraft).
Der „Designeffekt“ sagt genau das aus: man hat weniger statistische Information zur Verfügung, als die
Fallzahl vermuten würde.
- Erklären Sie Designeffekt und effektive Stichprobengröße.
Der Designeffekt ist das zentrale Problem der Klumpenstichprobe. Er beschreibt, dass man bei
Stichproben dieser Art weniger statistische Information zur Verfügung hat, als die Fallzahl eigentlich
vermuten lassen würde.Er beschreibt das Verhältnis der Varianz des Schätzers in komplexer
Stichprobe zur Varianz bei einfacher Stichprobe:
Designeffekt = 𝑽𝒂𝒓𝒊𝒂𝒏𝒛 𝒅𝒆𝒔 𝑺𝒄𝒉ä𝒕𝒛𝒆𝒓𝒔 𝒊𝒏 𝒌𝒐𝒎𝒑𝒍𝒆𝒙𝒆𝒓 𝑺𝒕𝒊𝒄𝒉𝒑𝒓𝒐𝒃𝒆/𝑽𝒂𝒓𝒊𝒂𝒏𝒛 𝒃𝒆𝒊 𝒆𝒊𝒏𝒇𝒂𝒄𝒉𝒆𝒓 𝒁𝒖𝒇𝒂𝒍𝒍𝒔𝒂𝒖𝒔𝒘𝒂𝒉𝒍 .
Bei konstanter Clustergröße nc lässt sich der Designeffekt folgendermaßen abschätzen:
Designeffekt = 1 + Intraklassenkorrelation × (nc-1)
Die effektive Stichprobengröße lässt sich berechnen durch: 𝒕𝒂𝒕𝒔ä𝒄𝒉𝒍𝒊𝒄𝒉𝒆𝒔 𝒏/𝑫𝒆𝒔𝒊𝒈𝒏𝒆𝒇𝒇𝒆𝒌𝒕 .
Hat eine Klumpenstichprobe eine effektive Stichprobengröße von 15, so ist sie mit einer Zufallsstichprobe mit 15 Teilnehmenden vergleichbar, obwohl in der Klumpenstichprobe eigentlich um einiges mehr Personen waren.
- Was ist eine Intraklassenkorrelation?
Die Intraklassenkorrelation beschreibt bei der Klumpenstichprobe das Ausmaß der Variabilität, der
durch die Kontextvariable (Klumpenzugehörigkeit) erklärt werden kann. Sie kann Werte zwischen 0 und 1 annehmen, wobei eine ICC von 1 bedeutet, dass es nur Varianz zwischen den Clustern gibt und alle Werte innerhalb eines Klumpens gleich sind (alle Variabilität wird durch die Kontextvariable erklärt).
Eine ICC von 0 bedeutet wiederum, dass es keine Unterschiede zwischen den Clustern gebe (also keinen
Einfluss der Kontextvariable). Je höher also das ICC, umso stärker unterscheiden sich die Cluster und
umso bedeutender sind die jeweiligen Kontextvariablen.
Bei der Klumpenstichprobe kann also mithilfe der Intraklassenkorrelation abgeschätzt werden, wie
„schlimm“ die Abhängigkeit der Daten innerhalb der Klumpen ist.
Berechnet wird die ICC über: (BILD)
- V: Berechnen Sie die Intraklassenkorrelation, wenn die Varianz „zwischen“ 1 und die Varianz „innerhalb“ 3 beträgt.