prov. Fragenkatalog 121 - 140 Flashcards
- V: Berechnen Sie die Intraklassenkorrelation bezüglich Einkommen geclustert nach Firma anhand des folgenden Mehrebenenanalysenoutputs.
- V: Versuchen Sie ein realistisches Beispiel für eine Erhebung mittels Klumpenstichprobe anzugeben, und argumentieren Sie, welchen Designeffekt Sie in etwa erwarten würden. (Hinweis: Sie werden dafür eine Schätzung angeben müssen, wie groß die Intraklassenkorrelation in etwa sein könnte. Die Formel Designeffekt = 1 + Intraklassenkorrelation x (nc-1) müssen Sie – wie alle für den Fragenkatalog benötigten Formeln – für die Prüfung auswendig parat haben.)
Ich möchte die Depressivität bei österreichischen Schülern erfassen und wähle per Zufall 10 österreichische
Schulen mit je 300 Schülern aus. Innerhalb der Schulen (Cluster) werden alle Schüler in die
Untersuchung miteinbezogen. Da es unterschiedliche Schultypen in Österreich gibt, schätze ich jetzt
einmal, eine mittlere Intraklassenkorrelation vorzufinden (z.B. 0.4) -> d.h. es gibt sowohl zwischen, als
auch innerhalb der Schulen Unterschiede.
Mithilfe der Formel: 𝑫𝒆𝒔𝒊𝒈𝒏𝒆𝒇𝒇𝒆𝒌𝒕 = 𝟏 + 𝑰𝑪𝑪 × (𝒏𝒄 − 𝟏) komme ich bei ICC = 0.4 und nc
(Clustergröße) = 300 auf einen Designeffekt von 120.6.
Aus den insgesamt 3000 Schülern, die an meiner Untersuchung teilnehmen, bekomme ich also eine
effektive Stichprobe von -…
3000/120.6 = 24.87562189 ≈ 24 -> es gibt einen ziemlichen Informationsverlust durch die Klumpenstichprobe (angenommen meine Schätzung für die Unterschiede zwischen den Schulen ist realistisch).
- V: Welcher Designeffekt ergibt sich aus einer Intraklassenkorrelation von 0.4 und einer durchschnittlichen Klumpengröße von 20? Was bedeutet dieser Designeffekt? (gesuchte Zahl: 1+0.4*19=8.6)
𝐷𝑒𝑠𝑖𝑔𝑛𝑒𝑓𝑓𝑒𝑘𝑡 = 1 + 𝐼𝐶𝐶 ∗ (𝑛𝑐 − 1) = 1 + 0.4 ∗ (20 − 1) = 8.6
Es ergibt sich ein Designeffekt von 8.6. Dieser bedeutet, dass die Varianz des Schätzers (z.B. des Mittelwerts) in einer Klumpenstichprobe mit einer ICC von 0.4 und einer durchschnittlichen Klumpengröße von 20 8.6x so groß ist, wie in einer Zufallsstichprobe mit der gleichen Stichprobengröße. Das bedeutet auch, dass die Schätzung deutlich ungenauer ist und daher die Konfidenzintervalle deutlich breiter sind.
- Erklären Sie ad hoc-Stichprobe, theoretische Stichprobe und Quotenstichprobe. Welchen Nachteil bieten alle drei Verfahren? Was unterscheidet Quotenstichprobe von geschichteter Stichprobe?
Bei allen drei handelt es sich um nicht-probabilistische Techniken der Stichprobenziehung.
Bei der Ad-hoc-Stichprobe wird eine Gruppe gerade anfallender Personen als Stichprobe herangezogen
(z.B. Studierende im Hörsaal). Dies ist die schlechteste Möglichkeit einer Stichprobenauswahl.
Bei einer theoretischen Stichprobe sucht sich der Wissenschaftler nach der Vorgabe theoretischer
Überlegungen typische, relevante und/oder ungewöhnliche Fälle bewusst aus.
Bei der Quotenstichprobe werden prozentuelle Anteile für bestimmte Merkmalskategorien (und evtl. auch für Merkmalskombinationen) vorgegeben – die Auswahl innerhalb dieser Quoten bleibt dann dem/der Forschenden (und nicht dem Zufall!) überlassen.
Nachteil aller drei Verfahren ist, dass dabei keine repräsentativen Stichproben resultieren, da nicht nach
dem Zufall gesampelt wird. Nur probabilistische Techniken erlauben, Populationsparameter mit entsprechender Präzision zu schätzen.
Den Unterschied zwischen Schichten- und Quotenstichprobe macht der Zufall: Während bei ersterer zufällig innerhalb der Schichten ausgewählt wird, so ist dies bei zweiterer eine Auswahl des Forschenden.
- V: Für eine Einschätzung der Situation der Frau in Österreich möchten Sie drei männliche und drei weibliche ExpertInnen aus der Fakultät ihres Studiums befragen. Chakterisieren Sie die Art der Stichprobe. (Hinweis: Es könnte mehr als ein Begriff anwendbar sein.) Was sind die Nachteile dieses Designs?
Es scheint sich um eine theoretische (da gezielt Experten gesucht werden) und Quotenstichprobe (da
explizit 3 Frauen und 3 Männer gesucht werden. Es handelt sich auf jeden Fall um eine nichtprobabilistische
Stichprobenziehung, was den Nachteil mit sich bringt, dass wir keine repräsentative Stichprobe erhalten.
- Was kann man tun, um Rücklaufquote zu erhöhen? Welche Probleme stellen sich bei geringem Rücklauf?
- Je homogener eine Population, desto besser ist der Rücklauf (>60% ist sehr gut - üblicherweise zwischen 10%-90%)
- Postalische Befragungen weisen eher geringe Rücklaufquoten auf, Befragungen die von einer Autorität kommen (z.B. Betriebsrat, Universitäten) führen zu höheren Rücklaufquoten.
- Kleine ‚Incentives‘ verbessern den Rücklauf!
- Interessante Fragestellungen -> höhere Rücklaufquote
- Wichtig ist Formulierung der Fragen (Keine Tipp- oder Rechtschreibfehler!) und Layout.
- Evtl. Erinnerungsschreiben nach Ablauf der Rücksendefrist.
Eine geringe Rücklaufquote ist dann problematisch, wenn angenommen werden kann, dass sich Personen die antworten, von solchen die nicht antworten, systematisch unterscheiden.
- Welche beiden Arten von non-response kennen Sie?
- Unit non-response: Eine statistische Einheit (z.B. Person, Unternehmen…) gibt überhaupt keine Antworten bzw. nimmt an Untersuchung nicht teil.
- Item non-response: Hier fehlen einzelne Antworten = Items wurden nicht beantwortet; „missing values“
- Welche Probleme kann man sich durch fehlende Werte einhandeln?
Durch Non-Response-Bias sind Ergebnisse systematisch verzerrt, weil sich die Personen mit fehlenden
Antworten systematisch von denen unterscheiden, die geantwortet haben. Das bezieht sich sowohl auf
unit- als auch auf item non-response. Man hat weniger statistische Information (Verlust an Stichprobengröße).
- Welche Ursachen für unit non-response kennen Sie?
- haben kein Vertrauen (z.B. Datenschutz)
- sind nicht interessiert („Zeitverschwendung“)
- lehnen die Fragen oder die Erhebung ab
- haben keine Zeit
- senden nicht zurück oder scheitern daran
- sind verhindert (z.B. krank, auf Ferien)
- Welche Ursachen für item non-response kennen Sie?
- übersehen eine Frage oder vergessen darauf
- sind nicht oder nicht mehr interessiert
- lehnen die Frage ab oder sind verärgert
- wollen die Information nicht preisgeben (sensitive Information)
- schämen sich zu antworten
- kennen die Antwort nicht
- verstehen die Frage nicht
- haben keine passende Antwort (z.B. Fleischpräferenzen bei Vegetariern)
- Beispiele für non-response bias.
- Haushalte mit sehr hohen oder niedrigen Einkommen weniger zur Teilnahme an Erhebungen bereit. Folge: extreme Haushalte unterrepräsentiert
- Traditionelle Männer könnten bei Befragung über Genderrollen teilnehmen wollen. Folge: Traditionalismen in den Resultaten zu wenig sichtbar
- Online-Fragebögen: ältere Personen unterrepräsentiert
- Wie lässt sich non-response in Hinblick auf seine Zufälligkeit charakterisieren? Welche Probleme sind jeweils damit verbunden?
- Werte können missing completely at random (MCAR) sein. Dabei ist der Ausfall unabhängig von der Ausprägung des erfragten Merkmals oder anderen Merkmalen der Person. Dabei entsteht kein bias durch die non-response, nur ein unsystematischer Fehler.
- Werte können missing at random (MAR) sein. Dabei ist der Ausfall unabhängig von der Ausprägung des erfragten Merkmals, aber abhängig von der Ausprägung anderer bekannter Merkmale der Person. Hier entsteht ebenfalls kein bias, solange die entsprechenden (demographischen) Variablen kontrolliert werden.
- Der Ausfall kann unabhängig von der Ausprägung des erfragten Merkmals, aber abhängig von unbekannten Merkmalen sein. Dies wird oft nicht gesondert angeführt. Hier ist der bias schwer abzuschätzen, wenn die Stichprobe nicht repräsentativ bezüglich der unbekannten Einflussgrößen ist.
- Die Werte können not missing at random sein. Dabei ist der Ausfall direkt abhängig vom Wert der erfragten Variablen. Dadurch entsteht der schlimmste bias, nämlich eine Verzerrung der vorhandenen Antworten welche kaum kontrollierbar ist.
-> Am besten geht man damit mithilfe einer sogenannten non-responder analysis um.
D.h. wir können unterscheiden zwischen „qualitätsneutralen“ Ausfällen und „non-ignorable biases“
- Wie kann man mit non-response umgehen? Welche Nachteile sind jeweils damit verbunden?
- Am besten versucht man, non-response von vornherein so gut wie möglich zu vermeiden (durch Freundlichkeit, schriftliche Ankündigungen, sorgfältige Fragenformulierungen, wiederholte Kontaktversuche, Erinnerungsschreiben, Incentives etc.).
- Das Problem kann auch ignoriert werden (SPSS default!). Man reduziert sich also auf die vollständigen Fälle in den beteiligten Variablen. Dadurch kann ein bias entstehen.
- Durch unit non-response unterrepräsentative Gruppen können aufgewichtet werden (z.B. gibt es nur 30% Personen 60+ anstatt der angezielten 40% -> Gewicht 40/30 (andere Gruppen analog); für missing at random anwendbar; die p-Werte können dann über complex samples o.ä. berechnet werden).
- Bei der Imputation (für item non-response) werden fehlende Werte durch plausible ersetzt. Das Problem dabei ist, dass wir natürlich mit „erfundenen“ Daten weiterarbeiten. Es muss also abgewogen werden, ob man mit verzerrten oder erfundenen Daten leben will.
- Was ist Imputation? Welche Imputationstechniken kennen Sie?
Bei der Imputation (für item non-response) werden fehlende Werte durch plausible ersetzt. Das Problem dabei ist, dass wir natürlich mit „erfundenen“ Daten weiterarbeiten. Es muss also abgewogen werden, ob man mit verzerrten oder erfundenen Daten leben will. Einige Imputationstechniken wären:
- Deductive imputation: Dabei kann ein fehlender Wert logisch „verlässlich“ erschlossen werden (z.B. Alter 80+ -> Pension)
- Imputation des Gruppenmittelwerts: Dies verändert die Verteilung (zufällige Fehlerterme werden eingefügt)
- Imputation eines Zufallswerts oder einer bestimmten Verteilung entsprechend: Hier besteht die Gefahr der „Verwässerung“ der Verteilung bzw. der Zusammenhänge.
- Spendermodelle: Dabei wird ein fehlender Wert durch den einer ähnlichen Person ersetzt („hot deck“ = Werteliste von Personen mit gleichen Charakteristiken – wähle sukzessiv von dort; „nearest neighbor“)
- Regressionsmodelle können verwendet werden, um fehlende Werte aufgrund anderer Merkmale vorherzusagen. Um die Varianz zu erhalten, werden wieder zufällige Fehlerterme eingeführt.
- Bei der Multiplen Imputation werden mehrere Versionen des Datensatzes mit jeweils verschieden imputierten fehlenden Werten erzeugt. Am Ende wird dann die gewünschte Auswertung (z.B. Mittelwert, Korrelation) mit jedem der erzeugten Datensätze extra gerechnet.
- Worauf testet Little’s MCAR-Test?
Little’s MCAR-Test prüft, ob die fehlenden Werten missing completely at random sind, also dass es
keinen Zusammenhang zwischen einem Ausfall und der Ausprägung in irgendeinem Merkmal gibt. Ist
der Test signifikant, bedeutet das, dass die Werte nicht MCAR sind und nicht ignoriert werden sollten.