prov. Fragenkatalog 121 - 140 Flashcards

1
Q
  1. V: Berechnen Sie die Intraklassenkorrelation bezüglich Einkommen geclustert nach Firma anhand des folgenden Mehrebenenanalysenoutputs.
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
  1. V: Versuchen Sie ein realistisches Beispiel für eine Erhebung mittels Klumpenstichprobe anzugeben, und argumentieren Sie, welchen Designeffekt Sie in etwa erwarten würden. (Hinweis: Sie werden dafür eine Schätzung angeben müssen, wie groß die Intraklassenkorrelation in etwa sein könnte. Die Formel Designeffekt = 1 + Intraklassenkorrelation x (nc-1) müssen Sie – wie alle für den Fragenkatalog benötigten Formeln – für die Prüfung auswendig parat haben.)
A

Ich möchte die Depressivität bei österreichischen Schülern erfassen und wähle per Zufall 10 österreichische
Schulen mit je 300 Schülern aus. Innerhalb der Schulen (Cluster) werden alle Schüler in die
Untersuchung miteinbezogen. Da es unterschiedliche Schultypen in Österreich gibt, schätze ich jetzt
einmal, eine mittlere Intraklassenkorrelation vorzufinden (z.B. 0.4) -> d.h. es gibt sowohl zwischen, als
auch innerhalb der Schulen Unterschiede.
Mithilfe der Formel: 𝑫𝒆𝒔𝒊𝒈𝒏𝒆𝒇𝒇𝒆𝒌𝒕 = 𝟏 + 𝑰𝑪𝑪 × (𝒏𝒄 − 𝟏) komme ich bei ICC = 0.4 und nc
(Clustergröße) = 300 auf einen Designeffekt von 120.6.
Aus den insgesamt 3000 Schülern, die an meiner Untersuchung teilnehmen, bekomme ich also eine
effektive Stichprobe von -…
3000/120.6 = 24.87562189 ≈ 24 -> es gibt einen ziemlichen Informationsverlust durch die Klumpenstichprobe (angenommen meine Schätzung für die Unterschiede zwischen den Schulen ist realistisch).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. V: Welcher Designeffekt ergibt sich aus einer Intraklassenkorrelation von 0.4 und einer durchschnittlichen Klumpengröße von 20? Was bedeutet dieser Designeffekt? (gesuchte Zahl: 1+0.4*19=8.6)
A

𝐷𝑒𝑠𝑖𝑔𝑛𝑒𝑓𝑓𝑒𝑘𝑡 = 1 + 𝐼𝐶𝐶 ∗ (𝑛𝑐 − 1) = 1 + 0.4 ∗ (20 − 1) = 8.6
Es ergibt sich ein Designeffekt von 8.6. Dieser bedeutet, dass die Varianz des Schätzers (z.B. des Mittelwerts) in einer Klumpenstichprobe mit einer ICC von 0.4 und einer durchschnittlichen Klumpengröße von 20 8.6x so groß ist, wie in einer Zufallsstichprobe mit der gleichen Stichprobengröße. Das bedeutet auch, dass die Schätzung deutlich ungenauer ist und daher die Konfidenzintervalle deutlich breiter sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Erklären Sie ad hoc-Stichprobe, theoretische Stichprobe und Quotenstichprobe. Welchen Nachteil bieten alle drei Verfahren? Was unterscheidet Quotenstichprobe von geschichteter Stichprobe?
A

Bei allen drei handelt es sich um nicht-probabilistische Techniken der Stichprobenziehung.
Bei der Ad-hoc-Stichprobe wird eine Gruppe gerade anfallender Personen als Stichprobe herangezogen
(z.B. Studierende im Hörsaal). Dies ist die schlechteste Möglichkeit einer Stichprobenauswahl.
Bei einer theoretischen Stichprobe sucht sich der Wissenschaftler nach der Vorgabe theoretischer
Überlegungen typische, relevante und/oder ungewöhnliche Fälle bewusst aus.
Bei der Quotenstichprobe werden prozentuelle Anteile für bestimmte Merkmalskategorien (und evtl. auch für Merkmalskombinationen) vorgegeben – die Auswahl innerhalb dieser Quoten bleibt dann dem/der Forschenden (und nicht dem Zufall!) überlassen.
Nachteil aller drei Verfahren ist, dass dabei keine repräsentativen Stichproben resultieren, da nicht nach
dem Zufall gesampelt wird. Nur probabilistische Techniken erlauben, Populationsparameter mit entsprechender Präzision zu schätzen.
Den Unterschied zwischen Schichten- und Quotenstichprobe macht der Zufall: Während bei ersterer zufällig innerhalb der Schichten ausgewählt wird, so ist dies bei zweiterer eine Auswahl des Forschenden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. V: Für eine Einschätzung der Situation der Frau in Österreich möchten Sie drei männliche und drei weibliche ExpertInnen aus der Fakultät ihres Studiums befragen. Chakterisieren Sie die Art der Stichprobe. (Hinweis: Es könnte mehr als ein Begriff anwendbar sein.) Was sind die Nachteile dieses Designs?
A

Es scheint sich um eine theoretische (da gezielt Experten gesucht werden) und Quotenstichprobe (da
explizit 3 Frauen und 3 Männer gesucht werden. Es handelt sich auf jeden Fall um eine nichtprobabilistische
Stichprobenziehung, was den Nachteil mit sich bringt, dass wir keine repräsentative Stichprobe erhalten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. Was kann man tun, um Rücklaufquote zu erhöhen? Welche Probleme stellen sich bei geringem Rücklauf?
A
  • Je homogener eine Population, desto besser ist der Rücklauf (>60% ist sehr gut - üblicherweise zwischen 10%-90%)
  • Postalische Befragungen weisen eher geringe Rücklaufquoten auf, Befragungen die von einer Autorität kommen (z.B. Betriebsrat, Universitäten) führen zu höheren Rücklaufquoten.
  • Kleine ‚Incentives‘ verbessern den Rücklauf!
  • Interessante Fragestellungen -> höhere Rücklaufquote
  • Wichtig ist Formulierung der Fragen (Keine Tipp- oder Rechtschreibfehler!) und Layout.
  • Evtl. Erinnerungsschreiben nach Ablauf der Rücksendefrist.

Eine geringe Rücklaufquote ist dann problematisch, wenn angenommen werden kann, dass sich Personen die antworten, von solchen die nicht antworten, systematisch unterscheiden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  1. Welche beiden Arten von non-response kennen Sie?
A
  • Unit non-response: Eine statistische Einheit (z.B. Person, Unternehmen…) gibt überhaupt keine Antworten bzw. nimmt an Untersuchung nicht teil.
  • Item non-response: Hier fehlen einzelne Antworten = Items wurden nicht beantwortet; „missing values“
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q
  1. Welche Probleme kann man sich durch fehlende Werte einhandeln?
A

Durch Non-Response-Bias sind Ergebnisse systematisch verzerrt, weil sich die Personen mit fehlenden
Antworten systematisch von denen unterscheiden, die geantwortet haben. Das bezieht sich sowohl auf
unit- als auch auf item non-response. Man hat weniger statistische Information (Verlust an Stichprobengröße).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
  1. Welche Ursachen für unit non-response kennen Sie?
A
  • haben kein Vertrauen (z.B. Datenschutz)
  • sind nicht interessiert („Zeitverschwendung“)
  • lehnen die Fragen oder die Erhebung ab
  • haben keine Zeit
  • senden nicht zurück oder scheitern daran
  • sind verhindert (z.B. krank, auf Ferien)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. Welche Ursachen für item non-response kennen Sie?
A
  • übersehen eine Frage oder vergessen darauf
  • sind nicht oder nicht mehr interessiert
  • lehnen die Frage ab oder sind verärgert
  • wollen die Information nicht preisgeben (sensitive Information)
  • schämen sich zu antworten
  • kennen die Antwort nicht
  • verstehen die Frage nicht
  • haben keine passende Antwort (z.B. Fleischpräferenzen bei Vegetariern)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  1. Beispiele für non-response bias.
A
  • Haushalte mit sehr hohen oder niedrigen Einkommen weniger zur Teilnahme an Erhebungen bereit. Folge: extreme Haushalte unterrepräsentiert
  • Traditionelle Männer könnten bei Befragung über Genderrollen teilnehmen wollen. Folge: Traditionalismen in den Resultaten zu wenig sichtbar
  • Online-Fragebögen: ältere Personen unterrepräsentiert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q
  1. Wie lässt sich non-response in Hinblick auf seine Zufälligkeit charakterisieren? Welche Probleme sind jeweils damit verbunden?
A
  • Werte können missing completely at random (MCAR) sein. Dabei ist der Ausfall unabhängig von der Ausprägung des erfragten Merkmals oder anderen Merkmalen der Person. Dabei entsteht kein bias durch die non-response, nur ein unsystematischer Fehler.
  • Werte können missing at random (MAR) sein. Dabei ist der Ausfall unabhängig von der Ausprägung des erfragten Merkmals, aber abhängig von der Ausprägung anderer bekannter Merkmale der Person. Hier entsteht ebenfalls kein bias, solange die entsprechenden (demographischen) Variablen kontrolliert werden.
  • Der Ausfall kann unabhängig von der Ausprägung des erfragten Merkmals, aber abhängig von unbekannten Merkmalen sein. Dies wird oft nicht gesondert angeführt. Hier ist der bias schwer abzuschätzen, wenn die Stichprobe nicht repräsentativ bezüglich der unbekannten Einflussgrößen ist.
  • Die Werte können not missing at random sein. Dabei ist der Ausfall direkt abhängig vom Wert der erfragten Variablen. Dadurch entsteht der schlimmste bias, nämlich eine Verzerrung der vorhandenen Antworten welche kaum kontrollierbar ist.

-> Am besten geht man damit mithilfe einer sogenannten non-responder analysis um.

D.h. wir können unterscheiden zwischen „qualitätsneutralen“ Ausfällen und „non-ignorable biases“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q
  1. Wie kann man mit non-response umgehen? Welche Nachteile sind jeweils damit verbunden?
A
  • Am besten versucht man, non-response von vornherein so gut wie möglich zu vermeiden (durch Freundlichkeit, schriftliche Ankündigungen, sorgfältige Fragenformulierungen, wiederholte Kontaktversuche, Erinnerungsschreiben, Incentives etc.).
  • Das Problem kann auch ignoriert werden (SPSS default!). Man reduziert sich also auf die vollständigen Fälle in den beteiligten Variablen. Dadurch kann ein bias entstehen.
  • Durch unit non-response unterrepräsentative Gruppen können aufgewichtet werden (z.B. gibt es nur 30% Personen 60+ anstatt der angezielten 40% -> Gewicht 40/30 (andere Gruppen analog); für missing at random anwendbar; die p-Werte können dann über complex samples o.ä. berechnet werden).
  • Bei der Imputation (für item non-response) werden fehlende Werte durch plausible ersetzt. Das Problem dabei ist, dass wir natürlich mit „erfundenen“ Daten weiterarbeiten. Es muss also abgewogen werden, ob man mit verzerrten oder erfundenen Daten leben will.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
  1. Was ist Imputation? Welche Imputationstechniken kennen Sie?
A

Bei der Imputation (für item non-response) werden fehlende Werte durch plausible ersetzt. Das Problem dabei ist, dass wir natürlich mit „erfundenen“ Daten weiterarbeiten. Es muss also abgewogen werden, ob man mit verzerrten oder erfundenen Daten leben will. Einige Imputationstechniken wären:

  • Deductive imputation: Dabei kann ein fehlender Wert logisch „verlässlich“ erschlossen werden (z.B. Alter 80+ -> Pension)
  • Imputation des Gruppenmittelwerts: Dies verändert die Verteilung (zufällige Fehlerterme werden eingefügt)
  • Imputation eines Zufallswerts oder einer bestimmten Verteilung entsprechend: Hier besteht die Gefahr der „Verwässerung“ der Verteilung bzw. der Zusammenhänge.
  • Spendermodelle: Dabei wird ein fehlender Wert durch den einer ähnlichen Person ersetzt („hot deck“ = Werteliste von Personen mit gleichen Charakteristiken – wähle sukzessiv von dort; „nearest neighbor“)
  • Regressionsmodelle können verwendet werden, um fehlende Werte aufgrund anderer Merkmale vorherzusagen. Um die Varianz zu erhalten, werden wieder zufällige Fehlerterme eingeführt.
  • Bei der Multiplen Imputation werden mehrere Versionen des Datensatzes mit jeweils verschieden imputierten fehlenden Werten erzeugt. Am Ende wird dann die gewünschte Auswertung (z.B. Mittelwert, Korrelation) mit jedem der erzeugten Datensätze extra gerechnet.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
  1. Worauf testet Little’s MCAR-Test?
A

Little’s MCAR-Test prüft, ob die fehlenden Werten missing completely at random sind, also dass es
keinen Zusammenhang zwischen einem Ausfall und der Ausprägung in irgendeinem Merkmal gibt. Ist
der Test signifikant, bedeutet das, dass die Werte nicht MCAR sind und nicht ignoriert werden sollten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q
  1. Was geschieht bei multipler Imputation?
A

Die multiple Imputation erzeugt mehrere Versionen des Datensatzes mit jeweils verschieden imputierten fehlenden Werten. Die gewünschte Auswertung (z.B. Mittelwert, Korrelation) sollte dann mit jedem der erzeugten Datensätze extra gerechnet werden. Am Ende bekommt man dann eine
Ziehung aus der (a posteriori-)Verteilung der gesuchten Kenngröße.

17
Q
  1. Welche Probleme stellen sich allgemein bei der Imputation von Daten?
A

Ein zentrales Problem ist einmal, dass wir dadurch fiktive Daten erhalten.
Die Ermittlung der korrekten p-values ist äußerst schwierig, da in den Daten weniger unabhängige statistische Information ist, als der Computer glaubt.
Während univariate Verteilungen sich normalerweise noch gut annähern lassen, können bivariate
Verteilungen unbrauchbar sein, wenn die Variablen unabhängig voneinander komplettiert wurden
(z.B. Geschlecht imputiert nach Region, Bindung, Familienstand -> bei Verkreuzung mit Beruf sind
„katholische Priesterinnen“ möglich bzw. zu viele Fußballtrainerinnen oder Männer in Karenz).

18
Q
  1. Was ist data editing?
A

= Datenbereinigung bzw. „Korrektur“

  • -> Wichtigkeit von Plausibilitätschecks, „data editing“ und „data cleaning“ sind viel Aufwand in nationalen Erhebungen!
  • Teils händisch, teils maschinell
  • Auf Mikroebene = Stimmigkeit innerhalb einer Person und auf Makroebene = Plausibilität der globalen Verteilung (z.B.: kann es so viele oder so wenige Schulabbrecher geben?)
  • Bsp: Angaben von Löhnen unter Kollektivvertrag à möglich oder nicht?
19
Q
  1. V: Sie lesen eine Auswertung, in welcher über den Umgang mit fehlenden Werten nicht berichtet wird. Welche Fragen stellen sich? (Hinweis: ob es fehlende Werte gab, was wahrscheinlich ist, und welche Arten von Verzerrung dementsprechend stattgefunden haben könnten bzw. in welchem Ausmaß.)
A

Erstmal stellt sich natürlich die Frage, ob es in der Untersuchung fehlende Werte gegeben hat (dies ist
wahrscheinlich). Dann könnte man sich fragen, ob ganze statistische Einheiten (unit non-response; z.B. Personen) fehlen, oder „nur“ einzelne Werte pro Einheit (item non-response; z.B. Antworten auf vereinzelte Fragen).
Außerdem könnte man sich fragen, ob diese Werte missing completely at random, missing at random oder
not missing at random waren. Je nachdem kann mit systematischen Verzerrungen (NMAR, kann aber
auch bei MAR nicht ausgeschlossen werden, wenn die korrelierten Merkmale nicht erfasst wurden)
gerechnet werden oder nicht-systematischen (MCAR, MAR).
Zu guter Letzt stellt sich noch die Frage, wie mit den fehlenden Werten umgegangen wurde. Wurden
diese ignoriert? Wurden unterrepräsentierte Gruppen aufgewichtet? Wurde imputiert? Wenn imputiert
wurde, welche Imputationstechnik wurde konkret angewandt (z.B. deduktive Imputation, Imputation des
Gruppenmittelwerts etc.)?

20
Q
  1. V: Angenommen Männer wären weniger dazu bereit, in einem Fragebogen eine Frage zur Qualität ihrer Beziehung zu beantworten. Um welche Art von non-response handelt es sich dabei, welche Auswirkung könnte er haben, und was lässt sich dagegen tun?
A

Es handelt sich um eine item non-response (da die betreffenden Personen nur diese Frage nicht
beantworten), wobei die Werte missing at random sind (da der Ausfall nicht direkt abhängig von der
Beziehungsqualität der Person ist, jedoch von einem nicht direkt erfragtem Merkmal: dem Geschlecht
).
Solange die Variable Geschlecht kontrolliert wird, sollte es keine systematische Verzerrung geben –
jedoch fehlt natürlich die entsprechende Information und es kommt zu einem unsystematischen Fehler.
Es könnte versucht werden, auf die Wichtigkeit hinzuweisen, den Fragebogen vollständig auszufüllen
bzw. das Ausfüllen durch kleine incentives schmackhaft machen. Wenn die Daten dann schon fehlen,
könnte man die fehlenden Werte imputieren (z.B. Gruppenmittelwerts [der Männer], Regressionsmodelle
etc.), oder die Gruppe der Männer, die diese Frage dennoch beantworten, aufgewichten.

21
Q
  1. V: Angenommen Sie stellen fest, dass bei einer MitarbeiterInnenbefragung bevorzugt die sehr zufriedenen und die sehr unzufriedenen teilnehmen sowie jene, die noch nicht lange im Betrieb sind (die Dauer der Betriebszugehörigkeit wird erfragt). Um welche Arten von non-response handelt es sich dabei, welche Auswirkung könnten sie haben, und was lässt sich dagegen tun?
A

Wenn die Dauer der Betriebszugehörigkeit das erfragte Merkmal dieser Mitarbeiterbefragung ist, dann
handelt es sich bzgl. der sehr Zufriedenen und sehr Unzufriedenen um eine unit non response, wobei die
Werte missing at random sind (Zusammenhang mit dem Merkmal Zufriedenheit, aber nicht dem
zentralen Dauer der Betriebszugehörigkeit
). Dies führt lediglich zum Verlust statistischer Informationen
und lediglich zu einem unsystematischen Fehler. Man könnte dennoch dagegen die unterrepräsentierte
Gruppe der z.B. mäßig Zufriedenen in der Analyse aufgewichten.

22
Q
  1. Was ist eine non-responder-Analyse, und wozu dient sie?
A

Die non-responder Analyse untersucht, ob Antwortausfälle sich bei Fällen mit bestimmten Charakteristiken häufen und ob statistische Unterschiede zwischen Respondern und Non-Respondern bestehen. Sie kann im Datennetz selbst (z.B. setzt man eine Variable, die response anzeigt mit den anderen erhobenen Variablen in Beziehung, wobei natürlich auch nicht erhobene Variablen relevant sein könnten) oder über erneuten Kontakt zu Non-Respondern (mit reduziertem Fragenset) durchgeführt werden –
unter der Annahme, dass einige wenigstens dann antworten werden. Die Merkmale hartnäckig Verweigernder bleiben aber nach wie vor im Dunkeln.
Die Frage, ob sich Responder von Nicht-Respondern statistisch unterscheiden ist natürlich bezüglich
systematischer Verzerrungen relevant.

23
Q
  1. Was ist propensity score matching, und wozu dient es?
A

Der propensity score gibt die Wahrscheinlichkeit an, der Treatment- bzw. Kontrollgruppe anzugehören. Diese wird geschätzt aus diversen Kovariaten (meist demographische Variablen). Damit habe ich gleichsam die prä-experimentellen Unterschiede bzw. die Verzerrung bei der Zuordnung zu
den Gruppen modelliert (z.B. könnte es wahrscheinlicher sein, als Frau in die Stichprobe zu kommen).
Propensity scores reduzieren die diversen möglichen Verzerrungen auf eine Dimension: gewisse
Merkmale sind wahrscheinlicher in der Stichprobe als andere.
Beim propensity score matching wird der propensity score verwendet, um parallele Stichproben zu
generieren
(z.B. nearest neighbor: ich ordne einer Person in der Versuchsgruppe eine in der Kontrollgruppe zu, welche einen möglichst ähnlichen propensity score aufweist). Problematisch ist das, wenn ich keine geeigneten Paare finde. Das Ganze ist abhängig von der Wahl der Kovariaten und sollte mit einer Sensitivitätsanalyse verbunden werden.

24
Q
  1. Wie kann man propensity score matching auf das Problem fehlender Werte anwenden?
A

Der propensity score kann auch als Wahrscheinlichkeit, eine fehlende Antwort zu generieren berechnet werden (mit diversen Kovariaten als Prädiktoren). Wenn man den score dann in z.B. 5 Klassen kategorisiert, kann man die Auswertung basierend auf einer Stichprobe, welche nach diesen Klassen geschichtet (bzw. post-stratifiziert) ist, durchführen. Dies sollte Verzerrungen reduzieren, die durch
systematische Zusammenhänge zwischen non-response und Kovariaten enstehen.
Bei einem fehlenden Wert kann man sich auch einen Fall mit ähnlichem propensity score suchen und den Wert von dort verwenden (propensity score matching).