Sitzung 4: Auswahlverfahren Flashcards

1
Q

Grundgesamtheit

A

Die Menge der Objekte, über die in einer Untersuchung eine Aussage getroffen werden soll

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Unterscheidung zwischen Objekt- bzw. elementorientierten Grundgesamtheiten (= …………….) und statistischen bzw. …………… Grundgesamtheiten (= Datenwerte)

A

Merkmalsträger
Datenorientierten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Häug ist aus forschungspraktischen Gründen keine Vollerhebung der Objekte der intendierten Grundgesamtheit möglich.
→ Teilerhebung = ……………

A

Stichprobe (sample)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist das Ziel einer Stichprobe?

A

Die Grundgesamtheit verallgemeinern

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

A) Vollerhebung
B) Einzelfallstudie

A

A) Alle Objekte aus der Grundgesamtheit werden erhoben
B) Nur ein Einzelfall aus der Grundgesamtheit wird erhoben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist die Auswahlgesamtheit?

A

Menge der Elemente aus denen die Stichprobe gezogen wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Grundsätzlich sollte jedes Element der Grundgesamtheit eine Chance haben in der Stichproben enthalten zu sein und gleichzeitig jedes Element der ………….. auch Teilmenge der Grundgesamtheit sein.

Oft weicht die …………. jedoch von der Grundgesamtheit ab.

A

Stichprobe
Auswahlgesamtheit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist Undercoverage?

A

Man erreicht bestimmte Personen aus der Auswahlgesamtheit nicht = es fehlen einige, die eigentlich befragt hätten werden sollen
Bsp.: Wahlumfrage per Festnetztelefon - Wahlberechtigte ohne Festnetzanschluss können nicht befragt werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist Overcoverage?

A

Bei der Stichprobe sind Menschen dabei, die eigentlich gar nicht in die Grundgesamtheit gehören
Bsp.: Wahlumfrage per Telefon - Nicht-Wahlberechtigter wird befragt → Lässt sich vergleichsweise einfach über Filterfragen lösen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Inferenzpopulation

A

Grundgesamtheit = alle Wahlberechtigte
Inferenzpopulation = alle Wahlberechtigte, die zur Antwort bereit sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Ziel der Untersuchung ist das ……………… von der Stichprobe auf die Grundgesamtheit.
Bei Zufallsstichproben gelangt man mittels schließender Statistik (Inferenzstatistik) von der …………… der Stichprobe (deskriptive Statistik) zur Deskription der ………………

A

Schließen
Deskription
Grundgesamtheit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Theoriebildung

A
  • induktiv
  • Theorie wird gebildet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Theorietest

A
  • deduktiv
  • Theorie vorhanden, man testet sie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist Repräsentativität?

A

Die Repräsentativität gibt an wie exakt eine Stichprobe die Merkmalsverteilung der Grundgesamtheit nachbildet, d.h. inwiefern sie ein verkleinertes Abbild der Grundgesamtheit in Bezug auf deren Merkmalsverteilung ist.
Man kann nie sagen ob/wie repräsentativ eine Stichprobe ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Standard Fehler

A

Beim Schließen von der Stichprobe auf die Grundgesamtheit macht man einen größeren Fehler, wenn man es mit einer unwahrscheinlichen Stichprobe zu tun hat.
Den durchschnittlichen Fehler, den man begeht, wenn man einen Parameter der Grundgesamtheit mittels einer Stichprobe schätzt, nennt man Standardfehler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wie kann der Standardfehler vermieden werden?

A

Mittels Schichtung (Stratizierung) kann der Zufallsfehler reduziert werden.
Man benötigt Vowissen über die Verteilung eines Schichtungskriteriums in der Grundgesamtheit (z.B. Alter, Geschlecht, Region bei Wahlanalysen) von welchem man einen Einuss auf die eigentlich interessierende Variable erwartet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was sind die vier Schritte in einer geschichteten Zufallsprobe?

A
  1. Auswahl des Schichtungskriteriums
  2. Aufteilen der Grundgesamtheit in sich ausschließende Teilmengen entsprechend des Schichtungskriteriums
  3. Getrenntes Ziehen einer Stichprobe aus den Teilmengen
  4. Zusammensetzen der Stichprobe
    Bei proportionaler Schichtung: einfach aufaddieren
    Bei disproportionaler Schichtung: Gewichtung mit Kehrwert der Auswahlwahrscheinlichkeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

A) proportionale Schichtung
B) disproportionale Schichtung

A

A) proportionale Schichtung: Teilmengen stehen im gleichen Verhältnis wie in der Grundgesamtheit
B) disproportionale Schichtung: Absichtlich mehr Fälle in einer Teilgesamtheit ziehen als es dem Anteil an der Grundgesamtheit entspräche (v.a. sinnvoll bei sehr kleinen und/oder heterogenen Teilmengen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Mehrstufige Zufallsstichprobe

A

Mehrstuge Auswahlverfahren bestehen aus einer Reihe nacheinander durchgeführter Zufallsstichproben, wobei die entstehende Zufallsstichprobe die Auswahlgrundlage der nächsten Zufallsstichprobe darstellt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Warum mehrstufige Zufallsstichproben?

A

→ Reduziert Kosten im Vergleich zu einer einfachen Zufallsauswahl, ist aber ungenauer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Ablauf bei mehrstufigen Zufallsstichproben (Beispiel)

A
  1. zufällig 6 Bundesstaaten auswählen
  2. zufällig jeweils 5 Städte/counties auswählen
  3. in jeder Stadt/jedem county 100 zufällig ausgewählte Bürger befragen
  4. Ungewichtetes Zusammensetzen der einzelnen Stichproben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Random Route

A

Interviewer startet an zufällig ausgewähltem Startpunkt und arbeitet Begehungsvorschrift ab.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Standard Random

A

der Adressenermittler ist zugleich Interviewer und führt direkt im Anschluss an die Adressenermittlung selbst dort die Befragung durch→ weniger Kontrolle, ob sich der Interviewer an die Begehungs/Auswahlvorschriften gehalten hat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

zufallsgenerierte Telefonnummern

A

Random Digit Dialing (RDD) Randomized Last Digit (RLD)

25
Q

Schwedenschlüssel

A

Der Schwedenschlüssel stellt sicher, dass jede in einem Haushalt lebende Person dieselbe Wahrscheinlichkeit besitzt ausgewählt zu werden.
Zunächst werden Zufallszahlenreihen gebildet, die den Interviewern gegeben werden. Eine solche könnte so aussehen:
6−9−3−5−4−2−1−7−8
Die Personen im Haushalt werden dann nach einem für alle Interviewer einheitlichen Kriterium geordnet. Etwa erst die Männer, dann die Frauen nach Alter absteigend.
Befragt wird diejenige Person deren Nummer als erstes in der Zufallsreihe steht: → hier also die dritte Person = C.

26
Q

Klumpenstichprobe

A
  • Die Klumpen-Auswahl (cluster-sample) ist ein Spezialfall der gestuften Stichprobe, bei dem die Grundgesamtheit zufällig in Klumpen (= natürliche Anhäufungen von Elementen) unterteilt wird
  • Die gezogenen Klumpen gehen dann komplett, d.h. mit all ihren Elementen in die Stichprobe ein
    noch wirtschaftlicher als gestufte Zufallsauswahl, aber auch ein noch größerer Zufallsfehler und Tendenz zur Homogenität (= Klumpeneekt)
27
Q

Beispiel Klumpenstichprobe

A

Einfache Zufallsauswahl aller Schüler in Deutschland wäre zu teuer/unmöglich, deshalb wählt man zufällig Schulen aus, in diesen Schulen zufällig einzelne Klassen und die Schüler dieser Klassen werden dann komplett befragt.

28
Q

Bias

A

Problem, wenn die Auswahlgesamtheit sich systematisch von der intendierten Grundgesamtheit unterscheidet
= systematische Verzerrungen der Ergebnisse

29
Q

A) Undercoverage bei Telefonumfragen (diejenigen Personen, die nicht im Telefonbuch stehen unterscheiden sich ……….. von denen die verzeichnet sind: junge Leute haben nur noch Handy, Obdachlose haben keinen Telefonanschluss, Reiche lassen ihre Telefonnummer häuger aus dem Telefonbuch streichen)
B) ………….. bei Onlineumfragen

A

A) systematisch
B) Undercoverage

30
Q

Vom Forscher nicht kontrollierbare Verzerrungen

A
  • Lückenhafte Datenlage bei Sekundärdaten-
  • Ausfälle (= Non-response) bei Befragungen, d.h. eine Person, die für die Bruttostichprobe ausgewählt wurde, fehlt in der realisierten Stichprobe (z.B. Antwort verweigert)
    → nur ein Problem, wenn es sich um verzerrende Ausfälle handelt, d.h. wenn der Grund für den Ausfall mit dem Untersuchungsgegenstand zusammenhängt (z.B. Befragungen zu den Einstellungen zur Homosexualität weltweit zeigen deutlich höhere keine Antwort-Quote in arabischen Ländern)
31
Q

Je geringer die ………….. ausfällt, desto weniger kann man von einer Zufallsstichprobe ausgehen und desto weniger können …………… Schlüsse gezogen werden.

A

Je geringer die Ausschöpfungsquote ausfällt, desto weniger kann man von einer Zufallsstichprobe ausgehen und desto weniger können inferenzstatistische Schlüsse gezogen werden.

32
Q

Ausschöpfungsquote

A

Diese Quote gibt an, wie gut Daten oder Stichproben die Gesamtheit der interessierenden Elemente repräsentieren. Die Ausschöpfungsquote ist besonders wichtig, wenn es darum geht, Schlussfolgerungen aus einer Stichprobe auf die gesamte Population zu ziehen.

33
Q

Was sind die 2 Arten von nicht vorhandenen Daten?

A
  • Totalausfall
  • fehlender Wert
34
Q

Totalausfall

A

(= unit nonresponse) Ein Element der intendierten Stichprobe, das gar nicht in realisierte Stichprobe gelangt

35
Q

Fehlender Wert

A

(= missing data, item-nonresponse) Ein Element gelangt zwar in die Stichprobe, aber einzelne Informationen fehlen (z.B. einzelne Frage wird nicht beantwortet)

36
Q

Gründe für Totalausfälle und Umgang damit

A
  • Nichterreichbarkeit (z.B. wenn man nur tagsüber an Werktagen befragt)
  • Verweigerung (Gründe können sein: unseriöses Auftreten der Interviewer, zu langer Fragebogen, Umfrage wird als irrelevant erachtet…)
37
Q

Möglichkeiten mit Totalausfällen umzugehen

A
  • Erneute Zufallsstichprobe(n) ziehen bis die ursprünglich intendierte Auswahlgesamtheit erreicht ist → systematischer Fehler wird fortgesetzt, aber Zufallsfehler reduziert sich
  • Gewichtung (unterrepräsentierte Gruppe bekommt ein höheres Gewicht)
38
Q

Wie kann man bei Totalausfällen neu Gewichten?

A
  • Design-Gewichte werden verwendet um durch das Forschungsdesign bewusst hervorgerufene Verzerrungen zu korrigieren (z.B. bei disproportionaler Schichtung) → unproblematisch
  • Redressment-Gewichte werden verwendet um die Verteilung eines Merkmals in der Stichprobe der in der Grundgesamtheit anzupassen (z.B. in Grundgesamtheit 50% Frauen, 50% Männer, in Stichprobe sind aber 100 Frauen und 200 Männer → Gewichtung mit 2:1)
39
Q

Was sind Gründe für fehlende Werte?

A
  • Bewusste fehlende Werte
  • Real fehlende Werte
  • Systematisch fehlende Werte
  • Zufällig fehlende Werte
40
Q

Wie kann man mit fehlenden Werten umgehen?

A

Imputation = Ersetzen des fehlenden Wertes durch reasonable guess

  • Ersetzen des fehlenden Datenwertes durch typischen Wert (Modus, Median, arithmetisches Mittel) → kann bei real oder systematisch fehlenden Werten zu Verzerrungen führen
  • Schätzen des fehlenden Datenwertes über Regressionsmodell

Grundsätzliches Problem dabei: man weiß nie genau welche Gründe dazu geführt haben, dass ein fehlender Wert vorliegt, deshalb sind auch alle Verfahren zum Ersetzen fehlender Werte immer auf Vermutungen aufgebaut.
→ Am besten ist es daher die Entstehung fehlender Werte von Beginn an zu vermeiden (z.B. durch gutes Fragebogendesign)

41
Q

Willkürliche Auswahl

A
  • kein systematisches Auswahldesign, sondern Fälle werden ausgewählt, die man am leichtesten erreicht (→ convenience samples)
    → keine Repräsentativität weshalb Inferenzschlüsse eigentlich unzulässig sind
  • z.B. Straßenumfragen (je nach Ort und Zeit systematisch verzerrt)
  • sich selbst generierende Stichproben (z.B. TED-Umfragen in Fernsehsendungen oder Online-Umfragen - wenn man sich selbst zu einer Umfrage anmeldet)
42
Q

………….. ist deutlich wichtiger als Umfang.

A

Repräsentativität

43
Q

Quotenstichprobe

A
  • Ziel der Quotenstichprobe ist eine gute Repräsentativität bei gleichzeitig günstiger Durchführbarkeit als eine Zufallsstichprobe
  • Verwendung von Vorwissen über die Zusammensetzung der Grundgesamtheit entsprechend bestimmter Variablen wird dazu benutzt einen Quotenplan aufzustellen, der dann abgearbeitet wird
  • Zum Beispiel Alter und Geschlecht als quotierende Merkmale
44
Q

Vorteile Quotenstichprobe

A
  • günstiger als Zufallsstichproben
  • häufige Anwendung in der Markt- und Meinungsforschung
45
Q

Nachteile Quotenstichprobe

A
  • keine echte Zufallsauswahl, daher Inferenzstatistik eigentlich nicht möglich
  • Verzerrung, da Interviewer eher Personen befragen, die häufig an ihrem Wohnsitz anzutreten sind und die kooperativ sind
  • große Anreize die Quote um jeden Preis zu erfüllen (dann wird aus einem Bauarbeiter schon mal ein selbständiger Bauunternehmer)
  • unit-nonresponse kann zu großen Verzerrungen führen, ohne dass dies bemerkbar wäre.
46
Q

Kriteriengeleitete Auswahl

A

Auswahl nach dem Konzentrationsprinzip
Typische Auswahl

47
Q

Schneeballverfahren

A
  • Zwischen willkürlicher und bewusster Auswahl anzusiedeln, da zwar die Startpersonen bewusst gewählt werden, von diesen ausgehend sich die Stichprobe jedoch selbst selektiert
  • Beispiel: Untersuchung zu parteiinternen Hierarchien. Man fragt z.B. ein Präsidiumsmitglied einer Partei welche 5 anderen Parteifreunde besonders wichtig sind. Diese fragt man dann dasselbe usw.
  • Möglichkeit zentrale Akteure in Netzwerken herauszufiltern
48
Q

Was ist ein random sample/Zufalls- oder Wahrscheinlichkeitsauswahl?

A

Eine Zufalls- oder Wahrscheinlichkeitsauswahl (random sample) liegt vor, wenn die Merkmalsträger der Stichprobe mittels Zufallsprozess aus der Grundgesamtheit ausgewählt werden (jedes Element hat genau berechenbare Chance in Stichprobe zu gelangen)

49
Q

In der Forschungspraxis kann bei kleinem ……….. (<5%) die einfacher zu berechnende Auswahl mit Zurücklegen verwendet werden → statistische Testverfahren gehen zumeist von Werten aus, die durch unabhängige Zufallsprozesse (= ……………..) generiert wurden

A

Auswahlsatz
Mit Zurücklegen

50
Q

A) Primärdaten
B) Sekundärdaten

A

A) Daten, die man selbst erhebt
B) Daten, die man von anderen benutzt

51
Q

A) Zufallsstichprobe
B) Einfache Zufallsstichprobe

A

A) jedes Element hat eine Wahrscheinlichkeit, ins sample zu kommen
B) jedes Element hat die gleiche Wahrscheinlichkeit, ins sample zu kommen

52
Q

Transitivität

A

Wenn eine Sache mit einer anderen Sache zusammenhängt, und die zweite Sache wiederum mit einer dritten Sache zusammenhängt, dann kann man davon ausgehen, dass auch die erste und die dritte Sache miteinander zu tun haben.

53
Q

PPS-Design

A

Art, zu Gewichten

54
Q

Mutterstichprobe

A

Zufallsauswahl von Telefonnummern aus allen Telefonbüchern DE

55
Q

Telefonstichprobe Deutschland

A

Mutterstichprobe + RLD Verfahren

56
Q

CATI

A

Computer assisted telephone interview

57
Q

PPS Design

A

Probability proportional to size
Mehrstufig!

58
Q

Disproportional geschichtete Zufallsstichprobe

A

Gewichtung mit Kehrwert der Auswahlwahrscheinlichkeit