4. Daten / Auswahlverfahren Flashcards
Datenursprung
Sollen eigene Daten erhoben werden?
- Primärdatenanalyse:
selbst erhobene Daten
+ Hohe Qualität und gesicherte Verwendbarkeit
- sehr aufwendig (= teuer) - Sekundärdatenanalyse:
Analyse verfügbarer Daten von anderen
+ viele Daten verfügbar; auch historisch (Zeitreihen)
- Daten passen nicht immer zum Vorhaben
Wichtige Grundbegriffe:
Merkmal
Eigenschaft welche erhoben wird
Bei Person z.B. Alter, Einkommen, Geschlecht etc.
Wichtige Grundbegriffe:
statistische Einheit
Träger der Informationen welche gemessen werden (Personen, Institutionen, Parteien, Staaten); auch Merkmalsträger genannt
Wichtige Grundbegriffe:
statistische Masse
wird durch die Gesamtheit der möglichen statistischen Einheiten gebildet
Wichtige Grundbegriffe:
Merkmalsausprägung
mögliche Werte, welche ein Merkmal annehmen kann
Wichtige Grundbegriffe:
Merkmalswert
Merkmalsausprägungen bei einem Merkmalsträger
Wichtige Grundbegriffe:
Variable
veränderliches Merkmal, bei dem ein Merkmalsträger mindestens zwei Merkmalsausprägungen annehmen kann (nicht gleichzeitig sondern alternativ)
Wichtige Grundbegriffe:
Grundgesamtheit
Gesamtheit aller Merkmalsträger (Fälle); auch Population genannt
Wichtige Grundbegriffe:
Totalerhebung
Erhebung aller Fälle der Grundgesamtheit
Wichtige Grundbegriffe:
Stichprobe
gezogene Teilmenge der Grundgesamtheit
Skalen
- Nominalskala
- Ordinalskala (auch Rangskala)
Metrische Skalen:
- Intervallskala
- Ratioskala (Verhältnisskala)
Nominalskala
- mögliche Merkmale bilden keine natürliche Rangfolge
- Übereinstimmung kann bestätigt oder verneint werden
- Häufigkeiten können gezählt werden (Bestimmung Modus möglich)
- Beispiel: Herkunft (Bundesland)
- Sonderfall: Dichotome Skalen (2 mögliche Werte - ja/nein)
Ordinalskala
- mögliche Merkmale bilden natürliche Rangfolge
- Größer-als Aussage möglich, Median kann berechnet werden (+ Berechnungen bei Nominalskala)
- kein arithmetischer Mittelwert möglich
- Beispiel: Political Rights Index
Intervallskala
- Merkmale in natürlicher Rangfolge, Abstand zwischen Merkmalen interpretierbar
- Zusätzliche Maße möglich (arithmetischer Mittelwert, Standardabweichung)
- Beispiel: Inflationsrate
Klassifikation/Typologie
Die Gegenstandsbenennung kann durch eine Klassifikation oder Typologie erfolgen.
Diese muss jedem Fall (Objekt) einen Wert zuweisen (Eindeutigkeit) und dabei darf jeweils nur eine Ausprägung zutreffend sein (Ausschließlichkeit).
Auch müssen alle Merkmalsausprägungen empirisch feststellbar sein (in einem Objekt vorkommen - Vollständigkeit)
Hierbei werden eine Vielzahl von Merkmalen zu einer numerischen Klassifikation oder einer Menge von Typen zusammengefasst.
Problem: Anforderungen an Kriterien häufig nur bedingt zutreffend.
Ratioskala
- Merkmale in natürlicher Rangfolge, Abstand zwischen Merkmalen interpretierbar, zusätzlich existiert ein absoluter Nullpunkt
- Multiplikation und Division aussagekräftig (SPD hat doppelt so viele Sitze wie die Linke)
- Beispiel: Anzahl Parlamentssitze, Alter
Operationalisierung (Atteslander)
Um Hypothesen testen zu können muss zuerst Operationalisiert werden
d.h. zuerst Gegenstandsbenennung:
“Bei der Gegenstandsbenennung gehen wir explizit oder implizit von Modellen aus.
Modelle sind Abbildungen von Gegenständen und Vorgängen.
Um diese theoretischen Abbildungen zu erhalten, müssen wir uns ein Bild der Gegenstände und Vorgänge machen.
Dieses entsteht in unseren Gedanken und hat mit “Begriffen” und “Erkenntnis” zu tun.”
(Atteslander)
Aussagekraft einer Hypothese
Die Aussagekraft einer Hypothese ist wesentlich abhängig von der Begriffsbildung.
Begriffsbildung = Zuweisung bestimmter Merkmale an ein theoretisches Konstrukt
-> Merkmale operationalisieren, d.h. festlegen wie sie gemessen werden
Ohne sauber definierte Begriffe sowie adäquater Operationalisierung ist Hypothese (mehr oder weniger offensichtlich) nicht überprüfbar.
Beispiel für Operationalisierung
Die zu beobachtenden Ausschnitte aus der sozialen Wirklichkeit müssen exakt definiert werden.
These: Es existiert ein Zusammenhang zwischen sozio-ökonomischer Situation und Lebenserwartung
Nicht gut: Die Lebenserwartung von armen Personen ist geringer als die von reichen Personen (Wer ist arm?)
Besser: Die Lebenserwartung von Angehörigen niedriger Einkommensschichten ist geringer als die von Angehörigen in anderen Einkommensschichten.
Begriff: sozio-ökonomische Situation
Variable: finanzielle Situation
Indikator: Arbeitseinkommen (Kategorisiert nach Einkommensschicht)
-> nicht Bildungsniveau, Familiensituation o.ä.
Indikatoren und Indizes
Indikatoren: Messen eines Merkmals anhand von einem Wert
Indizes: Zusammensetzung von mehreren Merkmalen zu einem Wert
Problem: Wird wirklich das gemessen was gemeint ist?
Achtung: Der Begriff Indikator kann auch andere Bedeutungen haben (z.B. Entwicklungsindikator: Wirtschaftsentwicklung)
Fragmentierung
kann anhand des ENPP (Effective Number of Parliamentary Parties) operationalisiert werden (pi = Anteil der Mandate)
Np = 1 / sum(pi^2)
Index ist im Vergleich aussagekräftig
Ausblick: Dimensionen von Theorien
Problem: Oft können theoretische Konstrukte nicht durch eine Variable operationalisiert werden.
Eine Theorie bewegt sich über mehrere Dimensionen, welche aber auf das gleiche Konstrukt hinwirken.
In diesem Fall können einzelne Indikatoren aus den jeweiligen Dimensionen den Index bilden.
Beispiel: Wohlstand
Datenerhebung: Erhebungsinstrumente und Fallauswahl
Bei der Entwicklung der Erhebungsinstrumente (wie z.B. standardisierte Befragung) und auch bei der Fallauswahl sind Qualitätskriterien zu beachten.
Je nach angewandter Methodik: Unterschiedliche Erfordernisse bezüglich der Fallauswahl
Viele statistische Verfahren erfordern Zufallsstichproben, damit die dem Verfahren zugrunde liegenden Annahmen erfüllt werden. Daher ist es in einem ersten Schritt sehr wichtig zu klären, wie die Fallauswahl erfolgen soll.
Stichprobenziehung
Einfache Stichprobe
Mehrstufige Stichprobe
Klumpenstichprobe
geschichtete Stichprobenziehung
Stichprobenziehung:
Einfache Stichprobe
Aus einer bekannten Grundgesamtheit wird eine Stichprobe nach reinem Zufallsprinzip gezogen.
Stichprobenziehung:
Mehrstufige Stichprobe
Ermittlung der Stichprobe über Gruppen.
Beispiel: Auswahl eines beliebigen Einwohners für Stichprobe:
1. Stufe (Gemeinde) ⇒ 2. Stufe (Haushalt) ⇒ 3. Stufe (Person)
Stichprobenziehung:
Klumpenstichprobe
Ermittlung der Stichprobe über Gruppen, dabei werden alle Personen einer bestimmten Gruppe erfasst.
Beispiel: Auswahl eines beliebigen Einwohners für Stichprobe:
1. Stufe (Gemeinde) ⇒ 2. Stufe (Haushalt – alle Personen des Haushalts gehen in Stichprobe ein)
Geschichtete Stichprobenziehung
Unterteilung der Grundgesamtheit nach relevanten Schichtungsmerkmalen.
Beispiele:
* Eurobarometer: Gruppierung nach EU-Staaten
* ALLBUS: Gruppierung nach Ost- und Westdeutschland
* Studienwahlmotivation: Gruppierung nach Studiengang
Unterschiedliche Berücksichtigung von Gruppen muss bei der Gesamtauswertung durch Gewichtung der Fälle beachtet werden
Stichprobengröße
Genauigkeit der Ergebnisse ist von der Anzahl der erfassten Fälle abhängig (je mehr, desto besser).
Abwägung: Kosten vs. Genauigkeit (Üblich: mind. 1000 Fälle bei Bevölkerungsumfragen)
-> Es gilt aber allgemein: Es gibt keine exakte Abbildung, daher müssen wir uns auch Gedanken über die Genauigkeit der Schlüsse aus der Stichprobe für die Grundgesamtheit machen.
ABER: Häufig erfolgt in Studien keine zufallsgesteuerte Auswahl. Daher müssen Sie immer prüfen, wie die Fallauswahl erfolgt ist!