Deskriptive Statistik Flashcards
Wozu braucht man Statistik in den Sozialwissenschaften?
Exploration, Deskription, Evaluation, Überprüfung von Hypothesen und Theorien, Prognosen
Was ist ein Datensatz?
Gesamtheit aller Daten einer Stichprobe;
Beobachtungen werden Zahlen zugeordnet
Bsp.: Umfrage
Was ist eine Variable?
Codierung eines Merkmals: Zuordnung von empirischem und numerischem Relativ
enthalten die veränderlichen Ausprägungen eines Merkmals
Was ist ein Wertebereich?
Bereich von Zahlen, die eine Variable annehmen kann
Was ist eine Ausprägung und wie sollte sie statistisch sein?
Der Wert, den eine Variable für ein bestimmtes Merkmal annimmt.
Ausprägungen sollten sich wechselseitig ausschließen (exklusiv) und exhaustiv sein.
Welche Variablentypen gibt es?
Diskrete/ Kategoriale Variablen: haben endlich viele Ausprägungen z.B. Geschlecht, Parteizugehörigkeit
Kontinuierliche/ Metrische Variablen: haben theoretisch unendlich viele Ausprägungen z.B. Einkommen, Alter
Welche sind die vier Skalenniveaus?
für kategoriale Variablen:
Nominalskala (Staatsangehörigkeit)
Ordinalskala (Bildungsabschluss)
für metrische Variablen:
Intervallskala (Temperatur in Celsius, Jahreszahlen)
Ratioskala (Temperatur in Kelvin, Einkommen)
Was sind missing values?
Ein Merkmal für das bei einer Person keine Ausprägung vorliegt und die Codierung für diesen Fall.
Was kann die Nominalskala aussagen?
Ob zwei Ausprägungen gleich oder ungleich sind.
Was kann die Ordinalskala aussagen?
kann Ausprägungen in Hierarchie bringen, man darf aber keine mathematischen Operationen durchführen.
Was kann die Intervallskala aussagen?
kann Differenzen zwischen Ausprägungen berechnen, aber der Nullpunkt ist willkürlich definiert, deswegen kann man kein Verhältnis bilden
Was kann die Ratioskala aussagen?
es gibt einen sinnvoll definierten absoluten Nullpunkt, so kann man Differenzen und Verhältnisse bilden
Wie kann man Verteilungen von kategorialen Variablen beschreiben
relative Häufigkeiten: hk = fk / N
Welche graphischen Darstellungsmöglichkeiten gibt es für kategoriale Variablen?
Stabdiagramm, nur die Höhe der Balken ist entscheidend (Achtung, evlt. eine Achse abgeschnitten? –> verzerrtes Bild)
Kreisdiagramm (nicht zu empfehlen!)
Welche graphischen Darstellungsmöglichkeiten gibt es für metrische Variablen?
Histogramm: Fläche der Balken ist entscheidend
Kern-Dichte-Schätzer
Wie berechnet man die Häufigkeitsdichte?
relative Häufigkeit : Klassenbreite
Was besagt das Prinzip der Flächentreue?
Gesamtfläche bleibt bei feineren Unterteilungen
der Klassenbreiten konstant -> bezieht sich auf Histogramme
Was ist eine Verteilungsfunktion?
die Summe der beobachteten Häufigkeiten einer Variablen bis zu einem bestimmten Wert.
Aufsummieren der Häufigkeiten, sinnvoll ab ordinalskaliert, Achtung, muss sortiert sein!
Welche Lageparameter gibt es?
arithmetisches Mittel X_
Modus Xd
Median X ~
Was ist der Modus?
häufigster Wert in einer Verteilung, grundsätzlich für alle Skalenniveaus geeignet
Was ist der Median?
teilt Daten in zwei Hälften, müssen min. ordinalskaliert sein; Anordnung nach Größe -> Mitte, bei gerader Anzahl: arith. Mittel zwischen den zwei mittleren.
ist robust ggü. Ausreißern
Was ist das arithmetische Mittel/ der Mittelwert
x_: ganz normaler "Durchschnitt" erst am intervallskaliert sinnvoll entspricht Schwerpunkt der Verteilung empfindlich ggü. Ausreißern FORMEL!
Was ist das gewichtete arithmetische Mittel
wenn man Mittelwerte aus n Stichproben der gleichen Grundgesamtheit mit verschiedenen Stichprobenumfängen miteinander kombinieren will
FORMEL
Nenne drei andere Lageparameter
geometrisches Mittel
harmonisches Mittel
Mid Range
Wovon hängt ab, wie gut ein Lageparameter die Datencharakterisiert?
Von den Streuungsmaßen
Was sind Streuungsmaße?
+ Beispiele
Maßzahlen, die die Strebreite von Werten einer Stichprobe bzw. einer Häufigkeitsverteilung beschreiben Beispiele: Varianz Standardabweichung Variationskoeffizient
vom Median: Quantilsabweichungen
Lagemaße, Streuungsmaße, Assoziationsmaße, was sind die Unterschiede?
Lagemaße ist sowas wie arith. Mittel, Median etc.
Streuungsmaß ist sowas wie Standardabweichung, Varianz
Assoziationsmaß ist wie zwei Verteilungen miteinander zusammenhängen
Worauf muss man bei allen Maßzahlen achten?
Auf die Skalierung der Variablen! Wann kann man welches Maß anwenden!
Was ist die Varianz?
gibt die Streuung an
bezieht sich auf arithmetisches Mittel
durchschnittliche quadrierte Abweichung
der einzelnen Werte vom arithmetischen Mittel
unhandlich, weil sich die Maßeinheit/ Dimension verändert und die Größe von den Einheiten abhängig ist
FORMEL
Was passiert wenn man folgendes rechnet: Summe der (einzelnen Werte - arith. Mittel)
es kommt 0 raus, deswegen quadriert man bei der Varianzberechnung
Was ist die Standardabweichnung?
Wurzel aus der Varianz
FORMEL
damit kann man Werte zweier Populationen vergleichen
Was ist der Varianzkoeffizient?
FORMEL
Normierung der Varianz am arith. Mittel
Ist die Standardabweichung größer als der Mittelwert bzw. der Erwartungswert, so ist der Variationskoeffizient größer 1.
wird in % ausgedrückt
Was sind Quantile?
Variablenwerte, innerhalb deren Grenzen eine bestimmte Anzahl der Werte liegt.
p-Quantil: der kleinste Wert xi, der p-% der verteilung abschneidet
FORMEL
Wie kann die Form einer Verteilung sein?
uni- oder bimodal
symmetrisch oder schief
spitz oder flach
spezielle Funktion wie Normalverteilung
Wie ist das Verhältnis der verschiedenen Lageparametern bei schiefen Verteilungen?
rechtsschief = linkssteil:
Mittel > Median > Modus
skewness = positiv
linksschief = rechtssteil:
Mittel < Median < Modus
skewness = negativ
symmetrisch:
Mittel = Median = Modus
skewness = 0 = Normalverteilung
z-Transformation
Standardisierung = transformiert Normalverteilung in Standardnormalverteilung
Abweichung vom Mittelwert ab Standardabweichung standardisieren
Welche Assoziationsmaße gibt es für bivariate Verteilungen zwischen kategorialen Variablen?
Kreuztabellen Cramérs V ordinale: Gamma Kendalls Tau-b
Welche Assoziationsmaße gibt es für bivariate Verteilungen zwischen metrischen Variablen?
Kovarianz
Korrelation
Wie interpretiert man eine Kreuztabelle?
Wenn die Zeilenprozente aufsummiert sind, muss man die Randverteilung in den Spalten beachten.
Wenn die Spaltenprozente aufsummiert sind, muss man die Randverteilung in den Zeilen beachten.
Abstrom/ outflow: wohin schwinden Personen
Zustrom/ inflow: woher rekrutieren Personen
Wie interpretiert man Cramérs V?
unabhängig vom Skalenniveau rangiert zwischen 0 und 1 0 = kein Zusammenhang 1 = perfekter Zusammenhang basiert auf Chi-Quadrat
Wie interpretiert man Gamma?
min. Ordinalskala
rangiert zwischen -1 und 1
-1 = negativer Zusammenhang
1 = positiver Zusammenhang
basiert auf der Logik des Paarvergleichs
vergleicht nur konkordante mit diskordanten Paaren
==> überschätzt tendenziell den Zusammenhang
Was sind konkordante, diskordante und verbundene Paare (Ties) in der Logik des Paarvergleichs?
x1 > x2 und y1 > y2 ==> C
x1 > x2 und y<1 < y2 ==> D
Wie interpretiert man Kendalls Tau-b?
wie Gamma, aber führt zu kleineren Werten, weil es die Ties (verbundenen Paare) berücksichtigt
Bei bivariaten Verteilungen: welches Assoziationsmaß darf man interpretieren?
Das, was für die niedriger skalierte Variable zulässig ist.
Was ist die Kovarianz?
Assoziationsmaß für bivariate Verteilungen mit metrischen Variablen
das durchschnittliche Produkt der korrelierenden Abweichungen
cov = 0, wenn kein Zusammenhang vorliegt
cov = negativ ==> je mehr, desto weniger UND UMGEKEHRT
cov = positiv ==> je mehr, desto mehr UND UMGEKEHRT
Problem: ist maßstabsabhängig und normalisiert an n
Was ist die Korrelation?
Assoziationsmaß für bivariate Verteilungen mit metrischen Variablen
Standardisierung der Kovarianz an der Streuung der Merkmale
maßstabunabhängig! yeeaah!
rangiert zwischen -1 und 1
Korrelation entspricht der Kovarianz der
z-standardisierten Variablen
Welche Grundbedingungen der Kausalität sollten überprüft werden, bevor man diese annimmt?
zeitlicher Zusammenhang
plausible Theorie
Drittvariablen ausgeschlossen
Alternativerklärungen ausgeschlossen