Deskriptive Statistik Flashcards

1
Q

Wozu braucht man Statistik in den Sozialwissenschaften?

A

Exploration, Deskription, Evaluation, Überprüfung von Hypothesen und Theorien, Prognosen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist ein Datensatz?

A

Gesamtheit aller Daten einer Stichprobe;
Beobachtungen werden Zahlen zugeordnet
Bsp.: Umfrage

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist eine Variable?

A

Codierung eines Merkmals: Zuordnung von empirischem und numerischem Relativ
enthalten die veränderlichen Ausprägungen eines Merkmals

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist ein Wertebereich?

A

Bereich von Zahlen, die eine Variable annehmen kann

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist eine Ausprägung und wie sollte sie statistisch sein?

A

Der Wert, den eine Variable für ein bestimmtes Merkmal annimmt.
Ausprägungen sollten sich wechselseitig ausschließen (exklusiv) und exhaustiv sein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Variablentypen gibt es?

A

Diskrete/ Kategoriale Variablen: haben endlich viele Ausprägungen z.B. Geschlecht, Parteizugehörigkeit
Kontinuierliche/ Metrische Variablen: haben theoretisch unendlich viele Ausprägungen z.B. Einkommen, Alter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welche sind die vier Skalenniveaus?

A

für kategoriale Variablen:
Nominalskala (Staatsangehörigkeit)
Ordinalskala (Bildungsabschluss)
für metrische Variablen:
Intervallskala (Temperatur in Celsius, Jahreszahlen)
Ratioskala (Temperatur in Kelvin, Einkommen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind missing values?

A

Ein Merkmal für das bei einer Person keine Ausprägung vorliegt und die Codierung für diesen Fall.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was kann die Nominalskala aussagen?

A

Ob zwei Ausprägungen gleich oder ungleich sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was kann die Ordinalskala aussagen?

A

kann Ausprägungen in Hierarchie bringen, man darf aber keine mathematischen Operationen durchführen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was kann die Intervallskala aussagen?

A

kann Differenzen zwischen Ausprägungen berechnen, aber der Nullpunkt ist willkürlich definiert, deswegen kann man kein Verhältnis bilden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was kann die Ratioskala aussagen?

A

es gibt einen sinnvoll definierten absoluten Nullpunkt, so kann man Differenzen und Verhältnisse bilden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie kann man Verteilungen von kategorialen Variablen beschreiben

A

relative Häufigkeiten: hk = fk / N

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welche graphischen Darstellungsmöglichkeiten gibt es für kategoriale Variablen?

A

Stabdiagramm, nur die Höhe der Balken ist entscheidend (Achtung, evlt. eine Achse abgeschnitten? –> verzerrtes Bild)
Kreisdiagramm (nicht zu empfehlen!)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welche graphischen Darstellungsmöglichkeiten gibt es für metrische Variablen?

A

Histogramm: Fläche der Balken ist entscheidend

Kern-Dichte-Schätzer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wie berechnet man die Häufigkeitsdichte?

A

relative Häufigkeit : Klassenbreite

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was besagt das Prinzip der Flächentreue?

A

Gesamtfläche bleibt bei feineren Unterteilungen

der Klassenbreiten konstant -> bezieht sich auf Histogramme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist eine Verteilungsfunktion?

A

die Summe der beobachteten Häufigkeiten einer Variablen bis zu einem bestimmten Wert.
Aufsummieren der Häufigkeiten, sinnvoll ab ordinalskaliert, Achtung, muss sortiert sein!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Welche Lageparameter gibt es?

A

arithmetisches Mittel X_
Modus Xd
Median X ~

20
Q

Was ist der Modus?

A

häufigster Wert in einer Verteilung, grundsätzlich für alle Skalenniveaus geeignet

21
Q

Was ist der Median?

A

teilt Daten in zwei Hälften, müssen min. ordinalskaliert sein; Anordnung nach Größe -> Mitte, bei gerader Anzahl: arith. Mittel zwischen den zwei mittleren.
ist robust ggü. Ausreißern

22
Q

Was ist das arithmetische Mittel/ der Mittelwert

A
x_: ganz normaler "Durchschnitt" 
erst am intervallskaliert sinnvoll
entspricht Schwerpunkt der Verteilung
empfindlich ggü. Ausreißern
FORMEL!
23
Q

Was ist das gewichtete arithmetische Mittel

A

wenn man Mittelwerte aus n Stichproben der gleichen Grundgesamtheit mit verschiedenen Stichprobenumfängen miteinander kombinieren will
FORMEL

24
Q

Nenne drei andere Lageparameter

A

geometrisches Mittel
harmonisches Mittel
Mid Range

25
Q

Wovon hängt ab, wie gut ein Lageparameter die Datencharakterisiert?

A

Von den Streuungsmaßen

26
Q

Was sind Streuungsmaße?

+ Beispiele

A
Maßzahlen, die die Strebreite von Werten einer Stichprobe bzw. einer Häufigkeitsverteilung beschreiben
Beispiele: 
Varianz
Standardabweichung
Variationskoeffizient

vom Median: Quantilsabweichungen

27
Q

Lagemaße, Streuungsmaße, Assoziationsmaße, was sind die Unterschiede?

A

Lagemaße ist sowas wie arith. Mittel, Median etc.
Streuungsmaß ist sowas wie Standardabweichung, Varianz
Assoziationsmaß ist wie zwei Verteilungen miteinander zusammenhängen

28
Q

Worauf muss man bei allen Maßzahlen achten?

A

Auf die Skalierung der Variablen! Wann kann man welches Maß anwenden!

29
Q

Was ist die Varianz?

A

gibt die Streuung an
bezieht sich auf arithmetisches Mittel
durchschnittliche quadrierte Abweichung
der einzelnen Werte vom arithmetischen Mittel
unhandlich, weil sich die Maßeinheit/ Dimension verändert und die Größe von den Einheiten abhängig ist
FORMEL

30
Q
Was passiert wenn man folgendes rechnet:
Summe der (einzelnen Werte - arith. Mittel)
A

es kommt 0 raus, deswegen quadriert man bei der Varianzberechnung

31
Q

Was ist die Standardabweichnung?

A

Wurzel aus der Varianz
FORMEL
damit kann man Werte zweier Populationen vergleichen

32
Q

Was ist der Varianzkoeffizient?

A

FORMEL
Normierung der Varianz am arith. Mittel
Ist die Standardabweichung größer als der Mittelwert bzw. der Erwartungswert, so ist der Variationskoeffizient größer 1.
wird in % ausgedrückt

33
Q

Was sind Quantile?

A

Variablenwerte, innerhalb deren Grenzen eine bestimmte Anzahl der Werte liegt.
p-Quantil: der kleinste Wert xi, der p-% der verteilung abschneidet
FORMEL

34
Q

Wie kann die Form einer Verteilung sein?

A

uni- oder bimodal
symmetrisch oder schief
spitz oder flach
spezielle Funktion wie Normalverteilung

35
Q

Wie ist das Verhältnis der verschiedenen Lageparametern bei schiefen Verteilungen?

A

rechtsschief = linkssteil:
Mittel > Median > Modus
skewness = positiv

linksschief = rechtssteil:
Mittel < Median < Modus
skewness = negativ

symmetrisch:
Mittel = Median = Modus
skewness = 0 = Normalverteilung

36
Q

z-Transformation

A

Standardisierung = transformiert Normalverteilung in Standardnormalverteilung
Abweichung vom Mittelwert ab Standardabweichung standardisieren

37
Q

Welche Assoziationsmaße gibt es für bivariate Verteilungen zwischen kategorialen Variablen?

A
Kreuztabellen
Cramérs V
ordinale:
Gamma
Kendalls Tau-b
38
Q

Welche Assoziationsmaße gibt es für bivariate Verteilungen zwischen metrischen Variablen?

A

Kovarianz

Korrelation

39
Q

Wie interpretiert man eine Kreuztabelle?

A

Wenn die Zeilenprozente aufsummiert sind, muss man die Randverteilung in den Spalten beachten.
Wenn die Spaltenprozente aufsummiert sind, muss man die Randverteilung in den Zeilen beachten.
Abstrom/ outflow: wohin schwinden Personen
Zustrom/ inflow: woher rekrutieren Personen

40
Q

Wie interpretiert man Cramérs V?

A
unabhängig vom Skalenniveau
rangiert zwischen 0 und 1
0 = kein Zusammenhang
1 = perfekter Zusammenhang
basiert auf Chi-Quadrat
41
Q

Wie interpretiert man Gamma?

A

min. Ordinalskala
rangiert zwischen -1 und 1
-1 = negativer Zusammenhang
1 = positiver Zusammenhang
basiert auf der Logik des Paarvergleichs
vergleicht nur konkordante mit diskordanten Paaren
==> überschätzt tendenziell den Zusammenhang

42
Q

Was sind konkordante, diskordante und verbundene Paare (Ties) in der Logik des Paarvergleichs?

A

x1 > x2 und y1 > y2 ==> C

x1 > x2 und y<1 < y2 ==> D

43
Q

Wie interpretiert man Kendalls Tau-b?

A

wie Gamma, aber führt zu kleineren Werten, weil es die Ties (verbundenen Paare) berücksichtigt

44
Q

Bei bivariaten Verteilungen: welches Assoziationsmaß darf man interpretieren?

A

Das, was für die niedriger skalierte Variable zulässig ist.

45
Q

Was ist die Kovarianz?

A

Assoziationsmaß für bivariate Verteilungen mit metrischen Variablen
das durchschnittliche Produkt der korrelierenden Abweichungen
cov = 0, wenn kein Zusammenhang vorliegt
cov = negativ ==> je mehr, desto weniger UND UMGEKEHRT
cov = positiv ==> je mehr, desto mehr UND UMGEKEHRT
Problem: ist maßstabsabhängig und normalisiert an n

46
Q

Was ist die Korrelation?

A

Assoziationsmaß für bivariate Verteilungen mit metrischen Variablen
Standardisierung der Kovarianz an der Streuung der Merkmale
maßstabunabhängig! yeeaah!
rangiert zwischen -1 und 1
Korrelation entspricht der Kovarianz der
z-standardisierten Variablen

47
Q

Welche Grundbedingungen der Kausalität sollten überprüft werden, bevor man diese annimmt?

A

zeitlicher Zusammenhang
plausible Theorie
Drittvariablen ausgeschlossen
Alternativerklärungen ausgeschlossen