Deskriptive Statistik Flashcards

1
Q

Wozu braucht man Statistik in den Sozialwissenschaften?

A

Exploration, Deskription, Evaluation, Überprüfung von Hypothesen und Theorien, Prognosen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist ein Datensatz?

A

Gesamtheit aller Daten einer Stichprobe;
Beobachtungen werden Zahlen zugeordnet
Bsp.: Umfrage

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist eine Variable?

A

Codierung eines Merkmals: Zuordnung von empirischem und numerischem Relativ
enthalten die veränderlichen Ausprägungen eines Merkmals

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist ein Wertebereich?

A

Bereich von Zahlen, die eine Variable annehmen kann

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist eine Ausprägung und wie sollte sie statistisch sein?

A

Der Wert, den eine Variable für ein bestimmtes Merkmal annimmt.
Ausprägungen sollten sich wechselseitig ausschließen (exklusiv) und exhaustiv sein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Variablentypen gibt es?

A

Diskrete/ Kategoriale Variablen: haben endlich viele Ausprägungen z.B. Geschlecht, Parteizugehörigkeit
Kontinuierliche/ Metrische Variablen: haben theoretisch unendlich viele Ausprägungen z.B. Einkommen, Alter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welche sind die vier Skalenniveaus?

A

für kategoriale Variablen:
Nominalskala (Staatsangehörigkeit)
Ordinalskala (Bildungsabschluss)
für metrische Variablen:
Intervallskala (Temperatur in Celsius, Jahreszahlen)
Ratioskala (Temperatur in Kelvin, Einkommen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind missing values?

A

Ein Merkmal für das bei einer Person keine Ausprägung vorliegt und die Codierung für diesen Fall.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was kann die Nominalskala aussagen?

A

Ob zwei Ausprägungen gleich oder ungleich sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was kann die Ordinalskala aussagen?

A

kann Ausprägungen in Hierarchie bringen, man darf aber keine mathematischen Operationen durchführen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was kann die Intervallskala aussagen?

A

kann Differenzen zwischen Ausprägungen berechnen, aber der Nullpunkt ist willkürlich definiert, deswegen kann man kein Verhältnis bilden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was kann die Ratioskala aussagen?

A

es gibt einen sinnvoll definierten absoluten Nullpunkt, so kann man Differenzen und Verhältnisse bilden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie kann man Verteilungen von kategorialen Variablen beschreiben

A

relative Häufigkeiten: hk = fk / N

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welche graphischen Darstellungsmöglichkeiten gibt es für kategoriale Variablen?

A

Stabdiagramm, nur die Höhe der Balken ist entscheidend (Achtung, evlt. eine Achse abgeschnitten? –> verzerrtes Bild)
Kreisdiagramm (nicht zu empfehlen!)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welche graphischen Darstellungsmöglichkeiten gibt es für metrische Variablen?

A

Histogramm: Fläche der Balken ist entscheidend

Kern-Dichte-Schätzer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wie berechnet man die Häufigkeitsdichte?

A

relative Häufigkeit : Klassenbreite

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was besagt das Prinzip der Flächentreue?

A

Gesamtfläche bleibt bei feineren Unterteilungen

der Klassenbreiten konstant -> bezieht sich auf Histogramme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist eine Verteilungsfunktion?

A

die Summe der beobachteten Häufigkeiten einer Variablen bis zu einem bestimmten Wert.
Aufsummieren der Häufigkeiten, sinnvoll ab ordinalskaliert, Achtung, muss sortiert sein!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Welche Lageparameter gibt es?

A

arithmetisches Mittel X_
Modus Xd
Median X ~

20
Q

Was ist der Modus?

A

häufigster Wert in einer Verteilung, grundsätzlich für alle Skalenniveaus geeignet

21
Q

Was ist der Median?

A

teilt Daten in zwei Hälften, müssen min. ordinalskaliert sein; Anordnung nach Größe -> Mitte, bei gerader Anzahl: arith. Mittel zwischen den zwei mittleren.
ist robust ggü. Ausreißern

22
Q

Was ist das arithmetische Mittel/ der Mittelwert

A
x_: ganz normaler "Durchschnitt" 
erst am intervallskaliert sinnvoll
entspricht Schwerpunkt der Verteilung
empfindlich ggü. Ausreißern
FORMEL!
23
Q

Was ist das gewichtete arithmetische Mittel

A

wenn man Mittelwerte aus n Stichproben der gleichen Grundgesamtheit mit verschiedenen Stichprobenumfängen miteinander kombinieren will
FORMEL

24
Q

Nenne drei andere Lageparameter

A

geometrisches Mittel
harmonisches Mittel
Mid Range

25
Wovon hängt ab, wie gut ein Lageparameter die Datencharakterisiert?
Von den Streuungsmaßen
26
Was sind Streuungsmaße? | + Beispiele
``` Maßzahlen, die die Strebreite von Werten einer Stichprobe bzw. einer Häufigkeitsverteilung beschreiben Beispiele: Varianz Standardabweichung Variationskoeffizient ``` vom Median: Quantilsabweichungen
27
Lagemaße, Streuungsmaße, Assoziationsmaße, was sind die Unterschiede?
Lagemaße ist sowas wie arith. Mittel, Median etc. Streuungsmaß ist sowas wie Standardabweichung, Varianz Assoziationsmaß ist wie zwei Verteilungen miteinander zusammenhängen
28
Worauf muss man bei allen Maßzahlen achten?
Auf die Skalierung der Variablen! Wann kann man welches Maß anwenden!
29
Was ist die Varianz?
gibt die Streuung an bezieht sich auf arithmetisches Mittel durchschnittliche quadrierte Abweichung der einzelnen Werte vom arithmetischen Mittel unhandlich, weil sich die Maßeinheit/ Dimension verändert und die Größe von den Einheiten abhängig ist FORMEL
30
``` Was passiert wenn man folgendes rechnet: Summe der (einzelnen Werte - arith. Mittel) ```
es kommt 0 raus, deswegen quadriert man bei der Varianzberechnung
31
Was ist die Standardabweichnung?
Wurzel aus der Varianz FORMEL damit kann man Werte zweier Populationen vergleichen
32
Was ist der Varianzkoeffizient?
FORMEL Normierung der Varianz am arith. Mittel Ist die Standardabweichung größer als der Mittelwert bzw. der Erwartungswert, so ist der Variationskoeffizient größer 1. wird in % ausgedrückt
33
Was sind Quantile?
Variablenwerte, innerhalb deren Grenzen eine bestimmte Anzahl der Werte liegt. p-Quantil: der kleinste Wert xi, der p-% der verteilung abschneidet FORMEL
34
Wie kann die Form einer Verteilung sein?
uni- oder bimodal symmetrisch oder schief spitz oder flach spezielle Funktion wie Normalverteilung
35
Wie ist das Verhältnis der verschiedenen Lageparametern bei schiefen Verteilungen?
rechtsschief = linkssteil: Mittel > Median > Modus skewness = positiv linksschief = rechtssteil: Mittel < Median < Modus skewness = negativ symmetrisch: Mittel = Median = Modus skewness = 0 = Normalverteilung
36
z-Transformation
Standardisierung = transformiert Normalverteilung in Standardnormalverteilung Abweichung vom Mittelwert ab Standardabweichung standardisieren
37
Welche Assoziationsmaße gibt es für bivariate Verteilungen zwischen kategorialen Variablen?
``` Kreuztabellen Cramérs V ordinale: Gamma Kendalls Tau-b ```
38
Welche Assoziationsmaße gibt es für bivariate Verteilungen zwischen metrischen Variablen?
Kovarianz | Korrelation
39
Wie interpretiert man eine Kreuztabelle?
Wenn die Zeilenprozente aufsummiert sind, muss man die Randverteilung in den Spalten beachten. Wenn die Spaltenprozente aufsummiert sind, muss man die Randverteilung in den Zeilen beachten. Abstrom/ outflow: wohin schwinden Personen Zustrom/ inflow: woher rekrutieren Personen
40
Wie interpretiert man Cramérs V?
``` unabhängig vom Skalenniveau rangiert zwischen 0 und 1 0 = kein Zusammenhang 1 = perfekter Zusammenhang basiert auf Chi-Quadrat ```
41
Wie interpretiert man Gamma?
min. Ordinalskala rangiert zwischen -1 und 1 -1 = negativer Zusammenhang 1 = positiver Zusammenhang basiert auf der Logik des Paarvergleichs vergleicht nur konkordante mit diskordanten Paaren ==> überschätzt tendenziell den Zusammenhang
42
Was sind konkordante, diskordante und verbundene Paare (Ties) in der Logik des Paarvergleichs?
x1 > x2 und y1 > y2 ==> C | x1 > x2 und y<1 < y2 ==> D
43
Wie interpretiert man Kendalls Tau-b?
wie Gamma, aber führt zu kleineren Werten, weil es die Ties (verbundenen Paare) berücksichtigt
44
Bei bivariaten Verteilungen: welches Assoziationsmaß darf man interpretieren?
Das, was für die niedriger skalierte Variable zulässig ist.
45
Was ist die Kovarianz?
Assoziationsmaß für bivariate Verteilungen mit metrischen Variablen das durchschnittliche Produkt der korrelierenden Abweichungen cov = 0, wenn kein Zusammenhang vorliegt cov = negativ ==> je mehr, desto weniger UND UMGEKEHRT cov = positiv ==> je mehr, desto mehr UND UMGEKEHRT Problem: ist maßstabsabhängig und normalisiert an n
46
Was ist die Korrelation?
Assoziationsmaß für bivariate Verteilungen mit metrischen Variablen Standardisierung der Kovarianz an der Streuung der Merkmale maßstabunabhängig! yeeaah! rangiert zwischen -1 und 1 Korrelation entspricht der Kovarianz der z-standardisierten Variablen
47
Welche Grundbedingungen der Kausalität sollten überprüft werden, bevor man diese annimmt?
zeitlicher Zusammenhang plausible Theorie Drittvariablen ausgeschlossen Alternativerklärungen ausgeschlossen