Deskriptive Statistik – univariate Verteilungen Flashcards

1
Q

Auf was greifen empirisch ableitende Wissenschaften zurück?

A
  • auf umfangreiche Daten in Form von Stichproben
  • Um Sachverhalte oder Theorien zu prüfen
  • In der Pschologie liegen den Stichproben Menschen zugrunde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Um Stichproben adäquat zu beschreiben, werden ebenfalls …

A

… soziodemografische Daten benötigt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist das Gute an der deskriptiven Statistik?

A
  • Sie reduziert den Umfang der Daten

> Um mit möglichst wenig Kennzahlen eine adäquate Beschreibung der Merkmale einer Stichprobe zu erhalten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist eine univariate Verteilung?

A
  • Betrachtung von nur einer Wertemenge eines Merkmals (eine Variable)
  • Lässt sich bereits mithilfe eines Lagemaßes und eines Streuungsmaßes hinreichend genau beschreiben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist eine Deskriptive Statistik?

A
  • Daten beschreibende Statistik
  • Lässt noch keine logischen Schlüsse zu
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind Lagemaße?

A
  • auch Maße der zentralen Tendenz genannt
  • Geben den zentralen Wert einer Wertemenge an, der diese am besten repräsentieren soll
  • Datenmenge wird mit einer einzigen Kennzahl beschrieben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist der Mittelwert?

A
  • Das bekannteste Lagemaß
  • Arithmetrische Mittel
  • Summe aller Werte geteilt durch die Anzahl der Werte
  • Es lässt sich genau eine Kennzahl berechnen, die die Einzelwerte repräsentiert

> Komplexität mehrerer Werte wird auf einen einfach kommunizierbaren und vergleichbaren Wert gebracht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wann muss ein Skalenniveau bestimmt werden?

A

z.B. wenn das Alter bei der Mittelwertberechnung in Altersgruppen und nicht in Einzelwerte erfasst wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist ein Skalenniveau?

A

Gibt die Menge an Informationen an, die in den gemessenen Daten enthalten sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Skalenniveaus werden unterschieden in …

A

… norminal, ordinal, intervall

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

norminales Skalenniveau

A
  • Einfachstes Skalenniveau
  • Prüfen, ob zwei Daten gleich/ungleich sind
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

ordinales Skalenniveau

A
  • Ordnung der Merkmale nach Größe

Beispiele:

  • Ranglisten
  • unspezifisiche Häufigkeiten wie “nie”, “oft”
  • subjektive Einschätzungen wie “schlecht”, “mittel”, “gut”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Internvallskalenniveau

A
  • Abstände berechnen
  • z.B. Alter, Anzahl Freunde, Blutwerte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Skalenniveaus und ihre erlaubten Operationen (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Besonderheiten der Skalenniveaus

A
  • Ein Forschungsdatensatz enthält üblicherweise eine Mischung aus allen drei Daten
  • Nachträglich lassen sich höhere Skalenniveaus auf niedrigere Skalenniveaus reduzieren (Informationsverlust)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist Invarianz?

A
  • Unveränderlichkeit eines Wertes (robust)
  • Inwieweit darf sich die Wertemenge ändern, ohne dass sich das berechnete Lagemaß ändert
  • Der Mittelwert einer Wertemenge verändert sich nicht, sofern das Gewicht der Werte oberhalb und unterhalb des Mittelwertes ausgeglichen ist
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist eine Ratingskala?

A
  • Wird oft in psychologischen Fragebögen verwendet
  • Aussagen werden anhand mehrerer vorgegebener Merkmalsausprägungen beurteilt
  • Abstände zwischen zwei Merkmalen oft nicht bestimmbar
  • Jede Person definiert Begriffe anders
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Beispiele für Ratingskalen (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was ist der Median?

A
  • Alle Werte werden der Größe nach sortiert
  • Der Werte in der Mitte dieser Rangfolge ist der Median
  • Unter dem Median liegen genauso viele Werte wie über dem Median
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Beispiel zum Median bei sieben Einzelwerten einer fünfstufigen Ratingskala (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Der Median lässt sich auch bei …

A

… höheren Skalenniveaus oder bei Intervallskalenniveaus berechnen

> die Operationen der vorhergehenden Skalenniveaus werden übernommen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Median Beispiel gerade/ungerade Anzahl von Merkmalen (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Medianberechnung bei einer geraden Anzahl von Werten

A

Entweder

  • Wird der Mittelwert der beiden mittleren Werte berechnet

oder

  • es wird einer der beiden mittleren Werte ausgewählt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Der Median einer Wertemenge verändert sich nicht, sofern …

A

… die Anzahl der Werte unterhalb und oberhalb des Medians gleichbleibt

> Invarianz genannt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Was ist der Modus?

A
  • Der am häufigsten vorkommende Wert
  • auch Modalwert genannt
  • Ist der Wert, den man am wahrscheinlichsten erhält, wenn man zufällig einen Wert aus der Wertemenge zieht
  • Es kann einen, zwei oder mehrere Modalwerte geben

> unimodalen, bimodalen, multimodalen Verteilungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Beispiele für unimodale, bimodale und multimodale Verteilungen (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Beispiele zum Modus (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Bei nominalskalierten Daten lässt sich nur prüfen, ob …

A

… zwei Werte gleich sind oder sich unterscheiden

> Die Ordnung nach Größe oder die Berechnung des Abstandes ist nicht möglich!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Invarianz vom Modus

A
  • Modus einer Wertemenge verändert sich nicht, wenn die anderen Werte in ihrer Ausprägung oder Häufigkeit verändert werden
  • Solange die Häufigkeit des Modus von KEINEM ANDEREN WERT erreicht wird

> Ein und derselbe Modus kann bei beliebig vielen Wertemengen auftreten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Beispiel für unterschiedliche Wertemengen mit Modus 1 (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Wozu werden Streuungsmaße eingesetzt?

A
  • Werteverteilung kann aufgrund der Invarianz der Lagemaße unterschiedlich ausfallen

> Es werden zur Beschreibung der Werteverteilung zusätzlich Streuungsmaße (Dispersionsmaße) angegeben

> Ein Maß für die Variabilität der Daten

32
Q

Was ist ein Quantil?

A
  • p-Quantil (0%-100%) gibt den Einzelwert an, der die Menge aller Werte in zwei Gruppen teilt
  • Die erste Gruppe enthält p-Prozent aller Werte
  • Die zweite Gruppe enthält 1-Prozent aller Werte

> Der Median ist das 50%-Quantil

33
Q

Was ist der Interquartilabstand?

A
  • mindestens ordinalskalierte Daten
  • deren Variabilität berechnen

> Den IQR erhält man, indem man vom 75%-Quantil das 25%-Quantil abzieht

34
Q

Beispiele für einen Interquartilsabstand (Schaubild)

A
35
Q

Was ist die Varianz?

A
  • Der Mittelwert der quadrierten Abweichung der Einzelwerte
  • Auf Interskalenniveau lässt sich die Varianz für die Variabilität der Daten berechnen
  • Die Summe der einfachen Abweichungen muss Null sein

> Quadrierte Abweichungen zum Mittelwert

36
Q

Berechnungsidee für Varainz und Standardabweichung (Schaubild)

A
37
Q

Stichprobenvarianz (s^2) vs. Populationsvarianz (σ^2, kleines Sigma)

A

Stichprobenvarianz:

  • Summe der quadratischen Abweichung wird durch n-1 geteilt

Populationsvarianz:

  • Summe der quadratischen Abweichung wird durch n geteilt
38
Q

Was ist ein Nachteil der Varianz?

A
  • Sie hat nicht die selbe “Einheit” wie die zugrundeliegenden Daten, da die Werte quadriert werden

> Durch das Ziehen der quadratischen Wurzel erhält man die sogenannte Standardabweichung

39
Q

Was bedeutet normalverteilt?

A
  • Verteilung der Daten folgt der Gaußschen Glockenkurve
  • Die Daten sind symmetrisch um den Mittelwert verteilt
  • Geringe Abweichungen vom Mittelwert sind wahrscheinlicher als große Abweichungen
40
Q

Normalvertielung mit z-Werten, Prozentrang und IQ-Werten (Schaubild)

A
41
Q

Was ist die z-Transformation?

A
  • Standardisierung
  • Umrechnung von Daten, so dass diese mit anderen Daten verglichen werden können

> Von jedem Wert der Stichprobe wird der Mittelwert abgezogen und anschließend durch die Standardabweichung geteilt

42
Q

Beispiel zur z-Transformation des Alters bei Studienabschluss (Schaubild)

A
43
Q

Die graphische Darstellung von Daten ist immer so zu wählen, dass …

A

… das Verständnis von Daten verbessert wird

44
Q

Was sind Ausreißer?

A
  • Werte, die besonders weit weg von den meisten anderen Werten liegen
  • Besonders große oder besonders kleine z-Werte (große positive oder negative Werte)
45
Q

Beispiele für die graphische Darstellung von univariaten Verteilungen (Schaubild)

A
46
Q

Wann wird ein Säulendiagramm verwendet?

A
  • Wird bei nominal- oder ordinalskalierten Daten (kategoriale Daten) verwendet
  • Um die Häufigkeit der verschiedenen Merkmalsausprägungen darzustellen
  • Der höchste Balken entspricht dem Modus
  • Man sieht sofort, ob es sich um eine unimodale oder multimodale Verteilung handelt
47
Q

Was wird ein Boxplot zur Darstellung verwendet?

A
  • mindestens ordinalskalierten Daten
  • Es lassen sich Median, 75%-Quantil und 25%-Quantil ablesen
  • Die Breite der Box entspricht dem Interquartilsabstand
  • Die Antennen (Whiskers) entsprechen maximal dem 1,5-fachen Interquartilsabstand
  • Ausreißer werden leicht erkennbar außerhalb der Antennen als Punkte oder Sterne dargestellt
48
Q

Boxplot ohne Ausreißer (oben) und mit Ausreißer (unten) (Schaubild)

A
49
Q

Wann wird ein Histogramm verwendet?

A
  • Bei intervallskalierten Daten
  • Daten werden in Intervallen oder Klassen zusammengefasst
  • Die Breite der Intervalle kann frei gewählt werden, wird durch den Kontext bestimmt
  • Die Balken der Klassen berühren sich nicht, da die Werte fortlaufend sind
  • Der Modus lässt sich nur bei einer Klassenbreite von 1 ablegen
50
Q

Probleme in der Praxis

A
  • Daten müssen vor der Auswertng aus verschiedenen Quellen zusammengetragen werden
  • Es kann zu Übertragungs- und Tippfehlern kommen
51
Q

Beispiele für problematische Verteilungsformen (Schaubild)

A
52
Q

Was sind wünschenswerte Verteilungen?

A
  • Verteilungen, die grob der Normalverteilungen folgen
53
Q

Was sind mehrgipflige oder schiefe Stichproben?

A
  • Stichproben, deren Werte sich stark rechts oder links sammeln

auch natürliche Schieflagen möglich:

  • Studienbeginn ist rechtsschief
  • Renteneintritt ist linksschief
54
Q

Wie lässt sich die Schiefe als Kennzahl berechnen?

A
  • durch die Reihenfolge des Mittelwerts, des Medians und des Modus
55
Q

Zusammenhang zwischen Schiefe, Mittelwert, Median und Modus (Schaubild)

A
  • Der Mittelwert verschiebt sich am stärksten, da dieser die Abstände der Werte berücksichtigt
56
Q

Skalenniveaus und erlaubte Berechnungen (Schaubild)

A
57
Q

Nur in Kombination mit der deskriptiven Statistik können …

A

… Daten sinnvoll beurteilt und darauf basierend Forschungsfragen beantwortet werden

58
Q
A
59
Q

Warum ist es sinnvoll die Standardabweichung zu berechnen?

A
  • Die Stichprobenstreuung hat nicht die gleiche Einheit wie die Daten, da die Werte quadriert wurden
  • Die Standardabweichung entsteht durch das Ziehen der Wurzel aus der Stichprobenvarianz

- hat deshalb die gleiche Einheit wie die Daten

60
Q

Welches Skalen-Niveau für welche Art?

A
  1. Geschlecht (männlich, weiblich, andere) = nominal
  2. Parteizugehörigkeit (CDU/CSU, SPD, Grüne, Linke, FDP, andere, keine) = nominal
  3. Alter (in Jahren) = intervall
  4. Altersgruppe (bis 20 Jahre, > 20 bis 40 Jahre, > 40 bis 60 Jahre, > 60 bis 80 Jahre, > 80 Jahre) = ordinal
61
Q

Die Zusammenhänge bei Phi

A

Φ = 1, perfekter positiver Zusammenhang

Φ = 0, kein Zusammenhang

Φ = –1, perfekter negativer Zusammenhang

62
Q

Effektstärke nach Cohen

A

0 bis < 0,1 (kein Effekt)

ab 0,1 (schwach)

ab 0,3 (mittel)

ab 0,5 (stark)

63
Q

Was heißt Prävalenz?

A

Anzahl der Erkrankten in einer Stichprobe

64
Q

Was sagt der Determinationskoeffizient aus? Beispiel: Alter und Reaktionszeit

A

98 % der Variation der Reaktionszeit werden durch die Variation des Alters erklärt

> Ist das Quadrat der Pearson Korrelation d = r2

65
Q

Beispiel Spearman Korrelation

A
66
Q

Unterschiede Pearson Korrelation, Phi Koeffizient, Spearman Korrelation

A
67
Q

Pearson Korrelation

A
  • lineare Zusammenhänge
  • beide Merkmale intervallskaliert oder metrisch
  • nimmt Werte zwischen +1 und -1 an
68
Q

Was sagt die Kovarianz aus?

A

Durchschnittliche Abweichung eines Wertepaares von den Mittelwerten der beiden Merkmale

69
Q

IQR: Wann ist ein Wert ein Ausreißer?

A
  • Wenn er mindestens das 1,5 fache des IQR vom oberen bzw. unteren Quartil entfernt ist
70
Q

Ganz leicht Quartile ausrechnen

A
71
Q

Diskrete Zufallsgrößen:

A

sind voneinander abgegrenzt und können abgezählt werden

72
Q

Dichotome Zufallsvariablen:

A
  • sind ebenfalls diskret
  • nehmen genau 2 Werte an (z.B. 0=Erkrankung liegt vor, 1= Erkrankung liegt nicht vor)
73
Q

Stetige Zufallsvariablen:

A

Können jeden beliebigen reelen Wert in einem reelen Zahlenintervall annehmen

74
Q

Normalverteilungsdichte

A

Je größer die Varianz, desto flacher die Normalverteilungskurve

Je kleiner die Varianz, desto spitzer die Normalverteilungskurve

75
Q

Mengenoptionen: VENN-Diagramm

A
76
Q

Was heißt 95% Ci

A

bei 95% aller Stichprobenziehungen auf deren Basis der Intervall berechnet wird, liegt der unbekannte Populationsmittelwert im berechneten Intervall

77
Q

Was heißt 95% Kredibilitätsintervall

A

Die Wahrscheinlichkeit dafür, dass der Populationsmittelwert zwischen X und Y liegt, beträgt 95%