Deskriptive Statistik – univariate Verteilungen Flashcards

1
Q

Auf was greifen empirisch ableitende Wissenschaften zurück?

A
  • auf umfangreiche Daten in Form von Stichproben
  • Um Sachverhalte oder Theorien zu prüfen
  • In der Pschologie liegen den Stichproben Menschen zugrunde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Um Stichproben adäquat zu beschreiben, werden ebenfalls …

A

… soziodemografische Daten benötigt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist das Gute an der deskriptiven Statistik?

A
  • Sie reduziert den Umfang der Daten

> Um mit möglichst wenig Kennzahlen eine adäquate Beschreibung der Merkmale einer Stichprobe zu erhalten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist eine univariate Verteilung?

A
  • Betrachtung von nur einer Wertemenge eines Merkmals (eine Variable)
  • Lässt sich bereits mithilfe eines Lagemaßes und eines Streuungsmaßes hinreichend genau beschreiben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist eine Deskriptive Statistik?

A
  • Daten beschreibende Statistik
  • Lässt noch keine logischen Schlüsse zu
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind Lagemaße?

A
  • auch Maße der zentralen Tendenz genannt
  • Geben den zentralen Wert einer Wertemenge an, der diese am besten repräsentieren soll
  • Datenmenge wird mit einer einzigen Kennzahl beschrieben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist der Mittelwert?

A
  • Das bekannteste Lagemaß
  • Arithmetrische Mittel
  • Summe aller Werte geteilt durch die Anzahl der Werte
  • Es lässt sich genau eine Kennzahl berechnen, die die Einzelwerte repräsentiert

> Komplexität mehrerer Werte wird auf einen einfach kommunizierbaren und vergleichbaren Wert gebracht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wann muss ein Skalenniveau bestimmt werden?

A

z.B. wenn das Alter bei der Mittelwertberechnung in Altersgruppen und nicht in Einzelwerte erfasst wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist ein Skalenniveau?

A

Gibt die Menge an Informationen an, die in den gemessenen Daten enthalten sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Skalenniveaus werden unterschieden in …

A

… norminal, ordinal, intervall

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

norminales Skalenniveau

A
  • Einfachstes Skalenniveau
  • Prüfen, ob zwei Daten gleich/ungleich sind
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

ordinales Skalenniveau

A
  • Ordnung der Merkmale nach Größe

Beispiele:

  • Ranglisten
  • unspezifisiche Häufigkeiten wie “nie”, “oft”
  • subjektive Einschätzungen wie “schlecht”, “mittel”, “gut”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Internvallskalenniveau

A
  • Abstände berechnen
  • z.B. Alter, Anzahl Freunde, Blutwerte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Skalenniveaus und ihre erlaubten Operationen (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Besonderheiten der Skalenniveaus

A
  • Ein Forschungsdatensatz enthält üblicherweise eine Mischung aus allen drei Daten
  • Nachträglich lassen sich höhere Skalenniveaus auf niedrigere Skalenniveaus reduzieren (Informationsverlust)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist Invarianz?

A
  • Unveränderlichkeit eines Wertes (robust)
  • Inwieweit darf sich die Wertemenge ändern, ohne dass sich das berechnete Lagemaß ändert
  • Der Mittelwert einer Wertemenge verändert sich nicht, sofern das Gewicht der Werte oberhalb und unterhalb des Mittelwertes ausgeglichen ist
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist eine Ratingskala?

A
  • Wird oft in psychologischen Fragebögen verwendet
  • Aussagen werden anhand mehrerer vorgegebener Merkmalsausprägungen beurteilt
  • Abstände zwischen zwei Merkmalen oft nicht bestimmbar
  • Jede Person definiert Begriffe anders
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Beispiele für Ratingskalen (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was ist der Median?

A
  • Alle Werte werden der Größe nach sortiert
  • Der Werte in der Mitte dieser Rangfolge ist der Median
  • Unter dem Median liegen genauso viele Werte wie über dem Median
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Beispiel zum Median bei sieben Einzelwerten einer fünfstufigen Ratingskala (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Der Median lässt sich auch bei …

A

… höheren Skalenniveaus oder bei Intervallskalenniveaus berechnen

> die Operationen der vorhergehenden Skalenniveaus werden übernommen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Median Beispiel gerade/ungerade Anzahl von Merkmalen (Schaubild)

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Medianberechnung bei einer geraden Anzahl von Werten

A

Entweder

  • Wird der Mittelwert der beiden mittleren Werte berechnet

oder

  • es wird einer der beiden mittleren Werte ausgewählt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Der Median einer Wertemenge verändert sich nicht, sofern …

A

… die Anzahl der Werte unterhalb und oberhalb des Medians gleichbleibt

> Invarianz genannt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Was ist der Modus?
- Der am häufigsten vorkommende Wert - auch Modalwert genannt - Ist der Wert, den man am wahrscheinlichsten erhält, wenn man zufällig einen Wert aus der Wertemenge zieht - Es kann einen, zwei oder mehrere Modalwerte geben **\> unimodalen, bimodalen, multimodalen Verteilungen**
26
Beispiele für unimodale, bimodale und multimodale Verteilungen (Schaubild)
27
Beispiele zum Modus (Schaubild)
28
Bei nominalskalierten Daten lässt sich nur prüfen, ob …
… zwei Werte gleich sind oder sich unterscheiden \> Die Ordnung nach Größe oder die Berechnung des Abstandes ist nicht möglich!
29
Invarianz vom Modus
- Modus einer Wertemenge verändert sich nicht, wenn die anderen Werte in ihrer Ausprägung oder Häufigkeit verändert werden - Solange die Häufigkeit des Modus von **KEINEM ANDEREN WERT** erreicht wird \> Ein und derselbe Modus kann bei beliebig vielen Wertemengen auftreten
30
Beispiel für unterschiedliche Wertemengen mit Modus 1 (Schaubild)
31
Wozu werden Streuungsmaße eingesetzt?
- Werteverteilung kann aufgrund der Invarianz der Lagemaße unterschiedlich ausfallen ## Footnote **\> Es werden zur Beschreibung der Werteverteilung zusätzlich Streuungsmaße (Dispersionsmaße) angegeben** **\> Ein Maß für die Variabilität der Daten**
32
Was ist ein Quantil?
- p-Quantil (0%-100%) gibt den Einzelwert an, der die Menge aller Werte in zwei Gruppen teilt - Die erste Gruppe enthält p-Prozent aller Werte - Die zweite Gruppe enthält 1-Prozent aller Werte \> Der Median ist das 50%-Quantil
33
Was ist der Interquartilabstand?
- mindestens ordinalskalierte Daten - deren Variabilität berechnen **\> Den IQR erhält man, indem man vom 75%-Quantil das 25%-Quantil abzieht**
34
Beispiele für einen Interquartilsabstand (Schaubild)
35
Was ist die Varianz?
- Der Mittelwert der quadrierten Abweichung der Einzelwerte - Auf Interskalenniveau lässt sich die Varianz für die Variabilität der Daten berechnen - Die Summe der einfachen Abweichungen muss Null sein \> Quadrierte Abweichungen zum Mittelwert
36
Berechnungsidee für Varainz und Standardabweichung (Schaubild)
37
Stichprobenvarianz (s^2) vs. Populationsvarianz (σ^2, kleines Sigma)
Stichprobenvarianz: - Summe der quadratischen Abweichung wird durch **n-1** geteilt Populationsvarianz: - Summe der quadratischen Abweichung wird durch **n** geteilt
38
Was ist ein Nachteil der Varianz?
- Sie hat nicht die selbe "Einheit" wie die zugrundeliegenden Daten, da die Werte quadriert werden \> Durch das Ziehen der quadratischen Wurzel erhält man die sogenannte Standardabweichung
39
Was bedeutet normalverteilt?
- Verteilung der Daten folgt der Gaußschen Glockenkurve - Die Daten sind symmetrisch um den Mittelwert verteilt - Geringe Abweichungen vom Mittelwert sind wahrscheinlicher als große Abweichungen
40
Normalvertielung mit z-Werten, Prozentrang und IQ-Werten (Schaubild)
41
Was ist die z-Transformation?
- Standardisierung - Umrechnung von Daten, so dass diese mit anderen Daten verglichen werden können **\> Von jedem Wert der Stichprobe wird der Mittelwert abgezogen und anschließend durch die Standardabweichung geteilt**
42
Beispiel zur z-Transformation des Alters bei Studienabschluss (Schaubild)
43
Die graphische Darstellung von Daten ist immer so zu wählen, dass …
… das Verständnis von Daten verbessert wird
44
Was sind Ausreißer?
- Werte, die besonders weit weg von den meisten anderen Werten liegen - Besonders große oder besonders kleine z-Werte (große positive oder negative Werte)
45
Beispiele für die graphische Darstellung von univariaten Verteilungen (Schaubild)
46
Wann wird ein Säulendiagramm verwendet?
- Wird bei nominal- oder ordinalskalierten Daten (kategoriale Daten) verwendet - Um die Häufigkeit der verschiedenen Merkmalsausprägungen darzustellen - Der höchste Balken entspricht dem Modus - Man sieht sofort, ob es sich um eine unimodale oder multimodale Verteilung handelt
47
Was wird ein Boxplot zur Darstellung verwendet?
- mindestens ordinalskalierten Daten - Es lassen sich Median, 75%-Quantil und 25%-Quantil ablesen - Die Breite der Box entspricht dem Interquartilsabstand - Die Antennen (Whiskers) entsprechen maximal dem 1,5-fachen Interquartilsabstand - Ausreißer werden leicht erkennbar außerhalb der Antennen als Punkte oder Sterne dargestellt
48
Boxplot ohne Ausreißer (oben) und mit Ausreißer (unten) (Schaubild)
49
Wann wird ein Histogramm verwendet?
- Bei intervallskalierten Daten - Daten werden in Intervallen oder Klassen zusammengefasst - Die Breite der Intervalle kann frei gewählt werden, wird durch den Kontext bestimmt - Die Balken der Klassen berühren sich nicht, da die Werte fortlaufend sind - Der Modus lässt sich nur bei einer Klassenbreite von 1 ablegen
50
Probleme in der Praxis
- Daten müssen vor der Auswertng aus verschiedenen Quellen zusammengetragen werden - Es kann zu Übertragungs- und Tippfehlern kommen
51
Beispiele für problematische Verteilungsformen (Schaubild)
52
Was sind wünschenswerte Verteilungen?
- Verteilungen, die grob der Normalverteilungen folgen
53
Was sind mehrgipflige oder schiefe Stichproben?
- Stichproben, deren Werte sich stark rechts oder links sammeln auch natürliche Schieflagen möglich: - Studienbeginn ist rechtsschief - Renteneintritt ist linksschief
54
Wie lässt sich die Schiefe als Kennzahl berechnen?
- durch die Reihenfolge des Mittelwerts, des Medians und des Modus
55
Zusammenhang zwischen Schiefe, Mittelwert, Median und Modus (Schaubild)
- Der Mittelwert verschiebt sich am stärksten, da dieser die Abstände der Werte berücksichtigt
56
Skalenniveaus und erlaubte Berechnungen (Schaubild)
57
Nur in Kombination mit der deskriptiven Statistik können …
… Daten sinnvoll beurteilt und darauf basierend Forschungsfragen beantwortet werden
58
59
Warum ist es sinnvoll die Standardabweichung zu berechnen?
- Die Stichprobenstreuung hat nicht die gleiche Einheit wie die Daten, da die Werte quadriert wurden - Die Standardabweichung entsteht durch das Ziehen der Wurzel aus der Stichprobenvarianz **- hat deshalb die gleiche Einheit wie die Daten**
60
Welches Skalen-Niveau für welche Art?
1. Geschlecht (männlich, weiblich, andere) = **nominal** 2. Parteizugehörigkeit (CDU/CSU, SPD, Grüne, Linke, FDP, andere, keine) = **nominal** 3. Alter (in Jahren) = **intervall** 4. Altersgruppe (bis 20 Jahre, \> 20 bis 40 Jahre, \> 40 bis 60 Jahre, \> 60 bis 80 Jahre, \> 80 Jahre) = **ordinal**
61
Die Zusammenhänge bei Phi
Φ = 1, perfekter positiver Zusammenhang Φ = 0, kein Zusammenhang Φ = –1, perfekter negativer Zusammenhang
62
Effektstärke nach Cohen
0 bis \< 0,1 (kein Effekt) ab 0,1 (schwach) ab 0,3 (mittel) ab 0,5 (stark)
63
Was heißt Prävalenz?
Anzahl der Erkrankten in einer Stichprobe
64
Was sagt der Determinationskoeffizient aus? Beispiel: Alter und Reaktionszeit
98 % der Variation der Reaktionszeit werden durch die Variation des Alters erklärt \> Ist das Quadrat der Pearson Korrelation d = r2
65
Beispiel Spearman Korrelation
66
Unterschiede Pearson Korrelation, Phi Koeffizient, Spearman Korrelation
67
Pearson Korrelation
- lineare Zusammenhänge - beide Merkmale intervallskaliert oder metrisch - nimmt Werte zwischen +1 und -1 an
68
Was sagt die Kovarianz aus?
Durchschnittliche Abweichung eines Wertepaares von den Mittelwerten der beiden Merkmale
69
IQR: Wann ist ein Wert ein Ausreißer?
- Wenn er mindestens das 1,5 fache des IQR vom oberen bzw. unteren Quartil entfernt ist
70
Ganz leicht Quartile ausrechnen
71
Diskrete Zufallsgrößen:
sind voneinander abgegrenzt und können abgezählt werden
72
Dichotome Zufallsvariablen:
- sind ebenfalls diskret - nehmen genau 2 Werte an (z.B. 0=Erkrankung liegt vor, 1= Erkrankung liegt nicht vor)
73
Stetige Zufallsvariablen:
Können jeden beliebigen reelen Wert in einem reelen Zahlenintervall annehmen
74
Normalverteilungsdichte
Je größer die Varianz, desto flacher die Normalverteilungskurve Je kleiner die Varianz, desto spitzer die Normalverteilungskurve
75
Mengenoptionen: VENN-Diagramm
76
Was heißt 95% Ci
bei 95% aller Stichprobenziehungen auf deren Basis der Intervall berechnet wird, liegt der unbekannte Populationsmittelwert im berechneten Intervall
77
Was heißt 95% Kredibilitätsintervall
Die Wahrscheinlichkeit dafür, dass der Populationsmittelwert zwischen X und Y liegt, beträgt 95%