Deskriptive Statistik Flashcards

1
Q

Kann man mit Normalskalierung Mittelwert ausrechnen?

A

Nein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Maßzahlen

A

– absolute und relative Häufigkeiten, kumulierte Häufigkeiten

– Mittelwert, Standardabweichung, Varianz

– Minimum, Maximum, Spannweite

– Quartile, Quantile, Interquartilsdistanz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Grafiken

A

– Balkendiagramm, Kreisdiagramm

– Histogramm, Boxplot, Schiefe und Symmetrie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Deskriptive Statistik

A

Maßzahlen

Grafiken

Skalenniveaus

Robutsheit von Maßzahlen

Interpretation von Maßzahlen und Grafiken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Ziele der deskriptiven Statistik

A

Übersichtliche Beschreibung der Daten mit Hilfe von – Tabellen & Maßzahlen
– Grafiken

  • Aufspüren von Eingabefehlern & Ausreißern
  • Deskriptive Statistik = Beschreibende Statistik
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Merkmalsträger

A

• Ein Merkmalsträger ist eine Person oder ein Objekt, dessen Eigenschaften wir beobachten oder messen.

– zB Studierender, Österreicher, österr. Pensionist, Auto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Merkmal

A

eine Eigenschaft der Merkmalsträger.

– zB Geschlecht, Alter, Lieblingsjahreszeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Merkmalsausprägung

A

in möglicher Wert oder Stufe eines Merkmals.

– zB Geschlecht: männlich, weiblich
– zB Lieblingsjahreszeit: Frühling, Sommer, Herbst, Winter
– zB Alter: 18 Jahre, 19 Jahre, 20 Jahre, 21 Jahre, …

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Auszug aus der Datenmatrix

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Absolute Häufigkeiten

A

Von den 25 Personen sind 5 männlich und 20 weiblich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Relative Häufigkeiten (in Prozent)

A

Von den 25 Personen sind (5 / 25) = 0.2 = 20 % männlich und 1 – 0.2 = 0.8 = 80 % weiblich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Absolute Häufigkeiten und relative Häufigkeiten

A

beschreiben die Daten ohne Informationsverlust

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Häufigkeiten zählen: Tabellenform

A

Die Tabelle beschreibt die Daten ohne Informationsverlust!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Balkendiagramm

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Kreisdiagramm

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Rechnen mit Häufigkeiten

A

10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich um 10 – 8 = 2 Personen mehr für Frühling entschieden als für Winter.
– Ja, korrekt.

• 10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich 10 / 8 = 1.25 Mal so viele Personen für Frühling entschieden als für Winter.
– Ja, korrekt.

  • 10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich um 10 / 8 – 1 = 0.25 = 25 % mehr Personen für Frühling entschieden als für Winter. – Ja, korrekt.
  • 10 Personen haben Frühling, 8 haben Winter gesagt. Da 8 / 10 – 1 = – 0.2 = – 20 % ist, haben sich um 20 % weniger Personen für Winter als für Frühling entschieden. – Ja, korrekt.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Von den 25 Personen haben 10 Frühling und 8 Winter geantwortet. Wie viel Prozent der Personen haben sich für Frühling oder Winter ausgesprochen?

A

– Lösung: (10 + 8) / 25 = 18 / 25 = 0.72 = 72 %

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Von den 25 Personen haben 10 Frühling und 8 Winter angegeben. Wie viel Prozent der Leute haben Sommer oder Herbst geantwortet?

A

– Lösung A: 1 – (10 + 8) / 25 = 1 – 18 / 25 = 1 – 0.72 = = 0.28 = 28 %

– Lösung B: (25 – 10 – 8) / 25 = 7 / 25 = 0.28 = 28 %

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Modus

A

Jene Merkmalsausprägung, die am häufigsten genannt wurde, heißt Modus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Ordnung

A

Die Merkmalsausprägungen haben eine logische Reihenfolge, eine Ordnung

Daher sind das Balkendiagramm und die Häufigkeitstabelle in dieser Form irreführend

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Ist Mittelwert robust von Ausreißern

A

nein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Mittelwert bei ordinalskalierten Daten verwenden?

A

nein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Ist die Standartabweichung ein Lagemaß?

A

Nein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Grundgesamtheit vs. Stichprobe

A

Hier ist die Grundgesamtheit die Menge aller
Studierenden der Ernährungswissenschaften (EW).

• Da wir nicht alle Studierende befragen können (oder wollen), ziehen wir eine Stichprobe der Größe 25.

• Je größer die Stichprobe, desto aussagekräftiger sind
in der Regel die Tendenzen.

– Ausnahme: Bei Verzerrungen (wie etwa Selektionbias

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Qualitative Merkmale können

A

ordinalskaliert

oder nominalskaliert sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

ordinalskaliert

A

Zwischen den Ausprägungen besteht eine Ordnung (Lieblingsjahreszeit, Gefahr von Genfood, Schulnoten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

nominalskaliert

A

Die Kategorien bzw. Ausprägungen haben keine Ordnung (Geschlecht, Lieblingsobst, Lieblingsfarbe)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

dichotome Merkmale

A

binäre Variablen) haben genau zwei Ausprägungen (männlich/weiblich, Ja/Nein, Dafür/Dagegen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Sinn und Unsinn des Modus

A

• Ist der Modus bei der Größe sinnvoll?
– Nein, denn es gibt viel zu viele Merkmalsausprägungen.
– Hier gibt es zB 4 Modi (163.5, 170.5, 172, 174.5).

• Je weniger Merkmalsausprägungen, desto sinnvoller ist der Modus.

• Denn der Modus soll idealerweise über mehrere
unterschiedliche Stichproben hinweg stabil bleiben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Kategorisierung von Daten

A

Wir bilden (gleich große) Klassen in Form von Intervallen:
– (150, 155], (155,160], (160, 165], …, (185, 190], (190, 195]
– Eine Person mit 155 cm fällt noch ins Intervall (150, 155].

• Wir zählen, wie viele Personen in jede Klasse fallen.

• Wir erhalten eine kategorisierte Version der Daten, in der wir zwar Genauigkeit verloren, dafür aber Überblick
gewonnen haben.
– Das Histogramm ist geboren!

• Die optimale Anzahl an Klassen hängt von den Daten ab, je mehr Beobachtungen, desto mehr Klassen möglich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Histogramm

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Wie groß sind die Studierenden der Gruppe im Durchschnitt / im Mittel? (Wo ist das Zentrum?)

A

Lagemaßen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Wie stark schwanken die einzelnen Körpergrößen der Studierenden? (Was spielt sich um das Zentrum ab?)

A

Streuungsmaßen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Starke Streuung vs. geringe Streuung

A

Je weniger die Daten streuen, desto ähnlicher sind sie sich.

Je mehr die Daten streuen, desto unähnlicher sind sie sich.

37
Q

Mittelwert

A

gibt an, wie groß der Wert einer Beobachtung im Durchschnitt ist

38
Q

Standardabweichung

A

Das zum Mittelwert passende Streuungsmaß ist die Standardabweichung.

Sie gibt (salopp gesagt) die
durchschnittliche Abweichung einer Beobachtung vom Mittelwert an.
39
Q

Die Formel für den Mittelwert

A
40
Q

Die Formel für die (Stichproben)Varianz

A
41
Q

Die Formel für die (Stichproben)Standardabweichung

A
42
Q

Wie groß ist ein männlicher Studierender im Durchschnitt?

• Die Körpergrößen der 5 männlichen Studierenden: 189 cm, 168 cm, 190 cm, 188 cm, 176 cm

A
43
Q

Und wie groß ist die entsprechende Standardabweichung? • Die Körpergrößen der 5 männlichen Studierenden: 189 cm, 168 cm, 190 cm, 188 cm, 176 cm

A
44
Q

Diese Frage kann mit dem gewichteten Mittelwert beantwortet werden.

A
45
Q

Wie groß ist eine Person im Durchschnitt?

A

Wir gewichten die Mittelwerte entsprechend ihrer relativen Häufigkeit.

• Wir gewichten also das Durchschnittsgewicht der Männer mit 5/25 und jenes der Frauen mit 20/25

46
Q

Konzepte in der Übersicht

A
  • Mit dem Mittelwert und der Standardabweichung gepaart mit dem Histogramm haben wir einen schönen Überblick.
  • Dafür haben wir Genauigkeit verloren; wir haben also einen Informationsverlust in Kauf genommen.
47
Q

Minimum

A

xmin ist die kleinste Ausprägung

48
Q

Maximum

A

xmax die größte Ausprägung.

49
Q

Spannweite Berechnen

A

Range

Berechnung aus dem Minimum und Maximum

R= Xmax- Xmin

Wir können also mit dem Minimum, dem Maximum und der Spannweite jenen Bereich beschreiben, in dem alle Daten (also 100 %) der Stichprobe liegen.

50
Q
A
51
Q

Median

A
  • Der Median (Zentralwert) teilt die Daten derart in zwei Hälften, dass 50 % der Daten kleiner gleich und 50 % der Daten größer gleich diesem Wert sind.
  • Um wie viel die Daten größer oder kleiner sind, spielt (im Gegensatz zum Mittelwert) keine Rolle.
52
Q

Minimum, Maximum, Spannweite, Median

A

Vor der Bestimmung müssen die Daten sortiert werden: 168, 176, 188, 189, 190.

• Das Minimum ist also 168 cm, das Maximum 190 cm.

• Daraus ergibt sich die Spannweite von
190 – 168 = 22 cm.

• Der Median ist 188 cm. 3 Werte sind kleiner gleich, 3
Werte größer gleich diesem Wert.

53
Q
  1. Quartil
A
54
Q
  1. Quartil
A

unteres Quartil

55
Q
  1. Quartil
A

oberes Quartil

56
Q

Quartile

A

Gemeinsam mit dem Minimum und Maximum teilen die Quartile die Daten derart in 4 Teile, dass in jede Klasse (ungefähr) 25 % der Daten fallen

57
Q

Interquartilsspannweite

A

25 % der Daten sind kleiner gleich und 75 % der Daten
größer gleich dem 1. Quartil.

• 75 % der Daten sind kleiner gleich und 25 % der Daten
größer gleich dem 3. Quartil.

• Aus dem 1. Quartil Q Aus dem 1. Quartil Q
1 und dem 3. Quartil Q 3 bestimmen
1 und dem 3. Quartil Q3 bestimmen
wir die Interquartilsdistanz (Interquartilsspannweite):

58
Q

50 % zentralsten Daten

A

Wir können also mit dem 1. und 3. Quartil sowie der Interquartilsdistanz jenen Bereich beschreiben, in dem die 50 % zentralsten Daten der Stichprobe liegen.

59
Q

p–Quantil

A

Für 0 < p < 1 teilt das p–Quantil die Daten derart in
zwei Teile, dass (ungefähr) 100 · p % der Daten
kleiner gleich und (ungefähr) 100 · (1 – p) % der
Daten größer gleich dem p–Quantil sind.

60
Q

Berechnung von Quantilen

A

Eine einfache und allgemeine Prozedur für die Berechnung von Quantilen (also auch Median und Quartile) steht in der Formelsammlung.

61
Q

p = 0.5

A

erhält man den Median

62
Q

p = 0.25

A

das 1. Quartil

63
Q

p = 0.75

A
  1. Quartil.
64
Q

p = 0.9

A

Für p = 0.9 erhält man zB das 90%-Quantil. 90 % der Daten sind kleiner gleich und 10 % der Daten sind größer gleich diesem Wert.

65
Q

Berechnung der Quantile

A

Für die Berechnung der Quantile existieren unterschiedliche Berechnungsmethoden

66
Q

Boxplot

A
67
Q

Ausreißer

A

Sie ist mehr als das 1.5-fache des IQR vom 3. Quartil entfernt.

68
Q

extremer Ausreißer

A

Der Abstand zum 3. Quartil ist größer als das 3-fache des IQR.

69
Q

Ausreißer Eingabefehler

A

Wir sollten uns an dieser Stelle fragen, ob die Ausreißer bedenklich sind, ob sie also plausibel sind oder ob es sich um Eingabefehler handelt.

70
Q

Maßzahlen, die anfällig sind gegenüber Ausreißern,

A

eignen sich besonders gut dazu Eingabefehler aufzuspüren

71
Q

Maßzahlen, die robust sind gegenüber Ausreißern

A

lassen sich von Ausreißern deutlich weniger stark beeinflussen.

72
Q

Robuste Maße sind

A

– Median
– Unteres Quartil, oberes Quartil und Interquartilsdistanz

73
Q

Anfällige Maße sind:

A

– Minimum, Maximum, Spannweite
– Mittelwert, Standardabweichung und Varianz

74
Q

Ausreißer, Plausibilität und Eingabefehler

A

Es ist durchaus plausibel, dass es Studierende gibt,
die 28 oder 33 Jahre alt sind, also sind die Ausreißer
nicht bedenklich.

• Ein Beispiel für einen häufigen Eingabefehler: Einige
Körpergrößen werden in m statt in cm eingegeben. – Das hat Auswirkungen auf den Body Maß Index (BMI), der sich unter anderem aus der Größe bestimmt.

75
Q

quantitative Merkmale

A

Körpergröße und Alter sind quantitative Merkmale.

• Quantitative Merkmale lassen sich messen, zählen
oder wiegen, sie sind metrisch skaliert.

• Quantitative Merkmale können diskret oder stetig sein

76
Q

diskrete Quantitative Merkmale

A

: Es gibt wenig unterschiedliche bzw. abzählbar viele Ausprägungen (Anzahlen allgemein, Lebensjahre)

77
Q

stetige Quantitative Merkmale

A

: Es gibt viele unterschiedliche bzw. überabzählbar viele Ausprägungen (Körpergröße, Nettoeinkommen)

78
Q

• SPSS unterscheidet nicht zwischen diskret und stetig.

A

Bei der Erstellung von Grafiken kann es jedoch ratsam sein, sich diese Unterscheidung in Erinnerung zu rufen.

79
Q

Differenzen sinnvoll interpretiert

A

Im Gegensatz zu ordinalskalierten Merkmalen können bei metrisch skalierten Merkmalen Differenzen sinnvoll interpretiert werden.

80
Q

Die Note auf eine LV ist ordinalskaliert.

A

Es ist nicht klar, wie stark sich die Leistung von zwei
Studierenden unterscheidet, die einen 4er bzw. 5er haben

81
Q

Die Punkte, die im Laufe einer LV erreicht wurden, sind metrisch skaliert

A

– Der Punkteunterschied zweier Studierender lässt sich
sinnvoll interpretieren

82
Q

Schiefe.

A

Zur Bestimmung der Symmetrieeigenschaft einer Verteilung eignet sich die Schiefe

83
Q

Normalverteilung

A

Als Referenz zur optischen Beurteilung, ob Daten symmetrisch um den Mittelwert verteilt sind, dient oftmals die Normalverteilung.

• Die Normalverteilung ist symmetrisch.

84
Q

Normalverteile Saten, symmetrisch, Schiefe nahe 0, Mittelwert und Median fast gleich

A
85
Q

rechtsschiefe Daten, Schiefe >0, Mittelwert > Median

A
86
Q

Normalverteile Daten, symmetrisch, Schiefe nahe 0, Mittelwert und Median fast gleich

A
87
Q

symmetrisch, baer nicht normalverteilt

A
88
Q

Boxplot Schiefe

A

Zur Interpretation der Schiefe den Boxplot (in Gedanken) um 90 Grad im Uhrzeigersinn drehen

Die Verteilung ist rechtsschief. • Die beiden Ausreißer Wie alt sind Sie?

Interpretation des Boxplots (Nr. 17 und 23), sind wiederum nicht bedenklich.