Deskriptive Statistik Flashcards
Kann man mit Normalskalierung Mittelwert ausrechnen?
Nein
Maßzahlen
– absolute und relative Häufigkeiten, kumulierte Häufigkeiten
– Mittelwert, Standardabweichung, Varianz
– Minimum, Maximum, Spannweite
– Quartile, Quantile, Interquartilsdistanz
Grafiken
– Balkendiagramm, Kreisdiagramm
– Histogramm, Boxplot, Schiefe und Symmetrie
Deskriptive Statistik
Maßzahlen
Grafiken
Skalenniveaus
Robutsheit von Maßzahlen
Interpretation von Maßzahlen und Grafiken
Ziele der deskriptiven Statistik
Übersichtliche Beschreibung der Daten mit Hilfe von – Tabellen & Maßzahlen
– Grafiken
- Aufspüren von Eingabefehlern & Ausreißern
- Deskriptive Statistik = Beschreibende Statistik
Merkmalsträger
• Ein Merkmalsträger ist eine Person oder ein Objekt, dessen Eigenschaften wir beobachten oder messen.
– zB Studierender, Österreicher, österr. Pensionist, Auto
Merkmal
eine Eigenschaft der Merkmalsträger.
– zB Geschlecht, Alter, Lieblingsjahreszeit
Merkmalsausprägung
in möglicher Wert oder Stufe eines Merkmals.
– zB Geschlecht: männlich, weiblich
– zB Lieblingsjahreszeit: Frühling, Sommer, Herbst, Winter
– zB Alter: 18 Jahre, 19 Jahre, 20 Jahre, 21 Jahre, …
Auszug aus der Datenmatrix
Absolute Häufigkeiten
Von den 25 Personen sind 5 männlich und 20 weiblich.
Relative Häufigkeiten (in Prozent)
Von den 25 Personen sind (5 / 25) = 0.2 = 20 % männlich und 1 – 0.2 = 0.8 = 80 % weiblich.
Absolute Häufigkeiten und relative Häufigkeiten
beschreiben die Daten ohne Informationsverlust
Häufigkeiten zählen: Tabellenform
Die Tabelle beschreibt die Daten ohne Informationsverlust!
Balkendiagramm
Kreisdiagramm
Rechnen mit Häufigkeiten
10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich um 10 – 8 = 2 Personen mehr für Frühling entschieden als für Winter.
– Ja, korrekt.
• 10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich 10 / 8 = 1.25 Mal so viele Personen für Frühling entschieden als für Winter.
– Ja, korrekt.
- 10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich um 10 / 8 – 1 = 0.25 = 25 % mehr Personen für Frühling entschieden als für Winter. – Ja, korrekt.
- 10 Personen haben Frühling, 8 haben Winter gesagt. Da 8 / 10 – 1 = – 0.2 = – 20 % ist, haben sich um 20 % weniger Personen für Winter als für Frühling entschieden. – Ja, korrekt.
Von den 25 Personen haben 10 Frühling und 8 Winter geantwortet. Wie viel Prozent der Personen haben sich für Frühling oder Winter ausgesprochen?
– Lösung: (10 + 8) / 25 = 18 / 25 = 0.72 = 72 %
Von den 25 Personen haben 10 Frühling und 8 Winter angegeben. Wie viel Prozent der Leute haben Sommer oder Herbst geantwortet?
– Lösung A: 1 – (10 + 8) / 25 = 1 – 18 / 25 = 1 – 0.72 = = 0.28 = 28 %
– Lösung B: (25 – 10 – 8) / 25 = 7 / 25 = 0.28 = 28 %
Modus
Jene Merkmalsausprägung, die am häufigsten genannt wurde, heißt Modus.
Ordnung
Die Merkmalsausprägungen haben eine logische Reihenfolge, eine Ordnung
Daher sind das Balkendiagramm und die Häufigkeitstabelle in dieser Form irreführend
Ist Mittelwert robust von Ausreißern
nein
Mittelwert bei ordinalskalierten Daten verwenden?
nein
Ist die Standartabweichung ein Lagemaß?
Nein
Grundgesamtheit vs. Stichprobe
Hier ist die Grundgesamtheit die Menge aller
Studierenden der Ernährungswissenschaften (EW).
• Da wir nicht alle Studierende befragen können (oder wollen), ziehen wir eine Stichprobe der Größe 25.
• Je größer die Stichprobe, desto aussagekräftiger sind
in der Regel die Tendenzen.
– Ausnahme: Bei Verzerrungen (wie etwa Selektionbias
Qualitative Merkmale können
ordinalskaliert
oder nominalskaliert sein
ordinalskaliert
Zwischen den Ausprägungen besteht eine Ordnung (Lieblingsjahreszeit, Gefahr von Genfood, Schulnoten)
nominalskaliert
Die Kategorien bzw. Ausprägungen haben keine Ordnung (Geschlecht, Lieblingsobst, Lieblingsfarbe)
dichotome Merkmale
binäre Variablen) haben genau zwei Ausprägungen (männlich/weiblich, Ja/Nein, Dafür/Dagegen).
Sinn und Unsinn des Modus
• Ist der Modus bei der Größe sinnvoll?
– Nein, denn es gibt viel zu viele Merkmalsausprägungen.
– Hier gibt es zB 4 Modi (163.5, 170.5, 172, 174.5).
• Je weniger Merkmalsausprägungen, desto sinnvoller ist der Modus.
• Denn der Modus soll idealerweise über mehrere
unterschiedliche Stichproben hinweg stabil bleiben.
Kategorisierung von Daten
Wir bilden (gleich große) Klassen in Form von Intervallen:
– (150, 155], (155,160], (160, 165], …, (185, 190], (190, 195]
– Eine Person mit 155 cm fällt noch ins Intervall (150, 155].
• Wir zählen, wie viele Personen in jede Klasse fallen.
• Wir erhalten eine kategorisierte Version der Daten, in der wir zwar Genauigkeit verloren, dafür aber Überblick
gewonnen haben.
– Das Histogramm ist geboren!
• Die optimale Anzahl an Klassen hängt von den Daten ab, je mehr Beobachtungen, desto mehr Klassen möglich.
Histogramm
Wie groß sind die Studierenden der Gruppe im Durchschnitt / im Mittel? (Wo ist das Zentrum?)
Lagemaßen
Wie stark schwanken die einzelnen Körpergrößen der Studierenden? (Was spielt sich um das Zentrum ab?)
Streuungsmaßen.
Starke Streuung vs. geringe Streuung
Je weniger die Daten streuen, desto ähnlicher sind sie sich.
Je mehr die Daten streuen, desto unähnlicher sind sie sich.
Mittelwert
gibt an, wie groß der Wert einer Beobachtung im Durchschnitt ist
Standardabweichung
Das zum Mittelwert passende Streuungsmaß ist die Standardabweichung.
Sie gibt (salopp gesagt) die durchschnittliche Abweichung einer Beobachtung vom Mittelwert an.
Die Formel für den Mittelwert
Die Formel für die (Stichproben)Varianz
Die Formel für die (Stichproben)Standardabweichung
Wie groß ist ein männlicher Studierender im Durchschnitt?
• Die Körpergrößen der 5 männlichen Studierenden: 189 cm, 168 cm, 190 cm, 188 cm, 176 cm
Und wie groß ist die entsprechende Standardabweichung? • Die Körpergrößen der 5 männlichen Studierenden: 189 cm, 168 cm, 190 cm, 188 cm, 176 cm
Diese Frage kann mit dem gewichteten Mittelwert beantwortet werden.
Wie groß ist eine Person im Durchschnitt?
Wir gewichten die Mittelwerte entsprechend ihrer relativen Häufigkeit.
• Wir gewichten also das Durchschnittsgewicht der Männer mit 5/25 und jenes der Frauen mit 20/25
Konzepte in der Übersicht
- Mit dem Mittelwert und der Standardabweichung gepaart mit dem Histogramm haben wir einen schönen Überblick.
- Dafür haben wir Genauigkeit verloren; wir haben also einen Informationsverlust in Kauf genommen.
Minimum
xmin ist die kleinste Ausprägung
Maximum
xmax die größte Ausprägung.
Spannweite Berechnen
Range
Berechnung aus dem Minimum und Maximum
R= Xmax- Xmin
Wir können also mit dem Minimum, dem Maximum und der Spannweite jenen Bereich beschreiben, in dem alle Daten (also 100 %) der Stichprobe liegen.
Median
- Der Median (Zentralwert) teilt die Daten derart in zwei Hälften, dass 50 % der Daten kleiner gleich und 50 % der Daten größer gleich diesem Wert sind.
- Um wie viel die Daten größer oder kleiner sind, spielt (im Gegensatz zum Mittelwert) keine Rolle.
Minimum, Maximum, Spannweite, Median
Vor der Bestimmung müssen die Daten sortiert werden: 168, 176, 188, 189, 190.
• Das Minimum ist also 168 cm, das Maximum 190 cm.
• Daraus ergibt sich die Spannweite von
190 – 168 = 22 cm.
• Der Median ist 188 cm. 3 Werte sind kleiner gleich, 3
Werte größer gleich diesem Wert.
- Quartil
- Quartil
unteres Quartil
- Quartil
oberes Quartil
Quartile
Gemeinsam mit dem Minimum und Maximum teilen die Quartile die Daten derart in 4 Teile, dass in jede Klasse (ungefähr) 25 % der Daten fallen
Interquartilsspannweite
25 % der Daten sind kleiner gleich und 75 % der Daten
größer gleich dem 1. Quartil.
• 75 % der Daten sind kleiner gleich und 25 % der Daten
größer gleich dem 3. Quartil.
• Aus dem 1. Quartil Q Aus dem 1. Quartil Q
1 und dem 3. Quartil Q 3 bestimmen
1 und dem 3. Quartil Q3 bestimmen
wir die Interquartilsdistanz (Interquartilsspannweite):
50 % zentralsten Daten
Wir können also mit dem 1. und 3. Quartil sowie der Interquartilsdistanz jenen Bereich beschreiben, in dem die 50 % zentralsten Daten der Stichprobe liegen.
p–Quantil
Für 0 < p < 1 teilt das p–Quantil die Daten derart in
zwei Teile, dass (ungefähr) 100 · p % der Daten
kleiner gleich und (ungefähr) 100 · (1 – p) % der
Daten größer gleich dem p–Quantil sind.
Berechnung von Quantilen
Eine einfache und allgemeine Prozedur für die Berechnung von Quantilen (also auch Median und Quartile) steht in der Formelsammlung.
p = 0.5
erhält man den Median
p = 0.25
das 1. Quartil
p = 0.75
- Quartil.
p = 0.9
Für p = 0.9 erhält man zB das 90%-Quantil. 90 % der Daten sind kleiner gleich und 10 % der Daten sind größer gleich diesem Wert.
Berechnung der Quantile
Für die Berechnung der Quantile existieren unterschiedliche Berechnungsmethoden
Boxplot
Ausreißer
Sie ist mehr als das 1.5-fache des IQR vom 3. Quartil entfernt.
extremer Ausreißer
Der Abstand zum 3. Quartil ist größer als das 3-fache des IQR.
Ausreißer Eingabefehler
Wir sollten uns an dieser Stelle fragen, ob die Ausreißer bedenklich sind, ob sie also plausibel sind oder ob es sich um Eingabefehler handelt.
Maßzahlen, die anfällig sind gegenüber Ausreißern,
eignen sich besonders gut dazu Eingabefehler aufzuspüren
Maßzahlen, die robust sind gegenüber Ausreißern
lassen sich von Ausreißern deutlich weniger stark beeinflussen.
Robuste Maße sind
– Median
– Unteres Quartil, oberes Quartil und Interquartilsdistanz
Anfällige Maße sind:
– Minimum, Maximum, Spannweite
– Mittelwert, Standardabweichung und Varianz
Ausreißer, Plausibilität und Eingabefehler
Es ist durchaus plausibel, dass es Studierende gibt,
die 28 oder 33 Jahre alt sind, also sind die Ausreißer
nicht bedenklich.
• Ein Beispiel für einen häufigen Eingabefehler: Einige
Körpergrößen werden in m statt in cm eingegeben. – Das hat Auswirkungen auf den Body Maß Index (BMI), der sich unter anderem aus der Größe bestimmt.
quantitative Merkmale
Körpergröße und Alter sind quantitative Merkmale.
• Quantitative Merkmale lassen sich messen, zählen
oder wiegen, sie sind metrisch skaliert.
• Quantitative Merkmale können diskret oder stetig sein
diskrete Quantitative Merkmale
: Es gibt wenig unterschiedliche bzw. abzählbar viele Ausprägungen (Anzahlen allgemein, Lebensjahre)
stetige Quantitative Merkmale
: Es gibt viele unterschiedliche bzw. überabzählbar viele Ausprägungen (Körpergröße, Nettoeinkommen)
• SPSS unterscheidet nicht zwischen diskret und stetig.
Bei der Erstellung von Grafiken kann es jedoch ratsam sein, sich diese Unterscheidung in Erinnerung zu rufen.
Differenzen sinnvoll interpretiert
Im Gegensatz zu ordinalskalierten Merkmalen können bei metrisch skalierten Merkmalen Differenzen sinnvoll interpretiert werden.
Die Note auf eine LV ist ordinalskaliert.
Es ist nicht klar, wie stark sich die Leistung von zwei
Studierenden unterscheidet, die einen 4er bzw. 5er haben
Die Punkte, die im Laufe einer LV erreicht wurden, sind metrisch skaliert
– Der Punkteunterschied zweier Studierender lässt sich
sinnvoll interpretieren
Schiefe.
Zur Bestimmung der Symmetrieeigenschaft einer Verteilung eignet sich die Schiefe
Normalverteilung
Als Referenz zur optischen Beurteilung, ob Daten symmetrisch um den Mittelwert verteilt sind, dient oftmals die Normalverteilung.
• Die Normalverteilung ist symmetrisch.
Normalverteile Saten, symmetrisch, Schiefe nahe 0, Mittelwert und Median fast gleich
rechtsschiefe Daten, Schiefe >0, Mittelwert > Median
Normalverteile Daten, symmetrisch, Schiefe nahe 0, Mittelwert und Median fast gleich
symmetrisch, baer nicht normalverteilt
Boxplot Schiefe
Zur Interpretation der Schiefe den Boxplot (in Gedanken) um 90 Grad im Uhrzeigersinn drehen
Die Verteilung ist rechtsschief. • Die beiden Ausreißer Wie alt sind Sie?
Interpretation des Boxplots (Nr. 17 und 23), sind wiederum nicht bedenklich.