Deskriptive Statistik Flashcards
Kann man mit Normalskalierung Mittelwert ausrechnen?
Nein
Maßzahlen
– absolute und relative Häufigkeiten, kumulierte Häufigkeiten
– Mittelwert, Standardabweichung, Varianz
– Minimum, Maximum, Spannweite
– Quartile, Quantile, Interquartilsdistanz
Grafiken
– Balkendiagramm, Kreisdiagramm
– Histogramm, Boxplot, Schiefe und Symmetrie
Deskriptive Statistik
Maßzahlen
Grafiken
Skalenniveaus
Robutsheit von Maßzahlen
Interpretation von Maßzahlen und Grafiken
Ziele der deskriptiven Statistik
Übersichtliche Beschreibung der Daten mit Hilfe von – Tabellen & Maßzahlen
– Grafiken
- Aufspüren von Eingabefehlern & Ausreißern
- Deskriptive Statistik = Beschreibende Statistik
Merkmalsträger
• Ein Merkmalsträger ist eine Person oder ein Objekt, dessen Eigenschaften wir beobachten oder messen.
– zB Studierender, Österreicher, österr. Pensionist, Auto
Merkmal
eine Eigenschaft der Merkmalsträger.
– zB Geschlecht, Alter, Lieblingsjahreszeit
Merkmalsausprägung
in möglicher Wert oder Stufe eines Merkmals.
– zB Geschlecht: männlich, weiblich
– zB Lieblingsjahreszeit: Frühling, Sommer, Herbst, Winter
– zB Alter: 18 Jahre, 19 Jahre, 20 Jahre, 21 Jahre, …
Auszug aus der Datenmatrix
Absolute Häufigkeiten
Von den 25 Personen sind 5 männlich und 20 weiblich.
Relative Häufigkeiten (in Prozent)
Von den 25 Personen sind (5 / 25) = 0.2 = 20 % männlich und 1 – 0.2 = 0.8 = 80 % weiblich.
Absolute Häufigkeiten und relative Häufigkeiten
beschreiben die Daten ohne Informationsverlust
Häufigkeiten zählen: Tabellenform
Die Tabelle beschreibt die Daten ohne Informationsverlust!
Balkendiagramm
Kreisdiagramm
Rechnen mit Häufigkeiten
10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich um 10 – 8 = 2 Personen mehr für Frühling entschieden als für Winter.
– Ja, korrekt.
• 10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich 10 / 8 = 1.25 Mal so viele Personen für Frühling entschieden als für Winter.
– Ja, korrekt.
- 10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich um 10 / 8 – 1 = 0.25 = 25 % mehr Personen für Frühling entschieden als für Winter. – Ja, korrekt.
- 10 Personen haben Frühling, 8 haben Winter gesagt. Da 8 / 10 – 1 = – 0.2 = – 20 % ist, haben sich um 20 % weniger Personen für Winter als für Frühling entschieden. – Ja, korrekt.
Von den 25 Personen haben 10 Frühling und 8 Winter geantwortet. Wie viel Prozent der Personen haben sich für Frühling oder Winter ausgesprochen?
– Lösung: (10 + 8) / 25 = 18 / 25 = 0.72 = 72 %
Von den 25 Personen haben 10 Frühling und 8 Winter angegeben. Wie viel Prozent der Leute haben Sommer oder Herbst geantwortet?
– Lösung A: 1 – (10 + 8) / 25 = 1 – 18 / 25 = 1 – 0.72 = = 0.28 = 28 %
– Lösung B: (25 – 10 – 8) / 25 = 7 / 25 = 0.28 = 28 %
Modus
Jene Merkmalsausprägung, die am häufigsten genannt wurde, heißt Modus.
Ordnung
Die Merkmalsausprägungen haben eine logische Reihenfolge, eine Ordnung
Daher sind das Balkendiagramm und die Häufigkeitstabelle in dieser Form irreführend
Ist Mittelwert robust von Ausreißern
nein
Mittelwert bei ordinalskalierten Daten verwenden?
nein
Ist die Standartabweichung ein Lagemaß?
Nein
Grundgesamtheit vs. Stichprobe
Hier ist die Grundgesamtheit die Menge aller
Studierenden der Ernährungswissenschaften (EW).
• Da wir nicht alle Studierende befragen können (oder wollen), ziehen wir eine Stichprobe der Größe 25.
• Je größer die Stichprobe, desto aussagekräftiger sind
in der Regel die Tendenzen.
– Ausnahme: Bei Verzerrungen (wie etwa Selektionbias
Qualitative Merkmale können
ordinalskaliert
oder nominalskaliert sein
ordinalskaliert
Zwischen den Ausprägungen besteht eine Ordnung (Lieblingsjahreszeit, Gefahr von Genfood, Schulnoten)
nominalskaliert
Die Kategorien bzw. Ausprägungen haben keine Ordnung (Geschlecht, Lieblingsobst, Lieblingsfarbe)
dichotome Merkmale
binäre Variablen) haben genau zwei Ausprägungen (männlich/weiblich, Ja/Nein, Dafür/Dagegen).
Sinn und Unsinn des Modus
• Ist der Modus bei der Größe sinnvoll?
– Nein, denn es gibt viel zu viele Merkmalsausprägungen.
– Hier gibt es zB 4 Modi (163.5, 170.5, 172, 174.5).
• Je weniger Merkmalsausprägungen, desto sinnvoller ist der Modus.
• Denn der Modus soll idealerweise über mehrere
unterschiedliche Stichproben hinweg stabil bleiben.
Kategorisierung von Daten
Wir bilden (gleich große) Klassen in Form von Intervallen:
– (150, 155], (155,160], (160, 165], …, (185, 190], (190, 195]
– Eine Person mit 155 cm fällt noch ins Intervall (150, 155].
• Wir zählen, wie viele Personen in jede Klasse fallen.
• Wir erhalten eine kategorisierte Version der Daten, in der wir zwar Genauigkeit verloren, dafür aber Überblick
gewonnen haben.
– Das Histogramm ist geboren!
• Die optimale Anzahl an Klassen hängt von den Daten ab, je mehr Beobachtungen, desto mehr Klassen möglich.
Histogramm
Wie groß sind die Studierenden der Gruppe im Durchschnitt / im Mittel? (Wo ist das Zentrum?)
Lagemaßen
Wie stark schwanken die einzelnen Körpergrößen der Studierenden? (Was spielt sich um das Zentrum ab?)
Streuungsmaßen.