Univariate deskriptive Statistik Flashcards
Deskriptive Statistik - Ziele
Deskriptiv = Beschreibend = Keine Aussage zu einer über die untersuchten Fälle hinausgehenden Grundgesamtheit möglich, keine Überprüfung von Hypothesen möglich
Ziel = empirische Daten durch Tabellen, Kennzahlen (Maßzahlen/Parameter) und Grafiken übersichtlich darzustellen und zu ordnen.
Diagramme und Grafiken
Nominalskalierte Diagramme:
- Kreisdiagramme
- Stab- und Säulendiagramme
- Säulendiagramme: Die Höhen der Säulen geben die Häufigkeit wider
- Balkendiagramme
Ordinalskalierte Diagramme:
- Stab- und Säulendiagramme
- Balkendiagramme
- Ordnung auf der Abszisse (x-Achse) ist festgelegt
Mind. Intervallskalierte Diagramme:
- Histogramme
- Die Flächen der Säulen geben die Häufigkeit wider
- Abszissenwerte (Breite), bk
- Ordinatenwerte (Höhe)
- Die Flächen der Säulen geben die Häufigkeit wider
= Häufigkeit (der jeweiligen Klasse) : Abszissenwerte (Klassenbreite)
- Die Ordinatenwerte sind unerheblich für das Verständnis. Sie werden lediglich so konstruiert, dass sie, multipliziert mit der Klassenbreite, gleich der Häufigkeit sind.
Grafiken:
- Geben Auskunft über Lage und Streuung
Eigenschaften von Variablen
Stetig/diskret
- Stetig: nicht abzählbar, unendliche Anzahl
- Diskret: abzählbar, begrenzte Anzahl an Ausprägungen
Kontinuierlich/kategorial
- Kontinuierliche: vorgegebener Wertebereich, in dem die Variable jeden beliebigen Wert annehmen kann
- Kategoriale: Kategorien abbildend
Qualtitativ/Quantitativ
- Qualitativ: Nominalskaliert, evtl. teilweise Ordinalskaliert, endliche Ausprägungen
- Quantitativ: Ausprägungen, die ein Ausmaß bzw. Intensität darstellen (ordinal – absolutskaliert)
Skalenniveaus
Je nachdem, welchen Informationsgehalt man hat, sind unterschiedliche Operationen möglich.
Nominalskala: (meist diskret)
- Modus (Modalwert)
- Qualitativ
- = / #
- Z.B. Geschlecht (Mann oder Frau)
Ordinalskala: (meist diskret)
- Median, Quartile, Quantile, Perzentile, und wie Nominal
- Qualitativ
- Rangordnung (Abstände unbekannt)
- = / # und < / >
- Z.B. Schulnoten, Dienstgrad
Intervallskala: (diskret, meist stetig)
- Arithmetische Mittel (inkl. Gewichtet, getrimmt), und wie Ordinal
- Quantitaiv
- Kardinal (metrisch)
- Kein natürlicher Nullpunkt und keine natürliche Maßeinheit
- = / # und < / > und + / -
- Z.B. Stetig: Temperatur in Celsius, Kalenderzeit
Verhältnisskala/Rationalskala: (diskret, meist stetig)
- Geometrisches und harmonisches Mittel, und wie Intervall
- Quantitaiv
- Kardinal (metrisch)
- Natürlicher Nullpunkt aber keine natürliche Maßeinheit
- = / # und < / > und + / - und * / %
- Z.B. Stetig: Temperatur in Kelvin, Längenmaß, diskret: Alter
Absolutskala: (diskret)
- Wie Verhältnisskala
- Quantitaiv
- Kardinal (metrisch)
- Natürlicher Nullpunkt und natürliche Maßeinheit
- = / # und < / > und + / - und * / %
- Z.B. Einwohnerzahl
Häufigkeiten und Häufigkeitsverteilung
Absolute Häufigkeit
- die Anzahl der Werte mit der Merkmalsausprägung x
Relative Häufigkeit
- Ergibt sich aus der Division der absoluten Häufigkeit durch die Gesamtanzahl aller Werte
Kumulierte Häufigkeit (relative und absolute möglich)
- Ist eine aufsummierte Häufigkeit. Ordinalskalenniveau notwendig. Z.B: kumulierte Häufigkeit der Note 4 = Häufigkeit der Noten 1-4
Häufigkeitsverteilung
- ist eine Funktion, die zu jeder vorgekommenen wie auch zu jeder möglichen Merkmalsausprägung angibt, wie häufig sie vorgekommen ist –> wieviele Werte haben die Merkmalsausprägung y?
- eine Häufigkeitsverteilung kann eindimensional (ein Merkmal) oder mehrdimensional (mehrere Merkmale –> versch. Ausprägungskombinationen) sein
Kennwerte
- stochastische Kennwerte gebern stellvertretend für die vielen einzelnen Werte Auskunft über die Gesamtverteilung einer Variable
- es gibt verschiedene Kennwerte, die unterschiedliche Informationen liefern
- welche man verwendet, hängt vom Skalenniveau der Daten ab
- zentrale Kategorien von Kennwerten:
- Lagemaße - welcher Wert ist am repräsentativsten für die Verteilung?
- Streuungsmaße - wie breit oder eng ist die Verteilung; wie homogen/heterogen ist sie?
- Zusammenhangsmaße (nur bei mind. 2 Variablen) - gehen hohe Werte der einen Variable auch mit hohen Werten der anderen einher?
Lagemaße
Modalwert / Modus: (der häufigste Messwert einer Verteilung)
- Nominalskala +
Median: (Der Median teilt eine Liste von Messwerten in zwei Hälften - 50% aller Messwerte sind kleiner oder gleich und somit auch größer oder gleich)
- Ordinalskala +
- Alle Werte werden (aufsteigend) geordnet
- Wenn die Anzahl der Werte ungerade ist, ist die mittlere Zahl der Median. Wenn die Anzahl der Werte gerade ist, wird der Median meist als arithmetisches Mittel der beiden mittleren Zahlen definiert
- minimiert die Summe der absoluten Abweichungen (Betrag)
- Vorteil gegenüber arith. Mittel: Robustheit gegenüber Ausreißern!
- der Median ist ein spezielles Quantil
Mittelwert / arithmetisches Mittel: (Summe aller Messwerte durch die Anzahl aller Messwerte)
- Intervallskala +
- Summe der Abweichungen ist immer Null
- minimiert die Summe der quadrierten Abweichungen
- am sensitivsten für Ausreißer
- Ungewogener Mittelwert: ganz normal, ich addiere alle Messwerte und teile durch n
- Gewogener / gewichteter Mittelwert: ich addiere die Mittelwerte von mehreren Untergruppen (gewichtet) und ermittle so den Gesamt-Mittelwert –> gleiches Ergebnis
Streuungsmaße
Spannweite / Streubereich:
- Differenz zwischen größtem und kleinsten Messwert
- Ordinalskala +
- ganz und gar nicht robust gegenüber Ausreißern, da nur aus zwei Kennwerten berechnet
Interquartilsabstand / -bereich:
- Differenz zwischen 3. und 1. Quartil; IQA/IQR = Q3 - Q1
- Sortieren der Stichprobe der Größe nach - wie breit ist das Intervall in dem die mittleren 50% der Stichprobenelemente liegen?
- Ordinalskala +
Varianz
- Mittlere quadratische Abweichung der Messwerte vom Mittelwert
- Warum quadratisch? - Summer der einfachen Abweichung vom Mittelwert ergibt immer Null
- Intervallskala +
Standardabweichung
- Quadratwurzel aus der Varianz
Zu Streeung sagt man auch Dispersion. Wenn bei nominalskaliersten Variablen alle Kategorien gleich häufig besetzt sind, dann ist die Dispersion maximal. Wenn alle Merkmalsträger in der gleichen Kategorie sind, ist die Dispersion minimal.
z-Werte
- der z-Wert eines ursprünglichen Wertes gibt Auskunft über dessen relative Lage zum Mittelwert ausgedrückt in Standardabweichungen
- solche transformierten Werte lassen sich dann besser mit Werten aus anderen Datensätzen vergleichen
- das Arit. Mittel der transformierten Verteilung ist 0 und die Standardabweichung ist 1
- 90% der z-Werte liegen zwischen -1,65 und 1,65
- 95% der z-Werte liegen zwischen -1,96 und 1,96
- 99% der z-Werte liegen zwiwchen -2,58 und 2,58