Univariate deskriptive Statistik Flashcards

1
Q

Deskriptive Statistik - Ziele

A

Deskriptiv = Beschreibend = Keine Aussage zu einer über die untersuchten Fälle hinausgehenden Grundgesamtheit möglich, keine Überprüfung von Hypothesen möglich

Ziel = empirische Daten durch Tabellen, Kennzahlen (Maßzahlen/Parameter) und Grafiken übersichtlich darzustellen und zu ordnen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Diagramme und Grafiken

A

Nominalskalierte Diagramme:

  • Kreisdiagramme
  • Stab- und Säulendiagramme
    • Säulendiagramme: Die Höhen der Säulen geben die Häufigkeit wider
  • Balkendiagramme

Ordinalskalierte Diagramme:

  • Stab- und Säulendiagramme
  • Balkendiagramme
    • Ordnung auf der Abszisse (x-Achse) ist festgelegt

Mind. Intervallskalierte Diagramme:

  • Histogramme
    • Die Flächen der Säulen geben die Häufigkeit wider
      • Abszissenwerte (Breite), bk
      • Ordinatenwerte (Höhe)

= Häufigkeit (der jeweiligen Klasse) : Abszissenwerte (Klassenbreite)

  • Die Ordinatenwerte sind unerheblich für das Verständnis. Sie werden lediglich so konstruiert, dass sie, multipliziert mit der Klassenbreite, gleich der Häufigkeit sind.

Grafiken:

  • Geben Auskunft über Lage und Streuung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Eigenschaften von Variablen

A

Stetig/diskret

  • Stetig: nicht abzählbar, unendliche Anzahl
  • Diskret: abzählbar, begrenzte Anzahl an Ausprägungen

Kontinuierlich/kategorial

  • Kontinuierliche: vorgegebener Wertebereich, in dem die Variable jeden beliebigen Wert annehmen kann
  • Kategoriale: Kategorien abbildend

Qualtitativ/Quantitativ

  • Qualitativ: Nominalskaliert, evtl. teilweise Ordinalskaliert, endliche Ausprägungen
  • Quantitativ: Ausprägungen, die ein Ausmaß bzw. Intensität darstellen (ordinal – absolutskaliert)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Skalenniveaus

A

Je nachdem, welchen Informationsgehalt man hat, sind unterschiedliche Operationen möglich.

Nominalskala: (meist diskret)

  • Modus (Modalwert)
  • Qualitativ
  • = / #
  • Z.B. Geschlecht (Mann oder Frau)

Ordinalskala: (meist diskret)

  • Median, Quartile, Quantile, Perzentile, und wie Nominal
  • Qualitativ
  • Rangordnung (Abstände unbekannt)
  • = / # und < / >
  • Z.B. Schulnoten, Dienstgrad

Intervallskala: (diskret, meist stetig)

  • Arithmetische Mittel (inkl. Gewichtet, getrimmt), und wie Ordinal
  • Quantitaiv
  • Kardinal (metrisch)
  • Kein natürlicher Nullpunkt und keine natürliche Maßeinheit
  • = / # und < / > und + / -
  • Z.B. Stetig: Temperatur in Celsius, Kalenderzeit

Verhältnisskala/Rationalskala: (diskret, meist stetig)

  • Geometrisches und harmonisches Mittel, und wie Intervall
  • Quantitaiv
  • Kardinal (metrisch)
  • Natürlicher Nullpunkt aber keine natürliche Maßeinheit
  • = / # und < / > und + / - und * / %
  • Z.B. Stetig: Temperatur in Kelvin, Längenmaß, diskret: Alter

Absolutskala: (diskret)

  • Wie Verhältnisskala
  • Quantitaiv
  • Kardinal (metrisch)
  • Natürlicher Nullpunkt und natürliche Maßeinheit
  • = / # und < / > und + / - und * / %
  • Z.B. Einwohnerzahl
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Häufigkeiten und Häufigkeitsverteilung

A

Absolute Häufigkeit

  • die Anzahl der Werte mit der Merkmalsausprägung x

Relative Häufigkeit

  • Ergibt sich aus der Division der absoluten Häufigkeit durch die Gesamtanzahl aller Werte

Kumulierte Häufigkeit (relative und absolute möglich)

  • Ist eine aufsummierte Häufigkeit. Ordinalskalenniveau notwendig. Z.B: kumulierte Häufigkeit der Note 4 = Häufigkeit der Noten 1-4

Häufigkeitsverteilung

  • ist eine Funktion, die zu jeder vorgekommenen wie auch zu jeder möglichen Merkmalsausprägung angibt, wie häufig sie vorgekommen ist –> wieviele Werte haben die Merkmalsausprägung y?
  • eine Häufigkeitsverteilung kann eindimensional (ein Merkmal) oder mehrdimensional (mehrere Merkmale –> versch. Ausprägungskombinationen) sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Kennwerte

A
  • stochastische Kennwerte gebern stellvertretend für die vielen einzelnen Werte Auskunft über die Gesamtverteilung einer Variable
  • es gibt verschiedene Kennwerte, die unterschiedliche Informationen liefern
  • welche man verwendet, hängt vom Skalenniveau der Daten ab
  • zentrale Kategorien von Kennwerten:
    • Lagemaße - welcher Wert ist am repräsentativsten für die Verteilung?
    • Streuungsmaße - wie breit oder eng ist die Verteilung; wie homogen/heterogen ist sie?
    • Zusammenhangsmaße (nur bei mind. 2 Variablen) - gehen hohe Werte der einen Variable auch mit hohen Werten der anderen einher?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Lagemaße

A

Modalwert / Modus: (der häufigste Messwert einer Verteilung)

  • Nominalskala +

Median: (​Der Median teilt eine Liste von Messwerten in zwei Hälften - 50% aller Messwerte sind kleiner oder gleich und somit auch größer oder gleich)

  • Ordinalskala +
  • Alle Werte werden (aufsteigend) geordnet
  • Wenn die Anzahl der Werte ungerade ist, ist die mittlere Zahl der Median. Wenn die Anzahl der Werte gerade ist, wird der Median meist als arithmetisches Mittel der beiden mittleren Zahlen definiert
  • minimiert die Summe der absoluten Abweichungen (Betrag)
  • Vorteil gegenüber arith. Mittel: Robustheit gegenüber Ausreißern!
  • der Median ist ein spezielles Quantil

Mittelwert / arithmetisches Mittel: (Summe aller Messwerte durch die Anzahl aller Messwerte)

  • Intervallskala +
  • Summe der Abweichungen ist immer Null
  • minimiert die Summe der quadrierten Abweichungen
  • am sensitivsten für Ausreißer
  • Ungewogener Mittelwert: ganz normal, ich addiere alle Messwerte und teile durch n
  • Gewogener / gewichteter Mittelwert: ich addiere die Mittelwerte von mehreren Untergruppen (gewichtet) und ermittle so den Gesamt-Mittelwert –> gleiches Ergebnis
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Streuungsmaße

A

Spannweite / Streubereich:

  • Differenz zwischen größtem und kleinsten Messwert
  • Ordinalskala +
  • ganz und gar nicht robust gegenüber Ausreißern, da nur aus zwei Kennwerten berechnet

Interquartilsabstand / -bereich:

  • Differenz zwischen 3. und 1. Quartil; IQA/IQR = Q3 - Q1
  • Sortieren der Stichprobe der Größe nach - wie breit ist das Intervall in dem die mittleren 50% der Stichprobenelemente liegen?
  • Ordinalskala +

Varianz

  • Mittlere quadratische Abweichung der Messwerte vom Mittelwert
  • Warum quadratisch? - Summer der einfachen Abweichung vom Mittelwert ergibt immer Null
  • Intervallskala +

Standardabweichung

  • Quadratwurzel aus der Varianz

Zu Streeung sagt man auch Dispersion. Wenn bei nominalskaliersten Variablen alle Kategorien gleich häufig besetzt sind, dann ist die Dispersion maximal. Wenn alle Merkmalsträger in der gleichen Kategorie sind, ist die Dispersion minimal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

z-Werte

A
  • der z-Wert eines ursprünglichen Wertes gibt Auskunft über dessen relative Lage zum Mittelwert ausgedrückt in Standardabweichungen
  • solche transformierten Werte lassen sich dann besser mit Werten aus anderen Datensätzen vergleichen
  • das Arit. Mittel der transformierten Verteilung ist 0 und die Standardabweichung ist 1
  • 90% der z-Werte liegen zwischen -1,65 und 1,65
  • 95% der z-Werte liegen zwischen -1,96 und 1,96
  • 99% der z-Werte liegen zwiwchen -2,58 und 2,58
How well did you know this?
1
Not at all
2
3
4
5
Perfectly