6. Zusammenhänge ermitteln Flashcards

1
Q

Wozu deskriptive Statistik?

A

erlaubt mit einfachen Mitteln große Mengen an Daten einfach verständlich darzustellen.

Ziel: Systematische Darstellung von (empirischen) Daten durch graphische Darstellungen (Tabellen, Graphiken) sowie die Bestimmung von aussagekräftigen Eigenschaften dieser Daten (z.B. Maßzahlen).

Beispiel: Einkommensverteilung in Deutschland
* Betrachten der Daten aller Einwohner zwecklos
* Daher: Angabe von statistischen Werten (Maßzahlen), Benutzung von Graphiken zur Veranschaulichung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Maße der zentralen Tendenz

A

Modus: Der Wert, der am häufigsten vorkommt.

Median: Der mittlere Wert, mindestens die Hälfte alle Werte ist größer oder gleich diesem Wert, mindestens die Hälfte der Fälle ist kleiner oder gleich diesem Wert.

Arithmetisches Mittel: Summe aller Werte geteilt durch die Anzahl der Werte.

-> Es gibt keine eindeutige Regel welches Maß der zentralen Tendenz „besser ist“.

Vorteil Median: „Ausreißer“ werden nicht übermäßig berücksichtigt. Beispiel: {1, 2, 3, 4, 80} . Mittelwert: 18 Median: 3
Und: Median gibt real existierende Werte an, der arithmetische Mittelwert nicht unbedingt: „In jeder Familie leben 1,4 Kinder“

Aber: Gerade bei einer geringen Anzahl an Merkmalsausprägungen kann Aussagekraft des arithmetischen Mittels eher gegeben sein (Vergleich von Fertilitätsquoten in zwei Staaten).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Gewogenes arithmetisches Mittel

A

Problem: Arithmetisches Mittel und Median gewichten jeden Fall gleich.

So wird bei einem Ländervergleich in Deutschland NRW mit über 18 Mio. Einwohnern gleich gewichtet mit Bremen (ca. 660.000 Einw.).

Möglichkeit: Bei der Berechnung des gewogenen arithmetischen Mittel wird jeder Fall mit einer bestimmten Gewichtung (z.B. x 3) berücksichtigt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Streuung

A

Verschiedene Mengen können den gleichen arithmetischen Mittelwert haben, obwohl sie sehr unterschiedliche Werte beinhalten.

Unterscheidung nach Variationsweite:
V = xmax – xmin

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quartilsabstände

A

Um Ausreißern nicht zu großen Einfluss bei der Wiedergabe der Streuung zu geben.

Dazu werden aufsteigend sortierten Werte in vier gleich große Gruppen unterteilt und die Quartile bestimmt.
1. Quartil, 25% der Werte sind kleiner als oder gleich diesem Wert, 75% größer als oder gleich.
2. Quartil (= Median), 50% der Werte sind kleiner als oder gleich diesem Wert, 50% größer als oder gleich.
3. Quartil, 75% der Werte sind kleiner als oder gleich diesem Wert, 25% größer als oder gleich.

Der Quartilsabstand entspricht nun der Differenz zwischen 3. Quartil und 1. Quartil. Die Quartile finden sich auch im Boxplot wieder.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Varianz

A

s^2

Die Streuung der Daten kann auch durch die Standardabweichung und die Varianz angegeben werden.

Varianz = mittlere quadrierte Abweichung vom arithmetischen Mittelwert.

-> Differenz zwischen jedem Wertpaar finden und jedes davon ^2.
-> die addierten quadrierten Werte durch die Länge der Datenreihe teilen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Standardabweichung

A

Problem: Die Varianz steigt bei der Multiplikation aller Werte mit x um den Faktor x2 . Daher wird die Standabweichung (Wurzel der Varianz) benutzt, um ein sinnvolleres Streuungsmaß zu erhalten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Einzelne Streuungswerte

A

Ein einzelner Streuungswert sagt relativ wenig aus. Dafür können aber verschiedene Werte benutzt werden um Gruppen von Fällen miteinander zu vergleichen oder auch im Längsschnittvergleich zu betrachten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Darstellung von Streuungswerten

A

Häufigkeiten können gezählt und dann in Tabellenform dargestellt werden.

  • Kreuztabelle: In einer Kreuztabelle wird die gemeinsame Verteilung von zwei Merkmalen dargestellt. Hiermit können erste Hinweise auf einen Zusammenhang zwischen zwei Merkmalen festgestellt werden. Hierbei ist die weitere Betrachtung durch Zusammenhangsmaße und Testverfahren von Bedeutung.
  • Kreisdiagramm
  • Balkendiagramm
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Darstellung von intervallskalierten Daten

A

Die bisher vorgestellten Graphiken zeigen die Anzahl der Fälle pro Wert an. Bei intervallskalierten Daten macht dies keinen Sinn, da jeder Wert i.d.R. nur einmal vorkommt.
Abhilfe: Darstellung anhand von Histogrammen.

Histogramme

Liniendiagramm

Human Development Index

Boxplot

gestapeltes Balkendiagramm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Darstellung von intervallskalierten Daten:
Histogramme

A

Der Wertebereich der Daten wird in Teilbereiche eingeteilt. Für jeden Teilbereich wird eine Säule mit der Anzahl der Fälle im Teilbereich erstellt.
-> Problem: Die Anzahl der Teilbereiche kann beliebig eingeteilt werden
→ Potential für visuelle Manipulation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Darstellung von intervallskalierten Daten:
Liniendiagramm

A

Längsschnittbetrachtung von Daten. Entwicklung über die Zeit hinweg

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Darstellung von intervallskalierten Daten:
Boxplot

A

Der Boxplot stellt die Werte einer intervallskalierten Variable übersichtlich dar.
o Die Hälfte der Daten befindet sich innerhalb der Box (zwischen dem ersten und dritten Quartil).
o Der Median wird angegeben.
o Ausreißer können Identifiziert werden

(Definition hier: Abstand zu Box mindestens 1,5-fach so groß wie Boxbreite).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly