2. Univariate Deskriptivstatistik (fe/lm) Flashcards

1
Q

wofür braucht man Lagemasse?

was für welche gibt es? (7)

A

um zu beschreiben, wie die Verteilung im Durchschnitt ist. Sie beschreiben die Lage der Verteilung.

Modus
Median
arithmetisches Mittel
gewogenes arithmetisches Mittel
geometrisches Mittel
getrimmtes Mitteol (robustes Lagemass)
winsorisiertes Mittel (robustes Lagemass)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Box- und Whiskers-Diagramm:

was beschreibt die Box bzw. wo befindet sie sich/durch was ist sie begrenzt, welche Merkmale besitzt sie?

A

die Box ist unten begrenzt durch Q1 und oben durch Q3.

in der Box befinden sich also 50% der Werte.

der Strich in der Box repräsentiert den Median.

der Abstand zwischen Q1 und Q3 ist der Interquartilsabstand (Q3-Q1 = IQA)

Interquartilsbereich = IQB = [Q1; Q3]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Box- und Whiskers-Diagramm:

beschreibe die Whyskers und wie sich ebd. berechnen lassen.

A

die Whyskers beschreiben, wie weit der der Wert über den IQA hinausgehen –> breite Verteilung = lange Linien; schmale Verteilung = kurze Linien

der obere Whyskers lässt sich berechnen durch: Q3+1.5*IQA bzw. Wert direkt darunter (wenn der Wert Q3+1.5*IQA nicht in der Verteilung vorhanden ist)

der untere Whyskers lässt sich berechnen durch: Q1-1.5*IQA bzw. Wert direkt darüber (wenn der Wert Q1+1.5*IQA nicht in der Verteilung vorhanden ist)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Box- und Whiskers-Diagramm:

wie definieren sich Ausreisser und Extremwerte?

A

Ausreisser befinden sich im Bereich zwischen Q3 bzw. Q1 +/- 1.5*IQA und Q3 bzw. Q1 +/- 3*IQA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Box- und Whiskers-Diagramm:

je nachdem wo der Median in der Box liegt, lässt sich etwas über die Kurvenform sagen. erkläre.

A

wenn:

Md genau in der Mitte = symmetrisch

Md in der oberen hälfte = rechtssteil

Md in unterer Hälfe = linkssteil

kleiner Tipp: rotiere die Box im Uhrzeigersinn um 45° –> strich auf der rechten Seite = rechtssteil, Strich auf der linken Seite = linkssteil

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Stammblatt:

was kann man beim Stammblatt ablesen?

mache ein Beispiel

A

Häufigkeit (Frequency) –> wie viele Blätter hat der Stamm (Modus bestimmbar–> dort wo die höchste Häufigkeit)

  • *Stamm** –> gibt die Breite einer Klasse / Intervals an
  • -> ob es sich um Zehner, einer, Zehntel usw handelt.

Blätter –> eine Zahl = ein Blatt = ein Messwert bzw. eine Person

z.B. sortierte Urliste {12,23.6,25,32,32.7,34,40.01,49}

Frequency Stem & Leaf

     1               1  | 2
     2              2 | 35
     3              3 | 224
     2              4 | 09

Stem width: 10 each leaf: 1 case

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

was ist der Modus (Md)?
für welche Skalenniveaus ist er bestimmbar (sinnvollerweise)?

A

Modus = Merkmalsausprägung, die am häufigsten vorkommt (wenn es sich um Kategorien handelt nimmt man die Kategorienmitte)

er ist bei allen Skalenniveaus bestimmbar, aber ACHTUNG: bei ordinalskalierten Daten macht es wenig sinn, wenn es Rangdaten sind (und jeder Rang nur einmal vorkommt) oder bei verhältnisskalierten Daten, bei denen man bspw. die Reaktionszeit so genau bestimmt, dass jeder Wert nur noch einmal vorkommt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

was ist der Median?

was ist die Formel für den Median bei:

a) ungeradem n
b) geradem n

A

der Median teilt die Werte in zwei gleich grosse Teile –> 50% der Werte liegen überhalb des Medians und 50% der Werte liegen unterhalb des Medians.

x = Messwert
n+1/2 = stelle in der Liste
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

welche Eigenschaft besitzt der Median?

A

die Summe der AbweichungsBeträge aller Messwerte vom Median ist kleiner als die Summe der Abweichungsbeträge von irgend einem anderen Wert.
WICHTIG: Der Betrag –> |x| hebt die Vorzeichen auf

heisst so viel wie: wenn man den Betrag von den jeweiligen (Messwerte minus den Median) zusammenzählt, ist das Resultat das kleinstmögliche, als wenn man bspw. anstatt vom Median die Abweichung vom Mittelwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Arithmetisches Mittel:

was ist es, was ist die Formel dazu?

A

M, Mx xquer = Mittelwert = Summe aller Werte, geteilt durch die Anzahl Werte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Arithmetisches Mittel (wenn ein Wert mehrere Male vorkommt) Formel

A
  • aj bezeichnet hier die Merkmalsausprägung
  • K: Anzahl der Merkmalsausprägung
  • nj: absolute Häufigkeit von aj
  • n: Anzahl Personen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

was ist die erste Eigenschaft des arithmetischen Mittels? (bezüglich summe der Abweichungen)

A
  1. Summe der Abweichungen vom Mittelwert beträgt stets 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

was ist die zweite Eigenschaft vom arithmetischen Mittel?

(bezüglich Summe der quadrierten Abweichungen)

A

die Summe der quadrierten Abweichungen der Messwerte vom Mittelwert ist immer kleiner als die (quadrierte) Abweichung von einem anderen Wert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

was ist die dritte Eigenschaft des arithmetischen Mittels?

(bezüglich Addition)

A

wenn man zu jedem Messwert Xm eine additive Konstante a addiert, verändert sich der Mittelwert um genau diese Konstante.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

was ist die vierte Eigenschaft des arithmetischen Mittels?

A

wenn man jeden Messwert Xm mit einer Konstante b multipliziert, verändert sich der Mittelwert auch um genau dieses Multiplikat.

beachte: Punkt vor Strich

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

was folgt aus der dritten und vierten Eigenschaft des arithmetischen Mittels? (Addition einer Konstante und Multiplikaiton einer Konstante)

A

es folgt eine lineare Transformation bzw. man kann eine lineare Transformation vornehmen

17
Q

Vergleiche Modus, Median und Mittelwert (6).

A
  1. Median repräsentiert die Lage einer Verteilung nach dem Kriterium der kleinsten Absolutabweichung
  2. Arithmetisches Mittel repräsentiert die Lage einer Verteilung nach dem Kriterium der kleinsten Quadrate
  3. Mittelwert = gut bei symmetrischen unimodalen Verteilungen
  4. Mittelwert reagiert sensitiv auf extreme Werte
  5. der Median ist besser für die Interpretation geeignet, wenn es extreme Werte hat
18
Q

was ist das gewogene arithmetische Mittel (GAM) bzw. wofür braucht man es?

beschreibe die Formel

A

man braucht es, wenn man die Mittelwerte über mehrere Stichproben hinweg mitteln will.

–> man muss die Stichprobengrösse noch gewichten (kann nicht einfach die Mittelwerte vergleichen)

19
Q

was ist das Geometrische Mittel (GM)? wann kann man es anwenden, was erreichen wir damit?

A

beim GM wird die Relation mitberücksichtig –> das GM behält die Relation über die Messwerte

nur für Verhältnis- und absolutskalierte Daten.

–> es wird aufmultipliziert

20
Q

Bsp. GM des Lebensalter von 4 Personen im alter von 42, 43, 55, 61

A
21
Q

Beispiel für das GAM:

n1 = 100 Studierende mit dem Mittelwert von 24 Punkten

n2 = 80 Studierende mit dem Mittelwert von 20 Punkten

wie sieht die Formel aus?

A
22
Q

was für robuste Lagemasse kennst du? für was sind ebd. überhaupt?

A

bei robusten Lagemassen wurde das Problem der Aussreisser behoben. es gibt u.a.:

das getrimmte Mittel (xquer tief t)

das winsorisierte Mittel (xquer tief w)

23
Q

erkläre das getrimmte Mittel

gib ein Beispiel

A

es wird eine bestimmte Anzahl an “kleinsten Werten” und eine bestimmte Anzahl an “grössten Werten” entfernt

Bsp. es sollen 20% der Werte entfernt werden (bei n=10)
1,7,18,20,25,33,39,45,113,1101

–> 0.2*10= 2 –> es werden also die untersten und obersten zwei Werte entfernt, es bleibt: 18,20,25,33,39,45

  • -> Xt= (18+20+25+33+39+45) / 6 = 30
  • -> zum Vergleich: Mx = 140.2

–> WENN DAS ERGEBNIS KEINE GANZE ZAHL IST, WIRD ES ABGERUNDET!

24
Q

Was ist das Problem beim getrimmten Mittel?

A

Extremwerte werden entfernt, was ein sehr unökonomisches Vorgehen ist, da man Daten “verschwendet”.

25
Q

was ist das Winsorisierte Mittel?

gib ein Beispiel

A

wie das getrimmte Mittel behebt das winsorisierte Mittel das Problem der Extremwerte.

Man geht wie beim getrimmten Mittel vor, nur anstatt das man die Werte entfernt, setzt man sie (die zu entwernenden) mit dem nächsten Wert gleich.

Beispiel:

20% bei n=10
1,7,18,20,25,33,39,45,113,1101

–> 0.2*10= 2 –> es werden also die untersten und obersten zwei Werte mit dem nächst grössten bzw. dem nächst kleinsten gleichgesetzt: 18;18;18,20,25,33,39,45;45;45

–> Xw = 30.6

–>zum Vergleich Xt = 30 ; Mx = 140.2

26
Q

was ist der Streubereich und was ist die Variationsbreite?

gib ein Beispiel an für die Werte [4,5,32,44,88,89,93]

A

SB = [Xmin; Xmax]

v = Xmax - Xmin –> sensibel gegenüber Ausreissern

SB = [4; 93]

v = 93-4 = 89

27
Q

wie berechnet man Q1 und Q3?

A

Q1 : man rechnet n*0.25

–> wenn n*0.25 eine ganze Zahl ergibt, so muss man diesen Wert, + den nächst folgenden Nehmen und den Durchschnitt davon berechnen –> Q1 = 0.5 (Xq + Xq+1)

–> wenn n*0.25 keine ganze Zahl ist, dann runden wir die Zahl auf die nächste ganze Zahl auf

analog dazu funktioniert die Berechnung von Q3

28
Q

berechne Q1 und Q3 für
a) 4;6;7;8;9;13;16;19;33;37

b) 55;56;63;68:99;101;106;180;181

A

a) 4;6;7;8;9;13;16;19;33;37

Q1: 10*0.25 = 2.5 –> Q1 = der dritte Wert: 7
Q3: 10+0.75 = 7.5 –> Q3 = der achte Wert: 19

b) 55;56;63;68:99;101;106;180

Q1: 8*0.25 = 2 –> ALSO: Mittelwert von: 8*0,25 + 8*0.25+1
–> 2te + 3te Wert / 2 = 56+63 / 2 = 59.5
Q1 = 59.5
(willst du das Box.Plot zeichnen: 59.5 existiert aber nicht in der Verteilung, daher ist 56 der Wert, der an 25% der Verteilung abschneidet)

Q3 = 8*0.75 = 6 –> Analog zu Q1: 101+106 / 2 = 103.5
Q3 = 103.5
(willst du das Box.Plot zeichnen: 103.5 existiert aber nicht in der Verteilung, daher ist 101 der Wert, der an 75% der Verteilung abschneidet)

?????

29
Q

p-Quantil berechnen: wie berechnet man die p-quantile, für welchen Wertebereich gelten sie?

A

–> p*100% der Daten sind kleiner oder gleich Xp

es gelten die gleichen Rechenregeln für die Quantile wir für die Quartile:

Xp = Xq –> falls n*p keine ganze Zahl ist (q ist die nächste ganze Zahl)

Xp = 0.5*(Xq+Xq+1) –> falls n*p eine ganze Zahl ist (q = n*p)

30
Q

wie kann man Quantile als Mass der Streuung nutzen?

was ist der Vorteil davon?

A

wenn man nur ein Quantil berechnet, kann man nur die Lage bestimmen. berechnet man hingegen zwei Quantile, so kann man einen Streubereich berechnen.

bsp.: Interdezilabstand (IDA) = P90 - P10

–> ist robust gegenüber Ausreissern

31
Q

wie berechnet man die empirische Varianz, bzw. was ist ebd?

was ist das Problem dabei?

wie lautet die Formel?

A

die (empirische) Varianz ist das arithmethische Mittel der quadrierten Abweichungen der Messwerte vom Mittelwert.

–> die Varianz ist aber nur schlecht interpretierbar

32
Q

was ist die empirische Standardabweichung?

wie lautet die Formel?

A

= die durchschnittliche Abweichung vom Mittelwert

=Sx ist die Wurzel aus der Varianz

–> ist viel besser interpretierbar

33
Q

was ist die Stichprobenvarianz und was ist der Unterschied zur empirischen Varianz?

wie lautet die Formel?

was wäre dann dementsprechend die Stichprobenstandardabweichung?

A

der Unterchied zur empirischen Varianz besteht darin:
empirische Varianz ist die Varianz, welche genau für die Stichprobe gilt.

die Stichprobenvarianz hingegen gilt für die Population (Stichprobenvarianz deshalb, weil aus der Stichprobe heraus die Varianz für die Population geschätzt wird).

–> es ist lediglich eine Schätzung

die Stichprobenstandardabweichung ist dann (analog zur empirischen) einfach die Wurzel aus der Stichprobenvarianz.

34
Q

nenne 3 Eigenschaften für die Varianz und die Standardabweichung.

A
  1. Sie reagieren beide empfindlich auf Ausreisser
  2. wenn man zu den Messwerten immer eine Konstante addiert, dann ändert sich die Varianz und die Standardabweichung nicht.
  3. multipliziert man hingegn die Messwerte mit der Konstante b, so wird die Varianz um den Faktor b^2 erhöht und die Standardabweichung um den Betrag von b
35
Q

wofür braucht man die z-Transformation? wie lautet die Formel?

wie nennt man die Werte, welche aus der z-Transformation resultieren?

wie lautet die Formel?

wird die Form der Verteilung durch die Transformation beeinflusst? wenn ja, wie?

A
  • man braucht sie, damit wir die Einzelwerte besser interpretieren können, wir können dann sagen, wie ein bestimmter Wert relativ zu den anderen steht.
  • die Werte, die aus der Transformation resultieren nennen wir Standardwerte.
  • die Form der Verteilung wird nicht beeinflusst durch die Transformaiton.
36
Q

mache ein Beispiel für eine z-Transformaiton, wenn:

In Deutschland liegt der durchschnittliche Bierkonsum bei Mx=30, und die Standardabweichung liegt bei s=7.

In England liegt der durchschnittliche Bierkonsum bei Mx=15 und die Standardabweichung liegt bei s=5

  • *Therese** ist Deutsche. X1=22
  • *Sir Henry poopy pants** ist Brite. X2=22

berechne die z-Transformation

A

also: Therese liegt -1.14 unter der Standardabweichung (trinkt also weniger Bier als der Durchschnitt) und der Brite liegt 1.4 über der Standardabweichung (er trinkt also mehr Bier als der Durchschnitt)