Univariate Deskriptive Statistik Flashcards

1
Q

B: Tabelle mit absoluten Häufigkeiten ausgeben

A

table(object$variable)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Def: Relative Häufigkeiten

A

Die an der Gesamtzahl der Objekte relativierten Häufigkeiten. Bei n Objekten teilt man die absoluten Häufigkeiten der Merkmalsausprägungen durch n.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

B: Tabelle mit relativen (table of proportions) Häufigkeiten ausgeben

A

prop.table(table(object$variable))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

B: Das Ergebnis auf zwei Stellen runden

A

round(( … ),2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Bsp: Die relativen Häufigkeiten aus object$variable in Prozent ausgeben und auf zwei Stellen runden

A

round(100*prop.table(table(object$variable)), 2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Mit welchem Prinzip kann man die Aussage “haben die Note 3 oder besser” darstellen?

A

kumulierte absolute Häufigkeiten (die abs.H wird zu den abs.H der kleineren Merkmalsausprägungen hinzuaddiert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

B: kumulierte absolute Häufigkeiten der table(object$variable) ausgeben

A

cumsum(table(object$variable))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

B: kumulierte relative Häufigkeiten der table(object$variable)

A

cumsum(prop.table(table(object$variable)))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Bsp: kumulierte relative Häufigkeiten der table(object$variable) in Prozent

A

cumsum(100*prop.table(table(object$variable)))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Bsp: gerundet auf 2 Stellen in Prozent, kumulierte relative Häufigkeiten der table(object$variable)

A

round(cumsum(prop.table(table(object$variable))), 2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

B: verschiedene Werte in einer Tabelle zusammenführen “binden”

A

cbind( )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Bsp: Tabelle von object$variable und den Prozentwerten der relativen Häufigkeiten

A

cbind(table(object$variable), 100*prop.table(table(object$variable)))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

B: Säulendiagramm erstellen aus object$variable

A

barplot(table(object$variable))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

B: Label der Diagramm-Achsen beschriften

A

ylab=”Y-Achse”, xlab=”X-Achse”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

B: Histogramm aus object$variable

A

hist(object$variable, xlab=”…”, ylab=”…”)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

B: Modalwert ausgeben

A

which.max(table( ))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wie viele Modalwerte kann eine Häufigkeitsverteilung haben?

A

beliebig viele

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

B: Median ausgeben

A

median( )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Bei fehlenden Variablen möchte man diese nicht in die Rechnung einfließen lassen. Mit welchem Befehl lassen sich fehlende Werte aus Berechnungen entfernen?

A

na.rm = T z.B. median(object$variable, na.rm = T)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

In welcher Reihenfolge kann man verschiedene Skalenniveaus sinnvoll aufzählen?

A

1) Nominalskalenniveau 2) Ordinalskalenniveau 3) Intervallskalenniveau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Ab welchem Skalenniveau kann man das arithmetische Mittel anwenden?

A

Intervallskalenniveau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

B: Arithmetisches Mittel ausgeben

A

mean(object$variable) (+, na.rm = T)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

B: Streubereich ausgeben

A

range( )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Spannweite (Differenz zwischen größtem und kleinstem Wert) ausgeben

A

diff(range( ))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
B: Quartile ausgeben
quantile( )
26
B: Interquartilsabstand ausgeben
IQR( ) #interquartilerange
27
B: Quantil für 10% ausgeben
quantile(object$variable, 0.10, na.rm = T)
28
B: Prozentrang ausgeben (empirical cumulative distribution function)
ecdf(object$variable)(num.Ausprägung)
29
B: Prozentrang als Graphen ausgeben
plot.ecdf( )
30
B: Varianz für Variable ausgeben
var(object$variable, na.rm = T)
31
B: Standardabweichung ausgeben
sd(object$variable, na.rm = T)
32
B: Übersicht über verschiedene Kennwerte ausgeben, quasi die Variable "beschreiben"
describe( )
33
B: Median der absoluten Abweichung
mad(object$variable, na.rm = T)
34
Zentrierung
Für bessere Übersichtlichkeit kann man Werte zentrieren. Dazu zieht man von jedem Wert xm den Mittelwert der Verteilung xmean ab xm - xmean Nach einer Zentrierung ist somit der Mittelwert immer gleich 0
35
F: *z*-Standardisierung
Form der Standardisierung, wobei der Mittelwert immer = 0 ist und die Standardabweichung immer = 1 Jeder zentrierte Wert (xm-xmittel) wird durch Standardabweichung der Verteilung geteilt (*sx*) Wenn für jeden Wert der x-Verteilung diese Formel angewandt wurde, hat man eine z-Verteilung (wobei immer gilt: mean=0 und sZ = 1 )
36
Welche Methoden kann man anwenden, um eine bessere Vergleichbarkeit bei z.B. zwei verschiedenen Intelligenztests zu erreichen?
1. *z*-Standardisierung 2. Zentrierung
37
Welche sind die englischen Fachbegriffe für "Breitgipflig" und "Schmalgipflig"? (Kurti C.)
1. Platykurtic 2. leptokurtic (Flach wie ein Platypus und schmal wie ein Lepra-Toter namens Kurti C.)
38
Wie nennt man die statistischen Kennwerte, um die Form des Gipfels und der Enden einer Verteilung zu quantifizieren?
Kurtosis (bedeutet Wölbung)
39
F: Kurtosis
(siehe Bild) Für Vergleich mit Normalverteilung (x2) zieht man den Wert 3 ab 3 ist das Ergebnis für *K* bei einer Normalverteilung
40
F: Schiefe
engl. Skewness linksgipflig: positiver Wert ohne Neigung: 0 rechtsgipflig: negativer Wert
41
Def: Matrix
eine Anordnung von Daten in einem rechteckigen Schema (Form: n · p) Zeile**n** · S**p**alten Angeordnet sind darin **Merkmalsträger** **Merkmale** und **Messwerte** Auch Zeilen und Spalten sind jeweils eine Matrix und kann man sie -vektor nennen.
42
Def: Index
1. Index für Merkmalsträger *M* = {1, ..., m, ..., n} 2. Index für Merkmale *I* = {1, ..., i, ..., p} 3. Index für Merkmalsausprägungen *J* = {1, ..., j, ..., k}
43
absolute Häufigkeit
Anzahl aller Merkmalsausprägungen
44
relative Häufigkeit
Anteil der Merkmalsausprägung im Vergleich zur absoluten MA
45
Prozentwert
relative Häufigkeit mit 100 multipliziert
46
Zentrale Tendenz
Es soll der **durchschnittliche, mittlere** oder besonders **typische** Messwert einer Verteilung angegeben werden
47
Modalwert / Modus
Wert derjenigen Kategorie, welcher die meisten Merkmalsträger angehören
48
Dispersion
Wie sehr sich die Merkmalsträger über die Kategorien ausbreiten oder konzentrieren
49
F: Relativer Informationsgehalt
Drückt aus, wie groß die Dispersion ist
50
Singuläre Daten
z.B. Laufwettbewerb (Ordinalskaliert) 1,2,3,4,5 ... *n* *Wenn zwei Personen zur gleichen Zeit ins Ziel gekommen sind, teilen sie sich einen Rangplatz; es liegen dann Rangbindungen oder verbundene Ränge vor*
51
Kategoriale Daten mit geordneten Kategorien
z.B. Schulnoten (auch Ordinalskaliert) Werte werden geordneten Kategorien zugeordnet. Etwa "sehr gut" bis "ungenügend"
52
Prozentrangwert eines Merkmalsträgers
Prozentsatz von Merkmalsträgern, die eine **gleich große** oder eine **kleinere** Merkmalsausprägung aufweisen.
53
Rangbindung
z.B. zwei Testpersonen haben den gleichen Wert und teilen sich den dritten Platz. Gezählt wird dann 1; 2; 3,5; 5
54
Mittlerer Rangplatz
Bei Rangbindung: mittlerer Rangplatz = Mittelwert der verbundenen Rangplätze
55
Kumulierte Häufigkeiten
Menge aller Objekte, welche diese oder eine kleinere Merkmalsausprägung aufweisen.
56
Median
1. Mindestens 50% der Daten sind kleiner oder gleich dem Median. 2. Mindestens 50% der Daten sind größer oder gleich dem Median.
57
Medianklasse
Die Kategorie, in die der Median fällt
58
IQB Empirischer InterquartilsBereich
Der Bereich der Werte zwischen dem 1. und 3. Quartil Großer Wert = große Streuung
59
Primäre Häufigkeitsverteilung (metrischer Variablen)
Urliste wird nur sortiert und gleiche Werte in einer Spalte zusammengefasst
60
Sekundäre Häufigkeitsverteilung (metrische Variablen)
Darstellung mit kategorisierten Messwerten Testwerte werden übersichtlicher dargestellt
61
Welche Häufigkeitsverteilung kann man mit einem Histogramm gut darstellen?
Sekundäre Häufigkeitsverteilung
62
Welche sind die Fachbegriffe für x- und y-Achse?
x: Abszisse y: Ordinate
63
Welche Darstellungsform ist praktisch bei kontinuierlichen Werten? (z.B. Entwicklung über Zeitraum)
Polygonzug
64
Welche sind die wichtigsten Merkmale von Verteilungen in "Haufen"-Form?
1. Symmetrie vs. Asymmetrie 2. Gipfelform und die Gipfelzahl.
65
Wie kann man eine asymmetrische Verteilung beschreiben?
Modalwert links von Mitte: linksgipflig, linkssteil. Modalwert rechts von Mitte: rechtsgipflig, rechtssteil
66
Wie kann man die Wölbung einer Verteilung beschreiben?
1. stumpf- oder breitgipflig 2. schmal- oder steilgipflig
67
Wie kann man den Graphen nach Anzahl der Gipfel beschreiben?
1. unimodal 2. bimodal 3. multimodal
68
IQA InterQuartilsAbstand
Abstand zwischen erstem 1. und 3. Quartil
69
Ausreißerwert
1. Kleiner als der Wert Q1 − 1,5 ∙ IQA 2. Größer ist als der Wert Q3 + 1,5 ∙ IQA
70
Extremwert
1. Kleiner als Wert Q1 − 3 ∙ IQA 2. Größer ist der Wert Q3 + 3 ∙ IQA
71
Fünf-Punkte-Zusammenfassung
1. Drei Quartile 2. UND kleinster Wert 3. UND größter Wert
72
Wofür steht Π (Pi)?
Rechenregel zur Produktbildung
73
Geometrisches Mittel
Produkt aller Werte, aus welchem dann die *n*-te Wurzel gezogen wird.
74
Wann bietet sich das geometrische Mittel an?
Wenn man eher das Verhältnis als die Differenz betonen möchte (z.B. Verdreifachung des Risikos für eine Krankheit innerhalb eines Jahres)
75
Robuste Kennwerte
z.B. getrimmtes Mittel, winsorisiertes Mittel
76
*p*-Quantil
Wert xp (0 \< p \< 1) mindestens p · 100 % der Daten kleiner oder gleich xp und mindestens (1 – p) · 100 % der Daten größer oder gleich xp sind
77
Varianz
die mittlere quadrierte Abweichung aller Einzelwerte vom Mittelwert
78
Standardabweichung
die (positive) Quadratwurzel aus der Varianz
79
Variationskoeffizient
Quotient aus Standardabweichung und Mittelwert einer Variablen X