Univariate Deskriptive Statistik Flashcards

1
Q

B: Tabelle mit absoluten Häufigkeiten ausgeben

A

table(object$variable)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Def: Relative Häufigkeiten

A

Die an der Gesamtzahl der Objekte relativierten Häufigkeiten. Bei n Objekten teilt man die absoluten Häufigkeiten der Merkmalsausprägungen durch n.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

B: Tabelle mit relativen (table of proportions) Häufigkeiten ausgeben

A

prop.table(table(object$variable))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

B: Das Ergebnis auf zwei Stellen runden

A

round(( … ),2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Bsp: Die relativen Häufigkeiten aus object$variable in Prozent ausgeben und auf zwei Stellen runden

A

round(100*prop.table(table(object$variable)), 2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Mit welchem Prinzip kann man die Aussage “haben die Note 3 oder besser” darstellen?

A

kumulierte absolute Häufigkeiten (die abs.H wird zu den abs.H der kleineren Merkmalsausprägungen hinzuaddiert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

B: kumulierte absolute Häufigkeiten der table(object$variable) ausgeben

A

cumsum(table(object$variable))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

B: kumulierte relative Häufigkeiten der table(object$variable)

A

cumsum(prop.table(table(object$variable)))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Bsp: kumulierte relative Häufigkeiten der table(object$variable) in Prozent

A

cumsum(100*prop.table(table(object$variable)))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Bsp: gerundet auf 2 Stellen in Prozent, kumulierte relative Häufigkeiten der table(object$variable)

A

round(cumsum(prop.table(table(object$variable))), 2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

B: verschiedene Werte in einer Tabelle zusammenführen “binden”

A

cbind( )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Bsp: Tabelle von object$variable und den Prozentwerten der relativen Häufigkeiten

A

cbind(table(object$variable), 100*prop.table(table(object$variable)))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

B: Säulendiagramm erstellen aus object$variable

A

barplot(table(object$variable))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

B: Label der Diagramm-Achsen beschriften

A

ylab=”Y-Achse”, xlab=”X-Achse”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

B: Histogramm aus object$variable

A

hist(object$variable, xlab=”…”, ylab=”…”)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

B: Modalwert ausgeben

A

which.max(table( ))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wie viele Modalwerte kann eine Häufigkeitsverteilung haben?

A

beliebig viele

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

B: Median ausgeben

A

median( )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Bei fehlenden Variablen möchte man diese nicht in die Rechnung einfließen lassen. Mit welchem Befehl lassen sich fehlende Werte aus Berechnungen entfernen?

A

na.rm = T z.B. median(object$variable, na.rm = T)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

In welcher Reihenfolge kann man verschiedene Skalenniveaus sinnvoll aufzählen?

A

1) Nominalskalenniveau 2) Ordinalskalenniveau 3) Intervallskalenniveau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Ab welchem Skalenniveau kann man das arithmetische Mittel anwenden?

A

Intervallskalenniveau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

B: Arithmetisches Mittel ausgeben

A

mean(object$variable) (+, na.rm = T)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

B: Streubereich ausgeben

A

range( )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Spannweite (Differenz zwischen größtem und kleinstem Wert) ausgeben

A

diff(range( ))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

B: Quartile ausgeben

A

quantile( )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

B: Interquartilsabstand ausgeben

A

IQR( ) #interquartilerange

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

B: Quantil für 10% ausgeben

A

quantile(object$variable, 0.10, na.rm = T)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

B: Prozentrang ausgeben (empirical cumulative distribution function)

A

ecdf(object$variable)(num.Ausprägung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

B: Prozentrang als Graphen ausgeben

A

plot.ecdf( )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

B: Varianz für Variable ausgeben

A

var(object$variable, na.rm = T)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

B: Standardabweichung ausgeben

A

sd(object$variable, na.rm = T)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

B: Übersicht über verschiedene Kennwerte ausgeben, quasi die Variable “beschreiben”

A

describe( )

33
Q

B: Median der absoluten Abweichung

A

mad(object$variable, na.rm = T)

34
Q

Zentrierung

A

Für bessere Übersichtlichkeit kann man Werte zentrieren. Dazu zieht man von jedem Wert xm den Mittelwert der Verteilung xmean ab

xm - xmean

Nach einer Zentrierung ist somit der Mittelwert immer gleich 0

35
Q

F: z-Standardisierung

A

Form der Standardisierung, wobei der Mittelwert immer = 0 ist und die Standardabweichung immer = 1

Jeder zentrierte Wert (xm-xmittel) wird durch Standardabweichung der Verteilung geteilt (sx)

Wenn für jeden Wert der x-Verteilung diese Formel angewandt wurde, hat man eine z-Verteilung (wobei immer gilt: mean=0 und sZ = 1 )

36
Q

Welche Methoden kann man anwenden, um eine bessere Vergleichbarkeit bei z.B. zwei verschiedenen Intelligenztests zu erreichen?

A
  1. z-Standardisierung
  2. Zentrierung
37
Q

Welche sind die englischen Fachbegriffe für “Breitgipflig” und “Schmalgipflig”?

(Kurti C.)

A
  1. Platykurtic
  2. leptokurtic

(Flach wie ein Platypus und schmal wie ein Lepra-Toter namens Kurti C.)

38
Q

Wie nennt man die statistischen Kennwerte, um die Form des Gipfels und der Enden einer Verteilung zu quantifizieren?

A

Kurtosis (bedeutet Wölbung)

39
Q

F: Kurtosis

A

(siehe Bild)

Für Vergleich mit Normalverteilung (x2) zieht man den Wert 3 ab

3 ist das Ergebnis für K bei einer Normalverteilung

40
Q

F: Schiefe

A

engl. Skewness
linksgipflig: positiver Wert

ohne Neigung: 0

rechtsgipflig: negativer Wert

41
Q

Def: Matrix

A

eine Anordnung von Daten in einem rechteckigen Schema (Form: n · p)

Zeilen · Spalten

Angeordnet sind darin

Merkmalsträger Merkmale und Messwerte

Auch Zeilen und Spalten sind jeweils eine Matrix und kann man sie -vektor nennen.

42
Q

Def: Index

A
  1. Index für Merkmalsträger M = {1, …, m, …, n}
  2. Index für Merkmale I = {1, …, i, …, p}
  3. Index für Merkmalsausprägungen J = {1, …, j, …, k}
43
Q

absolute Häufigkeit

A

Anzahl aller Merkmalsausprägungen

44
Q

relative Häufigkeit

A

Anteil der Merkmalsausprägung im Vergleich zur absoluten MA

45
Q

Prozentwert

A

relative Häufigkeit mit 100 multipliziert

46
Q

Zentrale Tendenz

A

Es soll der durchschnittliche, mittlere oder besonders typische Messwert einer Verteilung angegeben werden

47
Q

Modalwert / Modus

A

Wert derjenigen Kategorie, welcher die meisten Merkmalsträger angehören

48
Q

Dispersion

A

Wie sehr sich die Merkmalsträger über die Kategorien ausbreiten oder konzentrieren

49
Q

F: Relativer Informationsgehalt

A

Drückt aus, wie groß die Dispersion ist

50
Q

Singuläre Daten

A

z.B. Laufwettbewerb

(Ordinalskaliert)

1,2,3,4,5 … n

Wenn zwei Personen zur gleichen Zeit ins Ziel gekommen sind, teilen sie sich einen Rangplatz; es liegen dann Rangbindungen oder verbundene Ränge vor

51
Q

Kategoriale Daten mit geordneten Kategorien

A

z.B. Schulnoten

(auch Ordinalskaliert)

Werte werden geordneten Kategorien zugeordnet. Etwa “sehr gut” bis “ungenügend”

52
Q

Prozentrangwert eines Merkmalsträgers

A

Prozentsatz von Merkmalsträgern, die eine gleich große oder eine kleinere Merkmalsausprägung aufweisen.

53
Q

Rangbindung

A

z.B. zwei Testpersonen haben den gleichen Wert und teilen sich den dritten Platz.

Gezählt wird dann 1; 2; 3,5; 5

54
Q

Mittlerer Rangplatz

A

Bei Rangbindung:

mittlerer Rangplatz = Mittelwert der verbundenen Rangplätze

55
Q

Kumulierte Häufigkeiten

A

Menge aller Objekte, welche diese oder eine kleinere Merkmalsausprägung aufweisen.

56
Q

Median

A
  1. Mindestens 50% der Daten sind kleiner oder gleich dem Median.
  2. Mindestens 50% der Daten sind größer oder gleich dem Median.
57
Q

Medianklasse

A

Die Kategorie, in die der Median fällt

58
Q

IQB

Empirischer InterquartilsBereich

A

Der Bereich der Werte zwischen dem 1. und 3. Quartil

Großer Wert = große Streuung

59
Q

Primäre Häufigkeitsverteilung (metrischer Variablen)

A

Urliste wird nur sortiert und gleiche Werte in einer Spalte zusammengefasst

60
Q

Sekundäre Häufigkeitsverteilung (metrische Variablen)

A

Darstellung mit kategorisierten Messwerten

Testwerte werden übersichtlicher dargestellt

61
Q

Welche Häufigkeitsverteilung kann man mit einem Histogramm gut darstellen?

A

Sekundäre Häufigkeitsverteilung

62
Q

Welche sind die Fachbegriffe für x- und y-Achse?

A

x: Abszisse
y: Ordinate

63
Q

Welche Darstellungsform ist praktisch bei kontinuierlichen Werten? (z.B. Entwicklung über Zeitraum)

A

Polygonzug

64
Q

Welche sind die wichtigsten Merkmale von Verteilungen in “Haufen”-Form?

A
  1. Symmetrie vs. Asymmetrie
  2. Gipfelform und die Gipfelzahl.
65
Q

Wie kann man eine asymmetrische Verteilung beschreiben?

A

Modalwert links von Mitte: linksgipflig, linkssteil.

Modalwert rechts von Mitte: rechtsgipflig, rechtssteil

66
Q

Wie kann man die Wölbung einer Verteilung beschreiben?

A
  1. stumpf- oder breitgipflig
  2. schmal- oder steilgipflig
67
Q

Wie kann man den Graphen nach Anzahl der Gipfel beschreiben?

A
  1. unimodal
  2. bimodal
  3. multimodal
68
Q

IQA

InterQuartilsAbstand

A

Abstand zwischen erstem 1. und 3. Quartil

69
Q

Ausreißerwert

A
  1. Kleiner als der Wert Q1 − 1,5 ∙ IQA
  2. Größer ist als der Wert Q3 + 1,5 ∙ IQA
70
Q

Extremwert

A
  1. Kleiner als Wert Q1 − 3 ∙ IQA
  2. Größer ist der Wert Q3 + 3 ∙ IQA
71
Q

Fünf-Punkte-Zusammenfassung

A
  1. Drei Quartile
  2. UND kleinster Wert
  3. UND größter Wert
72
Q

Wofür steht Π (Pi)?

A

Rechenregel zur Produktbildung

73
Q

Geometrisches Mittel

A

Produkt aller Werte, aus welchem dann die n-te Wurzel gezogen wird.

74
Q

Wann bietet sich das geometrische Mittel an?

A

Wenn man eher das Verhältnis als die Differenz betonen möchte (z.B. Verdreifachung des Risikos für eine Krankheit innerhalb eines Jahres)

75
Q

Robuste Kennwerte

A

z.B. getrimmtes Mittel, winsorisiertes Mittel

76
Q

p-Quantil

A

Wert xp (0 < p < 1)

mindestens p · 100 % der Daten kleiner oder gleich xp und mindestens (1 – p) · 100 % der Daten größer oder gleich xp sind

77
Q

Varianz

A

die mittlere quadrierte Abweichung aller Einzelwerte vom Mittelwert

78
Q

Standardabweichung

A

die (positive) Quadratwurzel aus der Varianz

79
Q

Variationskoeffizient

A

Quotient aus Standardabweichung und Mittelwert einer Variablen X