Univariate Deskriptive Statistik Flashcards
B: Tabelle mit absoluten Häufigkeiten ausgeben
table(object$variable)
Def: Relative Häufigkeiten
Die an der Gesamtzahl der Objekte relativierten Häufigkeiten. Bei n Objekten teilt man die absoluten Häufigkeiten der Merkmalsausprägungen durch n.
B: Tabelle mit relativen (table of proportions) Häufigkeiten ausgeben
prop.table(table(object$variable))
B: Das Ergebnis auf zwei Stellen runden
round(( … ),2)
Bsp: Die relativen Häufigkeiten aus object$variable in Prozent ausgeben und auf zwei Stellen runden
round(100*prop.table(table(object$variable)), 2)
Mit welchem Prinzip kann man die Aussage “haben die Note 3 oder besser” darstellen?
kumulierte absolute Häufigkeiten (die abs.H wird zu den abs.H der kleineren Merkmalsausprägungen hinzuaddiert)
B: kumulierte absolute Häufigkeiten der table(object$variable) ausgeben
cumsum(table(object$variable))
B: kumulierte relative Häufigkeiten der table(object$variable)
cumsum(prop.table(table(object$variable)))
Bsp: kumulierte relative Häufigkeiten der table(object$variable) in Prozent
cumsum(100*prop.table(table(object$variable)))
Bsp: gerundet auf 2 Stellen in Prozent, kumulierte relative Häufigkeiten der table(object$variable)
round(cumsum(prop.table(table(object$variable))), 2)
B: verschiedene Werte in einer Tabelle zusammenführen “binden”
cbind( )
Bsp: Tabelle von object$variable und den Prozentwerten der relativen Häufigkeiten
cbind(table(object$variable), 100*prop.table(table(object$variable)))
B: Säulendiagramm erstellen aus object$variable
barplot(table(object$variable))
B: Label der Diagramm-Achsen beschriften
ylab=”Y-Achse”, xlab=”X-Achse”
B: Histogramm aus object$variable
hist(object$variable, xlab=”…”, ylab=”…”)
B: Modalwert ausgeben
which.max(table( ))
Wie viele Modalwerte kann eine Häufigkeitsverteilung haben?
beliebig viele
B: Median ausgeben
median( )
Bei fehlenden Variablen möchte man diese nicht in die Rechnung einfließen lassen. Mit welchem Befehl lassen sich fehlende Werte aus Berechnungen entfernen?
na.rm = T z.B. median(object$variable, na.rm = T)
In welcher Reihenfolge kann man verschiedene Skalenniveaus sinnvoll aufzählen?
1) Nominalskalenniveau 2) Ordinalskalenniveau 3) Intervallskalenniveau
Ab welchem Skalenniveau kann man das arithmetische Mittel anwenden?
Intervallskalenniveau
B: Arithmetisches Mittel ausgeben
mean(object$variable) (+, na.rm = T)
B: Streubereich ausgeben
range( )
Spannweite (Differenz zwischen größtem und kleinstem Wert) ausgeben
diff(range( ))
B: Quartile ausgeben
quantile( )
B: Interquartilsabstand ausgeben
IQR( ) #interquartilerange
B: Quantil für 10% ausgeben
quantile(object$variable, 0.10, na.rm = T)
B: Prozentrang ausgeben (empirical cumulative distribution function)
ecdf(object$variable)(num.Ausprägung)
B: Prozentrang als Graphen ausgeben
plot.ecdf( )
B: Varianz für Variable ausgeben
var(object$variable, na.rm = T)
B: Standardabweichung ausgeben
sd(object$variable, na.rm = T)
B: Übersicht über verschiedene Kennwerte ausgeben, quasi die Variable “beschreiben”
describe( )
B: Median der absoluten Abweichung
mad(object$variable, na.rm = T)
Zentrierung
Für bessere Übersichtlichkeit kann man Werte zentrieren. Dazu zieht man von jedem Wert xm den Mittelwert der Verteilung xmean ab
xm - xmean
Nach einer Zentrierung ist somit der Mittelwert immer gleich 0
F: z-Standardisierung
Form der Standardisierung, wobei der Mittelwert immer = 0 ist und die Standardabweichung immer = 1
Jeder zentrierte Wert (xm-xmittel) wird durch Standardabweichung der Verteilung geteilt (sx)
Wenn für jeden Wert der x-Verteilung diese Formel angewandt wurde, hat man eine z-Verteilung (wobei immer gilt: mean=0 und sZ = 1 )

Welche Methoden kann man anwenden, um eine bessere Vergleichbarkeit bei z.B. zwei verschiedenen Intelligenztests zu erreichen?
- z-Standardisierung
- Zentrierung
Welche sind die englischen Fachbegriffe für “Breitgipflig” und “Schmalgipflig”?
(Kurti C.)
- Platykurtic
- leptokurtic
(Flach wie ein Platypus und schmal wie ein Lepra-Toter namens Kurti C.)

Wie nennt man die statistischen Kennwerte, um die Form des Gipfels und der Enden einer Verteilung zu quantifizieren?
Kurtosis (bedeutet Wölbung)
F: Kurtosis
(siehe Bild)
Für Vergleich mit Normalverteilung (x2) zieht man den Wert 3 ab
3 ist das Ergebnis für K bei einer Normalverteilung

F: Schiefe
engl. Skewness
linksgipflig: positiver Wert
ohne Neigung: 0
rechtsgipflig: negativer Wert

Def: Matrix
eine Anordnung von Daten in einem rechteckigen Schema (Form: n · p)
Zeilen · Spalten
Angeordnet sind darin
Merkmalsträger Merkmale und Messwerte
Auch Zeilen und Spalten sind jeweils eine Matrix und kann man sie -vektor nennen.
Def: Index
- Index für Merkmalsträger M = {1, …, m, …, n}
- Index für Merkmale I = {1, …, i, …, p}
- Index für Merkmalsausprägungen J = {1, …, j, …, k}
absolute Häufigkeit
Anzahl aller Merkmalsausprägungen
relative Häufigkeit
Anteil der Merkmalsausprägung im Vergleich zur absoluten MA
Prozentwert
relative Häufigkeit mit 100 multipliziert
Zentrale Tendenz
Es soll der durchschnittliche, mittlere oder besonders typische Messwert einer Verteilung angegeben werden
Modalwert / Modus
Wert derjenigen Kategorie, welcher die meisten Merkmalsträger angehören
Dispersion
Wie sehr sich die Merkmalsträger über die Kategorien ausbreiten oder konzentrieren
F: Relativer Informationsgehalt
Drückt aus, wie groß die Dispersion ist

Singuläre Daten
z.B. Laufwettbewerb
(Ordinalskaliert)
1,2,3,4,5 … n
Wenn zwei Personen zur gleichen Zeit ins Ziel gekommen sind, teilen sie sich einen Rangplatz; es liegen dann Rangbindungen oder verbundene Ränge vor
Kategoriale Daten mit geordneten Kategorien
z.B. Schulnoten
(auch Ordinalskaliert)
Werte werden geordneten Kategorien zugeordnet. Etwa “sehr gut” bis “ungenügend”
Prozentrangwert eines Merkmalsträgers
Prozentsatz von Merkmalsträgern, die eine gleich große oder eine kleinere Merkmalsausprägung aufweisen.

Rangbindung
z.B. zwei Testpersonen haben den gleichen Wert und teilen sich den dritten Platz.
Gezählt wird dann 1; 2; 3,5; 5
Mittlerer Rangplatz
Bei Rangbindung:
mittlerer Rangplatz = Mittelwert der verbundenen Rangplätze
Kumulierte Häufigkeiten
Menge aller Objekte, welche diese oder eine kleinere Merkmalsausprägung aufweisen.
Median
- Mindestens 50% der Daten sind kleiner oder gleich dem Median.
- Mindestens 50% der Daten sind größer oder gleich dem Median.
Medianklasse
Die Kategorie, in die der Median fällt
IQB
Empirischer InterquartilsBereich
Der Bereich der Werte zwischen dem 1. und 3. Quartil
Großer Wert = große Streuung
Primäre Häufigkeitsverteilung (metrischer Variablen)
Urliste wird nur sortiert und gleiche Werte in einer Spalte zusammengefasst
Sekundäre Häufigkeitsverteilung (metrische Variablen)
Darstellung mit kategorisierten Messwerten
Testwerte werden übersichtlicher dargestellt
Welche Häufigkeitsverteilung kann man mit einem Histogramm gut darstellen?
Sekundäre Häufigkeitsverteilung
Welche sind die Fachbegriffe für x- und y-Achse?
x: Abszisse
y: Ordinate
Welche Darstellungsform ist praktisch bei kontinuierlichen Werten? (z.B. Entwicklung über Zeitraum)
Polygonzug
Welche sind die wichtigsten Merkmale von Verteilungen in “Haufen”-Form?
- Symmetrie vs. Asymmetrie
- Gipfelform und die Gipfelzahl.
Wie kann man eine asymmetrische Verteilung beschreiben?
Modalwert links von Mitte: linksgipflig, linkssteil.
Modalwert rechts von Mitte: rechtsgipflig, rechtssteil
Wie kann man die Wölbung einer Verteilung beschreiben?
- stumpf- oder breitgipflig
- schmal- oder steilgipflig
Wie kann man den Graphen nach Anzahl der Gipfel beschreiben?
- unimodal
- bimodal
- multimodal
IQA
InterQuartilsAbstand
Abstand zwischen erstem 1. und 3. Quartil
Ausreißerwert
- Kleiner als der Wert Q1 − 1,5 ∙ IQA
- Größer ist als der Wert Q3 + 1,5 ∙ IQA
Extremwert
- Kleiner als Wert Q1 − 3 ∙ IQA
- Größer ist der Wert Q3 + 3 ∙ IQA
Fünf-Punkte-Zusammenfassung
- Drei Quartile
- UND kleinster Wert
- UND größter Wert
Wofür steht Π (Pi)?
Rechenregel zur Produktbildung
Geometrisches Mittel
Produkt aller Werte, aus welchem dann die n-te Wurzel gezogen wird.

Wann bietet sich das geometrische Mittel an?
Wenn man eher das Verhältnis als die Differenz betonen möchte (z.B. Verdreifachung des Risikos für eine Krankheit innerhalb eines Jahres)
Robuste Kennwerte
z.B. getrimmtes Mittel, winsorisiertes Mittel
p-Quantil
Wert xp (0 < p < 1)
mindestens p · 100 % der Daten kleiner oder gleich xp und mindestens (1 – p) · 100 % der Daten größer oder gleich xp sind
Varianz
die mittlere quadrierte Abweichung aller Einzelwerte vom Mittelwert

Standardabweichung
die (positive) Quadratwurzel aus der Varianz
Variationskoeffizient
Quotient aus Standardabweichung und Mittelwert einer Variablen X