Univariate Deskriptive Statistik Flashcards
B: Tabelle mit absoluten Häufigkeiten ausgeben
table(object$variable)
Def: Relative Häufigkeiten
Die an der Gesamtzahl der Objekte relativierten Häufigkeiten. Bei n Objekten teilt man die absoluten Häufigkeiten der Merkmalsausprägungen durch n.
B: Tabelle mit relativen (table of proportions) Häufigkeiten ausgeben
prop.table(table(object$variable))
B: Das Ergebnis auf zwei Stellen runden
round(( … ),2)
Bsp: Die relativen Häufigkeiten aus object$variable in Prozent ausgeben und auf zwei Stellen runden
round(100*prop.table(table(object$variable)), 2)
Mit welchem Prinzip kann man die Aussage “haben die Note 3 oder besser” darstellen?
kumulierte absolute Häufigkeiten (die abs.H wird zu den abs.H der kleineren Merkmalsausprägungen hinzuaddiert)
B: kumulierte absolute Häufigkeiten der table(object$variable) ausgeben
cumsum(table(object$variable))
B: kumulierte relative Häufigkeiten der table(object$variable)
cumsum(prop.table(table(object$variable)))
Bsp: kumulierte relative Häufigkeiten der table(object$variable) in Prozent
cumsum(100*prop.table(table(object$variable)))
Bsp: gerundet auf 2 Stellen in Prozent, kumulierte relative Häufigkeiten der table(object$variable)
round(cumsum(prop.table(table(object$variable))), 2)
B: verschiedene Werte in einer Tabelle zusammenführen “binden”
cbind( )
Bsp: Tabelle von object$variable und den Prozentwerten der relativen Häufigkeiten
cbind(table(object$variable), 100*prop.table(table(object$variable)))
B: Säulendiagramm erstellen aus object$variable
barplot(table(object$variable))
B: Label der Diagramm-Achsen beschriften
ylab=”Y-Achse”, xlab=”X-Achse”
B: Histogramm aus object$variable
hist(object$variable, xlab=”…”, ylab=”…”)
B: Modalwert ausgeben
which.max(table( ))
Wie viele Modalwerte kann eine Häufigkeitsverteilung haben?
beliebig viele
B: Median ausgeben
median( )
Bei fehlenden Variablen möchte man diese nicht in die Rechnung einfließen lassen. Mit welchem Befehl lassen sich fehlende Werte aus Berechnungen entfernen?
na.rm = T z.B. median(object$variable, na.rm = T)
In welcher Reihenfolge kann man verschiedene Skalenniveaus sinnvoll aufzählen?
1) Nominalskalenniveau 2) Ordinalskalenniveau 3) Intervallskalenniveau
Ab welchem Skalenniveau kann man das arithmetische Mittel anwenden?
Intervallskalenniveau
B: Arithmetisches Mittel ausgeben
mean(object$variable) (+, na.rm = T)
B: Streubereich ausgeben
range( )
Spannweite (Differenz zwischen größtem und kleinstem Wert) ausgeben
diff(range( ))
B: Quartile ausgeben
quantile( )
B: Interquartilsabstand ausgeben
IQR( ) #interquartilerange
B: Quantil für 10% ausgeben
quantile(object$variable, 0.10, na.rm = T)
B: Prozentrang ausgeben (empirical cumulative distribution function)
ecdf(object$variable)(num.Ausprägung)
B: Prozentrang als Graphen ausgeben
plot.ecdf( )
B: Varianz für Variable ausgeben
var(object$variable, na.rm = T)
B: Standardabweichung ausgeben
sd(object$variable, na.rm = T)