Methoden der Statistik SS23 Flashcards
Wie erstellt man ein Stabdiagramm von relativer Häufigkeit?
plot (h.i)
Schöner:
plot(h.i,main=“Stabdiagramm Mathekenntnisse“,ylab = “rel. Häufigkeiten“ , xlab=“bescheiden<––Selbsteinschätzung——>sehr gut“)
Wie kann man zwei Gruppen miteinander vergleichen und graphisch darstellen?
zwei Variablen
Mit dem boxplot Befehl:
Beispiel:
#eine Variante
boxplot ( daten$BUDGET, horizontal=T)
boxplot(GRO~GESCHL, data=daten, horizontal=T)
~ steht für?
Steht in R für die Gegenüberstellung bzw. den Vergleich zweier Variablen
Wie kann man den Zusammenhang der Variablen anhand eines Streidiagramms darstellen?
- Standardbefehl plot liefert bei Angabe von zwei Vektoren ein Streudiagramm
Beispiel:
#Variante 1
plot (daten$flaeche,daten$miete,col= alpha (“ skyblue4“,0.2), pch=16)
#Variante 2
plot (flaeche, miete, data= daten, col= alpha (“skyblue4 “,o.2),pch=16)
Wie erstellt man ein Histogramm?
Daten einlesen
daten<–read.csv 2(“Umfrage.csv“)
hist(daten$GEW, freq=F, xlab=“Gewicht in kg“, ylab=“Häufigkeitsdichte “,main = “Histogramm“,breaks=20)
Mit welchem Zeichen findet die Zuordnung, Summe, Division, und Mulltiplikation im RStudio statt?
a<—2 a wird in Liste Wert 2 zugeordnet
b<– a+2 b wird a+2=4 zugeordnet
3/0 geteilt
2*3 mal
Wie erstellt man einen Vektor zahlen, der alle Zahlen 1 bis 5 enthält?
zahlen<–1:5
Wie erstellt man eine Häufigkeitstabelle mit n.i, h.i., F.i und ein Stabdiagramm?
Datensatz einlesen danach working Directory setzen
daten<–read.csv2(“Umfrage.csv“)
n.i<–table(daten$MATHE)
#rel.Häufigkeiten
h.i<–n.i/length (daten$MATHE)
#rel. kumulative Häufigkeiten
F.i cumsum (h.i)
htab<–cbind (n.i,h.i,F.i)
htab
plot (h.i , main = “Überschrift“,ylab=“rel.Häufigkeiten,xlab=“ bescheiden bis sehr gut“
Wie liest und listet man einen Datensatz?
daten<–read.csv2(“Umfrage.csv“)
str(daten) / head (daten)
Bedeutung: str (daten) Überblick welche Variablen
head(daten) erste 6 Zeilen
Diskrete und stetige Merkmale
Diskretes Merkmal: zwischen beliebigen Werten gibt es eine zählbare Anzahl der Werte , z.B. Anzahl der Bevölkerung, Alter
Stetiges Merkmal: Die Anzahl der Ausprägungen ist überabzählbar. D.h. alle Werte eines Intervalls sind möglich, z.B Temperatur in °C, °F.
Relative und kumulierte Häufigkeiten
Zeichnen sie eine Häufigkeitstabelle
Arithmetischer Mittel
-anfällig für Aussreisser
Transformationssatz
Quantile
Spezielle Quantile
Boxplot
Arithmetisches Mittel
Median
-nicht anfällig für Aussreiser
Eigenschaften arithmetischen Mittels
Arithmetischer Mittel berechnen
-mithilfe des arithmetischen Mittels berechnet man den Durchschnitt
Berechnen Sie die Dezile aus dem vorliegenden Datensatz.
Für das Merkmal “Größe” ist anzunehmen, dass die Verteilung bei Frauen und Männern unterschiedlich ausfällt. Erzeugen Sie zwei neue Variablen “GROm” (für die Größe der Männer) und “GROf” (für die Größe der Frauen).
Wie groß sind die männlichen Vorlesungsbesucher im Durchschnitt? Berechnen Sie die durchschnittliche Größe anschließend für die weiblichen Studierenden aus der Veranstaltung.
Die Werte in der Variablen “GRO” haben die Einheit Zentimeter. Erzeugen Sie eine neue Variable “GROmeter”, in der die Größe in Metern gespeichert ist.
Wie viele Telefonate hat der Nutzer geführt? Wie lange haben das längste bzw. das kürzeste Gespräch gedauert?
1)Berechnung der durchschnittlichen absoluten Abweichung
2) Berechnung der Varianz
3) Berechnung der Standardabweichung
d) Berechnen Sie die Standardabweichung der Gesprächsdauer. Kennen Sie andere Streuungs- maße? Berechnen Sie zwei davon.
Üblicherweise sind die Tarife für Auslandsgespräche höher als für Inlandsgespräche. Erzeugen Sie zwei neue Variablen “bin” (Abkürzung für “Betrag und Inland”) und “baus” (Abkürzung für “Betrag und Ausland”).
Vergleichen Sie die Mittelwerte und die Standardabweichungen der Kosten für Inlands- und Auslandsgespräche
Streuungsparameter
Metrische Skala
Ordinalskala
Nominalskala
Stabdiagramm mit rel. Wahrscheinlichkeit und empirische Verteilungsfunktion nebeneinander
Statistisches Merkmal
Empirische Verteilungsfunktion
Wie erzeugt man eine empirische Verteilungsfunktion?
Berechnen des Medians ungerade
Berechnen des Medians Gerade
Frage: Besteht ein Zusammenhang zwischen Wohnsituation der Studierenden und Geschlecht
Kontingenztafel
Kontingenztafel mit relativen Häugkeiten:
Zusammenhangsmaÿe für metrisch skalierte Merkmale
Bivariante Häufigkeitsverteilungen
Zusammenhänge Kovarianz
Empirische Kovarianz
- Zusammenhangsmass zweier Variablen
- Anzahl der Beobachtungen
- n Anzahl Beobachtungen
- x Strich und y Strich sind die jeweiligen arithmetischem Mittel
Empirische Kovarianz im Rstudio
Empirischer Korellationskoeffizient
a) Importieren Sie den Datensatz UmfrageWiSe2223.csv in ein neues R-Skript.
Berechnen Sie die Kovarianz
Korrelationskoeffizient nach Pearson
-bestimmt Zusammenhang zweier Variablen
-Pearson-Korrelationskoeffizient r
r E (-1;+1)
1: perfekt positiver Zusammenhang
-1:perfekt negativer Zusammenhang
r=kein „linearer“ Zusammenhang
TIPP: Tabellenschreibweise sehr hilfreich
Korrelationskoeffizient nach Spearman
- gut für ordinal und Kardinal skalierte Variable
-Zusammenhang zwischen Variablen
-Interpretation ähnlich zu Pearson
Scheinkorrelation
Ergebnismenge E eines Zufallsexperiments
Mengenoperation
Mengenoperation
Mengenoperation
Folgerungen aus den Axiomen 1 bis 3
Konstruktion von Wahrscheinlichkeiten
Fall a) Konstruktion von Wahrscheinlichkeitsmaÿen
Fall b) Konstruktion von Wahrscheinlichkeitsmaÿen
Fall c) Konstruktion von Wahrscheinlichkeitsmaÿen
Bedingte Wahrscheinlichkeit
Satz von Bayes
Disjunkte Vereinigungsmenge
Vereinigungsmenge ohne Schnittmenge
Satz der totalen Wahrscheinlichkeit
Stochastische Unabhängigkeit von Ereignissen
Zufallszahlen R Studio
Zufallsvariablen
Diskret und stetige Zufallsvariablen