Heft 2 Flashcards
Wozu dient die Standardisierung?
Die **Standardisierung **von Variablen dient der Bestimmung der relativen Lage eines Messwertes innerhalb einer Verteilung.
z-Werte
z-Werte beschreiben die Anzahl an Standardabweichungen, die ein bestimmter Wert vom Mittelwert enfernt liegt.
Sie dienen der Standardisierung von metrischen Variablen und werden durch
zi = (yi-ÿ)/sy
berechnet. Da sich der z-Wert am Mittelwert orientiert, ist der MW der z-Werte immer = 0.
Weitere Standardisierungen neben dem z-Wert
Z-Wert: 100 + 10z
IQ-Wert: 100 + 15z
T-Wert: 50 + 10z
PISA: 500 + 100z
Stanine: 5 + 2z
Abinote: 8 + 3z
Schulnote: 3 - z
Alle diese Werte nehmen Bezug auf den z-Wert und haben den gleichen Informationsgehalt, da sie sich über positiv affine Transformation ineinander transformieren lassen. Sie unterscheiden sich lediglich durch den MW und die Standardabweichung.
Prozentränge
Durch Pernzentile, auch **Prozentränge **genannt, wir die Normalverteilung in 100 gleich große Teile zerlegt. Sie repräsentieren also die relativen kumulierten Häufigkeiten. **Dabei wird jeder Prozentrang einem z-Wert zugeordnet. **
Die Fläche einer Normalverteilung für z-Werte von -1 bis 1 repräsentiert beispielsweise 68,26% der Mitglieder, während 95,44% der Mitglieder in der Fläche von -2 bis 2 repräsentiert sind.
Tschebycheff-Ungleichung
Die Tschebycheff-Ungleichung dient der Interpretation von z-Werten beliebig verteilter Variablen. Sie gibt die Untergrenzen (worst case) an.
Innerhalb des Intervalls von k Standardabweichungen um den Mittelwert [ÿ+-k*s] liegen immer mind. 100*(1-1/k2)% aller Beobachtungen, wobei k > 1 ist.
Eigenschaften des Boxplots
Boxplots werden zur Identifikation von Extremwerten genutzt und orientieren sich an der 5-Punkte-Zusammenfassung. So lassen sich zentrale Tendenz, Streuung und Schiefe beurteilen.
**Beurteilung der Schiefe: **
- symm. Boxplot ⇒ symm. Verteilung
- Ausreißer oberhalb der Whiskers sowie Median unterhalb der Mitte ⇒ rechtsschiefe Verteilung
- Ausreißer unterhalb Whiskers und Median oberhalb der Mitte ⇒ linksschiefe Verteilung
Darstellung des Boxplots
**Beschreibung **der wichtigsten Kriterien des Boxplots (Name, Def., Lage im Plot):
- *Minimum ymin:** Kleinster Datenwert des Datensatzes, Ende eines Whiskers oder entferntester Ausreißer
- *Unteres Quartil y.25:** Die kleinsten 25 % der Datenwerte sind kleiner oder gleich diesem Kennwert, Beginn der Box
- *Median ymed:** Die kleinsten 50 % der Datenwerte sind kleiner oder gleich diesem Kennwert, Strich innerhalb der Box
- *Oberes Quartil y.75:** Die kleinsten 75 % der Datenwerte sind kleiner oder gleich diesem Kennwert, Ende der Box
- *Maximum ymax:** Größter Datenwert des Datensatzes, Ende eines Whiskers oder entferntester Ausreißer
- *Spannweite:** Gesamter Wertebereich des Datensatzes, Länge des gesamten Boxplots (inklusive Ausreißer)
- *Interquartilsabstand dQ:** Wertebereich, in dem sich die mittleren 50 % der Daten befinden. (Liegt zwischen dem 0,25- und dem 0,75-Quartil.), Ausdehnung der Box
Kontingenz/Kontingenztabelle
Kontingenz bedeutet das gemeinsame Auftreten zweier Ergeignisse. Eine **Kontingenztabelle **beschreibt eine bivariate Häufigkeitsverteilung an Hand der absoluten Häufigkeiten.
Sie setzt sich zusammen aus bspw. Zeilenvariable X und Spaltenvariable Y, wobei Spalten- und Zeilensumme jeweils als Rand- oder marginale Verteilungen bezeichnet werden.
Bedingte Häufigkeitsverteilungen
**Bedingte Häufigkeiten **sind die relativen Häufigkeiten einer bestimmten Variablen unter der Bedingung einer bestimmten Ausprägung der anderen Variablen.
Also zum Beispiel die relative Häufigkeit von weiblichen Schülern mit der Mathenote 1 (Bedingung) innerhalb der Gesamtstichprobe.
Eigenschaften von bed. Häufigkeitsverteilungen
Man spricht von der **Unabhängigkeit ** zwischen zwei Variablen, wenn die bed. Häufigkeitsvert. von einer Variable X und aller Ausprägungen einer anderen Variable Y identisch sind.
Liegen jedoch Unterschiede zwischen der bed. Häufigkeitsv. der Variablen X und zwei oder mehr Ausprägungen der Variable Y vor, spricht man von einer Abhängigkeit oder **Zusammenhang **der beiden Variablen.
Bsp.:
- **Unabhängigkeit: **bed. Häufigkeit von männlichen Studenten (X) für alle Fächer (Y) = 4,9
- **Abhängigkeit: **bed. Häufigkeit von männlichen Studenten (X) für zwei oder mehr Fächer (Y) verschieden