Heft 1 Flashcards
Statistische Einheit
Statistische Einheiten sind die zu untersuchenden Einheiten, auf die sich eine statistische Auswertung bezieht. So sind sie oft z.B.: Personen, Organisationen oder auch Messzeitpunkte. → Merkmalsträger
Variablen
**Variablen ** sind Merkmale, der statistischen Einheiten. Variable haben Ausprägungen (Werte, Beobachtungen). Z.B.: Die Variable Geschlecht hat die Ausprägung weiblich.
Datenmatrix
Die **Datenmatrix ** ist die zusammenfassende, tabellarische Darstellung der Werte der Variablen von statistischen Einheiten in einer empirischen Untersuchung. (Variablen in den Spalten und statistische Einheiten in den Zeilen)
Population
Als **Population ** bezeichnet man die Gesamtheit (Grundgesamtheit) der statistischen Einheiten, die in einer empirischen Studie betrachtet wird. In der Regel wird eine Stichprobe der Population untersucht.
Stichprobe
Fromen von Stichproben
Eine **Stichprobe ** ist die Erfassung einer Teilmenge einer Population für eine statistische Untersuchung, wenn bspw. die Population für eine Vollerhebung zu groß ist. Sie sollte hinsichtlich der Merkmale, die für die Gesamtheit der Population von Bedeutung sind, repräsentativ sein.
Eine einfache Zufallsstichprobe liegt vor, wenn alle statistischen Einheiten einer Population die gleiche Wahrscheinlichkeit habe, in die Stichprobe aufgenommen zu werden.
Eine geschichtete Zufallsstichprobe liegt vor, wenn innerhalb der Population Teilpopulationen gebildet werden, aus denen dann Zufallsstichproben gezogen werden (z.B.: Erfassung der Schüler in einzelnen Bundesländern zum Vergleich dieser)
Eine Quotenstichprobe (Marktforschung) wird angewandt, wenn es notwendig ist, das die Ergebnisse repräsentativ für verschiedene Merkmale der Population sind. Für diese Merkmale werden dann prozentuale Anteile der Population ermittelt, welche dann als Quote für die Stichprobe gelten (z.B.: Quoten für Alter, Geschlecht, Einkommen, Familienstand der Bevölkerung)
Deskriptive Statistik
Interferenzstatistik
Bei der **deskriptiven Statistik ** geht es um die zusammenfassende Beschreibung von Variablen anhand von Grafiken, Tabellen, etc.
Die **Interferenzstatistik ** beschäftigt sich mit der Schätzung von Parametern und der Hypothesentestung von empirischen Studien, anhand der Ergebnisse der deskriptiven Statistik.
Skala
Wertebereich einer Variablen
z.B.: Messung von Größe anhand der Meterskala
Ratioskala
Ratioskalenniveau/Verhältnisskalenniveau
Höchster Informationsgehalt (metrisch)
Hier ist die Messung dadurch gekennzeichnet, dass ein natürlicher Nullpunkt und eine definierte Messeinheit vorliegen (Meter, Volumen, etc.)
Man kann den Messwert x auf der Skala durch multiplikation mit (b>0) in eine andere, jedoch äquivalente Messeinheit transformieren (bspw.: Meter in Zentimeter mit b=100)
f(x)= x*b
Die Werte der Skala lassen sich der größe nach ordnen.
Es lassen sich sinnvoll Differenzen bilden.
Es lassen sich sinnvoll Quotienten bilden.
Bild: Gummiband mit Skalierung. An einem Ende am Nullpunkt befestigt
QUOTIENTEN
Intervallskala
Intervallskalenniveau
Im Prinzip eine Ratioskala, mit dem Unterschied, dass sich hier der Nullpunkt beliebig festlegen lässt (z.B.: Temperaturmessung → °F, °C → 0°C = 32°F) (metrisch)
Hierbei ist die Interpretation von Abständen zum Nullpunkt nicht sinnvoll. Die von Äbständen zwischen den Ausprägungen schon(z.B.: 20°C ist doppelt so hoch, wie 10°C; jedoch ist das Äquivalent von 68°F nicht doppelt so hoch wie das andere Äquivalent 50°F)
Die Werte lassen sich der Größe nach ordnen.
Es lassen sich sinnvoll Differenzen bilden.
Es lassen sich nicht sinnvoll quotienten bilden.
Bild: Gummiband mit Skalierung. An beliebigem Punkt befestigt
DIFFERENZEN
Ordinalskala
Ordinalskalenniveau
Keine sinnvollen Abstände zwischen Ausprägungen definiert. Somit werden den Merkmalsausprägungen häufig Ränge zugeordnet (z.B.: Rangfolge der Fertigstellung einer Aufgabe)
Kein absoluter Nullpunkt.
Werte lassen sich der Größe nach ordnen
Es lassen sich keine Differenzen oder Quotienten bilden
Bild: Perlenkette: Reihenfolge, aber kein Abstand deffiniert.
ORDNEN
Nominalskala
Nominalskalenniveau
Skala mit niedrigem Informationsgehalt (z.B.: Geschlecht mit Ausprägungen: Männlich/weiblich, Familienstand mit Auspr.: Ledig, verheiratet, geschieden, verwitwet)
Wichtig ist, dass den versch. Ausprägungen jeweils eindeutig versch. Zahlen, Buchstaben, etc. zugewiesen werden.
Kein absoluter Nullpunkt.
Kann nicht der Größe nach geordnet werden/nicht sinnvoll in in Reihenfolge
Es lassen sich keine Differenzen oder Quotienten bilden
Bild: Menge unterschiedlicher Symbole
AUSZÄHLEN
Wie verhalten sich die Skalen zueinander?
Eine Ratioskala ist eine Intervallskala ist eine Ordinalskala ist eine Nominalskala
Eine Intervallskala ist eine Ordinalskala ist eine Nominalskala
Eine Ordinalskala ist eine Nominalskala
Ratioskala und Intervallskala werden auch metrische Skalen genannt
Metrische Skalen und Ordinalskala sind quantitative Skalen
Nominalskala ist eine qualitative Skala
Qualitative und Quantitative Variablen
Quantitative Variablen habe Ausprägungen, die die Intensität des Merkmals unterscheiden lassen. Mindestens ordinalskaliert. (z.B.: IQ-Test, Schulnotenvergleich)
Qualitative Variablen haben Ausprägungen, die verschiedene Eigenschaften der Variablen Charakterisieren, jedoch keine Aussage über ihre Intensität treffen können. Nominalskalen sind IMMER qualitativ. (z.B.: Geschlecht → Männlich, Weiblich; Nasenform → krumm, gerade)
Diskrete Variablen
Stetige Variablen
Die Menge der Ausprägungen zwischen diskreten Variablenist innerhalb der natürlichen, endlichen Zahlen n, oder der Menge der unendlichen, natürlichen Zahlen n repräsentiert.(z.B.: die Schulnoten 1 bis 6)
Die Menge der Ausprägungen zwischen stetigen Variablenist nicht abzählbar. Zwischen ihnen können unendliche viele Werte liegen (Menge der reellen Zahlen).(z.B.: Größe, Gewicht)
Häufigkeitsverteilung
Formen derselben
Die Häufigkeitsverteilung erlaubt einen Überblick über die Verteilung von Variablen und ihren Ausprägungen auf den vorhandenen Wertebereich.
Die absolute Häufigkeitsverteilung einer Ausprägung beschreibt die tatsächliche Anzahl von statistischen Einheiten mit dieser Ausprägung innerhalb der Stichprobe.
Die relative Häufigkeit setzt den Anteil der absoluten Häufigkeit einer Ausprägung in relation zur Gesamtstichprobe. (Absolute Häufigkeit geteilt durch Gesamtumfang multipliziert mit 100%)
Die Berechnung der kumulierten Häufigkeit einer Ausprägung kann nur erfolgen, wenn alle Ausprägungen in Reihenfolge gebracht werden können. Sie beschreibt die Summe der relativen Häufigkeiten, die im Vergleich zu dieser Ausprägung keiner oder gleich groß sind. (z.B.: Anteil der Schulnoten 2 und besser, 3 und besser, etc)