Statistik Grundlagen Flashcards
Zwei Beispiele für deskriptive Statistik
Von den 2000 befragten SchülerInnen möchten 19.8% eine Mittelschule beginnen.
Eine Gruppe von 30 Studierenden stuft die Qualität der Lehrveranstaltung A im Durchschnitt höher ein als diejenige der Lehrveranstaltung B.
Zwei Beispiele für Inferenzstatistik (induktive bzw. schliessende Statistik)
Aus den Ergebnissen von 2000 befragten SchülerInnen einer Zufallsstichprobe ist zu schliessen, dass der Anteil von SchülerInnen in der gesamten Population, die eine Mittelschule beginnen, zwischen 19.2 und 20.4% beträgt.
Aus den Angaben von 30 Studierenden ist zu schliessen, dass die Qualität von Lehr- veranstaltung A bei Studierenden im Allgemeinen höher eingestuft wird als jene von Lehrveranstaltung B. Die Streuung der mittleren Einschätzung der Qualität der Lehrveranstaltungen ist dabei umso grösser, je kleiner Stichproben sind.
Beschreibung von “Univariat”
Verteilung der Werte einer einzelnen Variable.
Beschreibung von “Bivariat”
Verteilungen zweier Variablen sowie die Beziehungen zwischen den beiden Variablen.
Multivariat
Verteilungen von drei und mehr Variablen sowie das Muster der Beziehungen zwischen diesen Variablen.
Operationalisierung
Verknüpfung von theoretischen Begriffen (Konstrukten) mit empirisch beobachtbaren Sachverhalten durch Korrespondenzregeln.
Bsp: Die Bildungsentscheidung wird mit einer Frage erfasst.
Korrespondenzregeln
Ergeben sich aus Korrespondenzhypothesen. Vermutungen hinsichtlich der beobachtbaren Sachverhalte aus theoretischen Argumenten oder Begriffen.
Bsp: Es ist anzunehmen, dass Männer öfter Actionfilme schauen als Frauen.
Messung
Die Anwendung von Korrespondenzregeln.
Latente Variablen
Nicht direkt messbare Variablen.
Manifeste Variablen
Direkt messbare Variablen.
Codierung, Codeplan / Codebuch
Die Regeln der Zuordnung von Zahlen zu den Antworten der Befragten erfolgen anhand diesem.
Datenmatrix
Die Tabelle in der die Daten einer Erhebung liegen. Pro Beobachtung eine Zeile, pro Variable eine Spalte.
Missing Values
Fehlende Werte einer Beobachtung.
Listwise deletion
Fälle, die fehlende Werte aufweisen, bleiben bei diesem Vorgehen unberücksichtigt.
Missing at random, MAR
Die Annahme, dass fehlende Werte zufällig auftreten.
Dichotome Variable
Eine Variable, die nur zwei Ausprägungen hat. Z.B. female/male.
Kategoriale Variable
Eine Variable, die mehrere Ausprägungen hat.
Z.B. 1 = Berufsausbildung, 2 = Mittelschule, 3 = Zwischenjahr
Diskrete Variable
Variablen, die eine endliche (bei Zähldaten: abzählbar unendliche) Anzahl von Ausprägungen annehmen können.
Z.B. Anzahl Geschwister.
Stetige Variable (auch kontinuierlich)
Eine Variable, die theoretisch beliebig fein abgestuft werden kann.
Z.B. Körpergrösse, Zeit, Gewicht.
Quasi stetige Variable
Eine Variable die eigentlich stetig ist, aber nur diskret gemessen wird.
Z.B. Monatseinkommen wird gerundet erhoben.
Gruppieren / Kategorisieren einer Variable
Anstelle der exakten Werte werden die Informationen für die Zuordnung in bestimmte Intervalle verwendet.
Z.B. Quasi stetig erhobenes Einkommen wird in verschiedenen Kategorien (0-1999 CHF, 2000-3999 CHF, etc.) gruppiert.
Nominalskalenniveau
Dieses Skalenniveau enthält ausschliesslich Information darüber, ob es sich um gleiche oder ungleiche Ausprägungen handelt. Bei Transformationen muss die Gleichheit oder Verschiedenheit von Zuordnungen gewahrt werden.
Bsp.: Geschlecht (female), Nationalität, Zivilstand, etc.
Ordinalskalenniveau
Dieses Skalenniveau enthält ergänzend Information über ein ‹Mehr› bzw. ‹Weniger› des Ausmasses einer Eigenschaft, d.h. die Ausprägungen können in eine Rangfolge gebracht werden. Bei Transformationen muss die Rangreihenfolge bewahrt werden.
Bsp.: Schulnoten, Berufsprestige Intensität einer Einstellung oder Bewertung.
Intervallskalenniveau
Dieses Skalenniveau erlaubt die inhaltliche Interpretation der Abstände zwischen einzelnen Werten einer Variable zulässig, wobei die Intervallgrösse (Einheit) und der Nullpunkt beliebig sind. Alle positiven linearen Transformationen sind zulässig (Nullpunkt b und Einheit a sind frei wählbar, die Vergleichbarkeit der Intervalle bleibt erhalten): y = ax + b mit a > 0.
Bsp.: Temperatur in Grad Celsius, d.h. es gilt dass der Temperaturunterschied von 0° C zu 10° C ist gleich gross wie derjenige von 10° C zu 20° C
Ratio- oder Proportionalskalenniveau
Dieses Skalenniveau wird auch mit Verhältnisskala bezeichnet und weist ergänzend zum Intervallskalenniveau einen natürlichen Nullpunkt auf, d.h. einzig die Einheiten sind frei wählbar. Nur positiv proportionale Transformationen sind zulässig (Wahl der Einheiten a): y = ax mit a > 0.
Bsp.: Körpergrösse: Kind A ist halb so gross wie Kind B; Einkommen: Person X verdient zweieinhalb Mal so viel wie Person Y
Absolutskalenniveau
Dieses Skalenniveau besitzt einen natürlichen Nullpunkt und feste Einheiten. Keine bzw. nur identitätsbewahrende Transformationen sind erlaubt: y = x.
Bsp.: Häufigkeiten (Kinderzahl, Anzahl bis eine 5 gewürfelt wird) und Wahr- scheinlichkeiten
Formel für relative Häufigkeit und Beschreibung der Komponenten.
Stata Befehl um ein Label mit dem Namen “gender” so zu definieren, dass die Ausprägung 1 mit “female” und die Ausprägung 0 mit “male” gelabelt wird.
label define gender 1 “female” 0 “male”
Formel für die kumulierte Häufigkeit und Beschreibung der Komponenten.
Stata Befehl um den Werten 1 und 2 der Variablen “memory” den Wert 1, den Werten 3 bis 5 den Wert 2 und dem Wert 6 den Wert 3 zuzuweisen und in der neu generierten Variable memory2 abzuspeichern.
recode memory (1/2 = 1) (3/5 = 2) (6 = 3), gen(memory2)
Wie berechnet man die Varianz?
Man summiert das Quadrat aller Abweichungen einer Variablen zum Mittelwert und teilt durch die Anzahl Fälle.
Wie berrechnet man die Standartabweichung?
Es ist die Wurzel der Varianz. Somit die Wurzel aus der Summe der Quadrate der Abweichungen einer Ausprägung zum Mittelwert dividiert durch die Anzahl Fälle minus 1.
Stichprobenvarianz
Sie versucht sich der Varianz in der Population anzunähern, indem nicht durch die Anzahl Fälle, sondern durch einen Fall weniger dividiert wird. So fällt sie ein wenig grösser aus. Dies soll dem Fakt Rechnung tragen, dass selten vorkommende Extremwerte in einer Stichprobe seltener vorkommen und so die Varianz in einer Stichprobe tendenziell zu klein rauskommt.
Statabefehl für das Erstellen einer Verteilungsfunktion basierend auf der Variable “Wissen”
cumul Wissen, gen(cum_Wissen)
sort cum_Wissen
line cum_Wissen Wissen, connect(stairstep) ///
ytitle(F(x)) xtitle(Wissen (x)) ///
graphregion(color(white))
Quantil, Quantilanteil (alpha), Quantilwert
Quantile Q teilen entsprechend eine Verteilung jeweils in zwei Teilmengen, wobei der Quantilanteil α denjenigen Anteil angibt, der im unteren Teilbereich der Verteilung liegt, während der Quantilwert Q α der Trennstelle entspricht.
Quantilwert bei ungruppierten Häufigkeitsverteilungen
Auf ungruppierten Daten basierende Häufigkeitsverteilungen erlauben das direkte Ablesen von diesen: Der Wert entspricht derjenigen Ausprägung, bei welcher in der Spalte der kumulierten Prozentwerte ein vorgegebener Anteil erstmals erreicht oder überschritten wird.
Quantile bei geordneten Häufigkeitsverteilungen
Problem mit Quantilswert bei gruppierten Daten
Das Problem ist, dass er irgendwo innerhalb eine Gruppe sein kann (z.B. Einkommensgruppe 300-1000Fr).
Per Interpolation kann dann unter Annahme gleichmässiger Verteilung der Beobachtungen innerhalb der Gruppe, der Quantilswert geschätzt werden. (z.B. 723 Fr)