Statistik Grundlagen Flashcards
Zwei Beispiele für deskriptive Statistik
Von den 2000 befragten SchülerInnen möchten 19.8% eine Mittelschule beginnen.
Eine Gruppe von 30 Studierenden stuft die Qualität der Lehrveranstaltung A im Durchschnitt höher ein als diejenige der Lehrveranstaltung B.
Zwei Beispiele für Inferenzstatistik (induktive bzw. schliessende Statistik)
Aus den Ergebnissen von 2000 befragten SchülerInnen einer Zufallsstichprobe ist zu schliessen, dass der Anteil von SchülerInnen in der gesamten Population, die eine Mittelschule beginnen, zwischen 19.2 und 20.4% beträgt.
Aus den Angaben von 30 Studierenden ist zu schliessen, dass die Qualität von Lehr- veranstaltung A bei Studierenden im Allgemeinen höher eingestuft wird als jene von Lehrveranstaltung B. Die Streuung der mittleren Einschätzung der Qualität der Lehrveranstaltungen ist dabei umso grösser, je kleiner Stichproben sind.
Beschreibung von “Univariat”
Verteilung der Werte einer einzelnen Variable.
Beschreibung von “Bivariat”
Verteilungen zweier Variablen sowie die Beziehungen zwischen den beiden Variablen.
Multivariat
Verteilungen von drei und mehr Variablen sowie das Muster der Beziehungen zwischen diesen Variablen.
Operationalisierung
Verknüpfung von theoretischen Begriffen (Konstrukten) mit empirisch beobachtbaren Sachverhalten durch Korrespondenzregeln.
Bsp: Die Bildungsentscheidung wird mit einer Frage erfasst.
Korrespondenzregeln
Ergeben sich aus Korrespondenzhypothesen. Vermutungen hinsichtlich der beobachtbaren Sachverhalte aus theoretischen Argumenten oder Begriffen.
Bsp: Es ist anzunehmen, dass Männer öfter Actionfilme schauen als Frauen.
Messung
Die Anwendung von Korrespondenzregeln.
Latente Variablen
Nicht direkt messbare Variablen.
Manifeste Variablen
Direkt messbare Variablen.
Codierung, Codeplan / Codebuch
Die Regeln der Zuordnung von Zahlen zu den Antworten der Befragten erfolgen anhand diesem.
Datenmatrix
Die Tabelle in der die Daten einer Erhebung liegen. Pro Beobachtung eine Zeile, pro Variable eine Spalte.
Missing Values
Fehlende Werte einer Beobachtung.
Listwise deletion
Fälle, die fehlende Werte aufweisen, bleiben bei diesem Vorgehen unberücksichtigt.
Missing at random, MAR
Die Annahme, dass fehlende Werte zufällig auftreten.
Dichotome Variable
Eine Variable, die nur zwei Ausprägungen hat. Z.B. female/male.
Kategoriale Variable
Eine Variable, die mehrere Ausprägungen hat.
Z.B. 1 = Berufsausbildung, 2 = Mittelschule, 3 = Zwischenjahr
Diskrete Variable
Variablen, die eine endliche (bei Zähldaten: abzählbar unendliche) Anzahl von Ausprägungen annehmen können.
Z.B. Anzahl Geschwister.
Stetige Variable (auch kontinuierlich)
Eine Variable, die theoretisch beliebig fein abgestuft werden kann.
Z.B. Körpergrösse, Zeit, Gewicht.
Quasi stetige Variable
Eine Variable die eigentlich stetig ist, aber nur diskret gemessen wird.
Z.B. Monatseinkommen wird gerundet erhoben.
Gruppieren / Kategorisieren einer Variable
Anstelle der exakten Werte werden die Informationen für die Zuordnung in bestimmte Intervalle verwendet.
Z.B. Quasi stetig erhobenes Einkommen wird in verschiedenen Kategorien (0-1999 CHF, 2000-3999 CHF, etc.) gruppiert.
Nominalskalenniveau
Dieses Skalenniveau enthält ausschliesslich Information darüber, ob es sich um gleiche oder ungleiche Ausprägungen handelt. Bei Transformationen muss die Gleichheit oder Verschiedenheit von Zuordnungen gewahrt werden.
Bsp.: Geschlecht (female), Nationalität, Zivilstand, etc.
Ordinalskalenniveau
Dieses Skalenniveau enthält ergänzend Information über ein ‹Mehr› bzw. ‹Weniger› des Ausmasses einer Eigenschaft, d.h. die Ausprägungen können in eine Rangfolge gebracht werden. Bei Transformationen muss die Rangreihenfolge bewahrt werden.
Bsp.: Schulnoten, Berufsprestige Intensität einer Einstellung oder Bewertung.
Intervallskalenniveau
Dieses Skalenniveau erlaubt die inhaltliche Interpretation der Abstände zwischen einzelnen Werten einer Variable zulässig, wobei die Intervallgrösse (Einheit) und der Nullpunkt beliebig sind. Alle positiven linearen Transformationen sind zulässig (Nullpunkt b und Einheit a sind frei wählbar, die Vergleichbarkeit der Intervalle bleibt erhalten): y = ax + b mit a > 0.
Bsp.: Temperatur in Grad Celsius, d.h. es gilt dass der Temperaturunterschied von 0° C zu 10° C ist gleich gross wie derjenige von 10° C zu 20° C
Ratio- oder Proportionalskalenniveau
Dieses Skalenniveau wird auch mit Verhältnisskala bezeichnet und weist ergänzend zum Intervallskalenniveau einen natürlichen Nullpunkt auf, d.h. einzig die Einheiten sind frei wählbar. Nur positiv proportionale Transformationen sind zulässig (Wahl der Einheiten a): y = ax mit a > 0.
Bsp.: Körpergrösse: Kind A ist halb so gross wie Kind B; Einkommen: Person X verdient zweieinhalb Mal so viel wie Person Y
Absolutskalenniveau
Dieses Skalenniveau besitzt einen natürlichen Nullpunkt und feste Einheiten. Keine bzw. nur identitätsbewahrende Transformationen sind erlaubt: y = x.
Bsp.: Häufigkeiten (Kinderzahl, Anzahl bis eine 5 gewürfelt wird) und Wahr- scheinlichkeiten
Formel für relative Häufigkeit und Beschreibung der Komponenten.

Stata Befehl um ein Label mit dem Namen “gender” so zu definieren, dass die Ausprägung 1 mit “female” und die Ausprägung 0 mit “male” gelabelt wird.
label define gender 1 “female” 0 “male”
Formel für die kumulierte Häufigkeit und Beschreibung der Komponenten.

Stata Befehl um den Werten 1 und 2 der Variablen “memory” den Wert 1, den Werten 3 bis 5 den Wert 2 und dem Wert 6 den Wert 3 zuzuweisen und in der neu generierten Variable memory2 abzuspeichern.
recode memory (1/2 = 1) (3/5 = 2) (6 = 3), gen(memory2)
Wie berechnet man die Varianz?
Man summiert das Quadrat aller Abweichungen einer Variablen zum Mittelwert und teilt durch die Anzahl Fälle.

Wie berrechnet man die Standartabweichung?
Es ist die Wurzel der Varianz. Somit die Wurzel aus der Summe der Quadrate der Abweichungen einer Ausprägung zum Mittelwert dividiert durch die Anzahl Fälle minus 1.

Stichprobenvarianz
Sie versucht sich der Varianz in der Population anzunähern, indem nicht durch die Anzahl Fälle, sondern durch einen Fall weniger dividiert wird. So fällt sie ein wenig grösser aus. Dies soll dem Fakt Rechnung tragen, dass selten vorkommende Extremwerte in einer Stichprobe seltener vorkommen und so die Varianz in einer Stichprobe tendenziell zu klein rauskommt.
Statabefehl für das Erstellen einer Verteilungsfunktion basierend auf der Variable “Wissen”
cumul Wissen, gen(cum_Wissen)
sort cum_Wissen
line cum_Wissen Wissen, connect(stairstep) ///
ytitle(F(x)) xtitle(Wissen (x)) ///
graphregion(color(white))
Quantil, Quantilanteil (alpha), Quantilwert
Quantile Q teilen entsprechend eine Verteilung jeweils in zwei Teilmengen, wobei der Quantilanteil α denjenigen Anteil angibt, der im unteren Teilbereich der Verteilung liegt, während der Quantilwert Q α der Trennstelle entspricht.
Quantilwert bei ungruppierten Häufigkeitsverteilungen
Auf ungruppierten Daten basierende Häufigkeitsverteilungen erlauben das direkte Ablesen von diesen: Der Wert entspricht derjenigen Ausprägung, bei welcher in der Spalte der kumulierten Prozentwerte ein vorgegebener Anteil erstmals erreicht oder überschritten wird.
Quantile bei geordneten Häufigkeitsverteilungen

Problem mit Quantilswert bei gruppierten Daten
Das Problem ist, dass er irgendwo innerhalb eine Gruppe sein kann (z.B. Einkommensgruppe 300-1000Fr).
Per Interpolation kann dann unter Annahme gleichmässiger Verteilung der Beobachtungen innerhalb der Gruppe, der Quantilswert geschätzt werden. (z.B. 723 Fr)
50% Quantil
Bei welchem Wert liegt ungefähr die Mitte der Verteilung?
Skalenniveau für Quantile
Mindestens ordinales, besser metrisches Skalennivau dafür.
Quartile
Q1, Q2, Q3 - 25%, 50%, 75%
Wie Quartile aber in 10er Schritten
Dezentile
Wie Quartile aber in 1er Schritten
Perzentile
Stabdiagramm

Kern-Dichte-Schätzer mit verschiedenen Bandbreiten

Box-Plot

Histogramm

In der Box des Boxplots
50% aller Beobachtungen sind da drin.
Anfang und Ende der Box des Box-Plots
Ihr Anfang ist beim Q1 und ihr Ende beim Q3
Der Strich in der Mitte des Box-Plots
Der Median schneidet dort die Verteilung in zwei Hälften 50/50
Die Linien links und rechts vom Box-Plot
Whiskers oder Zaun. Kann xmax/xmin sein oder auch Q1 - 1.5 x IQR und Q3 + 1.5 x IQR.
Punkte im Box-Plot
Extremwerte die mehr als Q1 - 1.5 x IQR und Q3 + 1.5 x IQR entfernt sind.
Symmetrische Verteilung

Asymmetrische Verteilung

Unimodale Verteilung

Multimodale Verteilung

Schmalgipflige Verteilung

Breitgipflige Verteilung

Linksteile / Rechtsschiefe Verteilung

Rechtssteile / Linksschiefe Verteilung

U-förmige Verteilung

Abfallende Verteilung

Balkendiagramm

Säulendiagramm

Modus / Modalwert (mode)
Der am häufigsten auftretende Wert in der Verteilung einer Variablen
Stata Befehl um alle Ausprägungen der Variablen “Wissen” sowie wie deren Häufigkeit absolut und prozentual für alle und nur die validen Werte anzuzeigen.
fre Wissen
Stata Befehl mit dem man am schnellsten den Modus der Variablen isei08 findet
fre isei08
dann schaut man welche Ausprägung die höchste Zahl unter “freq” hat und findet so…
Stata Befehl um der Variable “Geschlecht” das label “Gender” zuzuordnen.
label values Geschlecht Gender
Median
Er teilt die nach der Grösse geordneten Daten in der Mitte. 50% der Daten liegen darüber, 50% der Daten darunter.
Median berechnen in einer Liste mit einer geraden Anzahl Fälle.

Median bei gruppierten Daten
Er kann nicht exakt bestimmt werden. Bei ordinal skalierten Daten wird die Klasse angegeben in welcher die kummulierte Häufigkeit erstmals mindestens 50% erreicht. Bei metrisch skalierten Daten per linerarer Interpolation anhand der Grenzen der Klasse.
Stata Befehl um die Quartile sowie deren Mittelpunkte (Median) auszugeben. Zudem kleinste und höchste Ausprägung, Mittel, Anzahl Fälle, und Standartabweichung.
GSUM
Das arithmetische Mittel (mean) in gruppierten Häufigkeitstabellen.
Es wird der Mittelwert aus den Mittelwerten der Klassen gebildet.
Daten werden gruppiert und die einzelnen Gruppen nennt man auch…
Klassen.
Sie sind die neu gebildeten “Bereiche” einer Ausprägung.
Eigenschaften des arithmetischen Mittels
Schwerpunkt, symmetrisch.
Qualitätseigenschaft, quadrierte Abweichungen
Transformationsregel, kann linear transformiert werden
Robustheit, nicht robust gegen Ausreisser
getrimmtes arithmetisches Mittel
ein bestimmter Prozentsatz der Beobachtungen am oberen und am unteren Ende werden für die Berrechnung davon ausgeschlossen.
Stata Befehl um die oberen und unteren 10% der Beobachtungen einer Variablen “Katzen” für die Berrechnung des Mittels wegzulassen.
trimmean Katzen, p(10)
Spannweite
xmax - xmin
x = Wert der Realisierung
Quartilabstand (IQR)
Differenz zwischen dem ersten und dritten Quartil. (25%, 75%)
Stata Code um Quartile und IQR von drei Variablen (V1, V2, V3) anzeigen zu lassen.
tabstat V1 V2 V3, statistics(q iqr)
Stata Befehl Quartile, Percentile, Mittel, Standartabweichung, Varianz der Variable “Katzen” anzeigen zu lassen.
(Was macht dieser Befehl im Hintergrund?)
summarize Katzen, detail
(legt diverse Daten in r( … ) ab. Können mit “return list” angezeigt werden.)
Mittlere absolute Abweichung
Die Summe der Beträge (ohne Vorzeichen) aller Abweichungen vom Mittelwert dividiert durch die Anzahl Fälle.

Stata Befehle um eine Scalar Variable “AnzF” mit dem Wert der Anzahl Fälle der Variable “Katzen” zu bilden.
quietly sum Katzen
scalar AnzF = r(N)
Beschreibung der Variation
Die Summe der Quadrate der Abweichungen einer Realisation vom Mittelwert.
Standardabweichung
Die Wurzel aus der Varianz
Berechnung von Standardabweichung und Varianz aus Häufigkeitstabelle.

Gewichtetes Arithmetisches Mittel, dann Varianz

Berechnung der Varianz bei klassierten Daten.
Der Mittelwert wird aus den Klassenmitten gebildet.
Die Abweichung einer Klassenmitte zum Mittelwert wird quadriert und dann mit der Anzahl Fälle der Klasse multipliziert.
Dies für jede Klasse. Alle Ergebnisse werden summiert und durch die Anzahl Fälle dividiert.
Ein Merkmal ist normalverteilt
in x +/- s liegen 68% aller Daten
in x +/- 2s liegen 95.5% aller Daten
in x +/- 3s liegen 99.7% aller Daten
Transformation von Varianz
Sie wird mit dem Quadrat des Gewichts der Transformation multipliziert. Die Konstante hat keinen Einfluss dabei.
Transformation der Standardabweichung
Sie wird mit dem Gewicht (ohne Vorzeichen) der Transformation multipliziert.
Die Konstante hat keinen Einfluss dabei.
Zentrierung
Der Wertebereich einer Variablen wird so verschoben, dass der Mittelwert 0 ist.
Normierung
Eine Variable wird so transformiert, dass die Varianz und die Standardabweichung den Wert 1 annehmen.
Standartisierung
Eine Variable wird zentriert und normiert.
Zwei Stata Befehle für eine Univariate Häufigkeitsverteilung für kategoriale und ordinalskalierte Variablen.
tabulate, m
fre
Symbole für arithmetisches Mittel, Standardabweichung und Varianz für Masszahlen, Parameter und Schätzer
