Deskriptive Statistik Flashcards
Wozu braucht man Statistik in den Sozialwissenschaften?
Exploration, Deskription, Evaluation, Überprüfung von Hypothesen und Theorien, Prognosen
Was ist ein Datensatz?
Gesamtheit aller Daten einer Stichprobe;
Beobachtungen werden Zahlen zugeordnet
Bsp.: Umfrage
Was ist eine Variable?
Codierung eines Merkmals: Zuordnung von empirischem und numerischem Relativ
enthalten die veränderlichen Ausprägungen eines Merkmals
Was ist ein Wertebereich?
Bereich von Zahlen, die eine Variable annehmen kann
Was ist eine Ausprägung und wie sollte sie statistisch sein?
Der Wert, den eine Variable für ein bestimmtes Merkmal annimmt.
Ausprägungen sollten sich wechselseitig ausschließen (exklusiv) und exhaustiv sein.
Welche Variablentypen gibt es?
Diskrete/ Kategoriale Variablen: haben endlich viele Ausprägungen z.B. Geschlecht, Parteizugehörigkeit
Kontinuierliche/ Metrische Variablen: haben theoretisch unendlich viele Ausprägungen z.B. Einkommen, Alter
Welche sind die vier Skalenniveaus?
für kategoriale Variablen:
Nominalskala (Staatsangehörigkeit)
Ordinalskala (Bildungsabschluss)
für metrische Variablen:
Intervallskala (Temperatur in Celsius, Jahreszahlen)
Ratioskala (Temperatur in Kelvin, Einkommen)
Was sind missing values?
Ein Merkmal für das bei einer Person keine Ausprägung vorliegt und die Codierung für diesen Fall.
Was kann die Nominalskala aussagen?
Ob zwei Ausprägungen gleich oder ungleich sind.
Was kann die Ordinalskala aussagen?
kann Ausprägungen in Hierarchie bringen, man darf aber keine mathematischen Operationen durchführen.
Was kann die Intervallskala aussagen?
kann Differenzen zwischen Ausprägungen berechnen, aber der Nullpunkt ist willkürlich definiert, deswegen kann man kein Verhältnis bilden
Was kann die Ratioskala aussagen?
es gibt einen sinnvoll definierten absoluten Nullpunkt, so kann man Differenzen und Verhältnisse bilden
Wie kann man Verteilungen von kategorialen Variablen beschreiben
relative Häufigkeiten: hk = fk / N
Welche graphischen Darstellungsmöglichkeiten gibt es für kategoriale Variablen?
Stabdiagramm, nur die Höhe der Balken ist entscheidend (Achtung, evlt. eine Achse abgeschnitten? –> verzerrtes Bild)
Kreisdiagramm (nicht zu empfehlen!)
Welche graphischen Darstellungsmöglichkeiten gibt es für metrische Variablen?
Histogramm: Fläche der Balken ist entscheidend
Kern-Dichte-Schätzer
Wie berechnet man die Häufigkeitsdichte?
relative Häufigkeit : Klassenbreite
Was besagt das Prinzip der Flächentreue?
Gesamtfläche bleibt bei feineren Unterteilungen
der Klassenbreiten konstant -> bezieht sich auf Histogramme
Was ist eine Verteilungsfunktion?
die Summe der beobachteten Häufigkeiten einer Variablen bis zu einem bestimmten Wert.
Aufsummieren der Häufigkeiten, sinnvoll ab ordinalskaliert, Achtung, muss sortiert sein!
Welche Lageparameter gibt es?
arithmetisches Mittel X_
Modus Xd
Median X ~
Was ist der Modus?
häufigster Wert in einer Verteilung, grundsätzlich für alle Skalenniveaus geeignet
Was ist der Median?
teilt Daten in zwei Hälften, müssen min. ordinalskaliert sein; Anordnung nach Größe -> Mitte, bei gerader Anzahl: arith. Mittel zwischen den zwei mittleren.
ist robust ggü. Ausreißern
Was ist das arithmetische Mittel/ der Mittelwert
x_: ganz normaler "Durchschnitt" erst am intervallskaliert sinnvoll entspricht Schwerpunkt der Verteilung empfindlich ggü. Ausreißern FORMEL!
Was ist das gewichtete arithmetische Mittel
wenn man Mittelwerte aus n Stichproben der gleichen Grundgesamtheit mit verschiedenen Stichprobenumfängen miteinander kombinieren will
FORMEL
Nenne drei andere Lageparameter
geometrisches Mittel
harmonisches Mittel
Mid Range