Deskriptive Statistik – univariate Verteilungen Flashcards
Auf was greifen empirisch ableitende Wissenschaften zurück?
- auf umfangreiche Daten in Form von Stichproben
- Um Sachverhalte oder Theorien zu prüfen
- In der Pschologie liegen den Stichproben Menschen zugrunde
Um Stichproben adäquat zu beschreiben, werden ebenfalls …
… soziodemografische Daten benötigt
Was ist das Gute an der deskriptiven Statistik?
- Sie reduziert den Umfang der Daten
> Um mit möglichst wenig Kennzahlen eine adäquate Beschreibung der Merkmale einer Stichprobe zu erhalten
Was ist eine univariate Verteilung?
- Betrachtung von nur einer Wertemenge eines Merkmals (eine Variable)
- Lässt sich bereits mithilfe eines Lagemaßes und eines Streuungsmaßes hinreichend genau beschreiben
Was ist eine Deskriptive Statistik?
- Daten beschreibende Statistik
- Lässt noch keine logischen Schlüsse zu
Was sind Lagemaße?
- auch Maße der zentralen Tendenz genannt
- Geben den zentralen Wert einer Wertemenge an, der diese am besten repräsentieren soll
- Datenmenge wird mit einer einzigen Kennzahl beschrieben
Was ist der Mittelwert?
- Das bekannteste Lagemaß
- Arithmetrische Mittel
- Summe aller Werte geteilt durch die Anzahl der Werte
- Es lässt sich genau eine Kennzahl berechnen, die die Einzelwerte repräsentiert
> Komplexität mehrerer Werte wird auf einen einfach kommunizierbaren und vergleichbaren Wert gebracht
Wann muss ein Skalenniveau bestimmt werden?
z.B. wenn das Alter bei der Mittelwertberechnung in Altersgruppen und nicht in Einzelwerte erfasst wird
Was ist ein Skalenniveau?
Gibt die Menge an Informationen an, die in den gemessenen Daten enthalten sind
Skalenniveaus werden unterschieden in …
… norminal, ordinal, intervall
norminales Skalenniveau
- Einfachstes Skalenniveau
- Prüfen, ob zwei Daten gleich/ungleich sind
ordinales Skalenniveau
- Ordnung der Merkmale nach Größe
Beispiele:
- Ranglisten
- unspezifisiche Häufigkeiten wie “nie”, “oft”
- subjektive Einschätzungen wie “schlecht”, “mittel”, “gut”
Internvallskalenniveau
- Abstände berechnen
- z.B. Alter, Anzahl Freunde, Blutwerte
Skalenniveaus und ihre erlaubten Operationen (Schaubild)

Besonderheiten der Skalenniveaus
- Ein Forschungsdatensatz enthält üblicherweise eine Mischung aus allen drei Daten
- Nachträglich lassen sich höhere Skalenniveaus auf niedrigere Skalenniveaus reduzieren (Informationsverlust)
Was ist Invarianz?
- Unveränderlichkeit eines Wertes (robust)
- Inwieweit darf sich die Wertemenge ändern, ohne dass sich das berechnete Lagemaß ändert
- Der Mittelwert einer Wertemenge verändert sich nicht, sofern das Gewicht der Werte oberhalb und unterhalb des Mittelwertes ausgeglichen ist
Was ist eine Ratingskala?
- Wird oft in psychologischen Fragebögen verwendet
- Aussagen werden anhand mehrerer vorgegebener Merkmalsausprägungen beurteilt
- Abstände zwischen zwei Merkmalen oft nicht bestimmbar
- Jede Person definiert Begriffe anders
Beispiele für Ratingskalen (Schaubild)

Was ist der Median?
- Alle Werte werden der Größe nach sortiert
- Der Werte in der Mitte dieser Rangfolge ist der Median
- Unter dem Median liegen genauso viele Werte wie über dem Median
Beispiel zum Median bei sieben Einzelwerten einer fünfstufigen Ratingskala (Schaubild)

Der Median lässt sich auch bei …
… höheren Skalenniveaus oder bei Intervallskalenniveaus berechnen
> die Operationen der vorhergehenden Skalenniveaus werden übernommen
Median Beispiel gerade/ungerade Anzahl von Merkmalen (Schaubild)

Medianberechnung bei einer geraden Anzahl von Werten
Entweder
- Wird der Mittelwert der beiden mittleren Werte berechnet
oder
- es wird einer der beiden mittleren Werte ausgewählt
Der Median einer Wertemenge verändert sich nicht, sofern …
… die Anzahl der Werte unterhalb und oberhalb des Medians gleichbleibt
> Invarianz genannt
Was ist der Modus?
- Der am häufigsten vorkommende Wert
- auch Modalwert genannt
- Ist der Wert, den man am wahrscheinlichsten erhält, wenn man zufällig einen Wert aus der Wertemenge zieht
- Es kann einen, zwei oder mehrere Modalwerte geben
> unimodalen, bimodalen, multimodalen Verteilungen
Beispiele für unimodale, bimodale und multimodale Verteilungen (Schaubild)

Beispiele zum Modus (Schaubild)

Bei nominalskalierten Daten lässt sich nur prüfen, ob …
… zwei Werte gleich sind oder sich unterscheiden
> Die Ordnung nach Größe oder die Berechnung des Abstandes ist nicht möglich!
Invarianz vom Modus
- Modus einer Wertemenge verändert sich nicht, wenn die anderen Werte in ihrer Ausprägung oder Häufigkeit verändert werden
- Solange die Häufigkeit des Modus von KEINEM ANDEREN WERT erreicht wird
> Ein und derselbe Modus kann bei beliebig vielen Wertemengen auftreten
Beispiel für unterschiedliche Wertemengen mit Modus 1 (Schaubild)

Wozu werden Streuungsmaße eingesetzt?
- Werteverteilung kann aufgrund der Invarianz der Lagemaße unterschiedlich ausfallen
> Es werden zur Beschreibung der Werteverteilung zusätzlich Streuungsmaße (Dispersionsmaße) angegeben
> Ein Maß für die Variabilität der Daten
Was ist ein Quantil?
- p-Quantil (0%-100%) gibt den Einzelwert an, der die Menge aller Werte in zwei Gruppen teilt
- Die erste Gruppe enthält p-Prozent aller Werte
- Die zweite Gruppe enthält 1-Prozent aller Werte
> Der Median ist das 50%-Quantil
Was ist der Interquartilabstand?
- mindestens ordinalskalierte Daten
- deren Variabilität berechnen
> Den IQR erhält man, indem man vom 75%-Quantil das 25%-Quantil abzieht
Beispiele für einen Interquartilsabstand (Schaubild)

Was ist die Varianz?
- Der Mittelwert der quadrierten Abweichung der Einzelwerte
- Auf Interskalenniveau lässt sich die Varianz für die Variabilität der Daten berechnen
- Die Summe der einfachen Abweichungen muss Null sein
> Quadrierte Abweichungen zum Mittelwert
Berechnungsidee für Varainz und Standardabweichung (Schaubild)

Stichprobenvarianz (s^2) vs. Populationsvarianz (σ^2, kleines Sigma)
Stichprobenvarianz:
- Summe der quadratischen Abweichung wird durch n-1 geteilt
Populationsvarianz:
- Summe der quadratischen Abweichung wird durch n geteilt
Was ist ein Nachteil der Varianz?
- Sie hat nicht die selbe “Einheit” wie die zugrundeliegenden Daten, da die Werte quadriert werden
> Durch das Ziehen der quadratischen Wurzel erhält man die sogenannte Standardabweichung
Was bedeutet normalverteilt?
- Verteilung der Daten folgt der Gaußschen Glockenkurve
- Die Daten sind symmetrisch um den Mittelwert verteilt
- Geringe Abweichungen vom Mittelwert sind wahrscheinlicher als große Abweichungen
Normalvertielung mit z-Werten, Prozentrang und IQ-Werten (Schaubild)

Was ist die z-Transformation?
- Standardisierung
- Umrechnung von Daten, so dass diese mit anderen Daten verglichen werden können
> Von jedem Wert der Stichprobe wird der Mittelwert abgezogen und anschließend durch die Standardabweichung geteilt
Beispiel zur z-Transformation des Alters bei Studienabschluss (Schaubild)

Die graphische Darstellung von Daten ist immer so zu wählen, dass …
… das Verständnis von Daten verbessert wird
Was sind Ausreißer?
- Werte, die besonders weit weg von den meisten anderen Werten liegen
- Besonders große oder besonders kleine z-Werte (große positive oder negative Werte)
Beispiele für die graphische Darstellung von univariaten Verteilungen (Schaubild)

Wann wird ein Säulendiagramm verwendet?
- Wird bei nominal- oder ordinalskalierten Daten (kategoriale Daten) verwendet
- Um die Häufigkeit der verschiedenen Merkmalsausprägungen darzustellen
- Der höchste Balken entspricht dem Modus
- Man sieht sofort, ob es sich um eine unimodale oder multimodale Verteilung handelt
Was wird ein Boxplot zur Darstellung verwendet?
- mindestens ordinalskalierten Daten
- Es lassen sich Median, 75%-Quantil und 25%-Quantil ablesen
- Die Breite der Box entspricht dem Interquartilsabstand
- Die Antennen (Whiskers) entsprechen maximal dem 1,5-fachen Interquartilsabstand
- Ausreißer werden leicht erkennbar außerhalb der Antennen als Punkte oder Sterne dargestellt
Boxplot ohne Ausreißer (oben) und mit Ausreißer (unten) (Schaubild)

Wann wird ein Histogramm verwendet?
- Bei intervallskalierten Daten
- Daten werden in Intervallen oder Klassen zusammengefasst
- Die Breite der Intervalle kann frei gewählt werden, wird durch den Kontext bestimmt
- Die Balken der Klassen berühren sich nicht, da die Werte fortlaufend sind
- Der Modus lässt sich nur bei einer Klassenbreite von 1 ablegen
Probleme in der Praxis
- Daten müssen vor der Auswertng aus verschiedenen Quellen zusammengetragen werden
- Es kann zu Übertragungs- und Tippfehlern kommen
Beispiele für problematische Verteilungsformen (Schaubild)

Was sind wünschenswerte Verteilungen?
- Verteilungen, die grob der Normalverteilungen folgen
Was sind mehrgipflige oder schiefe Stichproben?
- Stichproben, deren Werte sich stark rechts oder links sammeln
auch natürliche Schieflagen möglich:
- Studienbeginn ist rechtsschief
- Renteneintritt ist linksschief
Wie lässt sich die Schiefe als Kennzahl berechnen?
- durch die Reihenfolge des Mittelwerts, des Medians und des Modus
Zusammenhang zwischen Schiefe, Mittelwert, Median und Modus (Schaubild)
- Der Mittelwert verschiebt sich am stärksten, da dieser die Abstände der Werte berücksichtigt

Skalenniveaus und erlaubte Berechnungen (Schaubild)

Nur in Kombination mit der deskriptiven Statistik können …
… Daten sinnvoll beurteilt und darauf basierend Forschungsfragen beantwortet werden
Warum ist es sinnvoll die Standardabweichung zu berechnen?
- Die Stichprobenstreuung hat nicht die gleiche Einheit wie die Daten, da die Werte quadriert wurden
- Die Standardabweichung entsteht durch das Ziehen der Wurzel aus der Stichprobenvarianz
- hat deshalb die gleiche Einheit wie die Daten
Welches Skalen-Niveau für welche Art?
- Geschlecht (männlich, weiblich, andere) = nominal
- Parteizugehörigkeit (CDU/CSU, SPD, Grüne, Linke, FDP, andere, keine) = nominal
- Alter (in Jahren) = intervall
- Altersgruppe (bis 20 Jahre, > 20 bis 40 Jahre, > 40 bis 60 Jahre, > 60 bis 80 Jahre, > 80 Jahre) = ordinal
Die Zusammenhänge bei Phi
Φ = 1, perfekter positiver Zusammenhang
Φ = 0, kein Zusammenhang
Φ = –1, perfekter negativer Zusammenhang
Effektstärke nach Cohen
0 bis < 0,1 (kein Effekt)
ab 0,1 (schwach)
ab 0,3 (mittel)
ab 0,5 (stark)
Was heißt Prävalenz?
Anzahl der Erkrankten in einer Stichprobe
Was sagt der Determinationskoeffizient aus? Beispiel: Alter und Reaktionszeit
98 % der Variation der Reaktionszeit werden durch die Variation des Alters erklärt
> Ist das Quadrat der Pearson Korrelation d = r2
Beispiel Spearman Korrelation

Unterschiede Pearson Korrelation, Phi Koeffizient, Spearman Korrelation

Pearson Korrelation
- lineare Zusammenhänge
- beide Merkmale intervallskaliert oder metrisch
- nimmt Werte zwischen +1 und -1 an
Was sagt die Kovarianz aus?
Durchschnittliche Abweichung eines Wertepaares von den Mittelwerten der beiden Merkmale
IQR: Wann ist ein Wert ein Ausreißer?
- Wenn er mindestens das 1,5 fache des IQR vom oberen bzw. unteren Quartil entfernt ist
Ganz leicht Quartile ausrechnen

Diskrete Zufallsgrößen:
sind voneinander abgegrenzt und können abgezählt werden
Dichotome Zufallsvariablen:
- sind ebenfalls diskret
- nehmen genau 2 Werte an (z.B. 0=Erkrankung liegt vor, 1= Erkrankung liegt nicht vor)
Stetige Zufallsvariablen:
Können jeden beliebigen reelen Wert in einem reelen Zahlenintervall annehmen
Normalverteilungsdichte
Je größer die Varianz, desto flacher die Normalverteilungskurve
Je kleiner die Varianz, desto spitzer die Normalverteilungskurve
Mengenoptionen: VENN-Diagramm

Was heißt 95% Ci
bei 95% aller Stichprobenziehungen auf deren Basis der Intervall berechnet wird, liegt der unbekannte Populationsmittelwert im berechneten Intervall
Was heißt 95% Kredibilitätsintervall
Die Wahrscheinlichkeit dafür, dass der Populationsmittelwert zwischen X und Y liegt, beträgt 95%