Deskriptive Statistik – bivariate Verteilungen Flashcards
univariate vs. bivariate Verteilung
univariate Verteilung:
- Die Verteilung eines Merkmals für sich betrachtet
bivariate Verteilung:
- Wie die Ausprägung eines Merkmals mit dem anderen Merkmal korreliert
Beispiel für die Datenstruktur einer empirischen Untersuchung (Schaubild)

Um sich einen Überblick über den Zusammenhang zwischen zwei Merkmalen zu verschaffen, …
… betrachtet man deren gemeinsame Variation
Eigenschaften eines Sreudiagramms
- auch Achsendiagramm genannt
- Zusammenhänge von zwei Merkmalen werden sichtbar
- x-Achse: unabhängige Variable
- y-Achse: abhängige/beeinflusste Variable
Streudiagramm (Beispiel, Schaubild)
- Jeder Punkt steht für ein Wertepaar (Größe der Füße “X”, Körpergröße “Y”)
- Je weiter ein Punkt rechts im Streudiagramm liegt, desto größer war die Person
> Je weiter rechts ein Punkt liegt, desto höher liegt er auch im Diagramm
> Positiver Zusammenhang
> Sozialwissenschaftlich gibt es nie perfekte Zusammenänge (anders als z.B. in der Physik)

Streudiagramme bei positivem Zusammenhang
- Die Merkmale ändern sich gemeinsam in dieselbe Richtung
- Je größer das eine Merkmal ist, desto größer wird das andere
- Je kleiner, desto kleiner
Streudiagramme bei negativem Zusammenhang
- Je größer das eine Merkmal, desto kleiner wird das andere
oder
- Je kleiner das eine, desto größer das andere
Beispiel:
- Alter und Reaktionsvermögen stehen in einem negativen Zusammenhang
Was ist ein häufiges Missverständnis in der Statistik?
- Ein negativer Zusammenhang wird als ein nicht bestehender Zusammenhang gesehen
Beispiele für Streudiagramme mit zunehmender Stärke von links nach rechts (Schaubild)

Wie zeigt sich die Stärke eines Zusammenhangs?
- Zeigt sich darin, wie eng sich die Punkte um eine imaginäre Linie herum sammeln
- Es kann starke positive und starke negative Zusammenhänge geben
Das Streudiagramm ist ein wichtiges Instrument zur …
… Überprüfung von bivariaten Verteilungen
Welche verschiedene Zusammenhänge gibt es?
lineare Zusammenhänge (häufig)
kurvilineare Zusammenhänge (mathematisch nicht berechenbar)
nicht-lineare Zusammenhänge
Beispiele für Streudiagramme mit kurvilinearen Zusammenhänge (Schaubild)

Korrelieren zwei Merkmale, heißt dies nicht automatisch, dass …
… ein kausaler Zusammenhang besteht
> Um auf Kausalität schließen zu können, bedarf es meist zusätzlichen Wissens oder andere Faktoren müssen ausgeschlossen werden
Was ist Kausalität?
Die Annahme eines Ursache-Wirkungs-Zusammenhängs
Um zu prüfen, ob Merkmal X die Ursache für Merkmal Y ist, muss …
- … Merkmal X zeitlich vor Merkmal Y auftreten
- eine Korrelation zwischen den Merkmalen bestehen
- ausgeschlossen werden, dass der Zusammenhang durch ein drittes Merkmal Z erklärt wird
Bei experimentellen Studien wird …
… eine Intervention eingesetzt, um einen Effekt hervorzurufen
- Externe Faktoren werden kontrolliert und deren Einfluss somit ausgeschlossen
Unterschied Zusammenhang vs. Kausalität
Zusammenhang:
- je größer, desto größer
Kausalität:
- mehr X führt zu mehr Y
- > Wird keine explizite Begründung für die Kausalität aufgeführt, sollte man im Zweifel davon ausgehen, dass kein kausaler Zusammenhang besteht*
Was sind Zusammenhangsmaße?
- auch Assoziationsmaße oder Kontingenzmaße genannt
- Geben mittels einer Kennzahl die Stärke des Zusammenhangs an
- Hängt von der Datenstruktur ab
- Es werden bivariate Verteilungen betrachtet
> Skalenniveau beider Merkmale muss berücksichtigt werden
Auswahl gängiger Zusammenhangsmaße in Abhängigkeit vom Skalenniveau der Merkmale (Schaubild)

Was ist eine Kreuztabelle?
- wird auch Kontingenztafel genannt
- Beide Merkmale liegen nominalskaliert vor
- Verteilung lässt sich in Form einer sogenannten Kreuztabelle darstellen
Beispiel einer Vierfeldertafel Geschlecht x Raucherstatus (Schaubild)

Was ist das Großbuchstabe Sigma?
Ein Summenzeichen (Σ)
Was wird in einer Kreuztabelle noch angegeben?
- Randsummen bzw. Randhäufigkeiten
> Daraus lässt sich die Häufigkeit einer Merkmalsausprägung ablesen
Was muss bei Zusammenhängen in Vierfeldertafeln beachtet werden?
- Je Stärker die Häufungen in einzelnen Zellen, desto stärker ist der Zusammenhang
- Ein Zusammenhang bedeutet, dass eine Ausprägung des einen Merkmals besonders oft mit (nur) einer Ausprägung des anderen Merkmals auftritt
Wozu wird eine Vierfeldertafel benötigt?
- Es lässt sich grob abschätzen, wie die beiden Merkmale miteinander variieren
Was wäre ein perfekter Zusammenhang auf der Vierfeldertafel?
- Häufigkeiten größer 0 sind nur auf einer Diagonalen zu finden (siehe Schaubild)

Beispiele für abschätzbare Zusammenhänge in Vierfeldertafeln (Schaubild)

Was muss bei Kreuztabellen beachtet werden?
- Könnten beliebig viele Zeilen und Spalten aufweisen
- die sinnhafte Interpretation ist bei sehr großen Tabellen aber schwierig
> Deshab sollte die Anzahl an Ausprägungen reduziert werden
> Oder mehrere Kategorien thematisch zusammenfassen
Zur Berechnung des Zusammenhangs wird oft der sogenannte …
… Phi-Koeffizient (Φ) berechnet
> Phi ist umso größer, je mehr Werte sich nur auf einer Diagonalen befinden
> Bei Zusammenhang zweier dichotomer, nominalskalierter Merkmale
Beispielrechnung des Phi-Koeffizienten (Schaubild)

Der Phi-Koeffizient ist nur ein Spezialfall des …
… sogenannten Cramer’s V
Wann werden Korrelationskoeffizienten zur Beschreibung der Zusammenhänge berechnet?
Wenn die Daten mindestens auf Ordinalskalenniveau vorliegen
Für die Berechnung der Rangkorrelation müssen die Merkmale mindestens …
… ordinalskaliert sein (nach Spearman)
Für die Berechnung der Produkt-Moment-Korrelation müssen die Daten …
… intervallskaliert sein (nach Pearson)
Merkmale der Spearman-Korrelation
- Liegen die Daten nur ordinal vor, können die Abstände zwischen den Werten nicht berechnet werden
- Für jedes Merkmal wird stattdessen separat die Reihenfolge jedes Wertes bestimmt
> Je mehr die Ränge der beiden Merkmale pro Versuchsteilnehmer übereinstimmen, desto stärker ist die Korrelation
> Je größer jedoch die Summe der Rangabweichungen im Verhältnis zur Stichprobengröße ausfällt, desto kleiner ist der Zusammenhang zwischen den Merkmalen
Warum ist das Ergebnis der Spearman-Korrelation robust/invariant?
- Weil nur die Ränge für die Berechnung der Korrelation herangezogen werden
Berechnungsbeispiel Spearman-Korrelation (Schaubild)

Merkmale der Pearson-Korrelation
- Beide Merkmale sind intervallskaliert
- Die Abstände lassen sich berechnen
- Es können mehrere Informationen für die Berechnung des Zusammenhangs verwendet werden
Was heißt Kovarianz?
- Durchschnittliche Abweichung eines Wertpaares von den Mittelwerten der beiden Merkmale
Berechnungsidee der Kovarianz (Schaubild)
- Je mehr Fläche es von nur einer Farbe gibt, desto größer wird der Betrag der Kovarianz
- Kovarianz ist nicht auf den Wertebereich -1 +1 beschränkt

Was ist ein Betrag?
- Auch absoluter Wert genannt
- Das Vorzeichen des Wertes wird ignoriert
Warum ist die Kovarianz nicht standardisiert?
- Weil nur die Lagemaße der Merkmale berücksichtigt werden
- Nicht die Streuungsmaße
Wird die Kovarianz durch die Streuungen der Merkmale geteilt, erhält man …
… den Pearson-Korrelationskoeeffizienten

Berechnungbeispiel für eine Pearson Korrelation

Berechnung Kovarianz und Pearson-Korrelation

Liegen die Daten bei der Pearson-Korrelation schon z-Standardisiert vor, vereinfacht sich die Formel wie folgt:
- Die alternative Bestimmung aus den z-Werten führt zum selben Ergebnis

Wann ist Cohens Konvention anzuwenden?
- Bei unbekannten Forschungsgebieten, wo noch keine empirische Datenlage besteht
> Hiermit wird die Stärke eines Effektes auf die praktische Bedeutsamkeit zu schließen
> Effekte werden in klein (r = 0,10), mittel (r = 0,30) und groß (r = 0,50) unterteilt
Streudiagramme bivariater Verteilungen mit den Korrelationskoeffizienten gemäß der Konvention von Cohen

Was ist der Determinationskoeffizient?
- Weitere Möglichkeit zur Beurteilung der Güte eines Zusammenhangs
- Erhält man durch das Quadrieren des Korrelationskoeffizienten
- Der Wert als prozentuale Variationsaufklärung ( 0-100%)
Was ist die Lineare Regression?
- Anhand einer vorliegenden Stichprobe wird eine Gerade/Geradengleichung berechnet
- Eine unbekannte Ausprägung eines Merkmals mithilfe eines bekannten anderen Merkmals vorhersagen
- Oft bei Einstellungstests, Versicherungen
- Allgemeine Aussagen treffen, die die absolute Veränderung des einen Merkmals auf die zu erwartende Veränderung des anderen Merkmals abbildet
- Unabhängige Variable = Prädikator
- Abhängige Variable = Kriterium
- z.B. ein IQ-Punkt mehr führt zu 500€ mehr Jahreseinkommen
Bei einer perfekten Korrelation würden alle …
… Punkte auf einer Geraden liegen
- Abweichung jedes y-Wertes vom Mittelwert würde als sogenannte Regressionsgerade erklärt werden
- Bei einer “nicht perfekten” Korrelation weichen die Punkte von der Regressionsgeraden ab
Beispiele einer Vorhersage mittels Regressionsgleichung (Schaubild)

Regressionsbeispiel anhand der fiktiven Korrelation zwischen Alter und Reaktionszeit (Schaubild)

Phi-Koeffizient Zusammenhänge
- Bei einem perfekten Zusammenhang liegen die Häufigkeiten in der Tabelle auf den Diagonalen
- In den anderen Feldern sind sie gleich 0.
> Die Richtung der Diagonale zeigt, ob der Zusammenhang als positiv oder negativ bezeichnet wird.
Was ist der Determinationskoeffizient?
Das Quadrat der Pearson Korrelation
Wie viel Prozent der Variation von X werden durch die Variation von Y erklärt
Wann Spearman Korrelation anwenden?
die Spearman-Korrelation zeigt den Grad der Monotonie, d. h. ob z.B. mit wachsendem Einstellungsalter das Anfangsgehalt (nicht unbedingt linear) zunimmt
z.B. gibt er an, ob eine höhere Leistung mit einer besseren Bewertung des Dozenten einhergeht oder umgekehrt oder kein monotoner Zusammenhang erkennbar ist
Wann die Pearson Korrelation?
Die Pearson-Korrelation gibt eine Information über die Stärke des linearen Zusammenhangs an
Wann Phi-Koeffizienten nutzen?
Dieser gibt an, ob beide Merkmale miteinander zusammenhängen (d. h. eher die Frauen rauchen oder eher die Männer rauchen) oder kein Zusammenhang zwischen Geschlecht und Rauchverhalten erkennbar ist.