Bivariate deskriptive Statistik Flashcards

1
Q

Bedingte Kennwerte

A
  • Jede univariate deskriptive Statistik (= Kennwert) einer Variablen kann in Abhängigkeit von der Ausprägung einer anderen berechnet werden. So kann ein Zusammenhang zwischen Variablen offengelegt werden.
  • Die Variable, welche die Bedingung stellt, muss diskret oder diskretisiert (kategorisiert) sein!
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Zusammenhangsmaße

A
  • Sind Kennwerte, die in einer einzelnen Zahl die Richtung und die Stärke eines Zusammenhangs (einer bestimmten Form) zwischen zwei Variablen angeben
  • Aufgrund verschiedener Variableneigenschaften gibt es verschiedene Zusammenhangsmaße:
    • Phi-Koeffizient nominal x nominal
    • Kendalls Tau (Rangkorrelationskoeffizient) ordinal x ordinal
    • Spearmans Rho (Rangkorrelationskoeffizient) ordinal x ordinal
    • Produkt-Moment-Korrelation intervall x intervall
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Streudiagramme

A
  • Schaffen einen (groben) Überblick
  • Zwei mindestens intervallskalierte Variablen
  • Zweidimensionales Koordinatensystem (Jeder Punkt entspricht einem Messwertpaar)
  • Zuordnung der Achsen x und y egal außer bei Kausalbeziehungen (Ursache-Wirkung), da ist x die vorhersagende/verursachende

Form:

  • linear (das Muster der Datenpunkte im Diagramm kann annäherungsweise durch eine Gerade beschrieben werden = Regressionsgerade)
  • kurvilinear (das Muster der Datenpunkte im Diagramm kann annäherungsweise durch eine Kurve beschrieben werden)
  • kein Zusammenhang (Punktwolke)

Richtung (bei linearem Zusammenhang):

  • positiv (von links unten nach rechts oben)
  • negativ (von links oben nach rechts unten)

Stärke:

  • Je näher die Datenpunkte an der gedachten Gerade oder Kurve liegen, desto stärker ist der Zusammenhang

Perfekte Korrelation: Deterministischer Zusammenhang

Regelfall: Stochastischer/probalistischer Zusammenhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Produkt-Moment-Korrelationskoeffizient r

A
  • nach Bravais und Pearson
  • r gibt die Stärke und Richtung eines linearen Zusammenhangs zwischen zwei Variablen an (-1 < r < 1) → nicht anwendbar bei kurvilinearen Zusammenhängen
  • r = cov(x,y) geteilt durch das Produkt der Standardabweichungen ODER r = das durchschnittliche Kreuzprodukt der z-Werte
  • wenn r positiv → hohe Werte der einen Variablen gehen mit hohen Werten der anderen Variablen einher
  • wenn r negativ → hohe Werte der einen Variablen gehen mit niedrigen Werten der anderen Variablen einher
  • Konvention nach Cohen: r = 0,5 starker Zusammenhang, r = 0,3 mittlerer Zusammenhang, r = 0,1 schwacher Zusammenhang; diese Konvention gilt auch für alle anderen Zusammenhangsmaße
  • Berechnung:
    1. ​Berechnung der Differenz zwischen Messwert und Mittelwert für jede Person auf beiden Variablen
    2. Berechnung des Kreuzprodukts für jede Person aus den beiden Abweichungswerten
    3. Berechnung der Summe der Kreuzprodukte = Produkt Moment
  • Problem: Je mehr VPN, desto größer das Produkt-Moment!
  • Lösung: Kovarianz = Mittelwert des Kreuzprodukts
  • Problem: Da die Kovarianz von den Maßeinheiten abhängig ist, ist sie als alleinstehendes Zusammenhangsmaß nicht gut geeignet.
  • Lösung: Durch die Relativierung der Kovarianz an den Standardabweichungen wird der Korrelationskoeffizient „r“ von den Maßeinheiten unabhängig

Alternative: einfach das mittlere Kreuzprodukt der z-Werte berechnen!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Verzerrungen von r

A
  • Ausreißerwerte können r extrem verfälschen. Sie sollten auf keinen Fall ignoriert werden. Vielleicht hat die Vpn bei einem Test der Reaktionsgeschwindigkeit einfach nur kurz nicht aufgepasst
  • Einschränkung der Variabilität = wenn man nicht den gesamten Wertebereich einer (oder mehrerer) Variable betrachtet, sondern nur eine Teilmenge, dann ergibt sich unter Umständen ein völlig anderes r. Z.B. ist die Korrelation der Variablen “Alter” und “Lesefähigkeit” bei 12-14-Jährigen immer niedriger als wenn man den betrachteten Altersbereich auf 3-18 Jahre ausweiten würde
  • Zusammenfassung von heterogenen Untergruppen = die Korrelation zwischen den Variablen “Umfang des wöchentlichen Krafttrainings” und “maximale Kraft” fällt deutlich niedriger aus, wenn man Frauen und Männer fälschlicherweise einfach als eine große Gruppe betrachtet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Partialkorrelation

A
  • wie stark wäre der Zusammenhang zwischen zwei Variablen, wenn ein bestimmte Drittvariable keinen Einfluss auf die Variablen hätte
  • so kann man auch ohne Experiment Ursache-Wirkungs-Beziehungen zumindest ausschließen (aber nicht beweisen!)
  • z.B. zwischen den Variablen “Anzahl der Kirchgänge” und “Ausländerfeindlichkeit” besteht ein Zusammenhang. Sie vermuten aber, dass dieser Zusammenhang durch die Drittvariable “Alter” hervorgerufen wird
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Phi-Koeffizient

A
  • für 2 nominalskalierte Merkmale mit jeweils nur 2 Ausprägungen (=dichotome Merkmale)
  • z.B. Mann/Frau oder Ja/Nein
  • Der Phi-Koeffizient wird nur positiv angegeben, Werte von 0 bis 1
  • Die Codierung der Variablen ist bei der Berechnung irrelevant.
  • Darstellung mittels Kontingenztafel / Vierfeldertafel
  • Randsummen = Stichprobengrößen (nur bei gleichen Randsummen ist ein perfekter Zusammenhang möglich)
  • Stärke des Zusammenhangs wird durch die Randverteilung (also ggf. ungleich große Stichproben) eingeschränkt
  • Man könnte hier auch den Produkt-Moment-Korrelationskoeffizienten anwenden (z.B. Mann = 0, Frau = 1) und würde so (mit mehr Aufwand) zum selben Ergebnis kommen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Kendalls Tau + Spearman’s Rho

A
  • für 2 ordinalskalierte Merkmale
  • können wie r auch Werte zwischen -1 und 1 annehmen

Kendall’s Tau:

  • die Daten, orientiert an der x-Variablen, in eine Rangfolge bringen. Die y-Werte sind dann also nicht in perfekter Reihenfolge (wäre nur so bei perfektem Zusammenhang)
  • dann zählt man die Übereinstimmungen (Proversionen) und Unstimmigkeiten (Inversionen) hinsichtlich der Reihenfolge
  • dann berechnet man die Differenz S zwischen Proversionen P und Inversionen I
  • S wird relativiert, indem man es durch die maximal mögliche Anzahl an Proversionen teilt = Kendals Tau

Spearman’s Rho:

  • ist quasi eine Art Produkt-Moment-Korrelation auf Rangbasis

Unterschiede:

  • Spearman’s Rho führt in der Regel zu höherer Korrelation
  • Kendalls T ist robuster gegen Rangbindungen.
  • Sowohl für Spearman als auch für Kendalls Tau gibt es mehr oder weniger komplizierte Korrekturformeln, die bei Rangbindung angewandt werden müssen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly