Bivariate Deskriptive Statistik Flashcards

1
Q

Korrelation bedeutet einfach:

A

ein Zusammenhang zwischen zwei Variablen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche Muster können sich bei Korrelations-Daten ergeben?

A
  1. lineare Zusammenhänge 2. kurvilineare Zusammenhänge
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wenn ein Dotplot eine Art Wolke von Testwerten auswirft, bedeutet das…

A

kein Zusammenhang / keine Korrelation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Es gibt zwei Arten der Korrelation

A
  1. positive Korrelation 2. negative Korrelation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wann kann man einen Messwert “hoch” nennen?

A

Wenn er größer ist als der Mittelwert der Variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche sind die drei ersten Schritte bei der Berechnung des Produkt-Moment-Korrelationskoeffizienten?

A
  1. Abweichung vom Mittelwert bei jedem einzelnen Wert (xi – x<span>mittel</span> ) und (yi – ymittel )
  2. Bildung des Kreuzprodukts aus beiden Abweichungen
  3. Summe aller Kreuzprodukte bilden

Das Kreuzprodukt wird gebildet, indem man die Abweichungen miteinander multipliziert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wie wird die Summe aller Kreuzprodukte (Schritt drei) genannt?

Und wer hat es entwickelt?

A

Produkt-Moment

Entwickelt durch Karl Pearson und Francis Galton

(Daher auch: Pearson-Korrelationskoeffizient)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Angenommen, das Produkt-Moment (Summe aller Kreuzprodukte) ergibt in etwa null, was bedeutet das für die Korrelation?

A

Kein Zusammenhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wenn man das Produkt-Moment durch die Anzahl n aller Merkmalsträger teilt, bekommt man das durchschnittliche Kreuzprodukt.

Wie nennt man dieses noch?

A

Kovarianz

cov(x,y)

cov( x, y ) = 1/n ⋅ ∑ (xi −xmittel) ⋅ (yi −ymittel)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Warum ist die Kovarianz als Zusammenhangsmaß noch nicht gut geeignet?

A

Weil sie von den Maßeinheiten abhängig ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Die lineare Veränderung einer Einheit kann die Kovarianz beeinflussen. Was kann man daher über die Kovarianz aussagen?

A

Die Kovarianz ist nicht invariant gegenüber linearen Transformationen der Variablen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie erreicht man, dass die Kovarianz als geeignetes Maß zur Korrelation verwendet werden kann?

A

Man teilt sie durch das

Produkt beider Standardabweichungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wodurch ist gegeben, dass der Produkt-Moment-Korrelationskoeffizient nicht durch gewählte Einheiten, Größen, etc. beeinflussbar ist?

A

Die Kovarianz wird durch das Produkt beider Standardabweichungen geteilt.

Dies führt dazu, dass jeweils Zähler und Nenner proportional zueinander sind und alle Veränderungen sich herauskürzen lassen

Der Korrelationskoeffizient hängt somit nur von der Stärke des linearen Zusammenhangs ab

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Der Korrelationskoeffizient ist gegenüber linearer Veränderungen stabil. Welches Fachwort gibt es dafür?

A

gegen linearer Veränderungen invariant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Ab welchem Korrelationswert gilt ein Zusammenhang als stark?

A

Nach Cohen (1988)

r | ≈ 0,1 : schwacher Zusammenhang

| r | ≈ 0,3 : mittlerer Zusammenhang

| r | ≈ 0,5 : starker Zusammenhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Welchen Zweck haben z-Werte?

A

Zwei unterschiedliche Variablen miteinander vergleichbar zu machen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was bedeutet ein negativer z-Wert?

A

Der Wert liegt unter dem Mittelwert / Durchschnitt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

was bedeutet ein z-Wert von genau 0?

A

Der Wert entspricht genau dem Mittelwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was bedeutet ein z-Wert von +1,5?

A

Der Wert liegt genau 1,5 Standardabweichungen über dem Mittelwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Wie lässt sich die Formel umstellen, sodass man ihn mithilfe der z-Werte errechnen kann?

A

Der z-Wert entspricht schon Teilen der Formel für r :

  • z*x = (x - xmittel) ÷ sx
  • z<span>y</span>* = (y - ymittel) ÷ s<span>y</span>

Der Korrelationskoeffizient entspricht dem durchschnittlichen Kreuzprodukt (bzw. der Kovarianz) der z-Werte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was wird im allgemeinen durch den z-Wert bestimmt?

A

In welchem Ausmaß Personen auf zwei Variablen die gleiche relative Position einnehmen.

Bei einem perfekten Zusammenhang nimmt Variable X die exakt gleicherelative Position wie Variable Y ein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

“Rezept” für einen Produkt-Moment-Korrelationskoeffizienten mit z-Werten

A
  1. Mittelwerte von x und y bilden
  2. Standardabweichung von x und y bilden
  3. z-Werte jeder Person für beide Variablen
  4. Kreuzprodukt beider z-Werte für jede Person
  5. Mittelwert bilden
    (Summe aller Kreuzprodukte durch Anzahl aller Personen teilen)

z-Wert bilden: (x-xmittel) ÷ sx

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Welches Problem könnte es mit sich bringen, dass viele Studien an Universitäten durchgeführt werden?

A

Die Testteilnehmer sind häufig beinahe ausschließlich Studierende und die meisten anderen Bevölkerungsgruppen fließen gar nicht erst in die Studie ein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Bedeutet Korrelation auch automatisch Kausalität?

A

Nein.

Mathematikkenntnisse korrelieren mit der Körpergröße, sind aber nicht in kausalem Zusammenhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Was gibt die Partialkorrelation an?

A

wie stark die Korrelation zwischen zwei Variablen ohne den Einfluss einer bestimmten Drittvariable ausgeprägt wäre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Wie lautet die Formel für die Partialkorrelation?

A

siehe Bild

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Was ist ein Dichotomes Merkmal?

A

Ein Merkmal, das nur zwei Ausprägungen annehmen kann

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

In welches Skalenniveau fallen dichotome Variablen?

A

sie sind ein Spezialfall von nominalskalierten Variablen.

Da es gleiche Abstände zwischen Merkmalsausprägungen und Messwerten gibt, ist aber die Voraussetzung für eine Intervallskalierte Variable gegeben.

Dadurch lässt sich mit dichotomen Variablen ein Produkt-Moment-Korrelationskoeffizient bilden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Wie kann man am einfachsten Korrelation bei einer dichotomen Variable berechnen?

A

Mit dem Phi-Koeffizienten

Oder (wesentlich komplizierter) durch den Produkt-Moment-Koeffizienten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Welchen ersten Schritt muss man machen, um den Phi-Koeffizienten berechnen zu können?

A

Vierfeldertafel anlegen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Formel für den Phi-Koeffizienten

A

(a · d - b · c) ÷ √(Kreuzprodukt)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Bei zwei ordinalskalierten Variablen kann man welchen Weg wählen, um die Korrelation zu bestimmen?

A

Kendalls Tau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Gleiche Abstände zwischen verschiedenen Rangplätzen bringen nicht unbedingt gleiche Unterschiede.

Um welches Skalenniveau geht es?

A

Ordinalskalenniveau

Erster, Zweiter, Dritter…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Nachdem man die ordinalskalierten Messwerte nach Rangfolge angeordnet hat, welchen nächsten Schritt braucht es, um Kendalls Tau zu berechnen?

A

Wir vergleichen die Messwerte und stellen fest, wo sich die Testpersonen einig sind:

Proversionen

und wo sie gegenteiliger Ansicht sind:

Inversionen

Dies wird für alle Testobjekte weitergeführt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Wofür steht in der Formel für Kendalls Tau das S ?

A

Die Differenz zwischen den Proversionen und Inversionen:

S = P - I

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Formel Kendalls Tau

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Regressionsrechnung

A

Auf der Grundlage von Korrelationen die bestmögliche Vorhersage für eine Variable bestimmen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Warum kann man Korrelation und Regression als zwei Seiten der selben Medaille ansehen?

A

Je stärker der Zusammenhang, umso präziser wird sich eine Variable aus der Kenntnis der anderen Variablen vorhersagen lassen

(und umgekehrt bei kaum Zusammenhang: kaum Vorhersage möglich)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Wozu dienen Prädiktor und Kriterium?

A

PrädiXtor: Für Vorhersage genutzte Variable

KrYterium: Vorhergesagte Variable

(Durch und X und Y abgekürzt)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Was sagt in der Regressionsrechnung was voraus?

A

X sagt Y voraus

(Prädiktor, Kriterium)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Warum werden bei der Regressionsrechnung die Kriterien vorhergesagt, obwohl alle Y-Werte in einer Stichprobe bekannt sind?

A

Dieses Vorgehen ist notwendig, damit die “optimale Vorhersageregel” bestimmt werden kann

42
Q

Das Ziel der Regressionsrechnung…

A

von einer Vorhersageregel auf eine neue Stichprobe von Probanden schließen zu können

43
Q

Was bedeutet ein “Deterministischer Zusammenhang”?

A

eine einwandfreie Korrelation von r = 1

44
Q

Wofür wäre die Voraussage der Anzahl der Treppenstufen in einem Hochhaus ein Beispiel?

Gegeben, dass jedes Stockwerk gleich viele Stufen hat

A

Beispiel für einen Deterministischen Zusammenhang

45
Q

Welche Formel verwendet man für einen deterministischen Zusammenhang?

A

y = b · x + a

(y=mx + t)

(Geradengleichung)

46
Q

Was ist der Unterschied zwischen einem

inearen und einem stochastischen Zusammenhang?

A

ein linearer Z ist perfekt, also r = 1

ein stochastischer Zusammenhang ist nicht perfekt

47
Q

Kann man bei einem stochastischen Zusammenhang eine akurate Vorhersage treffen?

A

Nein

48
Q

Wie nennt man eine Gerade, die annähernd die Korrelation in einem Dotplot darstellen soll?

A

Regressionsgerade

49
Q

Wofür steht in der Statistik das “Dach” auf einem Buchstaben?

ŷ, ŵ, Ŵ, Ŷ, …

A

Für einen vorhergesagten / geschätzten Wert

50
Q

was gibt die Reihenfolge der Indizes an?

ŷi = byx · xi + ayx

A

mit yx wird angezeigt, dass die Variable Y aus X vorhergesagt wird (und nicht X aus Y)

51
Q

Welche sind die Regressionskoeffizienten?

y = bx + a

A

Achsenabschnitt (a)

Steigung (b)

(b wird auch Regressionsgewicht genannt)

52
Q

Wenn der vorhergesagte Wert ŷ bei der Regressionsgerade nicht mit dem tatsächlichen Wert y ähnlich ist, nennt man dies…?

Und die Formel lautet:

A

Vorhersagefehler ei

ei = yi − ŷi

53
Q

Wenn ein y-Wert im Graphen über der Regressionsgerade liegt, ist der Vorhersagefehler (ei ) …

A

positiv

(negativ, wenn unterhalb der Gerade)

54
Q

Welches “Kriterium” verwendet man, um durch die Fehler die beste Position für die Regressionsgerade zu finden?

A

Kriterium der kleinsten Quadrate

(Summe aller Vorhersagefehler zum Quadrat)

=

Kleinstmöglicher Wert

55
Q

Welche drei Kennwerte nutzt man, um die Position der Regressionsgeraden zu bestimmen?

A
  1. Mittelwerte der Variablen X und Y
  2. Varianz der Variablen X
  3. Kovarianz beider Variablen
56
Q

Welche zwei Werte möchten wir berechnen, um die Regressionsgerade zu ermitteln?

A

Steigung byx der Regressionsgeraden:

Kovarianz der Variablen X und Y durch die Varianz der Variablen X dividieren

Achsenabschnitt ayx

vom Mittelwert Y das Produkt (Steigung byx und Mittelwert X) abziehen

57
Q

Wie kann man mithilfe des Korrelationskoeffizienten das Regressionsgewicht byx herleiten?

A

Die Formeln ähneln sich stark. Man muss nur einen Schritt durchführen, um zum Regressionsgewicht zu gelangen

Das Verhältnis der Standardabweichungen der Variablen Y und X gibt also an, wie deutlich sich die Steigung b<em>yx</em> der Regressionsgeraden vom Korrelationskoeffizienten der beiden Variablen unterscheidet.

58
Q

Wie wird das Regressionsgewicht b bei einer Analyse mit standatisierten z-Werten genannt?

A

standatisiertes Regressionsgewicht

ß

59
Q

Was gibt das standatisierte Regressionsgewicht

ßyx

an?

A

um wie viele Standardabweichungseinheiten sich Variable Y verändert, wenn Variable X um eine Standardabweichung steigt

60
Q

Wie wird das standardisierte Regressionsgewicht ß bestimmt?

A

Bei z-Werten ist die Standardabweichung immer

sz = 1

Daher:

61
Q

was gilt bei z-standardisierten Werten bzgl. der Steigung ß/b?

A

Bei z-standardisierten Variablen ist die Steigung der Regressionsgeraden identisch mit der Korrelation zwischen den beiden Variablen

62
Q

Wie hoch ist der y-Achsenabschnitt ayx bei Regressionen mit z-standardisierten Werten?

A

Immer gleich 0

Weil der Mittelwert z einer z-standardisierten Variablen stets Null ist

63
Q

Inwieweit vereinfacht sich die Formel für die Regressionsgerade bei z-standardisierten Werten?

A
64
Q

Was ist der Regressionseffekt?

A

“Regression zur Mitte”

Mit jedem Durchgang nähern sich Testwerte der Regressionsgeraden an

65
Q

Kann eine Regressionsgerade exakt Ergebnisse vorhersagen?

A

Nein. Eine Regressionsrechnung ist immer fehlerhaft

66
Q

Wie kann man die “Varianzzerlegung” vornehmen?

A

yi-ymittel lässt sich auch folgendermaßen ausdrücken und führt zu größerer Genauigkeit:

67
Q

Bei einer Geraden, die das Kriterium der kleinsten Quadrate erfüllt – bei der also die Summe der quadrierten Abweichungen zwischen vorhergesagten und tatsächlichen Werten minimal wird, ist die Summe der Vorhersagefehler immer … ?

A

Das heißt auch, dass der

Mittelwert der Vorhersagefehler ei

in jeder Regressionsanalyse Null beträgt.

68
Q

Welche beiden Varianzen können wir auf Basis der quadrierten Abweichungen berechnen?

A

Die Varianz der vorhergesagten

Werte s2ŷ und die Varianz der Vorhersagefehler s2e

69
Q

Wie nennt man die Varianz der Vorhergesagten Werte?

s2ŷ

Worum handelt es sich dabei?

A

Regressionsvarianz

Es handelt sich um die Varianz der Kriteriumsvariablen Y

70
Q

Wie nennt man die Varianz der Vorhersagefehler?

s2e

Worum handelt es sich dabei?

A

Fehlervarianz

Varianz der tatsächlichen y-Werte um e

die vorhergesagten Werte, also um die Regressionsgerade

71
Q

Was ergibt die Summe der Regressionsvarianz und der Fehlervarianz?

A

Die Gesamtvarianz der y-Werte

72
Q

Die Regressionsrechnung zielt darauf, die Unter- schiede zwischen Personen in der Kriteriumsvariablen Y möglichst vollständig vorherzusagen

A

Verstanden?

73
Q

Wofür ist die Gesamtvarianz ein Maß?

(in Regressionsrechnung)

A

Ein Maß für die Unterschiede zwischen Personen auf der Y-Variable

74
Q

Wofür ist die Regressionsvarianz ein Maß?

A

Sie gibt an, wie viel Varianz der Y-Variable durch die Regression tatsächlich vorhergesagt werden kann

75
Q

Wofür ist der Determinationskoeffizient ein Maß?

A

Ein Maß für die Güte der Vorhersage

76
Q

Wie berechnet sich der Determinationskoeffizient?

A

Er entspricht dem Anteil der Regressionsvarianz an der Gesamtvarianz:

77
Q

Womit ist der Determinationskoeffizient identisch?

A

Mit dem quadrierten Korrelationskoeffizienten:

78
Q

Inwieweit verändert sich der Determinationskoeffizient, wenn man Prädiktor und Kriterium vertauscht?

A

Er bleibt gleicht.

79
Q

Was kann der Determinationskoeffizient noch, um bei der Reduktion von Regressionsfehlern hilfreich zu sein?

A

Der Determinationskoeffizient gibt auch an, um wie viel Prozent sich der Vorhersagefehler verringert, wenn bei der Vorhersage des Kriteriums der Prädiktor berücksichtigt wird.

80
Q

Wie erhält man aus der Fehlervarianz se2 den Standardschätzfehler se ?

A

Man zieht die Wurzel aus der Fehlervarianz

81
Q

Was gibt der Standardmessfehler se an?

A

Der Standardschätzfehler gibt an, wie stark die tatsächlichen Werte um die von der Regressionsgerade vorhergesagten Werte streuen

82
Q

Welche sind die beiden gebräuchlichen Maße für die Güte einer Vorhersage?

A
  1. Determinationskoeffizient
  2. Standardschätzfehler
83
Q

Was sagt ein kleiner Wert des

Standardschätzfehlers aus?

A

Je kleiner der Standardschätzfehler, desto weniger weichen die tatsächlichen Werte von den vorhergesagten Werten ab und desto genauer ist folglich die Vorhersage.

84
Q

Wie lässt sich durch das Verhältnis aus Kriterium und Prädiktor die Formel des Standardschätzfehlers vereinfachen?

A
85
Q

Welche Maße in der Regressionsrechnung hängen von der Korrelation zwischen Prädiktor und Kriterium ab?

A

Regressionskoeffizienten byx und ayx als auch die Gütemaße der Vorhersage

86
Q

Welche naheliegende Erweiterung der Regressionsrechnung könnten wir anwenden, um ein genaueres Ergebnis zu erhalten?

A

multiple Regression

Mehrere Prädiktoren zur Berechnung

87
Q

Das Ziel der multiplen Regression besteht darin, …

A

eine Kriteriumsvariable Y auf der Grundlage von zwei oder mehreren Prädiktoren (X1, X2, …, Xm) bestmöglich vorherzusagen.

88
Q

Wie lautet die allgemeine Formel der linearen multiplen Regression

A
89
Q

Welche Gütemaße kommen in der multiplen Regression vor?

A
  1. Standardschätzfehler
  2. multiple Determinationskoeffizient
  3. multiple Korrelation verwendet
90
Q

Formel multipler Korrelationskoeffizient

RY.12​

A
91
Q

Was ist das Kriterium der kleinsten Quadrate?

A

Die Regressionsgerade wird so geschätzt, dass die Summe der quadrierten Abweichung der geschätzten y-Werte ( ŷi ) von den tatsächlichen y-Werten möglichst klein ist

92
Q

die Abweichungen der tatsächlichen Werte von den vorhergesagten Werten bezeichnet man als…

A

Residuen

z.B. in Residualvarianz

Gesamtvarianz = Residualvarianz + Regressionsvarianz

93
Q

Wie lässt sich diese Gleichung zur Berechnung der Gesamtvarianz genauer ausdrücken?

A
94
Q

Um zu beurteilen, wie gut das Regressionsmodell ist, setzt man die Regressionsvarianz ins Verhältnis zur Gesamtvarianz. Den erhaltenen Wert bezeichnet man als …

A

Determinationskoeffizienten R2

95
Q

Wie werden zwei ordinalskalierte Variablen miteinander korreliert?

A

z.B. Kendall’s Tau oder Spearman’s Rho

96
Q

wie werden Korrelationsmaße wie Kendall’s Tau oder Spearman’s Rho noch genannt?

A

Rangkorrelationskoeffizienten

97
Q

Wozu kommt es, wenn bei ordinalskalierten Variablen zweien der gleiche Wert/Rang zugeordnet wird?

A

Rangbindungen

98
Q

Welches der beiden behandelten Rangkorrelationsmaße ist robuster gegenüber Rangbindungen?

A

Kendall’s Tau

99
Q

Welches der beiden behandelten Rangkorrelationsmaße ist weniger robust gegenüber Rangbindungen?

A

Spearman’s Rho

100
Q

Wie nennt man einen perfekten Zusammenhang von 1 noch?

A

Deterministischer Zusammenhang