Bivariate Deskriptive Statistik Flashcards
Korrelation bedeutet einfach:
ein Zusammenhang zwischen zwei Variablen
Welche Muster können sich bei Korrelations-Daten ergeben?
- lineare Zusammenhänge 2. kurvilineare Zusammenhänge
Wenn ein Dotplot eine Art Wolke von Testwerten auswirft, bedeutet das…
kein Zusammenhang / keine Korrelation
Es gibt zwei Arten der Korrelation
- positive Korrelation 2. negative Korrelation
Wann kann man einen Messwert “hoch” nennen?
Wenn er größer ist als der Mittelwert der Variable
Welche sind die drei ersten Schritte bei der Berechnung des Produkt-Moment-Korrelationskoeffizienten?
- Abweichung vom Mittelwert bei jedem einzelnen Wert (xi – x<span>mittel</span> ) und (yi – ymittel )
- Bildung des Kreuzprodukts aus beiden Abweichungen
- Summe aller Kreuzprodukte bilden
Das Kreuzprodukt wird gebildet, indem man die Abweichungen miteinander multipliziert.
Wie wird die Summe aller Kreuzprodukte (Schritt drei) genannt?
Und wer hat es entwickelt?
Produkt-Moment
Entwickelt durch Karl Pearson und Francis Galton
(Daher auch: Pearson-Korrelationskoeffizient)
Angenommen, das Produkt-Moment (Summe aller Kreuzprodukte) ergibt in etwa null, was bedeutet das für die Korrelation?
Kein Zusammenhang
Wenn man das Produkt-Moment durch die Anzahl n aller Merkmalsträger teilt, bekommt man das durchschnittliche Kreuzprodukt.
Wie nennt man dieses noch?
Kovarianz
cov(x,y)
cov( x, y ) = 1/n ⋅ ∑ (xi −xmittel) ⋅ (yi −ymittel)
Warum ist die Kovarianz als Zusammenhangsmaß noch nicht gut geeignet?
Weil sie von den Maßeinheiten abhängig ist
Die lineare Veränderung einer Einheit kann die Kovarianz beeinflussen. Was kann man daher über die Kovarianz aussagen?
Die Kovarianz ist nicht invariant gegenüber linearen Transformationen der Variablen
Wie erreicht man, dass die Kovarianz als geeignetes Maß zur Korrelation verwendet werden kann?
Man teilt sie durch das
Produkt beider Standardabweichungen

Wodurch ist gegeben, dass der Produkt-Moment-Korrelationskoeffizient nicht durch gewählte Einheiten, Größen, etc. beeinflussbar ist?
Die Kovarianz wird durch das Produkt beider Standardabweichungen geteilt.
Dies führt dazu, dass jeweils Zähler und Nenner proportional zueinander sind und alle Veränderungen sich herauskürzen lassen
Der Korrelationskoeffizient hängt somit nur von der Stärke des linearen Zusammenhangs ab
Der Korrelationskoeffizient ist gegenüber linearer Veränderungen stabil. Welches Fachwort gibt es dafür?
gegen linearer Veränderungen invariant
Ab welchem Korrelationswert gilt ein Zusammenhang als stark?
Nach Cohen (1988)
r | ≈ 0,1 : schwacher Zusammenhang
| r | ≈ 0,3 : mittlerer Zusammenhang
| r | ≈ 0,5 : starker Zusammenhang
Welchen Zweck haben z-Werte?
Zwei unterschiedliche Variablen miteinander vergleichbar zu machen
Was bedeutet ein negativer z-Wert?
Der Wert liegt unter dem Mittelwert / Durchschnitt
was bedeutet ein z-Wert von genau 0?
Der Wert entspricht genau dem Mittelwert
Was bedeutet ein z-Wert von +1,5?
Der Wert liegt genau 1,5 Standardabweichungen über dem Mittelwert
Wie lässt sich die Formel umstellen, sodass man ihn mithilfe der z-Werte errechnen kann?

Der z-Wert entspricht schon Teilen der Formel für r :
- z*x = (x - xmittel) ÷ sx
- z<span>y</span>* = (y - ymittel) ÷ s<span>y</span>
Der Korrelationskoeffizient entspricht dem durchschnittlichen Kreuzprodukt (bzw. der Kovarianz) der z-Werte.

Was wird im allgemeinen durch den z-Wert bestimmt?
In welchem Ausmaß Personen auf zwei Variablen die gleiche relative Position einnehmen.
Bei einem perfekten Zusammenhang nimmt Variable X die exakt gleicherelative Position wie Variable Y ein
“Rezept” für einen Produkt-Moment-Korrelationskoeffizienten mit z-Werten
- Mittelwerte von x und y bilden
- Standardabweichung von x und y bilden
- z-Werte jeder Person für beide Variablen
- Kreuzprodukt beider z-Werte für jede Person
- Mittelwert bilden
(Summe aller Kreuzprodukte durch Anzahl aller Personen teilen)
z-Wert bilden: (x-xmittel) ÷ sx
Welches Problem könnte es mit sich bringen, dass viele Studien an Universitäten durchgeführt werden?
Die Testteilnehmer sind häufig beinahe ausschließlich Studierende und die meisten anderen Bevölkerungsgruppen fließen gar nicht erst in die Studie ein
Bedeutet Korrelation auch automatisch Kausalität?
Nein.
Mathematikkenntnisse korrelieren mit der Körpergröße, sind aber nicht in kausalem Zusammenhang
Was gibt die Partialkorrelation an?
wie stark die Korrelation zwischen zwei Variablen ohne den Einfluss einer bestimmten Drittvariable ausgeprägt wäre.
Wie lautet die Formel für die Partialkorrelation?
siehe Bild

Was ist ein Dichotomes Merkmal?
Ein Merkmal, das nur zwei Ausprägungen annehmen kann
In welches Skalenniveau fallen dichotome Variablen?
sie sind ein Spezialfall von nominalskalierten Variablen.
Da es gleiche Abstände zwischen Merkmalsausprägungen und Messwerten gibt, ist aber die Voraussetzung für eine Intervallskalierte Variable gegeben.
Dadurch lässt sich mit dichotomen Variablen ein Produkt-Moment-Korrelationskoeffizient bilden
Wie kann man am einfachsten Korrelation bei einer dichotomen Variable berechnen?
Mit dem Phi-Koeffizienten
Oder (wesentlich komplizierter) durch den Produkt-Moment-Koeffizienten
Welchen ersten Schritt muss man machen, um den Phi-Koeffizienten berechnen zu können?
Vierfeldertafel anlegen
Formel für den Phi-Koeffizienten
(a · d - b · c) ÷ √(Kreuzprodukt)

Bei zwei ordinalskalierten Variablen kann man welchen Weg wählen, um die Korrelation zu bestimmen?
Kendalls Tau
Gleiche Abstände zwischen verschiedenen Rangplätzen bringen nicht unbedingt gleiche Unterschiede.
Um welches Skalenniveau geht es?
Ordinalskalenniveau
Erster, Zweiter, Dritter…
Nachdem man die ordinalskalierten Messwerte nach Rangfolge angeordnet hat, welchen nächsten Schritt braucht es, um Kendalls Tau zu berechnen?
Wir vergleichen die Messwerte und stellen fest, wo sich die Testpersonen einig sind:
Proversionen
und wo sie gegenteiliger Ansicht sind:
Inversionen
Dies wird für alle Testobjekte weitergeführt
Wofür steht in der Formel für Kendalls Tau das S ?
Die Differenz zwischen den Proversionen und Inversionen:
S = P - I

Formel Kendalls Tau

Regressionsrechnung
Auf der Grundlage von Korrelationen die bestmögliche Vorhersage für eine Variable bestimmen
Warum kann man Korrelation und Regression als zwei Seiten der selben Medaille ansehen?
Je stärker der Zusammenhang, umso präziser wird sich eine Variable aus der Kenntnis der anderen Variablen vorhersagen lassen
(und umgekehrt bei kaum Zusammenhang: kaum Vorhersage möglich)
Wozu dienen Prädiktor und Kriterium?
PrädiXtor: Für Vorhersage genutzte Variable
KrYterium: Vorhergesagte Variable
(Durch und X und Y abgekürzt)
Was sagt in der Regressionsrechnung was voraus?
X sagt Y voraus
(Prädiktor, Kriterium)
Warum werden bei der Regressionsrechnung die Kriterien vorhergesagt, obwohl alle Y-Werte in einer Stichprobe bekannt sind?
Dieses Vorgehen ist notwendig, damit die “optimale Vorhersageregel” bestimmt werden kann
Das Ziel der Regressionsrechnung…
von einer Vorhersageregel auf eine neue Stichprobe von Probanden schließen zu können
Was bedeutet ein “Deterministischer Zusammenhang”?
eine einwandfreie Korrelation von r = 1
Wofür wäre die Voraussage der Anzahl der Treppenstufen in einem Hochhaus ein Beispiel?
Gegeben, dass jedes Stockwerk gleich viele Stufen hat
Beispiel für einen Deterministischen Zusammenhang
Welche Formel verwendet man für einen deterministischen Zusammenhang?
y = b · x + a
(y=mx + t)
(Geradengleichung)
Was ist der Unterschied zwischen einem
inearen und einem stochastischen Zusammenhang?
ein linearer Z ist perfekt, also r = 1
ein stochastischer Zusammenhang ist nicht perfekt
Kann man bei einem stochastischen Zusammenhang eine akurate Vorhersage treffen?
Nein
Wie nennt man eine Gerade, die annähernd die Korrelation in einem Dotplot darstellen soll?
Regressionsgerade
Wofür steht in der Statistik das “Dach” auf einem Buchstaben?
ŷ, ŵ, Ŵ, Ŷ, …
Für einen vorhergesagten / geschätzten Wert
was gibt die Reihenfolge der Indizes an?
ŷi = byx · xi + ayx
mit yx wird angezeigt, dass die Variable Y aus X vorhergesagt wird (und nicht X aus Y)
Welche sind die Regressionskoeffizienten?
y = bx + a
Achsenabschnitt (a)
Steigung (b)
(b wird auch Regressionsgewicht genannt)
Wenn der vorhergesagte Wert ŷ bei der Regressionsgerade nicht mit dem tatsächlichen Wert y ähnlich ist, nennt man dies…?
Und die Formel lautet:
Vorhersagefehler ei
ei = yi − ŷi
Wenn ein y-Wert im Graphen über der Regressionsgerade liegt, ist der Vorhersagefehler (ei ) …
positiv
(negativ, wenn unterhalb der Gerade)
Welches “Kriterium” verwendet man, um durch die Fehler die beste Position für die Regressionsgerade zu finden?
Kriterium der kleinsten Quadrate
(Summe aller Vorhersagefehler zum Quadrat)
=
Kleinstmöglicher Wert

Welche drei Kennwerte nutzt man, um die Position der Regressionsgeraden zu bestimmen?
- Mittelwerte der Variablen X und Y
- Varianz der Variablen X
- Kovarianz beider Variablen

Welche zwei Werte möchten wir berechnen, um die Regressionsgerade zu ermitteln?
Steigung byx der Regressionsgeraden:
Kovarianz der Variablen X und Y durch die Varianz der Variablen X dividieren
Achsenabschnitt ayx
vom Mittelwert Y das Produkt (Steigung byx und Mittelwert X) abziehen

Wie kann man mithilfe des Korrelationskoeffizienten das Regressionsgewicht byx herleiten?

Die Formeln ähneln sich stark. Man muss nur einen Schritt durchführen, um zum Regressionsgewicht zu gelangen
Das Verhältnis der Standardabweichungen der Variablen Y und X gibt also an, wie deutlich sich die Steigung b<em>yx</em> der Regressionsgeraden vom Korrelationskoeffizienten der beiden Variablen unterscheidet.

Wie wird das Regressionsgewicht b bei einer Analyse mit standatisierten z-Werten genannt?
standatisiertes Regressionsgewicht
ß
Was gibt das standatisierte Regressionsgewicht
ßyx
an?
um wie viele Standardabweichungseinheiten sich Variable Y verändert, wenn Variable X um eine Standardabweichung steigt
Wie wird das standardisierte Regressionsgewicht ß bestimmt?
Bei z-Werten ist die Standardabweichung immer
sz = 1
Daher:

was gilt bei z-standardisierten Werten bzgl. der Steigung ß/b?
Bei z-standardisierten Variablen ist die Steigung der Regressionsgeraden identisch mit der Korrelation zwischen den beiden Variablen
Wie hoch ist der y-Achsenabschnitt ayx bei Regressionen mit z-standardisierten Werten?
Immer gleich 0
Weil der Mittelwert z einer z-standardisierten Variablen stets Null ist
Inwieweit vereinfacht sich die Formel für die Regressionsgerade bei z-standardisierten Werten?

Was ist der Regressionseffekt?
“Regression zur Mitte”
Mit jedem Durchgang nähern sich Testwerte der Regressionsgeraden an

Kann eine Regressionsgerade exakt Ergebnisse vorhersagen?
Nein. Eine Regressionsrechnung ist immer fehlerhaft
Wie kann man die “Varianzzerlegung” vornehmen?

yi-ymittel lässt sich auch folgendermaßen ausdrücken und führt zu größerer Genauigkeit:

Bei einer Geraden, die das Kriterium der kleinsten Quadrate erfüllt – bei der also die Summe der quadrierten Abweichungen zwischen vorhergesagten und tatsächlichen Werten minimal wird, ist die Summe der Vorhersagefehler immer … ?
Das heißt auch, dass der
Mittelwert der Vorhersagefehler ei
in jeder Regressionsanalyse Null beträgt.

Welche beiden Varianzen können wir auf Basis der quadrierten Abweichungen berechnen?
Die Varianz der vorhergesagten
Werte s2ŷ und die Varianz der Vorhersagefehler s2e

Wie nennt man die Varianz der Vorhergesagten Werte?
s2ŷ
Worum handelt es sich dabei?
Regressionsvarianz
Es handelt sich um die Varianz der Kriteriumsvariablen Y
Wie nennt man die Varianz der Vorhersagefehler?
s2e
Worum handelt es sich dabei?
Fehlervarianz
Varianz der tatsächlichen y-Werte um e
die vorhergesagten Werte, also um die Regressionsgerade
Was ergibt die Summe der Regressionsvarianz und der Fehlervarianz?
Die Gesamtvarianz der y-Werte

Die Regressionsrechnung zielt darauf, die Unter- schiede zwischen Personen in der Kriteriumsvariablen Y möglichst vollständig vorherzusagen
Verstanden?
Wofür ist die Gesamtvarianz ein Maß?
(in Regressionsrechnung)
Ein Maß für die Unterschiede zwischen Personen auf der Y-Variable
Wofür ist die Regressionsvarianz ein Maß?
Sie gibt an, wie viel Varianz der Y-Variable durch die Regression tatsächlich vorhergesagt werden kann
Wofür ist der Determinationskoeffizient ein Maß?
Ein Maß für die Güte der Vorhersage
Wie berechnet sich der Determinationskoeffizient?
Er entspricht dem Anteil der Regressionsvarianz an der Gesamtvarianz:

Womit ist der Determinationskoeffizient identisch?
Mit dem quadrierten Korrelationskoeffizienten:

Inwieweit verändert sich der Determinationskoeffizient, wenn man Prädiktor und Kriterium vertauscht?
Er bleibt gleicht.
Was kann der Determinationskoeffizient noch, um bei der Reduktion von Regressionsfehlern hilfreich zu sein?
Der Determinationskoeffizient gibt auch an, um wie viel Prozent sich der Vorhersagefehler verringert, wenn bei der Vorhersage des Kriteriums der Prädiktor berücksichtigt wird.
Wie erhält man aus der Fehlervarianz se2 den Standardschätzfehler se ?
Man zieht die Wurzel aus der Fehlervarianz

Was gibt der Standardmessfehler se an?
Der Standardschätzfehler gibt an, wie stark die tatsächlichen Werte um die von der Regressionsgerade vorhergesagten Werte streuen
Welche sind die beiden gebräuchlichen Maße für die Güte einer Vorhersage?
- Determinationskoeffizient
- Standardschätzfehler
Was sagt ein kleiner Wert des
Standardschätzfehlers aus?
Je kleiner der Standardschätzfehler, desto weniger weichen die tatsächlichen Werte von den vorhergesagten Werten ab und desto genauer ist folglich die Vorhersage.
Wie lässt sich durch das Verhältnis aus Kriterium und Prädiktor die Formel des Standardschätzfehlers vereinfachen?


Welche Maße in der Regressionsrechnung hängen von der Korrelation zwischen Prädiktor und Kriterium ab?
Regressionskoeffizienten byx und ayx als auch die Gütemaße der Vorhersage
Welche naheliegende Erweiterung der Regressionsrechnung könnten wir anwenden, um ein genaueres Ergebnis zu erhalten?
multiple Regression
Mehrere Prädiktoren zur Berechnung
Das Ziel der multiplen Regression besteht darin, …
eine Kriteriumsvariable Y auf der Grundlage von zwei oder mehreren Prädiktoren (X1, X2, …, Xm) bestmöglich vorherzusagen.
Wie lautet die allgemeine Formel der linearen multiplen Regression

Welche Gütemaße kommen in der multiplen Regression vor?
- Standardschätzfehler
- multiple Determinationskoeffizient
- multiple Korrelation verwendet
Formel multipler Korrelationskoeffizient
RY.12

Was ist das Kriterium der kleinsten Quadrate?
Die Regressionsgerade wird so geschätzt, dass die Summe der quadrierten Abweichung der geschätzten y-Werte ( ŷi ) von den tatsächlichen y-Werten möglichst klein ist
die Abweichungen der tatsächlichen Werte von den vorhergesagten Werten bezeichnet man als…
Residuen
z.B. in Residualvarianz
Gesamtvarianz = Residualvarianz + Regressionsvarianz
Wie lässt sich diese Gleichung zur Berechnung der Gesamtvarianz genauer ausdrücken?


Um zu beurteilen, wie gut das Regressionsmodell ist, setzt man die Regressionsvarianz ins Verhältnis zur Gesamtvarianz. Den erhaltenen Wert bezeichnet man als …
Determinationskoeffizienten R2

Wie werden zwei ordinalskalierte Variablen miteinander korreliert?
z.B. Kendall’s Tau oder Spearman’s Rho
wie werden Korrelationsmaße wie Kendall’s Tau oder Spearman’s Rho noch genannt?
Rangkorrelationskoeffizienten
Wozu kommt es, wenn bei ordinalskalierten Variablen zweien der gleiche Wert/Rang zugeordnet wird?
Rangbindungen
Welches der beiden behandelten Rangkorrelationsmaße ist robuster gegenüber Rangbindungen?
Kendall’s Tau
Welches der beiden behandelten Rangkorrelationsmaße ist weniger robust gegenüber Rangbindungen?
Spearman’s Rho
Wie nennt man einen perfekten Zusammenhang von 1 noch?
Deterministischer Zusammenhang