Einfache lineare Regression Flashcards

1
Q

Korrelation und Regression

A

Korrelation: ungerichteter Zusammenhang zw. X und Y
Regression: unterstellt kausale Richtung -> Daher erlaubt Vorhersage des Wertes einer Variablen bei Kenntnis/ Annahme eines Wertes auf einer anderen Variablen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Terminologie- Regression:

A

Kriterium: vorhergesagte Variable
Prädiktor: zur Vorhersage genutzte Variable
Regressionsgleichung: optimale Funktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist der Ausgangspunkt einer einfachen linearen Regression?

A

Geradengleichung: Y^ = b * X + a
Y^ sind die Werte auf dem Kriterium, die für die Werte des Prädiktors X von der Gleichung vorhergesagt werden
Gesucht: Werte für b und a, mit denen die Summe der Abweichungen minimal wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist a?

A

der Achsenabschnitt, also der Schnittpunkt mit der y-Achse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist b? Wann ist b mit den Korrelationskoeffizienten identisch?

A
  1. die Steigung der Geraden, B beschreibt also, um wie viel Y zunimmt, wenn X um eine Einheit zunimmt
  2. Bei der einfachen linearen Regression zweier z-Standadisierten Variablen ist das Regressionsgewicht mit dem Korrelationskoeffizienten identisch. Die Korrelation ist also nichts anderes als das Regressionsgewicht zweier z-standadisierter Variablen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Rechnerischer Ansatz der einfachen linearen Regression

A

Gehen wir davon aus, wir würden die gesuchte Gerade bereits kennen, dann könnten wir für jeden Punkt x_i, eine zugehörige Funktion f(x_i) berechnen, der dann logischerweise auf dieser Geraden liegt. Bezeichnen wie diese vorhergesagten y-Werte mit y ̂, können sie daher beschrieben werden als:
y ̂_i=bx_i +a

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Residuuen

A

Die Abweichung der vorhergesagten von den gemessenen Werten werden als Residuuen bezeichnet:
e_i=y_i-y ̂_i
je größer die Residuen, umso größer die Abweichung eines beobachteten vom vorhergesagtem Wert. Ist ein Residum gleich 0, liegt der beobachtete Wert auf der Regressionsgeraden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Summe Q der quadratischen Residuen

A

Also sollen die tatsächlichen y_i-Werte möglichst gut durch die y ̂_i-Werte beschrieben werden, daher muss die Gerade so gewählt werden, dass die Residuen möglichst klein werden.
Minimiert werden soll die Summe Q der quadratischen Residuen. Würden wir die Abweichungen e_i einfach so aufsummieren, würden diese sich gegeneinander aufheben, und die Gesamtabweichung wäre 0. Daher sollten wir die Summe der absoluten Abweichungen oder die Summe der quadrierten Abweichungen betrachten. I.d.R. wird als Gesamtabweichungsmaß die quadratischen Abweichung Q benutzt (Formel s. Lernzettel)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wann repräsentiert eine Gerade die Punkte bestmöglich?

A

Wenn Q möglichst klein wird und es keine andere Gerade gibt, bei der Q noch kleiner wird –> das nennt man die Methode (Kritierum) der kleinsten Quadrate
Also die Summe der quadrierten Abstände der beobachteten Kriteriumswerte von der Regressionsgeraden ergibt ein Minimum

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie kommt man von Q zu den Formel für a und b?

A
  1. in die Funktion von Q setzten wir statt y^i die Geradengleichung (b+xi+a) ein. Nun die Q eine Funktion mit zwei Variablen, nämlich a und b
  2. jetzt ist das Ziel, a und b so zu bestimmen, dass die Funktion Q (a,b) ihr Minimum annimmt: dafür
    a) bildet man die partielle Ableitung von Q(b,a)
    b) setzt beide Ableitungen gleich null
    c) und löst das entstehende Gleichungssystem
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind die optimalen Werte von b und a?

A

b = Kov(X,Y)/ S²x =rxySy/Sx
a= My - b
Mx
Beide Werte werden als Regressionskoeffizieten bezeichnet: b dann als Regressionsgewicht oder Slope und a als Intercept

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie sagt man wenn man y durch x vorhersagt?

A

Man spricht von der Regression von Y auf X. Entgegen der Intuition

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Bemerkungen zur Regressionsgrade: Wie sieht die Regressionsgrade aus, wenn |rxy| =0?

A
  1. Es liegt kein linearer Zusammenhang vor, daher reduziert sich die Regressionsgleichung zu Y^= My.
  2. Die Regressionsgrade verlauf parallel zur x-Achse und schneidet die y-Achse bei My.
  3. Die beste Vorhersage für jeden y-Wert ist also der Mittelwert My.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Bemerkungen zur Regressionsgrade: Wie sieht die Regressionsgerade aus, wenn |rxy| = 1

A
  1. es besteht ein vollständiger linearer Zusammenhang –> Alle Punkte liegen auf der Geraden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wo liegt der Betrag von b immer?

A

zwischen 0 und dem Quotienten der Standardabweichung
0 größer/gleich |b| größer gleich Sy/Sx

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Zusammenhang von M_y^ und M_y

A
  1. Der Mittelwert von Y^ ist gleich dem Mittelwert von Y
  2. Die Varianz von Y^ ist gleich der um das Quadrat der Korrelation geminderten Varianz von Y
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Eigenschaften der Residuenvariable E: Mittelwert und Varianz

A

I. Der Mittelwert von E ist 0: da: M_E= M_(Y-Y ̂ ) = M_Y-M_Y ̂ =M_Y-M_Y = 0

II. Die Varianz von E ist S_E^2= (1 -r_XY^2)*S_Y^2
Sie wird auch als Schätzfehlervarianz bezeichnet und ihre Wurzel wird auch Standardschätzfehler genannt:
a) Wenn vollständige lineare Abhängigkeit besteht, dann wird die Varianz der Residuen 0: wenn
b) Bei vollständiger linearer Unabhängigkeit entspricht die Varianz der Residuen der Varianz von Y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Kovarianz von X und Y

A
  1. E geht aus Y hervor, indem von Y der “lineare” Trend subtrahiert wird, daher sind E und X unkorreliert:
    a) Kov(X, E) = 0.: Da die Residuen den Teil des Merkmals Y repräsentieren, der nicht mit dem Merkmal X zusammenhängt und damit sind auch
    b) E und ˆ Y unkorreliert: Kov( ˆ Y , E) = 0: Da X und Y^ immer perfekt miteinander korreliert sind
  2. Achtung: X und E können jedoch nicht-linear zusammenhängen! Residuenplot immer anschauen um nicht-linear Anteile zu erkennen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Varianzaufteilung der Varianz von Y

A
  1. setzt sich additiv zusammen aus der Varianz der vorhergesagten Werte Y ̂ und der Varianz der Residuen E.
  2. Die Varianz von Y kann also aufgeteilt werden in einen durch die lineare Beziehung aufgeklärten Varianzanteil S_Y ̂^2, der durch den Prädiktor X gebunden (erklärt, determiniert) wird und die Fehlervarianz S_E^2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Wie sieht die Varianzaufteilung von Y aus, wenn alle Punkt auf einer Geraden liegen? (Extremfall)

A
  1. Es würden dann also gelten: |rxy| = 1
  2. Die Varianz der Resudien wäre 0
  3. Die Varianz von Y wäre also die Varianz von Y^ welche sich umformen lässt in S²y = b² * S²x
  4. Die Varianz von Y ist also vollständig determiert durch die Varianz der Werte auf X –> Die Varianz von Y wird vollständig durch die Varianz von X aufgeklärt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Wie sieht die Varianzaufteilung von Y aus, wenn die Korrelation von xy < 1 ist?

A
  1. daher ist auch S²E > 0
  2. Varianz von Y^ ist nach wie vor vollständig durch die lineare Beziehung aufgeklärt
  3. als Maß der Varianzaufklärung berechnen wir nun den Anteil der durch die lineare Beziehung aufgeklärten Varianz an der Gesamtvarianz von Y: S²y^ / S²Y = S²y^/ (S²y^+ S²E)
    Wegen: S²y^= r²xy * S²Y können wir auch schreiben:
    (r²xy * S²Y)/S²y = r²xy
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was ist der Determinationskoeffizient?

A

Die quadrierte Korrelation von Kriterium Y und Prädiktor X
Also der Anteil der gerklärten Varianz an der Gesamtvarianz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Rechnerische Durchführung mit R: Modellsprache R. Wie drückt man in R aus, dass das Kriterium durch den Prädiktor modeliert werden soll?

A

Krierium ~ Prädiktor(en)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Funktion lm() bei R

A
  1. Die Funktion lm() wird i.d.R. mit Dataframes genutzt, daher x und y erstmal in Frames packen (s.F. 28)
  2. mit modell$coefficients kann man sich die Koeffizienten einzeln rausgeben lassen.
  3. mit resid(modell) kann man sich die Residuen ausgeben lassen und mit predict(modell) lassen sich die vorhergesagten Werte extrahieren
  4. mit summary(modell) lassen sich die gesamten Ergebnisse abrufen –> Intercept ist der Wert für a und x ist der Wert für b!!
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Wie berechne ich mit R den Determinationscoeffizienten?

A

cor(daten$X, daten$Y)^2
der wert steht aber auch bei der Ausgabe von Summary(modell) unter “multiple R-squared”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Graphische Überprüfung der Verteilungsannahme

A

viele Tests, und auch Regressionen, machen Verteilungsannahmen über bestimmte Werte diese Annahmen können oft grafisch inspiziert werden:
I. Histogramm
II. Kerndichteplots (Kernel-Density Plots)
III. Quantil-Quantil-Plots (Q-Q Plots):

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Q-Q-Plots

A

a) Vergleichen empirische Verteilung mit Referenzverteilung (hier: Normalverteilung)
b) sortieren empirische Werte auf der Y-Achse
c) jeweils theoretisch erwartetes Quantil auf der x-Achse
d) wenn Daten zur Referenzverteilung passen, sollten die Punkte auf einer Geraden liegen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Annahmen der einfachen linearen Regression

A
  1. das Kriterium ist mind. intervallskaliert
  2. der Zusammenhang von Y und X ist linear
  3. die n Beobachtungen sind unabhängig voneinander
  4. für die Residuen werden darüber hinaus folgende Annahme gemacht:
    (a) Varianzhomogenität: für jeden Wert von X haben die Residuen gleiche Varianz
    b) Der Erwartungswert der Residuen ist 0
    c) bedingte Normalverteilung (wichtig für Signifikanttests und Konfidenzintervalle): für jeden Wert von X sind die Residuen normalverteilt〖 ∈〗_m~〖N(0,σ〗_ϵ^2)
29
Q

Einflussreiche Datenpunkte: Wie verändert sich die Regerssionsgerade, wenn ein neuer Datenpunkt:
1. Auf die Regressionsgerade
2. mit x-Wer beim Mittelwert von X
3. mit x-Wert von Mx entfernt
dazu kommt?

A
  1. wenn neuer Datenpunkt auf Regressionsgerade: gar kein Einfluss
    2.wenn neuer Datenpunkt mit x-Wert beim Mittelwert von X:
    Achsenabschnitt ändert sich
  2. je weiter neuer Datenpunkt mit x-Wert vom Mittelwert von X entfernt ist: desto mehr ändert sich die Steigung
30
Q

Wenn neuer Datenpunkt mit x-Wert weit weg von Mx .. wovon hängt ab wie weit sich die Steigung ändert?

A
  1. Position auf der x-Achse (“leverage”)
  2. Residuum, also wie weit der neue Punkt von der Regressionsgeraden entfernt ist
31
Q

Messung von Leverage

A

“Hat-Values” oder “Hebelwert”
Für diesen Wert gilt:
1. h_i ≥1/N
2. ∑_(i=1)^N〖h_i=2〗 ? (nachlesen?)
3. ideal: alle hi ähnlich, einzelne hohe Werte deuten auf einzelne einflussreiche Werte hin (muss aber nicht sein, da ja auch das Residuum beachtet werden muss)

32
Q

Maße des Einflusses Abweichender Datenpunkte, was ist q und was ist MSerror und die Interpretation

A
  1. Kombinieren Leverage und Residuen in ein Maß. Das bekannteste davon ist Cook´s Distance
  2. In der Formel von Cook´s Distance gilt:
    a) q: ist die Anzahl der Parameter im Regressiosmodell, hier also q = 2
    b)〖MS〗_error: ist ein Schätzung der Residuenvarianz
  3. Interpretation von D: Absolute Werte schwer zu interpretieren, aber häufig: D ≥ 1 weist auf einflussreiche Datenpunkte hin (aber machmal auch schon D ≈ 0.5 als einflussreich aufgefasst
33
Q

cook´s Distance mit R

A

cooks.distance(modell)

34
Q

konfidenzintervall für Regressionskoeffizienten mit R

A

confint(modell, level = XX)

35
Q

Konfidenz- und Prädiktorintervalle

A

wenn die Regressionskoeffizienten bekannt sind, kann die Regressionsgleichung zur Vorhersage neuer Werte benutzt werden. Die Vorhersage ist natürlich mit Unsicherheit behaftet, aber auch hier kann ein Intervall angegeben werden, welches die Unsicherheit darstellt. Unterschieden werden muss zwischen:
a) Vorhersage der bedingten Erwartungswerte zu jedem Wert von X: Hierfür wird ein Konfidenzintervall berechnet, welches wegen der unterschiedlichen Leverage-Werte nicht parallel zur Regressionsgeraden verläuft
b) Vorhersage individueller (neuer) Werte: hierfür wird ein Prädiktionsintervall berechnet, welches größer als das Konfidenzintervall ist
c) der Unterschied stammt i.W. von der unterschiedlichen Berechnung der Standardfehler
–> das Prädiktionsintervall ist deutlich größer als das Konfidenzintervall aufgrund von Schätzfehlern

36
Q

binäre Prädiktoren

A

Prädiktoren können prinzipiell auch andere Skalennievaus (außer Intervall) annehmen. Besonders interessant sind nominalskalierte binäre (dichotome) Variablen, also solche, die nur zwei Werte annehmen können

37
Q

Dummy- und Effektkodierung

A
  1. Dummykodierung: 0 vs. 1
  2. Effektkodierung: -1 vs. 1
38
Q

woran erkenne ich bei R, ob die Koeffizienten siginfikant (Alpha = 0.05) von 0 verschieden sind?

A

Das erkenne ich bei der Ausgabe Summary() an dem P-wert der Koeefizienten. Ist der signifikant sind sie von Null verschieden.

39
Q

Wie finde ich herraus, wie viel % der Varianz von Y aufgeklärt werden bei R?

A

Das erkenne ich bei der Ausgabe von Summary() “Multiple R-squared” einfach in % umrechnen (0.35 = 35% aufgeklärte Varianz)

40
Q

Wie kann ich residuen in R visualisieren?

A

in car:
qqPlot(modell$resudials)

41
Q

einfachen Plott erstellen, um Ausreißer zu erkennen

A

in car:
plot( daten$y, daten$x, xlab = “Variable auf x achse”, ylab = “Variable auf y-Achse”, pch = 19)
Die Variable, die ich zuerst eingebe (an aller erster Stelle, kommt auf die x-Achse, die andere auf die y-Achse)

42
Q

Neuen Dataframe erstellen wenn man eine oder mehrere Variablen weglassen will in R

A

daten_neu <- subset(daten_alt, X != xi)

43
Q

predict() funktion bei R - Was zeigt mir die Ausgegebene Matix?

A

Die zurückgegebene Matrix enthält in der ersten Spalte die vorhergesagten Werte sowie in der
zweiten und dritten Spalte die Werte der unteren und oberen Grenze des Prädiktionsintervalls
(nur die letzten beiden Spalten sind hier relevant)

44
Q

Predict() funktion R

A

predic_interval <- predict(modell, newdata = data.frame( x = newx …
data.frame: damit sind nicht die daten gemeint um die es geht, sondern die Funktion data.frame die also immer hinschreiben
x = newx
newx vorher abspeichern
x ist der Prädiktor, dessen Werte wir durch die neuen ersetzten wollen

45
Q

regressionsgleichung in einen Graphen hinzufügen?

A

abline (modell, col = “red”, lwd = 1.5)

46
Q

Was ist die Summe der Differenzen zwischen den Messwerten und dem Mittelwert?

A

beträgt immer 0

47
Q

Welche Eigenschaft hat die Summe der quadrierten Abweichungen aller Messwerte vom Mittelwert ?

A

Sie ist immer kleiner als die Summe der quadrierten Abweichungen der Messwerte von irgendeinem anderen Wert

48
Q

Was bedeutet ein unbedingter Mittelwert?

A

Der Mittelwert von Y ist dann unbedingt, wenn er nicht von X abhängig ist. Ist das der Fall, ist der Mittelwert die beste Schätzung die wir haben

49
Q

Was bedeutet ein bedingter Mittelwert?

A

Ein Mittelwert, der von X Abhängt (Beispiel Noten| Geschlecht)

50
Q

Wie viele bedingte Mittelwerte lassen sich bei einer linearen Regression praktisch berechnen?

A

So viele, wie es Ausprägungen der unabhängigen Variablen gibt

51
Q

Was gibt die Varianz von E an?

A
  1. Wie stark die beobachteten y-Werte um die Regressiosgerade und damit um y^-Werte streuen
  2. je größer bei einer gegebenen Maßeinheit von Y die Varianz der Residuen ausfällt, desto ungenauer war die Vorhersage, desto größer der Vorhersagefehler (daher auch Fehlervarianz)
52
Q

Verhältnis von Korrelation rxy und Varianz & Standardabweichung von E

A

je größer die Korrelation ist, umso geringer ist die Streuung der Residualwerte und umso geringer der Standardschätzfehler

53
Q

Verhältnis von S²y^ und S²E

A
  1. Je größer die Varianz von S²y^ im Vergleich zur Varianz S²E ist, umso genauer gelingt die Prognose
  2. Da S²y^und S²E additiv sind, ist der Anteil von S²y^ an der Gesamtvarianz von Y ein Maß dafür, wie präzise die Vorhersage von Y durch X erfolgt
54
Q

Was bedeutete es, wenn der Determinationskoeffizient = 0?

A
  1. Beide Variablen sind unkorreliert –> die Variable X ist nicht in der Lage, Unterschiede in Y zu erklären oder vorherzusagen, wenn man von einem linearen Zusammenhang ausgeht
  2. Die Regressionsgerade hätte in diesem Fall eine Steigung von 0 (b = 0)
  3. a würde beim Mittelwert von Y schneiden –> der beste Schätzer wäre also für alle Werte wieder den bedingte Mittelwert von Y
55
Q

Was bedeutet es, wenn der Determinationskoeffizient = 1?

A
  1. beide Variablen sind perfekt korreliert –> Alle Unterschiede in Y lassen sich auf Unterschiede in X zurückführen
  2. Y ist eine Funktion von X und alle Residuen sind 0
  3. b wäre = SY / YX
  4. a wäre = Mittelwert von Y - sY/sX * Mittelwert von X
56
Q

Was bedeutet ein negatives Regressionsgewicht b?

A

dass der erwartete y^-Wert um b- Einheiten abnimmt, wenn x um eine Einheit zunimmt

57
Q

Was bedeutet Asymmetrie der Regression?

A

eine lineare Regression ist asymmetrisch, d.h. wenn man Kriterium und Prädiktor vertauscht, dann kommen nicht die gleichen Wert raus. (z.B.: wenn ich anhand der Vorbereitungszeit die Klausurpunkt vorhersage kommt was anderes raus, als wenn ich anhand der Klausurpunkt vorhersage, wie viel Zeit jemand mit lernen verbracht hat)

58
Q

bedingte Erwartungswerte

A

folgen der selben Logik wie die bedingten Mittelwerte. Bei der einfachen linearen Regression setzten wir vorraus, dass alle bedingten Erwartungswerte auf einer Linie liegen

59
Q

Q-Q-Plot lesen: Residuals vs. fitted

A

1.Hier können wir ablesen, ob Linearität vorliegt und das Modell richtig spezifiziert wurde. Sind die Punkte unsystematisch un die rote Linie verteilt und die rote Linie ist parallel zur x-Achse, können wir davon ausgehen, dass beide Bedingungen vorliegen.
2. Rote-Linie: wird auch “Lowess-Linie” genannt: sie ist eine nonparamterische Anpassung des Zusammenhangs beider Variablen

60
Q

Q-Q-Plot: Normal Q-Q

A

Gibt an. ob die Normalverteiltheitsvoraussetzung gegeben ist. liegen alle Punkte auf einer Linie, können wir davon ausgehen

61
Q

Q-Q-Plot: Scale-Location

A

Hier können wir Prüfen, ob Varianzhomogenität vorliegt. Sind die Punkte unsystematisch verteilt und die rote Linie liegt parallel zur x-Achse, dann können wir von Varianzhomogenität ausgehen.

62
Q

Q-Q-Plot: Residuals vs. Leverage

A

Die Residuen werden gegen den Einfluss den sie haben aufgetragen. Wenn ein einzelnes Residum verhältnismäßig viel Einfluss auf die Regressiosngerade hat, dann wird dieser uns angezeigt durch die Cook´s distance. Punkte deren Werte daran stehen und die nahe oder über bzw. unter der gestrichelten Linie liegen können ausgeschlossen werden

63
Q

Wann hat ein Datenpunkt keine Hebelwirkung?

A

Wenn er auf dem Mittelwert des Prädiktor liegt.

64
Q

Wenn alle Werte von X den gleichen Wert a besitzen, warum können wir die Koeffizienten nicht mehr berechnen?

A

Da die Gleichung für b die Varianz von x in Nenner hat. Sind nun alle Werte von X =a bedeutet das, dass die Varianz = 0 ist. Mit einem Nenner von Null lässt sich der Bruch von b mathematisch nicht mehr lösen. Da wir b auch für die Berechnung von a benötigen, können wir beide Koeffizienten nicht mehr berechnen.

65
Q

Welcher Wert würde für y vorhergesagt werden, wenn wir Mx in die Regressionsgleichung einsetzen?

A

My, da die Regressionsgleichung immer durch den Zentruiden (MX/My) läuft.

66
Q

Warum ergibt es keinen Sinn, die Annahme der Normalverteiltheit im Zuge der Regression auf Basis
des Kriteriums an sich zu prüfen?

A

Die Annahme der Normalverteiltheit bezieht sich auf die bedingte Verteilung des Kriteriums gegeben
einen konkreten Prädiktorwert bzw. auf die Verteilung der Residuen. Das heißt, um zu prüfen, ob die
Annahme stimmt, ergibt es keinen Sinn, das Kriterium an sich — losgelöst von der Regressionsgleichung
-– zu betrachten.

67
Q

Wie komme ich am Mittelwerte dummykodierter Variablen?

A
  1. Wenn ich die Regressionsgleichung haben, ist der Achsenabschnitt gleichzeitig der Mittelwert der Referenzgruppe (die Gruppe, die mit 0 kodiert wird)
  2. der Koeffizient b gibt an, um wieviel dieser Wert
    verändert werden muss, um zum Mittelwert der Gruppe B zu gelangen, also MB = a + b
68
Q

Wie können wir R² alternativ per Hand berechnen? Wenn wir nur b und S²x und S²y haben?

A

Da sich R auch berechnen lässt als S²y^/ S²x
Müssen wir nur noch S²y^ berechnen welches sich als b² * S²x zusammensetzt.
Also isr R² = (b² * S²x) / S²x

69
Q

Bei der Effektkodierung eines binäre Faktors einer einfachen linearen Regression.. was entspricht der Achsenabschnitt?

A
  1. Achsenabschnitt: Dem Grand Mean, dem Gesamtmittelwert beider Gruppen
  2. Steigung: entspricht dem Unterschied von Grand Mean zu den beiden Mittelwerten (also die halbe Differenz beider Mittelwerte)