Regression Flashcards

1
Q

Selektion nach abhängiger Variable

A

-sehr intuitiv
-Ärzte untersuchen kranke Menschen (nicht gesunde!).
Wir fragen erfolgreiche Leute nach ihrem Erfolgsrezept (nicht unerfolgreiche!), Wir fragen Leute, die eine Prüfung bestehen, was sie gemacht haben (nicht solche, die durchfallen!).
-> kann aber sein, dass was diese Menschen gemeinsam haben, zb nicht erfolgreiche auch machen
-> können über die Faktoren, die mit Selbstmordattentaten korrelieren, wenig lernen, wenn wir nur Selbstmordattentate anschauen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Regression

A

-lineare Regression = häufigste und nützlichste Tool, um Korrelation zu evaluieren

Regressionsgleichung:

dependent var_i= α+β∗independent variable_𝑖+ε_i

subscript i means that we’re referring to a particular value of that variable for observation i

α+β = regression coefficients
α = intercept/constant term
β = slope
ε_i = error term

-> suchen die Linie, die die Werte der Abhängigen Variable am besten vorhersagt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

finden der besten Regressionslinie

A

Alpha and beta tell us what line we’re drawing

Alpha gives us the height of the line when the independent variable is 0.

Beta gives us the slope of the line.

So we can see that by varying these two parameters, we can explore any possible line through this data

And the error term tells us how far off our predictions are for each data point

-> OLS (ordinary least squares) regression line
= Linie minimiert die Summe der quadrierten Fehler (die nicht-erklärten Abweichungsquadrate)

gesamte Abweichungsquadrate:
-wie weicht Wert y_1 von ̅y ab
-total sum of squares (TSS)
nicht erklärte Abweichungsquadrate:
-wie weicht y_i vom erwarteten wert ab
-Summe = resudual sum of squares (RSS)

erklärte Abweichungsquadrate:
-Abweichung des erwarteten Werts von ̅y
-explained sum of squares (ESS)

-> größere Abweichungen wiegen schwerer (werden quadriert)
-> Achtung: nicht unbedingt Linie mit geringster durchschnittlicher Abweichung -> least absolute deviation (LAD)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie viel der Variation in den Daten wird erklärt?

A

Erklärte Abweichungsquadrate als Anteil der gesamten Abweichungsquadrate:

R² = ESS / TSS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

warum verwendung OLS?

A

OLS ist “the best linear unbiased estimator” (BLUE)

Was bedeutet “unbiased”?
Wenn wir tausende Datensätze hätten, um 𝛽 und 𝛼 zu schätzen, würde das Mittel der 𝑏, a-Koeffizienten dem wahren 𝛽 und 𝛼 entsprechen

Was bedeutet “best”?
Es gibt keinen anderen Schätzer, für den die geschätzten 𝑏, a-Koeffizienten aus tausenden Datensätzen enger verteilt sind (kleinere Varianz haben) als für OLS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

inter vs extrapolation

A

interpolation = We had data for people above and below the age of 31 (but not 31), and we predicted turnout for those at 31 using linear regression.

when we make predicts outside our range of data, we call it extrapolation. Suppose we wanted to predict turnout for 78 year-olds using only data on those between 18 and 68

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

polynomiale Regression

A

wenn lineare nicht gut passt

There’s no reason that regressions can’t have more than 1 independent variable (although this makes it harder to draw regression lines and it changes/complicates the interpretation of the coefficients). So what if we run a regression like this?

𝑇𝑢𝑟𝑛𝑜𝑢𝑡_𝑖=α+β_1∗𝐴𝑔𝑒_𝑖+β_2∗𝐴𝑔𝑒_𝑖^2+. . . +β_𝑁∗𝐴𝑔𝑒_𝑖^𝑁+ε_𝑖

Notice that we’re just including different transformations of the same variable (age, age-squared, age to the third power, and so on). It’s hard to interpret the coefficients, but we can still think about finding the values of all these different betas that gives us the smallest SSE.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly