Regression Flashcards
Selektion nach abhängiger Variable
-sehr intuitiv
-Ärzte untersuchen kranke Menschen (nicht gesunde!).
Wir fragen erfolgreiche Leute nach ihrem Erfolgsrezept (nicht unerfolgreiche!), Wir fragen Leute, die eine Prüfung bestehen, was sie gemacht haben (nicht solche, die durchfallen!).
-> kann aber sein, dass was diese Menschen gemeinsam haben, zb nicht erfolgreiche auch machen
-> können über die Faktoren, die mit Selbstmordattentaten korrelieren, wenig lernen, wenn wir nur Selbstmordattentate anschauen
Regression
-lineare Regression = häufigste und nützlichste Tool, um Korrelation zu evaluieren
Regressionsgleichung:
dependent var_i= α+β∗independent variable_𝑖+ε_i
subscript i means that we’re referring to a particular value of that variable for observation i
α+β = regression coefficients
α = intercept/constant term
β = slope
ε_i = error term
-> suchen die Linie, die die Werte der Abhängigen Variable am besten vorhersagt
finden der besten Regressionslinie
Alpha and beta tell us what line we’re drawing
Alpha gives us the height of the line when the independent variable is 0.
Beta gives us the slope of the line.
So we can see that by varying these two parameters, we can explore any possible line through this data
And the error term tells us how far off our predictions are for each data point
-> OLS (ordinary least squares) regression line
= Linie minimiert die Summe der quadrierten Fehler (die nicht-erklärten Abweichungsquadrate)
gesamte Abweichungsquadrate:
-wie weicht Wert y_1 von ̅y ab
-total sum of squares (TSS)
nicht erklärte Abweichungsquadrate:
-wie weicht y_i vom erwarteten wert ab
-Summe = resudual sum of squares (RSS)
erklärte Abweichungsquadrate:
-Abweichung des erwarteten Werts von ̅y
-explained sum of squares (ESS)
-> größere Abweichungen wiegen schwerer (werden quadriert)
-> Achtung: nicht unbedingt Linie mit geringster durchschnittlicher Abweichung -> least absolute deviation (LAD)
Wie viel der Variation in den Daten wird erklärt?
Erklärte Abweichungsquadrate als Anteil der gesamten Abweichungsquadrate:
R² = ESS / TSS
warum verwendung OLS?
OLS ist “the best linear unbiased estimator” (BLUE)
Was bedeutet “unbiased”?
Wenn wir tausende Datensätze hätten, um 𝛽 und 𝛼 zu schätzen, würde das Mittel der 𝑏, a-Koeffizienten dem wahren 𝛽 und 𝛼 entsprechen
Was bedeutet “best”?
Es gibt keinen anderen Schätzer, für den die geschätzten 𝑏, a-Koeffizienten aus tausenden Datensätzen enger verteilt sind (kleinere Varianz haben) als für OLS
inter vs extrapolation
interpolation = We had data for people above and below the age of 31 (but not 31), and we predicted turnout for those at 31 using linear regression.
when we make predicts outside our range of data, we call it extrapolation. Suppose we wanted to predict turnout for 78 year-olds using only data on those between 18 and 68
polynomiale Regression
wenn lineare nicht gut passt
There’s no reason that regressions can’t have more than 1 independent variable (although this makes it harder to draw regression lines and it changes/complicates the interpretation of the coefficients). So what if we run a regression like this?
𝑇𝑢𝑟𝑛𝑜𝑢𝑡_𝑖=α+β_1∗𝐴𝑔𝑒_𝑖+β_2∗𝐴𝑔𝑒_𝑖^2+. . . +β_𝑁∗𝐴𝑔𝑒_𝑖^𝑁+ε_𝑖
Notice that we’re just including different transformations of the same variable (age, age-squared, age to the third power, and so on). It’s hard to interpret the coefficients, but we can still think about finding the values of all these different betas that gives us the smallest SSE.