H4 Flashcards
Regressie analyse
Best passende lijn door datapunten zoeken en aan de hand van de lijn een voorspelling doen over de data
Forecasts (voorspellingen
Voorspellingen over de toekomst met behulp van tijdreeksgegevens
Lurking variabele
Een derde variabele die niet wordt gemeten in een onderzoek, maar die wel de associatie tussen responsvariabele en verklarende variabele beïnvloedt
Simpson’s paradox
Richting van associatie kan veranderen nadat een derde (lurking/condfounding) variabele is opgenomen en gegevens op afzonderlijke niveaus van die variabele hebben geanalyseerd.
In hele dataset relatie positief, maar door opdelen andere variabele negatief, of andersom.
Verklaarde variantie
De mate waarin de regressievergelijking van X en Y de afhankelijke variabele beter voorspelt dan het gemiddelde van Y.
Correlatie- en regressiemethoden verband (3) en verschil (3)
Verband
○ Beide geschikt wanneer de relatie tussen twee kwantitatieve variabelen kan worden benaderd door een rechte lijn
○ De correlatie en de helling van de regressielijn hebben hetzelfde teken. (+/-/0)
○ Beiden nonresistant (vatbaar voor vervorming door uitschieters)
Verschil
○ Bij correlatie altijd dezelfde uitkomstwaarde, bij regressie andere y waarden
○ Correlatie zit tussen -1 en +1, regressie elk reëel getal
○ Bij regressie is het y-snijpunt van belang, bij correlatie niet
Regressielijn-/vergelijking (prediction equation)
- Enkelvoudige lineaire regressie: 1x- waarde
- Gaat altijd door gemiddelde van x en gemiddelde van y
- (y_i ) ̂=a+bx_i
- Voorspelt waarde y (responsvariabele) als je x (verklarende variabele) weet
Risico’s Regressielijn-/vergelijking (prediction equation) (3)
○ Je kan niet voorspellen wat ver buiten je onderzochte data ligt
§ Extrapolatie: Voorspellen regressielijn (ver) buiten waargenomen gegevens
§ Vaak toegepast op waarnemingen van een kwantitatieve responsvariabele in de tijd
○ Uitschieters invloed op regressielijn of proportie verklaarde variantie
○ Simpson’s paradox
Residuals= residu (predictionerror= voorspellingsfout)
- (y−y ̂)
- Verschil tussen werkelijke y-waarde en daadwerkelijke lijn
- Verticale afstand tussen het punt en de regressielijn
Influential (invloedrijke uitschieter)
Wanneer een waarneming een groot effect heeft op de resultaten van een regressieanalyse
x-waarde is relatief laag/hoog in vergelijking met de rest van de gegevens
De waarneming is een regression outlier, die ver afwijkt van de trend
Least squares method (kleinste kwadraten methode)
∑〖(y−y ̂)〗^2
Lijn gekozen waardoor afstand tot alle punten zo klein mogelijk
Proportie verklaarde variantie (proportionele reductie) (R2)
- Hoeveel beter is de regressielijn (voorspelling) beter dan het gemiddelde van y is
- Hoeveel van de totale variabiliteit in scores kan verklaard worden door de regressielijn
- Verhouding kwadratensom regressie formule t.o.v. kwadratensom van totale variabiliteit
- Hoeveel van totale spreiding scores kan verklaard worden door regressievergelijking
- Je kan r kwadrateren bij enkelvoudige lineaire regressies
- Percentage van de variabiliteit in de responsvariabele
- Hoe groter, hoe nauwkeuriger voorspelling van regressievergelijking
- Tussen 0 (geen verband) en 1 (100%) (perfecte voorspelling)
Common cause
1 variabele beïnvloedt zowel verklarende- als responsvariabele
Niet vaak het geval
Temperatuur beïnvloedt aantal verkochte ijsjes en verdrinkingsdoden
Multiple cause
Meerdere oorzaken die associatie beïnvloedt
Moeilijk effect bestuderen
Opgroeien in armoede veroorzaak grotere kans misdaad. Dit wordt alleen door veel andere oorzaken beïnvloed
Confounding
Wanneer twee verklarende variabelen geassocieerd zijn met responsvariabele, maar ook met elkaar
Deze wordt wel meegenomen in je onderzoek (een lurking variabele niet)
Aantal doden en rokers. Rokers leek eerste instantie kans op dood gaan te verkleinen, maar door leeftijd mee te nemen, bleek de kans juist vergroot te worden (confounder: leeftijd)