6/7: Enkelvoudige regressie Flashcards
Regressielijn
Een rechte lijn die de waarde voorspelt van een responsvariabele (y) uit de waarde van een verklarende variabele (x)
Enkelvoudige regressielijn-/vergelijking (prediction equation)
- Beschrijft lineaire samenhang tussen 2 kwantitatieve variabelen
- Enkelvoudige lineaire regressie: 1x- waarde
- Gaat altijd door gemiddelde van x en gemiddelde van y
- Weergeven in scatterplot/spreidingsdiagram
- Additief
- (y_i ) ̂=a+bx_i
- a= y-intercept
§ Wat is y bij x=0
§ a=y ̅−b(x ̅) - b= regressiecoëfficiënt (slope)
§ Verandering in y/verandering in x
§ b=r_xy (s_y/s_x )
§ r= correlatiecoëfficiënt (zegt iets over hoe goed de datapunten op 1 lijn liggen)
- Zegt niks over de sterkte van de associatie/correlatie
- Zegt dus niks over de lijn zelf (richting, helling)
§ Geeft alleen richting aan - x= verklarende variabele (onafhankelijke variabele, predictor)
- y= respons variabele (afhankelijke variabele, criterium)
§ y ̂= Voorspelde waarde
§ y_i= Geobserveerde waarde voor willekeurig persoon i
- a= y-intercept
Risico’s enkelvoudige regressie (7)
1) Het is een lineaire lijn. Als data dat niet is klopt het niet
2) Je kan niet voorspellen wat ver buiten je onderzochte data ligt
§ Extrapolatie: Voorspellen regressielijn (ver) buiten waargenomen gegevens
§ Vaak toegepast op waarnemingen van een kwantitatieve responsvariabele in de tijd
3) Uitschieters/outliers invloed op regressielijn of proportie verklaarde variantie
§ Vooral bij kleine steekproeven
§ Invloedrijke outliers eventueel weglaten
4) Simpson’s paradox
5) Correlatie is niet hetzelfde als causaliteit
6) Ecological fallacy
○ Onterechte aanname hoger niveau geldt ook voor lager niveau
○ Hoeft niet altijd onjuist te zijn, maar je hebt het niet onderzocht dus conclusie is ongeoorloofd
○ Inwoners aantal is van invloed op universitaire opleiding. Hoe meer inwoners, hoe hoger opleidingsniveau. Bij ecological fallacy: Als je individu in een dorp tegenkomt lager niveau geven dan iemand uit grote stad
7) Restriction of range
○ Je neemt niet alle data mee in je onderzoek waardoor je niet volledige range van populatie bevat
○ Vooral van invloed op correlatie
Residuals (Residu)
- Prediction error (Voorspellingsfout)
- (y−y ̂)
- Verschil tussen werkelijke y-waarde en daadwerkelijke lijn
- Verticale afstand tussen het punt en de regressielijn
- Hoe kleiner, hoe preciezer
Least squares method (Kwadraten methode)
SSres=∑▒〖(y−y ̂)〗^2
Lijn gekozen waardoor afstand tot alle punten zo klein mogelijk
Regression to the mean
- Verwachting van verandering in scores, zonder een interventie
- Bij extreme scores, zal de tweede score dichter bij het gemiddelde liggen
- Bedreiging interne validiteit
- Als een groep gemiddeld 130 IQ heeft en opnieuw meet zullen de meeste een lagere score krijgen en een enkeling hoger
Populatie regressie
- Verschillen met gewone regressie:
- Andere letters, zodat te zien is dat het over populatie gaat
- Standaarddeviatie speelt een rol
- Populatiegemiddelde als uitkomst in plaats van voorspelde waarde
- μ_y=α+βx (als σ)
- Ook mogelijk op individueel niveau
- y_i=α+βx_i+ ε_i
- Normaal verdeling met SD en M van 0
- Aanname: conditioneel op de waarde van x is y normaal verdeeld met sd = σ
- Voor elke waarde van sportschoolbezoek is de spreiding/standaarddeviatie gelijk
- Gemiddelde verschilt wel
Correlatie (r)
- Lineaire samenhang tussen twee kwantitatieve variabelen
- Regressielijn geeft niet aan hoe sterk relatie is, dat kan correlatie wel
- Eenheidsloos/gestandaardiseerde maat
- Drukt de richting en sterkte van verband tussen x en y uit
- Bereik tussen -1 en 1
- Klein effect: (-)0.1
- Middelmatig effect: (-)0.3
- Groot effect: (-)0.5
- Rekening houden met: (kwartet van Anscombe)
- Gevoelig voor outliers
- Gevoelig beperkingen van bereik
- Gevoelig ecologische inferentiefout (soort simpson’s paradox)
- Correlatie is niet zelfde als causaliteit
- Correlatiematrix
- Meerdere kwantitatieve variabelen
- Geen onderscheid tussen respons en verklarende variabelen
Proportie verklaarde variantie (proportionele reductie) (R2)
- Gekwadrateerde correlatie
- Hoeveel beter is de regressielijn (voorspelling) beter dan het gemiddelde van y is–> beschrijft voorspellende kracht
- Hoeveel van de totale variabiliteit in scores kan verklaard worden door de regressielijn
- Verhouding kwadratensom regressie formule t.o.v. kwadratensom van totale variabiliteit
- Hoeveel van totale spreiding scores kan verklaard worden door regressievergelijking
- Je kan r kwadrateren bij enkelvoudige lineaire regressies
- Percentage van de variabiliteit in de responsvariabele
- Hoe groter, hoe nauwkeuriger voorspelling van regressievergelijking
- Tussen 0 (geen verband) en 1 (100%) (perfecte voorspelling)
- 0.01= klein effect
- 0.09= middel effect
- 0.25= groot effect
- r^2=1, wanneer∑▒(y−y ̂ )^2 =0
- Alleen als alle punten precies op regressielijn vallen
- r=1
- r^2=0, wanneer b=0 en ∑▒(y−y ̂ )^2 =∑▒(y−y ̅ )^2
Stappen:
Hypothesetoetsing enkelvoudige regressie (associatie)- Manier 1 (t)
1) Assumpties checken
* Kwantitatieve variabelen
* Lineair verband
- Gebruiken van scatterplot
- μy= α + βx
* Normaal verdeelde data
- Homoskedastisch
- Y is normaal verdeeld met σ conditioneel op x
- Gebruiken van histogram
- Central limit theorie (bij grot N, altijd normaal verdeeld)
- Geen probleem bij
§ N ≥ 30
§ Tweezijdig testen
- Kijken voor outliers
§ Residu/se
§ ≥ 3 dan uitschieter
* Random trekking/toewijzing
* Bij schendingen; voorzichtig met conclusies
2) Hypothesen opstellen
Nulhypothese (H0)
* H_0:β=0
* H_0:p^2=0
□ Onafhankelijk
□ Geen associatie
Alternatieve hypothese (HA of H1)
□ Eenzijdig: H_A:β<0 of H_A:β>0
□ Tweezijdig: H_A:β≠0 of p^2>0
□ Afhankelijk
□ Wel associatie
3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* t
4) P-waarde opzoeken
* Beschrijft hoe zeldzaam de geobserveerde steekproefproportie (of extremer) zou zijn als H0 waar is
* Hoe kleiner P-waarde, hoe sterker bewijs tegen nulhypothese
* Passend bij t-waarde in tabel
- Bij hypothese ‘<’ in tabel geïnteresseerd in linkerkant
- Bij hypothese ‘>’ in tabel geïnteresseerd in rechterkant
- Bij hypothese ‘≠’ in tabel geïntresseerd in beide kanten dus 2p (p-waarde verdubbelen)
* Df=N-k
* k=2 (want a & b)
5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
* Anders verwerp je de nulhypothese niet (niet accepteren!)
* Bij verwerpen: Gevonden resultaat verschilt statisch significant van de waarde van de nulhypothese
* Wanneer de steekproefcorrelatie r = 0 is, dan is de steekproefhelling ook b = 0.
* Wanneer de populatiecorrelatie gelijk is aan 0, is de populatiehelling ook β = 0
Stappen:
Hypothesetoetsing enkelvoudige regressie (associatie)- Manier 2 (F) Kijken of verklaarde variantie (R^2) 0 is
1) Assumpties checken
* Kwantitatieve variabelen
* Lineair verband
- Gebruiken van scatterplot
- μy= α + βx
* Normaal verdeelde data
- Homoskedastisch
- Y is normaal verdeeld met σ conditioneel op x
- Gebruiken van histogram
- Central limit theorie (bij grot N, altijd normaal verdeeld)
- Geen probleem bij
§ N ≥ 30
§ Tweezijdig testen
- Kijken voor outliers
§ Residu/se
§ ≥ 3 dan uitschieter
* Random trekking/toewijzing
* Bij schendingen; voorzichtig met conclusies
2) Hypothesen opstellen
Nulhypothese (H0)
* H_0:β=0
* H_0:p^2=0
□ Onafhankelijk
□ Geen associatie
Alternatieve hypothese (HA of H1)
□ Tweezijdig: H_A:β≠0 of p^2>0
□ Afhankelijk
□ Wel associatie
3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* F
4) Overschrijdingskans
* Opzoeken in F-tabel
* Grote F-waarde geeft kleine overschrijdingskans
* Als regressie goed voorspelt, is MSreg groot en MSres klein
* DF
* Df1= k-1=1
* Df2= N-k=n-2
* Totaal df= n-k=n-1
5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
* Anders verwerp je de nulhypothese niet (niet accepteren!)
* Bij verwerpen: Gevonden resultaat verschilt statisch significant van de waarde van de nulhypothese
* Wanneer de steekproefcorrelatie r = 0 is, dan is de steekproefhelling ook b = 0.
* Wanneer de populatiecorrelatie gelijk is aan 0, is de populatiehelling ook β = 0
Gemiddelde kwadratensommen
Variantie: SStot/(n-1)
Residuele variantie: Ssres/(n-k)
Variantie verklaard door regressie: Ssreg/(k-1)
Residuen (2)
- Gestandaardiseerde residu
- z_res=(y−y ̂)/(SE (y−y ̂))
- Hoeveel SE ligt residu van 0
- Niet afhankelijk van eenheden
- Boven 3 zeldzaam, dus outlier
- Vergelijkbaar met z-score
- Vergelijkbaar gestandaardiseerde residu van chi-kwadraat toets
- Nuttig, omdat
§ Opsporen extreme waarden (en evt. verwijderen)
§ Normale verdeling van y controleren
–> Als niet normaal is verdeeld dan tweezijdig toetsen
- Residuele standaarddeviatie
- Standaarddeviatie van residuen
- Spreiding rond regressielijn
- Vergelijk gewone standaarddeviatie, spreiding rond gemiddelde
Betrouwbaarheidsinterval enkelvoudige regressie
- b ± t_(a/2(df=n−2))∗〖se〗_b
- Met 95%-betrouwbaarheidsinterval zijn wij 95% zeker dat de helling β van de populatie
tussen de … en … Valt - 95%-betrouwbaarheidsinterval: Estimated slope ±t_0.025 (se)
- Als 0 in interval zit, dan niet significant
Betrouwbaarheidsinterval voor y ̂ en μ (2)
- Voorspellende populatie gemiddelde (groep)
- Clμy=y ̂±t_(a/2)∗se
- Se= S_res/√n
- Schatter voor gemiddelde in steekproef
- Gebruiken voor algemene uitspraak/voorspelling van een groep - Voorspellingsinterval (individu/specifiek persoon)
- Cl_yi=y ̂±t_(a/2)∗se
- Se=S_res
- Gebruiken bij beoordelen voorspelling specifiek persoon
- Predictie-interval
- Oppassen bij heteroscedasiticiteit (grote spreiding)