6/7: Enkelvoudige regressie Flashcards

1
Q

Regressielijn

A

Een rechte lijn die de waarde voorspelt van een responsvariabele (y) uit de waarde van een verklarende variabele (x)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Enkelvoudige regressielijn-/vergelijking (prediction equation)

A
  • Beschrijft lineaire samenhang tussen 2 kwantitatieve variabelen
  • Enkelvoudige lineaire regressie: 1x- waarde
  • Gaat altijd door gemiddelde van x en gemiddelde van y
  • Weergeven in scatterplot/spreidingsdiagram
  • Additief
  • (y_i ) ̂=a+bx_i
    • a= y-intercept
      § Wat is y bij x=0
      § a=y ̅−b(x ̅)
    • b= regressiecoëfficiënt (slope)
      § Verandering in y/verandering in x
      § b=r_xy (s_y/s_x )
      § r= correlatiecoëfficiënt (zegt iets over hoe goed de datapunten op 1 lijn liggen)
      - Zegt niks over de sterkte van de associatie/correlatie
      - Zegt dus niks over de lijn zelf (richting, helling)
      § Geeft alleen richting aan
    • x= verklarende variabele (onafhankelijke variabele, predictor)
    • y= respons variabele (afhankelijke variabele, criterium)
      § y ̂= Voorspelde waarde
      § y_i= Geobserveerde waarde voor willekeurig persoon i
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Risico’s enkelvoudige regressie (7)

A

1) Het is een lineaire lijn. Als data dat niet is klopt het niet

2) Je kan niet voorspellen wat ver buiten je onderzochte data ligt
§ Extrapolatie: Voorspellen regressielijn (ver) buiten waargenomen gegevens
§ Vaak toegepast op waarnemingen van een kwantitatieve responsvariabele in de tijd

3) Uitschieters/outliers invloed op regressielijn of proportie verklaarde variantie
§ Vooral bij kleine steekproeven
§ Invloedrijke outliers eventueel weglaten

4) Simpson’s paradox

5) Correlatie is niet hetzelfde als causaliteit

6) Ecological fallacy
○ Onterechte aanname hoger niveau geldt ook voor lager niveau
○ Hoeft niet altijd onjuist te zijn, maar je hebt het niet onderzocht dus conclusie is ongeoorloofd
○ Inwoners aantal is van invloed op universitaire opleiding. Hoe meer inwoners, hoe hoger opleidingsniveau. Bij ecological fallacy: Als je individu in een dorp tegenkomt lager niveau geven dan iemand uit grote stad
7) Restriction of range
○ Je neemt niet alle data mee in je onderzoek waardoor je niet volledige range van populatie bevat
○ Vooral van invloed op correlatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Residuals (Residu)

A
  • Prediction error (Voorspellingsfout)
  • (y−y ̂)
  • Verschil tussen werkelijke y-waarde en daadwerkelijke lijn
  • Verticale afstand tussen het punt en de regressielijn
  • Hoe kleiner, hoe preciezer
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Least squares method (Kwadraten methode)

A

SSres=∑▒〖(y−y ̂)〗^2
Lijn gekozen waardoor afstand tot alle punten zo klein mogelijk

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Regression to the mean

A
  • Verwachting van verandering in scores, zonder een interventie
  • Bij extreme scores, zal de tweede score dichter bij het gemiddelde liggen
  • Bedreiging interne validiteit
  • Als een groep gemiddeld 130 IQ heeft en opnieuw meet zullen de meeste een lagere score krijgen en een enkeling hoger
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Populatie regressie

A
  • Verschillen met gewone regressie:
    • Andere letters, zodat te zien is dat het over populatie gaat
    • Standaarddeviatie speelt een rol
    • Populatiegemiddelde als uitkomst in plaats van voorspelde waarde
  • μ_y=α+βx (als σ)
  • Ook mogelijk op individueel niveau
    • y_i=α+βx_i+ ε_i
    • Normaal verdeling met SD en M van 0
  • Aanname: conditioneel op de waarde van x is y normaal verdeeld met sd = σ
    • Voor elke waarde van sportschoolbezoek is de spreiding/standaarddeviatie gelijk
    • Gemiddelde verschilt wel
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Correlatie (r)

A
  • Lineaire samenhang tussen twee kwantitatieve variabelen
  • Regressielijn geeft niet aan hoe sterk relatie is, dat kan correlatie wel
  • Eenheidsloos/gestandaardiseerde maat
  • Drukt de richting en sterkte van verband tussen x en y uit
  • Bereik tussen -1 en 1
    • Klein effect: (-)0.1
    • Middelmatig effect: (-)0.3
    • Groot effect: (-)0.5
  • Rekening houden met: (kwartet van Anscombe)
    • Gevoelig voor outliers
    • Gevoelig beperkingen van bereik
    • Gevoelig ecologische inferentiefout (soort simpson’s paradox)
    • Correlatie is niet zelfde als causaliteit
  • Correlatiematrix
    • Meerdere kwantitatieve variabelen
    • Geen onderscheid tussen respons en verklarende variabelen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Proportie verklaarde variantie (proportionele reductie) (R2)

A
  • Gekwadrateerde correlatie
  • Hoeveel beter is de regressielijn (voorspelling) beter dan het gemiddelde van y is–> beschrijft voorspellende kracht
  • Hoeveel van de totale variabiliteit in scores kan verklaard worden door de regressielijn
  • Verhouding kwadratensom regressie formule t.o.v. kwadratensom van totale variabiliteit
  • Hoeveel van totale spreiding scores kan verklaard worden door regressievergelijking
  • Je kan r kwadrateren bij enkelvoudige lineaire regressies
  • Percentage van de variabiliteit in de responsvariabele
  • Hoe groter, hoe nauwkeuriger voorspelling van regressievergelijking
  • Tussen 0 (geen verband) en 1 (100%) (perfecte voorspelling)
    • 0.01= klein effect
    • 0.09= middel effect
    • 0.25= groot effect
  • r^2=1, wanneer∑▒(y−y ̂ )^2 =0
    • Alleen als alle punten precies op regressielijn vallen
    • r=1
  • r^2=0, wanneer b=0 en ∑▒(y−y ̂ )^2 =∑▒(y−y ̅ )^2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Stappen:
Hypothesetoetsing enkelvoudige regressie (associatie)- Manier 1 (t)

A

1) Assumpties checken
* Kwantitatieve variabelen
* Lineair verband
- Gebruiken van scatterplot
- μy= α + βx
* Normaal verdeelde data
- Homoskedastisch
- Y is normaal verdeeld met σ conditioneel op x
- Gebruiken van histogram
- Central limit theorie (bij grot N, altijd normaal verdeeld)
- Geen probleem bij
§ N ≥ 30
§ Tweezijdig testen
- Kijken voor outliers
§ Residu/se
§ ≥ 3 dan uitschieter
* Random trekking/toewijzing
* Bij schendingen; voorzichtig met conclusies

2) Hypothesen opstellen

Nulhypothese (H0)
* H_0:β=0
* H_0:p^2=0
□ Onafhankelijk
□ Geen associatie

Alternatieve hypothese (HA of H1)
□ Eenzijdig: H_A:β<0 of H_A:β>0
□ Tweezijdig: H_A:β≠0 of p^2>0
□ Afhankelijk
□ Wel associatie

3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* t

4) P-waarde opzoeken
* Beschrijft hoe zeldzaam de geobserveerde steekproefproportie (of extremer) zou zijn als H0 waar is
* Hoe kleiner P-waarde, hoe sterker bewijs tegen nulhypothese
* Passend bij t-waarde in tabel
- Bij hypothese ‘<’ in tabel geïnteresseerd in linkerkant
- Bij hypothese ‘>’ in tabel geïnteresseerd in rechterkant
- Bij hypothese ‘≠’ in tabel geïntresseerd in beide kanten dus 2p (p-waarde verdubbelen)
* Df=N-k
* k=2 (want a & b)

5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
* Anders verwerp je de nulhypothese niet (niet accepteren!)
* Bij verwerpen: Gevonden resultaat verschilt statisch significant van de waarde van de nulhypothese
* Wanneer de steekproefcorrelatie r = 0 is, dan is de steekproefhelling ook b = 0.
* Wanneer de populatiecorrelatie gelijk is aan 0, is de populatiehelling ook β = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Stappen:
Hypothesetoetsing enkelvoudige regressie (associatie)- Manier 2 (F) Kijken of verklaarde variantie (R^2) 0 is

A

1) Assumpties checken
* Kwantitatieve variabelen
* Lineair verband
- Gebruiken van scatterplot
- μy= α + βx
* Normaal verdeelde data
- Homoskedastisch
- Y is normaal verdeeld met σ conditioneel op x
- Gebruiken van histogram
- Central limit theorie (bij grot N, altijd normaal verdeeld)
- Geen probleem bij
§ N ≥ 30
§ Tweezijdig testen
- Kijken voor outliers
§ Residu/se
§ ≥ 3 dan uitschieter
* Random trekking/toewijzing
* Bij schendingen; voorzichtig met conclusies

2) Hypothesen opstellen
Nulhypothese (H0)
* H_0:β=0
* H_0:p^2=0
□ Onafhankelijk
□ Geen associatie

Alternatieve hypothese (HA of H1)
□ Tweezijdig: H_A:β≠0 of p^2>0
□ Afhankelijk
□ Wel associatie

3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* F

4) Overschrijdingskans
* Opzoeken in F-tabel
* Grote F-waarde geeft kleine overschrijdingskans
* Als regressie goed voorspelt, is MSreg groot en MSres klein
* DF
* Df1= k-1=1
* Df2= N-k=n-2
* Totaal df= n-k=n-1

5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
* Anders verwerp je de nulhypothese niet (niet accepteren!)
* Bij verwerpen: Gevonden resultaat verschilt statisch significant van de waarde van de nulhypothese
* Wanneer de steekproefcorrelatie r = 0 is, dan is de steekproefhelling ook b = 0.
* Wanneer de populatiecorrelatie gelijk is aan 0, is de populatiehelling ook β = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Gemiddelde kwadratensommen

A

Variantie: SStot/(n-1)
Residuele variantie: Ssres/(n-k)
Variantie verklaard door regressie: Ssreg/(k-1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Residuen (2)

A
  • Gestandaardiseerde residu
    • z_res=(y−y ̂)/(SE (y−y ̂))
    • Hoeveel SE ligt residu van 0
    • Niet afhankelijk van eenheden
    • Boven 3 zeldzaam, dus outlier
    • Vergelijkbaar met z-score
    • Vergelijkbaar gestandaardiseerde residu van chi-kwadraat toets
    • Nuttig, omdat
      § Opsporen extreme waarden (en evt. verwijderen)
      § Normale verdeling van y controleren
      –> Als niet normaal is verdeeld dan tweezijdig toetsen
  • Residuele standaarddeviatie
    • Standaarddeviatie van residuen
    • Spreiding rond regressielijn
    • Vergelijk gewone standaarddeviatie, spreiding rond gemiddelde
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Betrouwbaarheidsinterval enkelvoudige regressie

A
  • b ± t_(a/2(df=n−2))∗〖se〗_b
  • Met 95%-betrouwbaarheidsinterval zijn wij 95% zeker dat de helling β van de populatie
    tussen de … en … Valt
  • 95%-betrouwbaarheidsinterval: Estimated slope ±t_0.025 (se)
  • Als 0 in interval zit, dan niet significant
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Betrouwbaarheidsinterval voor y ̂ en μ (2)

A
  • Voorspellende populatie gemiddelde (groep)
    - Clμy=y ̂±t_(a/2)∗se
    - Se= S_res/√n
    - Schatter voor gemiddelde in steekproef
    - Gebruiken voor algemene uitspraak/voorspelling van een groep
  • Voorspellingsinterval (individu/specifiek persoon)
    - Cl_yi=y ̂±t_(a/2)∗se
    - Se=S_res
    - Gebruiken bij beoordelen voorspelling specifiek persoon
    - Predictie-interval
    - Oppassen bij heteroscedasiticiteit (grote spreiding)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Exponentiële regressie

A
  • y ̂=ab^x
    • Als a>0 en b>1: hoe hoger x, hoe hoger y
    • Als a>0 en 0<b<1: hoe hoger x, hoe lager y
    • (Als b<0: Dan kan de curve gaan slingeren)
  • Doel schatting in de populatie: μ_y=α∗β^x
    • μ_y en β kunnen alleen positief zijn
    • x=0→μ_y=αβ^0=α∗1=α
    • x=1→μ_y=αβ^1=αβ
    • x=2→μ_y=αβ^2=αββ
  • Niet lineair, maar hier wel in om te zetten
    1) Neem de logaritme van y en pas dan enkelvoudige lineaire regressie toe
    2) Reken vervolgens terug
    § ln(y ̂)= A+Bx
    § A=ln⁡(a)=e^a=y ̅−Bx ̅
    § B=ln⁡(b)=e^b=r ∗s_y/s_x
  • Multiplicatief effect in plaats van additief (lineaire regressie)
  • Is te berekenen met SPSS
  • Exponentiële curve