8/9: Meervoudige regressie Flashcards

1
Q

Meervoudige regressie

A
  • Regressie met twee of meer predictoren (variabelen)
  • De helling (bx) beschrijft het effect van een verklarende variabele terwijl het effect van de andere verklarende variabelen in het model wordt gecontroleerd
  • y ̂=a+b_1 x_i1+b_2 x_i2+…+b_m x_im
  • μ_y=α+β_1 x_i1+β_2 x_i2+…+β_m x_im
  • Gebruiken om potentiële lurking variabelen te identificeren en controleren door ze als verklarende variabelen op te nemen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Stappen:
Hypothesetoetsing meervoudige regressie (associatie)- Manier 1 (t- individuele t-test)

A

1) Assumpties checken
* Kwantitatieve variabelen
* Lineair verband
- Gebruiken van scatterplot
- μ_y=α+β_1 x_i1+β_2 x_i2+…+β_m x_im
* Normaal verdeelde data
- Y is normaal verdeeld met σ conditioneel op x
- Gebruiken van histogram
- Residuen normaal verdeeld
- Homoscedasticity
* Random trekking/toewijzing
* N minstens 10*predictoren (b)

2) Hypothesen opstellen
Nulhypothese (H0)
□ H_0:β_1=0
Alternatieve hypothese (HA of H1)
□ Eenzijdig: H_A:β_1<0 of H_A:β_1>0
□ Tweezijdig: H_A:β_1≠0

3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* t
* SE wordt gegeven
* k= aantal schatters (a & b’s(voorspellers))

4) P-waarde opzoeken
* Beschrijft hoe zeldzaam de geobserveerde steekproefproportie (of extremer) zou zijn als H0 waar is
* Hoe kleiner P-waarde, hoe sterker bewijs tegen nulhypothese
* Passend bij t-waarde in tabel
- Bij hypothese ‘<’ in tabel geïnteresseerd in linkerkant
- Bij hypothese ‘>’ in tabel geïnteresseerd in rechterkant
- Bij hypothese ‘≠’ in tabel geïntresseerd in beide kanten dus 2p (p-waarde verdubbelen)
* Df=N-k

5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
* Anders verwerp je de nulhypothese niet (niet accepteren!)
* Bij verwerpen: Gevonden resultaat verschilt statisch significant van de waarde van de nulhypothese
* Wanneer de steekproefcorrelatie r = 0 is, dan is de steekproefhelling ook b = 0.
* Wanneer de populatiecorrelatie gelijk is aan 0, is de populatiehelling ook β = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Stappen:
Hypothesetoetsing meervoudige regressie- Manier 2 (R2, F overall test)

A

1) Assumpties checken
* Kwantitatieve variabelen
* Lineair verband
- Gebruiken van scatterplot
- μ_y=α+β_1 x_i1+β_2 x_i2+…+β_m x_im
* Normaal verdeelde data
- Y is normaal verdeeld met σ conditioneel op x
- Gebruiken van histogram
- Residuen normaal verdeeld
- Homoscedasticity
* Random trekking/toewijzing
* N minstens 10*predictoren (b)

2) Hypothesen opstellen
Nulhypothese (H0)
□ H_0:β_1= β_2=…=0
□ H_0:R^2=0
Alternatieve hypothese (HA of H1)
□ Tweezijdig
□ H_A:Niet H_0, Minstens een β wijkt af van 0
□ H_A: β_1 en/of β_2=…≠0

3) Toetsingsgrootheid (tg) (Test Statisic) berekenen
* F
* R^2=
* F≥0

4) Overschrijdingskans
* Opzoeken in F tabel (altijd eenzijdig, rechts)
* Niet nadenken over zijdes
* Grote F-waarde geeft kleine overschrijdingskans
* Als regressie goed voorspelt, is MSreg groot en MSres klein
* DF
* Df1= k-1
* Df2= N-k
* Totaal df= n-1

5) Conclusies trekken
* Rapporteer en interpreteer Interpreteren
* Beslisregels verwerpen is
a) p-waarde is kleiner dan vooraf gekozen significantieniveau (α) (meestal 0.05/5%)
- p≤α→Verwerp H_0
- p>α→Niet H_0 verwerpen
b) Toetsingsgrootheid (tg) extremer is dan grenswaarde/kritieke waarde
* Anders verwerp je de nulhypothese niet (niet accepteren!)
* Bij verwerpen: Gevonden resultaat verschilt statisch significant van de waarde van de nulhypothese
* Wanneer de steekproefcorrelatie r = 0 is, dan is de steekproefhelling ook b = 0.
* Wanneer de populatiecorrelatie gelijk is aan 0, is de populatiehelling ook β = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Std. Error of the estimate

A

Standaardafwijking gegeven x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Mean square

A

Ander woord voor variance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Verschil F-waarde en t-waarde:

A
  • De F-waarde
    • Te vinden in ANOVA tabel SPSS
    • De test of alle onafhankelijke (x) variabelen samen een significante voorspelling geven van de afhankelijke variabele (y).
    • Of het model als geheel een significante voorspelling geeft van de waarden van y.
    • Overall bijdrage aan y
  • De t-waarden
    • Te vinden in de coefficients tabel SPSS
    • Testen de individuele predictoren
    • Testen dus of predictoren apart van elkaar een significante voorspelling geven van de afhankelijke variabele (y).
    • Unieke bijdrage aan y
  • Verschillen tussen significantie toetsen
    • T-hoger, omdat andere predicters verstoorden en nu eruit zijn gefilterd
    • F hoger, omdat ze overlappen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Residu:

A
  • Prediction error (Voorspellingsfout)
  • (y−y ̂)
  • Verschil tussen werkelijke y-waarde en daadwerkelijke lijn
  • Verticale afstand tussen het punt en de regressielijn
  • Hoe kleiner, hoe preciezer
    • Gestandaardiseerde residu
      • Tussen -3 en 3, anders mogelijke outlier
      • Tweezijdig toetsen robuust schending normaliteit
  • Residuen voor elke onafhankelijke variabele rond de nullijn
  • Homosedasticiteit en geen heterosedasticiteit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Multiple correlatie (R) meervoudige regressie

A
  • Lineaire samenhang tussen meerdere kwantitatieve variabelen
  • Correlatie tussen voorspelde ŷ en geobserveerde y
  • Hoe hoger, hoe beter de voorspelling van y door de predictoren
  • Eenheidloos
  • R
  • Bereik 0 tot 1
    • Klein effect: 0.1
    • Middelmatig effect: 0.3
    • Groot effect: 0.5
  • Bij perfecte voorspelling y ̂=y →R=1
  • Slechtste voorspelling y ̂=y ̅ →R=0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Proportie verklaarde variantie meervoudige regressie (proportionele reductie) (R2)

A
  • Gekwadrateerde correlatie
  • Hoeveel beter is de regressielijn (voorspelling) beter dan het gemiddelde van y is–> beschrijft voorspellende kracht
  • Eenheidloos
  • Hoeveel van de totale variabiliteit in scores kan verklaard worden door de regressielijn
  • Hoe groter, hoe nauwkeuriger voorspelling van regressievergelijking
  • Bij het toevoegen van meer variabelen, dan wordt R2 groter of blijft gelijk
  • Tussen 0 (geen verband) en 1 (100%) (perfecte voorspelling)
    • 0.01= klein effect
    • 0.09= middel effect
    • 0.25= groot effect
  • R^2=1, wanneer∑(y−y ̂ )^2 =0
    • Alleen als alle punten precies op regressielijn vallen
    • r=1
  • r^2=0, wanneer b=0 en ∑(y−y ̂ )^2 =∑(y−y ̅ )^2
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Heterosedasticiteit

A

Je standaarddeviatie verandert in loopt van tijd. Dit mag niet, behalve bij tweezijdig. Predictie-intervallen werken niet meer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Dummyvariabelen

A

Aan categorische variabelen een nummer toewijzen. Bijvoorbeeld man=0, vrouw=1

Regressie is hetzelfde als t-toets voor 2 gemiddelden (als varianties gelijk zijn)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Betrouwbaarheidsinterval meervoudige regressie:

A
  • b ± t_(a/2(df=n−k))∗〖se〗_b
  • Met 95%-betrouwbaarheidsinterval zijn wij 95% zeker dat de helling β van de populatie
    tussen de … en … Valt
  • 95%-betrouwbaarheidsinterval: Estimated slope ±t_0.025 (se)
  • Als 0 in interval zit, dan niet significant
How well did you know this?
1
Not at all
2
3
4
5
Perfectly