Thema 5 - Regressie en steekproevenverdeling Flashcards

1
Q

wat is regressie analyse?

A
  • Regressieanalyse is een instrument waarmee op basis van de waarde op de ene variabele, een voorspelde waarde op de andere variabele berekend kan worden.
  • Bovendien geeft regressieanalyse een indruk hoe accuraat die voorspelling zal zijn.
  • Een regressielijn gemaakt op basis van een scatterplot geeft de beste voorspelling weer van de ene variabele door de andere variabele.
  • hoe goed de voorspellingen zijn hangt af van de afstand tussen de geobserveerde waarden en de voorspelde waarde
  • regressie analyse = een methode om de lijn te vinden waarbij de gekwadrateerde afwijkingen geminimaliseerd worden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

wat is een regressie-lijn?

A
  • De regressie-lijn representeert de beste voorspelling van de ene variabele (de afhankelijke variabele) uit de andere variabele (de onafhankelijke variabele).
  • De beste voorspelling is de lijn die gemiddeld voor alle punten het “dichtst” in de buurt ligt van de daadwerkelijk geobserveerde waarden van de afhankelijke variabele.
  • Deze regressielijnen zijn het product van regressieanalyse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

overwelke twee vragen gaat het bij regressie analyse?

A

Bij regressieanalyse gaat het in eerste instantie om twee vragen.

  1. Hoe vinden we de beste lijn in een willekeurige puntenwolk?
  2. Hoe goed past deze lijn bij de data?

=> met de regressielijn kunnen we dan voorspellingen doen: als we de score van de predictorvariabele weten, dan kunnen we de score van de afhankelijke variabele voorspellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

wat is een regressie coëfficiënt?

A
  • De uitkomst van een regressieanalyse zijn twee getallen die de lijn beschrijven. Deze getallen heten de regressiecoëfficiënten en worden aangeduid met b’s of
    β ’s, oftewel bèta’s.
  • Deze afwijkingen – of preciezer, het kwadraat van deze afwijkingen – willen we minimaliseren. De lijn moet dus zo lopen dat de afwijking tussen elke geobserveerde y -score en de correspondeerde voorspelling zo klein mogelijk is.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

wat is extrapolatie?

A

extrapolatie = het berekenen van voorspellingen van een model voor waarden buiten het bereik van de data waarop dat model gebaseerd is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

wat is het eerste getal uit een regressie analyse? wat is het intercept?

A
  • Het eerste getal uit de regressieanalyse is simpelweg de voorspelling voor iemand die 0 scoort op de predictorvariabele (onafhankelijke variabele) oftewel een waarde van 0 op de x-as.
  • het intercept = de eerste zogenaamde regressiecoëfficiënt in het regressie model en wordt aangeduid met beta0
  • het intercept is het punt waar de lijn de y-as snijdt wanneer x gelijk is aan 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

wat is intrapolatie?

A

Interpolatie = het gebruik van een model om tussenliggende waarden te berekenen; in ons geval bijvoorbeeld wat de snavelhoogte zou zijn voor een pinguïn met een snavel van 5 cm.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

wat is het intercept in een regressie model?

A
  • het intercept is de eerste zogenaamde regressiecoëfficiënt in het regressiemodel en wordt aangeduid met β0, B0 of b0.
  • = de voorspelling voor iemand die 0 scoort op de predictorvariabele (onafhankelijke variabele) oftewel een waarde van 0 op de x-as.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

wat is de tweede regressie coëfficiënt? of beta1?

A
  • De tweede regressiecoëfficiënt oftewel, (\beta_1), is de helling van de lijn.
  • Deze regressiecoëfficiënt geeft de stijging (of daling) in de variabele op de (y)-as aan als de variabele op de (x)-as met (1) eenheid toeneemt.
  • De horizontale pijl staat voor de verschuiving van 1 eenheid op de x-as vanuit het intercept en de vertikale pijl staat voor de corresponderende verschuiving op de y-as gegeven het regressiemodel (de groene lijn).
    ==> het verschil tussen deze voorspelde waarde op de y-as en het intercept, is de tweede regressiecoëfficiënt = de hellingscoëfficiënt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

welke is de regressie formule?

A

het criterium (of de beste voorspelling voor de afhankelijke variabele) = de som van het intercept en de regressiecoëfficiënt voor de helling van de lijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

wat is een dichotome voorspeller? en wat is er dan speciaal aan de regressiecoëfficiënt?

A
  • een dichotome voorspeller kan maar twee waarden aannemen
  • bij een dichotome voorspeller is de regressiecoëfficiënt van de helling van het verschil tussen de gemiddelden in de twee groepen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

wat is dummycoderen?

A

Om een dichotome voorspeller als intervalvariabele mee te nemen in regressieanalyse, moet aan elk van deze twee waarden een getal toegekend worden.

Het representeren van de meetwaarden van een categorische variabele met getallen heet dummycoderen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

wat is het verschil tussen correlatiecoëfficiënten en regressieanalyse?

A
  1. Correlatiecoëfficiënten zijn effectgroottes die gekwadrateerd kunnen worden om een schatting te krijgen van de proportie verklaarde variantie (dat wil zeggen, hoeveel twee variabelen overlappen).
  2. Regressieanalyse produceert een regressievergelijking: een model waarmee, gegeven een waarde op de ene variabele, de waarde op een andere variabele voorspeld kan worden.

anders dan correlatieanalyse is regressieanalyse ASYMMETRISCH -> omdat de waarde van de ene variabele voorspeld wordt met de waarde van de andere variabele, maakt de schaalverdeling van elke variabele uit!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

hoe kunnen onderzoekers nu weten hoeveel ze van de afhankelijke variabele nu begrijpen?

A
  • een indicator hiervan is hoeveel van de variantie van de afhankelijke variabele kan verklaard worden met een regressiemodel ==> de proportie verklaarde variantie oftewel R-kwadraat
  • hoe hoger de R-kwadraat -> hoe meer van de afhankelijke variabele wordt verklaard door de voorspellers -> R-kwadraat zegt iets over de proportie variantie in y die door x verklaard wordt
  • R-kwadraat kan waarden aannemen tussen 0 en 1
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

wat is de formule voor R-kwadraat bij een enkelvoudige regressie?

A
  • bij een enkelvoudige regressie is R-kwadraat gelijk aan de correlatie tussen predictor en criterium
  • in geval van een zwakke correlatie r=.10 verklaart de predictor variabele x slechts 1% van de variantie in de criteriumvariabele y (wan .1 x .1 = .01)
  • de R2 is een maat die aangeeft hoe succesvol de afhankelijke variable kan worden voorspeld met de variabelen in het model.
  • => Deze maat geeft dus aan hoe goed het model kan voorspellen, maar niet hoe goed het model de werkelijkheid beschrijft.
  • Omgekeerd is het wel waar dat wanneer de R2 van een model laag is, dit model de werkelijheid niet goed kan beschrijven.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

belang van R-kwadraat?

A
  • De proportie verklaarde variantie heeft betrekking op de steekproef. Hiermee kun je precies berekenen hoeveel variantie een regressiemodel verklaart in de steekproef.
  • Maar de steekproef is niet interessant en slechts een middel om uitspraken te doen over de populatie, oftewel over de realiteit.
17
Q

Een onderzoeksteam stelt een regressiemodel op om uit iemands cijfer voor Onderzoekspracticum inleiding onderzoek te voorspellen welk cijfer ze gaan halen voor Onderzoekspracticum kwalitatief onderzoek. De correlatie tussen die twee cijfers is r =.22.

Hoeveel variantie in de cijfers voor Onderzoekspracticum kwalitatief onderzoek kunnen de onderzoekers verklaren met hun regressiemodel?

A

De proportie verklaarde variantie, oftewel R2, is bij enkelvoudige regressieanalyse gelijk aan het kwadraat van de correlatie tussen de twee variabelen in het regressiemodel. In dit geval geldt daarom

R2 = r2 ≈ .05 = 5%

18
Q

wat is een t-verdeling?

A
  • De steekproevenverdeling van b0 en b1
    is de zogenaamde t-verdeling.
  • De t-verdeling is eigenlijk een variatie op de z-verdeling met een aanpassing voor kleine steekproeven van bijvoorbeeld 10 of 20 deelnemers.

Bij grote steekproeven zijn de t-verdeling en de z-verdeling practisch niet te onderscheiden

19
Q

hoe wordt de t-verdeling opgesteld?

A
  • de t-verdeling wordt NIET opgesteld voor een gegeven steekproefomvang, maar voor een gegeven aantal vrijheidsgraden
  • bij de berekening van de variantie wordt de variatie gedeeld door het aantal vrijheidsgraden van die variatie => op dezelfde manier heeft een regressiecoëfficiënt vrijheidsgraden en die zijn gelijk aan het aantal deelnemers in de steekproef min het totale aantal regressiecoëfficiënten (intercept en helling)
  • alleen voor uitzonderlijk kleine steekproeven wijkt de t-verdeling af van de normaalverdeling (z-verdeling) -> naarmate de steekproef groter wordt, gaat de t-verdeling steeds beter de normaal verdeling benaderen

beter met de t-verdeling werken ipv z-verdeling omdat deze geen subjectief oordeel vereist over de vraag of de steekproef groot genoeg is

20
Q

wat bepaalt de breedte van de normaalverdeling?

A
  • de breedte van de normaalverdeling wordt bepaald door de standaardeviatie
  • een z-waarde van 1 correspondeert met een afwijking van 1 standaarddeviatie vanuit het midden van de verdeling
  • een t-waarde van 1 correspondeert met een afwijking van 1 standaardfout vanuit het miden van de verdeling

om de t-verdeling te gebruiken voor een gegeven regressiecoëfficiënt, moeten we de breedte aanpassen aan de standaardfout van die regressiecoëfficënt

21
Q

vergelijk de steekproevenverdeling van Pearson’s r met de steekproevenverdeling van regressiecoëfficiënten (t-verdeling)

A
  • de steekproevenverdeling van Pearson’s r is asymmetrisch
  • de steekproevenverdeling van t-verdeling is symmetrisch
22
Q

hoe verhouden de steekproef grootte en de standaardfout zich tot elkaar? en het effect op de betrouwbaarheidsintervallen?

A
  • hoe groter de steekproef, hoe kleiner de standaardfout
  • dat betekent dat de betrouwbaarheidsintervallen kleiner worden en de regressiecoëfficiënten dus accurater ingeschat kunnen worden
23
Q

wat betekent de steekproevenverdeling van een t-verdeling?

A
  • net als bij een correlatiecoëfficiënt kan ook bij een regressiecoëfficiënt de steekproevenverdeling worden opgesteld voor een populatie-regressiecoëfficiënt van 0
  • ==> die steekproevenverdeling (een t-verdeling) bevat dus alle mogelijke regressiecoëfficiënten die gevonden kunnen worden als er in de populatie geen verband tussen twee variabelen is
  • ==> eerst bepalen welke proportie van deze “nulhypothese-steekproevenverdeling” hoort bij regressiecoëfficiënten gelijk aan of extremer dan die in de steekproef
24
Q

wat is de inhoudelijke betekenis van het intercept?

A
  • het is de gemiddelde waarde van y bij afwezigheid van x
  • de waarde van het intercept is niet zinvol te interpreteren wanneer er geen observaties (kunnen) zijn rond het nulpunt van x ==> !! als er wel een zinvolle intertpretatie gewenst is, kunnen de variabelen worden gecentreerd of gestandadiseerd
25
Q

wat betekent een regressiecoëfficiënt van .07?

A
  • een regressiecoëfficiënt van .07 dat de waarde van de variabele (y-as) met .07 eenheden stijgt wanneer de waarde van de x-as met 1 eenheid stijgt
26
Q

wat betekent R-kwadraat?

A

R-kwadraat geeft aan hoeveel procent van de variantie in gemiddeld schoolcijfer we kunnen verklaren met IQ
-> waarde van een puntschatting in een steekproef is beperkt relevant
-> we moeten weten hoe sterk R-kwadraat kan variëren van steekproef tot steekproef
-> dus kijken we naar het BI

27
Q

waarvoor wordt de F-verdeling gebruikt?

A
  • de F-verdeling wordt gebruikt om te beoordelen hoe groot de kans op deze R-kwadraat is als er in de populatie geen verband is tussen de voorspeller en de afhankelijke variabele
  • => die kans is de p-waarde die bij de berekende F-waarde hoort
  • bij p< .001 betekent dat als R-kwadraat in de populatie is, de kans op de R-kwadraat die we in de steekproef hebben gevonden hebben kleiner is dan 0,1%
28
Q

waarom wordt bij elk van de puntschattingen de standaardfout gegeven?

A
  • se = standaardfout = de standaarddeviatie van de steekproevenverdeling
  • se geeft informatie over hoe accuraat de schattingen van de regressiecoëfficiëntne zijn en wordt gebruikt bij het opstellen van de BI
  • door de puntschatting te delen door de standaarfout wordt de t-waarde verkregen (regressiecoëfficiënten zijn verdeeld volgens de t-verdeling)
  • de t-waarde maakt het vervolgens mogelijk om de kans te berekenen dat deze puntschattingen of extremer worden gevonden , als de populatiewaarde 0 is
29
Q

wat is het residu (of de error)? hoe hangt dit samen met de regressielijn?

A
  • de punten op de regressielijn geven aan welk gemiddeld cijfer voor de afhankelijke variabele voorspeld wordt op basis van de score op de predictor
  • het verschil tussen de voorspelde waarde en de geobserveerde scores noemen we het residu (of de error) -> het regressiemodel probeert deze residuen zo klein mogelijk te krijgen
30
Q

waarvoor zijn de “scaled” of gestandaardiseerde regressiecoëfficiënten handig?
welke handelingen zijn nodig voor de berekening hiervan?

A
  • waarvoor zijn de “scaled” of gestandaardiseerde regressiecoëfficiënten zijn handig voor de vergelijking van modellen waarbij niet alle predictoren op dezelfde schaal gemeten zijn
  • 3 handelingen voor het berekenen van de gestandaardiseerde regressiecoëfficiënten =>
    1. van elk datapunt het gemiddelde vd betreffende variabele aftrekken
    2. daarna wordt elk datapunt gedeeld door de standaarddeviatie vd betreffende variabele
    3. daarna wordt de regressieanalyse herhaald met die nieuwe variabelen

==> deze standaardisatie maakt de schaalverdeling van alle variabelen aan elkaar gelijk

31
Q

wat drukt de gestandaardiseerde hellingscoëfficiënt uit?

A
  • standaardisatie vindt ook plaats op de afhankelijke variabele
  • de gestandaardiseerde hellingscoëfficiënt drukt daardoor altijd uit hoeveel sd de afhankelijke variabele verandert als de voorspeller met precies 1 sd toeneemt
  • ==> de gestandaardiseerde coëfficiënten kunnen daardoor tussen modellen worden vergeleken
  • ==> gestandaardiseerde hellingscoëfficiënten zijn dan gecorrigeerd voor de schaalverdeling en daardoor beter vglbaar
32
Q

wat is centreren?

A
  • centreren is de eerste stap naar standaardisatie -> je trekt het gemiddelde af van elk datapunt
  • ! hiermee verandert de schaalverdeling van de variabele dus niet -> enig gevolg is dat het gemiddelde na het centreren gelijk is aan 0
33
Q

wat gebeurt er als je met een gecentreerde variabele een regressieanalyse doet?

A
  • als je met een gecentreerde variabele een regressieanalyse doet, dan is de hellingscoëfficiënt nog hetzelfde, maar het intercept verandert.
  • het intercept is de waarde van de afhankelijke variabele als de voorspeller de waarde 0 heeft => omdat het gemiddelde ve gecentreerde variabele gelijk is aan 0, is de waarde vh intercept gelijk aan de voorspelde waarde vd afhankelijke variabele voor iemand met de gemiddelde score op deze voorspeller

-> het intercept is dan de voorspelde waarde voor deelnemers met een gemiddeld cijfer

34
Q

waarin zit de asymmetrie van de regressieanalyse?

A
  • de asymmetrie zit erin dat regressieanalyse aanneemt dat alle error (ruis) in de afhankelijke variabele zit ==> regressieanalyse berekent de regressiecoëfficiënten zo, dat de afwijkingen tussen de lijn en de punten in de puntenwolk zo klein mogelijk zijn
35
Q

hoe verhouden de uitkomsten van de correlatie- en regressieanalyse zich tot elkaar?

A
  • de correlatiecoëfficiënt die bij correlaties wordt berekend, is identiek aan de gestandaardiseerde regressiecoëfficiënt van de predictor in de regressieanalyse
  • ook de p-waarde behorende bij de correlatie en die van de predictor zijn gelijk
36
Q

welke aannames worden er in een enkelvoudige regressieanalyse gemaakt?

A
  • 4 harde aannames en 1 harde aanname
  1. continue meetniveau => in regressieanalyse wordt aangenomen dat beide variabelen een continu meetniveau hebben (interval of ratio)
  2. lineariteit => regressieanalyse veronderstelt dat het verband tussen de twee variabelen lineair is
  3. onafhankelijkheid => regressieanalyse neemt aan dat alle observaties onafhankelijk zijn
  4. normaliteit => regressieanalyse neemt aan dat voor elke waarde van de voorspeller, de afhankelijke variabele normaal verdeeld is
  5. homoscedasticiteit => aanname houdt in dat voor elke waarde van de onafhankelijke variabele, de variantie in de afhankelijke variabele gelijke is (scatterplot bestuderen of Levene’s test gebruiken)
37
Q

zelf analyseren -> analyse schema

A
  • Describing the **central tendency **-> gemiddelde / mediaan / modus / BI 95% gemiddelde
  • describing the spread -> variantie / sd / IQR / se
  • describing the range -> min / q1 / q3 / max
  • describing the distribution shape -> skwewness / kurtosis / dip
  • rijen met de laagste waarde
  • rijen met de hoogste waarde
38
Q

zelf analyseren -> regressieanalyse in Jamovi + checklist bespreking

A
  • uploaden file
  • regression tab / dependent variable + covariate (independent variabel)
  • model fit -> R / R-kwadraat / F-test
  • model coëfficiënt -> BI + standardized estimate + BI

–> regressiecoëfficiënt (b) bespreken met BI, puntschatting, se, beta (standard), p-waarde
–> intercept bespreken als “representeert de waarde van angst bij mensen die 0 scoren op StatKnow
–> intercept zinvol maken door 0 een reële waarde voorstellen voor de predictor –> predictor centreren (gemiddelde van aftrekken zodat 0 het nieuwe gemiddelde is –> intercept representeert in dat geval de angstscore van mensen die gemiddeld scoren op StatKnow
–> F-toets ->p-waarde bespreken
–> conclusie of de steekproef significant is of niet

39
Q
A