Thema 5 Flashcards
Regressieanalyse
instrument voor onderzoekers waarmee op basis van de waarde op de ene variabele, een voorspelde waarde op de andere variabele berekend kan worden ( en geeft indruk van accuraatheid van voorspelling)
1) hoe vinden we de beste lijn in een willekeurige puntenwolk?
2) hoe goed past deze lijn bij de data?
- predictor variabele
- afhankelijke variabele
Een regressielijn geeft de beste voorspelling weer van de ene variabele door de andere variabele
regressielijn is het product van regressieanalyse
- minder steile lijn = minder sterk verband
- hoe goed de voorspellingen zijn hangt af van de afstand tussen de geobserveerde waarden en de voorspelde waarden
- de regressielijn moet zó lopend dat de afwijking tuussen elke geobserveerde Y-score en de corresponderende voorspelling zo klein mogelijk is
- de regressieanalyse is een methode om de lijn te vinden waarbij de (gekwadrateerde) afwijkingen geminimaliseerd owrden.
De uitkomst zijn 2 getallen die de lijn beschrijven; de regressie coëfficiënten (bèta’s)
Het 1e getal uit de regressieanalyse is simpelweg de voorspelling voor iemand die 0 scoort op de predictorvariabele, of wel een waarde van 0 op de x-as
Intercept
Extrapolatie
het berekenen van voorspellingen van een model voor waarden buiten het bereik van de data waarop dat model gebaseerd is
Interpolatie
het gebruik van een model om tussenliggende waarden te berekenen
Regressie Coëfficiënt (helling)
dit 2e regressiecoëfficiënt is de helling van de lijn. eze geeft de stijging of daling in de variabele op de y-as aan als de variabele op de x-as met 1 eenheid toeneemt
criterium
Afhankelijke variabele
Covariaat (regressiecontext)
onafhankelijke variabele (vanuit dit gegeven wil ik voorspellen)
Een dichotome voorspelle kan maar 2 waarden aannemen
om deze als intervalvariabele mee te nemen in de regressieanlayse, moeten beide waarden een getal hebben.
- het representeren van de meetwaarden van een categorische variabele met getallen heet “Dummycoderen”
- Bij een dichtome voorspeller is de regressie coefficient van de helling het verschil tussen gemiddelden in de 2 groepen
- als we het verschil tussen de gemiddelden delen door de bijbehorende standaardfout krijgen we een t-waarde en hiermee kunnen we een p-waarde berekenen
Enkelvoudige regressieanalyse is een uitbreiding van bivariate correlaties naar een voorspellingsmodel
Correlatie Coëfficiënten zijn effectgroottes die gekwadrateerd kunnen worden om een schatting te krijgen van de populatie verklaarde variantie (R2) (dwz hoeveel variabelen overlappen)
Regressieanalyse produceert een regressie vergelijking: een model waarmee -gegeven een waarde op de ene variabele - de waarde op een andere variabele voorspeld kan worden.
Anders dan een correlatieanalyse is regressie analyse asymmetrisch; omdat de waarde van de ene variabele voorspeld wordt met de andere, maakt de schaalverdeling van elke variabele uit.
De proportie verklaarde variantie, ofwel R2 is bij enkelvoudige regressie analyse gelijk aan het kwadraat van de correlatie tussen de 2 variabelen in het regressiemodel
R2 = r2
Voor beschrijvingsmaten (mediaan, variantie en spitsheid van een verdeling) zijn de getallen die in een willekeurige steekproef worden gevonden
per definitie afkomstig uit een zogenaamde steekproevenverdeling die alle mogelijke waarden voor een maat bevat. Hetzelfde geldt voor correlaties.
De steekrpoevenverdeling van B0 en B1 = de T-verdeling
T-Verdeling is variatie op Z-verdeling
T-verdeling wordt niet opgesteld voor een gegeven steekproefomvang, maar voor een gegeven aantal vrijheidsgraden (Df).
Bij de berekening van de variantie (Mean Squares MS) wordt de variatie (Sum of Squares SS) gedeeld door het aantal vrijheidsgraden van die variatie
- op die zelfde manier heeft een regressiecoeefficient vrijheidsgraden en die zijn gelijk aan het aantal deelnemers in de steekproef min het totale aantal regressiecoefficienten.
Z-Verdeling (breedte van de normaalverdeling)
Wordt bepaald door standaarddeviatie
_ Z-waarde van 1 correspondeert met een afwijking van 1 stndaarddeviatie vanuit het midden van de verdeling
- Z-waarde = T-waarde met standaardfout
anders dan de steekproevenverdeling van Pearson’s R is de T-verdeling de steekproevenverdeling van regressiecoefficienten, Symmetrisch
dit betekent dat het betrouwbaarheidsinterval van een regressiecoefficient eenvoudig berekend kan worden als de bijbbehorende standaardfout bekend is.