Extra begrippen samenvatting Thema 5 en 6 Flashcards
Regressieanalyse
Regressieanalyse is een instrument voor onderzoekers waarmee op basis van de waarde op de ene variabele, een voorspelde waarde op de andere variabele berekend kan worden. Bovendien geeft regressieanalyse een indruk hoe accuraat die voorspelling zal zijn.
Correlatie versus regressie
Correlaties drukken het verband tussen twee variabelen kwantitatief uit, onder een aantal aannemen. Regressie zet de volgende stap. Regressieanalyse is een instrument waarmee op basis van de waarde op de ene variabele, de afhankelijke variabele voorspelt kan worden.
Regressielijn
Regressielijnen zijn het product van de regressieanalyse. Dit is de lijn die in een scatterplot getrokken wordt waarbij de lijn gemiddeld voor alle punten het dichtst in de buurt ligt van de daadwerkelijk geobserveerde waarden. Een minder steile lijn betekent een minder sterk verband.
Twee vragen bij regressieanalyse
Bij regressieanalyse worden twee vragen gesteld:
• Hoe vinden we de beste lijn in een willekeurige puntenwolk?
• Hoe goed past deze lijn bij de data?
Extrapolatie
Het berekenen van voorspellingen van een model voor waarden buiten het bereik van de data. Dit kan door simpelweg de regressielijn door te trekken.
Interpolatie
Het gebruik van een model om tussenliggende waarden te berekenen.
Helling
De tweede regressiecoëfficiënt is de helling van de lijn en wordt aangeduid met β1. Deze regressiecoëfficiënt geeft de stijging (of daling) in de variabele op de y-as aan als de variabele op de x-as met 1 eenheid toeneemt, berekend vanaf x=0. Het verschil hiertussen is de hellingscoëfficiënt.
Intercept
Als je gebruik maakt van extrapolatie trek je de lijn door tot je op een waarde van 0 op de x-as komt. De twee waarden die dan ontstaan worden de intercepten genoemd. Dit is de eerste regressiecoëfficiënt in het regressiemodel en wordt aangeduid met β (beta)
Regressieanalyse is asymmetrisch omdat
De waarde van de ene variabele wordt voorspeld met de waarde van de andere variabele. Daarom maakt de schaalverdeling van elke variabele uit. Het is belangrijk onderscheid te maken tussen de variabele waarmee wordt voorspeld, de predictor (onafhankelijke variabele = x) en de variabele die voorspeld wordt, het criterium (afhankelijke variabele = y)
Proportie verklaarde variantie
onderzoekers willen weten hoeveel van de afhankelijke variabele (y) ze nu eigenlijk begrijpen. De R2 zegt iets over de proportie variantie in y. Eigenlijk geeft R2 daarmee een indicatie van hoe goed de voorspelling is die met de regressie coëfficiënten is gegeven. R2
kan waarden aannemen van 0-1. Als alle punten exact
op een rechte lijnen liggen is y perfect te voorspellen uit x. R2 zal dan gelijk zijn aan 1 (=100%). De R2, is bij enkelvoudige regressieanalyse gelijk aan het kwadraat van de correlatie tussen de twee variabelen in het regressiemodel.
T-verdeling
De T-verdeling is de steekproevenverdeling voor de regressiecoëfficiënten. De Tverdeling lijkt erg op de Z-verdeling met een aanpassing voor kleine steekproeven met weinig deelnemers. De T-verdeling wordt niet opgesteld door een gegeven steekproefomvang, maar door een gegeven aantal vrijheidsgraden. (Df) De vrijheidsgraden voor de regressiecoëfficiënt is gelijk aan het aantal deelnemers in de steekproef min het totale aantal regressiecoëfficiënten =2 want je hebt twee regressiecoëfficiënten. De T-verdeling wijkt alleen voor kleine steekproeven af, voor grotere benadert het al snel de Z-verdeling.
Verschil z-verdeling en t-verdeling
De Z-verdeling is opgesteld m.b.v. een gegeven steekproefomvang.
• De T-verdeling is opgesteld aan de hand van een aantal vrijheidsgraden.
• De breedte van de normaalverdeling (Z-verdeling), wordt bepaald door de standaarddeviatie.
• De breedte van de T-verdeling wordt bepaald door de standaardfout van de regressiecoëfficiënt.
BI van regressie coëfficiënt.
De T-verdeling is symmetrisch en dus kan de BI van de RC gemakkelijk berekend worden met dezelfde formule.
De steekproefwaarde is de puntschatting voor de RC uit onze steekproef. De Breedteindex is afkomstig uit de T-verdeling en is iets hoger dan de 1,96 die bij de Z-verdeling wordt aangehouden. De standaardfout kan met Jamovi worden berekend. Hoe groter de steekproef is, hoe kleiner de standaardfout. Dit betekent dat de betrouwbaarheidsintervallen smaller worden en de regressiecoëfficiënten dus accuraten geschat kunnen worden.
Residu
Het verschil tussen de voorspelde waarde en de geobserveerde scores.
Ruwe regressiecoëfficiënt
De intercept en de helling berekend n.a.v. de ruwe data. De waarde van de ruwe hellingscoëfficiënt is afhankelijk van de schaalverdelingen van de voorspeller en de afhankelijke variabele.
Gestandaardiseerde regressiecoëfficiënt
deze zijn handig voor de vergelijking van modellen waarbij niet alle predictoren op dezelfde schaal gemeten zijn. Deze standaardisatie maakt de schaalverdeling van alle variabelen aan elkaar gelijk. Elke gestandaardiseerde variabele heeft een gemiddelde van 0 en een standaarddeviatie van 1.
aannames enkelvoudige regressie analyse
De eerste vier aannames zijn ‘harde’ aannames. Als zij worden geschonden is het regressiemodel het verkeerde model en neemt de zuiverheid van de schattingen van de RC en de R2 af. Nummer vijf is een ‘zachte’ aanname. Als deze wordt geschonden neemt de accuraatheid van de schattingen van de RC en de R2 af. Er zijn dan meer datapunten nodig maar er wordt geen bias geïntroduceerd.
- Beide variabelen moeten een continu meetniveau hebben.
- Het verband tussen de twee variabelen moet lineair zijn
- Alle observaties moeten onafhankelijk zijn. Dit betekent dat de onderzoekseenheden onafhankelijk moeten zijn en dus niets met elkaar gemeen hebben.
- Voor elke waarde van de voorspeller moet de afhankelijke variabele normaal zijn verdeeld.
- Homoscedasticiteit: Dit betekent homogeniteit (gelijkheid) van varianties, en representeert de aanname dat de variantie in de afhankelijke variabele gelijk is voor elke waarde van de onafhankelijke variabele
Dummycoderen
Het representeren van de meetwaarden van een categorische variabele met getallen.
Dichotome voorspellers
Als bij dichotome voorspellers de categorische variabelen worden aangeduid met getallen dan wordt dit voor de ene x= 0 en de andere x=1.Bij een dichotome voorspeller is de regressiecoëfficiënt van de helling het verschil tussen de gemiddelden in de twee groepen.
Verschil tussen twee gemiddelden
Het verband tussen een dichotome variabele en een continue variabele kan gezien worden als het verschil tussen twee gemiddelden. Als het gemiddelde van de ene groep hoger is dan het gemiddelde van de andere groep, kunnen we iemand score op de afhankelijke variabele beter voorspellen als we weten tot welke groep iemand behoort, dan wanneer we dat niet weten. De steekproevenverdeling van het verschil tussen gemiddelde is verdeeld volgens de T-verdeling.
De BI van het verschil tussen twee gemiddelden
De T-verdeling kan gebruikt worden om het BI voor het verschil tussen gemiddelden op te stellen. Deze kan berekend worden met de standaardformule waarbij het verschil in gemiddelde de steekproefwaarde is. De breedte-index komt uit de t- verdeling en heet de kritieke t-waarde. Deze kritieke t-waarde kan in een tabel worden opgezocht.
Kritieke t-waarde opzoeken
Om de kritieke T-waarde te kunnen opzoeken moeten we in een tabel kijken. Hiervoor is het nodig om te bepalen volgens welke T-verdeling het verschil tussen gemiddelden verdeeld is en daarvoor moeten we de weten hoeveel vrijheidsgraden er zijn. Het aantal vrijheidsgraden voor de T-verdeling is de steekproefomvang -2. De kritieke T-waarden verschillen tot waardes van 100 vrijheidsgraden. Daarboven is de kritieke T-waarde gelijk aan 1,96 en is dat het getal van de breedte-index voor de formule van het betrouwbaarheidsinterval. Bij een steekproef groter dan 102 is de breedte-index dus altijd 1.96.
Voor- en nadelen van het verschil tussen twee gemiddelden
Het verschil tussen gemiddelden is afhankelijk van de schaal waarop de continue variabelen wordt gemeten. Het wordt uitgedrukt in een concrete eenheid wat maakt dat het voor mensen vrij gemakkelijk te interpreteren is. Een nadeel is dat moeilijk te bepalen is hoe relevant het verschil is. Daarnaast kunnen studies niet vergeleken worden als de schaal verschilt. De maat voor het verschil tussen gemiddelden die onafhankelijk is van de schaal van continue variabelen is de Cohen’s D.
Cohen’s D
Cohen’s d is het verschil tussen twee groepen, gecorrigeerd voor de SD. Cohen’s d wordt berekend met een formule. In deze formule wordt Y gebruikt omdat Y de afhankelijke variabele aanduidt. Een Cohen’s d van 0.50 betekent dat de twee gemiddelde een halve SD uit elkaar liggen, een Cohen’s d van 0.80 betekent dat ze acht tiende SD uit elkaar liggen.