Extra begrippen samenvatting Thema 5 en 6 Flashcards

1
Q

Regressieanalyse

A

Regressieanalyse is een instrument voor onderzoekers waarmee op basis van de waarde op de ene variabele, een voorspelde waarde op de andere variabele berekend kan worden. Bovendien geeft regressieanalyse een indruk hoe accuraat die voorspelling zal zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Correlatie versus regressie

A

Correlaties drukken het verband tussen twee variabelen kwantitatief uit, onder een aantal aannemen. Regressie zet de volgende stap. Regressieanalyse is een instrument waarmee op basis van de waarde op de ene variabele, de afhankelijke variabele voorspelt kan worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Regressielijn

A

Regressielijnen zijn het product van de regressieanalyse. Dit is de lijn die in een scatterplot getrokken wordt waarbij de lijn gemiddeld voor alle punten het dichtst in de buurt ligt van de daadwerkelijk geobserveerde waarden. Een minder steile lijn betekent een minder sterk verband.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Twee vragen bij regressieanalyse

A

Bij regressieanalyse worden twee vragen gesteld:
• Hoe vinden we de beste lijn in een willekeurige puntenwolk?
• Hoe goed past deze lijn bij de data?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Extrapolatie

A

Het berekenen van voorspellingen van een model voor waarden buiten het bereik van de data. Dit kan door simpelweg de regressielijn door te trekken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Interpolatie

A

Het gebruik van een model om tussenliggende waarden te berekenen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Helling

A

De tweede regressiecoëfficiënt is de helling van de lijn en wordt aangeduid met β1. Deze regressiecoëfficiënt geeft de stijging (of daling) in de variabele op de y-as aan als de variabele op de x-as met 1 eenheid toeneemt, berekend vanaf x=0. Het verschil hiertussen is de hellingscoëfficiënt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Intercept

A

Als je gebruik maakt van extrapolatie trek je de lijn door tot je op een waarde van 0 op de x-as komt. De twee waarden die dan ontstaan worden de intercepten genoemd. Dit is de eerste regressiecoëfficiënt in het regressiemodel en wordt aangeduid met β (beta)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Regressieanalyse is asymmetrisch omdat

A

De waarde van de ene variabele wordt voorspeld met de waarde van de andere variabele. Daarom maakt de schaalverdeling van elke variabele uit. Het is belangrijk onderscheid te maken tussen de variabele waarmee wordt voorspeld, de predictor (onafhankelijke variabele = x) en de variabele die voorspeld wordt, het criterium (afhankelijke variabele = y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Proportie verklaarde variantie

A

onderzoekers willen weten hoeveel van de afhankelijke variabele (y) ze nu eigenlijk begrijpen. De R2 zegt iets over de proportie variantie in y. Eigenlijk geeft R2 daarmee een indicatie van hoe goed de voorspelling is die met de regressie coëfficiënten is gegeven. R2
kan waarden aannemen van 0-1. Als alle punten exact
op een rechte lijnen liggen is y perfect te voorspellen uit x. R2 zal dan gelijk zijn aan 1 (=100%). De R2, is bij enkelvoudige regressieanalyse gelijk aan het kwadraat van de correlatie tussen de twee variabelen in het regressiemodel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

T-verdeling

A

De T-verdeling is de steekproevenverdeling voor de regressiecoëfficiënten. De Tverdeling lijkt erg op de Z-verdeling met een aanpassing voor kleine steekproeven met weinig deelnemers. De T-verdeling wordt niet opgesteld door een gegeven steekproefomvang, maar door een gegeven aantal vrijheidsgraden. (Df) De vrijheidsgraden voor de regressiecoëfficiënt is gelijk aan het aantal deelnemers in de steekproef min het totale aantal regressiecoëfficiënten =2 want je hebt twee regressiecoëfficiënten. De T-verdeling wijkt alleen voor kleine steekproeven af, voor grotere benadert het al snel de Z-verdeling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Verschil z-verdeling en t-verdeling

A

De Z-verdeling is opgesteld m.b.v. een gegeven steekproefomvang.
• De T-verdeling is opgesteld aan de hand van een aantal vrijheidsgraden.
• De breedte van de normaalverdeling (Z-verdeling), wordt bepaald door de standaarddeviatie.
• De breedte van de T-verdeling wordt bepaald door de standaardfout van de regressiecoëfficiënt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

BI van regressie coëfficiënt.

A

De T-verdeling is symmetrisch en dus kan de BI van de RC gemakkelijk berekend worden met dezelfde formule.
De steekproefwaarde is de puntschatting voor de RC uit onze steekproef. De Breedteindex is afkomstig uit de T-verdeling en is iets hoger dan de 1,96 die bij de Z-verdeling wordt aangehouden. De standaardfout kan met Jamovi worden berekend. Hoe groter de steekproef is, hoe kleiner de standaardfout. Dit betekent dat de betrouwbaarheidsintervallen smaller worden en de regressiecoëfficiënten dus accuraten geschat kunnen worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Residu

A

Het verschil tussen de voorspelde waarde en de geobserveerde scores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Ruwe regressiecoëfficiënt

A

De intercept en de helling berekend n.a.v. de ruwe data. De waarde van de ruwe hellingscoëfficiënt is afhankelijk van de schaalverdelingen van de voorspeller en de afhankelijke variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Gestandaardiseerde regressiecoëfficiënt

A

deze zijn handig voor de vergelijking van modellen waarbij niet alle predictoren op dezelfde schaal gemeten zijn. Deze standaardisatie maakt de schaalverdeling van alle variabelen aan elkaar gelijk. Elke gestandaardiseerde variabele heeft een gemiddelde van 0 en een standaarddeviatie van 1.

17
Q

aannames enkelvoudige regressie analyse

A

De eerste vier aannames zijn ‘harde’ aannames. Als zij worden geschonden is het regressiemodel het verkeerde model en neemt de zuiverheid van de schattingen van de RC en de R2 af. Nummer vijf is een ‘zachte’ aanname. Als deze wordt geschonden neemt de accuraatheid van de schattingen van de RC en de R2 af. Er zijn dan meer datapunten nodig maar er wordt geen bias geïntroduceerd.

  1. Beide variabelen moeten een continu meetniveau hebben.
  2. Het verband tussen de twee variabelen moet lineair zijn
  3. Alle observaties moeten onafhankelijk zijn. Dit betekent dat de onderzoekseenheden onafhankelijk moeten zijn en dus niets met elkaar gemeen hebben.
  4. Voor elke waarde van de voorspeller moet de afhankelijke variabele normaal zijn verdeeld.
  5. Homoscedasticiteit: Dit betekent homogeniteit (gelijkheid) van varianties, en representeert de aanname dat de variantie in de afhankelijke variabele gelijk is voor elke waarde van de onafhankelijke variabele
18
Q

Dummycoderen

A

Het representeren van de meetwaarden van een categorische variabele met getallen.

19
Q

Dichotome voorspellers

A

Als bij dichotome voorspellers de categorische variabelen worden aangeduid met getallen dan wordt dit voor de ene x= 0 en de andere x=1.Bij een dichotome voorspeller is de regressiecoëfficiënt van de helling het verschil tussen de gemiddelden in de twee groepen.

20
Q

Verschil tussen twee gemiddelden

A

Het verband tussen een dichotome variabele en een continue variabele kan gezien worden als het verschil tussen twee gemiddelden. Als het gemiddelde van de ene groep hoger is dan het gemiddelde van de andere groep, kunnen we iemand score op de afhankelijke variabele beter voorspellen als we weten tot welke groep iemand behoort, dan wanneer we dat niet weten. De steekproevenverdeling van het verschil tussen gemiddelde is verdeeld volgens de T-verdeling.

21
Q

De BI van het verschil tussen twee gemiddelden

A

De T-verdeling kan gebruikt worden om het BI voor het verschil tussen gemiddelden op te stellen. Deze kan berekend worden met de standaardformule waarbij het verschil in gemiddelde de steekproefwaarde is. De breedte-index komt uit de t- verdeling en heet de kritieke t-waarde. Deze kritieke t-waarde kan in een tabel worden opgezocht.

22
Q

Kritieke t-waarde opzoeken

A

Om de kritieke T-waarde te kunnen opzoeken moeten we in een tabel kijken. Hiervoor is het nodig om te bepalen volgens welke T-verdeling het verschil tussen gemiddelden verdeeld is en daarvoor moeten we de weten hoeveel vrijheidsgraden er zijn. Het aantal vrijheidsgraden voor de T-verdeling is de steekproefomvang -2. De kritieke T-waarden verschillen tot waardes van 100 vrijheidsgraden. Daarboven is de kritieke T-waarde gelijk aan 1,96 en is dat het getal van de breedte-index voor de formule van het betrouwbaarheidsinterval. Bij een steekproef groter dan 102 is de breedte-index dus altijd 1.96.

23
Q

Voor- en nadelen van het verschil tussen twee gemiddelden

A

Het verschil tussen gemiddelden is afhankelijk van de schaal waarop de continue variabelen wordt gemeten. Het wordt uitgedrukt in een concrete eenheid wat maakt dat het voor mensen vrij gemakkelijk te interpreteren is. Een nadeel is dat moeilijk te bepalen is hoe relevant het verschil is. Daarnaast kunnen studies niet vergeleken worden als de schaal verschilt. De maat voor het verschil tussen gemiddelden die onafhankelijk is van de schaal van continue variabelen is de Cohen’s D.

24
Q

Cohen’s D

A

Cohen’s d is het verschil tussen twee groepen, gecorrigeerd voor de SD. Cohen’s d wordt berekend met een formule. In deze formule wordt Y gebruikt omdat Y de afhankelijke variabele aanduidt. Een Cohen’s d van 0.50 betekent dat de twee gemiddelde een halve SD uit elkaar liggen, een Cohen’s d van 0.80 betekent dat ze acht tiende SD uit elkaar liggen.

25
Q

De BI van Cohen’s d

A

De BI van Cohen’s d wordt berekend binnen de software. Of het interval, en daarmee de Cohen’s d positief of negatief is, ligt er maar net aan of het gemiddelde van de tweede groep groter of kleiner is dan dat van de eerste groep. In sociaalwetenschappelijk onderzoek zijn de verschillen tussen groepen vaak subtiel. Hoe meer deelnemers, hoe smaller en accurater het BI.

26
Q

Interpreteren van Cohen’s d

A

In tegenstelling tot de correlatiecoëfficiënt kan de Cohen’s d in theorie oneindig klein of groot worden. De Cohen’s d wordt ook wel standardized mean difference (SMD) genoemd. Omdat de schaal van Cohen’s d onafhankelijk is, kunnen er voorzichtige richtlijnen worden gegeven over de sterkte van samenhang. In de praktijk worden zelden verbanden gevonden die sterker zijn dan Cohen’s d =1. Verbanden van rond de 0.2 zijn gangbaarder.

27
Q

Wat doet de SD met de Cohen’s d

A

Als de standaarddeviatie groter wordt, wordt de Cohen’s d en de t-waarde kleiner. De gevonden t-waarde wordt dus minder extreem wat de p-waarde weer verhoogd en dat maakt dat deze minder snel onder het significantieniveau zal liggen. Hoe hoger de
SD, hoe lager de power.

28
Q

De onafhankelijke t-toets

A

Met de onafhankelijke t-toets kan de p-waarde voor het verschil tussen twee gemiddelden worden berekend. De t komt uit de t-verdeling. Het woord ‘toets’ wordt gebruikt omdat binnen de NHST de p-waarde wordt gezien als een middel om de nulhypothese te ‘toetsen’. De t-toets bestaat uit twee stappen.

  1. De t-waarde wordt berekend.
  2. Met behulp van de t-verdeling wordt de bijbehorende p-waarde bepaald.

Bij de t-waarde geldt hetzelfde als bij de z-score: een t-waarde van -4 betekent dat de twee gemiddelden vier standaardfouten van elkaar af liggen.

29
Q

De power van de t-toets

A

Net als bij correlaties wordt bij t-toetsen gesproken over power. In een powertabel is af te lezen hoeveel deelnemers dat nodig is om een bepaalde power te behalen, in samenhang met de Cohen’s d. Als niet bekend is hoe sterk een verband is, wordt meestal uitgegaan van een middelsterk verband, Cohen’s d =0.5. Ook hier geldt: hoe meer p-waarden worden berekend, hoe groter de kans op type-1 fouten.
Het onderzoeken van het verband tussen een dichotome variabele en een continue variabele vereist veel meer deelnemers dan het onderzoeken van het verband tussen twee continue variabelen. Hoe lager het meetniveau van de variabelen, hoe lager de power.