Hoorcollege 5B: Correlatie en regressie Flashcards

Question 1

Q

Wat is correlatie?

2. Wanneer gebruik je een correlatiecoëfficiëntie?

Answer

A

Correlatie: bivariate analyse met een symmetrische relatie tussen twee numerieke variabelen.
Je gebruikt een correlatiecoëfficiëntie als:
- Je wil weten in hoeverre twee variabelen zich tot elkaar verhouden/met elkaar samenhangen.
- Aan wil geven of een variabele op een voorspelde manier verandert wanneer de andere variabele verandert.
- onderzoekt of, als de ene variabele toeneemt, de andere variabele ook toeneemt, of juist daalt of hetzelfde blijft.
- Meest gebruikt is het pearsoncorrelatie (r): de mate van samenhang tussen twee numerieke variabelen.

Question 2

Q

Wanneer is de associatiemaat spearman’s rho geschikt?

correlatiecoëfficiëntie

Answer

A

a) Wanneer er sprake is van een kromlijnig verband tussen twee numerieke waarden. Daarom start je eerst een spreidingsdiagram om te kijken of de hij recht of kromlijnig is.
b) Bij symmetrische relaties tussen numerieke variabelen.
c) Geschikt voor variabelen als een rangorde specifiek centraal staat, bijv. bij extreme waarden, zoals 85 jaar oud, dan is een gemiddelde niet goed om toe te passen, want dan haalt die ene extreme waarde de andere waarden heel erg naar boven. Als je rangorde toepast, haal je de extreme waarden eruit, maar dan heb je wel een ordinale maat ervan gemaakt.

Question 3

Q

Wanneer gebruik je een pearson correlatie (r)?
Welke toetsgrootheid (in spss) neem je voor r?
Wat kan je zeggen over de correlatie in spreidingsdiagrammen?

Answer

A

Pearson correlatie (verband, r=0,34, dus redelijk verband):
a) gebruiken als er GEEN kromlijnig verband aanwezig is, dus wel een rechtlijnig verband.
b) symmetrische relatie.
c) varieert tussen -1 en 1.
d) associatiemaat op interval- en rationiveau.
e) startpunt: spreidingsdiagram (om te kijken of het recht of kromlijnig is, kromlijnig? anders spearmans rho).
Je neemt de toetsgrootheid ‘t’. Omdat je kijkt naar het verband tussen twee numerieke waarden. De t-toets is bij interval en ratio variabelen: gemiddelden).
Correlatie
Hoe minder de spreiding, hoe hoger de samenhang. Dichtbij elkaar de puntjes, hoe sterker het verband, hoe meer mensen hetzelfde antwoord geven.

Question 4

Q

Wat is de ‘proportie verklaarde variantie (R2)’?
Wat houdt het in dat een regressieanalyse een voorspelling geeft?
Wanneer doe je een regressie?
Wanneer gebruik je regressieanalyse?

Answer

A

R2= kwadraat van r (pearson correlatie). Definitie= de mate waarin de variantie (verschillen) in de afhankelijke variabele verklaard kunnen worden door de variantie (verschillen) in de onafhankelijke variabele.
Regressieanalyse geeft een voorspelling van de mate waarin de afhankelijke variabele (y) verandert als gevolg van variatie/verschil in de onafhankelijke variabele (x, bv. aantal uur leren kan verschillen/variëren op het cijfer (y)). Dus kun je aan de hand van X een voorspelling doen voor Y?
Bv: de variantie in het cijfer (y) wordt voor 64% verklaard door de variantie in het aantal keer oefenen (x). Kan ook: De variantie in aantal keer oefenen verklaard voor 64% de variantie in het cijfer.
Wanneer regressie?
- een voorspelling doen over de afhankelijke variabele (y), wanneer je de waarde van de onafhankelijke variabele (x) invult.
- regressieanalyse gaat over het effect van X op Y.
»> Bv. kunnen we voorspellen wat iemands cijfer is (y) als we weten dat diegene drie uur per week studeert (x=3).
- De onafhankelijke en afhankelijke variabelen zijn allebei numeriek (interval of ratio).
- Altijd asymmetrisch
- Geen kromlijnig verband tussen de variabelen.

Question 5

Q

(Er zit echt een verschil tussen regressiemodel en regressielijn, ook in het rapporteren!)

Toetsen op regressielijn: welke onderdelen horen hierbij? (in spss: onder kopje: coefficients).
Welke toetsgrootheid kies je bij regressieanalyse?
Wat moet je allemaal formuleren bij het regressiemodel (ANOVA)?

> > > Niet signifcant? F-waarde opschrijven, maar niet verder met analyseren.

Answer

A

Regressielijn= die trekt een lijn door die puntenwolk van een spreidingsdiagram. Zodat elke waarneming zo goed mogelijk wordt geschat. Alle puntjes op de lijn: heb je een perfecte voorspelling. Lijn: y ^= a+ b(x).

a= Constante of intercept,, is het snijpunt met de y-as als x 0 is. Bv. Als iemand 0 jaar oud is, kijkt hij 5,67 uur per week TV.
b= ongestandaardiseerde coefficient: hellingshoek, de mate van de lijn (y^) of het stijgt of daalt bij toename van x. Bv. b: -1,23, als iemand naar de kroeg gaat, daalt het aantal televisiekijken met 1,23.
Beta: b*= gestandaardiseerde coefficient (zuivere effect): geeft het sterkte en richting van verband aan (in tegenstelling tot r).
Betrouwbaarheidsinterval = Met 95% zekerheid ligt de ongestandaardiseerde regressiecoëfficiënt in de populatie tussen de 11,1999 en 26.524 aankopen
t-toets: Onder ‘t’ zie je de significantie, wel kijken bij b en niet a, dus onderste kolom. En significantie weer noemen, p.

De F-toets:
F-toetsen gebruiken we voor toetsen om variantie te toetsen. We toetsen dan ook: de proportie verklaarde variantie.
Toets in de populatie > ANOVA: Kijken of het significant is of niet.
VOORBEELD»> F(1 (=df onder regression) ,199 (=nog een df, is het totaal df)) = F-waarde: 23,56, p < 0,001 (onder Sig.). R2= 0,11 > 11%. Dus de variantie in de aantrekkelijkheid van het merk verklaart voor 11% de variantie in het aantal verkopen. r=0,33, er is een redelijk verband.

Brainscape's Knowledge GenomeTM

Hoorcollege 5B: Correlatie en regressie Flashcards

Brainscape's Knowledge Genome^TM