Correlationeel onderzoek Flashcards
Onderzoeksvragen correlationeel bestaat uit (3)
Population
Association (verwachte relatie)
Constructs (theoretische begrippen)
Voorwaarden causaliteit (3)
I. covariance: er moet een relatie zijn tussen de oorzaak en het gevolg
Ii. temporal precedence: de oorzaak moet in de tijd voorafgaan aan het gevolg.
Iii. internal validity: alternatieve verklaringen voor de gevonden relatie moeten zijn uitgesloten. Bij aantal ijsjes per dagen en mensen die verdrinken, 1 niet door het ander maar door verklaring van warm weer en meer zwemmen en ijsjes eten.
Operationalisatieproces (4)
Theoretisch concrept > conceptuele definitie > operationele definitie > variabele.
Types meetniveau (4)
Nominaal meetniveau: categorieën
Ordinaal meetniveau: volgorde (getallen hebben betekenis)
Interval meetniveau: volgorde (getallen hebben betekenis) maar afstanden gelijk, bijv IQ niveau
Ratio meetniveau: volgorde, afstanden gelijk maar absoluut nulpunt.
Types validiteit (4)
Begripsvaliditeit (meten we inhoudelijk wat we willen weten)
Interne validiteit (kunnen we een goed antwoord geven?)
Externe validiteit (over welke populatie kunnen we conclusie trekken op basis van steekproef?)
Statistische validiteit (is de data betrouwbaar?)
Begripsvaliditeit
Begripsvaliditeit (meten we inhoudelijk wat we willen weten)
Interne validiteit
Interne validiteit (kunnen we een goed antwoord geven?)
Externe validiteit
Externe validiteit (over welke populatie kunnen we conclusie trekken op basis van steekproef?)
Statistische validiteit
Statistische validiteit (is de data betrouwbaar?)
Types begripsvaliditeit (5)
Inhoudsvaliditeit (content validity): meten we alle ascpeten
Indruksvaliditeit (face validity): vinden de experts de vragenlijst compleet
Convergente validiteit: komen de metingen van dit meetinstrument overeen met een ander meetinstrument
Discriminante (/divergente) validiteit: hangen de metingen niet samen met andere kenmerken? Woede en agressie zijn anders, dan wil je niet dat onderzoek hetzelfde over deze vind.
Criterium validiteit: hangen de metingen samen met gedragsmatige uitkomsten waarvan we weten dat er een verband hoort te zijn?
Inhoudsvaliditeit en indruksvaliditeit (begripsvalideiten)
Inhoudsvaliditeit (content validity): meten we alle ascpeten
Indruksvaliditeit (face validity): vinden de experts de vragenlijst compleet
Convergente validiteit
Convergente validiteit: komen de metingen van dit meetinstrument overeen met een ander meetinstrument
Discriminante validiteit
Discriminante (/divergente) validiteit: hangen de metingen niet samen met andere kenmerken? Woede en agressie zijn anders, dan wil je niet dat onderzoek hetzelfde over deze vind.
Criterium validiteit
Criterium validiteit: hangen de metingen samen met gedragsmatige uitkomsten waarvan we weten dat er een verband hoort te zijn?
Validiteit vs betrouwbaarheid (3)
Validiteit: passend
-Test hertest betrouwbaarheid
-Intrabeoordeelaars betrouwbaarheid
-Interne betrouwbaarheid (geven respondenten soortgelijke antwoorden op verschillende vragen over hetzelfde theoretisch begrip). Wordt gemeten door Cronbach’s alfa.
Types bias (6)
Acquiescence: de neiging van mensen om het met een statement eens te zijn/”ja-knikken”
Fence Sitting is het vermijden van extreme antwoorden.
Straightlining is het idee dat respondenten de neiging kunnen ontwikkelen om hetzelfde antwoord op alle vragen te geven.
Sociale wenselijkheid: Respondenten willen over het algemeen antwoorden geven die sociaal wenselijk en geaccepteerd zijn.
Primacy effect: vaker te kiezen voor de categorieën bovenaan de lijst vergeleken met onderaan de lijst (vragenlijst)
Recency effects: vaker te kiezen voor de categorieën onderaan de lijst vergeleken met bovenaan de lijst (telefonisch, kan nog herinneren)
The response process (4)
Comprehension: Ik heb een fles gedronken? Pure alcohol of alcoholhoudende drank?
Retrieval: hoe veel was het ook alweer
Judgement: wat is zinvolle informatie?
Response: wil ik wel dit antwoord delen?
Types vragen (5)
Leidende vraag: sturende vraag waardoor retrieval en judgement aangepast worden.
Double-barreled question: dubbele vraag in 1
Ordering effects: volgorde van vragen kunnen de antwoorden beïnvloeden.
Telescoping effects: probleem met retrieval en judgement. Je kan niet altijd een vraag over afgelopen maand uitvergroten.
Sensitive questions: delen van gevoelige informatie
Letters in statistiek
N de steekproefgrootte
M het gemiddelde
s de standaarddeviatie
s squared is variantie
ρ (rho) pearson’s in populatie
r de pearson’s in steekproef
rs spearman’s correlatie coefficient
t is toetswaarde voor t-toets
F toetswaarde voor ANOVA
p is p-waarde, voor significantie
μ (mu) is populatie gemiddelde
σ (sigma) populatie standaard deviatie
Centrummaten (3)
Modus: de waarde die het vaakst voorkomt.
Mediaan: de middelste waarde als je de dataset van kleinste naar grootste waarde rangschikt.
Gemiddelde: de som van alle waarden, gedeeld door het totale aantal waarden.
Spreidingsmaten (3)
Standaarddeviatie (s, standard deviation): de gemiddelde afstand tussen iedere waarde in de dataset en het gemiddelde.
Variantie (variance σ (sigma) squared): de standaarddeviatie in het kwadraat.
Kwartielen (quartiles): Q1/Q2/Q3 na elke 25% van data.
Welke correlatiecoefficienten hebben we? (2)
Pearons correlatie: lineaire samenhang (en interval meetniveau)
> heb je die niet, dan gebruik je spearman.
Spearman: ook niet-lineaire samenhang, maar samenhang moet wel monotoom stijgend
of dalend zijn + twee variabelen van ordinaal niveau
Stappen in Null Hypothesis Significance Testing (5)
Stap 1 Toetskeuze, hypotheses bepalen en significantieniveau kiezen
Stap 2 Assumpties controleren
Stap 3 Toetsingsgrootheid en p-waarde bepalen
Stap 4 Conclusie trekken over H0
Stap 5 Inhoudelijke conclusie en effectgrootte bepalen
Stap 1 toetskeuze/hypothese/significantie
Toetswaarde van Pearson of Spearman?
Dan moest je kijken naar:
→ Meetniveau
→ Lineair
Steekproevenverdeling
Steekproevenverdeling (een verdeling van alle mogelijke steekproeven uit een populatie).
Steekproeffout
Als de correlatie in de steekproef niet exact
gelijk is aan de correlatie in de populatie. Het verschil tussen deze twee correlatiecoëfficiënten heet de steekproeffout.
Standaardfout
De spreiding van de correlatie in de steekprovenverdeling noemen we de standaardfout.
Standaardschattingsfout
Standaardschattingsfout is de gemiddelde schattingsfout tussen het werkelijke score en voorspelde score in standaarddeviatie (s).
Stap 2: assumpties NHST
Correlatie van pearson: er moet een meetniveau van interval of ratio zijn, het moet lineair zijn en geen invloedrijke uitschieters zijn (hiervoor geen richtlijn).
Lineaire samenhang tussen predictor en afhankelijke variabele (via scatterplot om te kijken of een lineaire lijn het meest passend is voor de data.
Geen uitschieters (die teveel invloed hebben)
Predictoren en afhankelijke variabele van minimaal interval meetniveau
De predictoren mogen onderling niet teveel samenhangen (multicollineariteit als onderlinge samenhang > 0.90)
Spreiding van residuen per x-waarde gelijk (homoscedasticiteit of homogeniteit van varianties)
Stap 3?
Toetsingsgrootheid en p-waarde bepalen
Stap 4: Conclusie H0
Als de p-waarde groter is dan α, vinden we H0 het meest waarschijnlijk
Stap 5: Conclusie en effectgrootte bij correlationeel onderzoek
r = .10 > klein effect
r = .30 > medium effect
r = .50 > groot effect
is anders voor r^2, verklaarde variantie, (0.01, 0.09, 0.25)
Enkelvoudige regressie
samenhang beschrijven tussen twee interval/ratio variabelen met een rechte lijn
Y (beschrijving) = b0 (intercept) + b1 (richtingscoefficient) x variabele + error
Assumpties regressiemodel
- Lineaire samenhang tussen predictor en afhankelijke variabele (via scatterplot om te kijken of een lineaire lijn het meest passend is voor de data.
- Geen uitschieters, die te veel invloed hebben op richtingscoefficient.
- Predictoren en afhankelijke variabele van minimaal interval meetniveau.
- Predictoren mogen niet te veel samenhangen bij multipele regressie (multicolineariteit)
- Spreiding van residuen moet per x-waarde gelijk zijn (homoscedasticiteit is vierhoek op scatterplot, heteroscedasticiteit is driehoek).
Dummyvariabele
Een variabele met 2 categorieen met de codering 0 en 1 (bijv man en vrouw). Een dichotome variabele, twee variabelen. (kan bij enkelvoudige en multipele regressie).
Inferentie
Veel onderzoekers willen hun conclusies kunnen generaliseren naar meer mensen, dit noemen we inferentie.
Types aselecte steekproeven (5)
Enkelvoudige aselecte steekproef
Gestratifieerde aselecte steekproef
Systematische steekproef
Cluster steekproef
Getrapte steekproef (multistage sample)
Types aselecte steekproeven: Enkelvoudige aselecte steekproef
Lijst met elementen in populatie
Random elementen selecteren
Types aselecte steekproeven: Gestratifieerde aselecte steekproef
Populatie opdelen in subpopulaties
Lijst met elementen binnen subpopulaties
Random elementen selecteren uit subpopulaties
(inzetten bij vergelijken subpopulaties, zoals de meningen van mannen, vrouwen, en non binary, los van de verhouding van deze genders)
Types aselecte steekproeven: systematische steekproef
Lijst met elementen in populatie (gebruiken als volgorde van invloed kan zijn, dus bijvoorbeeld als je de straatverlichting wilt evalueren, dan doe je niet alleen de eerste 20 huizen maar het liefst om de 5 bijvoorbeeld)
Random startpunt selecteren, daarna selecteren met vast interval (dus bijvoorbeeld elke 10 uitkiezen, of elke 3).
Types aselecte steekproeven: cluster steekproef
Lijst uit populatie bestaat uit clusters (dus als je middelbare scholieren wil heb je daar geen lijst van, maar er bestaat wel een lijst van alle middelbare scholen)
Types aselecte steekproeven: getrapte steekproef (multistage sample)
Lijst uit populatie bestaat uit clusters
Selecteer eerst clusters; daarna steekproef binnen clusters
Verdeling in steekproef per stratum (2)
populatieverhouding: De steekproef wordt in dezelfde verhouding als de populatie getrokken.
oversampling: opzettelijke bepaalde deelpopulatie(s) vaker voor laten komen in de steekproef, omdat deze anders bijvoorbeeld niet of nauwelijks in de steekproef voor zouden komen.
TSE Framework fout: dekkingsfout
Onvoldoende dekking populatie. Als de mensen die niet op de lijst staan een specifieke groep vormen. Bijvoorbeeld bij de mening vragen over daklozen bij een lijst van burgers.
TSE Framework fout: steekproeffout
Steekproef resultaten zijn niet gelijk aan populatie resultaten.
TSE Framework fout: non responsfout
Niet iedereen geeft gehoor aan een verzoek om mee te doen aan onderzoek. Iedereen is unit nonrespons. Item nonrespons als mensen bepaalde antwoorden niet geven.
TSE Framework fout: adjustment error
Aanpassingen die je doet na afname van de vragenlijst om te corrigeren voor dekkingsfout. Niet beantwoorde vragen invullen (oftewel imputatie). Goedbedoelde correcties.
TSE Framework fout: measurement error
Subjectiviteit. Bijvoorbeeld bij het meten van persoonlijkheid, is dit wil met een gestandaardiseerde vragenlijst te meten? Meten we dit met de juiste instrumenten? Kunnen mensen zich de feiten herinneren van vragen over vroeger?
TSE Framework fout: processing error
Interpretatie van de antwoorden door de onderzoeker. “Hoe sportief ben je?” Gaat dat om hoe vaak je sport of om hoe schappelijk je bent als je verliest?
Betrouwbaarheid’s analyse (BI/CI) met Cronbach’s alfa
Analyse is de methode. Cronbach’s alfa is de statistische maat die we gebruiken om de interne consistentie te meten.
Item verwijderen uit vragenlijst? (3)
Inhoudelijk: past dit in de context?
Item-rest correlatie (corrected item-total correlation). Dit is de correlatie tussen dit item en het totaal van overige items. Is de correlatie hoog, dan past hij er bij en moet hij blijven staan.
Cronbach’s alpha if item deleted. Gaat cronbach’s alpha omhoog, dan mag hij weg. Gaat de betrouwbaarheid naar beneden als hij verwijderd wordt, dan mag hij blijven. Want anders wordt de vragenlijst minder betrouwbaar bij een lager cronbach’s alpha.