Statistiek oefentoets Flashcards
Aselecte steekproef
Er worden random respondenten uitgenodigd vanuit een lijkt van elementen in de populatie.
Enkelvoudige aselecte steekproef
Lijst met elementen in de populatie
Random elementen selecteren
Gestratificeerde aselecte steekproef
Bij een gestratificeerde steekproef verdeel je de populatie in homogene subgroepen, of strata, op basis van relevante kenmerken voor je onderzoek (bijv. leeftijd, gewicht, inkomen et cetera). Vervolgens trek je uit elk stratum een steekproef.
Stel je bent geïnteresseerd in het meten van het gemiddelde inkomen van huishoudens in Amsterdam. Je weet dat er grote verschillen zijn in inkomen tussen verschillende delen van de stad.
Om een representatieve steekproef te verkrijgen, besluit je de stad op te delen in subgroepen op basis van de wijken, en vervolgens een steekproef te nemen uit elke wijk. De grootte van de steekproef kan worden bepaald op basis van het aantal huishoudens in elke wijk.
Systematische steekproef
- Random startpunt selecteren, daarna selecteren met vast interval
- Gebruiken als volgorde van invloed kan zijn.
(denk aan een straat, zo pak je van elk stukje van de straat een mening mee, bij enkelvoudige aselecte steekproef heb je misschien alles uit het begin van de straat)
Clustersteekproef
Wanneer de populatie wordt opgedeeld in clusters of groepen op basis van de geografische locatie en vervolgens willekeurig een aantal van deze clusters worden geselecteerd om als steekproef te dienen, spreekt men van een clustersteekproef. Je gebruikt een clustersteekproef doorgaans wanneer het niet praktisch of haalbaar is om individuen direct te selecteren uit de hele populatie, bijvoorbeeld wanneer de populatie te groot is of wanneer individuen verspreid zijn over een groot geografisch gebied.
Je bent geïnteresseerd in het meten van de prevalentie van diabetes onder de bevolking van een land. In plaats van alle individuen in het land te onderzoeken, besluit je een clustersteekproef te gebruiken
Je deelt het land op in geografische clusters, bijvoorbeeld steden of dorpen, en selecteert vervolgens willekeurig enkele van deze clusters om te onderzoeken. Binnen elke geselecteerde cluster worden dan alle individuen onderzocht.
Getrapte steekproef
Je doet onderzoek naar de arbeidsmarkt in een groot land en besluit een getrapte steekproef te doen. Je verdeelt de populatie eerst in regio’s, steden, wijken en straten.
In de eerste trap selecteer je willekeurig een aantal regio’s uit de populatie. In de tweede trap selecteer je willekeurig een aantal steden uit elke regio. Vervolgens selecteer je in de derde trap willekeurig een aantal wijken uit elke stad. In de vierde trap selecteer je willekeurig een aantal straten uit elke wijk.
Vervolgens worden de individuen die in de geselecteerde straten wonen, geselecteerd voor de steekproef en bevraagd door middel van een enquête of interviews.
In welke vorm van statistiek wil je een conclusie trekken over de hele populatie op basis van een steekproef?
inferentiele statistiek
Waar wordt dit symbool voor gebruikt?
σ
De standaarddeviatie in de populatie
Waar wordt dit symbool voor gebruikt?
M
steekproefgemiddelde
het symbool ‘s’ wordt gebruikt voor …
de steekproefstandaarddeviatie.
de modus is….
de waarde die het vaakst voorkomt
Wat is het verschil tussen correlatie en causatie?
Correlatie betekent dat er een statistisch verband is tussen variabelen.
Causaliteit betekent dat een verandering in de ene variabele een verandering in de andere variabele veroorzaakt.
‘r’ staat voor …
de correlatiecoëfficiënt
Een correlatiecoëfficiënt kan alleen worden uitgerekend op welke niveau’s?
Interval/ratio niveau
Het verschil tussen validiteit en betrouwbaarheid is:
Bij validiteit gaat het om het meten wat je beoogt te meten.
Bij betrouwbaarheid daarentegen gaat het om de vraag of je onderzoeksresultaten hetzelfde zouden zijn als je het onderzoek op dezelfde wijze nogmaals uitvoert.
De p-waarde is de kans dat je …
het geobserveerde resultaat (of een extremer resultaat) vindt, aangenomen dat de nulhypothese waar is
Worden griekse letters gebruikt bij de populatie of de steekproef?
populatie
μ = populatiegemiddelde
ρ = correlatie in de populatie
Noem de drie onderdelen van PAC
- Population = de groep mensen (dieren, objecten) waar we onderzoek naar willen doen.
- Association (verband/relatie) = de onderzoeker geeft aan welke relatie verwacht wordt. (plezier van eerste date neemt toe met meer contact via social media vooraf)
- Constructs = De kenmerken die de onderzoeker wilt weten en meten en waartussen een verband verwacht wordt (plezier van eerste date & hoeveelheid social media contact vooraf)
De conceptuele definitie
wat is verliefdheid? (wat bedoel je met het theoretische begrip)
De operationele definitie
Hoe ga je de conceptuele definitie meetbaar maken?
Variabelen
Vragen of stellingen waar respondenten concreet op kunnen antwoorden
Begripsvaliditeit
meten we inhoudelijk wat we willen meten?
Inhoudsvaliditeit (content validity)
meet het meetinstument alle aspecten van zelfbeeld?
Indruksvaliditeit (face validity)
Experts kijken naar de vragenlijst, hoe beoordelen ze deze?
Convergente validiteit
komen de metingen van beide meetinstrumenten overeen?
Discriminante validiteit
Hangen de metingen van dit meetinstrument niet samen met andere kenmerken?
Criterium validiteit
Hangen de metingen van dit meetinstrument samen met gedragsmatige uitkomsten waarvan we weten dat er een verband hoort te zijn?
Interne validiteit
kunnen we een ‘goed’ antwoord geven op de onderzoeksvraag
Externe validiteit
over welke populatie kunnen we op basis van onze steekproef conclusies trekken?
Statistische validiteit
zijn de conclusies uit de statische
analyse te vertrouwen?
Betrouwbaarheid
toevallige fouten, consistente antwoorden, hoe precies is de meting?
In het response proces zijn er 4 fasen van antwoorden dit zijn: comprehension, retrieval, judgement en response.
Wat gebeurd er bij deze 4 stappen?
Comprehension = De respondent moet de vraag begrijpen
Retrieval = de respondent gaat graven in zijn geheugen (nuttige/niet nuttige informatie)
Judgement = De respondent heeft voor zichzelf bedacht wat voor een antwoord hij wilt geven (de zinvolle informatie)
Response = Dit is het antwoord wat er uiteindelijk echt uitkomt. Sociale grenzen etc…
Wanneer gebruik je pearson en wanneer gebruik je spearman om een correlatiecoëfficiënt uit te rekenen?
- Pearson correlatie: lineaire samenhang (en interval meetniveau)
- Spearman correlatie: ook niet-lineaire samenhang, maar wel monotoon stijgend of dalend
Noem de 5 stappen van NHST
Stap 1: toetskeuze, hypothese bepalen, significantie niveau kiezen
Stap 2: assumpties controleren
Stap 3: toetsingsgrootheid en p-waarde bepalen
Stap 4: conclusie trekken over Ho
Stap 5: Inhoudelijke conclusie en effect Groote bepalen
Noem de assumpties bij het regressiemodel
- Lineaire samenhang tussen predictor en afhankelijke variabele
- Geen uitschieters (die teveel invloed hebben)
- Predictors en afhankelijke variabele hebben minimaal een interval meetniveau
- De predictoren mogen onderling niet teveel samenhangen (multi collinearity)
- Spreiding van residuen per x-waarde gelijk (homoscedasticity)
Multi collinearity
Predictoren mogen niet teveel samenhangen.
Dekkingsfout
Wanneer bepaalde personen niet terugkomen in de steekproef
Steekproeffout
De steekproef is niet gelijk aan de populatie
Non-responsfout
In een steekproef geeft niet altijd iedereen gehoor aan een verzoek om mee te doen aan onderzoek (unit-nonrespons, helemaal geen antwoord)
Mensen beantwoorden soms niet alle vragen (item-nonrespons, soms geen antwoord)
Adjustment error
Aanpassingen die je doet na afname van de vragenlijst
Je werkt aan oplossing van die ene fout maar krijgt daardoor ook een andere fout
Measurement error
meten we inhoudelijk wel wat we willen meten?
Begripsvaliditeit, stel je de goede vragen over het construct
Responsproces, kunnen respondenten goed antwoord geven op de vragen
Processing error
interpretatie van de antwoorden door de onderzoeker
Hoe sportief ben je? (ik sport vier keer per week of ik hou niet van verliezen)
Waarvoor wordt de Cronbach’s alfa gebruikt?
Om de betrouwbaarheid te meten.
De voorwaarden om causaliteit aan te tonen zijn:
Experimenteel onderzoek is erg geschikt om causale relaties aan te tonen.
- Corviance Er moet een relatie zijn tussen oorzaak en gevolg
- Temporal precedence De oorzaak moet in de tijd voorafgaan aan het gevolg.
- Internal validity Alternatieve verklaringen voor de gevonden relatie moeten zijn uitgesloten.
De beste manier om aan de drie voorwaarden te voldoen is een gerandomiseerd experiment.
Een onderzoeksvraag van een experimenteel onderzoek herken je aan PICO, wat is dit?
- population de groep mensen die de onderzoeker wilt onderzoeken
- intervention de variabelen die je manipuleert (onafhankelijke variabelen)
- comparison De niveaus van de gemanipuleerde variabele
- outcome gemeten variabelen
Type 1 fout
Nulhypothese verwerpen maar dit hadden we niet moeten doen (verworpen)
Type 2 fout
Nulhypothese niet verwerpen maar dit hadden we moeten doen (niet verworpen)
De kans op een type 1 fout is gelijk aan …
Het significantieniveau (alfa)
De power is de kans op …
de juiste beslissing
Wanneer het significantieniveau kleiner wordt dan zal de power groter/kleiner worden?
kleiner
Welke factoren zijn van invloed op power?
- In de populatie is er een verschil, wat is de kans dat we dit vinden in onze steekproef?
- Hoe groter het verschil in de populatie, hoe groter de kans dat H0 terecht verworpen wordt.
- Spreiding van de scores
- Significantieniveau (wanneer de alfa kleiner wordt dan de power ook)
de assumpties voor de t toets voor onafhankelijke groepen zijn:
- Aselecte steekproef
- Afhankelijke variabele van interval/ratio meetniveau
- Onafhankelijke waarnemingen / twee groepen zijn onafhankelijk
- Geen uitschieters
- Scores moeten in beide groepen normaal verdeeld zijn (histogram maken voor beide groepen) robuustheid: er is niet aan de voorwaarde voldaan, maar het zal geen invloed hebben op de t-toets. Dit gebeurt wanneer groepen groter zijn dan 30.
- Scores moeten in beide groepen gelijke spreiding hebben
Design confounds (bedreigingen voor de interne validiteit)
was de gemanipuleerde variabele (nep medicijn) wel het enige verschil tussen de twee groepen? (alternatieve verklaringen)
Maturation threat (bedreigingen voor de interne validiteit)
natuurlijke ontwikkeling, komt het door de training of ontwikkeling van kinderen?
History threat (bedreigingen voor de interne validiteit)
externe gebeurtenis beïnvloed scores
Regression of the mean (bedreigingen voor de interne validiteit)
groepen die extreem scoren, kunnen niet extremer scoren (kind dat extreem slecht scoort op rekenen, uiteindelijk haalt hij de volgende keer iets hoger) is dit toeval of betrouwbaar?
Observer bias (bedreigingen voor de interne validiteit)
onderzoeker wilt graag dat experiment werkt doe een blind of dubbel blind experiment, zo weet je niet wie uit de controle of experimentele groep komt.
Demand characteristics (bedreigingen voor de interne validiteit)
de participanten willen graag dat het experiment werkt. Ook hier werkt een blind of dubbel blind experiment.
Selectie-effect (bedreigingen voor de interne validiteit)
de groepen verschillen voordat het experiment begint
Testing threats (bedreigingen voor de interne validiteit)
Respondenten worden beter in het invullen van de vragenlijsten
Atrittion threats (bedreigingen voor de interne validiteit)
Respondenten vallen uit
Instrument threats (bedreigingen voor de interne validiteit)
Wanneer het meetinstrument van de afhankelijke variabele tijdens het experiment verandert
Noem het verschil tussen between subjects design en within subjects design (replicatie onderzoek)
Het verschil tussen experimentele groep en controle groep, dit noemen we between subjects design.
Als we het verschil tussen de voor en nameting analyseren noemen we within-subjects design.
Directe replicatie
onderzoek wordt exact herhaald.
Voordeel: goed vergelijkbaar
Nadeel: Problemen met interne validiteit bij origineel onderzoek nog steeds aanwezig.
Conceptuele replicatie
Aanpassingen zijn toegestaan
Voordeel: Mogelijkheid tot verbeteren
Nadeel: minder goed vergelijkbaar
Replicatie + uitbreiding
De replica maar dan meer toevoegen (extra meetmoment, meer controlegroepen)
Voordeel: mogelijk aanvullende vragen onderzoek
Nadeel: minder goed vergelijkbaar
Publication bias
onderzoek wordt alleen gepubliceerd als er een significant resultaat uit komt
Questionable Research Practices
voor onderzoekers is het van belang dat hun onderzoek gepubliceerd wordt, dus zij worden verleid om te focussen op het vinden van een significant resultaat op-waarde onjuist rapporteren
o Data verwijderen om p-waarde te beïnvloeden
o Significantieniveau aanpassen om te ‘zorgen voor’ een significant resultaat
o Extra data verzamelen om te zien of het resultaat dan wel significant is
o Alleen verschillen tussen bepaalde groepen rapporteren (die wel significant zijn)
Leg het verschil tussen NHST en Bayes uit:
Bij NHST nemen we de nulhypothese als uitgangspunt en verwerpen we deze als we hier bewijs tegen vinden.
Bij Bayes nemen we de data als uitgangspunt en kijken we hoeveel ondersteuning de nul/alternatieve ondersteuning krijgen (bij Bayes heb je het nooit over een significant resultaat)
Kanskapitalisatie
de kans op een type 1 fout stapelt op