data screening deel 1 Flashcards
- Wat is belangrijk voor de kwaliteit van een kwantitatieve studie?
Of de data van hoge kwaliteit is.
- Wat is er belangrijk om rekening mee te houden als data bewerkt moet worden?
Dat het alleen een vorm is van schade beperken
- Wat is data screening?
Het opsporen van fouten in de data
- Wat zijn onmogelijke waarden?
Waarden die niet passen binnen de schaal range
- Wat zijn invoerfouten?
Dat wordt er geen spatie gedaan bij het overnemen van de resutaten, 44
- Wat zijn onmogelijke waarden die niiet mogelijk zijn?
Als iemand sneller reageert dat menselijk gezien mogelijk is
- Hoe kunnen onmogelijke waarden het snelst worden gevonden?
Via frequentie tabellen
- Hoe kunnen invoerfouten in de data worden gecontroleerd?
Door terug te gaan naar de ruwe data
- Wat moet er gedaan worden als niet achterhaald kan worden wat de echte data moet zijn als er fouten zijn?
Dan moet dit worden gezien als een missende waarde
- Wat zijn risico’s van data verwijderen zonder code script?
Geen repliceerbaarheid, verlies van transparantie
- Wat is een labjournal?
Hierin wordt tijdens het onderzoek alle relevante informatie in opgeslagen
- Wat is de rol van een labjournal bij missende of onmogelijke waarden?
Dit kan helpen om onmogelijke waarden te repareren
- Wat zijn uitbijters of outeliers?
Dit zijn individuele observaties die sterk afwijken van de rest
- Wat is het verschil tussen uitbijters en onmogelijke waarden?
Uitbijters zijn eventueel wel mogelijk binnen de data reeksen
- Welke twee soorten uitbijters zijn er?
Univariate en multivariate
- Wat is een univariate uitbijter?
Een extreme binnen 1 variabele (IQ of leeftijd)
- Wat zijn multivariate uitbijters?
Dan is een combinatie tussen twee variabelen een gekke waarde
(18 jaar en een salaris van 70.000
- Wat is het nadeel van uitbijters in de data?
Het weghalen of houden zorgt in beide gevallen voor vertekening in de data
- Welke twee criteria zijn er voor het vinden van uitbijters?
Wijkt de data af van het gemiddelde, heeft de waarde invloed op het model
- Welke 4 oplossingen zijn er voor het omgaan met uitbijters?
Negeren, verwijderen, andere centrummaat (verlagen meetniveau), aanpassen
- Wanneer wordt gekozen om een uitbijter te negeren?
Als deze niet zo veel invloed heeft op de uitkomsten
- Wanneer kan worden gekozen voor het verwijderen van de uitbijter?
Als de conclussie niet echt veranderd
- Wat is van belang in onderzoek of uitbijters wel of niet verwijderd worden?
Dat het gerapporteerd wordt in het onderzoek
- Wat wordt gedaan bij het verlagen van het meetniveau bij uitbijters?
Dan wordt de mediaan berekend, in plaats van gemiddelde
(interval naar ordinaal)
- Wat is het nadeel van het verlagen van het meetniveau (uitbijters)
Er is niet altijd een geschikte toetst die het effect kan meten
- Wat is winzorring van de uitbijter?
Het wordt veranderd naar een minder extreme waarde
- Wat is belangrijk bij de reportage als winzorring is toegepast?
Duidelijk vermelden wat is veranderd en dit rapporteren, eventueel een extra analyse doen
- Wat is een manier van uitbijters opzoeken?
Door dit te doen met een statistische toets
- Hoe om te gaan met uitbijters die statistische zijn opgezocht?
Hier moet voorzichting (niet te streng) mee worden omgegaan
- Hoe kunnen uitbijters statistische worden opgezocht bij een normaal verdeelde variabele?
Dan kan het worden omgezet naar Z-scores
- Wat is een Z-score?
Hoeveel STD’s een vriabele af ligt van het gemiddelde
- Wat is het voordeel aan z-scores voor uitbijters?
Het is niet afhankelijk van steekproef grootte
- Wat zijn gebruikelijke waarden om te hanteren voor Z-scores?
3.29
- Waarom zijn Z-scores geen hele goede manier van uitbijters opsporen?
Het gemiddelde en STD is gemaakt met de extreme waarde in de data
- Hoe worden uitbijters opgezocht als de verdeling scheef verdeeld is?
Dan wordt gekeken naar de mediaan, interkwartiel afstand
- Welke waarden worden gehanteerd bij box plots om uitbijters te identificeren?
3 keer de IQR, interkwartielafstand
- Wat is de mahalanobis afstand?
Een meervoudige scatterplot om multivariate uitbijters op te sporen
- Wat is straightlining?
Dan worden er opzettelijk patronen in de data gezet
- Wat is een manier hoe striaghtlining wordt geprobeerd op te zoeken?
Door de schaalwaarden in de vragenlijst om te draaien
- Hoe moet worden omgegaan met staightlining?
Dit moet worden verwijderd uit de data en de reden onderzocht worden
- Wat is een reden dat het eerste deel bij staightlining nog wel bruikbaar is?
Als het komt door uitputting