Statistische begrippen Flashcards
dataduivel
data is slecht gearchiveerd
- data verzamelen, meetkwaliteit, meetniveau
replicatieprobleem
studieresultaten moeten door andere studies gecheckt worden
verificatiekramp
te hard proberen het gewenste resultaat te krijgen
Wat is belangrijk bij gegevens verzamelen
- Compleetheid
- Nauwkeurigheid
o Meetprotocollen
o één observer/gegevens over inter-observervariatie - Reproduceerbaarheid (goed laten zien wat er is gedaan zodat iedereen het onderzoek na kan doen)
- Validiteit (meet je wat je wil meten)
toevallige meetfout
door meetonnauwkeurigeheid van een instrument of waarnemer die onnodige ‘ruis’ veroorzaken. Worden altijd gemaakt, maar je wilt de kans zo klein mogelijk maken.
systematische meetfouten
door fouten in meetinstrumenten, denk hierbij aan een fout geijkte weegschaal. Deze vormen een probleem bij de reproduceerbaarheid.
differentiële systematische meetfouten
in de ene groep wordt een andere systematische fout gemaakt dan in de andere groep. Hierdoor kan een verschil worden aangetoond die er helemaal niet is.
numerieke variabelen
hoeveelheden; discreet en continu
discreet
gehele getallen (aantal dagen ziek, aantal kinderen)
continu
reële getallen (lengte, gewicht, bloeddruk, inkomen)
categorische variabelen
nominaal en ordinaal
nominaal
geen ordening (geslacht, soort OK, klacht)
ordinaal
wel randorde (ernst ziekte, stagering tumor)
Waarom is meetniveau van belang?
bepaalt hoe gegevens gepresenteerd en geanalyseerd moeten worden
presentatie numerieke variabelen
Gemiddelde of mediaan
Standaarddeviatie (spreidingsmaat) of interkwartielafstand (afstand van de middelste 50% zichtbaar in boxplot)
Histogram, boxplot
presentatie categorische variabelen
Percentages in de categorieën
Taartdiagram
T-test
hiermee kun je onafhankelijke groepen analyseren; bij numeriek
lineaire regressie analyse
welke factoren de grootte van de daling bepalen kan hiermee geanalyseerd worden. Alleen verklarende variabelen kunnen gebruikt worden
Chi-kwadraattoets (X2)
Komt hypertensie tijdens zwangerschap vaker voor bij vrouwen van niet-westerse afkomst?
bij nominale variabelen
logistische regressie analyse
dichotome uitkomsten (wel/niet) kunnen worden gerelateerd aan één of meer factoren
gewone regressie analyse
kan gebruikt worden voor continue variabele
Waarom is statistiek nodig?
- Spreiding/variabiliteit in gegevens.
- Fysieke/medische/psychologische eigenschappen van mensen liggen niet vast door natuurkundige wetten.
standaarddeviatie
o Hoe ver liggen de individuele waarden van het gemiddelde af?
o Nadeel: erg gevoelig voor extreme waarden
o Alle afwijkingen worden in het kwadraat gedaan, zodat er geen negatieve waarden meer zijn, anders kan SD 0 worden.
Variantie
je neemt van elk individu een verschilscore tov gemiddelde, die tel je op en deelt door aantal personen – 1.
Nadeel van gemiddelde
gevoelig voor extremen
populatieparameters
onbekende numerieke karakteristieken van een populatie
Wat is een aanname bij statistische theorie
de steekproef is aselect (random sampling), iedereen in de populatie heeft evenveel kans om in de steekproef te komen.
Waarmee moet je rekening houden met een steekproef?
met een toevallige fout (steekproefvariabiliteit), dit is niet te voorkomen. Je hebt ook fouten/gebreken in steekproef, meetmethoden, analyses geven een systematische fout (bias). Dit moet je zoveel mogelijk proberen te voorkomen.
Inferentiele statistiek
wordt gebruikt om te kijken of het mogelijk is de steekproef te gebruiken voor de populatie. Er is een bepaald aantal steekproeven uit de populatie mogelijk = verdeling van het steekproefgemiddelde.
Waarvan is spreiding afhankelijk?
spreiding van individuele waarden (populatiestandaarddeviatie) en grootte van de steekproef.
standaardfout
geeft aan hoe verspreid het gemiddelde is.
Wat zegt het 95% bi
wil zeggen dat 95% van alle steekproeven het enige echte populatiegemiddelde bevat. We weten met 95% zeker dat het populatiegemiddelde binnen het gevonden interval ligt. Het gemiddelde gevonden in 1 steekproef is één trekking uit deze verdeling.
- Geldt voor alle parameters met een normale verdeling
Wat is de T-verdeling?
Bij een echt normaal verdeelde parameter is een T-verdeling nog nauwkeuriger dan de normale verdeling. Hoe groter de steekproef, hoe meer deze verdeling gaat lijken op de standaard normale verdeling.
Wat geldt voor OR/RR/HR
log(parameter) als normale verdeling.