statistische begrippen Flashcards
3 demonen in de wetenschap
dataduivel: data van onderzoeken wordt slecht gearchiveerd. Ruwe data is vaak niet meer te vidnen
replicatieprobleem: studieresultaten moeten door andere studies gecheckt worden, want bevindingen kunnen toevalsbevindingen zijn
verificatiekramp: te hard proberen het gewenste resultaat te krijgen. Mensen willen zo graag publiceren, daarvoor zoeken naar signi bewijzen (meestal dan random verbanden–> toevalsbevindingen)
gegevens verzamelen, waar moet het aan voldoen
compleetheid
nauwkeurigheid: -meetprotocollen moeten hetzelfde zijn
- inter-observatie variatie: voeren alle observatoren meting wel hetzelfde uit
reproduceerbaarheid: als iemand anders dit onderzoek doet moet er hetzelfde uitkomen
valideit: wordt er gemeten wat je wil meten
3 soorten fouten:
toevallige fouten
systematische meetfouten
differentiele systematische meet fouten
toevallige fouten: door meetonnauwkeurigheid van instrument of waarnemer
(hier ontkom je vaak niet aan)
systematische fouten: door fouten in meetinstrument (bijv elke x 5 kg minder wegen)
differentiele systematische meetfouten: in de ene groep wordt een andere systematische fout dan in de andere groep
(dit erg want zo groot verschil tussen 2 groepen)
meetniveau: numerieke/kwantitatieve variabelen
discreet: hele getallen (aantal dagen ziek, aantal kinderen)
continu: reële getallen (lengte, gewicht, bp en inkomen)
hier ook getallen achter de komma
meetniveau: categorische variabelen
nominaal: geen ordening (geslacht, soort OK, klacht)
ordinaal: wel rangorde (ernst ziekte, stagering tumor)
waarom is meetniveau van belang? (presentatie)
bepaald hoe gegevens gepresenteerd kunnen worden:
numerieke variabele:
- gemiddelde of mediaan
- standaarddeviatie of interkwartieleafstand
- in histogram of boxplot
categorische variable:
- percentages in de categoriën
- taartdiagram
waarom is meetniveau van belang (analyse)
bepaald hoe gegevens geanalyseerd moeten worden
numerieke uitkomsvariabele:
vb daling van bloeddruk–> kan je kijken of er een verschil is tussen behandeling A en B met t-test voor onafhankelijke groepen
bij vraag welke factoren bepalen de grootte van de daling (behandeling, geslacht, leeftijd bloedgroep?)
kijk met lineaire regressie-analyse
categorische uitkomstvariabele:
hier geen t-toets of lineaire regressie doen!!!!
hierbij vaan dichotoom= 2 mogelijke waarde, dus bv hypertensie tijdens zwangerschap? Ja/nee
komt dit vaker voor bij vrouwen van niet-westerse afkomst–> chi-kwadraattoets
wat zijn risicofactoren voor hypertensie? –> logistische regressie-analyse
variantie en standaardafwijking
standaarddeviatie: hoe ver liggen de individuele waarden van het gemiddelde af?
is dus een maat voor spreiding om het gemiddelde
nadeel van het gebruik van gemiddelde is dat het erg gevoelig is voor extreme waarden (hoog of laag).
hoe afwijkender de waarde,, hoe meer spreiding
variantie: maat voor spreiding van de betrokken waarde
variantie= S^2 = som van (eerste persoon- gemiddelde)^2 (dit voor alle personen) / n-1
sd= wortel van de variantie
alle afwijkingen in het kwadraat, zodat er geen negatieve waarde zijn. verschil van 2 sd wordt als afwijkend gezien.
populatieparameters: u pi delta beta
populatieparameters: onbekende numerieke karakeristieken van een populatie
u: gemiddelde
pi: proportie (% of delen)
delta: verschil
RR: relatief risico. Kans interventiegroep/ kans controle groep
steekproef
je wil hiermee de populatie zo goed mogelijk weerspiegelen.
iedereen in de populatie heeft evenveel kans om in de steekproef te komen. Daarom is steekproef aselect (random sampling)
in praktijk:
rekening houden met toevallige fout (steekproefvariabiliteit), dit is niet te voorkomen.
fouten/gebreken in steekproef: meetmethoden, analyses –> geven systematische fout= bias
dit proberen te voorkomen
verdeling steekproefgemiddelde
je wil dat het gemiddelde van je steekproef overeen komt met je populatie gemiddelde
de spreiding hiervan af is afhankelijk van:
spreidingvan individuele waarde (populatiestandaarddeviatie) en de grootte van de steekproef
populatiegemiddelde= u
populatiestandaarddeviatie: o
steekproefgrootte n
standaardafwijking/standaardfout/standaard error : o/n
geeft aan hoe verspreid het gemiddelde is
betrouwbaarheidsinterval
95% bi wil zeggen dat 95% van alle steekproeven het enige echte populatiegemiddelde u bevat. Dus we weten met 95% zekerheid dat het populatiegemiddelde u binnen het gevonden interval ligt.
bij 95% betrouwbaarheidsinterval heb je een factor van 1,96
bij normaal verdeelde parapeters is de t-verdeling nauwkeuriger dan de z- verdeling. Hoe groter de steekproef, hoe meer deze t-verdeling gaat lijken op de standaard normale (z) verdeling.