HC.2 - Statistische begrippen Flashcards
Wat zijn de drie demonen van de wetenschap?
- Dataduivel: data is slecht gearchiveerd (data is weg)
- Replicatieprobleem: studieresultaten moeten eigenlijk gecheckt worden (literaal kan toeval zijn)
- Verificatiekramp: te hard proberen om een gewenst resultaat te krijgen –> lang doorgaan vanzelf een keer significant resultaat (maar is toevalsbevinding)
Wat wordt er wel eens gedaan om de significantiekramp te beperken?
Pre-registratie: vooraf dingen afspreken met tijdschrift en dit hoeft niet per se om significantie te gaan
Voor welke twee dingen doen we gegevens verzameling?
- patienten zorg
- wetenschappelijk onderzoek
Wat is belangrijk bij het verzamelen van gegevens?
- compleetheid: achteraf niet meer dingen veranderen of corrigeren
- Nauwkeurigheid
- reproduceerbaarheid
4 validiteit: meten wat je wil meten
Hoe kunnen we nauwkeurigheid van gegevens verzameling waarborgen?
- gebruiken van meetprotocollen waardoor overal dezelfde manier gebruiken
- 1 Observer vs inter-observer variatie: meerdere mensen die het eens zijn met elkaars beoordelingen
Welke drie dingen moet geprobeerd worden om te voorkomen/vermijden/beperken bij het verzamelen van gegevens?
- toevallige meetfouten: door onnauwkeurigheid van instrument of waarnemer (onnodige ruis)
Zijn er ALTIJD ( niet te voorkomen) maar kans zo klein mogelijk maken - systematische meetfouten: fouten in meetinstrument
bvb fout geijkte bloeddrukmeter
Probleem bij reproduceerbaarheid - differentieel systematische meetfouten: in de ene groep wordt een andere systematische fout gemaakt dan in de andere groep –> hierdoor kan een verschil aangetoond worden dat er eigenlijk niet is
Welke twee variabelen zijn er?
- numerieke/kwantitatieve variabelen = getallen
- Categorische variabelen = groep
Welke twee meetniveau’s kennen de variabelen?
Numerieke:
- discreet: gehele getallen bvb aantal dagen ziek, aantal kinderen (half niet mogelijk)
- Reele getallen bvb lengte, gewicht, bloeddruk, inkomen (kan elke waarde aannemen)
Categorisch:
- nominaal: geen ordening (geslacht, soort OK, klacht) dus een groep is niet meer of beter dan de ander
- ordinaal: wel rangorde (ernst ziekte, stagering van tumor) er kan een ongelijke afstand tussen de variabelen zitten (bvb niet ziek, beetje ziek, ernstig ziek)
Wat is het belang van het meetniveau?
- bepaalt hoe gegevens gepresenteerd worden
- Bepaalt hoe gegevens geanalyseerd moeten worden
Hoe kunnen we gegevens presenteren mbv de 2 variabelen?
- numerieke variabelen
- gemiddelde of mediaan
- standaarddeviatie, interkwartielafstand
- histogram, boxplot - categorische variabelen:
- percentages in de categorieen
- taartdiagram
Wat voor analyses kunnen we doen met numerieke (continue) uitkomst variabelen?
- T-test voor onafhankelijke groepen
= vergelijken van gemiddelden. van groepen
Bvb Is de daling van de bloeddruk verschillend bij behandeling A en B?
NIET MET CATEGORISCHE VARIABELEN - Lineaire regressie analyse = welke factoren bepalen bvb de daling
- uitkomst MOET numeriek zijn en normaalverdeling hebben
- variabelen maken niet uit dus kan numeriek of categorisch (wel goed in model zetten)
- het zijn verklarende variabelen die op verschillende manieren gebruikt worden
- corrigeren voor variabelen
bvb welke factoren bepalen de grootte van de daling (bvb behandeling, geslacht, leeftijd, bloedgroep –> corrigeren hiervoor)
Welke analyses gebruiken we voor categorische varialen?
- Categorische variabelen zijn vaak dichotoom = twee mogelijke waarden bvb hypertensie tijdens zwangerschap: ja of nee
- Chi-kwadraat toets: kruistabellen
Komt het vaker voor bij vrouwen van niet-westerse achtergrond?
KAN NIET MET NUMMERIEKE VARIABELEN - Logistische regressie analyse bij een CATEGORISCHE UITKOMST VARIABELE om risicofactoren te onderzoeken
bvb hypertensie voorspellen
Wanneer kan er GEEN lineaire regressie analyse worden gedaan?
Bij categorische uitkomst variabele
Dus ook niet als ja of nee uitkomst hebt
Voor welke twee dingen is statistiek nodig?
- er zit altijd spreiding en variabiliteit in de gegevens
- omdat medische/psychologische eigenschappen van mensen niet vast liggen in natuurkundige wetten
Wat is de belangrijkst maat voor spreiding? Wat betekent dit?
Standaarddeviatie (SD)
Hoe gespreid is iedereen rond het gemiddelde –> hoe ver ligt iedereen van het gemiddelde af
Wat is de centrum maat van de SD?
Het gemiddelde
= som van alle scores / aantal scores
Wat is een nadeel van het gebruik van gemiddelden?
Het is erg gevoelig voor extreme spreiding (hoog of laag)
Hoe geven we numerieke uitkomsten over een populatie weer?
Met een Griekse letter
mu (u): gemiddelden
Pi: proportie (wel/niet) –> hoeveel % heeft complicaties
Sigma = verschil tussen twee gemiddelden uV - uM
betaleeftijd: regressie coefficient = hoeveel neemt de bloeddruk toe per 1 jaar ouder worden
RR = relatieve risico = kans op overlijden aan longkanker van rokers tov niet-rokers (populatie)
Hoe wordt de SD berekend?
Via de Variantie
Wat is een belangrijke eigenschap die een steekproef eigenlijk moet hebben?
- aselect = random sampling dus iedereen in de populatie heeft evenveel kans om in de steekproef terecht te komen –> representatief
Het is een statische assumptie
Praktijk: men hoopt dat de studiegroep even goed is als een echte aselectie steekproef maar het is nooit helemaal representatief
Welke twee fouten kunnen voorkomen bij het maken van een steekproef?
- toevallige fout: altijd rekening houden met STEEKPROEF VARIABILITEIT omdat elke keer dat je een steekproef neemt verschilt deze –> gebeurt ALTIJD
= selectie bias - Bias of systematische fout: door fouten of gebreken in steekproef, meetmethoden, analyses
–> Deze zo veel mogelijk voorkomen
Wat is inferentiele statistiek?
Obv een steekproef iets zeggen over de gehele populatie
Wat wordt bedoeld met een gemiddelde lengte van 1,70 m met een SD van 10? Hoeveel mensen vallen in de 2SD?
Dat gemiddeld de mensen in die populatie 1,70 m zijn waarbij de meeste 10 cm erboven of eronder zitten
95% van de mensen vallen in 2SD
Waarvan is de spreiding (als we een gemiddelde nemen) afhankelijk?
- spreiding van individuele waarden (populatie SD)
- grootte van de steekproef
Hoe wordt de variantie berekent?
Elke score = Xi
Gemiddelde = X
Xi - X (geeft de lijn in grafiek weer)
(Xi - X)^2
Van elle scores bereken je (Xi-X)^2 –> allemaal bij elkaar optellen
Som hiervan delen door n -1
Uitkomst is ^2 (bvb lengte in m^2)
Hieruit dus een wortel nemen –> gemiddelde spreiding rond het gemiddelde
Gemiddelde is u (mu)
populație SD = s (sigma)
steekproefgrootte = n
wat bereken we in de Centrale limietstelling?
de verdeling van alle mogelijke steekproefgemiddelden is (bij benadering) een normale verdeling met
Standaardafwijking = s / wortel n
Wat is het verschil tussen standaardafwijking en SD?
SD: hoever liggen individuele waarden van het gemiddelde
Standaardafwijking: is bij benadering de gemiddelde afwijking tot het gemiddelde bij 1 steekproef (trekken er maar 1 steekproef uit wat belangrijk is om te beseffen)
Wat is het effect van de steekproef grootte op de standaardafwijking?
Wat kunnen we hiermee zeggen over het populatie gemiddelde?
Hoe groter de groep hoe dichter bij het gemiddelde het ligt
Als de groep heel groot is zal het steekproef gemiddelde dichter bij het werkelijke populatie gemiddelde liggen –> geeft hele kleine/nauwe spreiding -> wel iets zeggen over populatie gemiddelde
Kleine n geeft een grotere spreiding –> niet veel zeggen over populatie gemiddelde
Waarvoor wordt het steekproef gemiddelde gebruikt?
Is de beste schatting van het populatie gemiddelde maar om iets te zeggen over hoe zeker zijn we hiervan gebruiken we de standaard error (fout)
Wat is de standaard error?
Spreiding rond het gemiddelde
SE = SD / wortel n
Wat doen we met het betrouwbaarheidsinterval?
Berekenen welke populatie gemiddelden allemaal nog mogelijk zijn obv deze steekproef
Dus je berekent een spreiding voor het populatie gemiddelde
Hoe berekenen we het betrouwbaarheidsinterval?
X = steekproefgemiddelde
Z = z-waarde die hoort bij 95% betrouwbaarheidsinterval (1,96)
u (mu) = populație gemiddelde
X - Z x SE
X + Z x SE
= waar ligt 95% van de verdeling tussen volgens deze steekproef
X - Z x SE < u < X + Z x SE
Hoe werkt de berekening bij regressie coëfficiënt?
Is de helling van een schuine lijn
Obv verschillende steekproeven kan deze ook net iets anders zijn
Voor de RC kan je ook een SE bereken etc
Waarvoor geldt het 95% BI?
- alle parameters die een normale verdeling hebben
Wat is nauwkeuriger dan de Z-verdeling? Waarbij gebruiken we deze?
T-verdeling (wat groter dan de Z)
Bij kleinere groepen
Hoe groter de steekproef hoe meer de T-verdeling gaat lijken op de Z-verdeling
Welke BI zijn er?
90% = factor 1,64
95% = factor 1,95
99% = factor 2,58
Een ander percentage geeft dus een andere z-waarde
Voor welke soort parameters kan een BI niet gebruikt worden? Hoe wordt hier mee omgegaan?
Voor OR, RR, HR omdat het ratio’s zijn
Hierdoor kan het niet onder 0 komen
Met log schaal
Bepaal se van log(parameter)
bereken BI van log(parameter)
Terug naar oorspronkelijke schaal
Wat betekent 95% BI?
we weten 95% zeker dat populatie gemiddelde tussen deze waardes ligt
= 95% van de steekproeven bevat het enige echte populatie gemiddelde