HC.2 - Statistische begrippen Flashcards by Anniek Ml

Wat zijn de drie demonen van de wetenschap?

Dataduivel: data is slecht gearchiveerd (data is weg)
Replicatieprobleem: studieresultaten moeten eigenlijk gecheckt worden (literaal kan toeval zijn)
Verificatiekramp: te hard proberen om een gewenst resultaat te krijgen –> lang doorgaan vanzelf een keer significant resultaat (maar is toevalsbevinding)

How well did you know this?

Not at all

Perfectly

Wat wordt er wel eens gedaan om de significantiekramp te beperken?

Pre-registratie: vooraf dingen afspreken met tijdschrift en dit hoeft niet per se om significantie te gaan

How well did you know this?

Not at all

Perfectly

Voor welke twee dingen doen we gegevens verzameling?

patienten zorg
wetenschappelijk onderzoek

How well did you know this?

Not at all

Perfectly

Wat is belangrijk bij het verzamelen van gegevens?

compleetheid: achteraf niet meer dingen veranderen of corrigeren
Nauwkeurigheid
reproduceerbaarheid
4 validiteit: meten wat je wil meten

How well did you know this?

Not at all

Perfectly

Hoe kunnen we nauwkeurigheid van gegevens verzameling waarborgen?

gebruiken van meetprotocollen waardoor overal dezelfde manier gebruiken
1 Observer vs inter-observer variatie: meerdere mensen die het eens zijn met elkaars beoordelingen

How well did you know this?

Not at all

Perfectly

Welke drie dingen moet geprobeerd worden om te voorkomen/vermijden/beperken bij het verzamelen van gegevens?

toevallige meetfouten: door onnauwkeurigheid van instrument of waarnemer (onnodige ruis)
Zijn er ALTIJD ( niet te voorkomen) maar kans zo klein mogelijk maken
systematische meetfouten: fouten in meetinstrument
bvb fout geijkte bloeddrukmeter
Probleem bij reproduceerbaarheid
differentieel systematische meetfouten: in de ene groep wordt een andere systematische fout gemaakt dan in de andere groep –> hierdoor kan een verschil aangetoond worden dat er eigenlijk niet is

How well did you know this?

Not at all

Perfectly

Welke twee variabelen zijn er?

numerieke/kwantitatieve variabelen = getallen
Categorische variabelen = groep

How well did you know this?

Not at all

Perfectly

Welke twee meetniveau’s kennen de variabelen?

Numerieke:
- discreet: gehele getallen bvb aantal dagen ziek, aantal kinderen (half niet mogelijk)
- Reele getallen bvb lengte, gewicht, bloeddruk, inkomen (kan elke waarde aannemen)

Categorisch:
- nominaal: geen ordening (geslacht, soort OK, klacht) dus een groep is niet meer of beter dan de ander
- ordinaal: wel rangorde (ernst ziekte, stagering van tumor) er kan een ongelijke afstand tussen de variabelen zitten (bvb niet ziek, beetje ziek, ernstig ziek)

How well did you know this?

Not at all

Perfectly

Wat is het belang van het meetniveau?

bepaalt hoe gegevens gepresenteerd worden
Bepaalt hoe gegevens geanalyseerd moeten worden

How well did you know this?

Not at all

Perfectly

Hoe kunnen we gegevens presenteren mbv de 2 variabelen?

numerieke variabelen
- gemiddelde of mediaan
- standaarddeviatie, interkwartielafstand
- histogram, boxplot
categorische variabelen:
- percentages in de categorieen
- taartdiagram

How well did you know this?

Not at all

Perfectly

Wat voor analyses kunnen we doen met numerieke (continue) uitkomst variabelen?

T-test voor onafhankelijke groepen
= vergelijken van gemiddelden. van groepen
Bvb Is de daling van de bloeddruk verschillend bij behandeling A en B?
NIET MET CATEGORISCHE VARIABELEN
Lineaire regressie analyse = welke factoren bepalen bvb de daling
- uitkomst MOET numeriek zijn en normaalverdeling hebben
- variabelen maken niet uit dus kan numeriek of categorisch (wel goed in model zetten)
- het zijn verklarende variabelen die op verschillende manieren gebruikt worden
- corrigeren voor variabelen
bvb welke factoren bepalen de grootte van de daling (bvb behandeling, geslacht, leeftijd, bloedgroep –> corrigeren hiervoor)

How well did you know this?

Not at all

Perfectly

Welke analyses gebruiken we voor categorische varialen?

Categorische variabelen zijn vaak dichotoom = twee mogelijke waarden bvb hypertensie tijdens zwangerschap: ja of nee
Chi-kwadraat toets: kruistabellen
Komt het vaker voor bij vrouwen van niet-westerse achtergrond?
KAN NIET MET NUMMERIEKE VARIABELEN
Logistische regressie analyse bij een CATEGORISCHE UITKOMST VARIABELE om risicofactoren te onderzoeken
bvb hypertensie voorspellen

How well did you know this?

Not at all

Perfectly

Wanneer kan er GEEN lineaire regressie analyse worden gedaan?

Bij categorische uitkomst variabele
Dus ook niet als ja of nee uitkomst hebt

How well did you know this?

Not at all

Perfectly

Voor welke twee dingen is statistiek nodig?

er zit altijd spreiding en variabiliteit in de gegevens
omdat medische/psychologische eigenschappen van mensen niet vast liggen in natuurkundige wetten

How well did you know this?

Not at all

Perfectly

Wat is de belangrijkst maat voor spreiding? Wat betekent dit?

Standaarddeviatie (SD)
Hoe gespreid is iedereen rond het gemiddelde –> hoe ver ligt iedereen van het gemiddelde af

How well did you know this?

Not at all

Perfectly

Wat is de centrum maat van de SD?

Het gemiddelde
= som van alle scores / aantal scores

How well did you know this?

Not at all

Perfectly

Wat is een nadeel van het gebruik van gemiddelden?

Het is erg gevoelig voor extreme spreiding (hoog of laag)

Hoe geven we numerieke uitkomsten over een populatie weer?

Met een Griekse letter

mu (u): gemiddelden
Pi: proportie (wel/niet) –> hoeveel % heeft complicaties

Sigma = verschil tussen twee gemiddelden uV - uM

betaleeftijd: regressie coefficient = hoeveel neemt de bloeddruk toe per 1 jaar ouder worden

RR = relatieve risico = kans op overlijden aan longkanker van rokers tov niet-rokers (populatie)

Hoe wordt de SD berekend?

Via de Variantie

Wat is een belangrijke eigenschap die een steekproef eigenlijk moet hebben?

aselect = random sampling dus iedereen in de populatie heeft evenveel kans om in de steekproef terecht te komen –> representatief
Het is een statische assumptie

Praktijk: men hoopt dat de studiegroep even goed is als een echte aselectie steekproef maar het is nooit helemaal representatief

Welke twee fouten kunnen voorkomen bij het maken van een steekproef?

toevallige fout: altijd rekening houden met STEEKPROEF VARIABILITEIT omdat elke keer dat je een steekproef neemt verschilt deze –> gebeurt ALTIJD
= selectie bias
Bias of systematische fout: door fouten of gebreken in steekproef, meetmethoden, analyses
–> Deze zo veel mogelijk voorkomen

Wat is inferentiele statistiek?

Obv een steekproef iets zeggen over de gehele populatie

Wat wordt bedoeld met een gemiddelde lengte van 1,70 m met een SD van 10? Hoeveel mensen vallen in de 2SD?

Dat gemiddeld de mensen in die populatie 1,70 m zijn waarbij de meeste 10 cm erboven of eronder zitten

95% van de mensen vallen in 2SD

Waarvan is de spreiding (als we een gemiddelde nemen) afhankelijk?

spreiding van individuele waarden (populatie SD)
grootte van de steekproef

Hoe wordt de variantie berekent?

Elke score = Xi Gemiddelde = X Xi - X (geeft de lijn in grafiek weer) (Xi - X)^2 Van elle scores bereken je (Xi-X)^2 --> allemaal bij elkaar optellen Som hiervan delen door n -1 Uitkomst is ^2 (bvb lengte in m^2) Hieruit dus een wortel nemen --> gemiddelde spreiding rond het gemiddelde

Gemiddelde is u (mu) populație SD = s (sigma) steekproefgrootte = n wat bereken we in de Centrale limietstelling?

de verdeling van alle mogelijke steekproefgemiddelden is (bij benadering) een normale verdeling met Standaardafwijking = s / wortel n

Wat is het verschil tussen standaardafwijking en SD?

SD: hoever liggen individuele waarden van het gemiddelde Standaardafwijking: is bij benadering de gemiddelde afwijking tot het gemiddelde bij 1 steekproef (trekken er maar 1 steekproef uit wat belangrijk is om te beseffen)

Wat is het effect van de steekproef grootte op de standaardafwijking? Wat kunnen we hiermee zeggen over het populatie gemiddelde?

Hoe groter de groep hoe dichter bij het gemiddelde het ligt Als de groep heel groot is zal het steekproef gemiddelde dichter bij het werkelijke populatie gemiddelde liggen --> geeft hele kleine/nauwe spreiding -> wel iets zeggen over populatie gemiddelde Kleine n geeft een grotere spreiding --> niet veel zeggen over populatie gemiddelde

Waarvoor wordt het steekproef gemiddelde gebruikt?

Is de beste schatting van het populatie gemiddelde maar om iets te zeggen over hoe zeker zijn we hiervan gebruiken we de standaard error (fout)

Wat is de standaard error?

Spreiding rond het gemiddelde SE = SD / wortel n

Wat doen we met het betrouwbaarheidsinterval?

Berekenen welke populatie gemiddelden allemaal nog mogelijk zijn obv deze steekproef Dus je berekent een spreiding voor het populatie gemiddelde

Hoe berekenen we het betrouwbaarheidsinterval?

X = steekproefgemiddelde Z = z-waarde die hoort bij 95% betrouwbaarheidsinterval (1,96) u (mu) = populație gemiddelde X - Z x SE X + Z x SE = waar ligt 95% van de verdeling tussen volgens deze steekproef X - Z x SE < u < X + Z x SE

Hoe werkt de berekening bij regressie coëfficiënt?

Is de helling van een schuine lijn Obv verschillende steekproeven kan deze ook net iets anders zijn Voor de RC kan je ook een SE bereken etc

Waarvoor geldt het 95% BI?

- alle parameters die een normale verdeling hebben

Wat is nauwkeuriger dan de Z-verdeling? Waarbij gebruiken we deze?

T-verdeling (wat groter dan de Z) Bij kleinere groepen Hoe groter de steekproef hoe meer de T-verdeling gaat lijken op de Z-verdeling

Welke BI zijn er?

90% = factor 1,64 95% = factor 1,95 99% = factor 2,58 Een ander percentage geeft dus een andere z-waarde

Voor welke soort parameters kan een BI niet gebruikt worden? Hoe wordt hier mee omgegaan?

Voor OR, RR, HR omdat het ratio's zijn Hierdoor kan het niet onder 0 komen Met log schaal Bepaal se van log(parameter) bereken BI van log(parameter) Terug naar oorspronkelijke schaal

Wat betekent 95% BI?

we weten 95% zeker dat populatie gemiddelde tussen deze waardes ligt = 95% van de steekproeven bevat het enige echte populatie gemiddelde