HC.2 - Statistische begrippen Flashcards

1
Q

Wat zijn de drie demonen van de wetenschap?

A
  1. Dataduivel: data is slecht gearchiveerd (data is weg)
  2. Replicatieprobleem: studieresultaten moeten eigenlijk gecheckt worden (literaal kan toeval zijn)
  3. Verificatiekramp: te hard proberen om een gewenst resultaat te krijgen –> lang doorgaan vanzelf een keer significant resultaat (maar is toevalsbevinding)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat wordt er wel eens gedaan om de significantiekramp te beperken?

A

Pre-registratie: vooraf dingen afspreken met tijdschrift en dit hoeft niet per se om significantie te gaan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Voor welke twee dingen doen we gegevens verzameling?

A
  1. patienten zorg
  2. wetenschappelijk onderzoek
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is belangrijk bij het verzamelen van gegevens?

A
  1. compleetheid: achteraf niet meer dingen veranderen of corrigeren
  2. Nauwkeurigheid
  3. reproduceerbaarheid
    4 validiteit: meten wat je wil meten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hoe kunnen we nauwkeurigheid van gegevens verzameling waarborgen?

A
  1. gebruiken van meetprotocollen waardoor overal dezelfde manier gebruiken
  2. 1 Observer vs inter-observer variatie: meerdere mensen die het eens zijn met elkaars beoordelingen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welke drie dingen moet geprobeerd worden om te voorkomen/vermijden/beperken bij het verzamelen van gegevens?

A
  1. toevallige meetfouten: door onnauwkeurigheid van instrument of waarnemer (onnodige ruis)
    Zijn er ALTIJD ( niet te voorkomen) maar kans zo klein mogelijk maken
  2. systematische meetfouten: fouten in meetinstrument
    bvb fout geijkte bloeddrukmeter
    Probleem bij reproduceerbaarheid
  3. differentieel systematische meetfouten: in de ene groep wordt een andere systematische fout gemaakt dan in de andere groep –> hierdoor kan een verschil aangetoond worden dat er eigenlijk niet is
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welke twee variabelen zijn er?

A
  1. numerieke/kwantitatieve variabelen = getallen
  2. Categorische variabelen = groep
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Welke twee meetniveau’s kennen de variabelen?

A

Numerieke:
- discreet: gehele getallen bvb aantal dagen ziek, aantal kinderen (half niet mogelijk)
- Reele getallen bvb lengte, gewicht, bloeddruk, inkomen (kan elke waarde aannemen)

Categorisch:
- nominaal: geen ordening (geslacht, soort OK, klacht) dus een groep is niet meer of beter dan de ander
- ordinaal: wel rangorde (ernst ziekte, stagering van tumor) er kan een ongelijke afstand tussen de variabelen zitten (bvb niet ziek, beetje ziek, ernstig ziek)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat is het belang van het meetniveau?

A
  1. bepaalt hoe gegevens gepresenteerd worden
  2. Bepaalt hoe gegevens geanalyseerd moeten worden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hoe kunnen we gegevens presenteren mbv de 2 variabelen?

A
  1. numerieke variabelen
    - gemiddelde of mediaan
    - standaarddeviatie, interkwartielafstand
    - histogram, boxplot
  2. categorische variabelen:
    - percentages in de categorieen
    - taartdiagram
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat voor analyses kunnen we doen met numerieke (continue) uitkomst variabelen?

A
  1. T-test voor onafhankelijke groepen
    = vergelijken van gemiddelden. van groepen
    Bvb Is de daling van de bloeddruk verschillend bij behandeling A en B?
    NIET MET CATEGORISCHE VARIABELEN
  2. Lineaire regressie analyse = welke factoren bepalen bvb de daling
    - uitkomst MOET numeriek zijn en normaalverdeling hebben
    - variabelen maken niet uit dus kan numeriek of categorisch (wel goed in model zetten)
    - het zijn verklarende variabelen die op verschillende manieren gebruikt worden
    - corrigeren voor variabelen
    bvb welke factoren bepalen de grootte van de daling (bvb behandeling, geslacht, leeftijd, bloedgroep –> corrigeren hiervoor)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welke analyses gebruiken we voor categorische varialen?

A
  • Categorische variabelen zijn vaak dichotoom = twee mogelijke waarden bvb hypertensie tijdens zwangerschap: ja of nee
  • Chi-kwadraat toets: kruistabellen
    Komt het vaker voor bij vrouwen van niet-westerse achtergrond?
    KAN NIET MET NUMMERIEKE VARIABELEN
  • Logistische regressie analyse bij een CATEGORISCHE UITKOMST VARIABELE om risicofactoren te onderzoeken
    bvb hypertensie voorspellen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wanneer kan er GEEN lineaire regressie analyse worden gedaan?

A

Bij categorische uitkomst variabele
Dus ook niet als ja of nee uitkomst hebt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Voor welke twee dingen is statistiek nodig?

A
  1. er zit altijd spreiding en variabiliteit in de gegevens
  2. omdat medische/psychologische eigenschappen van mensen niet vast liggen in natuurkundige wetten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is de belangrijkst maat voor spreiding? Wat betekent dit?

A

Standaarddeviatie (SD)
Hoe gespreid is iedereen rond het gemiddelde –> hoe ver ligt iedereen van het gemiddelde af

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat is de centrum maat van de SD?

A

Het gemiddelde
= som van alle scores / aantal scores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wat is een nadeel van het gebruik van gemiddelden?

A

Het is erg gevoelig voor extreme spreiding (hoog of laag)

18
Q

Hoe geven we numerieke uitkomsten over een populatie weer?

A

Met een Griekse letter

mu (u): gemiddelden
Pi: proportie (wel/niet) –> hoeveel % heeft complicaties

Sigma = verschil tussen twee gemiddelden uV - uM

betaleeftijd: regressie coefficient = hoeveel neemt de bloeddruk toe per 1 jaar ouder worden

RR = relatieve risico = kans op overlijden aan longkanker van rokers tov niet-rokers (populatie)

19
Q

Hoe wordt de SD berekend?

A

Via de Variantie

20
Q

Wat is een belangrijke eigenschap die een steekproef eigenlijk moet hebben?

A
  • aselect = random sampling dus iedereen in de populatie heeft evenveel kans om in de steekproef terecht te komen –> representatief
    Het is een statische assumptie

Praktijk: men hoopt dat de studiegroep even goed is als een echte aselectie steekproef maar het is nooit helemaal representatief

21
Q

Welke twee fouten kunnen voorkomen bij het maken van een steekproef?

A
  1. toevallige fout: altijd rekening houden met STEEKPROEF VARIABILITEIT omdat elke keer dat je een steekproef neemt verschilt deze –> gebeurt ALTIJD
    = selectie bias
  2. Bias of systematische fout: door fouten of gebreken in steekproef, meetmethoden, analyses
    –> Deze zo veel mogelijk voorkomen
22
Q

Wat is inferentiele statistiek?

A

Obv een steekproef iets zeggen over de gehele populatie

23
Q

Wat wordt bedoeld met een gemiddelde lengte van 1,70 m met een SD van 10? Hoeveel mensen vallen in de 2SD?

A

Dat gemiddeld de mensen in die populatie 1,70 m zijn waarbij de meeste 10 cm erboven of eronder zitten

95% van de mensen vallen in 2SD

24
Q

Waarvan is de spreiding (als we een gemiddelde nemen) afhankelijk?

A
  • spreiding van individuele waarden (populatie SD)
  • grootte van de steekproef
25
Q

Hoe wordt de variantie berekent?

A

Elke score = Xi
Gemiddelde = X

Xi - X (geeft de lijn in grafiek weer)

(Xi - X)^2

Van elle scores bereken je (Xi-X)^2 –> allemaal bij elkaar optellen

Som hiervan delen door n -1
Uitkomst is ^2 (bvb lengte in m^2)

Hieruit dus een wortel nemen –> gemiddelde spreiding rond het gemiddelde

26
Q

Gemiddelde is u (mu)
populație SD = s (sigma)
steekproefgrootte = n

wat bereken we in de Centrale limietstelling?

A

de verdeling van alle mogelijke steekproefgemiddelden is (bij benadering) een normale verdeling met

Standaardafwijking = s / wortel n

27
Q

Wat is het verschil tussen standaardafwijking en SD?

A

SD: hoever liggen individuele waarden van het gemiddelde

Standaardafwijking: is bij benadering de gemiddelde afwijking tot het gemiddelde bij 1 steekproef (trekken er maar 1 steekproef uit wat belangrijk is om te beseffen)

28
Q

Wat is het effect van de steekproef grootte op de standaardafwijking?
Wat kunnen we hiermee zeggen over het populatie gemiddelde?

A

Hoe groter de groep hoe dichter bij het gemiddelde het ligt

Als de groep heel groot is zal het steekproef gemiddelde dichter bij het werkelijke populatie gemiddelde liggen –> geeft hele kleine/nauwe spreiding -> wel iets zeggen over populatie gemiddelde

Kleine n geeft een grotere spreiding –> niet veel zeggen over populatie gemiddelde

29
Q

Waarvoor wordt het steekproef gemiddelde gebruikt?

A

Is de beste schatting van het populatie gemiddelde maar om iets te zeggen over hoe zeker zijn we hiervan gebruiken we de standaard error (fout)

30
Q

Wat is de standaard error?

A

Spreiding rond het gemiddelde

SE = SD / wortel n

31
Q

Wat doen we met het betrouwbaarheidsinterval?

A

Berekenen welke populatie gemiddelden allemaal nog mogelijk zijn obv deze steekproef
Dus je berekent een spreiding voor het populatie gemiddelde

32
Q

Hoe berekenen we het betrouwbaarheidsinterval?

A

X = steekproefgemiddelde
Z = z-waarde die hoort bij 95% betrouwbaarheidsinterval (1,96)
u (mu) = populație gemiddelde

X - Z x SE
X + Z x SE
= waar ligt 95% van de verdeling tussen volgens deze steekproef

X - Z x SE < u < X + Z x SE

33
Q

Hoe werkt de berekening bij regressie coëfficiënt?

A

Is de helling van een schuine lijn
Obv verschillende steekproeven kan deze ook net iets anders zijn

Voor de RC kan je ook een SE bereken etc

34
Q

Waarvoor geldt het 95% BI?

A
  • alle parameters die een normale verdeling hebben
35
Q

Wat is nauwkeuriger dan de Z-verdeling? Waarbij gebruiken we deze?

A

T-verdeling (wat groter dan de Z)
Bij kleinere groepen

Hoe groter de steekproef hoe meer de T-verdeling gaat lijken op de Z-verdeling

36
Q

Welke BI zijn er?

A

90% = factor 1,64
95% = factor 1,95
99% = factor 2,58

Een ander percentage geeft dus een andere z-waarde

37
Q

Voor welke soort parameters kan een BI niet gebruikt worden? Hoe wordt hier mee omgegaan?

A

Voor OR, RR, HR omdat het ratio’s zijn
Hierdoor kan het niet onder 0 komen

Met log schaal

Bepaal se van log(parameter)
bereken BI van log(parameter)
Terug naar oorspronkelijke schaal

38
Q

Wat betekent 95% BI?

A

we weten 95% zeker dat populatie gemiddelde tussen deze waardes ligt

= 95% van de steekproeven bevat het enige echte populatie gemiddelde

39
Q
A
40
Q
A