HC.2 - Statistische begrippen Flashcards

1
Q

Wat zijn de drie demonen van de wetenschap?

A
  1. Dataduivel: data is slecht gearchiveerd (data is weg)
  2. Replicatieprobleem: studieresultaten moeten eigenlijk gecheckt worden (literaal kan toeval zijn)
  3. Verificatiekramp: te hard proberen om een gewenst resultaat te krijgen –> lang doorgaan vanzelf een keer significant resultaat (maar is toevalsbevinding)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat wordt er wel eens gedaan om de significantiekramp te beperken?

A

Pre-registratie: vooraf dingen afspreken met tijdschrift en dit hoeft niet per se om significantie te gaan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Voor welke twee dingen doen we gegevens verzameling?

A
  1. patienten zorg
  2. wetenschappelijk onderzoek
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is belangrijk bij het verzamelen van gegevens?

A
  1. compleetheid: achteraf niet meer dingen veranderen of corrigeren
  2. Nauwkeurigheid
  3. reproduceerbaarheid
    4 validiteit: meten wat je wil meten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hoe kunnen we nauwkeurigheid van gegevens verzameling waarborgen?

A
  1. gebruiken van meetprotocollen waardoor overal dezelfde manier gebruiken
  2. 1 Observer vs inter-observer variatie: meerdere mensen die het eens zijn met elkaars beoordelingen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welke drie dingen moet geprobeerd worden om te voorkomen/vermijden/beperken bij het verzamelen van gegevens?

A
  1. toevallige meetfouten: door onnauwkeurigheid van instrument of waarnemer (onnodige ruis)
    Zijn er ALTIJD ( niet te voorkomen) maar kans zo klein mogelijk maken
  2. systematische meetfouten: fouten in meetinstrument
    bvb fout geijkte bloeddrukmeter
    Probleem bij reproduceerbaarheid
  3. differentieel systematische meetfouten: in de ene groep wordt een andere systematische fout gemaakt dan in de andere groep –> hierdoor kan een verschil aangetoond worden dat er eigenlijk niet is
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welke twee variabelen zijn er?

A
  1. numerieke/kwantitatieve variabelen = getallen
  2. Categorische variabelen = groep
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Welke twee meetniveau’s kennen de variabelen?

A

Numerieke:
- discreet: gehele getallen bvb aantal dagen ziek, aantal kinderen (half niet mogelijk)
- Reele getallen bvb lengte, gewicht, bloeddruk, inkomen (kan elke waarde aannemen)

Categorisch:
- nominaal: geen ordening (geslacht, soort OK, klacht) dus een groep is niet meer of beter dan de ander
- ordinaal: wel rangorde (ernst ziekte, stagering van tumor) er kan een ongelijke afstand tussen de variabelen zitten (bvb niet ziek, beetje ziek, ernstig ziek)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat is het belang van het meetniveau?

A
  1. bepaalt hoe gegevens gepresenteerd worden
  2. Bepaalt hoe gegevens geanalyseerd moeten worden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hoe kunnen we gegevens presenteren mbv de 2 variabelen?

A
  1. numerieke variabelen
    - gemiddelde of mediaan
    - standaarddeviatie, interkwartielafstand
    - histogram, boxplot
  2. categorische variabelen:
    - percentages in de categorieen
    - taartdiagram
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat voor analyses kunnen we doen met numerieke (continue) uitkomst variabelen?

A
  1. T-test voor onafhankelijke groepen
    = vergelijken van gemiddelden. van groepen
    Bvb Is de daling van de bloeddruk verschillend bij behandeling A en B?
    NIET MET CATEGORISCHE VARIABELEN
  2. Lineaire regressie analyse = welke factoren bepalen bvb de daling
    - uitkomst MOET numeriek zijn en normaalverdeling hebben
    - variabelen maken niet uit dus kan numeriek of categorisch (wel goed in model zetten)
    - het zijn verklarende variabelen die op verschillende manieren gebruikt worden
    - corrigeren voor variabelen
    bvb welke factoren bepalen de grootte van de daling (bvb behandeling, geslacht, leeftijd, bloedgroep –> corrigeren hiervoor)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welke analyses gebruiken we voor categorische varialen?

A
  • Categorische variabelen zijn vaak dichotoom = twee mogelijke waarden bvb hypertensie tijdens zwangerschap: ja of nee
  • Chi-kwadraat toets: kruistabellen
    Komt het vaker voor bij vrouwen van niet-westerse achtergrond?
    KAN NIET MET NUMMERIEKE VARIABELEN
  • Logistische regressie analyse bij een CATEGORISCHE UITKOMST VARIABELE om risicofactoren te onderzoeken
    bvb hypertensie voorspellen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wanneer kan er GEEN lineaire regressie analyse worden gedaan?

A

Bij categorische uitkomst variabele
Dus ook niet als ja of nee uitkomst hebt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Voor welke twee dingen is statistiek nodig?

A
  1. er zit altijd spreiding en variabiliteit in de gegevens
  2. omdat medische/psychologische eigenschappen van mensen niet vast liggen in natuurkundige wetten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is de belangrijkst maat voor spreiding? Wat betekent dit?

A

Standaarddeviatie (SD)
Hoe gespreid is iedereen rond het gemiddelde –> hoe ver ligt iedereen van het gemiddelde af

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat is de centrum maat van de SD?

A

Het gemiddelde
= som van alle scores / aantal scores

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wat is een nadeel van het gebruik van gemiddelden?

A

Het is erg gevoelig voor extreme spreiding (hoog of laag)

18
Q

Hoe geven we numerieke uitkomsten over een populatie weer?

A

Met een Griekse letter

mu (u): gemiddelden
Pi: proportie (wel/niet) –> hoeveel % heeft complicaties

Sigma = verschil tussen twee gemiddelden uV - uM

betaleeftijd: regressie coefficient = hoeveel neemt de bloeddruk toe per 1 jaar ouder worden

RR = relatieve risico = kans op overlijden aan longkanker van rokers tov niet-rokers (populatie)

19
Q

Hoe wordt de SD berekend?

A

Via de Variantie

20
Q

Wat is een belangrijke eigenschap die een steekproef eigenlijk moet hebben?

A
  • aselect = random sampling dus iedereen in de populatie heeft evenveel kans om in de steekproef terecht te komen –> representatief
    Het is een statische assumptie

Praktijk: men hoopt dat de studiegroep even goed is als een echte aselectie steekproef maar het is nooit helemaal representatief

21
Q

Welke twee fouten kunnen voorkomen bij het maken van een steekproef?

A
  1. toevallige fout: altijd rekening houden met STEEKPROEF VARIABILITEIT omdat elke keer dat je een steekproef neemt verschilt deze –> gebeurt ALTIJD
    = selectie bias
  2. Bias of systematische fout: door fouten of gebreken in steekproef, meetmethoden, analyses
    –> Deze zo veel mogelijk voorkomen
22
Q

Wat is inferentiele statistiek?

A

Obv een steekproef iets zeggen over de gehele populatie

23
Q

Wat wordt bedoeld met een gemiddelde lengte van 1,70 m met een SD van 10? Hoeveel mensen vallen in de 2SD?

A

Dat gemiddeld de mensen in die populatie 1,70 m zijn waarbij de meeste 10 cm erboven of eronder zitten

95% van de mensen vallen in 2SD

24
Q

Waarvan is de spreiding (als we een gemiddelde nemen) afhankelijk?

A
  • spreiding van individuele waarden (populatie SD)
  • grootte van de steekproef
25
Hoe wordt de variantie berekent?
Elke score = Xi Gemiddelde = X Xi - X (geeft de lijn in grafiek weer) (Xi - X)^2 Van elle scores bereken je (Xi-X)^2 --> allemaal bij elkaar optellen Som hiervan delen door n -1 Uitkomst is ^2 (bvb lengte in m^2) Hieruit dus een wortel nemen --> gemiddelde spreiding rond het gemiddelde
26
Gemiddelde is u (mu) populație SD = s (sigma) steekproefgrootte = n wat bereken we in de Centrale limietstelling?
de verdeling van alle mogelijke steekproefgemiddelden is (bij benadering) een normale verdeling met Standaardafwijking = s / wortel n
27
Wat is het verschil tussen standaardafwijking en SD?
SD: hoever liggen individuele waarden van het gemiddelde Standaardafwijking: is bij benadering de gemiddelde afwijking tot het gemiddelde bij 1 steekproef (trekken er maar 1 steekproef uit wat belangrijk is om te beseffen)
28
Wat is het effect van de steekproef grootte op de standaardafwijking? Wat kunnen we hiermee zeggen over het populatie gemiddelde?
Hoe groter de groep hoe dichter bij het gemiddelde het ligt Als de groep heel groot is zal het steekproef gemiddelde dichter bij het werkelijke populatie gemiddelde liggen --> geeft hele kleine/nauwe spreiding -> wel iets zeggen over populatie gemiddelde Kleine n geeft een grotere spreiding --> niet veel zeggen over populatie gemiddelde
29
Waarvoor wordt het steekproef gemiddelde gebruikt?
Is de beste schatting van het populatie gemiddelde maar om iets te zeggen over hoe zeker zijn we hiervan gebruiken we de standaard error (fout)
30
Wat is de standaard error?
Spreiding rond het gemiddelde SE = SD / wortel n
31
Wat doen we met het betrouwbaarheidsinterval?
Berekenen welke populatie gemiddelden allemaal nog mogelijk zijn obv deze steekproef Dus je berekent een spreiding voor het populatie gemiddelde
32
Hoe berekenen we het betrouwbaarheidsinterval?
X = steekproefgemiddelde Z = z-waarde die hoort bij 95% betrouwbaarheidsinterval (1,96) u (mu) = populație gemiddelde X - Z x SE X + Z x SE = waar ligt 95% van de verdeling tussen volgens deze steekproef X - Z x SE < u < X + Z x SE
33
Hoe werkt de berekening bij regressie coëfficiënt?
Is de helling van een schuine lijn Obv verschillende steekproeven kan deze ook net iets anders zijn Voor de RC kan je ook een SE bereken etc
34
Waarvoor geldt het 95% BI?
- alle parameters die een normale verdeling hebben
35
Wat is nauwkeuriger dan de Z-verdeling? Waarbij gebruiken we deze?
T-verdeling (wat groter dan de Z) Bij kleinere groepen Hoe groter de steekproef hoe meer de T-verdeling gaat lijken op de Z-verdeling
36
Welke BI zijn er?
90% = factor 1,64 95% = factor 1,95 99% = factor 2,58 Een ander percentage geeft dus een andere z-waarde
37
Voor welke soort parameters kan een BI niet gebruikt worden? Hoe wordt hier mee omgegaan?
Voor OR, RR, HR omdat het ratio's zijn Hierdoor kan het niet onder 0 komen Met log schaal Bepaal se van log(parameter) bereken BI van log(parameter) Terug naar oorspronkelijke schaal
38
Wat betekent 95% BI?
we weten 95% zeker dat populatie gemiddelde tussen deze waardes ligt = 95% van de steekproeven bevat het enige echte populatie gemiddelde
39
40