Statistiek Flashcards
Continue variabelen
De variabele kan in een bepaald interval iedere waarde aannemen. Voorbeelden: lengte, gewicht, temperatuur.
Categorische variabelen
De variabele kan geen getal aannemen, maar kenmerken. Ook wel discrete variabelen. genoemd. Voorbeeld: bloedgroep A, man of rouw, welk vat, mening/geen mening ect.
Nulhypothese
Er is geen verschil
Populatie
De gehele groep waarin we geïnteresseerd zijn
Normaal verdeling
Veel voorkomende verdeling van gegevens: klokvorm, symmetrisch. Ook: verdeling van veel statische concenpten
Gemiddelde
De som van alle waarde, gedeeld door het totale aantal waarde
Deze kiezen wanneer ook de extreme waarden belangrijk zijn
Mediaan
De middelste waarde als je de dataset van kleinste naar grootste waarde rankschikt.
Deze kiezen als de uitschieters minder van belang zijn.
Standaarddeviatie
Standar deviation
Maat voor spreiding van gegevens/afwijkinge t.o.v. het gemiddelde
Standard errors (of the mean)
Standaardfout
Maat voor de onzekerheid van de gevonden schatting voor de uitkomst
P-waarde
Maat voor toevalligheid gevonden bevinding
P < 0.05 wordt als significant beschouwd
Betrouwbaarheidsinterval(BI of CI)
Als je het onderzoek oneindig vaak zou herhalen, zou …% van alle betrouwbaarheidsintervallen op de echte, ware populatiepercentage liggen.
Bestaat uit de boven en ondergrens van schatting die je verwacht te vinden.
Range
Geeft aan wat de laagste en hoogste waarde van data zijn.
Interquartille range (IQR)
De afstand tussen de eerste en derde kwartiel: de grens van het eerste is de waarde waarbij 25% van de data kleiner zijn; de grens van derde is de waarde waarbij 75% van de data kleiner zijn.
Het geeft indruk waar de extreme waarde liggen.
Percentielen
Een percentiel is in een geordende dataset een van de in principe 99 punten die de dataset in 100 delen van gelijke grootte verdelen.
Het k-de percentiel is dan een getal dat de k% kleinste data van de (100-k)% grootste scheidt.
Bij 95e percentiel, is 95% kleiner en 5% groter of gelijk aan
Steekproef
Sample
De groep waarin gegevens verzameld worden
Invloed van grootte van steekproef op resultaat?
- Een te kleine groep kan zorgen dat er geen significant resultaat is.
- Een te grote groep kan ervoor zorgen dat er altijd wel iets gevonden wordt.
Statistisch significant
Gevonden bevinding is geen toevalligheid
Betrouwbaarsniveau
Het percentage van de keren dat je verwacht in de buurt van dezelfde schatting te komen als je je experiment nog een keer uitvoert of opnieuw op dezelfde manier een steekproef uit de populatie haalt.
Toevallige fout
Random error
Afwijking van de echte uitkomst door toevallige, niet te controleren oorzaken
Systematische fout
Afwijking van de echte uitkomst alf gevolg van aanwijsbare reden
Correlatie
De statistische samenhang tussen twee grootheden. De variabelen veranderen samen, maar dat hoeft niet door een (indirect) oorzakelijk verband. De verandering hoeft dus niet perse de verandering van de andere te veroorzaken.
Correlatie impliceerd dus geen causaliteit
Causaliteit
Dat een verandering in de ene variabele de verandering in de andere variabele veroorzaakt, er is dus sprake van oorzaak-gevolgrelatie tussen variablelen. De twee zijn dus gecorreleerd en er is sprake van een causale relatie.
Causaliteit impliceert wel altijd een correlatie
Regressie analyse
Een statistische techniek voor het analyseren van gegevens waarin sprake is van een specifieke samenhang, aangeduid als regressie.
Je kan het gebruiken om de samenhang tussen twee variabelen te bepalen.
Survival analyse
Gebruikt voor data die informatie geeft over de tijd tot optreden van een bepaald event (overlijden, relapse, herstel enz). Dit is vanaf de start van follow-up van patiënt tot aan optreden van een event.
Correctie voor multiple testing
Door te corrigeren maak je daarmee de kans kleiner dat je ten onrechte de nulhypothese verwerkpt en daarmee ten onrechte een effect aanwijst (type 1 fout)
Bonferroni correctie
Deze stelt dat de a(p-waarde, die als statistisch significant wordt beschouwd) moet worden gedeelt door het aantal vergelijkingen waarvoor men toetst (n)
Bonferroni correctie p-waarde = a/n
Voorbeeld: p waarde is 0.05 en twee uitkomsten worden getoetst, dan is significantiegrens 0.05/2
Waar is de breedte van betrouwbaarheidsinterval afhankelijk van:
- Hoe groot moet de betrouwbaarheid zijn? (meestal 95%)
- Steekproefgrootte n
Referentie interval
Gebied rondom het gemiddelde waarin bepaald percentage van de gegevens ligt
Wanneer klopt de nulhypothese?
Als het gevonden resultaat ergens in het midden van de verdeling zit, dus dichtbij 0
Wanneer kan je de nulhypothese verwerpen?
Als het gevonden resultaat ver van het midden ligt, dus ergens in uiteindes/ in de 5% regio (significantie niveau).
Het moet kleiner dan 5 zijn
5% staat gelijk aan p=0.05
Wat zegt P < 0.05
De nulhypothese verwerpen, uitkomst is statistisch significant
Wat zegt P > 0.05
Geen rede om aan te nemen dat nulhypothese niet waar is, uitkomst is niet significant
Type 1 fout
De nulhypothese is waar, maar je vindt bij toeval een extreme uitkomst in steekproef.
Waardoor kan een Type 2 fout gemaakt worden
Deze wordt bepaald door steekproefgroote. Hoe groter de groep, hoe kleiner deze fout. Wordt vaak gemaakt als alternatieve hypothese dicht bij de nulhypothese ligt. (Hoe verder, hoe minde rkans op t2 fout)
Verband tussen P-waarde en betrouwbaarheidsintervallen?
- Als de nulhypothese in het betrouwbaarheidsinterval ligt (er zit een 0 in) Dan is het niet statistisch significant, wanneer niet, dan wel statistisch significant.
- Bij ratio is het niet een 0 erin, maar een 1
Type 2 fout
Nulhypothese is neit waar, maar je vindt toch een waarde onder de nulhypothese die niet zo extreem is
Hoe bereken je de power?
Power = 1 - type 2 fout, dus als power 80% is dan is type 2 20
%
Wat betekent een grote SD?
Dat de waarnemingen gemiddeld verder van het gemiddelde afliggen en er dus veel spreiding is.
Wat betekent een kleine SD?
Dat de waarden dicht rondom het gemiddelde liggen.
Wanneer een betrouwbaarheidsinterval van 68%?
Tussen - 1 SD en + 1 SD
Wanneer een betrouwbaarheidsinterval van 95%?
Tussen - 2 SD en + 2 SD