Statistiek Flashcards
populatie
- populatie = N
- verzameling van subjecten met minstens 1 gemeenschappelijk kenmerk
- nagenoeg onbeperkt groot
- steekproef uit populatie trekken - steekproef = n
- deelverzameling van subjecten die toevallig uit populatie getrokken zijn
- eindig
- moet representatief zijn = bias vermijden
- gebruiken voor inschatten van poulatie
steekproef = statistieken <=> parameters = populaties
variabelen
- variabele = x
- karakteristiek van een populatie
- kan verschillende waarden/attributen aannemen
- attribuut = specifieke waarde van een variabele - soorten
- onafhankelijke variabele = beïnvloed of veroorzaakt de studievariabelen
- afhankelijke variabele = wordt beïnvloed door andere variabelen
meetniveaus van variabeles
categorische variabelen
- nominaal
- categoriën die mutueel exclusief zijn
- geen onderlinge rangorde
- vb: geslacht - ordinaal
- categoriën die mutueel exclusief zijn
- wel onderlinge rangorde
- vb: leeftijd
numerieke variabelen
- interval
- gelijke intervallen = gelijke verschillen
- geen absolute 0
- vb: graden ceclius - ratio
- gelijke intervallen = gelijke verschillen
- absolute 0
- vb: graden kelvin
andere soorten variabelen
- kwantitatief/kwalitatief
- kwantitatief = getalswaarde = numerieke variabelen
- kwalitatief = eigenschap = categorische variabele - discreet/continu
- discreet = geen tussenwaardes
- continu = oneindig veel tussenwaarden
dichtome variabele = 2 antwoord mogelijkheiden
beschrijvende statistiek
centrale maten
- rekenkundig gemiddelde
- mediaan
- modus (van uni tot multimodaal mogelijk)
spreidingsmaten
- variatie, standaard deviatie & variatiecoëfficiënt
- percentiel, interkwartielafstand & - interval
- bereik & bereikinterval
grafieken & centrale maten
linksscheef = piek ligt rechts
x < M < modus
symetrisch
x = M = modus
rechtsscheef = piek ligt links
x > M > modus
meetniveaus & centrale maten
gemiddelde
- enkel numerieke variabele
- gevoelig aan outliers
mediaan
- niet voor nominale variabele
- niet gevoelig voor outliers
modus
- voor alle variabeles
- niet gevoelig voor outliers
variatie & rapportering
= S
= schatting voor populatie
n-1 = aantal vrijheidsgraden
= aantal waarden gegeven & gemiddelde vooraleer andere waarde berekenen
rapportering:
gemiddelde & mediaan = 1 decimaal nauwkeuriger als data
standaarddeviatie = 1 decimaal nauwkeuriger als gemiddelde
meetniveaus & spreidingsmaten
- variatie & standaard deviatie
- enkel voor numerieke variabelen
- gevoelig voor outliers - variatiecoëfficient
- enkel voor ratio
- gevoelig outliers - interkwartielafstand & -interval
- afstand = numerieke variabelen
- interval = alles buiten nominaal
- niet gevoelig voor outliers - bereik & bereikinterval
- afstand = numerieke variabelen
- interval = alles buiten nominaal
- gevoelig voor outliers
soorten grafische voorstellingen
- kruistabel = contingentietabel
- categorische variabelen = nominaal & ordinaal
- classificeren van 2 items door kwalitatieve variabelen
- elke cel geeft frequentie/percentage weer
- totale rij/kolomfrequenties = marginale totalen - histogram
- grafische voorschelling continue variabele
- onderverdelen in 8-20klasses
- indelen op zelfde klassebreedte
- hoogde ≈ frequentie - staafdiagram
- box-ans-whiskerplot = boxplot
- 5 nummer summerary = min-Q1-med-Q3-max
- afbakening = interkwartiel afstand = Q1-Q3
- horizontale streep = mediaan
- whiskers = meest extreme waarden buiten outliers
- outlier = cirkel = 1,5x standaarddeviatie
- ster = extreme waarde - scatter diagram = elk punt = 1 waarneming = wolk
- takbladdiagram = stem-and-leaf plot
- takken = klassen
- aantallen binnen elke tak
eigenschappen v/d normaal verdeling
- dezelfde vorm: klokvormig, unimodaal & symmetrisch
- gemiddelde, mediaan & modus vallen samen
- bepaald door parameters μ & σ2
- integraal = 1
- P(X=x) = 0 -> geen enkele waarde heeft exact dat getal
- verwachtingsgebieden
– 1 x σ = 68%
– 2 x σ = 95%
– 3 x σ = 99%
Z-waarde = aantal standaarddeviates van het gemiddelde
- in tabellen per opp links van standaard normaal verdeling
soorten steekproeven
1) eenvoudig aselecte steekproef
= simple random sample
= toevalsgestuurde steekproef
- kans om een bepaald element te selecteren is gelijk
2) niet-toevalsgestuurde steekproef
- convient sample =onderzoeker kiest = op basis van gemakkelijke beschikbaarheid
- voluntary responssample = proefpersoon kiest = op basis van vrijwilligheid
steekproevendistributie
= variatie van de statistiek in alle mogelijke steekproeven met dezelde grootte van populatie
= X_
= normaalverdeling
–> de verdeling van de steekproefgemiddeldes van steekproeven met dezelfde grootte
puntschatter = 1 meting
-> meerdere steekproefgemiddeldes = vormen van distributie
steekproevenvariatie
centrale limiet theorema = CLT
- steekproeven
- verdelen zich niet perse normaal
- steekproevendistrubute zal zich normaal verdelen
- als n > 30
–> SEM = standard error of the meen
betrouwbaarheisinterval
1) betrouwbaarheids interval = min & max limieten bepalen
2) Z-scores bepalen
3) formule formularium
hoe smaller betrouwbaarheid interval hoe nauwkeuriger mu
- kleinere Z-waarde = smaller interval = minder zekerheid
- groote van populatie groote = groter = nauwkeuriger
- sigma = kleiner = nauwkeuriger
toevalsveranderlijke
- grensen van interval zijn een toevalsvariabele = liggen niet vast tot als meting is uitgevoerd
- mu ≠ stochastische veranderlijke: kans dat mu… kan niet
–> steekproef waarde maar geen populatie waarde
onderscheid voor & nar nemen van steekproef
- steekproef niet nemen = kans dat steekproef gemiddelde tussen grenzen liggen
- steekproef genomen = kans 1 of 0: ligt er tussen of niet
hypothese testen
nulhypothese = H0: μ = μ0
alternatieve hypothese = H1
tweezijdige toets: μ ≠ μ0
- enkelzijdig linkse toest: μ < μ0
- enkelzijdig rechtse toets: μ > μ0
stappenplan
1) difineer nul- & alternatieve hyptohese
2) verzamel data
3) bereken teststatistiek onder H0
4) vergelijk teststatistiek met waarden van gekende distributie
5) testen
methodes om nulhypothese te controleren
1) teststatistiek
- linkzijdig verwerpen als Z < zα
- rechtszijdig verwerpen als Z > z1-α
- tweezijdig verwerpen als (Z) > Z1-α/2
2) p-waarde = overschrijdingskans = voorwaardelijke kans
- kans dat het resultaat nog extremer bekomt als H0 waar is
- p < α = significant = H0 verwerpen & H1 aanvaarden
- p >= α = niet-significant = H0 niet verwerpen ≠ H0 klopt
–> statistische significant ≠ klinisch relevant
steekproefgrootte kan een significant resultaat produceren zonder dat dit daadwerlijke van belang is
3) betrouwbaarheids intervallen
- formule in formularium
- alsμ0 buiten berekende BI ligt = H0 verwerpen
type I & II fout
- type I = kans om ten onrechte H0 te verwerpen als H0 juist is
- type II = kans om ten onrechte H0 niet te verwerpen als H0 fout is
- α & β
- type I = α
- type II = β
- H0 juist & H0 niet verwerpen = 1- α
- H0 onjuist & H0 verwerpen = 1 - β
–> power van hypothese test = de probabiliteit op niet maken van type II fout
vergroten door
- grotere effect size
- lagere variatie
- grotere steekproefgrootte
- grotere α
test voor populatie gemiddelde
- gebruik
- als σ niet gekent is
- gebruiken van S = steekproefvariatie = zelfberekenen - distrubutie = tdf
- enige parameter = vrijheidsgraden = n-1
- oneindig veel T-verdelingen
- meer opp in staarten <=> minder in centrum
- meer vrijheidsgraden ≈ normaal verdeling - voorwaarden
- aselecte steekproef uit 1 populatie
- continue variabelen die normaal verdeeld zijn - testen
- stappenplan ≈ Z-test
- testen door kiritieke waarde, p-waarde & betrouwbaarheidsinterval
X2 goodness-of-fit test
- gebruik
- categroische variabele = nominaal & ordinaal
- aselecte steekproef uit 1 populatie
- testen van variabele op vooropgestelde distrubutie
H0 = vooropgestelde distributie
H1 = verschillend van distributie - gebruik van formule
- voor elke categorie toepassen & optellen
- Oi = observed = meting
- Ei = expected = gegeven
- overeenkomen = H0 aaccepteren
- altijd positieve waardes - distrubutie
- enige parameter = aantal vrijheidsgraden k-1
- rechts scheef
- meer vrijheidsgraden ≈ normaal verdeling - voorwaarden
- niet meer als 20% van de verwachte frequenties kleiner als 5
- geen enkele verwachte frequentie kleiner als 1