Statistiek 1-5 Flashcards
5 clean data checks
- Missing
- Range checks
- Outlier checks
- Distribution checks
- Logical checks
verschil disreet en contious
discreet alleen hele getallen. continous kan alle getallen aannemen.
Nominaal vs ordinaal?
nominal: > 2 categorieen niet geordenend: bloedgroep
ordinal: > 2 categorieen wel geordend: pijnscore 1-5
mode, mean, median
Modus: getal wat meest voor komt. (meerdere of geen modus mogelijk
(arithmetic) mean: disproportionately affected by outliers. distributie checken van tevoren
median: center of the data set (ranked highest to lowest. less effected by outliers
def: variance, def SD
Variance: mean of squared deviatons
SD: wortel(variance)
Voordeel: mean + sd?
gebruikt alle informatie, makkelijk te inetrpreteren. cave: gevoelig voor outliers
Voor/nadeel van assymetrische verdelingen standaaarden
Range: makkelijk e verrihten, easily distorted
Percentiles: niet zo snel distorted by outliers
5 eigenscappen normale verdeling
- bell shaped
- symmetrical around its mean
- mean and median are equal
- one top
- fully described by mean and SD
3 manieren van normaliteits bepaling
summary statisstics
visual inspection
formal tests
Q-Q plot?
shows quantiles. X as = quantilen eigen data, Y as = verwacht als normale distributie gevolgd zou worden
Downsides Kolmogorov Smrinov test and shapiro wilk test
- in small samples insufficiient power
- large samples, smal deviates are flagged as significantly deviant