artikel verdelingen en verdelingsmaten Flashcards
centrummaten
samenvatten van waarnemingen op overzichtelijke en bruikbare wijze in 1 getal
reification
fallacy
misplaced concreteness
misplaatst gebruiken van gemiddelde
bv gemiddelde nederlander
of iets anders waarbij er geen sprake is van ratio niveau
gemiddelde
x̄(gem) = Σ(xi)/n
xi: datapunt
n: aantal waarnemingen/deelnemers
conceptuele beschrijving van gemiddelde
het punt op de schaal waarvoor geldt dat de som van de
gekwadrateerde afstanden van alle waarnemingen tot dat punt het kleinst is.
outliers
liggen ver af van de rest van de waarnemingen
altijd gedefinieerd in termen van afwijking van het gemiddelde
soms meetfout (335 jaar)
drukken relatief grote stempel op gemiddelde
zeker als uitschieters de andere kant op niet voor zullen komen
afweging maken. Let op:
Vooraf aan doen van analyses!! Niet pas als blijkt dat net niet significant is
Mogelijkheden:
trimming:
Van tevoren vastleggen hoeveel waarde van gemiddelde af moet liggen om weg te laten. Good practice: ook aan de andere kant hoogste/laagste weglaten
winsorizing:
vervangen door vooraf vastgestelde boven- ondergrenzen (vaak 5%)
bv. hoge uitschieter vervangen voor daarna hoogste score
uit brightspace:
alleen bij ratioschaal uitschieters één kant op mogelijk.
Maar: binnen bepaalde dataset kan allebei.
bv. groep bejaarden is baby uitschieter
groep baby’s is bejaarde uitschieter
mediaan
datapunten van laag naar hoog
middelste punt
even: soms van middelste twee getallen delen door 2
robuuster: minder last van uitschieters
maar ook: minder representatief
weinig gebruikt
alleen bij ordinale schaal
als je totaal aantal waarnemingen weet: het rangnummer: (n + 1)/2
interkwartiel
IQR: dit is voor spreidingsmaten wat de mediaan is voor centrummaten
25% in aansluitende volgorde
data op volgorde van laag naar hoog
kwartielen
berekenen:
eerst mediaan
bij oneven waarden:
dit getal telt niet bij berekenen Q1 en Q3!
whiskers
lijntjes in boxplot die uiterste waarden aangeven
vandaar ook wel box & whiskers-plot
Bij outliers, soms andere keuze:
Bv. ondergrens is 1,5 IQR naar beneden en voor bovengrens 1,5 IQR naar boven
waarnemingen die daar nog net binnen vallen zijn dan de whiskers (dit zijn wel altijd echte metingen!)
waarnemingen daarbuiten als losse punten
boxplot
manier om overzichtelijk weer te geven
verstandig om te vermelden hoe waarden berekend zijn
variatie
ook wel ‘sum of squares’/ kwadratensom
(géén kwadraat van som!!)
- eerst wordt het gemiddelde van alle waarnemingen berekend
- hierna wordt dit gemiddelde afgetrokken van elke afzonderlijke
waarneming. Elke waarneming wordt dus uitgedrukt als de afstand van die
waarneming tot het gemiddelde. - vervolgens worden alle afstanden afzonderlijk gekwadrateerd
- tenslotte worden alle gekwadrateerde afstanden bij elkaar opgeteld.
is hulpmiddel of tussenstap
zegt los niet zoveel, omdat sterk toeneemt bij meer waarden
vergelijken bij zelfde aantal waarden zou kunnen.
> Grootste kwadratensom= grootste spreiding
Ook snel grote verschillen. bv 3 en 5, wordt in kwadraat al 9 en 25
variantie
Mean sum of squares (MSSs)
al informatiever in praktijk, want houdt rekening met aantal datapunten
vaak gebruikt
gemiddelde van gekwadreerde afstanden tot het gemiddelde
variatie delen door (aantal waarnemingen -1)
nadeel: niet dezelfde schaal als de waarnemingen (door kwadraat)
daarom vooral hulpmiddel voor statistische doeleinden
steekproef
van oorsprong letterlijk
doel: om bij onderzoeken klein aantal waarnemingen conclusies te kunnen trekken over het grote geheel
aselect en representatief
> generaliseren
noodzakelijk hulpmiddel
eigenlijk altijd generaliseren,
anders is het casuïstiek
kan ook van contexten zijn, dan valt het meer onder toetsende statistiek
standaarddeviatie
standaardafwijking
wortel van variantie, nu wel op zelfde schaal
transparanter en makkelijker interpreteren
Maar:
niet zomaar gemiddelde van afwijkingen van gemiddelde!
want door kwadraat wegen metingen verder van gemiddelde af zwaarder mee
reden: veel dingen in de natuur die verder afliggen van gemiddelde zijn zeldzamer
dus standaarddeviatie zegt ook iets over hoeveel waarnemingen in set voorkomen die groter/kleiner zijn dan huidige afwijking
waarden onder gemiddelde > in negatieve standaardafwijking
gemiddelde 100, SD 80 = -1 SD
(betekent niet dat de waarde zelf negatief is!)
vaak in rapporten: gemiddelde +_SD
(plusmin geeft aan zowel naar boven als naar beneden)
zegt niks op ratio niveau
persoon +2 SD is niet 2x zo groot als +1 SD
schattingen
waarden van gemiddelde en SD n.a.v. steekproef zijn altijd schattingen
zie tabel 1 blz 17
parameters: variabelen die iets zeggen over de toestand van een systeem, bv gemiddelde of SD
maar gemiddelde en SD in steekproef zijn geen parameters maar statistieken:
> hiermee schat je de parameters van een populatie
dit noem je dan ook anders, zie tabel
visueel weergeven variabalen
histogram (staafdiagram)
categorieën gerangschikt
nominaal: vaak cirkeldiagram
ordinaal: vaak staafdiagram
interval/ratio: vaak curve, grafiek
altijd bij benadering, nooit helemaal continue verdeling
vorm van verdeling: modaliteit
ook wel toppigheid
aantal toppen van verdeling
(modus: meest voorkomend)
unimodaal = 1 top
stijgen en dalen in doorgaande lijn:
> monotoon stijgende of dalende curve
bimodaal: 2 toppen
vaak sprake van twee soorten populaties
veel statistische analysetechnieken kunnen niet toegepast hierbij
multimodaal: meer dan 2 toppen
goed om altijd grafiek én verdelingsmaat te bekijken
vorm verdeling: scheefheid
skewness
verdelingsmaat
bij perfecte symmetrie: 0
meer linksscheef: skewness kleiner (meer negatief)
meer rechtsscheef: sk. groter (meer positief)
altijd unimodaal
scheve verdeling = asymmetrisch
negatief scheef of positief scheef
gemiddelde van scheve verdeling ligt in de richting van de staart, de kant waar hij uitgerekt is.
gemiddelde ligt dan ook links of recht van de modus
vloereffect: veel net boven minimum
plafondeffect: veel net onder maximum
spitsheid
kurtosis/ welving
hoe plat of spits verdeling is
erg spits: leptokurte
erg plat: platykurte
> uniforme verdeling: alle waarden even vaak (heel plat)
vaak: ontbreken van toevalsfluctuatie
> heel spits: allemaal dezelfde waarde
vaak beter: ordinale schaal, want ws aantal waarden te beperkt
geen criteria voor
geen natuurlijke middenwaarde
normaal verdeling
symmetrisch qua spitsheid en platheid
skewness: 0
kurtosis: 0
unimodaal (diptest: 0)
modus, mediaan en gemiddelde vallen samen
kurtosis van normale verdeling = 3
in SPSS gewerkt met 3 minder, dus 0
uiterste waarde, bij uniforme verdeling: -3
negatieve waarde: platter dan normaal: excess kurtosis
bell curve
wetenschappelijke naam: Gauss curve
basis van verdeling:
centrale limietstelling > gemiddelde van groot aantal waarnemingen is bij benadering normaal verdeeld
ook wanneer de variabelen dat zelf niet zijn
68,2% van de waarden ligt tussen -1 SD en 1 SD
95,4% tussen -2 en 2 SD
dus: ll wijkt 1 sd af naar boven
daaronder: 5/6 (1/2 + 1/3)
niet normaal verdeelde ruis
bias
normaal: tot stand gekomen op basis van toeval > ruis normaal verdeeld
knoeien > minder ruis op basis van toeval
mogelijkheid van normaalverdeling
ondanks andere schaal, toch variabelen vergelijken
bv. van persoon is lengte 0,2 sd boven gemiddelde en gewicht 0,5 sd onder
standaardnormale verdeling
ook wel z-verdeling
omzetten in z-scores: standaardisering
(x - gemiddelde): sd
verdeling is vrij klein, want standaardnormaalverdeling is in principe een kansfunctie, dus totale oppervlakte onder curve is 1 (kans kan niet groter zijn dan 1) Zie ook tabel z-scores, veel ‘kleine’ getallen
z-scores niet noodzakelijk normaal verdeeld. daarvoor grafiek bekijken
vb. lengte: door meerdere genen, dus waarschijnlijk normaal
ogen: door weinig genen, dus ws niet
ook: ten opzichte van welke populatie.
bv. lengte, standaard bij gezonde mensen