artikel verdelingen en verdelingsmaten Flashcards

1
Q

centrummaten

A

samenvatten van waarnemingen op overzichtelijke en bruikbare wijze in 1 getal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

reification
fallacy
misplaced concreteness

A

misplaatst gebruiken van gemiddelde
bv gemiddelde nederlander
of iets anders waarbij er geen sprake is van ratio niveau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

gemiddelde

A

x̄(gem) = Σ(xi)/n

xi: datapunt
n: aantal waarnemingen/deelnemers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

conceptuele beschrijving van gemiddelde

A

het punt op de schaal waarvoor geldt dat de som van de
gekwadrateerde afstanden van alle waarnemingen tot dat punt het kleinst is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

outliers

A

liggen ver af van de rest van de waarnemingen

altijd gedefinieerd in termen van afwijking van het gemiddelde

soms meetfout (335 jaar)

drukken relatief grote stempel op gemiddelde
zeker als uitschieters de andere kant op niet voor zullen komen

afweging maken. Let op:
Vooraf aan doen van analyses!! Niet pas als blijkt dat net niet significant is

Mogelijkheden:
trimming:
Van tevoren vastleggen hoeveel waarde van gemiddelde af moet liggen om weg te laten. Good practice: ook aan de andere kant hoogste/laagste weglaten

winsorizing:
vervangen door vooraf vastgestelde boven- ondergrenzen (vaak 5%)
bv. hoge uitschieter vervangen voor daarna hoogste score

uit brightspace:
alleen bij ratioschaal uitschieters één kant op mogelijk.
Maar: binnen bepaalde dataset kan allebei.
bv. groep bejaarden is baby uitschieter
groep baby’s is bejaarde uitschieter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

mediaan

A

datapunten van laag naar hoog
middelste punt

even: soms van middelste twee getallen delen door 2

robuuster: minder last van uitschieters
maar ook: minder representatief

weinig gebruikt
alleen bij ordinale schaal

als je totaal aantal waarnemingen weet: het rangnummer: (n + 1)/2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

interkwartiel

A

IQR: dit is voor spreidingsmaten wat de mediaan is voor centrummaten

25% in aansluitende volgorde

data op volgorde van laag naar hoog

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

kwartielen

A

berekenen:
eerst mediaan
bij oneven waarden:
dit getal telt niet bij berekenen Q1 en Q3!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

whiskers

A

lijntjes in boxplot die uiterste waarden aangeven

vandaar ook wel box & whiskers-plot

Bij outliers, soms andere keuze:
Bv. ondergrens is 1,5 IQR naar beneden en voor bovengrens 1,5 IQR naar boven
waarnemingen die daar nog net binnen vallen zijn dan de whiskers (dit zijn wel altijd echte metingen!)
waarnemingen daarbuiten als losse punten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

boxplot

A

manier om overzichtelijk weer te geven

verstandig om te vermelden hoe waarden berekend zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

variatie

A

ook wel ‘sum of squares’/ kwadratensom
(géén kwadraat van som!!)

  1. eerst wordt het gemiddelde van alle waarnemingen berekend
  2. hierna wordt dit gemiddelde afgetrokken van elke afzonderlijke
    waarneming. Elke waarneming wordt dus uitgedrukt als de afstand van die
    waarneming tot het gemiddelde.
  3. vervolgens worden alle afstanden afzonderlijk gekwadrateerd
  4. tenslotte worden alle gekwadrateerde afstanden bij elkaar opgeteld.

is hulpmiddel of tussenstap
zegt los niet zoveel, omdat sterk toeneemt bij meer waarden
vergelijken bij zelfde aantal waarden zou kunnen.
> Grootste kwadratensom= grootste spreiding

Ook snel grote verschillen. bv 3 en 5, wordt in kwadraat al 9 en 25

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

variantie

A

Mean sum of squares (MSSs)

al informatiever in praktijk, want houdt rekening met aantal datapunten
vaak gebruikt

gemiddelde van gekwadreerde afstanden tot het gemiddelde

variatie delen door (aantal waarnemingen -1)

nadeel: niet dezelfde schaal als de waarnemingen (door kwadraat)
daarom vooral hulpmiddel voor statistische doeleinden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

steekproef

A

van oorsprong letterlijk

doel: om bij onderzoeken klein aantal waarnemingen conclusies te kunnen trekken over het grote geheel
aselect en representatief
> generaliseren

noodzakelijk hulpmiddel
eigenlijk altijd generaliseren,
anders is het casuïstiek

kan ook van contexten zijn, dan valt het meer onder toetsende statistiek

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

standaarddeviatie

A

standaardafwijking
wortel van variantie, nu wel op zelfde schaal

transparanter en makkelijker interpreteren

Maar:
niet zomaar gemiddelde van afwijkingen van gemiddelde!
want door kwadraat wegen metingen verder van gemiddelde af zwaarder mee
reden: veel dingen in de natuur die verder afliggen van gemiddelde zijn zeldzamer

dus standaarddeviatie zegt ook iets over hoeveel waarnemingen in set voorkomen die groter/kleiner zijn dan huidige afwijking

waarden onder gemiddelde > in negatieve standaardafwijking
gemiddelde 100, SD 80 = -1 SD
(betekent niet dat de waarde zelf negatief is!)

vaak in rapporten: gemiddelde +_SD
(plusmin geeft aan zowel naar boven als naar beneden)

zegt niks op ratio niveau
persoon +2 SD is niet 2x zo groot als +1 SD

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

schattingen

A

waarden van gemiddelde en SD n.a.v. steekproef zijn altijd schattingen

zie tabel 1 blz 17

parameters: variabelen die iets zeggen over de toestand van een systeem, bv gemiddelde of SD
maar gemiddelde en SD in steekproef zijn geen parameters maar statistieken:
> hiermee schat je de parameters van een populatie
dit noem je dan ook anders, zie tabel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

visueel weergeven variabalen

A

histogram (staafdiagram)
categorieën gerangschikt

nominaal: vaak cirkeldiagram
ordinaal: vaak staafdiagram

interval/ratio: vaak curve, grafiek
altijd bij benadering, nooit helemaal continue verdeling

17
Q

vorm van verdeling: modaliteit

A

ook wel toppigheid
aantal toppen van verdeling
(modus: meest voorkomend)

unimodaal = 1 top

stijgen en dalen in doorgaande lijn:
> monotoon stijgende of dalende curve

bimodaal: 2 toppen
vaak sprake van twee soorten populaties
veel statistische analysetechnieken kunnen niet toegepast hierbij

multimodaal: meer dan 2 toppen

goed om altijd grafiek én verdelingsmaat te bekijken

18
Q

vorm verdeling: scheefheid

A

skewness
verdelingsmaat
bij perfecte symmetrie: 0
meer linksscheef: skewness kleiner (meer negatief)
meer rechtsscheef: sk. groter (meer positief)

altijd unimodaal

scheve verdeling = asymmetrisch
negatief scheef of positief scheef

gemiddelde van scheve verdeling ligt in de richting van de staart, de kant waar hij uitgerekt is.
gemiddelde ligt dan ook links of recht van de modus

vloereffect: veel net boven minimum
plafondeffect: veel net onder maximum

19
Q

spitsheid

A

kurtosis/ welving

hoe plat of spits verdeling is

erg spits: leptokurte
erg plat: platykurte

> uniforme verdeling: alle waarden even vaak (heel plat)
vaak: ontbreken van toevalsfluctuatie

> heel spits: allemaal dezelfde waarde
vaak beter: ordinale schaal, want ws aantal waarden te beperkt

geen criteria voor
geen natuurlijke middenwaarde

20
Q

normaal verdeling

A

symmetrisch qua spitsheid en platheid
skewness: 0
kurtosis: 0
unimodaal (diptest: 0)
modus, mediaan en gemiddelde vallen samen

kurtosis van normale verdeling = 3
in SPSS gewerkt met 3 minder, dus 0

uiterste waarde, bij uniforme verdeling: -3
negatieve waarde: platter dan normaal: excess kurtosis

bell curve
wetenschappelijke naam: Gauss curve

basis van verdeling:
centrale limietstelling > gemiddelde van groot aantal waarnemingen is bij benadering normaal verdeeld
ook wanneer de variabelen dat zelf niet zijn

68,2% van de waarden ligt tussen -1 SD en 1 SD
95,4% tussen -2 en 2 SD

dus: ll wijkt 1 sd af naar boven
daaronder: 5/6 (1/2 + 1/3)

21
Q

niet normaal verdeelde ruis

A

bias

normaal: tot stand gekomen op basis van toeval > ruis normaal verdeeld
knoeien > minder ruis op basis van toeval

22
Q

mogelijkheid van normaalverdeling

A

ondanks andere schaal, toch variabelen vergelijken
bv. van persoon is lengte 0,2 sd boven gemiddelde en gewicht 0,5 sd onder

23
Q

standaardnormale verdeling

A

ook wel z-verdeling

omzetten in z-scores: standaardisering

(x - gemiddelde): sd

verdeling is vrij klein, want standaardnormaalverdeling is in principe een kansfunctie, dus totale oppervlakte onder curve is 1 (kans kan niet groter zijn dan 1) Zie ook tabel z-scores, veel ‘kleine’ getallen

z-scores niet noodzakelijk normaal verdeeld. daarvoor grafiek bekijken

vb. lengte: door meerdere genen, dus waarschijnlijk normaal
ogen: door weinig genen, dus ws niet

ook: ten opzichte van welke populatie.
bv. lengte, standaard bij gezonde mensen