Verdelingen en verdelingsmaten Flashcards
Modus
meest voorkomende waarde in datareeks
Enige centrummaat bij nominale waarden (kleur / naam)
modaal inkomen komt hiervandaan.
Centrummaten
Het doel van centrummaten is: informatie in een verzameling datapunten of waarnemingen op inzichtelijke en bruikbare wijze samenvatten in één getal dat de eigenschappen van deze verzameling zo goed mogelijk beschrijft. Drie belangrijke
centrummaten zijn het gemiddelde, de mediaan en de modus. Deze maten geven op verschillende manieren het ‘centrum’ van een bepaalde datareeks aan
Mediaan
De mediaan is simpelweg het middelste
datapunt in de datareeks, het middelste getal in de rij waarnemingen. Om dit te vinden worden eerst alle datapunten van laag naar hoog op een rijtje gezet.
Vervolgens wordt het middelste datapunt bepaald, dat wil zeggen het datapunt waar dezelfde hoeveelheid datapunten rechts (hoger) en links (lager) van liggen.
Bij een oneven aantal waarnemingen is de mediaan de middelste waarneming in de reeks; bij een even aantal waarnemingen wordt de mediaan gevonden door het gemiddelde te nemen van de twee middelste waarnemingen. Let op, in dat geval
komt de mediaan zelf niet als waarde van een ‘datapunt’ voor!
Wordt in praktijk niet veel gebruikt.
Mediaan is meest geschikte centrummaat voor ordinale variabelen.
Gemiddelde
Meest gebruikte centrummaat
Kan alleen betrekking hebben op getallen, niet op mensen of voorwerpen (‘de gemiddelde nederlander’)
x̄(gem) = Σ(xi)/n
Het gemiddelde kan eigenlijk alleen gebruikt worden voor metingen die verricht zijn
op intervalniveau of rationiveau.
fallacy of misplaced concreteness
Iets abstracts zoals gemiddelde onterecht concreet maken (bijv. verwachten dat in casino de bal op rood komt, maar draaitafel heeft geen geheugen). Speelt ook bij verklaren menselijk gedrag door bijv motivatie, waarden, persoonlijkheid in plaats van concrete begrippen zoals hitte, lawaai, geldgebrek etc.
ook wel: reification (letterlijk: ‘verstoffelijking’)
Outliers
waarnemingen of datapunten die ver af liggen van de rest van de waarnemingen.
Hiermee bedoelen we: ver van het gemiddelde – in negatieve of in positieve richting. Beïnvloeden het gemiddelde flink
Trimming
Weglaten van outliers in je analyse.
Van tevoren moet je vastleggen hoe ver een waarneming van het gemiddelde mag afwijken voordat je hem ‘mag’ verwijderen. Het is een kwestie van ‘good practice’ om, wanneer je bijvoorbeeld de laagste waarde in een reeks weghaalt omdat dat
een outlier is, je ook de hoogste waarde verwijdert, ook al is dat géén outlier.
Trimming is natuurlijk niet zo handig wanneer je relatief weinig data hebt of het verzamelen van data kostbaar is.
Winsorizing
je verwijdert de outliers niet, maar je vervangt ze door van tevoren vastgestelde uiterste
boven‐ en ondergrenzen, die vaak worden bepaald door de 5% laagste en 5% hoogste waarden in je dataset.
Is handig bij relatief weinig data of als verzamelen van data kostbaar is.
Range
Spreidingsmaat
het verschil (of de afstand) tussen de maximumwaarde en de
minimumwaarde in de dataset
Interkwartielafstand (IQR)
IQR= Q3(3e kwartiel, 75%) -Q1 (1e kwartiel, 25%).
Afstand tussen kwartiel 1 (hieronder zit 25% van de metingen) en kwartier 3 (hieronder zit 75% van de metingen).
Kleinere interkwartielafstand betekent een kleinere spreiding
Variatie / sum of squares
Ook wel: Kwadratensom / Sum of Squares
De berekening van de variatie is heel rechttoe‐rechtaan:
- Bereken gemiddelde van alle metingen
- Trek dit gemiddelde af van elke afzonderlijke meting
Elke waarneming wordt dus uitgedrukt als de afstand van die waarneming tot het gemiddelde. - vervolgens worden alle afstanden (uit 2) afzonderlijk gekwadrateerd
- tenslotte worden alle gekwadrateerde afstanden (uit 3) bij elkaar opgeteld.
Variantie / mean sum of squares
Mean Sum of Squares (MSSs)
Houdt rekening met het aantal datapunten.
berekenen:
variatie (sum of squares) : aantal waarnemingen (populatie) of aantaal waarnemingen -1 (steekproef).
Variantie = Variatie : (N-1) of N
Spreidingsmaten
- Bereik (range)
- Interkwartielafstand
- Standaarddeviatie
- Variantie
vooral van belang bij ratio of interval schalen
Steekproef
+ de 2 soorten noemen
Ook wel sample uit een populatie
1. Aselecte steekproef (random sample) (willekeurig selecteren uit grote groep met iedereen even veel kans om geselecteerd te worden.
2. Representatieve steekproef (representative sample) Zoveel mogelijk representatief selecteren uit een grote groep zodat die personen passen bij de onderzochte variabele.
Standaardafwijking / standaarddeviatie
Standard deviation
SD= wortel van > Variantie
Door het trekken van de wortel uit de variantie wordt de standaarddeviatie op dezelfde schaal gerepresenteerd als de waarnemingen en daardoor is hij transparanter en gemakkelijker te interpreteren.
Geeft de spreiding aan, één van de meest gebruikte spreidingsmaten
hoe lager de standaarddeviatie hoe dichter de losse scores rondom het gemiddelde concentreren, hoe hoger de standaarddeviatie, hoe meer verspreid ze van het gemiddelde afliggen.
vb: kamerprijzen steden, gemiddelde is hetzelfde, deviatie is verschillend dus meer spreiding.