Verdelingen en verdelingsmaten Flashcards

1
Q

Modus

A

meest voorkomende waarde in datareeks

Enige centrummaat bij nominale waarden (kleur / naam)

modaal inkomen komt hiervandaan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Centrummaten

A

Het doel van centrummaten is: informatie in een verzameling datapunten of waarnemingen op inzichtelijke en bruikbare wijze samenvatten in één getal dat de eigenschappen van deze verzameling zo goed mogelijk beschrijft. Drie belangrijke
centrummaten zijn het gemiddelde, de mediaan en de modus. Deze maten geven op verschillende manieren het ‘centrum’ van een bepaalde datareeks aan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Mediaan

A

De mediaan is simpelweg het middelste
datapunt in de datareeks, het middelste getal in de rij waarnemingen. Om dit te vinden worden eerst alle datapunten van laag naar hoog op een rijtje gezet.
Vervolgens wordt het middelste datapunt bepaald, dat wil zeggen het datapunt waar dezelfde hoeveelheid datapunten rechts (hoger) en links (lager) van liggen.
Bij een oneven aantal waarnemingen is de mediaan de middelste waarneming in de reeks; bij een even aantal waarnemingen wordt de mediaan gevonden door het gemiddelde te nemen van de twee middelste waarnemingen. Let op, in dat geval
komt de mediaan zelf niet als waarde van een ‘datapunt’ voor!

Wordt in praktijk niet veel gebruikt.

Mediaan is meest geschikte centrummaat voor ordinale variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Gemiddelde

A

Meest gebruikte centrummaat

Kan alleen betrekking hebben op getallen, niet op mensen of voorwerpen (‘de gemiddelde nederlander’)

x̄(gem) = Σ(xi)/n

Het gemiddelde kan eigenlijk alleen gebruikt worden voor metingen die verricht zijn
op intervalniveau of rationiveau.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

fallacy of misplaced concreteness

A

Iets abstracts zoals gemiddelde onterecht concreet maken (bijv. verwachten dat in casino de bal op rood komt, maar draaitafel heeft geen geheugen). Speelt ook bij verklaren menselijk gedrag door bijv motivatie, waarden, persoonlijkheid in plaats van concrete begrippen zoals hitte, lawaai, geldgebrek etc.

ook wel: reification (letterlijk: ‘verstoffelijking’)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Outliers

A

waarnemingen of datapunten die ver af liggen van de rest van de waarnemingen.
Hiermee bedoelen we: ver van het gemiddelde – in negatieve of in positieve richting. Beïnvloeden het gemiddelde flink

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Trimming

A

Weglaten van outliers in je analyse.
Van tevoren moet je vastleggen hoe ver een waarneming van het gemiddelde mag afwijken voordat je hem ‘mag’ verwijderen. Het is een kwestie van ‘good practice’ om, wanneer je bijvoorbeeld de laagste waarde in een reeks weghaalt omdat dat
een outlier is, je ook de hoogste waarde verwijdert, ook al is dat géén outlier.
Trimming is natuurlijk niet zo handig wanneer je relatief weinig data hebt of het verzamelen van data kostbaar is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Winsorizing

A

je verwijdert de outliers niet, maar je vervangt ze door van tevoren vastgestelde uiterste
boven‐ en ondergrenzen, die vaak worden bepaald door de 5% laagste en 5% hoogste waarden in je dataset.

Is handig bij relatief weinig data of als verzamelen van data kostbaar is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Range

A

Spreidingsmaat
het verschil (of de afstand) tussen de maximumwaarde en de
minimumwaarde in de dataset

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Interkwartielafstand (IQR)

A

Afstand tussen kwartiel 1 (hieronder zit 25% van de metingen) en kwartier 3 (hieronder zit 75% van de metingen).

Kleinere interkwartielafstand betekent een kleinere spreiding

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Variatie

A

Ook wel: Kwadratensom / Sum of Squares

De berekening van de variatie is heel rechttoe‐rechtaan:

  1. Bereken gemiddelde van alle metingen
  2. Trek dit gemiddelde af van elke afzonderlijke meting
    Elke waarneming wordt dus uitgedrukt als de afstand van die waarneming tot het gemiddelde.
  3. vervolgens worden alle afstanden (uit 2) afzonderlijk gekwadrateerd
  4. tenslotte worden alle gekwadrateerde afstanden (uit 3) bij elkaar opgeteld.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Variantie

A

Mean Sum of Squares (MSSs)

Deze maat houdt namelijk wél rekening met het
aantal datapunten. Het berekenen van de variantie van de waarnemingen in een
dataset is niet zo moeilijk: we delen de variatie (kwadratensom, Sum of Squares)
door het aantal waarnemingen minus 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Spreidingsmaten

A
  1. Bereik (range)
  2. Interkwartielafstand
  3. Standaarddeviatie
  4. Variantie

vooral van belang bij ratio of interval schalen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Steekproef

A

Ook wel sample uit een populatie
1. Aselecte steekproef (random sample) (willekeurig selecteren uit grote groep met iedereen even veel kans om geselecteerd te worden.
2. Representatieve steekproef (representative sample) Zoveel mogelijk representatief selecteren uit een grote groep zodat die personen passen bij de onderzochte variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Standaardafwijking

A

Standard deviation
Door het trekken van de wortel uit de variantie wordt de standaarddeviatie op dezelfde schaal gerepresenteerd als de waarnemingen en daardoor is hij transparanter en gemakkelijker te interpreteren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Spreiding

A

De afstand tussen verschillende waarnemingen

17
Q
A