Verdelingen en verdelingsmaten Flashcards

1
Q

Modus

A

meest voorkomende waarde in datareeks

Enige centrummaat bij nominale waarden (kleur / naam)

modaal inkomen komt hiervandaan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Centrummaten

A

Het doel van centrummaten is: informatie in een verzameling datapunten of waarnemingen op inzichtelijke en bruikbare wijze samenvatten in één getal dat de eigenschappen van deze verzameling zo goed mogelijk beschrijft. Drie belangrijke
centrummaten zijn het gemiddelde, de mediaan en de modus. Deze maten geven op verschillende manieren het ‘centrum’ van een bepaalde datareeks aan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Mediaan

A

De mediaan is simpelweg het middelste
datapunt in de datareeks, het middelste getal in de rij waarnemingen. Om dit te vinden worden eerst alle datapunten van laag naar hoog op een rijtje gezet.
Vervolgens wordt het middelste datapunt bepaald, dat wil zeggen het datapunt waar dezelfde hoeveelheid datapunten rechts (hoger) en links (lager) van liggen.
Bij een oneven aantal waarnemingen is de mediaan de middelste waarneming in de reeks; bij een even aantal waarnemingen wordt de mediaan gevonden door het gemiddelde te nemen van de twee middelste waarnemingen. Let op, in dat geval
komt de mediaan zelf niet als waarde van een ‘datapunt’ voor!

Wordt in praktijk niet veel gebruikt.

Mediaan is meest geschikte centrummaat voor ordinale variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Gemiddelde

A

Meest gebruikte centrummaat

Kan alleen betrekking hebben op getallen, niet op mensen of voorwerpen (‘de gemiddelde nederlander’)

x̄(gem) = Σ(xi)/n

Het gemiddelde kan eigenlijk alleen gebruikt worden voor metingen die verricht zijn
op intervalniveau of rationiveau.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

fallacy of misplaced concreteness

A

Iets abstracts zoals gemiddelde onterecht concreet maken (bijv. verwachten dat in casino de bal op rood komt, maar draaitafel heeft geen geheugen). Speelt ook bij verklaren menselijk gedrag door bijv motivatie, waarden, persoonlijkheid in plaats van concrete begrippen zoals hitte, lawaai, geldgebrek etc.

ook wel: reification (letterlijk: ‘verstoffelijking’)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Outliers

A

waarnemingen of datapunten die ver af liggen van de rest van de waarnemingen.
Hiermee bedoelen we: ver van het gemiddelde – in negatieve of in positieve richting. Beïnvloeden het gemiddelde flink

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Trimming

A

Weglaten van outliers in je analyse.
Van tevoren moet je vastleggen hoe ver een waarneming van het gemiddelde mag afwijken voordat je hem ‘mag’ verwijderen. Het is een kwestie van ‘good practice’ om, wanneer je bijvoorbeeld de laagste waarde in een reeks weghaalt omdat dat
een outlier is, je ook de hoogste waarde verwijdert, ook al is dat géén outlier.
Trimming is natuurlijk niet zo handig wanneer je relatief weinig data hebt of het verzamelen van data kostbaar is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Winsorizing

A

je verwijdert de outliers niet, maar je vervangt ze door van tevoren vastgestelde uiterste
boven‐ en ondergrenzen, die vaak worden bepaald door de 5% laagste en 5% hoogste waarden in je dataset.

Is handig bij relatief weinig data of als verzamelen van data kostbaar is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Range

A

Spreidingsmaat
het verschil (of de afstand) tussen de maximumwaarde en de
minimumwaarde in de dataset

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Interkwartielafstand (IQR)

A

IQR= Q3(3e kwartiel, 75%) -Q1 (1e kwartiel, 25%).

Afstand tussen kwartiel 1 (hieronder zit 25% van de metingen) en kwartier 3 (hieronder zit 75% van de metingen).

Kleinere interkwartielafstand betekent een kleinere spreiding

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Variatie / sum of squares

A

Ook wel: Kwadratensom / Sum of Squares

De berekening van de variatie is heel rechttoe‐rechtaan:

  1. Bereken gemiddelde van alle metingen
  2. Trek dit gemiddelde af van elke afzonderlijke meting
    Elke waarneming wordt dus uitgedrukt als de afstand van die waarneming tot het gemiddelde.
  3. vervolgens worden alle afstanden (uit 2) afzonderlijk gekwadrateerd
  4. tenslotte worden alle gekwadrateerde afstanden (uit 3) bij elkaar opgeteld.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Variantie / mean sum of squares

A

Mean Sum of Squares (MSSs)
Houdt rekening met het aantal datapunten.

berekenen:
variatie (sum of squares) : aantal waarnemingen (populatie) of aantaal waarnemingen -1 (steekproef).

Variantie = Variatie : (N-1) of N

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Spreidingsmaten

A
  1. Bereik (range)
  2. Interkwartielafstand
  3. Standaarddeviatie
  4. Variantie

vooral van belang bij ratio of interval schalen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Steekproef

+ de 2 soorten noemen

A

Ook wel sample uit een populatie
1. Aselecte steekproef (random sample) (willekeurig selecteren uit grote groep met iedereen even veel kans om geselecteerd te worden.
2. Representatieve steekproef (representative sample) Zoveel mogelijk representatief selecteren uit een grote groep zodat die personen passen bij de onderzochte variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Standaardafwijking / standaarddeviatie

A

Standard deviation

SD= wortel van > Variantie

Door het trekken van de wortel uit de variantie wordt de standaarddeviatie op dezelfde schaal gerepresenteerd als de waarnemingen en daardoor is hij transparanter en gemakkelijker te interpreteren.

Geeft de spreiding aan, één van de meest gebruikte spreidingsmaten

hoe lager de standaarddeviatie hoe dichter de losse scores rondom het gemiddelde concentreren, hoe hoger de standaarddeviatie, hoe meer verspreid ze van het gemiddelde afliggen.
vb: kamerprijzen steden, gemiddelde is hetzelfde, deviatie is verschillend dus meer spreiding.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Spreiding

A

De afstand tussen verschillende waarnemingen

17
Q

Modaliteit / toppigheid

A

Beschrijft het aantal toppen van een verdeling, komt van modus, de modus vormt een top in de verdeling van data

18
Q

Unimodaal

A

één duidelijke top

19
Q

bimodaal

En wat zegt dit over populatie?

A

twee toppen

Als een bimodale verdeling wordt gevonden empirisch dan is vaak sprake van subpopulaties in de onderzochte populatie

20
Q

Scheefheid / skewness

A

beschrijft of de verdeling van data symmetrisch of asymmetrisch(scheve verdeling) is.

liggen extreme waarden aan de linkerkant (ver van modus) = linksscheef = kleinere skewness, negatievere waarde
liggen extreme waarden aan de rechterkant? (ver van modus) = rechtsscheef = grotere skewness, positievere waarde

visueel: de plek waar niet veel balkjes zitten geeft naam aan, links geen balkjes is linksscheef

21
Q

Spitsheid (kurtosis)

A

beschrijft hoe spits of plat een verdeling is. Hoge kurtosis is een sterke piek, lage kurtosis is een platte verdeling

leptokurte verdeling = spits
platykurte verdeling = plat

22
Q

uniforme verdeling

A

alle waarden komen even vaak voor (dus platykurt / plat)

23
Q

standaardnormaalverdeling

Beschrijven + benoemen standaarddeviaties + percentages

A

Normaal verdeling maakt het mogelijk om variabelen die op
verschillende schalen zijn gemeten met elkaar te vergelijken

Kenmerkend is dat modus, mediaan en gemiddelde dezelfde
waarde hebben

De kurtosis bij een normaal verdeling heeft de waarde ‘3’

3 standaarddeviatie: 2,5%
2 standaarddeviatie: 13,5%
1 standaarddeviatie: 34%
centrum
-1 standaarddeviatie: 34%
-2 standaarddeviatie: 13,5%
-3 standaarddeviatie: 2,5%

24
Q

Q1 tijdschrift

A

tijdschrift dat hoort bij de beste 25%

25
Q

multimodaal

A

een curve met meer dan 2 toppen

26
Q

monotoon

A

een continu stijgende of dalende lijn

27
Q

links scheve verdeling

A

hoge staafjes aan de rechterkant

een negatief scheve verdeling

28
Q

rechts scheve verdelign

A

hoge staafjes aan de linkerkant

een positief scheve verdeling

29
Q

verdelingsvorm van data (3 punten noemen)

A
  1. modaliteit (toppen)
  2. scheefheid (skewness)
  3. Spitsheid (kertosis)
30
Q

Leptokurte verdeling

A

hele spitse verdeling met een top.

Een variabele die niet of weinig varieert kan
nergens mee samenhangen. Dit geval is het beter om variabele
als ordinale categorische variabele te behandelen (histogram)

31
Q

Platykurte verdeling

A

hele vlakke verdeling

32
Q

z score berekenen

A

datapunt - gemiddelde van alle datapunten / standaarddeviatie