Thema 3 Flashcards

1
Q

Wat is een datareeks?

A

als bij meerdere mensen (of op meerdere momenten) dezelfde operationalisatie wordt afgenomen (bijvoorbeeld een IQ-test), vormt de reeks datapunten die deze operationalisatie oplevert (bijvoorbeeld IQ-scores) een datareeks. Een datareeks is een verzameling van een of meer datapunten van dezelfde operationalisatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat zijn beschrijvingsmaten?

A

getallen die kenmerken van een datareeks en dus van een variabele beschrijven: centrummaten, spreidingsmaten en verdelingsmaten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat zijn centrummaten en 3 gangbare manieren?

A

maten die een indicatie geven van de centrale tendentie van een datareeks, oftewel, waar de meeste datapunten in de datareeks zich bevinden. In deze cursus worden het gemiddelde, de mediaan en de modus besproken.

De meest gangbare manier om datapunten samen te vatten.

  • Gemiddelde: Alles optellen en delen
  • Mediaan: Middelste datapunt in een datareeks
  • Modus: De meest voorkomende
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Het gemiddelde

A

Formeel wordt het gemiddelde berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat zijn Outliers?

A

ook wel uitschieter of uitbijter genoemd, is een extreem datapunt.

Vaak is zo een extreme waarde een indicatie dat er een fout in de data zit. Er zijn echter ook outliers die bij de data horen, sommige deelnemers scoren nu eenmaal hoog of laag

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Side note: De beslissing om outliers wel of niet mee te nemen in analyses heeft belangrijke gevolgen voor de resultaten. In bovenstaand voorbeeld heb je gezien dat een outlier het gemiddelde erg naar zich toetrekt. Er zijn ook centrummaten die minder gevoelig zijn voor outliers, met name de modus en de mediaan. Deze maten kunnen dus informatief zijn om data te beschrijven die een of meer outliers bevatten.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat is de modus?

A

De modus is gedefinieerd als de meest voorkomende waarde in de datareeks.

De modus is vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat is de meidaan?

A

is simpelweg het middelste datapunt in de datareeks.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Side note: Om een goed beeld van een datareeks te geven is het daarom noodzakelijk om naast een centrummaat ook de spreiding van de datapunten te rapporteren. Om dit te beschrijven zijn spreidingsmaten nodig.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

De eenvoudigste spreidingsmaat is de range, wat is dit?

A

ook wel het bereik, van een variabele.

Dit is simpelweg het verschil tussen het maximum en het minimum.

Maar de range is zeer gevoelig is voor outliers en volstaat daarom vaak niet om een goed beeld van de spreiding van de datapunten te geven.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat is de spreidingsmaatI nterkwartielafstand (IQR)?

A

De interkwartielafstand (in het Engels de interquartile range, oftewel IQR) is eigenlijk voor spreidingsmaten wat de mediaan is voor centrummaten.

Data wordt gesorteerd van laag naar hoog. Daarna in 4 kwartielen verdeeld.
Na 25% = Q1 (eerste kwartiel)
Na 50% = Q2 (Tweede kwartiel)
Na 75%= Q3 (derde kwartiel)

Interkwatielafstand = Q3 - Q1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hoe bereken je het kwadraat

A

Getal x getal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is de Variatie, oftewel sum of squares?

A
  • Data punt van het gemiddelde afwijkt. (datepunt - gemiddelde)
  • afwijkingen te kwadrateren ( Getal x getal)
  • Kwadraten bij elkaar optellen
    = de sum of squares
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is de Variatie, oftewel sum of squares?

A
  • Data punt van het gemiddelde afwijkt. (datepunt - gemiddelde)
  • afwijkingen te kwadrateren ( Getal x getal)
  • Kwadraten bij elkaar optellen
    = de sum of squares
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is de nadeel van de sum of squares (SS)?

A

Het nadeel van de variatie is dat deze steeds groter wordt naarmate er datapunten bijkomen. Het betreft namelijk een som, waarbij steeds meer waarden bij elkaar opgeteld worden. Dat is onhandig, want de spreiding wordt niet noodzakelijk ook meer. Er kunnen namelijk datapunten bijkomen die heel dicht bij het gemiddelde liggen en toch wordt de variatie dan groter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat is de Variantie oftewel mean squares?

A

Sum of Squares (afwijking gemiddeld, kwadraat optellen) : (Aantal opservaties - 1) = de mean squares (MS)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Waarom is de mean sSquares (MS) informatiever dan de Sum of Squares (SS)?

A

De variantie oftewel mean sSquares (MS) houdt rekening met het aantal datapunten en is daarom informatiever dan de Sum of Squares

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wat zijn vrijheidsgraden?

A

De noemer van deze formule, n−1, noemen we het aantal vrijheidsgraden van deze datareeks. Vrijheidsgraden, oftewel degrees of freedom (df) in het Engels, drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert. Voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden n-1. Dat wil zeggen dat je in een datareeks alle datapunten behalve één willekeurige kunt veranderen. Dit ene datapunt moet een bepaalde waarde hebben om hetzelfde gemiddelde te behouden.

N = Aantal observaties

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Side note: Stel je hebt een datareeks van vier observaties met een gemiddelde van 2,5. Dit betekent dat je 4-1 = 3 vrijheidsgraden hebt. Je kunt dus drie observaties willekeurig kiezen, de vierde wordt altijd bepaald. Je kiest voor de eerste drie observaties de waardes 1 2 3. De vierde observatie moet 4 zijn om op een gemiddelde van 2,5 uit te komen.

Stel je kiest voor de eerste drie observaties 0 0 0. De vierde observatie moet dan 10 zijn om het een gemiddelde van 2,5 te behouden. Dit kun je zo vaak herhalen als je wilt. Je kunt bijvoorbeeld de willekeurige waarden kiezen 28, 389 en 964. De vierde observatie moet dan -1371 zijn om op een gemiddelde van 2,5 uit te komen.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Wat geven vrijheidsgraden aan?

A

Het aantal vrijheidsgraden geeft aan hoeveel van deze datapunten er vrij kunnen veranderen zonder de essentie van de datareeks aan te tasten. Het aantal vrijheidsgraden verandert afhankelijk van hoeveel parameters de datareeks beschrijven. Hoe meer parameters je berekent, hoe minder waarden je willekeurig kunt aanpassen. Ingewikkelde statistische berekeningen vereisen daarom meer observaties.

21
Q

De meest gebruikte spreidingsmaat is de standaardafwijking oftewel de standaarddeviatie (SD), hoe bereken je dit?

A

De standaardafwijking is de wortel van de variantie (mean squares) en geeft de gemiddelde afwijking van het gemiddelde weer (‘the mean distance to the mean’) Door de wortel te trekken van de mean squares is de standaarddeviatie op dezelfde schaal als het gemiddelde en daardoor makkelijker te interpreteren.

SD= MS -

22
Q

Een onderzoeker berekent de standaarddeviatie, de variantie en de sum of squares. Welke van deze drie is het grootst?

A

De sum of squares is de variatie. De variatie is de variantie voordat deze is gecorrigeerd voor het aantal datapunten. De variatie is dus altijd groter dan de variantie. De standaarddeviatie is de wortel van de variantie en dus altijd de kleinste van de drie.

23
Q

Wat is de standaardafwijking oftewel de standaarddeviatie (SD)

A

is de wortel van de variantie (mean squares) en geeft de gemiddelde afwijking van het gemiddelde weer (‘the mean distance to the mean’). Door de wortel te trekken van de mean squares is de standaarddeviatie op dezelfde schaal als het gemiddelde en daardoor makkelijker te interpreteren.

24
Q

Wat beschrijft de verdelingsvorm?

A

beschrijft de manier waarop de datapunten in een datareeks zich tot elkaar en het gemiddelde verhouden

De manier waarop de datapunten om het gemiddelde heen liggen

25
Q

Side note: Samen met het gemiddelde geeft de standaarddeviatie al veel informatie over onze datapunten. We weten om welke waarde de datapunten heen liggen en we weten hoe dicht ze bij dat gemiddelde in de buurt liggen. Het enige dat nu nog ontbreekt, is informatie over de manier waarop de datapunten om het gemiddelde heen liggen, met andere woorden de verdelingsvorm (Engels: ‘distribution’) van de datapunten.

A
26
Q

Wat is een histogram?

A

een histogram is een grafische weergave van een reeks datapunten.

In een histogram wordt de verdeling van de betreffende variabele zichtbaar gemaakt. Hiermee kan dus bijvoorbeeld vastgesteld worden of die variabele normaal verdeeld is, of dat deze multimodaal, linksscheef en/of rechtsscheef is.

27
Q

Side note: Het is belangrijk om op te merken dat de indelingen van de getallen op de x-as automatisch wordt ingesteld als het histogram wordt gemaakt met statistische software. Wat een bruikbare breedte is, wisselt per datareeks.

A
28
Q

Over het algemeen zijn er drie termen die gebruikt worden om een verdelingsvorm te beschrijven en kunnen getest worden door welke 3 verdelingsmaten?

A
  1. de modaliteit - de Hartigans’ dip test
  2. de scheefheid - skewness
  3. de spitsheid - kurtosis
29
Q

Wat is de verdelingsvorm Modaliteit of ‘toppigheid?

A

Modaliteit of toppigheid beschrijft het aantal toppen van een verdeling. Het begrip ‘modaliteit’ komt van ‘modus’, dus de meest voorkomende waarde in een datareeks. De modus vormt een ‘top’ in de verdeling van de data.

30
Q

Hoe wordt een verdelingsmodaliteit met een top genoemd?

A

unimodaal of eentoppig

31
Q

Hoe wordt een verdelingsmodaliteit met meerdere toppen genoemd?

A

multimodaal of meertoppig

Hier zijn weer specifieke varianten van zoals de bimodale of tweetoppige verdeling.

32
Q

Side note: In de praktijk zijn multimodale verdelingen vaak een indicatie dat de populatie uit meerdere subpopulaties bestaat. Neem bijvoorbeeld lengte (volgens het CBS; zie de link hieronder). Bij vrouwen ligt de modus tussen de 1,68 en de 1,72 meter en bij mannen tussen de 1,78 en 1,82 meter. De verdeling van lengte is dus bimodaal omdat de populatie Nederlanders uit twee subpopulaties bestaat – mannen en vrouwen – die in het kader van lengte relevant zijn om te onderscheiden.

A
33
Q

Wat beschrijft de verdelingsmaat Scheefheid (skewness)

A

beschrijft of een verdeling symmetrisch of asymmetrisch is. Een scheve verdeling is asymmetrisch. Dit betekent dat de meeste datapunten aan één kant van de schaal liggen. Een (eentoppige) verdeling kan symmetrisch, linksscheef (negatief scheef) of rechtsscheef (positief scheef) zijn.

In een symmetrische (eentoppige) verdeling liggen de meeste datapunten rondom het gemiddelde en zijn er steeds minder datapunten naarmate de afstand tot het gemiddelde toeneemt. De verdeling heeft de vorm van een klok en wordt in het Engels ook wel aangeduid met ‘bell curve’.

Bij een linksscheve verdeling liggen er minder datapunten aan de linkerkant van het gemiddelde. De meeste datapunten liggen dus aan de rechterkant en er is een staart met datapunten relatief ver weg van het gemiddelde aan de linkerkant. Bij een rechtsscheve verdeling liggen juist de meeste datapunten links van het gemiddelde. Rechts van het gemiddelde liggen minder datapunten in een staart.

34
Q

Wat beschrijft de verdelingsmaat spitsheid (kurtosis)?

A

beschrijft hoe spits of plat een verdeling is

Het extreemste voorbeeld is een verdeling waarbij alle datapunten dezelfde waarde hebben: spitser kan een verdeling niet. Omgekeerd is de ‘platste’ verdeling de verdeling waarbij alle waarden even vaak voorkomen.

35
Q

Hoe heet de platste verdeling?

A

uniforme verdeling

36
Q

Hoe heet de spitse verdeling?

A

leptokurte verdeling

37
Q

Hoe heet een verdeling die erg plat is?

A

platykurte verdeling

38
Q

Hoe heet een verdeling die erg plat is?

A

platykurte verdeling

39
Q

Side note; Een voorbeeld van een spits-verdeelde variabele is de leeftijd van kinderen die in dezelfde groep op school zitten. Hun leeftijden zullen erg op elkaar lijken. Daardoor liggen alle datapunten dicht bij elkaar. De leeftijd van alle Nederlanders is in vergelijking hiermee juist erg breed verdeeld.

De verdelingsmaat die bij spitsheid hoort, heet ook kurtosis. De kurtosis is 0 bij een perfect normale verdeling. Naarmate een verdeling platter is, wordt de kurtosis steeds kleiner (dat is, meer negatief) en naarmate een verdeling spitser is, wordt de kurtosis steeds groter (dat is, meer positief).

A
40
Q

wat is de normale verdeling?

A

In deze overzichtjes met verdelingen is er één verdeling die vaker terugkomt: een unimodale, symmetrische verdeling, die niet bijzonder plat of spits is. Omdat deze verdeling niet op de een of andere manier afwijkend is, wordt deze verdeling de normale verdeling, oftewel de normaalverdeling genoemd.

41
Q

Welke kenmerken voldoet een normale verdeling? (6 punten)

A

De normaalverdeling is unimodaal.
De normaalverdeling is niet scheef (en dus perfect symmetrisch).
De normaalverdeling is niet bijzonder spits of plat.
68% van de datapunten (ongeveer twee derde) ligt binnen ongeveer één standaarddeviatie van het gemiddelde.
95% van de datapunten ligt binnen ongeveer twee standaarddeviaties van het gemiddelde.
99,7% van de datapunten (dus bijna allemaal) ligt binnen ongeveer drie standaarddeviaties van het gemiddelde.

42
Q

Side note: De normale verdeling is de maatstaf voor de verdelingsmaten die hierboven besproken zijn. Een perfect normale verdeling is namelijk unimodaal (diptest = 0), perfect symmetrisch (skewness = 0) en niet bijzonder spits of plat (kurtosis = 0).

De normale verdeling is belangrijk in de psychologie, onderwijswetenschappen en andere wetenschappen omdat veel variabelen in de natuur normaal verdeeld zijn. Bovendien is ook ruis, zoals meetfout, normaal verdeeld. Al in de zeventiende eeuw was dit Galileo opgevallen, maar het duurde nog tot 1809 tot Gauss de formule voor de normaalverdeling ontwikkelde en aantoonde dat ruis, zoals meetfouten, volgens deze normaalverdeling waren verdeeld. De aanname van een normale verdeling ligt ten grondslag aan veel statistische analyses die je in de loop van je studie nog zal tegenkomen

A
43
Q

Wat is een standaardnormale verdeling of z-verdeling?

A

Een speciale vorm van de normale verdeling is een normaalverdeling met een gemiddelde van 0 en een standaarddeviatie van 1.

Hoeveel de datapunten afwijken van het gemiddelde.

44
Q

Side note: Deze z-verdeling is handig, want van elk datapunt in die verdeling is gelijk duidelijk hoe ver het van het gemiddelde ligt. Datapunten in een z-verdeling heten z-scores. . Als een datapunt een z-score van 2 heeft, betekent dit dat dit datapunt 2 standaarddeviaties boven het gemiddelde ligt. Dat betekent ook dat slechts 2,5% van de datapunten nog hoger ligt dan dat datapunt. We zagen net namelijk dat 95% van de datapunten binnen twee standaarddeviaties van het gemiddelde ligt, dat is 2,5% aan elke kant van de verdeling.

A
45
Q

Wat.is standaardisering

A

het omzetten van datapunten naar hun corresponderende z-score door van elk datapunt het gemiddelde af te trekken (centreren) en dat verschil vervolgens te delen door de standaarddeviatie.

Z= (Gemiddelde - datapunt) : standaarddeviatie

46
Q

Side note; Psychologen werken vaak met gestandaardiseerde waarden. De z-score geeft aan hoe ver een waarde van het gemiddelde afligt. Als de betreffende variabele ook nog normaal verdeeld is, geeft de z-score bovendien informatie over hoe extreem dat datapunt is, omdat we weten welke proportie van de datapunten op welke afstand van het gemiddelde ligt. Verder maakt standaardisering de vergelijking mogelijk tussen variabelen die op verschillende schalen gemeten zijn. Standaardisering vertaalt de datareeksen naar dezelfde schaal, waarbij 0 staat voor het gemiddelde en 1 staat voor één standaarddeviatie. Z-scores kunnen dus in statistische analyses erg handig zijn en je zult deze in het vervolg van je studie nog vaker tegen komen.

A
47
Q

Wat is een populatieverdeling?

A

de verdeling van een variabele in de populatie. Deze verdeling bepaalt de vorm van de verdeling van steekproefscores, en, samen met de steekproefomvang, de steekproevenverdeling.

48
Q

Wat is de verdeling van steekproefscores?

A

de verdeling van de datareeks van een variabele in een steekproef.

Hoe groter de steekproef, hoe kleiner de rol van toeval – in de vorm van steekproeffout en meetfout – en hoe meer de verdeling van steekproefscores gaat lijken op de populatieverdeling.

48
Q

Wat is de verdeling van steekproefscores?

A

de verdeling van de datareeks van een variabele in een steekproef.

Hoe groter de steekproef, hoe kleiner de rol van toeval – in de vorm van steekproeffout en meetfout – en hoe meer de verdeling van steekproefscores gaat lijken op de populatieverdeling.