Thema 3.3 Flashcards

1
Q

Wat is een betrouwbaarheidsinterval (‘confidence interval’)?

A

geeft een indicatie van de accuraatheid van een maat uit een steekproef.

Op basis hiervan kunnen we dus uitspraken doen over de populatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat is de Steekproevenverdeling?

A

oftewel de sampling distribution, is de theoretische verdeling van een bepaalde maat (bijvoorbeeld het gemiddelde) die je krijgt als je een oneindig aantal steekproeven uit een populatie zou trekken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Side note:

Omdat dit ‘gedachte-experiment’ zo belangrijk is, nog even de hoofdlijnen op een rijtje voordat we er dieper op ingaan.

Uit een populatie kan een steekproef van een gegeven omvang worden getrokken door willekeurig onderzoekseenheden (bijvoorbeeld deelnemers) te selecteren.
De resulterende datareeks wordt gekenmerkt door beschrijvingsmaten (centrum-, spreidings-, en verdelingsmaten).
Voor elk van deze maten kan een theoretische steekproevenverdeling worden opgesteld.
Die steekproevenverdeling bevat de desbetreffende maten verkregen uit oneindige herhaling van die steekproeftrekking (met dezelfde omvang).
Elke centrum-, spreidings-, en verdelingsmaat is dus te beschouwen als een willekeurige selectie van één waarde uit de desbetreffende steekproevenverdeling

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is een centrale limietstelling?

A

het fenomeen dat de steekproevenverdeling van gemiddelden altijd normaal is verdeeld, tenzij de steekproef uitzonderlijk klein is. Zulke kleine steekproeven zijn echter in de meeste gevallen sowieso niet realistisch.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Side note; Door de bijzondere eigenschappen van de normale verdeling weten we dat het gemiddelde dat we in onze steekproef hebben gevonden in 68% van de steekproeven binnen één standaarddeviatie van het ware gemiddelde ligt. In 95% van de steekproeven ligt deze binnen twee standaarddeviaties van het ware gemiddelde en in 99,7% van de steekproeven binnen drie standaarddeviaties van het ware gemiddelde. Dat geeft ons al enig idee wat we op basis van onze steekproef kunnen zeggen over het gemiddelde van de populatie.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat word de standaardfout (‘standard error’) genoemd?

A

De standaarddeviatie van een steekproevenverdeling

De standaardfout hangt af van de grootte van de steekproef, die in de uitleg hierboven oneindig vaak werd getrokken. Hoe groter de steekproef, hoe smaller (spitser) de steekproevenverdeling en dus hoe kleiner de standaardfout. Dit is logisch, want hoe groter de steekproef, hoe minder extreem de gemiddelden zijn.

Formeel is de standaardfout gelijk aan de standaarddeviatie van de populatie gedeeld door de wortel van de steekproefgrootte.

Se = standaarddeviatie : (√steekproefgrootte)

De standaarddeviatie van onze allereerste steekproef van 100 leeftijden was 22.64. We kunnen die standaardfout dus berekenen:

22.64 : √100 = 2.26

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat is de betrouwbaarheidsinterval?

A

is het interval om het steekproefgemiddelde heen dat in 95% van de steekproeven het populatiegemiddelde bevat. Dit interval komt overeen met een afwijking van ongeveer twee standaardfouten van het gemiddelde.

Betrouwbaarheidsinterval = gemiddelde - (2 x standaardfouten) + gemiddelde + (2 x standaardfouten) = [2 afwijking - ; 2 afwijking + )

Het betrouwbaarheidsinterval rondom de gemiddelde leeftijd van onze steekproef is dus 41.92 - (2 x 2.26) en 41.92 + (2 x 2.26) = [37.40;46.44].

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Side note: We weten nu namelijk dat het gemiddelde dat we in onze steekproef vinden in 68% van de steekproeven binnen ongeveer één standaardfout van het ‘ware’ gemiddelde ligt en in 95% van de steekproeven binnen ongeveer twee standaardfouten van het ‘ware’ gemiddelde. Andersom geldt hetzelfde: het ‘ware’ gemiddelde ligt in 68% van de gevallen binnen ongeveer een standaardfout van het steekproefgemiddelde en in 95% van de steekproeven binnen ongeveer twee standaardfouten van het steekproefgemiddelde.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Side note: Het betrouwbaarheidsinterval geeft informatie over hoe accuraat het gemiddelde is dat we in de steekproef hebben gevonden. Die accuraatheid van het gemiddelde van de steekproef zit in de breedte van het interval: smalle intervallen zijn meer accuraat, brede intervallen minder.

In de praktijk wordt meestal een betrouwbaarheidsinterval van 95% gehanteerd

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat is een puntschatting?

A

Een betrouwbaarheidsinterval van 0%, en dus geen interval meer. In dit geval is de puntschatting gewoon het gemiddelde dat we in de steekproef hebben gevonden.

Een puntschatting van een bepaalde steekproef is in principe nooit de ‘ware’ waarde van de populatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Side note: Samengevat, het betrouwbaarheidsinterval is het dichtste dat we kunnen komen bij een antwoord op de vraag ‘Wat kan ik op basis van mijn steekproef over de populatie concluderen?’. Het betrouwbaarheidsinterval geeft namelijk aan hoe accuraat een bepaalde maat, zoals het gemiddelde, is die we in een steekproef hebben gevonden.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Side note: Op basis van datareeksen uit steekproeven kunnen beschrijvingsmaten berekend worden die met behulp van betrouwbaarheidsintervallen informatie geven over de populatie. Daarmee lijkt het probleem, dat populaties nooit rechtstreeks gemeten kunnen worden en dat steekproeven per definitie steekproeffout en meetfout introduceren, voor een groot deel opgelost. De betrouwbaarheidsintervallen geven, door middel van hun breedte, namelijk informatie over hoe accuraat beschrijvingsmaten uit een gegeven steekproef zijn. Bovendien is de breedte van die betrouwbaarheidsintervallen afhankelijk van de steekproefgrootte. Met grotere steekproeven neemt de rol van toeval (steekproef- en meetfout) af en kunnen er toch met enige zekerheid uitspraken gedaan worden over een populatie en dus de realiteit. Dit maakt het mogelijk om bijvoorbeeld in kaart te brengen wat het gemiddelde IQ in een populatie is of hoeveel spreiding er in dat IQ zit.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is een continu variabele?

A

een variabele op het interval of ratio meetniveau.

ze zijn meetbaar op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen.

het hoogste meetniveau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is een dichotome oftewel een binaire, variabele?

A

Een dichotome variabele dat maar twee waarden kan aannemen.

Een lage meetniveau

Een dichotome variabele is ook voorbeeld van een nominale variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is een nominale variabele?

A

een variabele met een lager meetniveau, ongeordend

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat zijn ordinale variabele?

A

variabelen die je alleen kan ordenen, niet categorieën

een variabele op het ordinale meetniveau heeft meetwaarden die ten opzichte van elkaar te ordenen zijn (wat niet het geval is voor nominale variabelen), maar waarvoor geldt dat de afstand tussen twee opeenvolgende meetwaarden onbekend of mogelijk ongelijk is

17
Q

Wat zijn categorische of discrete variabelen?

A

Samen heten nominale en ordinale variabelen

De verschillende meetwaarden die deze variabelen kunnen aannemen zijn altijd categorieën, zoals ‘vrouw’, ‘MBO’, ‘minderjarig’ of ‘40-50 jaar’

18
Q

Wat zijn continue variabelen?

A

Deze variabelen kunnen in theorie alle denkbare meetwaarden aannemen, meestal op een schaal van ‘min oneindig’ tot ‘plus oneindig’, waarbij waarden steeds onwaarschijnlijker worden naarmate ze verder van het gemiddelde af liggen. Dit geldt uiteraard niet voor alle variabelen: lengte kan bijvoorbeeld niet negatief zijn.

Binnen de continue variabelen worden soms twee meetniveaus onderscheiden: het intervalniveau en het rationiveau

19
Q

Wat is het intervalniveau?

A

een continu meetniveau waarbij de verschillende meetwaarden niet alleen ten opzichte van elkaar geordend kunnen worden, maar waarbij bovendien geldt dat het interval (de afstand) tussen twee opeenvolgende meetwaarden altijd even groot is.

20
Q

Wat is het rationiveau?

A

een variabele op het rationiveau is een continue variabele waarbij niet alleen, zoals ook voor intervalvariabelen geldt, de afstand tussen verschillende meetwaarden altijd even groot is, maar waarbij bovendien een absoluut nulpunt bestaat, zodat de getallen ook in verhouding tot elkaar betekenis hebben

21
Q

Kiezen voor een categorisch meetniveau terwijl een variabele op een continu niveau gemeten kan worden, kan schadelijk zijn voor het onderzoek om vier redenen.

A
  1. Er zijn altijd meer deelnemers nodig naarmate het meetniveau van de betreffende variabelen lager is. Een verband aantonen tussen twee continue variabelen vereist minder deelnemers dan wanneer een van de variabelen categorisch is, laat staan als beide variabelen categorisch zijn.
  2. Veel variabelen die we willen meten in onderzoek zijn continu. Daar waar mensen categorieën waarnemen, blijkt na nader onderzoek meestal dat er in feite sprake is van een of meer onderliggende continue variabelen, die mensen min of meer arbitrair in groepen indelen. Categorische operationalisaties zijn dus niet altijd valide.
  3. Het is altijd mogelijk om van een continue variabele terug te gaan naar lagere niveaus, maar niet andersom. Als een deelnemer ‘35 tot 50’ aankruist, is onbekend of de leeftijd 36 is of 47.
  4. Groepen mensen bestaan vaak niet uit duidelijk onderscheidbare subgroepen. Elke indeling in categorieën geeft dus vaak een vertekening van de werkelijkheid. Het meten van variabelen op een categorisch meetniveau vereist namelijk dat harde grenswaarden, zogenaamde ‘cut-offs’, worden gekozen. Om het leeftijdsvoorbeeld weer te gebruiken: je neemt hierbij aan dat iemand van 36 veel meer lijkt op iemand van 49 dan op iemand van 34. Als dit niet zo is, is een cut-off van 35 niet goed te verdedigen.
22
Q

Side note: De verdelingsmaten en spreidingsmaten zijn die te berekenen zijn, hangen af van de schaal waarop variabelen gemeten zijn. Bij categorische variabelen kan niet echt van een schaal gesproken worden. Maar, sommige centrummaten zijn nog bruikbaar. De modus, de meest voorkomende meetwaarde, kan ook bepaald worden bij ordinale en zelfs bij nominale variabelen. De mediaan is de meetwaarde van het middelste datapunt nadat alle datapunten van hoog naar laag (of andersom) zijn geordend. De mediaan kan dus ook bij ordinale variabelen bepaald worden. Toch geven de mediaan en modus maar relatief weinig informatie over de verdeling van een categorische variabele. Gelukkig is het juist bij categorische variabelen, omdat er tenslotte meestal maar relatief weinig categorieën (oftewel meetwaarden) zijn, eenvoudig te bepalen hoe vaak elke meetwaarde voorkomt. Dit heet een frequentieverdeling.

A
23
Q

Wat is een frequentieverdeling?

A

bestaat uit de frequenties, oftewel de aantallen, voor elke mogelijke meetwaarde

24
Q

Deze frequentietabel heeft vier kolommen.

A
  1. de frequenties, oftewel het aantal datapunten voor elke meetwaarde
  2. het percentage voor elke meetwaarde van het totale aantal datapunten, waarbij de datapunten die geen meetwaarde hebben, zogenaamde missing values, ook in het totaal meetellen
  3. het percentage voor elke meetwaarde van het (‘subtotale’) aantal datapunten waarvoor wel een meetwaarde bekend is
  4. het cumulatieve percentage ten opzichte van dit laatste subtotaal
25
Q

Wat is een cumulatief percentage?

A

is het percentage van een bepaalde meetwaarde (of categorie) samen met de percentages van alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën).

26
Q

Side note: De frequenties in deze frequentietabellen heten ook wel de absolute frequenties om ze te onderscheiden van de percentages. Percentages worden ook wel relatieve frequenties genoemd.

Deze relatieve frequenties (de percentages, oftewel de proporties) geven informatie over het aantal datapunten in een categorie ten opzichte van het totale aantal datapunten. Die informatie is niet beschikbaar voor de absolute frequenties. Aan de andere kant geven de relatieve frequenties geen informatie over het aantal datapunten in de steekproef. Die informatie zit nu juist alleen in de absolute frequenties.

A