Thema 3.3 Flashcards
Wat is een betrouwbaarheidsinterval (‘confidence interval’)?
geeft een indicatie van de accuraatheid van een maat uit een steekproef.
Op basis hiervan kunnen we dus uitspraken doen over de populatie.
Wat is de Steekproevenverdeling?
oftewel de sampling distribution, is de theoretische verdeling van een bepaalde maat (bijvoorbeeld het gemiddelde) die je krijgt als je een oneindig aantal steekproeven uit een populatie zou trekken.
Side note:
Omdat dit ‘gedachte-experiment’ zo belangrijk is, nog even de hoofdlijnen op een rijtje voordat we er dieper op ingaan.
Uit een populatie kan een steekproef van een gegeven omvang worden getrokken door willekeurig onderzoekseenheden (bijvoorbeeld deelnemers) te selecteren.
De resulterende datareeks wordt gekenmerkt door beschrijvingsmaten (centrum-, spreidings-, en verdelingsmaten).
Voor elk van deze maten kan een theoretische steekproevenverdeling worden opgesteld.
Die steekproevenverdeling bevat de desbetreffende maten verkregen uit oneindige herhaling van die steekproeftrekking (met dezelfde omvang).
Elke centrum-, spreidings-, en verdelingsmaat is dus te beschouwen als een willekeurige selectie van één waarde uit de desbetreffende steekproevenverdeling
Wat is een centrale limietstelling?
het fenomeen dat de steekproevenverdeling van gemiddelden altijd normaal is verdeeld, tenzij de steekproef uitzonderlijk klein is. Zulke kleine steekproeven zijn echter in de meeste gevallen sowieso niet realistisch.
Side note; Door de bijzondere eigenschappen van de normale verdeling weten we dat het gemiddelde dat we in onze steekproef hebben gevonden in 68% van de steekproeven binnen één standaarddeviatie van het ware gemiddelde ligt. In 95% van de steekproeven ligt deze binnen twee standaarddeviaties van het ware gemiddelde en in 99,7% van de steekproeven binnen drie standaarddeviaties van het ware gemiddelde. Dat geeft ons al enig idee wat we op basis van onze steekproef kunnen zeggen over het gemiddelde van de populatie.
Wat word de standaardfout (‘standard error’) genoemd?
De standaarddeviatie van een steekproevenverdeling
De standaardfout hangt af van de grootte van de steekproef, die in de uitleg hierboven oneindig vaak werd getrokken. Hoe groter de steekproef, hoe smaller (spitser) de steekproevenverdeling en dus hoe kleiner de standaardfout. Dit is logisch, want hoe groter de steekproef, hoe minder extreem de gemiddelden zijn.
Formeel is de standaardfout gelijk aan de standaarddeviatie van de populatie gedeeld door de wortel van de steekproefgrootte.
Se = standaarddeviatie : (√steekproefgrootte)
De standaarddeviatie van onze allereerste steekproef van 100 leeftijden was 22.64. We kunnen die standaardfout dus berekenen:
22.64 : √100 = 2.26
Wat is de betrouwbaarheidsinterval?
is het interval om het steekproefgemiddelde heen dat in 95% van de steekproeven het populatiegemiddelde bevat. Dit interval komt overeen met een afwijking van ongeveer twee standaardfouten van het gemiddelde.
Betrouwbaarheidsinterval = gemiddelde - (2 x standaardfouten) + gemiddelde + (2 x standaardfouten) = [2 afwijking - ; 2 afwijking + )
Het betrouwbaarheidsinterval rondom de gemiddelde leeftijd van onze steekproef is dus 41.92 - (2 x 2.26) en 41.92 + (2 x 2.26) = [37.40;46.44].
Side note: We weten nu namelijk dat het gemiddelde dat we in onze steekproef vinden in 68% van de steekproeven binnen ongeveer één standaardfout van het ‘ware’ gemiddelde ligt en in 95% van de steekproeven binnen ongeveer twee standaardfouten van het ‘ware’ gemiddelde. Andersom geldt hetzelfde: het ‘ware’ gemiddelde ligt in 68% van de gevallen binnen ongeveer een standaardfout van het steekproefgemiddelde en in 95% van de steekproeven binnen ongeveer twee standaardfouten van het steekproefgemiddelde.
Side note: Het betrouwbaarheidsinterval geeft informatie over hoe accuraat het gemiddelde is dat we in de steekproef hebben gevonden. Die accuraatheid van het gemiddelde van de steekproef zit in de breedte van het interval: smalle intervallen zijn meer accuraat, brede intervallen minder.
In de praktijk wordt meestal een betrouwbaarheidsinterval van 95% gehanteerd
Wat is een puntschatting?
Een betrouwbaarheidsinterval van 0%, en dus geen interval meer. In dit geval is de puntschatting gewoon het gemiddelde dat we in de steekproef hebben gevonden.
Een puntschatting van een bepaalde steekproef is in principe nooit de ‘ware’ waarde van de populatie.
Side note: Samengevat, het betrouwbaarheidsinterval is het dichtste dat we kunnen komen bij een antwoord op de vraag ‘Wat kan ik op basis van mijn steekproef over de populatie concluderen?’. Het betrouwbaarheidsinterval geeft namelijk aan hoe accuraat een bepaalde maat, zoals het gemiddelde, is die we in een steekproef hebben gevonden.
Side note: Op basis van datareeksen uit steekproeven kunnen beschrijvingsmaten berekend worden die met behulp van betrouwbaarheidsintervallen informatie geven over de populatie. Daarmee lijkt het probleem, dat populaties nooit rechtstreeks gemeten kunnen worden en dat steekproeven per definitie steekproeffout en meetfout introduceren, voor een groot deel opgelost. De betrouwbaarheidsintervallen geven, door middel van hun breedte, namelijk informatie over hoe accuraat beschrijvingsmaten uit een gegeven steekproef zijn. Bovendien is de breedte van die betrouwbaarheidsintervallen afhankelijk van de steekproefgrootte. Met grotere steekproeven neemt de rol van toeval (steekproef- en meetfout) af en kunnen er toch met enige zekerheid uitspraken gedaan worden over een populatie en dus de realiteit. Dit maakt het mogelijk om bijvoorbeeld in kaart te brengen wat het gemiddelde IQ in een populatie is of hoeveel spreiding er in dat IQ zit.
Wat is een continu variabele?
een variabele op het interval of ratio meetniveau.
ze zijn meetbaar op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen.
het hoogste meetniveau
Wat is een dichotome oftewel een binaire, variabele?
Een dichotome variabele dat maar twee waarden kan aannemen.
Een lage meetniveau
Een dichotome variabele is ook voorbeeld van een nominale variabele.
Wat is een nominale variabele?
een variabele met een lager meetniveau, ongeordend