Thema 3. Univariate analyse. Deel 1 Flashcards
Bereik/range
het verschil tussen het maximum en minimum van een datareeks. De range kan gezien worden als spreidingsmaat, maar deze moet nooit in zijn eentje als spreidingsmaat gebruikt worden omdat eventuele outliers grote invloed hebben op de range. De geobserveerde range is niet altijd hetzelfde als de theoretisch haalbare range. Dat een vraag beantwoord kan worden op een zevenpuntsschaal van 1−7 betekent niet dat er ook daadwerkelijk iemand 1 of 7 antwoordt. De geobserveerde range kan dus kleiner zijn dan de range van het meetinstrument.
Beschrijvingsmaten:
Getallen die kenmerken van een datareeks en dus van een variabele beschrijven: centrummaten, spreidingsmaten en verdelingsmaten.
Betrouwbaarheidsinterval, betrouwbaarheidsintervallen:
een interval om een schatter heen dat in een gegeven percentage van de steekproeven de betreffende populatiewaarde bevat. Voor een 95%-betrouwbaarheidsinterval van het gemiddelde bevat dat interval bij 95% van de steekproeven het populatiegemiddelde. Het is belangrijk dit niet te interpreteren als een interval waarbij de kans, dat het populatiegemiddelde er in ligt, 95% is! Natuurlijk is dat wel waar over oneindig veel steekproeven heen, maar bij één willekeurige steekproef ligt het populatiegemiddelde of wél, of níét in het interval. Het betrouwbaarheidsinterval is dus beter als volgt te interpreteren: stel dat je een steekproef oneindig vaak zou herhalen, dan zou in 95% van de gevallen het populatiegemiddelde in het betrouwbaarheidsinterval vallen. Tegelijkertijd zijn betrouwbaarheidsintervallen uitermate bruikbaar: ze geven een duidelijke indicatie van hoe accuraat de inschatting van een mogelijke schatter is. De breedte van een betrouwbaarheidsinterval hangt van twee dingen af. Ten eerste van de ‘betrouwbaarheid’: een 99%-betrouwbaarheidsinterval is breder dan een 95%-betrouwbaarheidsinterval. Een puntschatting heeft een betrouwbaarheid van 0%. Ten tweede van de standaardfout, die weer afhankelijk is van de nauwkeurigheid van de meting en van de steekproefgrootte.
Bimodale verdeling, bimodale, bimodaal:
een verdeling met twee toppen (twee ’modi).
Dichotome variabele (ook wel binaire variabele):
een dichotome variabele of operationalisatie kan slechts twee mogelijke meetwaarden aannemen. Deze kan daardoor zowel als nominale, ordinale of intervalvariabele worden gezien en kan dus als categorisch of continu worden opgevat. Omdat er maar twee mogelijke waarden zijn, maakt het voor statistische analyses namelijk niet uit hoe deze twee waarden ten opzichte van elkaar worden geordend. Bovendien is er maar één interval tussen de twee waarden. Alle intervallen tussen opeenvolgende meetwaarden zijn dus altijd even groot (want er is maar een interval). Hoewel dichotome variabelen dus erg veelzijdig zijn, hebben ze ook de minste power.
Boxplot, boxplots:
een grafiek waarin het minimum, het eerste kwartiel, de mediaan, het derde kwartiel en het maximum van een datareeks worden geplot. Bovendien worden mogelijke outliers apart aangegeven met stipjes. Dit betekent overigens dat de waarden die als minimum en maximum worden geplot, eigenlijk het minimum en maximum zijn zonder die mogelijke outliers.
Categorische variabele:
een variabele op het nominale of ordinale meetniveau.
Centrummaat, centrummaten:
maten die een indicatie geven van de centrale tendentie van een datareeks, oftewel, waar de meeste datapunten in de datareeks zich bevinden. In deze cursus worden het gemiddelde, de mediaan en de modus besproken.
Centrale limietstelling:
het fenomeen dat de steekproevenverdeling van gemiddelden altijd normaal is verdeeld, tenzij de steekproef uitzonderlijk klein is. Met uitzonderlijk klein worden steekproefomvangen bedoeld van dermate weinig onderzoekseenheden (meestal deelnemers) dat de studie underpowered is. Dergelijke studies worden vaak niet goedgekeurd tijdens ethische toetsing.
Continu, continue, Continu meetniveau, Continue variabele:
een variabele op het interval of ratio meetniveau.
Data-integriteit:
data-integriteit betreft de mate waarin de data correct zijn geregistreerd. Bedreigingen voor de data-integriteit zijn bijvoorbeeld verkeerd ingevoerde vragenlijsten of outliers.
Discrete variabele:
een discrete variabele is een ander woord voor een categorische variabele.
Distribution:
distribution is het Engelse woord voor verdeling.
Eentoppige verdeling, eentoppig:
een verdeling met één top.
Frequenties, frequentie:
frequenties zijn de aantallen datapunten binnen een gegeven meetwaarde (oftewel categorie). Frequenties worden vaak gepresenteerd in frequentietabellen en zijn alleen zinnig voor categorische variabelen.