Thema 3. Univariate analyse. Deel 2 Flashcards
Modus, modi:
een centrummaat die simpelweg het meest voorkomende datapunt in een datareeks weergeeft. Net als de mediaan is de modus minder gevoelig voor outliers dan het gemiddelde. Let op: in de context van verdelingsvormen staat modus voor ‘top’ en is het hoogste getal in vergelijking met de omringende getallen.
Multimodale verdeling, multimodaal: (ook meertoppige verdeling)
een verdeling met meerdere toppen (‘modi’). Een verdeling met één top is unimodaal, en heeft maar één modus. Let op: een modus in deze betekenis betreft niet de gebruikelijke definitie van modus (de meetwaarde die het meeste voorkomt). In de context van verdelingsvormen staat modus voor ‘top’ en is het hoogste getal in vergelijking met de omringende getallen.
Negatief scheve verdeling:
een verdeling met een negatieve skewness: een linksscheve verdeling.
Nominaal, nominale, nominale variabelen:
het nominale meetniveau is een meetniveau waarin de verschillende meetwaarden die een variabele aan kan nemen slechts te onderscheiden zijn met hun naam. Die meetwaarden representeren dan categorieën die niet te ordenen zijn. Voorbeelden zijn woonplaats en geslacht. Het meetniveau van een variabele is een keus van de onderzoeker en wordt vastgelegd in de operationalisatie. Zo kan in psychologisch onderzoek geslacht bijvoorbeeld ook gemeten worden op een ordinaal of zelfs intervalniveau. Variabelen op het nominale meetniveau hebben minder power dan variabelen op het ordinale meetniveau, die weer minder power hebben dan variabelen op het intervalniveau.
Normaalverdeling, normale verdeling, normaal:
een symmetrische, eentoppige verdeling, waarbij het gemiddelde, de mediaan en de modus allemaal gelijk zijn, en waarvoor geldt dat twee derde van de datapunten binnen één standaarddeviatie van het gemiddelde ligt en 95% binnen twee standaarddeviaties. Voor alle, behalve uitzonderlijk kleine, steekproeven geldt dat de steekproevenverdeling van het gemiddelde normaal verdeeld is. Dit fenomeen heet de centrale limietstelling.
Outlier, outliers:
een outlier (of uitschieter) is een datapunt dat dermate extreem is, dat het vaak een artefact is van de dataverzameling. Bij een reactietijdentaak is een reactietijd van een halve milliseconde bijvoorbeeld dermate laag dat het niet waarschijnlijk is dat deze een reactietijd representeert. Omgekeerd zal een reactietijd van twaalf seconden waarschijnlijk betekenen dat de deelnemer was afgeleid, bijvoorbeeld doordat er op de deur van de onderzoeksruimte werd geklopt. Ook in dat geval representeert dat datapunt geen werkelijke reactietijd. Outliers liggen vaak ver van de rest van de datapunten af en zijn op die manier dus zichtbaar in histogrammen. Tegelijkertijd zijn niet alle datapunten die ver van de rest van de datapunten afliggen noodzakelijkerwijs outliers: sommige deelnemers scoren nu eenmaal hoog of laag. Bij online vragenlijstonderzoek kunnen data bijvoorbeeld niet verkeerd worden ingevoerd en kunnen er dus ook geen artefact van de dataverzameling zijn.
Platykurt, playtykurte:
een platykurte variabele heeft een mindere spitsheid dan de normaalverdeling, en is dus relatief afgevlakt. Deze vlakke verdeling heeft een negatieve kurtosis.
Populatieverdeling:
de verdeling van een variabele in de populatie. Deze verdeling bepaalt de vorm van de verdeling van steekproefscores, en, samen met de steekproefomvang, de steekproevenverdeling.
Puntschatting, puntschattingen:
een puntschatting is een schatting van een populatiewaarde die, in tegenstelling tot een betrouwbaarheidsinterval, is uitgedrukt als een enkel getal. Een puntschatting is dus te beschouwen als een 0%-betrouwbaarheidsinterval: een interval waar in 0% van de steekproeven de populatiewaarde in ligt. Omdat puntschattingen zo weinig informatief zijn, is het belangrijk om altijd betrouwbaarheidsintervallen te rapporteren naast, of in plaats van, puntschattingen. Een voorbeeld van een puntschatting is het steekproefgemiddelde.
Q-Q-plot:
een Q-Q-plot is een grafiek waarin de geobserveerde kwantielen in een datareeks op de y-as worden geplot en de theoretische kwantielen die je zou verwachten als de datareeks normaal verdeeld is, op de x-as. Als de verdeling van de datareeks normaal is, liggen alle punten dus op een rechte diagonale lijn. Deze lijn wordt meestal ook getekend in een Q-Q-plot.
Rationiveau, ratiovariabele, ratio:
een variabele op het rationiveau is een continue variabele waarbij niet alleen, zoals ook voor intervalvariabelen geldt, de afstand tussen verschillende meetwaarden altijd even groot is, maar waarbij bovendien een absoluut nulpunt bestaat, zodat de getallen ook in verhouding tot elkaar betekenis hebben. In de praktijk van de psychologie en onderwijswetenschappen wordt geen onderscheid gemaakt tussen interval- en ratiovariabelen.
Rechtsscheef, rechtsscheve:
een variabele is rechtsscheef verdeeld als de meeste datapunten in de datareeks een relatief lage score hebben. De staart van de verdeling ligt dan aan de rechterkant in een histogram en het zwaartepunt aan de linkerkant. Een rechtsscheve verdeling heeft een positieve skewness.
Skewness:
een maat voor de scheefheid van een verdeling. Een symmetrische verdeling heeft een skewness van 0; een linksscheve verdeling heeft een negatieve, en een rechtsscheve verdeling een positieve scheefheid.
Spreidingsmaat, spreidingsmaten:
een maat die de hoeveelheid spreiding in een reeks datapunten, dus de spreiding van een variabele, representeert. In deze cursus worden de standaarddeviatie, variantie, variatie en interkwartielafstand behandeld.
Staafdiagram, staafdiagrammen:
een staafdiagram is een grafiek waarbij het aantal datapunten met een bepaalde meetwaarde in een datareeks wordt verbeeld door een staaf.