Hoofdstuk 3 Flashcards
datapunt
Een representatie van de uitkomst van een meting.
continue variabelen
Ze zijn meetbaar op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen.
datareeks
Een reeks van meerdere datapunten die hetzelfde representeren.
nominale variabele/ meetniveau
Een variabele van het laagste meetniveau. De categorieën zijn alleen te benoemen, maar niet te ordenen. (bv geslacht, haarkleur)
dichotome variabele
Een nominale variabele die maar twee waarden kan aannemen.
Ordinaal meetniveau
De afstand tussen de geordende categorieën is onbekend: we kunnen de categorieën alleen maar ordenen. We noemen dit daarom een ordinale variabele. Omdat ordinale variabelen wel van hoog naar laag te ordenen zijn, hebben ze een hoger meetniveau dan nominale variabelen
categorische of discrete variabelen
Samen heten nominale en ordinale variabelen. De verschillende meetwaarden die deze variabelen kunnen aannemen zijn altijd categorieën, zoals ‘vrouw’, ‘MBO’, ‘minderjarig’ of ‘40-50 jaar’.
continue variabelen
Deze variabelen kunnen in theorie alle denkbare meetwaarden aannemen, meestal op een schaal van ‘min oneindig’ tot ‘plus oneindig’, waarbij waarden steeds onwaarschijnlijker worden naarmate ze verder van het gemiddelde af liggen. Twee continue variabelen kunnen, als ze op dezelfde schaal gemeten zijn, worden opgeteld of gemiddeld om een betekenisvol resultaat te verkrijgen.
Wat is het verschil tussen interval en ratio niveau binnen de continue variabelen?
Het verschil tussen deze twee meetniveaus is het al dan niet bestaan van een zogenaamd ‘absoluut nulpunt’, waardoor er wel of niet een verhouding tussen twee getallen uitgedrukt kan worden.
Ratio niveau/ variabele
Numerieke waarden met een betekenisvolle rangorde, gelijke intervallen, en een
waar nulpunt.
Bijvoorbeeld: leeftijd in jaren, inkomen in euro’s.
interval niveau/ variabele
Numerieke waarden met een betekenisvolle rangorde en gelijke intervallen
tussen de waarden, maar er is geen waar nulpunt.
Bijvoorbeeld: temperatuur in graden Celsius (waar 0 niet de afwezigheid van
temperatuur aangeeft).
dataset
Een verzameling datareeksen die zo zijn georganiseerd dat duidelijk is welke data bij elkaar horen.
Variabelenamen
Spreken zoveel mogelijk voor zichzelf: vermijd dus cryptische termen en afkortingen.
gemiddelde
Wordt berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen.
outlier
Een extreem datapunt.
Modus
De meest voorkomende waarde in de datareeks.
Mediaan
Het middelste datapunt in de datareeks.
Range, ook wel het bereik
Het verschil tussen het minimum en het maximum.
Interkwartielafstand (IQR)
Om de IQR te berekenen, worden de data weer geordend van laag naar hoog en vervolgens opgesplitst in vier kwartielen.
variatie oftewel sum of squares (SS)
De sum of squares is de som van de gekwadrateerde afwijkingen van het gemiddelde.
mean squares (MS)
Houdt rekening met het aantal datapunten en is daarom informatiever dan de Sum of Squares. Voor de mean squares bereken je het gemiddelde van de kwadraten, dat wil zeggen de som gedeeld door het aantal observaties.
vrijheidsgraden
Drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert.
Standaardafwijking oftewel de standaarddeviatie (SD).
De standaardafwijking is de wortel van de variantie (mean squares) en geeft de gemiddelde afwijking van het gemiddelde weer (‘the mean distance to the mean’). Door de wortel te trekken van de mean squares is de standaarddeviatie op dezelfde schaal als het gemiddelde en daardoor makkelijker te interpreteren.
frequentieverdeling
Bestaat uit de frequenties, oftewel de aantallen, voor elke mogelijke meetwaarde. Dit is een overzicht van hoe vaak elke categorie of
waarde voorkomt in de dataset.
cumulatief percentage
Het percentage van een bepaalde meetwaarde (of categorie) samen met de percentages van alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën).
Over het algemeen zijn er drie termen die gebruikt worden om een verdelingsvorm te beschrijven
De modaliteit (‘toppigheid’), de scheefheid (‘skewness’) en de spitsheid (‘kurtosis’) van een verdeling-> De mate van aanwezigheid van deze vormen kunnen getoetst worden met de volgende verdelingsmaten: de Hartigans’ dip test (unimodaliteit), skewness (scheefheid) en kurtosis (spitsheid).
Modaliteit of toppigheid
Beschrijft het aantal toppen van een verdeling.
Scheefheid, oftewel ‘skewness’
Beschrijft of een verdeling symmetrisch of asymmetrisch is.
Spitsheid oftewel ‘kurtosis’
Beschrijft hoe spits of plat een verdeling is