Hoofdstuk 3 Flashcards
datapunt
Een representatie van de uitkomst van een meting.
continue variabelen
Ze zijn meetbaar op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen.
datareeks
Een reeks van meerdere datapunten die hetzelfde representeren.
nominale variabele/ meetniveau
Een variabele van het laagste meetniveau. De categorieën zijn alleen te benoemen, maar niet te ordenen. (bv geslacht, haarkleur)
dichotome variabele
Een nominale variabele die maar twee waarden kan aannemen.
Ordinaal meetniveau
De afstand tussen de geordende categorieën is onbekend: we kunnen de categorieën alleen maar ordenen. We noemen dit daarom een ordinale variabele. Omdat ordinale variabelen wel van hoog naar laag te ordenen zijn, hebben ze een hoger meetniveau dan nominale variabelen
categorische of discrete variabelen
Samen heten nominale en ordinale variabelen. De verschillende meetwaarden die deze variabelen kunnen aannemen zijn altijd categorieën, zoals ‘vrouw’, ‘MBO’, ‘minderjarig’ of ‘40-50 jaar’.
continue variabelen
Deze variabelen kunnen in theorie alle denkbare meetwaarden aannemen, meestal op een schaal van ‘min oneindig’ tot ‘plus oneindig’, waarbij waarden steeds onwaarschijnlijker worden naarmate ze verder van het gemiddelde af liggen. Twee continue variabelen kunnen, als ze op dezelfde schaal gemeten zijn, worden opgeteld of gemiddeld om een betekenisvol resultaat te verkrijgen.
Wat is het verschil tussen interval en ratio niveau binnen de continue variabelen?
Het verschil tussen deze twee meetniveaus is het al dan niet bestaan van een zogenaamd ‘absoluut nulpunt’, waardoor er wel of niet een verhouding tussen twee getallen uitgedrukt kan worden.
Ratio niveau/ variabele
Numerieke waarden met een betekenisvolle rangorde, gelijke intervallen, en een
waar nulpunt.
Bijvoorbeeld: leeftijd in jaren, inkomen in euro’s.
interval niveau/ variabele
Numerieke waarden met een betekenisvolle rangorde en gelijke intervallen
tussen de waarden, maar er is geen waar nulpunt.
Bijvoorbeeld: temperatuur in graden Celsius (waar 0 niet de afwezigheid van
temperatuur aangeeft).
dataset
Een verzameling datareeksen die zo zijn georganiseerd dat duidelijk is welke data bij elkaar horen.
Variabelenamen
Spreken zoveel mogelijk voor zichzelf: vermijd dus cryptische termen en afkortingen.
gemiddelde
Wordt berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen.
outlier
Een extreem datapunt.
Modus
De meest voorkomende waarde in de datareeks.
Mediaan
Het middelste datapunt in de datareeks.
Range, ook wel het bereik
Het verschil tussen het minimum en het maximum.
Interkwartielafstand (IQR)
Om de IQR te berekenen, worden de data weer geordend van laag naar hoog en vervolgens opgesplitst in vier kwartielen.
variatie oftewel sum of squares (SS)
De sum of squares is de som van de gekwadrateerde afwijkingen van het gemiddelde.
mean squares (MS)
Houdt rekening met het aantal datapunten en is daarom informatiever dan de Sum of Squares. Voor de mean squares bereken je het gemiddelde van de kwadraten, dat wil zeggen de som gedeeld door het aantal observaties.
vrijheidsgraden
Drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert.
Standaardafwijking oftewel de standaarddeviatie (SD).
De standaardafwijking is de wortel van de variantie (mean squares) en geeft de gemiddelde afwijking van het gemiddelde weer (‘the mean distance to the mean’). Door de wortel te trekken van de mean squares is de standaarddeviatie op dezelfde schaal als het gemiddelde en daardoor makkelijker te interpreteren.
frequentieverdeling
Bestaat uit de frequenties, oftewel de aantallen, voor elke mogelijke meetwaarde. Dit is een overzicht van hoe vaak elke categorie of
waarde voorkomt in de dataset.
cumulatief percentage
Het percentage van een bepaalde meetwaarde (of categorie) samen met de percentages van alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën).
Over het algemeen zijn er drie termen die gebruikt worden om een verdelingsvorm te beschrijven
De modaliteit (‘toppigheid’), de scheefheid (‘skewness’) en de spitsheid (‘kurtosis’) van een verdeling-> De mate van aanwezigheid van deze vormen kunnen getoetst worden met de volgende verdelingsmaten: de Hartigans’ dip test (unimodaliteit), skewness (scheefheid) en kurtosis (spitsheid).
Modaliteit of toppigheid
Beschrijft het aantal toppen van een verdeling.
Scheefheid, oftewel ‘skewness’
Beschrijft of een verdeling symmetrisch of asymmetrisch is.
Spitsheid oftewel ‘kurtosis’
Beschrijft hoe spits of plat een verdeling is
uniforme verdeling
De ‘platste’ verdeling de verdeling waarbij alle waarden even vaak voorkomen.
leptokurte verdeling
Een verdeling die erg spits is.
platykurte verdeling
Een verdeling die erg plat is.
kurtosis
De verdelingsmaat die bij spitsheid hoort, heet ook kurtosis. De kurtosis is 0 bij een perfect normale verdeling. Naarmate een verdeling platter is, wordt de kurtosis steeds kleiner (dat is, meer negatief) en naarmate een verdeling spitser is, wordt de kurtosis steeds groter (dat is, meer positief).
normaalverdeling
Een unimodale, symmetrische verdeling, die niet bijzonder plat of spits is. Kenmerken:
* De normaalverdeling is unimodaal.
* De normaalverdeling is niet scheef (en dus perfect symmetrisch).
* De normaalverdeling is niet bijzonder spits of plat.
* 68% van de datapunten (ongeveer twee derde) ligt binnen ongeveer één standaarddeviatie van het gemiddelde.
* 95% van de datapunten ligt binnen ongeveer twee standaarddeviaties van het gemiddelde.
* 99,7% van de datapunten (dus bijna allemaal) ligt binnen ongeveer drie standaarddeviaties van het gemiddelde.
standaardnormale verdeling of z-verdeling
Een speciale vorm van de normale verdeling is een normaalverdeling met een gemiddelde van 0 en een standaarddeviatie van 1.
standaardisering
Datapunten omrekenen in z-scores, je kunt een waarde standaardiseren door het gemiddelde van deze waarde af te trekken en dat te delen door de standaarddeviatie.
‘dichtheid’/ density
Hoeveel datapunten er voor een gegeven meetwaarde zijn, en wordt daarom ook wel een density plot genoemd.
Q-Q-plot
Splitst de data in zogenoemde kwantielen (‘quantiles’, daarom ‘Q’). Kwantielen zijn de breekpunten tussen even grote delen van de data.
Kwantielen
Zijn de breekpunten tussen even grote delen van de data.
boxplot
Drie kwartielen worden geplot, dat wil zeggen de breekpunten die de data in vier even grote delen splitsen.
betrouwbaarheidsinterval (‘confidence interval’)
Geeft een indicatie van de accuraatheid van een maat uit een steekproef.
steekproevenverdeling, oftewel de sampling distribution
De theoretische verdeling van een bepaalde maat (bijvoorbeeld het gemiddelde) die je krijgt als je een oneindig aantal steekproeven uit een populatie zou trekken.
steekproevenverdeling van het gemiddelde
Deze theoretische verdeling van alle mogelijke gemiddelden in een populatie.
centrale limietstelling
Stelt dat naarmate we meer steekproeven trekken, de steekproevenverdeling van het gemiddelde steeds meer op de normaalverdeling zal lijken.
standaardfout (‘standard error’)
De standaarddeviatie van een steekproevenverdeling wordt de standaardfout (‘standard error’) genoemd. De standaardfout hangt af van de grootte van de steekproef, die in de uitleg hierboven oneindig vaak werd getrokken. Hoe groter de steekproef, hoe smaller (spitser) de steekproevenverdeling en dus hoe kleiner de standaardfout.
betrouwbaarheidsinterval
Het interval om het steekproefgemiddelde heen dat in 95% van de steekproeven het populatiegemiddelde bevat.
Reflectief meetmodel
Wordt verondersteld dat de latente variabele de oorzaak
is van de waarnemingen op de indicatoren. In het geval van intelligentie zou dit
betekenen dat iemands niveau van intelligentie de scores beïnvloedt die ze
behalen op de verschillende indicatoren (zoals IQ-tests). De waarnemingen (of
scores) op deze indicatoren “reflecteren” dus de onderliggende latente
variabele, in dit geval, intelligentie.
De antwoorden van deelnemers op vragen in een vragenlijst zijn bijvoorbeeld
indicatoren.
Observationeel onderzoek
Onderzoek waarbij alle operationalisaties
meetinstrumenten zijn. Hier wordt dus geen variabele gemanipuleerd en er kunnen
dus geen conclusies getrokken worden over causaliteit. Ook wel correlationele
designs genoemd.
Cross-sectioneel design
Er is maar één meetmoment. Alle data worden dus min
of meer gelijktijdig verzameld.
longitudinaal design
Er zijn meerdere meetmomenten. Er zijn dus meerdere
sessies waarin operationalisaties van constructen gemeten worden Het kan ook
zijn dat er maar één sessie is met daarin meerdere meetmomenten.
Attritie
Attritie verwijst naar de uitval van deelnemers in longitudinale studies,
wat een bron van bias kan zijn als de uitval niet willekeurig is.
Randomisatie
Dit is het proces van het willekeurig toewijzen van deelnemers
aan verschillende groepen in een experiment om te zorgen voor equivalentie
tussen de groepen en om de invloed van confounders te verminderen.
matching van condities
Dit verwijst naar het proces van het creëren van
groepen die gelijk zijn op alle bekende confounders.
Confounder
Een derde variabele die het waargenomen verband tussen
twee andere variabelen verstoort of verandert.
Quasi-Experimenteel Design
Mist de willekeurige toewijzing. In een quasi-
experiment zijn de condities al aanwezig en de onderzoeker heeft geen controle over wie in welke conditie terechtkomt.
Het gebrek aan willekeurige toewijzing maakt het moeilijker om causale verbanden te trekken omdat er een groter risico is op confounding.
(Dus minder power)
Onafhankelijke Variabele
Stel, een onderzoeker wil het effect van slaap op
de concentratie van studenten onderzoeken. In dit geval is de hoeveelheid slaap
die de studenten krijgen de onafhankelijke variabele, omdat de onderzoeker
denkt dat dit de concentratie kan beïnvloeden. Het is het element dat kan
worden gemanipuleerd (bijvoorbeeld, studenten vragen om meer of minder te
slapen) of gemeten (hoeveel ze normaal slapen).
Covarianten
Covarianten zijn typisch onafhankelijke variabelen in de zin dat ze niet worden
beïnvloed door de variabelen die je in je studie onderzoekt.
univariate analyses
Brengen individuele variabelen in kaart,
bivariate analyses
Ondezoeken het verband tussen twee variabelen.
Centrum maten
Maten die het centrum van de datareeks aangeven (bijv.
gemiddelde, mediaan, modus).
Verdelingsvormen
Verdelingsvormen verwijzen naar de manier waarop datapunten zijn verdeeld in
een dataset (mediaan,modus en gemiddelde). Ze kunnen worden gevisualiseerd
met behulp van grafieken zoals histogrammen en density plots.
Unimodale verdeling
Een verdeling met een piek.
Verdelingsmaten
Verdelingsmaten helpen bij het kwantificeren (het meetbaar maken) van de vorm van de verdeling.
Binominale verdeling
Een verdeling met twee pieken, wat vaak wijst op de
aanwezigheid van twee subpopulaties binnen de data.
Leptokurtische distributie
Een scherpere piek dan een normale distributie.
(Dus dicht bij het gemiddelde met dikke staarten en meer uitschieters)
Positieve kurtosis.
Platykurtische distributie
Een plattere piek (rond het gemiddelde) dan een
normale distributie. (Minder geconcentreerd rond het gemiddelde, met dunne staarten, wat wijst op minder uitschieters.
Negatieve kurtosis.
Z-scores
Zijn gestandaardiseerde waarden die aangeven hoeveel
standaarddeviaties een bepaald datapunt verwijderd is van het gemiddelde van
een verdeling. Ze zijn nuttig om te begrijpen hoe extreem een bepaalde waarde
is binnen een dataset.
Verdeling
Een verdeling is het geheel van datapunten in een datareeks,
samengevat door de centrummaten, spreidingsmaten en verdelingsvorm. De
verdeling van steekproefscores is indicatief voor de verdeling in een populatie.
De centrale limietstelling beschrijft het fenomeen dat steekproevenverdelingen
van gemiddelden altijd normaal verdeeld zijn, behalve bij steekproeven die
uitzonderlijk klein zijn.
Standaardiseren
Een manier om
getallen zo aan te passen dat je ze met elkaar kunt vergelijken, zelfs als ze
oorspronkelijk met verschillende schalen of maatstaven werden gemeten. Stel je
voor dat je gewichten meet in kilogrammen en iemand anders meet in ponden.
Om deze gewichten te vergelijken, zou je ze omzetten naar een
gemeenschappelijke maatstaf. Standaardiseren doet iets soortgelijks met
statistische gegevens.
Normaalverdeling
Een symmetrische, eentoppige verdeling, waarbij het
gemiddelde, de mediaan en de modus allemaal gelijk zijn, en waarvoor geldt dat
twee derde van de datapunten binnen één standaarddeviatie van het
gemiddelde ligt en 95% binnen twee standaarddeviaties. Voor alle, behalve
uitzonderlijk kleine, steekproeven geldt dat de steekproevenverdeling van het
gemiddelde normaal verdeeld is. Dit fenomeen heet de centrale limietstelling.