Thema 3. Univariate analyse. Deel 1 Flashcards

1
Q

Bereik/range

A

het verschil tussen het maximum en minimum van een datareeks. De range kan gezien worden als spreidingsmaat, maar deze moet nooit in zijn eentje als spreidingsmaat gebruikt worden omdat eventuele outliers grote invloed hebben op de range. De geobserveerde range is niet altijd hetzelfde als de theoretisch haalbare range. Dat een vraag beantwoord kan worden op een zevenpuntsschaal van 1−7 betekent niet dat er ook daadwerkelijk iemand 1 of 7 antwoordt. De geobserveerde range kan dus kleiner zijn dan de range van het meetinstrument.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Beschrijvingsmaten:

A

Getallen die kenmerken van een datareeks en dus van een variabele beschrijven: centrummaten, spreidingsmaten en verdelingsmaten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Betrouwbaarheidsinterval, betrouwbaarheidsintervallen:

A

een interval om een schatter heen dat in een gegeven percentage van de steekproeven de betreffende populatiewaarde bevat. Voor een 95%-betrouwbaarheidsinterval van het gemiddelde bevat dat interval bij 95% van de steekproeven het populatiegemiddelde. Het is belangrijk dit niet te interpreteren als een interval waarbij de kans, dat het populatiegemiddelde er in ligt, 95% is! Natuurlijk is dat wel waar over oneindig veel steekproeven heen, maar bij één willekeurige steekproef ligt het populatiegemiddelde of wél, of níét in het interval. Het betrouwbaarheidsinterval is dus beter als volgt te interpreteren: stel dat je een steekproef oneindig vaak zou herhalen, dan zou in 95% van de gevallen het populatiegemiddelde in het betrouwbaarheidsinterval vallen. Tegelijkertijd zijn betrouwbaarheidsintervallen uitermate bruikbaar: ze geven een duidelijke indicatie van hoe accuraat de inschatting van een mogelijke schatter is. De breedte van een betrouwbaarheidsinterval hangt van twee dingen af. Ten eerste van de ‘betrouwbaarheid’: een 99%-betrouwbaarheidsinterval is breder dan een 95%-betrouwbaarheidsinterval. Een puntschatting heeft een betrouwbaarheid van 0%. Ten tweede van de standaardfout, die weer afhankelijk is van de nauwkeurigheid van de meting en van de steekproefgrootte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Bimodale verdeling, bimodale, bimodaal:

A

een verdeling met twee toppen (twee ’modi).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Dichotome variabele (ook wel binaire variabele):

A

een dichotome variabele of operationalisatie kan slechts twee mogelijke meetwaarden aannemen. Deze kan daardoor zowel als nominale, ordinale of intervalvariabele worden gezien en kan dus als categorisch of continu worden opgevat. Omdat er maar twee mogelijke waarden zijn, maakt het voor statistische analyses namelijk niet uit hoe deze twee waarden ten opzichte van elkaar worden geordend. Bovendien is er maar één interval tussen de twee waarden. Alle intervallen tussen opeenvolgende meetwaarden zijn dus altijd even groot (want er is maar een interval). Hoewel dichotome variabelen dus erg veelzijdig zijn, hebben ze ook de minste power.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Boxplot, boxplots:

A

een grafiek waarin het minimum, het eerste kwartiel, de mediaan, het derde kwartiel en het maximum van een datareeks worden geplot. Bovendien worden mogelijke outliers apart aangegeven met stipjes. Dit betekent overigens dat de waarden die als minimum en maximum worden geplot, eigenlijk het minimum en maximum zijn zonder die mogelijke outliers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Categorische variabele:

A

een variabele op het nominale of ordinale meetniveau.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Centrummaat, centrummaten:

A

maten die een indicatie geven van de centrale tendentie van een datareeks, oftewel, waar de meeste datapunten in de datareeks zich bevinden. In deze cursus worden het gemiddelde, de mediaan en de modus besproken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Centrale limietstelling:

A

het fenomeen dat de steekproevenverdeling van gemiddelden altijd normaal is verdeeld, tenzij de steekproef uitzonderlijk klein is. Met uitzonderlijk klein worden steekproefomvangen bedoeld van dermate weinig onderzoekseenheden (meestal deelnemers) dat de studie underpowered is. Dergelijke studies worden vaak niet goedgekeurd tijdens ethische toetsing.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Continu, continue, Continu meetniveau, Continue variabele:

A

een variabele op het interval of ratio meetniveau.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Data-integriteit:

A

data-integriteit betreft de mate waarin de data correct zijn geregistreerd. Bedreigingen voor de data-integriteit zijn bijvoorbeeld verkeerd ingevoerde vragenlijsten of outliers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Discrete variabele:

A

een discrete variabele is een ander woord voor een categorische variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Distribution:

A

distribution is het Engelse woord voor verdeling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Eentoppige verdeling, eentoppig:

A

een verdeling met één top.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Frequenties, frequentie:

A

frequenties zijn de aantallen datapunten binnen een gegeven meetwaarde (oftewel categorie). Frequenties worden vaak gepresenteerd in frequentietabellen en zijn alleen zinnig voor categorische variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Frequentietabel, frequentietabellen:

A

een frequentietabel is een tabel waarin voor elke mogelijke meetwaarde de frequenties staan. Omdat alleen categorische variabelen een beperkt aantal meetwaarden hebben, worden alleen voor categorische variabelen frequentietabellen gegenereerd.

17
Q

Frequentieverdeling, frequentieverdelingen:

A

een frequentieverdeling is de combinatie van mogelijke meetwaarden en frequentie per meetwaarde van een variabele. Frequentieverdelingen zijn hoe verdelingen van categorische variabelen zich manifesteren.

18
Q

Gemiddelde, gemiddelden:

A

een centrummaat om een datareeks van continue data te beschrijven, verkregen door alle datapunten op te tellen en het resulterende getal te delen door het aantal datapunten.

19
Q

Grafiek:

A

een grafische weergave van een datareeks, meerdere datareeksen of bepaalde getallen uit één of meer datareeksen. Bekende voorbeelden zijn histogrammen, boxplots en scatterplots. Zie ook plot.

20
Q

Histogram, histogrammen:

A

een histogram is een grafische weergave van een reeks datapunten. In een histogram wordt de verdeling van de betreffende variabele zichtbaar gemaakt. Hiermee kan dus bijvoorbeeld vastgesteld worden of die variabele normaal verdeeld is, of dat deze multimodaal, linksscheef en/of rechtsscheef is.

21
Q

Interkwartielafstand (IKA, ook interquartile range, IQR):

A

een spreidingsmaat: de afstand tussen het eerste en derde kwartiel.

22
Q

Interval:

A

interval kan twee dingen betekenen. Ten eerste is een interval een gebied tussen twee getallen in. Een betrouwbaarheidsinterval is hiervan een voorbeeld. Ten tweede wordt de term gebruik om een meetniveau te beschrijven waarbij het interval tussen twee opeenvolgende meetwaarden altijd even groot is (zie het intervalniveau).

23
Q

Kurtosis:

A

de kurtosis van een verdeling is de spitsheid. De normaalverdeling heeft een kurtosis van 0; een platykurte (platte) verdeling heeft een negatieve kurtosis en een leptokurte (spitse) verdeling heeft een positieve kurtosis.

24
Q

Kwantiel, kwantielen:

A

kwantielen zijn een soort ‘breekpunten’ om een datareeks in gelijke delen te splitsen. De mediaan is een voorbeeld van een kwantiel: de mediaan splitst de datareeks precies in twee even grote delen. Andere bekende kwantielen zijn de drie kwartielen die de dataset precies in vier delen splitsen. Verder worden de negen decielen, die de datareeks is tien delen splitsen, en de 99 percentielen, die de datareeks in 100 delen splitsen, vaak gebruikt.

25
Q

Kwartiel, kwartielen:

A

zoals de mediaan een datareeks in twee even grote delen splitst, splitsen de drie kwartielen (het eerste kwartiel, het tweede kwartiel en het derde kwartiel) een datareeks in vier even grote delen. De mediaan is dus het tweede kwartiel. De afstand tussen het eerste en derde kwartiel wordt de interkwartielafstand genoemd en is een spreidingsmaat.

26
Q

Leptokurt, leptokurte:

A

als een variabele leptokurt is, heeft die variabele een grotere spitsheid dan de normaalverdeling. Deze spitse verdeling heeft een positieve kurtosis.

27
Q

Linksscheef, linksscheve:

A

een verdeling waarbij de top rechts ligt en de staart links: de meeste datapunten liggen dus boven het gemiddelde. Een linksscheve verdeling heeft een negatieve skewness.

28
Q

Mediaan:

A

een centrummaat die simpelweg het middelste datapunt in een datareeks aangeeft. Als er een even aantal datapunten is, is de mediaan het gemiddelde van de middelste twee datapunten. Net als de modus is de mediaan minder gevoelig voor outliers dan het gemiddelde.

29
Q

Meetniveau, meetniveaus:

A

het meetniveau van een operationalisatie beschrijft de aard van de data die die operationalisatie oplevert. Er zijn twee hoofdsoorten meetniveaus: categorisch en continu. Categorische operationalisaties kunnen het nominale of het ordinale meetniveau hebben. Continue operationalisaties hebben het interval- of het rationiveau, hoewel het onderscheid tussen die laatste twee bij de toepassing van statistiek niet relevant is. Tot slot zijn er nog dichotome variabelen: deze kunnen slechts twee meetwaarden aannemen. Operationalisaties op het continue meetniveau hebben meer power dan categorische operationalisaties die om deze reden zoveel mogelijk vermeden moeten worden.

30
Q

Modaliteit:

A

het aantal toppen van een verdelingsvorm. Deze kan bijvoorbeeld unimodaal (eentoppig), bimodaal (tweetoppig) of multimodaal (meertoppig) zijn.