Thema 3. Univariate analyse. Deel 2 Flashcards by Janet Ham

Modus, modi:

een centrummaat die simpelweg het meest voorkomende datapunt in een datareeks weergeeft. Net als de mediaan is de modus minder gevoelig voor outliers dan het gemiddelde. Let op: in de context van verdelingsvormen staat modus voor ‘top’ en is het hoogste getal in vergelijking met de omringende getallen.

How well did you know this?

Not at all

Perfectly

Multimodale verdeling, multimodaal: (ook meertoppige verdeling)

een verdeling met meerdere toppen (‘modi’). Een verdeling met één top is unimodaal, en heeft maar één modus. Let op: een modus in deze betekenis betreft niet de gebruikelijke definitie van modus (de meetwaarde die het meeste voorkomt). In de context van verdelingsvormen staat modus voor ‘top’ en is het hoogste getal in vergelijking met de omringende getallen.

How well did you know this?

Not at all

Perfectly

Negatief scheve verdeling:

een verdeling met een negatieve skewness: een linksscheve verdeling.

How well did you know this?

Not at all

Perfectly

Nominaal, nominale, nominale variabelen:

het nominale meetniveau is een meetniveau waarin de verschillende meetwaarden die een variabele aan kan nemen slechts te onderscheiden zijn met hun naam. Die meetwaarden representeren dan categorieën die niet te ordenen zijn. Voorbeelden zijn woonplaats en geslacht. Het meetniveau van een variabele is een keus van de onderzoeker en wordt vastgelegd in de operationalisatie. Zo kan in psychologisch onderzoek geslacht bijvoorbeeld ook gemeten worden op een ordinaal of zelfs intervalniveau. Variabelen op het nominale meetniveau hebben minder power dan variabelen op het ordinale meetniveau, die weer minder power hebben dan variabelen op het intervalniveau.

How well did you know this?

Not at all

Perfectly

Normaalverdeling, normale verdeling, normaal:

een symmetrische, eentoppige verdeling, waarbij het gemiddelde, de mediaan en de modus allemaal gelijk zijn, en waarvoor geldt dat twee derde van de datapunten binnen één standaarddeviatie van het gemiddelde ligt en 95% binnen twee standaarddeviaties. Voor alle, behalve uitzonderlijk kleine, steekproeven geldt dat de steekproevenverdeling van het gemiddelde normaal verdeeld is. Dit fenomeen heet de centrale limietstelling.

How well did you know this?

Not at all

Perfectly

Outlier, outliers:

een outlier (of uitschieter) is een datapunt dat dermate extreem is, dat het vaak een artefact is van de dataverzameling. Bij een reactietijdentaak is een reactietijd van een halve milliseconde bijvoorbeeld dermate laag dat het niet waarschijnlijk is dat deze een reactietijd representeert. Omgekeerd zal een reactietijd van twaalf seconden waarschijnlijk betekenen dat de deelnemer was afgeleid, bijvoorbeeld doordat er op de deur van de onderzoeksruimte werd geklopt. Ook in dat geval representeert dat datapunt geen werkelijke reactietijd. Outliers liggen vaak ver van de rest van de datapunten af en zijn op die manier dus zichtbaar in histogrammen. Tegelijkertijd zijn niet alle datapunten die ver van de rest van de datapunten afliggen noodzakelijkerwijs outliers: sommige deelnemers scoren nu eenmaal hoog of laag. Bij online vragenlijstonderzoek kunnen data bijvoorbeeld niet verkeerd worden ingevoerd en kunnen er dus ook geen artefact van de dataverzameling zijn.

How well did you know this?

Not at all

Perfectly

Platykurt, playtykurte:

een platykurte variabele heeft een mindere spitsheid dan de normaalverdeling, en is dus relatief afgevlakt. Deze vlakke verdeling heeft een negatieve kurtosis.

How well did you know this?

Not at all

Perfectly

Populatieverdeling:

de verdeling van een variabele in de populatie. Deze verdeling bepaalt de vorm van de verdeling van steekproefscores, en, samen met de steekproefomvang, de steekproevenverdeling.

How well did you know this?

Not at all

Perfectly

Puntschatting, puntschattingen:

een puntschatting is een schatting van een populatiewaarde die, in tegenstelling tot een betrouwbaarheidsinterval, is uitgedrukt als een enkel getal. Een puntschatting is dus te beschouwen als een 0%-betrouwbaarheidsinterval: een interval waar in 0% van de steekproeven de populatiewaarde in ligt. Omdat puntschattingen zo weinig informatief zijn, is het belangrijk om altijd betrouwbaarheidsintervallen te rapporteren naast, of in plaats van, puntschattingen. Een voorbeeld van een puntschatting is het steekproefgemiddelde.

How well did you know this?

Not at all

Perfectly

Q-Q-plot:

een Q-Q-plot is een grafiek waarin de geobserveerde kwantielen in een datareeks op de y-as worden geplot en de theoretische kwantielen die je zou verwachten als de datareeks normaal verdeeld is, op de x-as. Als de verdeling van de datareeks normaal is, liggen alle punten dus op een rechte diagonale lijn. Deze lijn wordt meestal ook getekend in een Q-Q-plot.

How well did you know this?

Not at all

Perfectly

Rationiveau, ratiovariabele, ratio:

een variabele op het rationiveau is een continue variabele waarbij niet alleen, zoals ook voor intervalvariabelen geldt, de afstand tussen verschillende meetwaarden altijd even groot is, maar waarbij bovendien een absoluut nulpunt bestaat, zodat de getallen ook in verhouding tot elkaar betekenis hebben. In de praktijk van de psychologie en onderwijswetenschappen wordt geen onderscheid gemaakt tussen interval- en ratiovariabelen.

How well did you know this?

Not at all

Perfectly

Rechtsscheef, rechtsscheve:

een variabele is rechtsscheef verdeeld als de meeste datapunten in de datareeks een relatief lage score hebben. De staart van de verdeling ligt dan aan de rechterkant in een histogram en het zwaartepunt aan de linkerkant. Een rechtsscheve verdeling heeft een positieve skewness.

How well did you know this?

Not at all

Perfectly

Skewness:

een maat voor de scheefheid van een verdeling. Een symmetrische verdeling heeft een skewness van 0; een linksscheve verdeling heeft een negatieve, en een rechtsscheve verdeling een positieve scheefheid.

How well did you know this?

Not at all

Perfectly

Spreidingsmaat, spreidingsmaten:

een maat die de hoeveelheid spreiding in een reeks datapunten, dus de spreiding van een variabele, representeert. In deze cursus worden de standaarddeviatie, variantie, variatie en interkwartielafstand behandeld.

How well did you know this?

Not at all

Perfectly

Staafdiagram, staafdiagrammen:

een staafdiagram is een grafiek waarbij het aantal datapunten met een bepaalde meetwaarde in een datareeks wordt verbeeld door een staaf.

How well did you know this?

Not at all

Perfectly

Staart:

de staart van een verdeling is het meer extreme deel van de verdeling, dus uit de buurt van de centrummaten. Een normale verdeling heeft twee staarten; een linksscheve verdeling heeft de staart links liggen en een rechtsscheve verdeling heeft de staart rechts liggen.

Standaarddeviatie, standaarddeviaties

Standaardafwijking.
de standaarddeviatie is een spreidingsmaat die van een reeks datapunten de gemiddelde afwijking van het gemiddelde uitdrukt. De standaarddeviatie wordt berekend door de wortel te nemen van de variantie en is afhankelijk van de schaal waarop een variabele gemeten wordt. Als bijvoorbeeld lengte gemeten wordt in centimeters is de standaarddeviatie 100 keer groter dan als lengte gemeten wordt in meters). Het delen van datapunten door de bijbehorende standaarddeviatie is daarom een onderdeel van het standaardiseren van een variabele.

Standaardfout, standaardfouten:

de standaarddeviatie van een steekproevenverdeling heet de standaardfout in plaats van de standaarddeviatie. Dit omdat het een indicator is van hoe accuraat de schatter is, waar de steekproevenverdeling de verdeling van is. Als de steekproevenverdeling van een schatter heel breed is en dus een grote standaardfout heeft, is de verdeling niet erg accuraat en is de rol van steekproeffout en meetfout dus groot. Als de standaardfout klein is, is de verdeling smal en de schatter dus accuraat.

Standaardiseren, standaardisatie, standaardisering:

het omzetten van datapunten naar hun corresponderende z-score door van elk datapunt het gemiddelde af te trekken (centreren) en dat verschil vervolgens te delen door de standaarddeviatie. De resulterende datapunten worden ook wel z-scores genoemd en de resulterende datareeks heeft een gemiddelde van 0 en een standaarddeviatie van 1. Als die datareeks normaal verdeeld was, is de datareeks na standaardisatie gelijk aan de standaardnormale verdeling.

Standaardnormale verdeling, standaardnormale:

een normaalverdeling met een gemiddelde van 0 en een standaarddeviatie van 1.

Steekproevenverdeling, steekproevenverdelingen:

een steekproevenverdeling is de theoretische verdeling waar een schatter uit afkomstig is. De steekproevenverdeling is in te beelden als de verdeling die je zou krijgen als je een steekproef van een gegeven omvang oneindig vaak zou herhalen en steeds de betreffende schatter zou berekenen. Omdat de resulterende verdeling per definitie alle mogelijke waarden bevat die de schatter kan aannemen, kun je zeggen dat als je een willekeurige steekproef neemt van die omvang, de waarde die de schatter in die steekproef aanneemt per definitie uit die steekproevenverdeling komt. De verdelingsvorm van de meeste steekproevenverdelingen is bekend: zo is het gemiddelde verdeeld volgens de t-verdeling. Omdat deze steekproevenverdelingen bekend zijn, kan deze voor een gegeven schatter in een steekproef van een gegeven omvang worden opgesteld, als er tenminste een aanname wordt gedaan over de populatiewaarde waar de schatter bij hoort (bijvoorbeeld het gemiddelde in de populatie of de correlatie in de populatie). Met die steekproevenverdeling kan bijvoorbeeld de kans worden uitgerekend op een gegeven waarde voor de schatter. Als de steekproevenverdeling gebaseerd is op een nulhypothese, is die kans de p-waarde. Meestal betreft de nulhypothese de aanname dat een effectmaat, zoals r, d of ω2, gelijk is aan 0). Een steekproevenverdeling die gecentreerd is rondom de steekproefwaarde van de schatter wordt gebruikt om betrouwbaarheidsintervallen te berekenen

Uniforme verdeling, uniforme:

een verdeling waarbij alle mogelijke waarden even vaak voorkomen. Uniforme verdelingen hebben een lage spitsheid (kurtosis), maar zijn wel symmetrisch (dus niet scheef).

Unimodale verdeling, unimodaal, unimodale:

een verdeling met één top (één modus).

Variantie:

de variantie oftewel mean squares (wat staat voor mean sum of squares) is een spreidingsmaat die berekend wordt uit de variatie (oftewel de sum of squares) door deze te delen door de bijbehorende vrijheidsgraden.
MS=Σ(x×i−x¯¯¯)2n−1=Σ(x×i−x¯¯¯)2Df

De wortel van de variantie is de standaarddeviatie.

Variatie:

de variatie oftewel sum of squares (SS) is een spreidingsmaat die bestaat uit de optelsom van de gekwadrateerde afwijkingen van alle datapunten van hun gemiddelde. SS=Σ(xi−x¯¯¯)2 Het nadeel van de variatie is dat deze hoger wordt naarmate er meer datapunten zijn. Om die reden wordt deze meestal door het bijbehorende aantal vrijheidsgraden gedeeld om de variantie te verkrijgen.

Verdeling, verdelingen, verdeeld:

een verdeling is het geheel van datapunten in een datareeks, samengevat door de centrummaten, spreidingsmaten en verdelingsvorm. De verdeling van steekproefscores is indicatief voor de verdeling in een populatie. De centrale limietstelling beschrijft het fenomeen dat steekproevenverdelingen van gemiddelden altijd normaal verdeeld zijn, behalve bij steekproeven die uitzonderlijk klein zijn.

Verdelingsmaten

: getallen die een verdelingsvorm van een datareeks, en dus een variabele, beschrijven. In deze cursus worden de scheefheid, de spitsheid en de modaliteit (vast te stellen via de diptest) besproken.

Verdelingsvorm, verdelingsvormen:

een verdelingsvorm beschrijft de manier waarop de datapunten in een datareeks zich tot elkaar en het gemiddelde verhouden. Als elke mogelijke meetwaarde even vaak voorkomt, wordt gesproken van een uniforme verdeling. Een andere bekende verdeling is de normaalverdeling: een symmetrische unimodale verdeling. Een verdeling kan ook linksscheef of rechtsscheef zijn. De verdeling van steekproefscores is indicatief voor de verdeling in een populatie. De centrale limietstelling beschrijft het fenomeen dat steekproevenverdelingen van gemiddelden altijd normaal zijn verdeeld, behalve bij steekproeven die uitzonderlijk klein zijn.

Verdeling van steekproefscores:

de verdeling van de datareeks van een variabele in een steekproef.

Vrijheidsgraden:

het aantal vrijheidsgraden van een datareeks is het aantal datapunten - 1 (n−1). Vrijheidsgraden drukken uit hoeveel van de datapunten ‘vrij’ kunnen veranderen zonder het gemiddelde van de datareeks te veranderen. De datareeks 1, 2, 3 en 4 heeft drie vrijheidsgraden, omdat als er drie datapunten worden veranderd, daardoor het vierde datapunt noodzakelijkerwijs vast ligt, omdat het gemiddelde anders zou veranderen. Het gemiddelde van deze datareeks is x¯¯¯=1+2+3+44=2.5 Stel dat we de eerste drie getallen veranderen. We zetten ze bijvoorbeeld alle drie op 0. De datareeks wordt dan 0, 0, 0 en ? – want dat laatste datapunt moeten we nog kiezen. De vierde observatie moet 10 zijn om het een gemiddelde van 2,5 te behouden. Maar als we een ander datapunt kiezen dan 10, verandert ons gemiddelde en verandert onze hele datareeks dus in essentie. De individuele datapunten in een datareeks zijn meestal niet van belang: die variëren sowieso door steekproeffout en meetfout. Het aantal vrijheidsgraden geeft aan hoeveel van deze datapunten we ook echt vrij kunnen veranderen zonder de essentie van de datareeks aan te tasten.

z-score:

een datapunt uitgedrukt in het aantal standaarddeviaties dat dat datapunt van het gemiddelde af ligt. Als een deelnemer bijvoorbeeld een score van 8 heeft op extraversie de gemiddelde extraversie is 5 en de standaarddeviatie is 2, dan is de z-score van die deelnemer z=8−52=32=1.5 Als een variabele wordt gestandaardiseerd, betekent dit dat elke score wordt omgezet naar de corresponderende z-score.

z-verdeling:

de standaardnormale verdeling.