Thema 3 - Univariate analyse Flashcards

1
Q

Meetniveaus

A

ook wel meetschalen genoemd, zeggen iets over hoe nauwkeurig de variabelen (in een experiment) zijn gemeten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welke meetniveaus worden er onderscheiden?

A

Er worden 2 meetniveaus binnen categorische (of discrete) variabelen onderscheiden:
* Nominaal: de data kunnen alleen worden gecategoriseerd, ZONDER duidelijke rangorde. Men kan er NIET mee rekenen.
dichotome of binaire variabele: slechts 2 waardes mogelijk (vb. geslacht)
* Ordinaal: de data kunnen worden gecategoriseerd en er is WEL sprake van een duidelijke rangorde. Men kan er NIET mee rekenen.

Er worden 2 meetniveaus binnen continue variabelen onderscheiden:
* Interval niveau: de data kunnen worden gecategoriseerd, er is sprake van een rangorde en de intervallen tussen de categorieën zijn gelijk (bijvoorbeeld steeds een stap van 10). 0 is ook een waarde.
vb temperatuur
* Ratio niveau: de data kunnen worden gecategoriseerd, er is sprake van een rangorde, de intervallen tussen de categorieën zijn gelijk en er is een betekenisvol nulpunt.
vb lengte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Waarom verdienen hogere meetniveaus de voorkeur boven lagere meetniveaus?

A

Kiezen voor een categorisch meetniveau terwijl een variabele op een continu niveau gemeten kan worden, kan schadelijk zijn voor het onderzoek om 4 redenen:
1. Er zijn altijd meer deelnemers nodig naarmate het meetniveau van de betreffende variabelen lager is. Verband aantonen tussen 2 continue variabelen vereist minder deelnemers dan wanneer 1 variabele categorisch is.
2. Veel variabelen die we willen meten in onderzoek zijn continu. Categorische operationalisaties zijn niet altijd valide, omdat er vaak continue variabelen ten grondslag liggen aan de categorische variabelen.
3. Het is altijd mogelijk om van continue variabelen terug te gaan naar lagere niveaus, maar niet andersom (als deelnemer 35-50 leeftijd aankruist, weet je niet hoe oud hij is)
4. Groepen mensen bestaan niet uit duidelijk onderscheidbare subgroepen. Je neemtbijvoorbeeld aan dat iemand van 36 meer lijkt op iemand van 49 dan op iemand van 34.

Manipulaties in experimenten resulteren bijna altijd in categorische variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat zijn beschrijvingsmaten?

A

Getallen die kenmerken van een datareeks beschrijven.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Waar worden centrummaten voor gebruikt?

A

Deze maten geven op verschillende manieren het ‘centrum’ van een bepaalde datareeks aan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat zijn de 3 veelgebruikte centrummaten en wanneer worden ze gebruikt?

A
  • Het gemiddelde (meest gebruikte): Wordt berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen.
    Alleen zinvol voor continue variabelen.
    Gemiddelde wordt ook vaak gebruikt om de score van een individu op een vragenlijst over een psychologisch concept samen te vatten.
  • Modus: meest voorkomende waarde in de datareeks.
    Vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten.
    Vooral zinvol voor nominale variabelen.
    Bvb. Leeftijden 1, 35, 35, 35 is gemiddelde 35
  • Mediaan: het middelste datapunt in de datareeks. Alle datapunten van laag naar hoog gesorteerd en dan het middelste punt pakken.
    Vb. 34, 34, 35, 36, 36 -> mediaan = 35.
    Als er even aantal datapunten is, dan wordt het gemiddelde van de middelste twee genomen.
    Gaat outliers tegen.
    Alleen zinvol voor ordinale of continue variabelen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Outlier (uitschieter)

A

Extreem datapunt, ligt ver af van de rest van de datapunten.

Vaak een teken dat er een fout in de data zit, maar soms zijn er outliers die bij de data horen.
RISICO: Trekt het gemiddelde heel erg naar zich toe –> dus grote invloed op resultaten.

Bvb, leeftijd verkeerd geschreven of per ongeluk een baby meegerekend.

Modus en mediaan zijn minder gevoelig voor outliers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Waar worden spreidingsmaten voor gebruikt?

A

Om een goed beeld van een datareeks te geven is het noodzakelijk om naast een centrummaat ook de spreiding van de datapunten te rapporteren. Om dit te beschrijven zijn spreidingsmaten nodig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Range (bereik)

A

Verschil tussen het minimum en maximum.
Zeer gevoelig voor outliers, volstaat vaak niet om een goed beeld van de spreiding van de datapunten te geven.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Noem 4 veelgebruikte spreidingsmaten en leg uit wanneer elk gebruikt wordt.

A
  • Interkwartielafstand (interquartile range, IQR): dit is voor spreidingsmaten wat de mediaan is voor centrummaten. Data ordenen van laag naar hoog en vervolgens opgesplitst in kwartielen.
    – 25% = mediaan 1e kwartiel
    – 50% = mediaan
    – 75% = mediaan 3e kwartiel
    –> Interkwartielafstand: afstand tussen 1e en 3e kwartiel
  • Variatie (sum of squares, SS): Som van de kwadrateerde afwijkingen van het gemiddelde.
    Voor elke datapunt bepalen hoe ver deze van het gemiddelde afwijkt, en ze vervolgens kwadrateren.
    Nadeel: de variatie wordt steeds groter naarmate er datapunten bijkomen, ook als deze dichtbij het gemiddelde liggen. –> onhandig
  • Varantie (mean squares, MS): Houdt WEL rekening met het aantal datapunten en is daarom informatiever dan de Sum of Squares.
    Voor de sum of squares tel je deze kwadraten op. Voor de mean squares bereken je het gemiddelde van de kwadraten, dat wil zeggen de som gedeeld door het aantal observaties (n-1).
  • Standaarddeviatie (standaardafwijking SD): wordt bekomen door de wortel te nemen van de MS. Door het kwadrateren was deze spreidingsmaat immers niet meer in dezelfde schaal als de datapunten in de datareeks. Voor de standaarddeviatie in de populatie wordt meestal σ (sigma) gebruikt en
    voor de standaarddeviatie in de steekproef sd.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat zijn vrijheidsgraden?

A

Geven aan hoeveel datapunten we kunnen veranderen zonder de essentie van de datareeks aan te tasten. Vrijheidsgraden drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert.
Noemer = N-1.

Het aantal vrijheidsgraden verandert afhankelijk van hoeveel parameters de datareeks beschrijven. Hoe meer parameters je berekent, hoe minder waarden je willekeurig kunt aanpassen. Ingewikkelde statistische berekeningen vereisen daarom meer observaties.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hoe kunnen categorische variabelen beschreven worden?

A

Verdelingsmaten en spreidingsmaten die te berekenen zijn, hangen af van de schaal waarop variabelen gemeten zijn. Bij categorische variabelen kan niet echt van een schaal gesproken worden.

Bruikbare centrummaten:
- Modus: kan bepaald worden bij ordinale en nominale variabelen.
- Mediaan: kan ook bij ordinale meetwaarden bepaald worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is een frequentieverdeling?

A

Frequentieverdeling: bestaat uit de frequenties, oftewel de aantallen, voor elke mogelijke meetwaarde.
Frequentietabel bestaat uit:
1. De frequenties. Aantal datapunten voor elke meetwaarde.
2. Percentage voor elke meetwaarde t.o.v. totaal aantal datapunten. Missing values (datapunten die geen meetwaarde hebben) tellen ook mee in totaal.
3. Percentage voor elke meetwaarde van het aantal datapunten waarvoor wel een meetwaarde bekend is.
4. Cumulatieve percentage t.o.v. dit laatste subtotaal. Percentage van een bepaalde meetwaarde samen met de percentages van alle lagere meetwaarden.

  • Absolute frequenties: de frequenties in deze frequentietabel
  • Relatieve frequenties = percentages. Geven informatie over het aantal datapunten in een categorie t.o.v. het totale aantal datapunten.

Voor continue variabelen is het lastig om een frequentietabel te maken, vaak een te lange lijst met waardes. Daarom worden in histogrammen de meetwaarden samengevoegd in groepen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is een verdelingsvorm?

A

Beschrijft de manier waarop de datapunten in een datareeks zich tot elkaar en tot het gemiddelde verhouden en wordt grafisch weergegeven in een plot of grafiek.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Histogram

A

Een grafische representatie die een groep datapunten organiseert in door de gebruiker gespecificeerde ranges.
De X-as vertegenwoordigt de schaal van de datareeks. Hierop worden vervolgens balkjes geplaatst, waarbij de hoogte van elke balk het aantal datapunten met de corresponderende waarde weergeeft.

Dit is een bruikbaar hulpmiddel om een beeld te krijgen van de verdeling (distribution) van datapunten in een datareeks.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Welke verdelingsmaten zijn er?

A
  • Modaliteit (toppigheid)
  • Scheefheid (skewness)
  • Spitsheid (kurtosis)
17
Q

Modaliteit (of toppigheid)

A

Modaliteit beschrijft het aantal toppen van de verdeling:
* Één top =** unimodaal**
* 2 toppen = bimodaal
* Meerdere toppen = multimodaal.

Het is niet altijd duidelijk hoeveel toppen een verdeling heeft. Deze ambiguïteit is het gevolg van steekproef- en meetfout. In de praktijk zijn
multimodale verdelingen vaak een indicatie dat de populatie uit meerdere sub-populaties bestaat.

Perfecte normale verdeling: diptest = 0

18
Q

Skewness (of scheefheid)

A

Een scheve verdeling is asymmetrisch:
* Linksscheve of negatief scheve verdeling: de meeste datapunten liggen rechts vh gemiddelde.
* Rechtsscheve of positief scheve verdeling: de meeste datapunten liggen links vh gemiddelde.

Een symmetrische verdeling wordt ook ‘Bell curve’ genoemd: de meeste datapunten liggen rondom het gemiddelde en worden minder talrijk naarmate de afstand tot het gemiddelde groter wordt.

Symmetrische verdeling: skewness = 0. Een afwijking is volgens de de conservatieve vanaf -1/1, of volgens meer liberale vuistregels vanaf -3/3.

19
Q

Kurtosis (of spitsheid)

A

Een verdeling kan ook verschillen in hoe spits of plat hij is. In de meest spitse verdeling hebben alle datapunten dezelfde waarde, bij de meest platte (uniforme) verdeling komt elke waarde bij evenveel datapunten voor.
* Leptokurte verdeling: zeer spits.
* Platykurte verdeling: zeer plat.

Bij een normale verdeling: de kurtosis = 00.
Naarmate een verdeling platter is, wordt de kurtosis steeds kleiner (dat is, meer negatief)
Naarmate een verdeling spitser is, wordt de kurtosis steeds groter (dat is, meer positief).

20
Q

Wat is een normaalverdeling?

A
  • Een unimodale, symmetrische verdeling die niet bijzonder plat of spits is
  • Gemiddelde, modus en mediaan zijn gelijk.
  • 68% van de datapunten ligt binnen één standaarddeviatie van het gemiddelde.
  • 95% van de datapunten ligt binnen twee standaarddeviaties van het gemiddelde.
  • 99,7% van de datapunten ligt binnen drie standaarddeviaties van het gemiddelde.

De normale verdeling is belangrijk in de psychologie, onderwijswetenschappen en andere wetenschappen omdat veel variabelen in de natuur normaal verdeeld zijn. Bovendien is ook ruis, zoals meetfout, normaal verdeeld. Galilieo viel dit op in de 17e eeuw. Gauss ontwikkelde een
formule voor de normaalverdeling en toonde aan dat ruis (meetfouten) is verdeeld.

21
Q

Standaardnormale verdeling of z-verdeling

A

Een normaalverdeling met een gemiddelde van 0 en een standaarddeviatie van 1. Datapunten in een z-verdeling heten z-scores.

22
Q

Wat zijn Z-scores?

A

De z-scores gaan van -3 standaarddeviaties tot +3 standaarddeviaties.
De z-verdeling is handig, omdat op die manier voor elk punt in de dataverdeling meteen duidelijk is hoever het van het gemiddelde verwijderd is.
Vb een z-score van 2 is die van een datapunt dat 2 standaarddeviaties boven het gemiddelde ligt (–> slechts 2,5% van de data punten ligt dus hoger).

Datapunten kunnen omgerekend worden naar z-scores door ze te verminderen met het gemiddelde en dit te delen door de standaarddeviatie.

23
Q

Standaardisering

A

Het omrekenen van datapunten naar z-scores.
–> Hierdoor is voor elk datapunt goed zichtbaar hoe het zich verhoudt tot de gehele datareeks EN kunnen gestandaardiseerde datapunten over verschillende datareeksen vergeleken worden (De deling door de standaarddeviatie verwijdert immers de schaalinformatie uit de datareeks en vertaalt elke datareeks naar dezelfde schaal).

OPGELET! Het omrekenen in z-scores garandeert geen z-verdeling! Hoewel scores die op deze manier zijn omgerekend altijd z-scores worden genoemd, geldt niet altijd dat ze ook volgens de z-verdeling zijn verdeeld. Van een willekeurige datareeks met z-scores is pas bekend of ze normaal is verdeeld als de verdeling is bekeken.

24
Q

Wat is een density plot?

A

Meestal wordt een verdeling in een density plot ipv een histogram weergegeven.
Deze vloeiende lijn geeft de dichtheid van de verdeling weer, oftewel hoeveel datapunten er voor een gegeven meetwaarde zijn. Een density plot heeft altijd een oppervlakte van 1 (overeenkomstig de kans
op alle voorkomende waarden).

Het density plot voor de normaalverdeling heeft de vorm van een bel.
Hierin kunnen dan de lijnen voor de standaarddeviaties getekend
worden.

25
Q

Wat is een Q-Q-plot?

A

De Q-Q-plot is een andere bruikbare informatiebron om de verdeling van een datareeks te vergelijken met de normale verdeling.

De Q-Q-plot splitst de data in zogenoemde kwantielen (‘quantiles’, daarom ‘Q’). Kwantielen zijn de breekpunten tussen even grote delen van de data.
- Als een datareeks normaal verdeeld is, liggen de kwantielen daarom allemaal op een diagonale lijn.
- Als een datareeks niet normaal is verdeeld, wijken de stipjes van de diagonale lijn af.

26
Q

Wat is een boxplot?

A

Drie kwartielen worden geplot samen met het minimum en maximum datapunten die ouliers zouden kunnen zijn worden visueel aangegeven.

De middelste lijn in de boxplot geeft de mediaan van de data aan. De twee boxen erom heen geven het 1e en het 3e kwartiel aan. Ouliers worden aangegeven met stipjes. Als er geen outliers weergegeven worden, betekent dit dat je het einde van de verticale lijn kunt interpreteren als het minimum en maximum van de data.

27
Q

Wat is een staafdiagram?

A

Hoewel een staafdiagram erg veel lijkt op een histogram, moeten de implicaties van het ontbreken van een x-as niet worden onderschat. Zo kan er voor een staafdiagram, dus voor een categorische variabele, geen density plot gegenereerd worden. Er kan dus ook niet worden gesproken over verdelingsvormen bij categorische variabelen.

28
Q

Wat zijn steekproevenverdelingen?

A

Theoretische verdeling van een bepaalde maat (bvb gemiddelde) die je krijgt als je een oneindig aantal steekproeven uit een populatie zou trekken:
Meerdere steekproeven nemen, van alle steekproeven de gemiddeldes, standaarddeviaties en waardes voor bvb spitsheid uitrekenen. –> Als je het gemiddelde neemt uit alle gemiddeldes, krijg je een gemiddelde wat veel dichter bij de waarden van de populatie ligt.

Omdat die steekproevenverdelingen alle mogelijke uitkomsten bevat, kunnen we de redenering ook omdraaien: als we een willekeurige steekproef nemen, komt ons steekproefgemiddelde eigenlijk uit zo’n theoretische steekproevenverdeling met alle mogelijke gemiddelden die we kunnen vinden.

29
Q

Verklaar: elke beschrijvingsmaat is afkomstig uit een steekproevenverdeling

A

Elke maat die uitgerekend kan worden o.b.v. de datareeks die met een steekproef is verkregen, heeft zo’n theoretische steekproevenverdeling. (Geldt ook voor de scheefheid, mediaan, modus, variantie, variatie, dip-test en de interkwartiel afstand.)

Op een rijtje:
- Uit een populatie kan een steekproef van een gegeven omvang worden getrokken door willekeurig onderzoekseenheden (deelnemers) te selecteren.
- De resulterende datareeks wordt gekenmerkt door beschrijvingsmaten.
- Voor elk van deze maten kan een theoretische steekproevenverdeling worden opgesteld.
- Die steekproevenverdeling bevat de desbetreffende maten verkregen uit oneindige herhaling van die steekproeftrekking (met dezelfde omvang).
- Elke centrum-, spreidings-, en verdelingsmaat is dus te beschouwen als een willekeurige selectie van 1 waarde uit de desbetreffende steekproevenverdeling.

30
Q

Wat is de centrale limietstelling?

A

Stelt dat naarmate we meer steekproeven trekken, de steekproevenverdeling
van het gemiddelde steeds meer op de normaalverdeling zal lijken.

  • Theoretische steekproevenverdeling is dus altijd normaal verdeeld.
  • Bij acceptabele steekproefgroottes is de steekproevenverdeling van het gemiddelde normaal verdeeld, tenzij de populatieverdeling enorm afwijkt van normaliteit.
    Dit betekent dus dat bijna altijd bekend is wat de verdelingsvorm is van de verdeling waar het steekproefgemiddelde uitkomt. Bovendien is ook de spreiding van die verdeling bekend.
31
Q

Leg uit waarom de steekproevenverdeling voor het gemiddelde bijna altijd normaal verdeeld is

A

Als een steekproef groot genoeg is (meer dan 100), de steekproevenverdeling van het gemiddelde normaal is verdeeld.
Verdelingsvorm is niet alleen afhankelijk van de omvang van de steekproef, maar ook van de verdelingsvorm van de populatieverdeling.
Als de populatieverdeling normaal is verdeeld, is de steekproevenverdeling per definitie ook normaal verdeeld, zelfs voor kleine steekproefjes,
Grote steekproeven zijn nodig als de populatieverdeling afwijkt van de normaalverdeling.

32
Q

Wat is de standaardfout?

A

Om een nauwkeurige uitspraak over het steekproevengemiddelde te kunnen doen, is het nodig de spreiding van de steekproevenverdeling te weten.

Standaardfout (standard error): standaarddeviatie van een steekproevenverdeling wordt de standaardfout genoemd.
Standaardfout hang af van de grootte van de steekproef. Hoe groter
de steekproef, hoe smaller de steekproevenverdeling en dus hoe kleiner de standaardfout.

Standaardfout: standaarddeviatie van de populatie (σ)/wortel van steekproefgrootte
MAAR: de standaarddeviatie van de populatie weten we echter nooit.
–> Om de standaardfout te benaderen maken we daarom gebruik van de standaarddeviatie van de steekproef (sd).

Conclusie: We weten nu dat het gemiddelde dat we in onze steekproef vinden in 68% van de steekproeven binnen ongeveer 1 standaardfout van het ware gemiddelde ligt en in 95% van de steekproeven binnen 2 standaardfouten van het gemiddelde ligt.
Andersom geldt het ook: het ware gemiddelde ligt in 68% van de gevallen binnen ongeveer een standaardfout van het steekproefgemiddelde en in 95% van de steekproeven binnen ongeveer 2 standaardfouten van het steekproefgemiddelde.

33
Q

Wat zijn betrouwbaarheidsintervallen?

A

Geeft een indicatie van de accuraatheid van een maat uit een steekproef.
* Het interval om het steekproefgemiddelde heen dat in 95% van de steekproeven het populatiegemiddelde bevat.
* Komt overeen met een afwijking van ongeveer 2 standaardfouten van het gemiddelde.
* Geeft informatie over hoe accuraat het gemiddelde is dat we in de steekproef hebben gevonden.
* Zit in de breedte van het interval: smalle intervallen zijn meer accuraat, bredere minder.

Formule:
Betrouwbaarheidsinterval = [steekproefwaarde - (breedte-index . se) ; steekproefwaard + (breedte-index . se)]

Steekproefwaarde: bvb gemiddelde, skewness of standaarddeviatie.
Breedte-index: hangt af van:
- Vorm van de steekproevenverdeling van de desbetreffende waarde
- Betrouwbaarheid van het interval
- Wordt groter naarmate een hogere betrouwbaarheid wordt gewenst.
In de praktijk wordt vaak een betrouwbaarheidsinterval van 95% gehanteerd. Hoe hoger het %, hoe vaker deze het populatiegemiddelde zal bevattenen hoe breder het interval zal zijn.

Samengevat: het betrouwbaarheidsinterval is het dichtste dat we kunnen komen bij een antwoord op de vraag ‘Wat kan ik op basis van mijn steekproef over de populatie concluderen?’. We hebben nu een interval berekend waarvan we zeker weten dat het in 95% van de steekproeven
het populatiegemiddelde zal bevatten.

34
Q

Wat zijn puntschattingen?

A

Een betrouwbaarheidsinterval van 00 is een puntschatting en dus geen interval meer. Wanneer uit een steekproef de waarde van een statistiek wordt berekend om de waarde van een bepaalde parameter of karakteristiek te benaderen, dan wordt een schatting (estimate) gemaakt. Wanneer één enkele waarde vooropgesteld wordt, dan spreekt men van een puntschatting.

Puntschatting is niet erg informatief: Betrouwbaarheidsintervallen geven een redelijke reeks te verwachten getallen, bij een puntschatting gaat het maar om één getal. Een punt op een eindeloze reeks, mogelijke waarden. Het getal is ook verkeerd, als op genoeg decimalen wordt gekeken zal het populatiegemiddelde altijd wel ergens afwijken.

35
Q

Hoe kan men op een eenvoudige manier omgaan met een steekproevenverdeling van een variabele die bij benadering niet normaal verdeeld is?

A

Deze variabele kan niet zonder meer met de gebruikelijke statistische technieken geanalyseerd worden. De eenvoudigere methoden hebben implicaties voor de conclusies die getrokken kunnen worden.
De mogeijke alternatieven in volgorde van oplopende complexiteit:
- de extreme waarden verwijderen uit de dataset
- de variabele terugbrengen tot categorisch meetniveau
- de variabele transformeren door bijvoorbeeld het logaritme te nemen
- een meer geavanceerd statistisch model gebruiken dat rekening houdt met de afwijkende verdeling van deze variabele