Thema 3 - Univariate analyse Flashcards
Meetniveaus
ook wel meetschalen genoemd, zeggen iets over hoe nauwkeurig de variabelen (in een experiment) zijn gemeten.
Welke meetniveaus worden er onderscheiden?
Er worden 2 meetniveaus binnen categorische (of discrete) variabelen onderscheiden:
* Nominaal: de data kunnen alleen worden gecategoriseerd, ZONDER duidelijke rangorde. Men kan er NIET mee rekenen.
– dichotome of binaire variabele: slechts 2 waardes mogelijk (vb. geslacht)
* Ordinaal: de data kunnen worden gecategoriseerd en er is WEL sprake van een duidelijke rangorde. Men kan er NIET mee rekenen.
Er worden 2 meetniveaus binnen continue variabelen onderscheiden:
* Interval niveau: de data kunnen worden gecategoriseerd, er is sprake van een rangorde en de intervallen tussen de categorieën zijn gelijk (bijvoorbeeld steeds een stap van 10). 0 is ook een waarde.
vb temperatuur
* Ratio niveau: de data kunnen worden gecategoriseerd, er is sprake van een rangorde, de intervallen tussen de categorieën zijn gelijk en er is een betekenisvol nulpunt.
vb lengte
Waarom verdienen hogere meetniveaus de voorkeur boven lagere meetniveaus?
Kiezen voor een categorisch meetniveau terwijl een variabele op een continu niveau gemeten kan worden, kan schadelijk zijn voor het onderzoek om 4 redenen:
1. Er zijn altijd meer deelnemers nodig naarmate het meetniveau van de betreffende variabelen lager is. Verband aantonen tussen 2 continue variabelen vereist minder deelnemers dan wanneer 1 variabele categorisch is.
2. Veel variabelen die we willen meten in onderzoek zijn continu. Categorische operationalisaties zijn niet altijd valide, omdat er vaak continue variabelen ten grondslag liggen aan de categorische variabelen.
3. Het is altijd mogelijk om van continue variabelen terug te gaan naar lagere niveaus, maar niet andersom (als deelnemer 35-50 leeftijd aankruist, weet je niet hoe oud hij is)
4. Groepen mensen bestaan niet uit duidelijk onderscheidbare subgroepen. Je neemtbijvoorbeeld aan dat iemand van 36 meer lijkt op iemand van 49 dan op iemand van 34.
Manipulaties in experimenten resulteren bijna altijd in categorische variabelen.
Wat zijn beschrijvingsmaten?
Getallen die kenmerken van een datareeks beschrijven.
Waar worden centrummaten voor gebruikt?
Deze maten geven op verschillende manieren het ‘centrum’ van een bepaalde datareeks aan.
Wat zijn de 3 veelgebruikte centrummaten en wanneer worden ze gebruikt?
-
Het gemiddelde (meest gebruikte): Wordt berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen.
Alleen zinvol voor continue variabelen.
Gemiddelde wordt ook vaak gebruikt om de score van een individu op een vragenlijst over een psychologisch concept samen te vatten. -
Modus: meest voorkomende waarde in de datareeks.
Vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten.
Vooral zinvol voor nominale variabelen.
Bvb. Leeftijden 1, 35, 35, 35 is gemiddelde 35 -
Mediaan: het middelste datapunt in de datareeks. Alle datapunten van laag naar hoog gesorteerd en dan het middelste punt pakken.
Vb. 34, 34, 35, 36, 36 -> mediaan = 35.
Als er even aantal datapunten is, dan wordt het gemiddelde van de middelste twee genomen.
Gaat outliers tegen.
Alleen zinvol voor ordinale of continue variabelen.
Outlier (uitschieter)
Extreem datapunt, ligt ver af van de rest van de datapunten.
Vaak een teken dat er een fout in de data zit, maar soms zijn er outliers die bij de data horen.
RISICO: Trekt het gemiddelde heel erg naar zich toe –> dus grote invloed op resultaten.
Bvb, leeftijd verkeerd geschreven of per ongeluk een baby meegerekend.
Modus en mediaan zijn minder gevoelig voor outliers
Waar worden spreidingsmaten voor gebruikt?
Om een goed beeld van een datareeks te geven is het noodzakelijk om naast een centrummaat ook de spreiding van de datapunten te rapporteren. Om dit te beschrijven zijn spreidingsmaten nodig.
Range (bereik)
Verschil tussen het minimum en maximum.
Zeer gevoelig voor outliers, volstaat vaak niet om een goed beeld van de spreiding van de datapunten te geven.
Noem 4 veelgebruikte spreidingsmaten en leg uit wanneer elk gebruikt wordt.
-
Interkwartielafstand (interquartile range, IQR): dit is voor spreidingsmaten wat de mediaan is voor centrummaten. Data ordenen van laag naar hoog en vervolgens opgesplitst in kwartielen.
– 25% = mediaan 1e kwartiel
– 50% = mediaan
– 75% = mediaan 3e kwartiel
–> Interkwartielafstand: afstand tussen 1e en 3e kwartiel -
Variatie (sum of squares, SS): Som van de kwadrateerde afwijkingen van het gemiddelde.
Voor elke datapunt bepalen hoe ver deze van het gemiddelde afwijkt, en ze vervolgens kwadrateren.
Nadeel: de variatie wordt steeds groter naarmate er datapunten bijkomen, ook als deze dichtbij het gemiddelde liggen. –> onhandig -
Varantie (mean squares, MS): Houdt WEL rekening met het aantal datapunten en is daarom informatiever dan de Sum of Squares.
Voor de sum of squares tel je deze kwadraten op. Voor de mean squares bereken je het gemiddelde van de kwadraten, dat wil zeggen de som gedeeld door het aantal observaties (n-1). -
Standaarddeviatie (standaardafwijking SD): wordt bekomen door de wortel te nemen van de MS. Door het kwadrateren was deze spreidingsmaat immers niet meer in dezelfde schaal als de datapunten in de datareeks. Voor de standaarddeviatie in de populatie wordt meestal σ (sigma) gebruikt en
voor de standaarddeviatie in de steekproef sd.
Wat zijn vrijheidsgraden?
Geven aan hoeveel datapunten we kunnen veranderen zonder de essentie van de datareeks aan te tasten. Vrijheidsgraden drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert.
Noemer = N-1.
Het aantal vrijheidsgraden verandert afhankelijk van hoeveel parameters de datareeks beschrijven. Hoe meer parameters je berekent, hoe minder waarden je willekeurig kunt aanpassen. Ingewikkelde statistische berekeningen vereisen daarom meer observaties.
Hoe kunnen categorische variabelen beschreven worden?
Verdelingsmaten en spreidingsmaten die te berekenen zijn, hangen af van de schaal waarop variabelen gemeten zijn. Bij categorische variabelen kan niet echt van een schaal gesproken worden.
Bruikbare centrummaten:
- Modus: kan bepaald worden bij ordinale en nominale variabelen.
- Mediaan: kan ook bij ordinale meetwaarden bepaald worden.
Wat is een frequentieverdeling?
Frequentieverdeling: bestaat uit de frequenties, oftewel de aantallen, voor elke mogelijke meetwaarde.
Frequentietabel bestaat uit:
1. De frequenties. Aantal datapunten voor elke meetwaarde.
2. Percentage voor elke meetwaarde t.o.v. totaal aantal datapunten. Missing values (datapunten die geen meetwaarde hebben) tellen ook mee in totaal.
3. Percentage voor elke meetwaarde van het aantal datapunten waarvoor wel een meetwaarde bekend is.
4. Cumulatieve percentage t.o.v. dit laatste subtotaal. Percentage van een bepaalde meetwaarde samen met de percentages van alle lagere meetwaarden.
- Absolute frequenties: de frequenties in deze frequentietabel
- Relatieve frequenties = percentages. Geven informatie over het aantal datapunten in een categorie t.o.v. het totale aantal datapunten.
Voor continue variabelen is het lastig om een frequentietabel te maken, vaak een te lange lijst met waardes. Daarom worden in histogrammen de meetwaarden samengevoegd in groepen.
Wat is een verdelingsvorm?
Beschrijft de manier waarop de datapunten in een datareeks zich tot elkaar en tot het gemiddelde verhouden en wordt grafisch weergegeven in een plot of grafiek.
Histogram
Een grafische representatie die een groep datapunten organiseert in door de gebruiker gespecificeerde ranges.
De X-as vertegenwoordigt de schaal van de datareeks. Hierop worden vervolgens balkjes geplaatst, waarbij de hoogte van elke balk het aantal datapunten met de corresponderende waarde weergeeft.
Dit is een bruikbaar hulpmiddel om een beeld te krijgen van de verdeling (distribution) van datapunten in een datareeks.