Thema 3 - univariate analyse Flashcards
wat is een datapunt?
- Een datapunt is een representatie van de uitkomst van een meting.
- Alles wat je meet in een onderzoek wordt dus geregistreerd in een of meer datapunten. (nominaal, ordinaal, interval, ratio, binair)
wat is een datareeks?
- Een reeks van meerdere datapunten die hetzelfde representeren heet een datareeks.
- Een datareeks bestaat in de onderzoekspraktijk overigens vaak al snel uit honderden datapunten.
wat zijn de verschillende meetniveau’s voor variabelen?
- Er worden vier soorten meetniveaus onderscheiden, te weten: nominaal, ordinaal, interval en ratio.
- Deze meetniveaus bouwen op van laag naar hoog.
- Deze vier meetniveaus zijn weer onder te verdelen in twee soorten: categorische en continue variabelen.
wat is een dichotome variabele?
een dichotome variabele is een nominale variabele die maar twee waarden kan aannemen
wat zijn enkele eigenschappen van een ordinale variabele?
- De afstand tussen de geordende categorieën is onbekend: we kunnen de categorieën alleen maar ordenen.
- Omdat ordinale variabelen wel van hoog naar laag te ordenen zijn, hebben ze een hoger meetniveau dan nominale variabelen
wat zijn enkele eigenschappen van een nominale variabele?
- laagste meetniveau
- deze categorieën zijn niet te ordenen
- er kan niet mee gerekend worden
wat zijn categorische of discrete variabelen?
- nominale variabelen & ordinale variablen zijn categorische of discrete variabelen
- de verschillende meetwaarden die deze variabelen kunnen aannemen zijn altijd categorieën
wat is een belangrijk kenmerk van continue variabelen?
- Het belangrijkste kenmerken van deze variabelen is dat ze meetbaar zijn op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen.
- er zijn binnen de continue variabelen twee meetnivo’s te onderscheiden
- interval nivo
- ratio nivo
wat is het verschil binnen de continue variabelen tussen een interval nivo en een ratio nivo
- Het verschil tussen deze twee meetniveaus is het al dan niet bestaan van een zogenaamd ‘absoluut nulpunt’, waardoor er wel of niet een verhouding tussen twee getallen uitgedrukt kan worden.
- ratio meetniveau = heeft een absoluut nulpunt en er kan een verhouding tss twee getallen worden uitgedrukt
Lengte is voorbeeld van een variabele op rationiveau
Temperatuur is een variabele op interval niveau (0° geeft weldegelijk een temperatuur aan)
–> constructen gemeten op een Likertschaal hebben een interval meetniveau
*
! Meetniveaus zijn vaak dus niet zozeer eigenschappen van variabelen ‘in de realiteit’, maar kenmerken van operationalisaties.*
Variabelen hebben niet altijd een vast meetniveau, het meetniveau van een variabele is vaak een keuze die de onderzoeker maakt tijdens het operationaliseren.
hoe kan de keuze voor het meetniveau het onderzoek beïnvloeden?
- Er zijn altijd meer deelnemers nodig naarmate het meetniveau van de betreffende variabelen lager is. Het meten van continue variabelen is dus economischer.
- Veel variabelen die we willen meten in onderzoek zijn continu. Daar waar mensen categorieën waarnemen, –> Categorische operationalisaties zijn dus niet altijd valide.
- Het is altijd mogelijk om van een continue variabele terug te gaan naar lagere niveaus, maar niet andersom.
- Groepen mensen bestaan vaak niet uit duidelijk onderscheidbare subgroepen. Elke indeling in categorieën geeft dus vaak een vertekening van de werkelijkheid. Het meten van variabelen op een categorisch meetniveau vereist namelijk dat harde grenswaarden, zogenaamde ‘cut-offs’, worden gekozen.
wat zijn beschrijvingsmaten?
- beschrijvingsmaten zijn verschillende manieren om data samen te vatten
- beschrijvingsmaten worden onderverdeeld in centrummaten en spreidingsmaten
wat zijn centrummaten?
- Deze maten geven op verschillende manieren het ‘centrum’ van een bepaalde datareeks aan.
- de meest gebruikte centrummaten zijn : gemiddelde, mediaan en modus
hoe bereken je het gemiddelde?
het gemiddelde wordt berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen.
wat is een outlier?
- Een outlier, ook wel uitschieter genoemd, is een extreem datapunt. In de meeste gevallen ligt de outlier dan ook ver af van de rest van de datapunten. Vaak is zo een extreme waarde een indicatie dat er een fout in de data zit.
- Het is steeds aan de onderzoeker om data op extreme waarden te controleren en te beslissen wat er met outliers moet gebeuren.
- Vaak wordt ervoor gekozen om de analyses twee keer uit te voeren, met en zonder de outliers. Zo kan bekeken worden hoe robuust de resultaten zijn, dat wil zeggen in hoeverre de resultaten door enkele extreme waarden beïnvloed worden.
! een outlier trekt het gemiddelde erg naar zich toe. Er zijn ook centrummaten die minder gevoelig zijn voor outliers, met name de modus en de mediaan.
wat is de modus?
- De modus is gedefinieerd als de meest voorkomende waarde in de datareeks.
- De modus is echter minder gevoelig voor outliers dan het gemiddelde.
- De modus is vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten.
wat is een mediaan?
- De mediaan is simpelweg het middelste datapunt in de datareeks. Om die te vinden worden eerst alle datapunten van laag naar hoog op een rijtje gezet.
- Vervolgens wordt het middelste datapunt bepaald, dat wil zeggen het datapunt waar dezelfde hoeveelheid datapunten rechts (hoger) en links (lager) van liggen.
- is er een even aantal datapunten. In dat geval wordt het gemiddelde van de middelste twee datapunten genomen.
- Ook de mediaan is minder gevoelig voor outliers dan het gemiddelde.
wat zijn 5 spreidingsmaten?
- range
- IQR (interkwartielafstand)
- variatie
- variantie
- standaardeviatie
wat is de range?
De eenvoudigste spreidingsmaat is de range, ook wel het bereik, van een variabele. Dit is simpelweg het verschil tussen het maximum en het minimum.
de range is zeer gevoelig is voor outliers en volstaat daarom vaak niet om een goed beeld van de spreiding van de datapunten te geven.
wat is de IQR (interquartile range), interkwartielafstand?
- De interkwartielafstand (IQR) is voor spreidingsmaten wat de mediaan is voor centrummaten.
- Om de IQR te berekenen, worden de data weer geordend van laag naar hoog en vervolgens opgesplitst in vier kwartielen.
–> het eerste kwartiel, ook wel het 25ste percentiel genoemd
–> het tweede kwartiel, ook wel het 50ste percentiel genoemd
–> het derde kwartiel, ook wel het 75ste percentiel genoemd
Deze drie ‘breekpunten’ heten, van links naar rechts, het eerste kwartiel (ook wel Q1 genoemd), het tweede kwartiel (Q2, dit is gelijk aan de mediaan), en het derde kwartiel (Q3). De afstand tussen het eerste en het derde kwartiel heet de interkwartielafstand (IQR)
wat is de variatie?
de variatie oftewel sum of squares (SS) = is de som van de gekwadrateerde afwijkingen van het gemiddelde.
- Om de variatie te berekenen moet eerst voor elk datapunt worden bepaald hoe ver deze van het gemiddelde afwijkt.
- Door de afwijkingen te kwadrateren, krijgen ze allemaal een positieve waarde –> Deze gekwadrateerde afwijkingen van het gemiddelde worden ook afgekort tot kwadraten of ‘squares’
Het nadeel van de variatie is dat deze steeds groter wordt naarmate er datapunten bijkomen.
wat is variantie?
- De variantie oftewel mean squares (MS) houdt rekening met het aantal datapunten
- Voor de sum of squares tel je deze kwadraten op. Voor de mean squares (variantie) bereken je het gemiddelde van de kwadraten -> SS gedeeld door het aantal observaties
- Deze variantie is een handige maat voor spreiding, alhoewel deze niet op dezelfde schaal is als de datapunten in onze datareeks; alle waarden zijn namelijk eerst gekwadrateerd.
wat zijn vrijheidsgraden?
= Vrijheidsgraden, oftewel degrees of freedom (df) in het Engels, drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert.
- Voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden n-1. Dat wil zeggen dat je in een datareeks alle datapunten behalve één willekeurige kunt veranderen. Dit ene datapunt moet een bepaalde waarde hebben om hetzelfde gemiddelde te behouden.
Het aantal vrijheidsgraden geeft aan hoeveel van deze datapunten er vrij kunnen veranderen zonder de essentie van de datareeks aan te tasten –>** !! Het aantal vrijheidsgraden verandert afhankelijk van hoeveel parameters de datareeks beschrijven.**