Thema 3 - univariate analyse Flashcards

1
Q

wat is een datapunt?

A
  • Een datapunt is een representatie van de uitkomst van een meting.
  • Alles wat je meet in een onderzoek wordt dus geregistreerd in een of meer datapunten. (nominaal, ordinaal, interval, ratio, binair)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

wat is een datareeks?

A
  • Een reeks van meerdere datapunten die hetzelfde representeren heet een datareeks.
  • Een datareeks bestaat in de onderzoekspraktijk overigens vaak al snel uit honderden datapunten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

wat zijn de verschillende meetniveau’s voor variabelen?

A
  • Er worden vier soorten meetniveaus onderscheiden, te weten: nominaal, ordinaal, interval en ratio.
  • Deze meetniveaus bouwen op van laag naar hoog.
  • Deze vier meetniveaus zijn weer onder te verdelen in twee soorten: categorische en continue variabelen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

wat is een dichotome variabele?

A

een dichotome variabele is een nominale variabele die maar twee waarden kan aannemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

wat zijn enkele eigenschappen van een ordinale variabele?

A
  • De afstand tussen de geordende categorieën is onbekend: we kunnen de categorieën alleen maar ordenen.
  • Omdat ordinale variabelen wel van hoog naar laag te ordenen zijn, hebben ze een hoger meetniveau dan nominale variabelen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

wat zijn enkele eigenschappen van een nominale variabele?

A
  • laagste meetniveau
  • deze categorieën zijn niet te ordenen
  • er kan niet mee gerekend worden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

wat zijn categorische of discrete variabelen?

A
  • nominale variabelen & ordinale variablen zijn categorische of discrete variabelen
  • de verschillende meetwaarden die deze variabelen kunnen aannemen zijn altijd categorieën
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

wat is een belangrijk kenmerk van continue variabelen?

A
  • Het belangrijkste kenmerken van deze variabelen is dat ze meetbaar zijn op een ononderbroken schaal en kunnen in de populatie oneindig veel waarden aannemen.
  • er zijn binnen de continue variabelen twee meetnivo’s te onderscheiden
    • interval nivo
    • ratio nivo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

wat is het verschil binnen de continue variabelen tussen een interval nivo en een ratio nivo

A
  • Het verschil tussen deze twee meetniveaus is het al dan niet bestaan van een zogenaamd ‘absoluut nulpunt’, waardoor er wel of niet een verhouding tussen twee getallen uitgedrukt kan worden.
  • ratio meetniveau = heeft een absoluut nulpunt en er kan een verhouding tss twee getallen worden uitgedrukt

Lengte is voorbeeld van een variabele op rationiveau
Temperatuur is een variabele op interval niveau (0° geeft weldegelijk een temperatuur aan)
–> constructen gemeten op een Likertschaal hebben een interval meetniveau
*
! Meetniveaus zijn vaak dus niet zozeer eigenschappen van variabelen ‘in de realiteit’, maar kenmerken van operationalisaties.*

Variabelen hebben niet altijd een vast meetniveau, het meetniveau van een variabele is vaak een keuze die de onderzoeker maakt tijdens het operationaliseren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

hoe kan de keuze voor het meetniveau het onderzoek beïnvloeden?

A
  1. Er zijn altijd meer deelnemers nodig naarmate het meetniveau van de betreffende variabelen lager is. Het meten van continue variabelen is dus economischer.
  2. Veel variabelen die we willen meten in onderzoek zijn continu. Daar waar mensen categorieën waarnemen, –> Categorische operationalisaties zijn dus niet altijd valide.
  3. Het is altijd mogelijk om van een continue variabele terug te gaan naar lagere niveaus, maar niet andersom.
  4. Groepen mensen bestaan vaak niet uit duidelijk onderscheidbare subgroepen. Elke indeling in categorieën geeft dus vaak een vertekening van de werkelijkheid. Het meten van variabelen op een categorisch meetniveau vereist namelijk dat harde grenswaarden, zogenaamde ‘cut-offs’, worden gekozen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

wat zijn beschrijvingsmaten?

A
  • beschrijvingsmaten zijn verschillende manieren om data samen te vatten
  • beschrijvingsmaten worden onderverdeeld in centrummaten en spreidingsmaten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

wat zijn centrummaten?

A
  • Deze maten geven op verschillende manieren het ‘centrum’ van een bepaalde datareeks aan.
  • de meest gebruikte centrummaten zijn : gemiddelde, mediaan en modus
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

hoe bereken je het gemiddelde?

A

het gemiddelde wordt berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

wat is een outlier?

A
  • Een outlier, ook wel uitschieter genoemd, is een extreem datapunt. In de meeste gevallen ligt de outlier dan ook ver af van de rest van de datapunten. Vaak is zo een extreme waarde een indicatie dat er een fout in de data zit.
  • Het is steeds aan de onderzoeker om data op extreme waarden te controleren en te beslissen wat er met outliers moet gebeuren.
  • Vaak wordt ervoor gekozen om de analyses twee keer uit te voeren, met en zonder de outliers. Zo kan bekeken worden hoe robuust de resultaten zijn, dat wil zeggen in hoeverre de resultaten door enkele extreme waarden beïnvloed worden.

! een outlier trekt het gemiddelde erg naar zich toe. Er zijn ook centrummaten die minder gevoelig zijn voor outliers, met name de modus en de mediaan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

wat is de modus?

A
  • De modus is gedefinieerd als de meest voorkomende waarde in de datareeks.
  • De modus is echter minder gevoelig voor outliers dan het gemiddelde.
  • De modus is vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

wat is een mediaan?

A
  • De mediaan is simpelweg het middelste datapunt in de datareeks. Om die te vinden worden eerst alle datapunten van laag naar hoog op een rijtje gezet.
  • Vervolgens wordt het middelste datapunt bepaald, dat wil zeggen het datapunt waar dezelfde hoeveelheid datapunten rechts (hoger) en links (lager) van liggen.
  • is er een even aantal datapunten. In dat geval wordt het gemiddelde van de middelste twee datapunten genomen.
  • Ook de mediaan is minder gevoelig voor outliers dan het gemiddelde.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

wat zijn 5 spreidingsmaten?

A
  1. range
  2. IQR (interkwartielafstand)
  3. variatie
  4. variantie
  5. standaardeviatie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

wat is de range?

A

De eenvoudigste spreidingsmaat is de range, ook wel het bereik, van een variabele. Dit is simpelweg het verschil tussen het maximum en het minimum.

de range is zeer gevoelig is voor outliers en volstaat daarom vaak niet om een goed beeld van de spreiding van de datapunten te geven.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

wat is de IQR (interquartile range), interkwartielafstand?

A
  • De interkwartielafstand (IQR) is voor spreidingsmaten wat de mediaan is voor centrummaten.
  • Om de IQR te berekenen, worden de data weer geordend van laag naar hoog en vervolgens opgesplitst in vier kwartielen.
    –> het eerste kwartiel, ook wel het 25ste percentiel genoemd
    –> het tweede kwartiel, ook wel het 50ste percentiel genoemd
    –> het derde kwartiel, ook wel het 75ste percentiel genoemd

Deze drie ‘breekpunten’ heten, van links naar rechts, het eerste kwartiel (ook wel Q1 genoemd), het tweede kwartiel (Q2, dit is gelijk aan de mediaan), en het derde kwartiel (Q3). De afstand tussen het eerste en het derde kwartiel heet de interkwartielafstand (IQR)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

wat is de variatie?

A

de variatie oftewel sum of squares (SS) = is de som van de gekwadrateerde afwijkingen van het gemiddelde.

  • Om de variatie te berekenen moet eerst voor elk datapunt worden bepaald hoe ver deze van het gemiddelde afwijkt.
  • Door de afwijkingen te kwadrateren, krijgen ze allemaal een positieve waarde –> Deze gekwadrateerde afwijkingen van het gemiddelde worden ook afgekort tot kwadraten of ‘squares’

Het nadeel van de variatie is dat deze steeds groter wordt naarmate er datapunten bijkomen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

wat is variantie?

A
  • De variantie oftewel mean squares (MS) houdt rekening met het aantal datapunten
  • Voor de sum of squares tel je deze kwadraten op. Voor de mean squares (variantie) bereken je het gemiddelde van de kwadraten -> SS gedeeld door het aantal observaties
  • Deze variantie is een handige maat voor spreiding, alhoewel deze niet op dezelfde schaal is als de datapunten in onze datareeks; alle waarden zijn namelijk eerst gekwadrateerd.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

wat zijn vrijheidsgraden?

A

= Vrijheidsgraden, oftewel degrees of freedom (df) in het Engels, drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert.

  • Voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden n-1. Dat wil zeggen dat je in een datareeks alle datapunten behalve één willekeurige kunt veranderen. Dit ene datapunt moet een bepaalde waarde hebben om hetzelfde gemiddelde te behouden.

Het aantal vrijheidsgraden geeft aan hoeveel van deze datapunten er vrij kunnen veranderen zonder de essentie van de datareeks aan te tasten –>** !! Het aantal vrijheidsgraden verandert afhankelijk van hoeveel parameters de datareeks beschrijven.**

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

wat is standaarddeviatie?

A
  • De standaardafwijking is de wortel van de variantie (mean squares) en geeft de gemiddelde afwijking van het gemiddelde weer.
  • Door de wortel te trekken van de mean squares is de standaarddeviatie op dezelfde schaal als het gemiddelde
24
Q

wat zijn beschrijvingsmaten voor categorische variabelen?

A
  • Bij categorische variabelen kan niet echt van een schaal gesproken worden.
  • De modus, de meest voorkomende meetwaarde, kan ook bepaald worden bij ordinale en zelfs bij nominale variabelen.
  • De mediaan kan dus ook bij ordinale variabelen bepaald worden.

–> beide geven weinig info bij een categorische variabele

== bij categorische variabelen, omdat er tenslotte meestal maar relatief weinig categorieën zijn, eenvoudig te bepalen hoe vaak elke meetwaarde voorkomt. Dit heet een frequentieverdeling ==

25
Q

welke kolommen bevat een frequentietabel?

A

Deze frequentietabel heeft vier kolommen.

  1. de frequenties, oftewel het aantal datapunten voor elke meetwaarde.
    2.** het percentage voor elke meetwaarde** van het totale aantal datapunten, waarbij de datapunten die geen meetwaarde hebben, zogenaamde missing values, ook in het totaal meetellen
  2. het percentage voor elke meetwaarde van het (‘subtotale’) aantal datapunten waarvoor wel een meetwaarde bekend is
  3. het cumulatieve percentage ten opzichte van dit laatste subtotaal

Een cumulatief percentage is het percentage van een bepaalde meetwaarde (of categorie) samen met de percentages van alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën).

26
Q

wat zijn absolute frequenties?
wat zijn relatieve frequenties?

A
  • Deze relatieve frequenties (de percentages, oftewel de proporties) geven informatie over het aantal datapunten in een categorie ten opzichte van het totale aantal datapunten.
    ==> de relatieve frequenties geen informatie over het aantal datapunten in de steekproef -> dat zit in de absolute frequenties
  • De frequenties in deze frequentietabellen heten ook wel de absolute frequenties
27
Q

Wat is een verdelingsvorm? En geef 3 eigenschappen van verdelingsvormen?

A

verdelingsvorm = informatie over de manier waarop de datapunten om het gemiddelde heen liggen, de verdelingsvorm (Engels: ‘distribution’) van de datapunten.

  • modaliteit (toppigheid) -> Hartigan’s diptest
  • scheefheid (skewness)
  • spitsheid (kurtosis)

De verdelingsvorm van data wordt meestal bepaald door te kijken naar een grafische weergave van de data, een zogenaamde plot of grafiek. Een histogram is hier een voorbeeld van.

27
Q

wat beschrijft de “modaliteit” of toppigheid? -》gemeten met Hartigan’s diptest

A
  • Modaliteit of toppigheid beschrijft het aantal toppen van een verdeling.
  • Het begrip ‘modaliteit’ komt van ‘modus’, dus de meest voorkomende waarde in een datareeks. De modus vormt een ‘top’ in de verdeling van de data.
27
Q

beschrijf een histogram

A
  1. de horizontale as (x-as) met de schaal van de datareeks
  2. de verticale as (y-as) -> De hoogte van het balkje staat voor het aantal datapunten met een bepaalde waarde

! Bij een histogram worden de datapunten altijd samengevoegd in groepen.

27
Q

welke 2 verschillende soorten modaliteit zijn er?

A
  • Een verdeling met één top wordt unimodaal of eentoppig genoemd
  • een verdeling met meer toppen wordt multimodaal of meertoppig genoemd.

–> specifieke variant van meertoppigheid is de tweetoppige verdeling (of bimodale verdeling)

27
Q

van wat zijn multimodale verdelingen vaak een indicatie?

A

In de praktijk zijn multimodale verdelingen vaak een indicatie dat de populatie uit meerdere subpopulaties bestaat.

27
Q

wat is het uiteindelijke doel van de verdelingsvorm?

A

Het uiteindelijke doel is om op basis van de verdelingsvorm in een streekproef iets te kunnen zeggen over de verdelingsvorm van de populatie.

27
Q

welke verdelingsmaat hoort bij modaliteit?

A

Hartigan’s diptest = deze test geeft een indicatie van de unimodaliteit van een verdeling. Een perfect unimodale verdeling heeft een diptestwaarde van 0
–> Naarmate een verdeling ‘meertoppiger’ lijkt te zijn – dus minder duidelijk eentoppig – wordt deze waarde steeds groter.

28
Q

wat beschrijft de “scheefheid” of skewness van een verdeling?

A
  • Scheefheid ( ‘skewness’) beschrijft of een verdeling symmetrisch of asymmetrisch is.
  • Een scheve verdeling is asymmetrisch. Dit betekent dat de meeste datapunten aan één kant van de schaal liggen.
  • Een (eentoppige) verdeling kan symmetrisch, linksscheef (negatief scheef) of rechtsscheef (positief scheef) zijn
29
Q

waar liggen de meeste datapunten bij een symmetrische (ééntoppige) verdeling?

A
  • in een symmetrische (eentoppige) verdeling liggen de meeste datapunten rondom het gemiddelde en zijn er steeds minder datapunten naarmate de afstand tot het gemiddelde toeneemt.
  • De verdeling heeft de vorm van een klok en wordt in het Engels ook wel aangeduid met ‘bell curve’.
  • Bij een linksscheve verdeling liggen er minder datapunten aan de linkerkant van het gemiddelde. De meeste datapunten liggen dus aan de rechterkant en er is een staart met datapunten relatief ver weg van het gemiddelde aan de linkerkant.
  • Bij een rechtsscheve verdeling liggen juist de meeste datapunten links van het gemiddelde. Rechts van het gemiddelde liggen minder datapunten in een staart.
30
Q

wat zijn de waarden voor de verdelingsmaat scheefheid bij bijvoorbeeld een perfect symmetrische verdeling?

A
  • Bij een perfect symmetrische verdeling ligt deze maat in de buurt van 0.
  • Naarmate een verdeling meer linksscheef is, wordt de skewness steeds kleiner (dat is, meer negatief)
  • naarmate een verdeling meer rechtsscheef is, wordt de skewness steeds groter (dat is, meer positief).
31
Q

wat beschrijft de “spitsheid” of kurtosis van een verdeling?

A
  • Spitsheid oftewel ‘kurtosis’ beschrijft hoe spits of plat een verdeling is (zie Figuur 13.5).
  • Het extreemste voorbeeld is een verdeling waarbij alle datapunten dezelfde waarde hebben: spitser kan een verdeling niet.
  • Omgekeerd is de ‘platste’ verdeling de verdeling waarbij alle waarden even vaak voorkomen. Dit heet ook wel een uniforme verdeling.

–> Een verdeling die erg spits is heet een leptokurte verdeling (‘lepto-’ staat voor ‘spits’).
–> Een verdeling die erg plat is heet een platykurte verdeling (‘platy-’ staat voor ‘plat’).

32
Q

welke verdelingsmaat hoort bij spitsheid of kurtosis?

A
  • De kurtosis is 0 bij een perfect normale verdeling.
  • Naarmate een verdeling platter is, wordt de kurtosis steeds kleiner (dat is, meer negatief)
  • naarmate een verdeling spitser is, wordt de kurtosis steeds groter (dat is, meer positief).
33
Q

wat is een normaalverdeling? en wat zijn de kenmerken van een normaalverdeling?

A
  • een normale verdeling = een unimodale, symmetrische verdeling, die niet bijzonder plat of spits is. Omdat deze verdeling niet op de een of andere manier afwijkend is

Kenmerken:
1. De normaalverdeling is unimodaal -> 1 top en diptest = 0
2. De normaalverdeling is niet scheef (en dus perfect symmetrisch) -> skewness = 0
3. De normaalverdeling is niet bijzonder spits of plat. -> kurtosis = 0
4. 68 % van de datapunten (ongeveer twee derde) ligt binnen ongeveer één standaarddeviatie van het gemiddelde.
5. 95 % van de datapunten ligt binnen ongeveer twee standaarddeviaties van het gemiddelde.
6. 99,7 % van de datapunten (dus bijna allemaal) ligt binnen ongeveer drie standaarddeviaties van het gemiddelde.

34
Q

wat is een standaardnormale verdeling of z-verdeling?

A
  • standaardnormale verdeling of z-verdeling = een speciale vorm van de normale verdeling / is een normaalverdeling met een gemiddelde van 0 en een standaarddeviatie van 1
  • De z-verdeling is handig, want van elk datapunt in die verdeling is gelijk duidelijk hoe ver het van het gemiddelde ligt.
    .
35
Q

wat is een z-score?

A
  • Datapunten in een z-verdeling heten z-scores.
  • Als een datapunt een z-score van
    2 heeft, betekent dit dat dit datapunt
    2 standaarddeviaties boven het gemiddelde ligt.
    –> Dat betekent ook dat slechts 2,5 % van de datapunten nog hoger ligt dan dat datapunt. We zagen net namelijk dat 95% van de datapunten binnen twee standaarddeviaties van het gemiddelde ligt, dat is 2,5% aan elke kant van de verdeling.
36
Q

wat is standaardisering?

A
  • Standaardisering vertaalt de datareeksen naar dezelfde schaal, waarbij 0 staat voor het gemiddelde en 1 staat voor één standaarddeviatie.
  • ## Omdat je van een z-score weet hoe ver deze van het gemiddelde ligt, kan het handig zijn om datapunten om te rekenen in z-scores.

d**e standaardisering van waarden verandert de onderliggende verdeling van deze waarden niet. **Een scheve verdeling zal na standaardisering net zo scheef blijven.

37
Q

wat is het belang van de verdeling v/e variabele in de steekproef tov de verdeling in de populatie (=populatieverdeling)?

A
  • Door de verdeling van steekproefscores te bekijken, ontstaat er een beeld over de populatieverdeling.
  • Hoe groter de steekproef, hoe kleiner de rol van toeval – in de vorm van steekproeffout en meetfout – en hoe meer de verdeling van steekproefscores gaat lijken op de populatieverdeling.
  • Het bepalen van de vorm die de populatieverdeling waarschijnlijk heeft aan de hand van de verdeling van steekproefscores is noodzakelijkerwijs een subjectief proces.
38
Q

wat zijn mogelijke visualisaties van verdelingsvormen?

A

1.** Density plot** = De normaalverdeling, zoals eerder besproken, wordt meestal niet weergegeven in een histogram, maar met een mooie soepele lijn
2.Histogram
3.Q-Q-plots
4. Boxplots
5. staafdiagrammen

39
Q

wat is een density plot?

A
  • De normaalverdeling wordt meestal niet weergegeven in een histogram, maar met een mooie soepele lijn
  • Deze lijn geeft de zogenaamde ‘dichtheid’ (‘density’) van de verdeling aan, oftewel hoeveel datapunten er voor een gegeven meetwaarde zijn, en wordt daarom ook wel een density plot genoemd.
  • Deze plot drukt uit welke proportie van de datapunten ergens zit ten opzichte van het totale aantal datapunten.
  • Density plots zijn daarom heel handig om de kans op een bepaalde waarde af te lezen. Deze kans correspondeert namelijk met het deel van de density plot dat links of rechts van die gegeven waarde ligt.
40
Q

wat is een histogram met een normal curve?

A
  • = een histogram ook voorzien van een density plot. Deze optie bestaat, waarbij daarnaast ook nog de density plot van de normaalverdeling wordt gegeven, de zogenaamde ‘normal curve’.
  • normal curve = de density plot van de normaalverdeling
41
Q

wat is een Q-Q-plot?

A
  • De Q-Q-plot is een informatiebron om de verdeling van een datareeks te vergelijken met de normale verdeling.
  • De Q-Q-plot splitst de data in zogenoemde kwantielen (‘quantiles’, daarom ‘Q’) –> kwantielen zijn de breekpunten tussen even grote delen van de data.
  • In de Q-Q-plot worden de geobserveerde kwantielen uit de data geplot tegen de verwachte kwantielen op basis van een normale verdeling.
  • Als een datareeks normaal verdeeld is, liggen de kwantielen allemaal op een diagonale lijn. Als een datareeks niet normaal is verdeeld, wijken de stipjes van de diagonale lijn af
42
Q

wat is een boxplot?

A
  • In een boxplot worden drie kwartielen geplot, dat wil zeggen de breekpunten die de data in vier even grote delen splitsen.
  • De middelste lijn in de boxplot geeft de mediaan van de data aan. De twee boxen erom heen geven het 1e en het 3e kwartiel aan => betekent dat 50 % van de datapunten binnen deze twee boxen liggen.
43
Q

hoe kunnen categorische variablen worden weergegeven?

A
  • Er is namelijk geen continue variabele om op de x-as te plaatsen. Wel kunnen op de plek van de x-as de categorieën naast elkaar worden weergegeven en kan op de y-as het aantal datapunten worden gezet.

!! Hoewel een staafdiagram erg veel lijkt op een histogram, moeten de implicaties van het ontbreken van een x-as niet worden onderschat. Zo kan er voor een staafdiagram, dus voor een categorische variabele, geen density plot gegenereerd worden

44
Q

wat is de afstand bij continue variabelen? en wat is er specifiek aan variabelen van het rationiveau?

A
  • bij continue variabelen is de afstand tussen de scores gelijk
  • als bovendien de nulscore voor die variabelen een absoluut nulpunt is (wat betekent dat een negatieve score niet mogelijk is) –> dan zijn dit variabelen op rationiveau
  • een ander kenmerk van het ratiomeetniveau is dat er een verhouding tussen twee waarden kan uitgedrukt worden
45
Q

wat is vaak het meet niveau van psychologische constructen?

A
  • veel psychologische constructen hebben een interval meetniveau (variabelen StatKnow, Fear)
  • Gender kent twee scores –> dichotome nominale variabele
  • Education is te ordenen van laag naar hoog, maar de afstand tss de scores is normaal gezien niet gelijk –> daarom geen continue variabele maar een ordinale variabele

= categorische variabelen

46
Q

welke descriptives kunnen we gebruiken om de verdeling te bekijken van categorische variabelen?

A
  • voor categorische variabelen kunnen frequentietabellen en staafdiagrammen gebruikt worden om naar de verdeling van de scores te kijken
47
Q

welke spreidingsmaten kunnen we berekenen voor
- continue variabelen
- nominale en ordinale variabelen?

A

-> continue variabelen = range / standaardeviatie / IQR / variatie / variantie

-> nominale en ordinale variabelen = frequentietabellen / staafdiagrammen

48
Q

wat betekent een IQR van x?

A
  • dat betekent dat er x punten verschil is tussen de respondenten in de laagste 25% vergeleken met de respondenten in de hoogste 25%
49
Q

wat zijn 3 verdelingsmaten?

A
  • modaliteit (toppigheid) - gemeten met diptest
  • skewness (scheefheid)
  • spitsheid (kurtosis)
50
Q

wat betekent:
- een negatieve waarde voor skewness
- een positieve waarde voor skewness
- een positieve waarde voor spitsheid
- een negatieve waarde voor spitsheid?

A
  • een negatieve waarde voor skewness = linksscheef
  • een positieve waarde voor skewness = rechtsscheef
  • een positieve waarde voor spitsheid = spitser dan een normaalverdeling
  • een negatieve waarde voor spitsheid? = platter dan een normaalverdeling

! normale grenzen -1 en +1 -> bij benadering normaal verdeeld