Thema 3 - univariate analyse Flashcards

Question

welke kolommen bevat een frequentietabel?

Answer 1

Deze frequentietabel heeft vier kolommen. 1. **de frequenties**, oftewel het aantal datapunten voor elke meetwaarde. 2. ** het percentage voor elke meetwaarde** van het totale aantal datapunten, waarbij de datapunten die geen meetwaarde hebben, zogenaamde missing values, ook in het totaal meetellen 3. **het percentage voor elke meetwaarde van het (‘subtotale’) aantal datapunten** waarvoor wel een meetwaarde bekend is 4. **het cumulatieve percentage** ten opzichte van dit laatste subtotaal ## Footnote Een cumulatief percentage is het percentage van een bepaalde meetwaarde (of categorie) samen met de percentages van alle lagere (of, van de andere kant bekeken, hogere) meetwaarden (of categorieën).

Answer 2

- Deze **relatieve frequenties** (de percentages, oftewel de proporties) geven informatie over het aantal datapunten in een categorie ten opzichte van het totale aantal datapunten. ==> de relatieve frequenties geven geen informatie over het aantal datapunten in de steekproef -> dat zit in de absolute frequenties - De frequenties in deze frequentietabellen heten ook wel de **absolute frequenties**

Answer 3

verdelingsvorm = informatie over de manier waarop de datapunten om het gemiddelde heen liggen, de verdelingsvorm (Engels: ‘distribution’) van de datapunten. - modaliteit (toppigheid) -> Hartigan's diptest - scheefheid (skewness) - spitsheid (kurtosis) ## Footnote De verdelingsvorm van data wordt meestal bepaald door te kijken naar een grafische weergave van de data, een zogenaamde plot of grafiek. Een histogram is hier een voorbeeld van.

Answer 4

- Modaliteit of toppigheid beschrijft het aantal toppen van een verdeling. - Het begrip ‘modaliteit’ komt van ‘modus’, dus de meest voorkomende waarde in een datareeks. De modus vormt een ‘top’ in de verdeling van de data.

Answer 5

1. de horizontale as (x-as) met de schaal van de datareeks 2. de verticale as (y-as) -> De hoogte van het balkje staat voor het aantal datapunten met een bepaalde waarde ! Bij een histogram worden de datapunten altijd samengevoegd in groepen.

Answer 6

- Een verdeling met één top wordt unimodaal of eentoppig genoemd - een verdeling met meer toppen wordt multimodaal of meertoppig genoemd. --> specifieke variant van meertoppigheid is de tweetoppige verdeling (of bimodale verdeling)

Answer 7

In de praktijk zijn multimodale verdelingen vaak een indicatie dat de populatie uit meerdere subpopulaties bestaat.

Answer 8

Het uiteindelijke doel is om op basis van de verdelingsvorm in een streekproef iets te kunnen zeggen over de verdelingsvorm van de populatie.

Answer 9

**Hartigan’s diptest** = deze test geeft een indicatie van de unimodaliteit van een verdeling. Een perfect unimodale verdeling heeft een diptestwaarde van 0 --> Naarmate een verdeling ‘meertoppiger’ lijkt te zijn – dus minder duidelijk eentoppig – wordt deze waarde steeds groter.

Answer 10

- Scheefheid ( ‘skewness’) beschrijft of een verdeling symmetrisch of asymmetrisch is. - Een scheve verdeling is asymmetrisch. Dit betekent dat de meeste datapunten aan één kant van de schaal liggen. - Een (eentoppige) verdeling kan symmetrisch, linksscheef (negatief scheef) of rechtsscheef (positief scheef) zijn

Answer 11

- in een **symmetrische (eentoppige) verdeling** liggen de meeste datapunten rondom het gemiddelde en zijn er steeds minder datapunten naarmate de afstand tot het gemiddelde toeneemt. - De verdeling heeft de vorm van een klok en wordt in het Engels ook wel aangeduid met ‘bell curve’. - Bij een linksscheve verdeling liggen er *minder* datapunten aan de linkerkant van het gemiddelde. De meeste datapunten liggen dus aan de rechterkant en er is een staart met datapunten relatief ver weg van het gemiddelde aan de linkerkant. - Bij een rechtsscheve verdeling liggen juist de meeste datapunten links van het gemiddelde. Rechts van het gemiddelde liggen minder datapunten in een staart.

Answer 12

- Bij een perfect symmetrische verdeling ligt deze maat in de buurt van 0. - Naarmate een verdeling meer linksscheef is, wordt de skewness steeds kleiner (dat is, meer negatief) - naarmate een verdeling meer rechtsscheef is, wordt de skewness steeds groter (dat is, meer positief).Een rechtsscheve verdeling (right-skewed distribution) is langer aan de rechterkant van de piek dan aan de linkerkant. Rechtse scheefheid (right skew) wordt ook wel positieve scheefheid (positive skew) genoemd. ==>Het gemiddelde van een rechtsscheve verdeling is bijna altijd hoger dan de mediaan. Dat komt doordat de extreme waarden (de waarden in de staart) meer invloed hebben op het gemiddelde dan op de mediaan. **Right skew: gemiddelde > mediaan** ==> Het gemiddelde van een linksscheve verdeling is bijna altijd lager dan de mediaan. **Left skew: gemiddelde < mediaan**

Answer 13

- Spitsheid oftewel ‘kurtosis’ beschrijft hoe spits of plat een verdeling is (zie Figuur 13.5). - Het extreemste voorbeeld is een verdeling waarbij alle datapunten dezelfde waarde hebben: spitser kan een verdeling niet. - Omgekeerd is de ‘platste’ verdeling de verdeling waarbij alle waarden even vaak voorkomen. Dit heet ook wel een uniforme verdeling. --> Een verdeling die erg spits is heet een **leptokurte verdeling** (‘lepto-’ staat voor ‘spits’). --> Een verdeling die erg plat is heet een **platykurte verdeling** (‘platy-’ staat voor ‘plat’).

Answer 14

- De kurtosis is 0 bij een perfect normale verdeling. - Naarmate een verdeling platter is, wordt de kurtosis steeds kleiner (dat is, meer negatief) - naarmate een verdeling spitser is, wordt de kurtosis steeds groter (dat is, meer positief).

Answer 15

- een normale verdeling = een unimodale, symmetrische verdeling, die niet bijzonder plat of spits is. Omdat deze verdeling niet op de een of andere manier afwijkend is Kenmerken: 1. De normaalverdeling is unimodaal -> 1 top en diptest = 0 2. De normaalverdeling is niet scheef (en dus perfect symmetrisch) -> skewness = 0 3. De normaalverdeling is niet bijzonder spits of plat. -> kurtosis = 0 4. **68 %** van de datapunten (ongeveer twee derde) ligt binnen ongeveer één standaarddeviatie van het gemiddelde. 5. **95 %** van de datapunten ligt binnen ongeveer twee standaarddeviaties van het gemiddelde. 6. **99,7 %** van de datapunten (dus bijna allemaal) ligt binnen ongeveer drie standaarddeviaties van het gemiddelde. ## Footnote **De centrummaten (gemiddelde, modus en mediaan) hebben bij een normale verdeling dezelfde waarde.**

Answer 16

- standaardnormale verdeling of z-verdeling = een speciale vorm van de normale verdeling / is een normaalverdeling met een gemiddelde van 0 en een standaarddeviatie van 1 - De z-verdeling is handig, want van elk datapunt in die verdeling is gelijk duidelijk hoe ver het van het gemiddelde ligt. .

Answer 17

- Datapunten in een z-verdeling heten z-scores. - Als een datapunt een z-score van 2 heeft, betekent dit dat dit datapunt 2 standaarddeviaties boven het gemiddelde ligt. --> Dat betekent ook dat slechts 2,5 % van de datapunten nog hoger ligt dan dat datapunt. We zagen net namelijk dat 95% van de datapunten binnen twee standaarddeviaties van het gemiddelde ligt, dat is 2,5% aan elke kant van de verdeling.

Answer 18

- Standaardisering vertaalt de datareeksen naar dezelfde schaal, waarbij 0 staat voor het gemiddelde en 1 staat voor één standaarddeviatie. - Omdat je van een z-score weet hoe ver deze van het gemiddelde ligt, kan het handig zijn om datapunten om te rekenen in z-scores. - ## Footnote d**e standaardisering van waarden verandert de onderliggende verdeling van deze waarden niet. **Een scheve verdeling zal na standaardisering net zo scheef blijven.

Answer 19

- Door de verdeling van steekproefscores te bekijken, ontstaat er een beeld over de populatieverdeling. - Hoe groter de steekproef, hoe kleiner de rol van toeval – in de vorm van steekproeffout en meetfout – en hoe meer de verdeling van steekproefscores gaat lijken op de populatieverdeling. - Het bepalen van de vorm die de populatieverdeling waarschijnlijk heeft aan de hand van de verdeling van steekproefscores is noodzakelijkerwijs een subjectief proces.

Answer 20

1.** Density plot** = De normaalverdeling, zoals eerder besproken, wordt meestal niet weergegeven in een histogram, maar met een mooie soepele lijn 2.**Histogram** 3.**Q-Q-plots** 4. **Boxplots** 5. **staafdiagrammen**

Answer 21

- De normaalverdeling wordt meestal niet weergegeven in een histogram, maar met een mooie soepele lijn - Deze lijn geeft de zogenaamde ‘dichtheid’ (‘density’) van de verdeling aan, oftewel hoeveel datapunten er voor een gegeven meetwaarde zijn, en wordt daarom ook wel een density plot genoemd. - Deze plot drukt uit welke proportie van de datapunten ergens zit ten opzichte van het totale aantal datapunten. - Density plots zijn daarom heel handig om de kans op een bepaalde waarde af te lezen. Deze kans correspondeert namelijk met het deel van de density plot dat links of rechts van die gegeven waarde ligt.

Answer 22

- = een histogram ook voorzien van een density plot. Deze optie bestaat, waarbij daarnaast ook nog de density plot van de normaalverdeling wordt gegeven, de zogenaamde ‘normal curve’. - **normal curve** = de density plot van de normaalverdeling

Answer 23

- De Q-Q-plot is een informatiebron om de verdeling van een datareeks te vergelijken met de normale verdeling. - De Q-Q-plot splitst de data in zogenoemde kwantielen (‘quantiles’, daarom ‘Q’) --> kwantielen zijn de breekpunten tussen even grote delen van de data. - In de Q-Q-plot worden de geobserveerde kwantielen uit de data geplot tegen de verwachte kwantielen op basis van een normale verdeling. - Als een datareeks normaal verdeeld is, liggen de kwantielen allemaal op een diagonale lijn. Als een datareeks niet normaal is verdeeld, wijken de stipjes van de diagonale lijn af

Answer 24

- In een boxplot worden drie kwartielen geplot, dat wil zeggen de breekpunten die de data in vier even grote delen splitsen. - De middelste lijn in de boxplot geeft de mediaan van de data aan. De twee boxen erom heen geven het 1e en het 3e kwartiel aan => betekent dat 50 % van de datapunten binnen deze twee boxen liggen.

Answer 25

- Er is namelijk geen continue variabele om op de x-as te plaatsen. Wel kunnen op de plek van de x-as de categorieën naast elkaar worden weergegeven en kan op de y-as het aantal datapunten worden gezet. !! Hoewel een staafdiagram erg veel lijkt op een histogram, moeten de implicaties van het ontbreken van een x-as niet worden onderschat. Zo kan er voor een staafdiagram, dus voor een categorische variabele, geen density plot gegenereerd worden

Answer 26

- bij continue variabelen is de afstand tussen de scores gelijk - als bovendien de nulscore voor die variabelen een absoluut nulpunt is (wat betekent dat een negatieve score niet mogelijk is) --> dan zijn dit variabelen op rationiveau - een ander kenmerk van het ratiomeetniveau is dat er een verhouding tussen twee waarden kan uitgedrukt worden

Answer 27

- veel psychologische constructen hebben een interval meetniveau (variabelen StatKnow, Fear) - Gender kent twee scores --> dichotome nominale variabele - Education is te ordenen van laag naar hoog, maar de afstand tss de scores is normaal gezien niet gelijk --> daarom geen continue variabele maar een ordinale variabele = categorische variabelen

Answer 28

- voor categorische variabelen kunnen frequentietabellen en staafdiagrammen gebruikt worden om naar de verdeling van de scores te kijken

Answer 29

-> continue variabelen = range / standaardeviatie / IQR / variatie / variantie -> nominale en ordinale variabelen = frequentietabellen / staafdiagrammen

Answer 30

- dat betekent dat er x punten verschil is tussen de respondenten in de laagste 25% vergeleken met de respondenten in de hoogste 25%

Answer 31

- modaliteit (toppigheid) - gemeten met diptest - skewness (scheefheid) - spitsheid (kurtosis)

Answer 32

- een negatieve waarde voor skewness = linksscheef - een positieve waarde voor skewness = rechtsscheef - een positieve waarde voor spitsheid = spitser dan een normaalverdeling - een negatieve waarde voor spitsheid? = platter dan een normaalverdeling ! normale grenzen -1 en +1 -> bij benadering normaal verdeeld

Answer 33

De standaardisering (z-scores) verandert de onderliggende verdeling niet! ! Scheve verdeling blijft na standaardisering scheef==> !! standaardisering vzrtaalt de datareeksen naar dezelfde schaal

Thema 3 - univariate analyse Flashcards

(57 cards)