Thema 2 Univariate analyse Flashcards
Centrummaat
aangeeft rondom welke waarde de datapunten in deze datareeks zich bevinden; wat het ‘centrum’ van de datareeks is,
Outlier (uitschieter)
een datapunt dat zo extreem is, dat het waarschijnlijk een artefact is van de dataverzameling
Modus
De meest voorkomende waarde
Mediaan
Middelste datapunt in de reeks
Range
Het verschil tussen minimum en maximum (volstaat niet omdat gevoelig is voor outliers)
Interkwartielafstand
Afstand tussen 2 kwartielen (eerst mediaan, dan nieuwe medianen van de 2 kanten. Daar de afstand van) Geeft informatie hoe ver de datapunten van het gemiddelde afliggen
sum of squares (variatie)
Verschil van het gemiddelde. Deze afwijkingen kwadrateren, Je krijgt positief getal dit tel je bij elkaar op.
Variantie oftewel Mean Squares
Variatie delen door het aantal datapunten
Standaarddeviatie (standaardafwijking)
De wortel van de variantie. Zo komt de waarde op dezelfde schaal als de datapunten.
Verdelingsvorm
Hoe de datapunten verdeeld zijn
modaliteit of toppigheid
beschrijft het aantal toppen van de verdeling
unimodaal of eentoppig
verdeling met 1 top
multimodaal of meertoppig
Verdeling met meerdere toppen
bimodale of tweetoppige
verdeling met twee toppen
scheefheid
Een scheve verdeling is een asymmetrische verdeling.
Links scheve verdeling
De top van de verdeling ligt dus aan de rechterkant, en de staart aan de linkerkant
Rechts scheve verdeling
In die verdeling liggen de meeste datapunten juist links van het gemiddelde. Er liggen nu wat minder datapunten vrij ver rechts van het gemiddelde
leptokurte verdeling
bijzonder spitse verdeling
platykurte
Een verdeling die bijzonder plat is
Ander woord voor spitsheid
Kurtosis
kenmerken van een normaalverdeling
De normaalverdeling is unimodaal.
De normaalverdeling is niet scheef (en dus perfect symmetrisch).
De normaalverdeling is niet bijzonder spits of plat.
68% van de datapunten ligt binnen één standaarddeviatie van het gemiddelde (ongeveer tweederde dus).
95% van de datapunten ligt binnen twee standaarddeviaties van het gemiddelde.
99.7% van de datapunten ligt binnen drie standaarddeviaties van het gemiddelde (bijna allemaal dus).
standaardisering
Deze omrekening naar z-scores,
Density plot
Lijn in plaats van histogram. Oppervlakte altijd 1
Q-Q-plot
In deze grafiek worden kwantielen geplot. Kwantielen zijn een soort ‘breekpunten’ om een datareeks in gelijke delen te splitsen. De mediaan is dus een voorbeeld van een kwantiel:
Diptest
wordt steeds groter naarmate een verdeling minder unimodaal is.
Skewness
Naarmate een verdeling meer linksscheef is, is de skewness steeds kleiner (dat wil zeggen: ligt hij verder van 0 af en is hij negatief), en naarmate een verdeling meer rechtsscheef is, is de skewness steeds groter.
kurtosis
geldt dat naarmate een verdeling platter is, de kurtosis steeds kleiner is (dat wil zeggen: ligt hij steeds verder van 0 af en is hij negatief), en naarmate een verdeling spitser is, de kurtosis steeds groter is.
steekproevenverdelingen
Deze theoretische verdelingen van gemiddelden, standaarddeviaties, en spitsheden over een ontelbaar aantal steekproeven
De standaardfout
naarmate een steekproef groter is, is de bijbehorende steekproevenverdeling smaller. Dit wordt uitgedrukt in de spreiding van die steekproevenverdeling, oftewel, in de standaarddeviatie. Deze standaarddeviatie van de steekproevenverdeling heet de standaardfout,
betrouwbaarheidsinterval
interval berekend waarvan we zeker weten dat het in 95% van de steekproeven het populatiegemiddelde zal bevatten
dichotome variabele/binaire variabele.
kan maar twee waarde aannemen
nominaal
deze categorieën zijn alleen te benoemen, maar niet te ordenen
ordinale variabele
De afstand tussen de geordende categorieën is dus onbekend: we kunnen de categorieën alleen maar ordenen
categorische of discrete variabelen
Samen heten nominale en ordinale variabelen . dit omdat de verschillende meetwaarden die deze variabelen aan kunnen nemen altijd categorieën zijn
continue variabelen
Deze variabelen kunnen in theorie allerlei meetwaarden aannemen, meestal op een schaal van ‘min oneindig’ tot ‘oneindig’, waarbij waarden steeds onwaarschijnlijker worden naarmate ze verder van het gemiddelde af liggen