College 1: Passer H4 en McCabe H1 Flashcards
Case/unit
subjecten/objecten in een dataset
Variabel
kenmerk van een case (geslacht, leeftijd etc.)
Categorische variabele
geen getallen (bijv. woonplaats, studie)
Kwantitatieve variabelen
in getallen (bijv. leeftijd, citoscore)
Score
waarde van een case/unit op een variabele (toets cijfer van bepaald persoon)
Label
speciale variabele gebruikt in sommige datasets om verschillende cases uniek te identificeren.
Discrete variabelen
1,2,3,4 – er zitten geen punten tussen de hele getallen. 1,23 kan niet.
Discrete data
binaire data (enkel 2 opties, bijv. M/V), nominale data, ordinale data, tellingen met hele getallen en kleine uitkomsten (bijv. aantal tablets/huishouden).
Continue variabelen
hierbij zijn punten tussen de hele getallen wel mogelijk
Continue data
tellingen met grote uitkomsten (bijv. totaal aantal werknemers in de stad Utrecht), getallen waar alles achter de komma ook betekenis heeft (temperatuur, tijd, lengte etc.)
Independent/zelfstandige variabelen
de oorzaak in een oorzaak-gevolg relatie
Dependent/afhankelijke variabelen
het gevolg in een oorzaak-gevolg relatie
Mediator variable
een variabele die een link vormt in de reeks tussen een onafhankelijke variabele en een afhankelijke variabele.
Moderator variable
een factor die de kracht of richting verandert tussen een onafhankelijke en een afhankelijke variabele.
Nominaal
geen volgorde, geen meeteenheid, geen nulpunt (geslacht). Vertegenwoordigen alleen kwalitatieve verschillen (verschillen in type in plaats van hoeveelheid).
Ordinaal
wel volgorde, geen meeteenheid, geen nulpunt (sociaaleconomische status, kinderen in een klas op volgorde zetten van meest naar minst populair). Vertegenwoordigen relatieve verschillen in de hoeveelheid van een attribuut.
Bar graphs/staafdiagrammen en pie charts
helpen ons bij categorische variabelen weer te geven welk deel van het geheel elke groep vormt
Interval
wel volgorde, wel meeteenheid, geen nulpunt. Gelijke afstanden tussen waarden op de schaal weerspiegelen gelijke verschillen in de hoeveelheid van het variabel dat wordt gemeten.
Ratio
wel volgorde, wel meeteenheid, wel nulpunt. Gelijke afstanden tussen waarden op de schaal weerspiegelen gelijke verschillen in de hoeveelheid van de variabele die wordt gemeten en de schaal ook een echt nulpunt heeft. Een waar nulpunt betekent dat het cijfer 0 ook echt de absentie van een variabel betekent. Bij een gewicht van 0, is er niks. Bij een afstand van 0, is er niks. Dat is het verschil met interval.
Stemplot/stam-bladgrafiek, histogrammen, frequentietabellen
zijn handig bij kwantitatieve variabelen
Hypothetical constructs
onderliggende kenmerken of processen die niet direct worden waargenomen, maar in plaats daarvan worden afgeleid uit meetbaar gedrag of resultaten. (als iemand bijvoorbeeld tegen jou heeft gezegd dat hij/zij honger heeft, dan weet je dat diegene honger heeft, maar je kan de honger niet letterlijk “zien”).
Accuracy/nauwkeurigheid van een meting
vertegenwoordigt de mate waarin de resultaten van de meting gelijk zijn aan een gegeven standaard.
Systematic error (bias)
een consistente fout die optreedt bij elke meting.
Random measurement error
willekeurige schommeling die tijdens de meting optreden en ervoor zorgen dat de verkregen scores afwijken van een echte score
unimodal
Als een distrubitie 1 piek heeft
bimodal
Als een distrubitie 2 pieken heeft
trimodal
Als een distrubitie 3 pieken heeft
skewed naar links
staart is links. De staart is langer aan de linkerkant, omdat er meer kleine waarden zijn. Het gemiddelde is lager dan de mediaan
skewed naar rechts
Staart is rechts. De staart is langer aan de rechterkant, omdat er meer grote waarden zijn. Het gemiddelde is groter dan de mediaan. Dit komt bij allebei de vormen, omdat de outliers meer invloed hebben op de gemiddelde.
Time plot
geeft elke meting van een variabel weer naast de tijd waarop hij werd gemeten. Plaats hierbij de tijd altijd op de horizontale schaal en de variabele op de verticale schaal.
five number summary
geeft ons een snelle samenvatting van de waarden. Hierin zitten het minimum, Q1, Mediaan (M), Q3 en maximum. Deze five number summary kunnen we weergeven in een boxplot. De lijnen aan de uiteinden van de lijn tussen minimum en maximum noemen we whiskers.
Interquartile Range (IQR)
afstand tussen Q1 en Q3. Berekenen: Q3 – Q1
Modified boxplot
gebruikt de 1.5 x IQR regel. De whiskers zitten hierbij op de 1.5 x IQR uiteinden en de waarden die daarbuiten vallen worden los aangeduid
Side-by-side boxplot
twee of meer boxplots in dezelfde grafiek