College 1: Passer H4 en McCabe H1 Flashcards
Case/unit
subjecten/objecten in een dataset
Variabel
kenmerk van een case (geslacht, leeftijd etc.)
Categorische variabele
geen getallen (bijv. woonplaats, studie)
Kwantitatieve variabelen
in getallen (bijv. leeftijd, citoscore)
Score
waarde van een case/unit op een variabele (toets cijfer van bepaald persoon)
Label
speciale variabele gebruikt in sommige datasets om verschillende cases uniek te identificeren.
Discrete variabelen
1,2,3,4 – er zitten geen punten tussen de hele getallen. 1,23 kan niet.
Discrete data
binaire data (enkel 2 opties, bijv. M/V), nominale data, ordinale data, tellingen met hele getallen en kleine uitkomsten (bijv. aantal tablets/huishouden).
Continue variabelen
hierbij zijn punten tussen de hele getallen wel mogelijk
Continue data
tellingen met grote uitkomsten (bijv. totaal aantal werknemers in de stad Utrecht), getallen waar alles achter de komma ook betekenis heeft (temperatuur, tijd, lengte etc.)
Independent/zelfstandige variabelen
de oorzaak in een oorzaak-gevolg relatie
Dependent/afhankelijke variabelen
het gevolg in een oorzaak-gevolg relatie
Mediator variable
een variabele die een link vormt in de reeks tussen een onafhankelijke variabele en een afhankelijke variabele.
Moderator variable
een factor die de kracht of richting verandert tussen een onafhankelijke en een afhankelijke variabele.
Nominaal
geen volgorde, geen meeteenheid, geen nulpunt (geslacht). Vertegenwoordigen alleen kwalitatieve verschillen (verschillen in type in plaats van hoeveelheid).
Ordinaal
wel volgorde, geen meeteenheid, geen nulpunt (sociaaleconomische status, kinderen in een klas op volgorde zetten van meest naar minst populair). Vertegenwoordigen relatieve verschillen in de hoeveelheid van een attribuut.
Bar graphs/staafdiagrammen en pie charts
helpen ons bij categorische variabelen weer te geven welk deel van het geheel elke groep vormt
Interval
wel volgorde, wel meeteenheid, geen nulpunt. Gelijke afstanden tussen waarden op de schaal weerspiegelen gelijke verschillen in de hoeveelheid van het variabel dat wordt gemeten.
Ratio
wel volgorde, wel meeteenheid, wel nulpunt. Gelijke afstanden tussen waarden op de schaal weerspiegelen gelijke verschillen in de hoeveelheid van de variabele die wordt gemeten en de schaal ook een echt nulpunt heeft. Een waar nulpunt betekent dat het cijfer 0 ook echt de absentie van een variabel betekent. Bij een gewicht van 0, is er niks. Bij een afstand van 0, is er niks. Dat is het verschil met interval.
Stemplot/stam-bladgrafiek, histogrammen, frequentietabellen
zijn handig bij kwantitatieve variabelen
Hypothetical constructs
onderliggende kenmerken of processen die niet direct worden waargenomen, maar in plaats daarvan worden afgeleid uit meetbaar gedrag of resultaten. (als iemand bijvoorbeeld tegen jou heeft gezegd dat hij/zij honger heeft, dan weet je dat diegene honger heeft, maar je kan de honger niet letterlijk “zien”).
Accuracy/nauwkeurigheid van een meting
vertegenwoordigt de mate waarin de resultaten van de meting gelijk zijn aan een gegeven standaard.
Systematic error (bias)
een consistente fout die optreedt bij elke meting.
Random measurement error
willekeurige schommeling die tijdens de meting optreden en ervoor zorgen dat de verkregen scores afwijken van een echte score
unimodal
Als een distrubitie 1 piek heeft
bimodal
Als een distrubitie 2 pieken heeft
trimodal
Als een distrubitie 3 pieken heeft
skewed naar links
staart is links. De staart is langer aan de linkerkant, omdat er meer kleine waarden zijn. Het gemiddelde is lager dan de mediaan
skewed naar rechts
Staart is rechts. De staart is langer aan de rechterkant, omdat er meer grote waarden zijn. Het gemiddelde is groter dan de mediaan. Dit komt bij allebei de vormen, omdat de outliers meer invloed hebben op de gemiddelde.
Time plot
geeft elke meting van een variabel weer naast de tijd waarop hij werd gemeten. Plaats hierbij de tijd altijd op de horizontale schaal en de variabele op de verticale schaal.
five number summary
geeft ons een snelle samenvatting van de waarden. Hierin zitten het minimum, Q1, Mediaan (M), Q3 en maximum. Deze five number summary kunnen we weergeven in een boxplot. De lijnen aan de uiteinden van de lijn tussen minimum en maximum noemen we whiskers.
Interquartile Range (IQR)
afstand tussen Q1 en Q3. Berekenen: Q3 – Q1
Modified boxplot
gebruikt de 1.5 x IQR regel. De whiskers zitten hierbij op de 1.5 x IQR uiteinden en de waarden die daarbuiten vallen worden los aangeduid
Side-by-side boxplot
twee of meer boxplots in dezelfde grafiek
Variantie
zegt iets over de spreiding in een dataset
Standaarddeviatie (Sd)
De standaarddeviatie of standaardafwijking wordt afgeleid van de variantie en vertelt je hoe ver iedere waarde gemiddeld genomen van het gemiddelde verwijderd is. Hij meet dus de gemiddelde afstand van het gemiddelde.
Joint distribution
hierbij zijn alle cellen samen 100%
Marginal distribution
hierbij zijn de marginalen per categorie/rij
Conditional distribution
hierbij zijn cellen per rij/kolom 100%
Correlatie
een statistische associatie tussen variabelen. Er bestaat een correlatie tussen twee variabelen (X en Y) wanneer de scores of waarden van x op een niet-willekeurige manier worden geassocieerd met de scores of waarden van Y.
Correlationele (of relationele) research (onderzoek)
omvat het onderzoeken van mogelijke associaties tussen natuurlijk voorkomende variabelen, door die variabelen te meten en te bepalen of ze statistisch gerelateerd zijn.
Confounding variables
externe factoren die systematisch variëren met X en Y. Zijn ongewenst in zowel correlationeel als in experimenteel onderzoek omdat ze mogelijk de gewenste conclusie beïnvloeden (namelijk dat X invloed heeft op Y).
Positieve correlatie
betekent dat hogere scores of niveaus van de ene variabele vaak geassocieerd zijn met hogere scores van een andere variabele. Als X groter wordt, wordt Y ook groter en als X kleiner wordt, wordt Y ook kleiner.
Negatieve correlatie
betekent dat hogere scores of niveaus van de ene variabele vaak geassocieerd zijn met lage scores of niveaus van een andere variabele. Scores op X en Y hebben de neiging om in tegengestelde richting te bewegen: naarmate X toeneemt, neigt Y te dalen en andersom geldt hetzelfde.
Third-variable-problem
is het mogelijk dat X en Y op geen enkele causale manier zijn gelinkt; X veroorzaakt Y niet en Y veroorzaakt X niet. Er is dan wellicht een derde variabele; een confounding variabele die achter de schermen voorkomt maar de echte reden is voor de veranderingen in X of Y.
Anekdotische data
vertegenwoordigen losse cases die via een niet-systematische manier verkregen zijn, maar vaak onder onze aandacht komen omdat ze op de een of andere manier opvallend zijn. Deze zaken zijn niet per sé representatief voor een grotere groep zaken.
- Weinig zeggingskracht
- Kunnen gebruikt worden als basis waar later onderzoek naar gedaan kan worden.
Beschikbare data
je maakt gebruik van data die al voor jou verzameld zijn. Ze zijn dus voor een ander doel geproduceerd/beschikbaar gesteld, maar kunnen wel bruikbaar zijn voor jouw onderzoek/het beantwoorden van jouw vraag (bijv. bibliotheek, internet).
Observationele studie
we observeren individuen/onderzoekseenheden en meten variabelen die ons interesseren. Je zoekt verbanden maar met de individuen/onderzoekseenheden gebeurt niks (ze worden niet beïnvloed/gemanipuleerd)
Experiment
we proberen invloed uit te voeren op het proces (op de uitkomstmaten). We leggen opzettelijk een bepaalde voorwaarde/conditie op aan individuen, en we observeren hun reacties. De opgelegde voorwaarde wordt een treatment/intervention genoemd.
Experimentele units
bij wie het onderzoek wordt uitgevoerd
Uitkomsten (outcomes)
gemeten variabelen om de condities te vergelijken (afhankelijke variabelen)
Interventie (treatment)
resulteert in experimentele condities. De opgelegde voorwaarde/conditie aan de experimentele units.
Treatment group
groep die de conditie wordt opgelegd
Controlegroep
groep die de conditie niet wordt opgelegd, om te kijken of de conditie daadwerkelijk wat doet
Vergelijkend onderzoek (comparative experiment)
met een controle en behandelingsgroep. Zonder vergelijkend onderzoek treedt er mogelijk bias op
Aanpak in een experiment
- Manipuleer een onafhankelijke variabele (x) (compare)
- Controleer voor alle andere variabelen; om storende effecten te voorkomen (randomize)
- Meet een afhankelijke variabele/uitkomst (y) meerdere keren (repeat)
Sampling
het doel ervan is om een deel van de populatie te bestuderen om een beeld te krijgen van de gehele populatie
Between-subject design
verschillende mensen testen elke conditie (toewijzing via random toewijzing). Van iedere deelnemer heb je een meting op de uitkomstmaat.
Within-subject design
alle participanten worden blootgesteld aan dezelfde condities. Dezelfde groep mensen test iedere keer dezelfde condities.
Potentiele problemen die kunnen ontstaan bij within-subject designs
- verschillen zouden veroorzaakt kunnen worden door oefening uit eerdere testen.
- ## mensen zouden verveeld/vermoeid kunnen zijn geraakt bij de derde test.
Oplossing voor potentiele problemen bij within-subject designs
counterbalancing. Deelnemers worden in verschillende volgorden blootgesteld aan verschillende condities. De een test bijvoorbeeld in volgorde 123, de ander in 132 en de ander in 312 (etc.)
Simple random sample
voor alle mensen in de populatie willekeurig (random) een groep mensen kiezen (invloeden van buitenaf vallen tegenover elkaar weg). Iedere persoon in de populatie heeft evenveel kans om in de steekproef terecht te komen.
Stratified random sampling
populatie in gelijke groepen verdelen en uit elke groep een random groep mensen kiezen (matching)
Multistage random sampling
bijv. Nederland -> steden -> wijken -> uit elke wijk een random groep mensen kiezen.
Betrouwbaarheid
gaat over de stabiliteit van metingen. Metingen moeten onder gelijkblijvende omstandigheden dezelfde resultaten opleveren.
Test-hertestbetrouwbaarheid (equivalentie)
de mate van samenhang tussen twee paralleltests. Twee of meer keren dezelfde meting toedienen aan dezelfde deelnemers, onder gelijkwaardige testomstandigheden. Hoe hoger de positieve correlatie, hoe hoger de equivalentie.
Interne consistentie betrouwbaarheid
je meet de betrouwbaarheid door te kijken naar de samenhang tussen onderdelen van een meetinstrument met elkaar die gemeten zijn op één afname.
Validiteit
in hoeverre meet het instrument dat wat het verondersteld wordt te meten?
Indruksvaliditeit/face validity
lijkt de test wel te meten wat hij pretendeert te meten? op het eerste gezicht
Content validity
is het begrip zoals gemeten gelijk aan het begrip zoals bedoeld?
Criteriumvaliditeit/criterion validity
in hoeverre kan een meetinstrument een bepaald gedrag, buiten het meetinstrument, voorspellen? Richt zich op de relatie tussen de scores op een meting en de uitkomst. Bijvoorbeeld wanneer we iemands IQ meten en diegene scoort hoog, doet diegene dingen (criterium) in het dagelijks leven ook op een bepaalde manier waaruit die intelligentie blijkt?
Constructvaliditeit
bekijkt de constructen (conceptuele variabelen) die onderzoekers beweren te bestuderen, in feite de constructen zijn die ze manipuleren en meten (meten ze daadwerkelijk wat ze zeggen dat ze meten)
Externe validiteit
generaliseerbaarheid van de resultaten over situaties, methoden, perioden, populaties.
Interne validiteit
de mate waarin men juist oorzaak-gevolg conclusies trekt. De mate waarin een onderzoek ontwerp ons in staat stelt causale conclusies te trekken over het effect van een specifieke onafhankelijke variabele op een afhankelijke variabele.
Verband tussen betrouwbaarheid en validiteit
betrouwbaarheid is een noodzakelijke maar niet voldoende voorwaarde voor validiteit.
- Een test met een lage betrouwbaarheid kan nooit valide zijn
- Een test met hoge betrouwbaarheid hoeft niet per se valide te zijn.
- Een test met een lage validiteit kan heel betrouwbaar zijn.
Kans
maat voor de onzekerheid over het optreden van een gebeurtenis. Dit is belangrijk voor inferentie (het afleiden van conclusies over de populatie vanuit data van geselecteerde individuen (steekproef)
Random phenomenon
een fenomeen waarvan we de uitkomst niet exact kunnen voorspellen maar waarvan de uitkomsten een regelmatige verdeling volgen bij een groot aantal herhalingen. (gooien van kop/munt)
Sample space (uitkomstruimte) S
alle mogelijke uitkomsten van een random phenomenon, bijvoorbeeld S = (K, M).
Event (uitkomst)
is een uitkomst of een reeks uitkomsten van een random phenomenon. Dat is dus een subset van de sample space S.
Probability
de kans op een uitkomst van een random phenomenon wordt uitgedrukt in de proportie dat de gebeurtenis voorkomt bij een groot aantal herhalingen.
Independent trials
de uitkomst op het ene moment heeft geen invloed op het volgende moment.
Disjoint
uitkomsten hebben niets gemeenschappelijks met elkaar. Kunnen niet tegelijkertijd voorkomen
Kansregels I
De kans op een uitkomst ligt altijd tussen 0 en 1.
- Dit noteren we als 0 ≤ P ≤ 1.
- De kansen op alle mogelijke uitkomsten tellen altijd op tot 1, oftewel: P(S) = 1
- Het complement van gebeurtenis A (dus wanneer A NIET gebeurt), is altijd 1 - kans op A
Kansregels II: Addition rule (algemene somregel)
bij elkaar uitsluitende gebeurtenissen (niet tegelijk). Dit moet samen altijd uitkomen op 1.
- P(A of B) = P(A) + P(B) – P(A en B (beiden)
Kansregels III
als 2 gebeurtenissen geen uitkomsten gemeen hebben en dus niet samen kunnen voorkomen (disjoint), dan is de kans op de een OF de ander de som van beide kansen.
- P (A of B) = P(A) + P(B). Want P(A en B) is in deze gevallen gelijk aan 0.
Kansregels IV: Productregel
- Productregel voor onafhankelijke kansexperimenten. Event A heeft geen invloed op de uitkomst van event B.
P(A en B) = P(A) x P(B)