Statistiek Flashcards

Question 1

Q

Leg de relatie uit tussen X en Y

Answer

A

De onafhankelijke variabele (X) is de variabele die wordt gemanipuleerd of gecontroleerd door de onderzoeker en de afhankelijke variabele (Y) is de variabele die wordt gemeten of geobserveerd als reactie op de veranderingen in de onafhankelijke variabele.

Question 2

Q

Leg de moderator uit

Answer

A

Een moderator is een variabele (Z) die de relatie tussen een onafhankelijke variabele en een afhankelijke variabele beïnvloedt, zonder direct effect te hebben op de afhankelijke variabele. Het identificeren van moderators is belangrijk voor het begrijpen van de complexiteit van relaties tussen variabelen en kan leiden tot betere voorspellingen en aanbevelingen in onderzoek.

Question 3

Q

Leg de mediator uit

Answer

A

Een mediator is een tussenschakel tussen de onafhankelijke variabele en de afhankelijke variabele en kan worden beschouwd als een oorzakelijk pad tussen deze variabelen. Mediators worden vaak geïdentificeerd en onderzocht in statistische analyses, zoals structurele vergelijkingsmodellen. Het identificeren van mediators is belangrijk omdat het ons kan helpen begrijpen hoe en waarom de onafhankelijke variabele de afhankelijke variabele beïnvloedt, en kan leiden tot meer gerichte interventies en behandelingen.

Question 4

Q

Leg uit wat een dummy variabele is en waar deze voor wordt gebruikt.

Answer

A

Een dummy variabele is een variabele die slechts twee mogelijke waarden kan aannemen, meestal aangegeven als 0 of 1. Het wordt vaak gebruikt om nominale variabelen te coderen, zoals geslacht of etniciteit, waarbij elke categorie wordt toegewezen aan een specifieke waarde van de dummy variabele.

Question 5

Q

Leg uit wat een proxy variabele is en waar deze voor wordt gebruikt.

Answer

A

Een proxy variabele is een variabele die wordt gebruikt als substituut voor een andere variabele wanneer deze variabele niet direct beschikbaar is. Wanneer je bijvoorbeeld welvaart als variabele zou willen gebruiken, is deze niet beschikbaar. Een proxy variabele zou dan kunnen zijn de ratio BBP/capita om de welvaart te meten. Dit is een benadering van de werkelijkheid aan de hand van een vuistregel.

Question 6

Q

Wat zijn de belangrijks eigenschappen van de normale verdeling?

Answer

A

Symmetrie: de curve is symmetrisch rond het gemiddelde (μ), wat betekent dat de kans op een positieve afwijking van het gemiddelde gelijk is aan de kans op een negatieve afwijking.
De totale oppervlakte onder de curve is gelijk aan 1: dit betekent dat de kans dat een waarde zich voordoet binnen de gehele populatie altijd gelijk is aan 1.
De curve heeft een maximum bij het gemiddelde (μ): dit betekent dat de meest voorkomende waarden zich bevinden rond het gemiddelde.
De standaarddeviatie (σ) bepaalt de spreiding van de curve: een kleine standaarddeviatie betekent dat de waarden dicht bij het gemiddelde liggen, terwijl een grote standaarddeviatie betekent dat de waarden meer gespreid zijn.

Question 7

Q

Hoe kleiner de p-waarde hoe?

Answer

A

Hoe kleiner de p-waarde hoe minder geloofwaardig de nulhypothese.

Question 8

Q

Wat is de p-waarde?

Answer

A

De overschrijdingskans. Het is altijd een getal tussen 0 en 1. P<0,05 betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de nulhypothese waar is (dus 95% dat de resultaten worden gevonden terwijl de 1 hypothese waar is).

Question 9

Q

Wat is een scheve verdeling?

Answer

A

Een scheve verdeling is een verdeling van gegevens waarbij de waarden niet symmetrisch verdeeld zijn rondom het gemiddelde. In plaats daarvan is er sprake van een asymmetrische verdeling, waarbij de waarden aan één kant van de verdeling meer voorkomen dan aan de andere kant.

Question 10

Q

Hoeveel soorten scheve verdelingen zijn er?

Answer

A

Er zijn twee soorten scheve verdelingen: linksscheef en rechtsscheef.

Question 11

Q

Welke regel geldt bij zero skew?

Answer

A

Er is geen scheefheid. Het gemiddelde = de mediaan (ongeveer).

Question 12

Q

Wat geldt voor right skew?

Answer

A

Dit wordt ook wel positieve skew genoemd. Deze heeft een lange staart aan de rechterkant. Het gemiddelde > mediaan.

Question 13

Q

Wat geldt voor left skew?

Answer

A

Dit wordt ook wel de negatieve skew genoemd. Deze heeft een lange staart aan de linkerkant. Het gemiddelde < mediaan.

Question 14

Q

Hoe bereken je de scheefheid?

Answer

A

Met Pearsons median skewness. 3X ((Mean - Mediaan) / Standaarddeviatie

Question 15

Q

Wat doe je als je data scheef verdeeld zijn?

Answer

A

Doe niets. t-toetsen, ANOVA’s en lineaire regressie zijn niet gevoelig voor scheefheid van data.
Gebruik een ander model. Je kunt een model gebruiken dat niet-parametrisch is, dus waarbij geen normale verdeeldheid wordt verondersteld.
Transformeer de variabele. Een andere optie is het transformeren van de scheve variabele zodat deze minder scheef is. Een variabele transformeren houdt in dat je dezelfde functie toepast op alle waarnemingen van de variabele.

Question 16

Q

Hoe bereken je de variatiecoëfficiënt?

Answer

A

SD / Gemiddelde * 100%

Question 17

Q

Wat betekent de variatiecoëfficiënt?

Answer

A

Indien deze laag is, dan zijn de gegevens dicht bij het gemiddelde gelcusterd en is er weinig spreiding. Als deze hoog is, betekent dit dat de gegevens verder verdeeld zijn.

Question 18

Q

Wat is het verschil tussen de variantie en de standaarddeviatie?

Answer

A

De standaarddeviatie wordt uitgedrukt in dezelfde eenheid in de oorspronkelijke waarden (bijvoorbeeld meters). De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters). Hierdoor is het moeilijk om de variantie te interpreteren op gevoel. Hierdoor wordt vaker de voorkeur gegeven aan standaarddeviatie als spreidingsmaat. De variantie is echter meer informatief voor statistische inferentie.

Question 19

Q

Wat is winsorizen?

Answer

A

Een statistische methode om extreme waarden in een dataset te behandelen. Extreme waarden in de dataset worden vervangen voor de hoogste of laagste waarde die binnen een bepaald percentage van de dataset vallen.

Question 20

Q

Waarvoor wordt winsorizen gebruikt?

Answer

A

Om de invloed van extreme waarden op de resultaten van een statistische analyse te verminderen. Extreme waarden kunnen een grote invloed hebben op de gemiddelde waarde, de standaarddeviatie en andere statistische maatstaven, waardoor de resultaten van een analyse vertekend worden. De data wordt ook minder gevoelig voor verstoringen door outliers

Question 21

Q

Wat zijn nadelen van het gebruik van Winsorizing?

Answer

A

Door het vervangen van extreme waarden verliezen we informatie over de oorspronkelijke dataset, en soms kan het ook de resultaten van een analyse verstoren. Daarom moet winsorizing altijd zorgvuldig worden overwogen en toegepast, afhankelijk van de specifieke context en de doelstellingen van de analyse.

Question 22

Q

Hoe wordt winsorizing vaak toegepast?

Answer

A

Vaak wordt 90% toegepast. Gegevens onder het 5e percentiel omzetten naar het 5e percentiel en gegevens boven het 95e percentiel omzetten naar het 95e percentiel.

Question 23

Q

Geef de definitie van een associatiemaat

Answer

A

Een associatiemaat is een getal dat de sterkte en richting (positief of negatief) van de associatie tussen twee (kans)variabelen aangeeft.

Question 24

Q

Wat voor soort toets is de chi-kwadraattoets?

Answer

A

Dit is een non-parametrische toets. Een non-parametrische toets is een toets waarbij de variabelen een nominaal of ordinaal meetniveau hebben.

Question 25

Q

Waarop wordt de chi-kwadraattoets toegepast?

Answer

A

Op kruistabellen met geobserveerde versus verwachte frequenties. Een vergelijking van 2 variabelen van nominale of ordinale meetniveaus.

Question 26

Q

Wat stel je vast met de chi-kwadraattoets en hoe?

Answer

A

Of er een associatie is tussen variabelen, maar niet de effectgrootte. Het standaard significantieniveau hierbij is 0,05. Vergelijk de chi-kwadraatwaarde met de kritieke waarde om te bepalen welke groter is. Als de chi-kwadraatwaarde groter is dan de kritieke waarde moet je de nulhypothese verwerpen. Dan verschilt je data significant van de verwachte waarden.

Question 27

Q

Ter kennisgeving: De chi-kwadraattoets vergelijking:

Question 28

Q

Welke grenzen kent de correlatiecoëfficiënt (R, r, ρ)

Answer

A

Ten eerste is er sprake van een omgekeerd óf recht verband, daarbij:

1-0,85: Uitzonderlijk sterk
0,84-0,7: Sterk
0,69-0,5: Matig
0,49-0,3: Zwak
<0,3: Geen verband

Question 29

Q

Wat meet een correlatiecoëfficiënt?

Answer

A

Dit is een statistische maatstaf die de mate van LINEAIRE associatie meet tussen twee variabelen.

Question 30

Q

Wat is een continue variabele?

Answer

A

Een variabele met opvolgende waarden. Deze kan in een bepaald interval iedere waarde aannemen.

Question 31

Q

Wanneer gebruik je welke correlatiecoëfficiënt?

Answer

A

Pearson’s r gebruik je wanneer de variabelen op een continue schaal (scale; dus interval of ratio) worden gemeten.
Spearman’s r gebruik je wanneer de variabelen op een ordinale schaal worden gemeten. (bijv. 5puntsschaal van zeer mee eens tot zeer mee oneens)

Question 32

Q

Wat is een ander woord voor correlatie?

Answer

A

Covariantie

Question 33

Q

Wat zijn de vereisten voor causaliteit?

Answer

A

Correlatie
Non-spuriousness (een logisch verband)
Opvolgend (de één beïnvloed de ander en NIET andersom)
Theoretische justificatie

Question 34

Q

Wat is het gevaar bij multicollineariteit?

Answer

A

Dat je niet welke van de onafhankelijke variabelen nou de meeste invloed heeft op de afhankelijke variabele, doordat de twee (of meer) onafhankelijke variabelen sterk met elkaar samenhangen. Dit kan je vaststellen door de correlatie tussen deze variabelen te berekenen. Voeg variabelen samen of verwijder één van de te veel samenhangende onafhankelijke variabelen.

Question 35

Q

Waarvoor staat VIF?

Answer

A

Variance of Inflation Factor

Question 36

Q

Wat is VIF?

Answer

A

Dit is een maatstaf voor multicollineariteit in een regressiemodel.

Question 37

Q

Welke waarden kent de VIF?

Answer

A

<2: Zeer goed; geen tot beperkte mate van multicollineariteit.
2 - <5: Goed; beperkte mate van multicollineariteit.
5 < VIF < 10: Matig/twijfelachtig, indicatie van multicollineariteit
10 < VIF: Fout; zeer hoge mate van multicollineariteit

Question 38

Q

Geef de formule van VIF

Answer

A

1 / (1 – R2)

Question 39

Q

Geef een korte uitleg van de begrippen correlatiecoëfficiënt en determinatiecoëfficiënt

Answer

A

Een correlatiecoëfficiënt geeft de mate van samenhang weer tussen twee variabelen.

Een determinatiecoëfficiënt meet in hoeverre een statistisch model in staat is een bepaalde uitkomst te voorspellen. Deze is altijd positief (tussen 0 en 1), zelfs als de correlatiecoëfficiënt negatief is (want kwadratisch).

Question 40

Q

Wat is de adjusted R²?

Answer

A

De adjusted R² (gecorrigeerde R-kwadraat) is een aangepaste versie van de R² en wordt gebruikt bij lineaire regressie. Deze R² houdt rekening met het aantal variabelen in het model, indien er meerdere onafhankelijke variabelen zijn. Deze is dus meer accuraat. Het is nog steeds een getal tussen 0 en 1, waarbij 1 perfecte voorspellende waarde is en 0 geen voorspellende waarde.

Question 41

Q

Wat is de T-test?

Answer

A

De T-test is een statistische test die wordt gebruikt om te bepalen of er een significant verschil is tussen de gemiddelde scores van twee groepen.

Question 42

Q

Hoe interpreteert men de uitkomsten van een T-test?

Answer

A

De t-test berekent een t-waarde. Deze wordt vergeleken met een kritische t-waarde op basis van het gewenste significantieniveau en het aantal vrijheidsgraden. Als de t-waarde groter is dan de kritische waarde, dan wijst dit op een significant verschil tussen de twee groepen (0-hypothese verwerpen).

Question 43

Q

Geef het stappenplan voor de T-test:

Answer

A

Stap 1:
Weet je de standaarddeviatie van de populatie?
JA –> Ga verder in het stappenplan.
NEE –> Gebruik de T-test.

Stap 2:
Is de sample omvang groter dan 30?
JA –> Gebruik de Z-test.
NEE –> Gebruik de T-test.

Question 44

Q

Welke soorten T-testen zijn er en waarvoor gebruik je welke?

Answer

A

One-sample t-test: Je toetst het gemiddelde ten opzichte van een norm of theoretisch gemiddelde.
Ongepaarde t-test: Je toetst of twee steekproefgemiddelden significant van elkaar verschillen.
Gepaarde t-test: Toets om twee gemiddelden van gepaarde steekproeven met elkaar te vergelijken. Gepaarde steekproeven zijn afhankelijk van elkaar. Bijvoorbeeld de lengte van dezelfde personen in 2015 en 2018. Deze waarden zijn afhankelijk van elkaar omdat je dezelfde persoon meet.

Question 45

Q

Van welke veronderstellingen ga je uit bij een T-test?

Answer

A

Je hebt een aselecte steekproef.
De te toetsen variabelen hebben een interval of ratio (scale) schaal.
De steekproeven hebben een normale verdeling. (Er wordt voldaan aan de centrale limietstelling of je hebt zekerheid dat de variabele in de populatie normaal zijn verdeeld.)

Question 46

Q

Waarvoor staat ANOVA?

Answer

A

ANalysis Of VAriance

Question 47

Q

Waarvoor wordt de ANOVA-toets gebruikt?

Answer

A

Deze wordt gebruikt om gemiddelden van meer dan twee groepen met elkaar te vergelijken.

Question 48

Q

Welke soorten ANOVA-toetsen zijn er en waarvoor worden deze gebruikt?

Answer

A

One-way ANOVA: Als één groepsvariabele de groepen bepaalt en er maar één afhankelijke variabele is. Bijvoorbeeld gemiddelde lengte van verschillende typen sporters. Type sport is de enige groepsvariabele (onafhankelijk) en lengte is de enige afhankelijke variabele.
Two-way ANOVA: Deze gebruik je bij twee of meer groepsvariabelen. Type sport en geslacht zijn groepsvariabelen (onafhankelijk) en lengte is de enige afhankelijke variabele.
Multivariate ANOVA: Deze gebruik je indien je meerdere afhankelijke variabelen gebruikt. Dit kan voor zowel één als meerdere (onafhankelijke) groepsvariabelen.

Question 49

Q

Wat zijn de veronderstellingen bij een ANOVA toets?

Answer

A

De afhankelijke variabele wordt gemeten op ratio of intervalniveau (scale).
De data (per groep) zijn verkregen uit een aselecte steekproef.
De varianties per groep zijn gelijk (homoscedasticiteit).
Binnen iedere groep bestaat een normale verdeling.

Question 50

Q

Licht de F-toets (ANOVA) toe:

Answer

A

Dit is een statistische toets om na te gaan of van twee normale verdelingen de varianties verschillen.
Dit is een parametrische toets (verdeling MOET normaal zijn).

Question 51

Q

Wat betekent homoscedasticiteit?

Answer

A

Dit betekent dat de variantie van de afhankelijke variabele gelijk blijft over de gehele range van de onafhankelijke variabele(n).

Question 52

Q

Wat betekent heteroscedasticiteit?

Answer

A

Dit betekent dat de variantie van de afhankelijke variabele NIET gelijk blijft over de range van de onafhankelijke variabele(n). Dit betekent dat de spreiding van de residuen afhankelijk is van de waarde van de onafhankelijke variabele.

Question 53

Q

Wat is het gevolg als heteroscedasticiteit zich voordoet in de data?

Answer

A

Dit kan problemen opleveren voor de betrouwbaarheid van de regressieanalyse, doordat het kan leiden tot foute schattingen van standaardfouten, t-waarden en p-waarden.

Question 54

Q

Wat kan je doen om heteroscedasticiteit te behandelen?

Answer

A

Transformeren van gegevens.
Gewogen regressie
Robuuste standaardfouten
Oorzaken begrijpen en verminderen. Bijvoorbeeld opnemen van extra variabelen die het heteroscedastische patroon verklaren.

Question 55

Q

Waarvoor wordt cronbach’s alfa (α) gebruikt?

Answer

A

Dit is een maatstaf voor de interne consistentie van een schaal of meetinstrument. Het geeft aan in hoeverre verschillende items op een schaal met elkaar samenhangen.

Question 56

Q

Op welke schaal interpreteer je cronbach’s alpha (α)?

Answer

A

α negatief: Geen betekenis.
α positief 0 < α < 0,6: Niet waardevol
α positief α > 0,6: Absoluut minimale drempelwaarde voor samenhang
α positief α > 0,7: Streefwaarde voor bevredigende samenhang
α positief α > 0,8: Streefwaarde voor goede samenhang

Question 57

Q

Wat is de Mann-Whitney (U) toets? Licht kort toe.

Answer

A

Dit is een non-parametrische toets. Deze wordt gebruikt bij een niet bekende of scheve verdeling (niet normaal verdeeld), of op een ordinaal meetniveau. Het betreft een analyse van verschillen.

Question 58

Q

Waarvoor wordt Cohens Kappa gebruikt?

Answer

A

Dit is een statistiek die wordt gebruikt om de interbeoordelaarsbetrouwbaarheid voor kwalitatieve items te meten. Het berekent de proportie van overeenstemmingen gecorrigeerd voor toeval.

Question 59

Q

Waarop kan Cohens Kappa worden toegepast?

Answer

A

Deze kan worden toegepast op nominale of ordinale verdelingen, vaak bij gestandaardiseerde vragenlijsten.

Question 60

Q

Wat zijn de mogelijke uitkomsten van Cohens Kappa?

Answer

A

k = 1: De overeenkomst tussen beoordelingen is volledig en berust niet op kans.
k > 0,7: Goed
0,4 < k < 0,7: Matig
k < 0,4: Slecht
k = 0: De overeenkomst tussen beoordelingen berust volledig op kans

Question 61

Q

Wat is logistische regressie?

Answer

A

Een statistische techniek om de relatie tussen dichotome (binaire) variabelen te relateren aan één of meer predictoren. De voorspellers kunnen zowel discreet als continu zijn. De analysetechniek heeft een voorspellend karakter.

Question 62

Q

Waar sluit logistische regressie het meeste aan?

Answer

A

Logistische regressie sluit het best aan bij lineaire regressie en is een alternatief hiervoor als de gemeten variabele niet continu (dus discreet of categorisch) van aard is.

Question 63

Q

Aan welke voorwaarden moet data voldoen om een lineaire regressie analyse uit te voeren?

Answer

A

De relatie tussen de verklarende en onafhankelijke variabelen is lineair.
De data zijn uit een willekeurige steekproef verkregen.
De verklarende variabelen die je opneemt in de regressie hebben geen lineair verband.
Exogeniteit: een verwachte foutterm van 0.
Homoscedasticiteit: De variantie van de foutterm is gelijk voor alle waarden van de verklarende variabele.

Question 64

Q

Licht longitudinaal en cross-sectioneel onderzoek toe

Answer

A

Cross-sectioneel wil zeggen dat elk individu in een groep eenmaal en op hetzelfde moment wordt gemeten. Hierdoor is het lastig om causaliteit vast te stellen.

Longitudinaal wil zeggen dat waarnemingen of metingen bij ieder individu op een aantal achtereenvolgende tijdstippen worden herhaald. Hiermee kan de veronderstelde causaliteit in hogere mate worden aangetoond.

Answer 64

A

Inductief vs deductief: Doel theorie ontwikkelen vs doel theorie toetsen
Exploratory vs explanatory: Doel belangrijke aspecten onvoldoende onderzocht probleem verkennen vs doel oorzaken en gevolgen probleem te verklaren