Statistiek Flashcards

1
Q

Leg de relatie uit tussen X en Y

A

De onafhankelijke variabele (X) is de variabele die wordt gemanipuleerd of gecontroleerd door de onderzoeker en de afhankelijke variabele (Y) is de variabele die wordt gemeten of geobserveerd als reactie op de veranderingen in de onafhankelijke variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Leg de moderator uit

A

Een moderator is een variabele (Z) die de relatie tussen een onafhankelijke variabele en een afhankelijke variabele beïnvloedt, zonder direct effect te hebben op de afhankelijke variabele. Het identificeren van moderators is belangrijk voor het begrijpen van de complexiteit van relaties tussen variabelen en kan leiden tot betere voorspellingen en aanbevelingen in onderzoek.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Leg de mediator uit

A

Een mediator is een tussenschakel tussen de onafhankelijke variabele en de afhankelijke variabele en kan worden beschouwd als een oorzakelijk pad tussen deze variabelen. Mediators worden vaak geïdentificeerd en onderzocht in statistische analyses, zoals structurele vergelijkingsmodellen. Het identificeren van mediators is belangrijk omdat het ons kan helpen begrijpen hoe en waarom de onafhankelijke variabele de afhankelijke variabele beïnvloedt, en kan leiden tot meer gerichte interventies en behandelingen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Leg uit wat een dummy variabele is en waar deze voor wordt gebruikt.

A

Een dummy variabele is een variabele die slechts twee mogelijke waarden kan aannemen, meestal aangegeven als 0 of 1. Het wordt vaak gebruikt om nominale variabelen te coderen, zoals geslacht of etniciteit, waarbij elke categorie wordt toegewezen aan een specifieke waarde van de dummy variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Leg uit wat een proxy variabele is en waar deze voor wordt gebruikt.

A

Een proxy variabele is een variabele die wordt gebruikt als substituut voor een andere variabele wanneer deze variabele niet direct beschikbaar is. Wanneer je bijvoorbeeld welvaart als variabele zou willen gebruiken, is deze niet beschikbaar. Een proxy variabele zou dan kunnen zijn de ratio BBP/capita om de welvaart te meten. Dit is een benadering van de werkelijkheid aan de hand van een vuistregel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat zijn de belangrijks eigenschappen van de normale verdeling?

A
  1. Symmetrie: de curve is symmetrisch rond het gemiddelde (μ), wat betekent dat de kans op een positieve afwijking van het gemiddelde gelijk is aan de kans op een negatieve afwijking.
  2. De totale oppervlakte onder de curve is gelijk aan 1: dit betekent dat de kans dat een waarde zich voordoet binnen de gehele populatie altijd gelijk is aan 1.
  3. De curve heeft een maximum bij het gemiddelde (μ): dit betekent dat de meest voorkomende waarden zich bevinden rond het gemiddelde.
  4. De standaarddeviatie (σ) bepaalt de spreiding van de curve: een kleine standaarddeviatie betekent dat de waarden dicht bij het gemiddelde liggen, terwijl een grote standaarddeviatie betekent dat de waarden meer gespreid zijn.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hoe kleiner de p-waarde hoe?

A

Hoe kleiner de p-waarde hoe minder geloofwaardig de nulhypothese.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat is de p-waarde?

A

De overschrijdingskans. Het is altijd een getal tussen 0 en 1. P<0,05 betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de nulhypothese waar is (dus 95% dat de resultaten worden gevonden terwijl de 1 hypothese waar is).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat is een scheve verdeling?

A

Een scheve verdeling is een verdeling van gegevens waarbij de waarden niet symmetrisch verdeeld zijn rondom het gemiddelde. In plaats daarvan is er sprake van een asymmetrische verdeling, waarbij de waarden aan één kant van de verdeling meer voorkomen dan aan de andere kant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hoeveel soorten scheve verdelingen zijn er?

A

Er zijn twee soorten scheve verdelingen: linksscheef en rechtsscheef.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welke regel geldt bij zero skew?

A

Er is geen scheefheid. Het gemiddelde = de mediaan (ongeveer).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat geldt voor right skew?

A

Dit wordt ook wel positieve skew genoemd. Deze heeft een lange staart aan de rechterkant. Het gemiddelde > mediaan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat geldt voor left skew?

A

Dit wordt ook wel de negatieve skew genoemd. Deze heeft een lange staart aan de linkerkant. Het gemiddelde < mediaan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hoe bereken je de scheefheid?

A

Met Pearsons median skewness. 3X ((Mean - Mediaan) / Standaarddeviatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat doe je als je data scheef verdeeld zijn?

A
  1. Doe niets. t-toetsen, ANOVA’s en lineaire regressie zijn niet gevoelig voor scheefheid van data.
  2. Gebruik een ander model. Je kunt een model gebruiken dat niet-parametrisch is, dus waarbij geen normale verdeeldheid wordt verondersteld.
  3. Transformeer de variabele. Een andere optie is het transformeren van de scheve variabele zodat deze minder scheef is. Een variabele transformeren houdt in dat je dezelfde functie toepast op alle waarnemingen van de variabele.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hoe bereken je de variatiecoëfficiënt?

A

SD / Gemiddelde * 100%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wat betekent de variatiecoëfficiënt?

A

Indien deze laag is, dan zijn de gegevens dicht bij het gemiddelde gelcusterd en is er weinig spreiding. Als deze hoog is, betekent dit dat de gegevens verder verdeeld zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wat is het verschil tussen de variantie en de standaarddeviatie?

A

De standaarddeviatie wordt uitgedrukt in dezelfde eenheid in de oorspronkelijke waarden (bijvoorbeeld meters). De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters). Hierdoor is het moeilijk om de variantie te interpreteren op gevoel. Hierdoor wordt vaker de voorkeur gegeven aan standaarddeviatie als spreidingsmaat. De variantie is echter meer informatief voor statistische inferentie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Wat is winsorizen?

A

Een statistische methode om extreme waarden in een dataset te behandelen. Extreme waarden in de dataset worden vervangen voor de hoogste of laagste waarde die binnen een bepaald percentage van de dataset vallen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Waarvoor wordt winsorizen gebruikt?

A

Om de invloed van extreme waarden op de resultaten van een statistische analyse te verminderen. Extreme waarden kunnen een grote invloed hebben op de gemiddelde waarde, de standaarddeviatie en andere statistische maatstaven, waardoor de resultaten van een analyse vertekend worden. De data wordt ook minder gevoelig voor verstoringen door outliers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Wat zijn nadelen van het gebruik van Winsorizing?

A

Door het vervangen van extreme waarden verliezen we informatie over de oorspronkelijke dataset, en soms kan het ook de resultaten van een analyse verstoren. Daarom moet winsorizing altijd zorgvuldig worden overwogen en toegepast, afhankelijk van de specifieke context en de doelstellingen van de analyse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hoe wordt winsorizing vaak toegepast?

A

Vaak wordt 90% toegepast. Gegevens onder het 5e percentiel omzetten naar het 5e percentiel en gegevens boven het 95e percentiel omzetten naar het 95e percentiel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Geef de definitie van een associatiemaat

A

Een associatiemaat is een getal dat de sterkte en richting (positief of negatief) van de associatie tussen twee (kans)variabelen aangeeft.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Wat voor soort toets is de chi-kwadraattoets?

A

Dit is een non-parametrische toets. Een non-parametrische toets is een toets waarbij de variabelen een nominaal of ordinaal meetniveau hebben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Waarop wordt de chi-kwadraattoets toegepast?

A

Op kruistabellen met geobserveerde versus verwachte frequenties. Een vergelijking van 2 variabelen van nominale of ordinale meetniveaus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Wat stel je vast met de chi-kwadraattoets en hoe?

A

Of er een associatie is tussen variabelen, maar niet de effectgrootte. Het standaard significantieniveau hierbij is 0,05. Vergelijk de chi-kwadraatwaarde met de kritieke waarde om te bepalen welke groter is. Als de chi-kwadraatwaarde groter is dan de kritieke waarde moet je de nulhypothese verwerpen. Dan verschilt je data significant van de verwachte waarden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Ter kennisgeving: De chi-kwadraattoets vergelijking:

A
28
Q

Welke grenzen kent de correlatiecoëfficiënt (R, r, ρ)

A

Ten eerste is er sprake van een omgekeerd óf recht verband, daarbij:

1-0,85: Uitzonderlijk sterk
0,84-0,7: Sterk
0,69-0,5: Matig
0,49-0,3: Zwak
<0,3: Geen verband

29
Q

Wat meet een correlatiecoëfficiënt?

A

Dit is een statistische maatstaf die de mate van LINEAIRE associatie meet tussen twee variabelen.

30
Q

Wat is een continue variabele?

A

Een variabele met opvolgende waarden. Deze kan in een bepaald interval iedere waarde aannemen.

31
Q

Wanneer gebruik je welke correlatiecoëfficiënt?

A
  1. Pearson’s r gebruik je wanneer de variabelen op een continue schaal (scale; dus interval of ratio) worden gemeten.
  2. Spearman’s r gebruik je wanneer de variabelen op een ordinale schaal worden gemeten. (bijv. 5puntsschaal van zeer mee eens tot zeer mee oneens)
32
Q

Wat is een ander woord voor correlatie?

A

Covariantie

33
Q

Wat zijn de vereisten voor causaliteit?

A
  1. Correlatie
  2. Non-spuriousness (een logisch verband)
  3. Opvolgend (de één beïnvloed de ander en NIET andersom)
  4. Theoretische justificatie
34
Q

Wat is het gevaar bij multicollineariteit?

A

Dat je niet welke van de onafhankelijke variabelen nou de meeste invloed heeft op de afhankelijke variabele, doordat de twee (of meer) onafhankelijke variabelen sterk met elkaar samenhangen. Dit kan je vaststellen door de correlatie tussen deze variabelen te berekenen. Voeg variabelen samen of verwijder één van de te veel samenhangende onafhankelijke variabelen.

35
Q

Waarvoor staat VIF?

A

Variance of Inflation Factor

36
Q

Wat is VIF?

A

Dit is een maatstaf voor multicollineariteit in een regressiemodel.

37
Q

Welke waarden kent de VIF?

A
  • <2: Zeer goed; geen tot beperkte mate van multicollineariteit.
  • 2 - <5: Goed; beperkte mate van multicollineariteit.
  • 5 < VIF < 10: Matig/twijfelachtig, indicatie van multicollineariteit
  • 10 < VIF: Fout; zeer hoge mate van multicollineariteit
38
Q

Geef de formule van VIF

A

1 / (1 – R2)

39
Q

Geef een korte uitleg van de begrippen correlatiecoëfficiënt en determinatiecoëfficiënt

A

Een correlatiecoëfficiënt geeft de mate van samenhang weer tussen twee variabelen.

Een determinatiecoëfficiënt meet in hoeverre een statistisch model in staat is een bepaalde uitkomst te voorspellen. Deze is altijd positief (tussen 0 en 1), zelfs als de correlatiecoëfficiënt negatief is (want kwadratisch).

40
Q

Wat is de adjusted R²?

A

De adjusted R² (gecorrigeerde R-kwadraat) is een aangepaste versie van de R² en wordt gebruikt bij lineaire regressie. Deze R² houdt rekening met het aantal variabelen in het model, indien er meerdere onafhankelijke variabelen zijn. Deze is dus meer accuraat. Het is nog steeds een getal tussen 0 en 1, waarbij 1 perfecte voorspellende waarde is en 0 geen voorspellende waarde.

41
Q

Wat is de T-test?

A

De T-test is een statistische test die wordt gebruikt om te bepalen of er een significant verschil is tussen de gemiddelde scores van twee groepen.

42
Q

Hoe interpreteert men de uitkomsten van een T-test?

A

De t-test berekent een t-waarde. Deze wordt vergeleken met een kritische t-waarde op basis van het gewenste significantieniveau en het aantal vrijheidsgraden. Als de t-waarde groter is dan de kritische waarde, dan wijst dit op een significant verschil tussen de twee groepen (0-hypothese verwerpen).

43
Q

Geef het stappenplan voor de T-test:

A

Stap 1:
Weet je de standaarddeviatie van de populatie?
JA –> Ga verder in het stappenplan.
NEE –> Gebruik de T-test.

Stap 2:
Is de sample omvang groter dan 30?
JA –> Gebruik de Z-test.
NEE –> Gebruik de T-test.

44
Q

Welke soorten T-testen zijn er en waarvoor gebruik je welke?

A
  1. One-sample t-test: Je toetst het gemiddelde ten opzichte van een norm of theoretisch gemiddelde.
  2. Ongepaarde t-test: Je toetst of twee steekproefgemiddelden significant van elkaar verschillen.
  3. Gepaarde t-test: Toets om twee gemiddelden van gepaarde steekproeven met elkaar te vergelijken. Gepaarde steekproeven zijn afhankelijk van elkaar. Bijvoorbeeld de lengte van dezelfde personen in 2015 en 2018. Deze waarden zijn afhankelijk van elkaar omdat je dezelfde persoon meet.
45
Q

Van welke veronderstellingen ga je uit bij een T-test?

A
  1. Je hebt een aselecte steekproef.
  2. De te toetsen variabelen hebben een interval of ratio (scale) schaal.
  3. De steekproeven hebben een normale verdeling. (Er wordt voldaan aan de centrale limietstelling of je hebt zekerheid dat de variabele in de populatie normaal zijn verdeeld.)
46
Q

Waarvoor staat ANOVA?

A

ANalysis Of VAriance

47
Q

Waarvoor wordt de ANOVA-toets gebruikt?

A

Deze wordt gebruikt om gemiddelden van meer dan twee groepen met elkaar te vergelijken.

48
Q

Welke soorten ANOVA-toetsen zijn er en waarvoor worden deze gebruikt?

A
  1. One-way ANOVA: Als één groepsvariabele de groepen bepaalt en er maar één afhankelijke variabele is. Bijvoorbeeld gemiddelde lengte van verschillende typen sporters. Type sport is de enige groepsvariabele (onafhankelijk) en lengte is de enige afhankelijke variabele.
  2. Two-way ANOVA: Deze gebruik je bij twee of meer groepsvariabelen. Type sport en geslacht zijn groepsvariabelen (onafhankelijk) en lengte is de enige afhankelijke variabele.
  3. Multivariate ANOVA: Deze gebruik je indien je meerdere afhankelijke variabelen gebruikt. Dit kan voor zowel één als meerdere (onafhankelijke) groepsvariabelen.
49
Q

Wat zijn de veronderstellingen bij een ANOVA toets?

A
  1. De afhankelijke variabele wordt gemeten op ratio of intervalniveau (scale).
  2. De data (per groep) zijn verkregen uit een aselecte steekproef.
  3. De varianties per groep zijn gelijk (homoscedasticiteit).
  4. Binnen iedere groep bestaat een normale verdeling.
50
Q

Licht de F-toets (ANOVA) toe:

A
  1. Dit is een statistische toets om na te gaan of van twee normale verdelingen de varianties verschillen.
  2. Dit is een parametrische toets (verdeling MOET normaal zijn).
51
Q

Wat betekent homoscedasticiteit?

A

Dit betekent dat de variantie van de afhankelijke variabele gelijk blijft over de gehele range van de onafhankelijke variabele(n).

52
Q

Wat betekent heteroscedasticiteit?

A

Dit betekent dat de variantie van de afhankelijke variabele NIET gelijk blijft over de range van de onafhankelijke variabele(n). Dit betekent dat de spreiding van de residuen afhankelijk is van de waarde van de onafhankelijke variabele.

53
Q

Wat is het gevolg als heteroscedasticiteit zich voordoet in de data?

A

Dit kan problemen opleveren voor de betrouwbaarheid van de regressieanalyse, doordat het kan leiden tot foute schattingen van standaardfouten, t-waarden en p-waarden.

54
Q

Wat kan je doen om heteroscedasticiteit te behandelen?

A
  1. Transformeren van gegevens.
  2. Gewogen regressie
  3. Robuuste standaardfouten
  4. Oorzaken begrijpen en verminderen. Bijvoorbeeld opnemen van extra variabelen die het heteroscedastische patroon verklaren.
55
Q

Waarvoor wordt cronbach’s alfa (α) gebruikt?

A

Dit is een maatstaf voor de interne consistentie van een schaal of meetinstrument. Het geeft aan in hoeverre verschillende items op een schaal met elkaar samenhangen.

56
Q

Op welke schaal interpreteer je cronbach’s alpha (α)?

A

α negatief: Geen betekenis.
α positief 0 < α < 0,6: Niet waardevol
α positief α > 0,6: Absoluut minimale drempelwaarde voor samenhang
α positief α > 0,7: Streefwaarde voor bevredigende samenhang
α positief α > 0,8: Streefwaarde voor goede samenhang

57
Q

Wat is de Mann-Whitney (U) toets? Licht kort toe.

A

Dit is een non-parametrische toets. Deze wordt gebruikt bij een niet bekende of scheve verdeling (niet normaal verdeeld), of op een ordinaal meetniveau. Het betreft een analyse van verschillen.

58
Q

Waarvoor wordt Cohens Kappa gebruikt?

A

Dit is een statistiek die wordt gebruikt om de interbeoordelaarsbetrouwbaarheid voor kwalitatieve items te meten. Het berekent de proportie van overeenstemmingen gecorrigeerd voor toeval.

59
Q

Waarop kan Cohens Kappa worden toegepast?

A

Deze kan worden toegepast op nominale of ordinale verdelingen, vaak bij gestandaardiseerde vragenlijsten.

60
Q

Wat zijn de mogelijke uitkomsten van Cohens Kappa?

A

k = 1: De overeenkomst tussen beoordelingen is volledig en berust niet op kans.
k > 0,7: Goed
0,4 < k < 0,7: Matig
k < 0,4: Slecht
k = 0: De overeenkomst tussen beoordelingen berust volledig op kans

61
Q

Wat is logistische regressie?

A

Een statistische techniek om de relatie tussen dichotome (binaire) variabelen te relateren aan één of meer predictoren. De voorspellers kunnen zowel discreet als continu zijn. De analysetechniek heeft een voorspellend karakter.

62
Q

Waar sluit logistische regressie het meeste aan?

A

Logistische regressie sluit het best aan bij lineaire regressie en is een alternatief hiervoor als de gemeten variabele niet continu (dus discreet of categorisch) van aard is.

63
Q

Aan welke voorwaarden moet data voldoen om een lineaire regressie analyse uit te voeren?

A
  1. De relatie tussen de verklarende en onafhankelijke variabelen is lineair.
  2. De data zijn uit een willekeurige steekproef verkregen.
  3. De verklarende variabelen die je opneemt in de regressie hebben geen lineair verband.
  4. Exogeniteit: een verwachte foutterm van 0.
  5. Homoscedasticiteit: De variantie van de foutterm is gelijk voor alle waarden van de verklarende variabele.
64
Q

Licht longitudinaal en cross-sectioneel onderzoek toe

A

Cross-sectioneel wil zeggen dat elk individu in een groep eenmaal en op hetzelfde moment wordt gemeten. Hierdoor is het lastig om causaliteit vast te stellen.

Longitudinaal wil zeggen dat waarnemingen of metingen bij ieder individu op een aantal achtereenvolgende tijdstippen worden herhaald. Hiermee kan de veronderstelde causaliteit in hogere mate worden aangetoond.

65
Q

Welke soorten onderzoek staan tegenover elkaar?

A
  1. Inductief vs deductief: Doel theorie ontwikkelen vs doel theorie toetsen
  2. Exploratory vs explanatory: Doel belangrijke aspecten onvoldoende onderzocht probleem verkennen vs doel oorzaken en gevolgen probleem te verklaren