Statistiek Flashcards
Leg de relatie uit tussen X en Y
De onafhankelijke variabele (X) is de variabele die wordt gemanipuleerd of gecontroleerd door de onderzoeker en de afhankelijke variabele (Y) is de variabele die wordt gemeten of geobserveerd als reactie op de veranderingen in de onafhankelijke variabele.
Leg de moderator uit
Een moderator is een variabele (Z) die de relatie tussen een onafhankelijke variabele en een afhankelijke variabele beïnvloedt, zonder direct effect te hebben op de afhankelijke variabele. Het identificeren van moderators is belangrijk voor het begrijpen van de complexiteit van relaties tussen variabelen en kan leiden tot betere voorspellingen en aanbevelingen in onderzoek.
Leg de mediator uit
Een mediator is een tussenschakel tussen de onafhankelijke variabele en de afhankelijke variabele en kan worden beschouwd als een oorzakelijk pad tussen deze variabelen. Mediators worden vaak geïdentificeerd en onderzocht in statistische analyses, zoals structurele vergelijkingsmodellen. Het identificeren van mediators is belangrijk omdat het ons kan helpen begrijpen hoe en waarom de onafhankelijke variabele de afhankelijke variabele beïnvloedt, en kan leiden tot meer gerichte interventies en behandelingen.
Leg uit wat een dummy variabele is en waar deze voor wordt gebruikt.
Een dummy variabele is een variabele die slechts twee mogelijke waarden kan aannemen, meestal aangegeven als 0 of 1. Het wordt vaak gebruikt om nominale variabelen te coderen, zoals geslacht of etniciteit, waarbij elke categorie wordt toegewezen aan een specifieke waarde van de dummy variabele.
Leg uit wat een proxy variabele is en waar deze voor wordt gebruikt.
Een proxy variabele is een variabele die wordt gebruikt als substituut voor een andere variabele wanneer deze variabele niet direct beschikbaar is. Wanneer je bijvoorbeeld welvaart als variabele zou willen gebruiken, is deze niet beschikbaar. Een proxy variabele zou dan kunnen zijn de ratio BBP/capita om de welvaart te meten. Dit is een benadering van de werkelijkheid aan de hand van een vuistregel.
Wat zijn de belangrijks eigenschappen van de normale verdeling?
- Symmetrie: de curve is symmetrisch rond het gemiddelde (μ), wat betekent dat de kans op een positieve afwijking van het gemiddelde gelijk is aan de kans op een negatieve afwijking.
- De totale oppervlakte onder de curve is gelijk aan 1: dit betekent dat de kans dat een waarde zich voordoet binnen de gehele populatie altijd gelijk is aan 1.
- De curve heeft een maximum bij het gemiddelde (μ): dit betekent dat de meest voorkomende waarden zich bevinden rond het gemiddelde.
- De standaarddeviatie (σ) bepaalt de spreiding van de curve: een kleine standaarddeviatie betekent dat de waarden dicht bij het gemiddelde liggen, terwijl een grote standaarddeviatie betekent dat de waarden meer gespreid zijn.
Hoe kleiner de p-waarde hoe?
Hoe kleiner de p-waarde hoe minder geloofwaardig de nulhypothese.
Wat is de p-waarde?
De overschrijdingskans. Het is altijd een getal tussen 0 en 1. P<0,05 betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de nulhypothese waar is (dus 95% dat de resultaten worden gevonden terwijl de 1 hypothese waar is).
Wat is een scheve verdeling?
Een scheve verdeling is een verdeling van gegevens waarbij de waarden niet symmetrisch verdeeld zijn rondom het gemiddelde. In plaats daarvan is er sprake van een asymmetrische verdeling, waarbij de waarden aan één kant van de verdeling meer voorkomen dan aan de andere kant.
Hoeveel soorten scheve verdelingen zijn er?
Er zijn twee soorten scheve verdelingen: linksscheef en rechtsscheef.
Welke regel geldt bij zero skew?
Er is geen scheefheid. Het gemiddelde = de mediaan (ongeveer).
Wat geldt voor right skew?
Dit wordt ook wel positieve skew genoemd. Deze heeft een lange staart aan de rechterkant. Het gemiddelde > mediaan.
Wat geldt voor left skew?
Dit wordt ook wel de negatieve skew genoemd. Deze heeft een lange staart aan de linkerkant. Het gemiddelde < mediaan.
Hoe bereken je de scheefheid?
Met Pearsons median skewness. 3X ((Mean - Mediaan) / Standaarddeviatie
Wat doe je als je data scheef verdeeld zijn?
- Doe niets. t-toetsen, ANOVA’s en lineaire regressie zijn niet gevoelig voor scheefheid van data.
- Gebruik een ander model. Je kunt een model gebruiken dat niet-parametrisch is, dus waarbij geen normale verdeeldheid wordt verondersteld.
- Transformeer de variabele. Een andere optie is het transformeren van de scheve variabele zodat deze minder scheef is. Een variabele transformeren houdt in dat je dezelfde functie toepast op alle waarnemingen van de variabele.
Hoe bereken je de variatiecoëfficiënt?
SD / Gemiddelde * 100%
Wat betekent de variatiecoëfficiënt?
Indien deze laag is, dan zijn de gegevens dicht bij het gemiddelde gelcusterd en is er weinig spreiding. Als deze hoog is, betekent dit dat de gegevens verder verdeeld zijn.
Wat is het verschil tussen de variantie en de standaarddeviatie?
De standaarddeviatie wordt uitgedrukt in dezelfde eenheid in de oorspronkelijke waarden (bijvoorbeeld meters). De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters). Hierdoor is het moeilijk om de variantie te interpreteren op gevoel. Hierdoor wordt vaker de voorkeur gegeven aan standaarddeviatie als spreidingsmaat. De variantie is echter meer informatief voor statistische inferentie.
Wat is winsorizen?
Een statistische methode om extreme waarden in een dataset te behandelen. Extreme waarden in de dataset worden vervangen voor de hoogste of laagste waarde die binnen een bepaald percentage van de dataset vallen.
Waarvoor wordt winsorizen gebruikt?
Om de invloed van extreme waarden op de resultaten van een statistische analyse te verminderen. Extreme waarden kunnen een grote invloed hebben op de gemiddelde waarde, de standaarddeviatie en andere statistische maatstaven, waardoor de resultaten van een analyse vertekend worden. De data wordt ook minder gevoelig voor verstoringen door outliers
Wat zijn nadelen van het gebruik van Winsorizing?
Door het vervangen van extreme waarden verliezen we informatie over de oorspronkelijke dataset, en soms kan het ook de resultaten van een analyse verstoren. Daarom moet winsorizing altijd zorgvuldig worden overwogen en toegepast, afhankelijk van de specifieke context en de doelstellingen van de analyse.
Hoe wordt winsorizing vaak toegepast?
Vaak wordt 90% toegepast. Gegevens onder het 5e percentiel omzetten naar het 5e percentiel en gegevens boven het 95e percentiel omzetten naar het 95e percentiel.
Geef de definitie van een associatiemaat
Een associatiemaat is een getal dat de sterkte en richting (positief of negatief) van de associatie tussen twee (kans)variabelen aangeeft.
Wat voor soort toets is de chi-kwadraattoets?
Dit is een non-parametrische toets. Een non-parametrische toets is een toets waarbij de variabelen een nominaal of ordinaal meetniveau hebben.
Waarop wordt de chi-kwadraattoets toegepast?
Op kruistabellen met geobserveerde versus verwachte frequenties. Een vergelijking van 2 variabelen van nominale of ordinale meetniveaus.
Wat stel je vast met de chi-kwadraattoets en hoe?
Of er een associatie is tussen variabelen, maar niet de effectgrootte. Het standaard significantieniveau hierbij is 0,05. Vergelijk de chi-kwadraatwaarde met de kritieke waarde om te bepalen welke groter is. Als de chi-kwadraatwaarde groter is dan de kritieke waarde moet je de nulhypothese verwerpen. Dan verschilt je data significant van de verwachte waarden.