Inleiding Flashcards

1
Q

inductieve vs deductieve statsistiek

A
  1. obv steekproef conclusies, schattingen, voorspellingen, generalisaties maken van populatie
  2. obv steekproef beschrijvingen/samenvattingen maken over deze steekproef
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

verschil tussen:
steekproef (sample) en steekproeven (sampling) verdeling

A
  1. empirisch gekend (~frequentieverdeling)
  2. theoretische benadering (~kansverdeling)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

wat is centrale limietstelling?

A

bij veel (n>30), willekeurige, aselecte steekproeven trekking zal de steekproevenverdeling van het steekproefgemiddelde benaderd normaal verdeeld zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Geef de stappen bij het verkennen van data

A

Data visualiseren (boxplot, histogram, …)

Analyse missing data
1. bepalen van soort missing data
(branching/codeerfout of MAR/MCAR/MNAR)
2. bepalen hoeveelheid missing data (%)
3. bepalen **MCAR/MAR/MNAR **
4. omgaan met missing data
(4.1 standaard listwise deletion - motiveren waarom en stabiliteit data na gaan,
4.2 data-imputatie - bij MAR, MCAR,
4.3 geavanceerde methoden; bij MNAR bv. maximum likelihood, pattern-mixture modellen)

Outliers
- sensitiviteitsanalyse : hoort deze bij de populatie en hoe beïnvloedt het de data? soorten detectie:
1. univariaat: z-scores/visualisatie
- n</=80: z > 2,5
- n>80: z > 3/4
2. bivariaat: scatterplot
3. multivariaat: Mahandobis D

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat zijn MAR, MCAR, MNAR?

A

MAR → ontbrekende data hangt af van andere variabelen, maar niet van de eigen waarde. Als je de andere variabelen kent, kun je de missings goed voorspellen.
Voorbeeld: In een gezondheidsonderzoek ontbreekt de bloeddruk van sommige deelnemers, maar dit komt vaker voor bij jongere proefpersonen. De missings hangen dus af van leeftijd (een bekende variabele), maar niet van de bloeddrukwaarde zelf. (ze ondergaan bv minder vaak medische controles)

MCAR → ontbrekende data heeft geen relatie met andere variabelen of de ontbrekende waarde zelf
Voorbeeld: Tijdens een enquête valt de internetverbinding bij sommige respondenten weg, waardoor hun antwoorden op willekeurige vragen ontbreken. Dit gebeurt onafhankelijk van de kenmerken van de respondenten of hun antwoorden.

MNAR → ontbrekende data zijn niet willekeurig en kunnen leiden tot vertekening in de resultaten.
Voorbeeld: In een salarisonderzoek vullen mensen met een hoog inkomen hun salaris minder vaak in, omdat ze zich ongemakkelijk voelen om die informatie te delen. Hier hangt het ontbreken direct samen met de waarde van het salaris zelf.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

wat is data-imputatie?

A

missende data vervangen door geschatte waarden obv de beschikbare data bv;
* gemiddelde-imputatie bij leeftijden van klanten
* mediaan-imputatie bij inkomens van werknemers
* modus-imputatie bij data met veelvoorkomende categorieën bv; opleiding
* regressie-imputatie voor bv; lengte
* multiple-imputatie: meerdere data-sets met iedere een verschillende imputatie methode, neem het gemiddelde van de ieder verkregen gegeven over de data-sets heen en neem de spreiding mee.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

wat zijn de 3 voorwaarden om **multivariate analyses **te mogen uitvoeren?

A
  1. Normaliteit
  2. Lineariteit
  3. Homoscedasticiteit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Leg de basisassumptie normaliteit uit

A

Indien de verdeling afwijkt van de normaalverdeling zijn alle statistische testen ongeldig

gelijkend aan N-verdeling als: kurtosis en scheefheid niet significant afwijken van 0

(TIP: weet wat links en rechts scheef betekenen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hoe test je de assumptie van normaliteit?

A

1. skewness en kurtosis test
2. KS-test
3. Normal Probability plot

- P-P Plot: vergelijkt cumulatieve verdeling en geobserveerde data met die dat verwacht worden van een normaalverdeling
- Q-Q plot: vergelijkt kwantielen van geobserveerde data met die dat verwacht worden van een normaalverdeling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Leg de basisassumptie homoscedasticiteit uit

A

Homoscedasticiteit: De spreiding van de residuen is gelijk over alle waarden van de onafhankelijke variabele(n).

Heteroscedasticiteit: De spreiding van de residuen varieert afhankelijk van de waarde van de onafhankelijke variabele(n).
bv; je meet de kans op kanker naargelang de leeftijd van mensen, hoe ouder hoe meer variatie in residuen, aangezien andere variabelen zoals al dan niet roken een grote rol spelen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hoe test je de assumptie van homoscedasticiteit?

A
  1. Visuele inspectie: Bekijk de plot van de residuen vs. voorspelde waarden. Homoscedasticiteit: De punten in de grafiek moeten willekeurig verspreid zijn, zonder een duidelijk patroon of trend. De spreiding van de residuen moet constant zijn over het bereik van de voorspelde waarden.
  2. Breusch-Pagan test: Statistische test om heteroscedasticiteit te detecteren. Een lage p-waarde (meestal < 0,05) suggereert heteroscedasticiteit, omdat het duidt op een significante relatie tussen de residuen en de voorspelde waarden (de variantie van de residuen verandert).
  3. White’s test: Robuuste test die heteroscedasticiteit kan detecteren. Een lage p-waarde (meestal < 0,05) wijst op heteroscedasticiteit.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Leg de basisassumptie lineariteit uit

A

De basisassumptie van lineariteit betekent:

> De relatie tussen de onafhankelijke variabele(n) en de afhankelijke variabele is lineair.

Concreet:
Als je een regressielijn tekent, dan moet die lijn ongeveer recht zijn.
Dat wil zeggen: als je verhoogt, verandert op een voorspelbare, constante manier (niet ineens krom of gebogen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hoe test je de assumptie van lineariteit?

A

Visuele inspectie van de residuen plot: Controleer of de residuen willekeurig verspreid zijn of een patroon vertonen.

Scatterplot van onafhankelijke vs. afhankelijke variabele: Kijk of er een lineair patroon is.

Box-Tidwell test: Statistische test voor lineariteit van de relatie tussen onafhankelijke variabelen en afhankelijke variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wanneer wordt data-transformatie toegepast?

A

Wanneer er niet aan de 3 basisassumpties voldaan wordt, kan de data getransformeerd worden om de voorwaarden te benaderen

Pas op! Dit kan als gevolg hebben dat interpretatie minder duidelijk is en betekenis van de afhankelijke variabelen verandert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Waarom, hoe en wanneer pas je een dummy codering toe?

A

Waarom pas je een dummy-codering toe?
gebruikt om categorische variabelen om te zetten in numerieke waarden, zodat ze kunnen worden gebruikt in statistische modellen.

Hoe pas je een dummy-codering toe?
Je zet elke categorie van een variabele om in een aparte binaire (0 of 1) kolom. Bijvoorbeeld, als je een variabele “Kleur” hebt met drie categorieën (“Rood”, “Blauw”, “Groen”), kun je deze omzetten in drie dummy-variabelen:
R: 0, B: 0 en G: 1, Meestal gebruik je one-hot encoding of dummy coding, waarbij je één variabele weglaat (bijv. “Rood”) om multicollineariteit te voorkomen.

Wanneer gebruik je een dummy-codering?
* Meervoudige regressie: Ja, bij categorische onafhankelijke variabelen.
Voorbeeld: Je wilt het effect van geslacht (man/vrouw) en regio (noord/zuid) op de verkoop voorspellen. Je zou geslacht en regio moeten coderen als dummy-variabelen.

  • Logistische regressie: Ja, bij categorische onafhankelijke variabelen.
    Voorbeeld: Als je de kans wilt voorspellen dat een klant een product koopt (ja/nee), en je hebt een variabele zoals geslacht (man/vrouw), dan zou je geslacht moeten dummy-coderen.
  • ANOVA: Ja, wanneer je verschillende categorieën vergelijkt.
  • Factoranalyse: Nee, meestal niet voor categorische data.
    Voorbeeld:Als je de gemiddelde klanttevredenheid wilt vergelijken tussen drie verschillende productgroepen (A, B en C), kun je de productgroepen omzetten in dummy-variabelen (bijv. A = 1, B = 0, C = 0 voor de eerste groep).
  • Clusteranalyse: Ja, bij categorische data die als input voor het clustering-algoritme moet worden gebruikt.
    Voorbeeld:Je hebt gegevens over klanten, waaronder hun geslacht (man/vrouw) en voorkeur voor bepaalde producttypes. Deze variabelen zouden je moeten omzetten naar dummy-variabelen voordat je ze in een clustering-algoritme stopt.
  • SEM: Ja, als je categorische latente variabelen hebt.
  • Netwerkanalyse: Nee, dummy-codering wordt niet vaak toegepast.
    Voorbeeld: In een SEM-model kun je het effect van geslacht (man/vrouw) op verschillende uitkomsten onderzoeken door geslacht te coderen als een dummy-variabele.

Niet bij factor- en netwerkanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly