Week 2 - Multiple Linear Regression Flashcards

1
Q

Wat is Explanatory Modeling?

A

Het verklaren van de relatie tussen voorspellingsvariabelen en een doelvariabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat is “goodness-of-fit”?

A

Een statistische test om te bepalen of een steekproef past bij het verwachte beeld van de populatie.

Bij ML controle of het model bij de trainingsdata past of dat het meer/beter getraind moet worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat zijn Error Metrics?

A

Getallen die een beeld geven van de voorspellende nauwkeurigheid van een model o.b.v. het verschil tussen de voorspelde en daadwerkelijke waarden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Benoem enkele van de Error Metrics

A

Error (Residual)
Mean Error (ME)
Root-Mean-Squared-Error (RMSE)
Mean Absolute Error (MAE)
Mean Percentage Error (MPA)
Mean Absolute Percentage Error (MAPE)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat is de Root-Mean-Squared-Error?

A

De wortel van het gemiddelde van het kwadraat van de som van de errors.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat is Overfitting?

A

Wanneer een model zo erg op specifieke data is gefit, dat het die data perfect kan ‘voorspellen’. Nieuwe data kan het niet (accuraat) voorspellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat zijn mogelijke oorzaken van Overfitting?

A
  • Te veel trainen op dezelfde data
  • Te veel predictoren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat is Underfitting?

A

Een model niet genoeg trainen waardoor voorspellingen inaccuraat zijn (kan met trainingsdata worden vastgesteld)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat zijn mogelijke oorzaken van Underfitting?

A
  • Te weinig trainingsdata
  • Te weinig getraind
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat zijn de 2 doelen van het fitten van een regressiemodel?

A
  1. Het voorspellen van waarden voor nieuwe data (voorspellende)
  2. Het verklaren (verklarende) of kwantificeren (beschrijvende) van het effect van invoer(en) op een uitkomst.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat is Descriptive modeling?

A

Model die de graden van associatie tussen invoeren en uitkomstvariabelen kwantificeert.
- Casuele structuur onbekend

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is Explanatory modeling?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is het verschil tussen “goodness-of-fit” en “Predictive accuracy”?

A

Goodness-of-fit vertelt hoe goed een model bij data past.
Predictive accuracy vertelt hoe goed een model waarden bij nieuwe data kan voorspellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Waarom is het belangrijk om Error metrics van trainings- en validatiedata te vergelijken?

A

Het verschil toont of het model goed is getraind en goede voorspellingen maakt.
- Error ~0 bij training ==> Overfit model
- Grote verschillen training & validatie ==> incorrect getraind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat zijn Cumulative Gains charts?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat zijn Lift Charts?

A
17
Q

Waarvoor is R Squared?

A

R Squared is de proportie verklaarbare variabiliteit in het model.

Verschil in variantie tussen lijn van gemiddeldes en variantie van het model. Hoe minder variantie tussen voorspellingen en datapunten, des te beter je model is.

18
Q

Wat is het verschil tussen R^2 en R^2 adjusted?

A

R^2 adjusted houdt rekening met het aantal predictors. Meer predictors = lagere R^2 adj.

19
Q

Wat zijn de AIC en BIC (niet alleen de volledige benaming!)?

A

AIC = Akaike Information Criterion
BIC = Schwartz’s Bayesian Information Criterion

Meten de “Goodness-of-fit”, maar penaliseren het aantal parameters.

20
Q

Waarvoor worden de AIC en BIC gebruikt?

A

Het vergelijken van verschillende modellen met dezelfde data set.

21
Q

Hoe weet je van de AIC en BIC of een model goed is?

A

Lagere AIC en BIC = beter model