Week 2 - Multiple Linear Regression Flashcards
Wat is Explanatory Modeling?
Het verklaren van de relatie tussen voorspellingsvariabelen en een doelvariabele.
Wat is “goodness-of-fit”?
Een statistische test om te bepalen of een steekproef past bij het verwachte beeld van de populatie.
Bij ML controle of het model bij de trainingsdata past of dat het meer/beter getraind moet worden.
Wat zijn Error Metrics?
Getallen die een beeld geven van de voorspellende nauwkeurigheid van een model o.b.v. het verschil tussen de voorspelde en daadwerkelijke waarden.
Benoem enkele van de Error Metrics
Error (Residual)
Mean Error (ME)
Root-Mean-Squared-Error (RMSE)
Mean Absolute Error (MAE)
Mean Percentage Error (MPA)
Mean Absolute Percentage Error (MAPE)
Wat is de Root-Mean-Squared-Error?
De wortel van het gemiddelde van het kwadraat van de som van de errors.
Wat is Overfitting?
Wanneer een model zo erg op specifieke data is gefit, dat het die data perfect kan ‘voorspellen’. Nieuwe data kan het niet (accuraat) voorspellen.
Wat zijn mogelijke oorzaken van Overfitting?
- Te veel trainen op dezelfde data
- Te veel predictoren
Wat is Underfitting?
Een model niet genoeg trainen waardoor voorspellingen inaccuraat zijn (kan met trainingsdata worden vastgesteld)
Wat zijn mogelijke oorzaken van Underfitting?
- Te weinig trainingsdata
- Te weinig getraind
Wat zijn de 2 doelen van het fitten van een regressiemodel?
- Het voorspellen van waarden voor nieuwe data (voorspellende)
- Het verklaren (verklarende) of kwantificeren (beschrijvende) van het effect van invoer(en) op een uitkomst.
Wat is Descriptive modeling?
Model die de graden van associatie tussen invoeren en uitkomstvariabelen kwantificeert.
- Casuele structuur onbekend
Wat is Explanatory modeling?
Wat is het verschil tussen “goodness-of-fit” en “Predictive accuracy”?
Goodness-of-fit vertelt hoe goed een model bij data past.
Predictive accuracy vertelt hoe goed een model waarden bij nieuwe data kan voorspellen.
Waarom is het belangrijk om Error metrics van trainings- en validatiedata te vergelijken?
Het verschil toont of het model goed is getraind en goede voorspellingen maakt.
- Error ~0 bij training ==> Overfit model
- Grote verschillen training & validatie ==> incorrect getraind
Wat zijn Cumulative Gains charts?