Data Science MODULE 3 Flashcards by Danie Le Roux

What does it mean when a statistical model has been overfit?

It mirrors the training data extremely well, but doesn’t perform well with unseen data

How well did you know this?

Not at all

Perfectly

Hoekom is overfitting so n groot probleem

So die doelwit van n data scientist is om responses te predict met n geleerde model. As j overfit, het dit n direkte negatiewe impak op jou vermoe om te predict

How well did you know this?

Not at all

Perfectly

In tree-based models, the algorithm is programmed to?(2)

reduce the impurity of partitions in a classification problem
reduce the mean squared error in regression problems

How well did you know this?

Not at all

Perfectly

When fitting data we need to find the balance between?

Bias and variance

How well did you know this?

Not at all

Perfectly

What is variance?

It indicates an error related to how robust the model is when unseen data is used

How well did you know this?

Not at all

Perfectly

What does it mean when a model has high variance?

Performs well on training data, but not the test set - i.e the model is overfitted

How well did you know this?

Not at all

Perfectly

The ideal model in terms of variance and bias

Low variance and low bias

How well did you know this?

Not at all

Perfectly

Models with a high bias, tends to be?

Too simple, they don’t capture the shape of the data

How well did you know this?

Not at all

Perfectly

Kan jy die variance en bias meet?

Nope, omdat ons nie weet hoe die onderliggende data werklik lyk nie

How well did you know this?

Not at all

Perfectly

Wat is n validation error?

Soos ek verstaan, train jy die model. Maar jy hou ook test data eenkant. As hy klaar is, toets jy dit met die unseen data en bepaal dan die fout. Hierdie staan bekend as die validation set approach

How well did you know this?

Not at all

Perfectly

As die validation error hoog is, maar die training error is small?

You have done it, you have overfitted the data

How well did you know this?

Not at all

Perfectly

So daar is eintlik drie stelle data waarmee ons train

Initial training data, validation data en dan test data

How well did you know this?

Not at all

Perfectly

So met fitting, hoe word die validation data actually gebruik?

Ons probeer die beste waardenkry vir die hyperparameter (denoted as alpha)

How well did you know this?

Not at all

Perfectly

Different hyperparameters are assessed to determine the one that results in?

The lowest validation error

How well did you know this?

Not at all

Perfectly

So wanneer sal ons dan nou die test data begin gebruik?

Wanneer die validation error geminimise is, deur die hyperparameter aanpassings

How well did you know this?

Not at all

Perfectly

Two of the most common types of validation used?

Study These Flashcards

K-fold cross validation
Standard

Hoe lyk die data split vir standard validation

Study These Flashcards

70% op die training, 20% op die validation, 10% op die test set

Oorhoofs, hoe werk k-fold cross validation

Study These Flashcards

Aanvanklik word data net gesplit in training data en n test set. Die training data word dan verdeel in k hoeveelheid “folds”. Een word gebruik vir die validasie. Die data word randomly assign aan elke fold, so die oorhoofse verspreiding behoort redelik eweredig te wees

So as jy five folds het, hoe werk die training?

Study These Flashcards

Elke fold kry n kans om die validation set te wees. As die data klaar gebruik was vir die validasie, word dit weer gebruik vir training. So die model word vyfkeer getrain. Die final validation error is dan die gemiddeld van die 5 errors.

2 Voordele kan k-fold validation?

Study These Flashcards

Jy kry n beter idee van die final error
Gee jou n beter idee van die variasie in die validation error

So we do we manage complexity with tree-based models?

Study These Flashcards

Via pruning and validation sets

Wat is die hoof doel van cost complexity pruning?

Study These Flashcards

To reduce overfitting by penalising large trees

How does the penalising work with cost complexity pruning

Study These Flashcards

So n penalty term word ingesluit. Hierdie penalty term sluit in die hyperparameter, sowel as |T|, wat die aantal nodes is op die terminale vlak

Oorhoofs, wat is die drie stappe wat gevolg word om n decision tree te prune?

Study These Flashcards

Generate die groot boom
K-fold cross validation to find the optimum hyperparameter
Apply cost complexity pruning to the large tree with the optimum alpha value

As the hyper parameter is increased?

Branches are pruned from the tree

So die tree wat oorbly na pruning, staan bekend as die

Subtree, en dit is afhanklik van die alpha waarde

For a given alpha,

The subtree is found that minimises the penalised cost function

So hoe vind ons nou die beste alpha waarde?

Deur k-fold validation te gebruik, per alpha waarde, en kyk waar ons die laagste gemiddelde error kry

Met k-fold validation, hoe lyk die modelle wat ontwikkel word met elke stap?

Verskillend, omdat ons elke keer n ander subset van die data gebruik

So as ons nou klaar die k-fold validation gedoen het om die optimum alpha te bepaal, hoe kry mens die finale decision tree?

Deur die hele training set te retrain met die optimum alpha

Kan j cost-complexity pruning doen in Python

Nee, so dis bietjie pointless eintlik. In python kan ons pre-pruning doen, of early stopping om kleiner bome te kry

Jy kry ook pruning by depth (deur in python die max_depth parameter te verander met scikit-learn)

Jip, die akkuraatheid word brpaal as n funksie van diepte, die diepte met die hoogste score tydens validasie word gespesifiseer as die maksimum diepte in die finale model

Wat is van die ander pre-pruning methods?

Minimum samples per node, maximum number of terminal nodes, minimum purity increase, minimum samples per split

The resubstitution validation technique

Niks snaaks. Basies, die fout, of die error wat bereken is vir daardie datastel

Wat is hold-out validation

Gebruik stratification, so n seker gedeelte van die data word uitgehou vir validasie doeleindes (soos dit is die standard validation wat vroeer bespreek is)

Met k-folds validation, hoeveel folds wors gebruik vir training?

K-1, die laaste een is dan die toets data. Proses word dan herhaal

Wat is LOOCV

Leave one out cross validation Basies k-folds op steriods, ipv n fold gebruik, word daar n iterasie gedoen vir elke record

Wat is random subsampling validation technique?

Soortgelyk aan k-folds en LOOCV, in hierdie geval doen jy net n aantal iterasies, maar training set is random data test set os wat oorbly

Bootstrapping validation technique?

Bietjie chaos, basies dieselfde as random subsampling, maar daar kan ook herhalings wees van sekere rekords

Data Science MODULE 3 Flashcards

(39 cards)