Machine learning (8.1) Flashcards
Een procesmodel voor Data Science
CRISP DM
(Cross Industry Standard Process for Data Mining)
Wat houdt Data preparation in?
- Afhankelijke en onafhankelijke variabelen herkennen
- Niet-numerieke waarden afhandelen
- De train- en testset maken
Wat houdt Data modeling in?
- Soorten Machine Learning herkennen.
- Soorten supervised Machine Learning herkennen.
- Regressiemodellen maken.
Wat houdt Data Evaluation in?
Uitkomsten van regressiemodellen evalueren
Wat is One-hot encoding?
Per mogelijke waarde van een niet-numerieke kolom ontstaat een extra wel-numerieke kolom.
Bijv: False & True refereren automatisch aan 0 en 1.
Let op: naam niet coderen, want die verschilt per rij (dus geen correlatie).
Hoe werkt Traditionele AI?
Het gebruikt regels per scenario
Wat houdt Machine Learning in?
Door een model te trainen die zelf regels achterhaald
Welke soorten machine learning zijn er?
- Supervised learning
- Unsupervised learning
Waar bestaan supervised learning algorithms uit en wat is het?
- Regression
- Classifiaction
Voorspellingen worden gecontroleerd. De dataset heeft de antwoorden (de dataset is gelabeld.)
Waar bestaan unsupervised learning algorithms uit en wat is het?
- Clustering
- Association
Het gaat zelf opzoek naar naar data.
Wat doe je bij Sum of Squared Errors (SSE)?
- Kwadrateer elke errorgrootte
- Tel alle kwadraten bij elkaar op.
Wat doe je bij Mean Squared Error (MSE)?
- Kwadrateer elke errorgrootte
- Bereken het gemiddelde van alle kwadraten
Wat doe je bij Mean Absolute Error (MAE)?
- Verander elke min-errorgrootte in een plus-errorgrootte (-1 -> 1, -3 -> 3, enzovoort).
- Bereken het gemiddelde van alle errorgroottes.
wat zijn afhankelijke variabele?
De waarde die je wil voorspellen
wat zijn onafhankelijke variabele?
De waarde die je al hebt
Wat is een waarde die continu is?
Het is een getal met tussen waardes.
Wat is een categorische waarde?
categorische (of discreet) data bevatten geen getallen.