Week 1 - Introductie Flashcards
Wat is Supervised Learning?
Vorm van Machine Learning waarbij een specifieke uitkomst of waarde wordt voorspeld.
- Training data met bekende uitkomsten
- Classification, Regression/Prediction
Wat is Unsupervised Learning?
Vorm van Machine Learning waarbij patronen worden herkent in data.
- Geen ‘target outcome variable’ om te voorspellen.
- Association rules, collaborative filters
- Data reduction & exploration, visualisation
Wat zijn de stappen in het proces van Data Mining?
- Begrijp het doel
- Data verzamelen
- Data exploration, cleaning & preprocessing
- Data reduction / partitioning
- Taak specificeren
- Kies techniek
- Iteratieve implementatie en ‘tuning’
- Beoordeel resultaten & vergelijk modellen
- Beste model inzetten
Welke vormen van Supervised Learning zijn er?
- Classification
- Regression / Prediction
Welke vormen van Unsupervised Learning zijn er?
- Association rules
- Collaborative filtering
- Clustering
Wat is Overfitting?
Wanneer een model té ‘gepast’ is op specifieke (trainings)data. Het heeft de karakteristieken van de trainingsdata geleerd i.p.v. de structuur of de logica die het volgt.
- Antwoorden oefentoets uit je hoofd leren, waardoor je de echte toets niet goed kan maken.
Wat houdt het partitioneren van data in?
Het verdelen van data in niet-overlappende delen, zodat alles gebruikt wordt.
- Data ==> trainingset, validationset, testset
Wat houdt Classification in?
Het voorspellen van een categorie voor onbekende data.
- Vaak binaire (ja/nee)
- Fraud/No fraud
- Aankoop/geen aankoop
Wat houdt Regression in?
Het voorspellen van nummerische waarden.
- Vormt samen met Classification “Voorspellende analytics”
- Verkopen, winst, prestaties
Wat houden Association Rules in?
Vormen regels die definiëren: “wat gaat met wat?”
- Aanbevelingssystemen (shoppen)
- Als eieren gekocht, dan ook melk (voor cake)
- Algemeen, los van individu
Wat houdt Collaborative Filtering in?
- Aanbevelingssystemen (Netflix)
- Als jij God of War leuk vindt, zal jij God of War 2 ook leuk vinden (gebaseerd op jouw gelijkenis aan Personen A & B die GoW 1 én 2 leuk vonden)
- Individueel / persoonlijk niveau
Wat is SEMMA?
SEMMA is een methode:
Sample
Explore
Modify
Model
Assess
Wat zijn de 7C’s?
(LOS VAN ML)
Handleiding van het Data Lectoraat van Zuyd over hoe je een programma goed kan coderen.
Wat houdt Clustering in?
Het vormen van groepen van soortgelijke records.
Wat is het verschil tussen normalisatie en standaardisatie?
Normalisatie brengt alle waarden naar 0 tot 1.
STANDAARDisatie deelt de deviaties door de STANDAARDdeviatie.