Topic 2 - deel 1 Flashcards
Redenen waarom machine learning technieken zich onderscheiden van andere AI-technieken.
Performantie van het model verbetert naargelang het model meer taken oplost
- op volgende taken kan het model betere beslissingen maken
- als het model meermaals voor dezelfde taak een beslissing neemt wordt het resultaat in de meeste gevallen steeds meer betrouwbaar.
Voorbeelden van machine learning
Spamfilters
Op basis van het gelijktijdig voorkomen van bepaalde kernwoorden (en nog meer) wordt ingeschat of een bepaalde mail spam is of niet.
Supermarkten
Op basis van clusteranalyse gepersonaliseerde reclamefolders opsturen
Winkelinrichting organiseren op basis van verkoopgegevens. Producten die het vaakst samen gekocht worden zo veel mogelijk verspreiden in de winkel zodat klanten de volledige winkel doorzoeken.
• Verhoogt de kans dat andere producten aangekocht worden.
Taken binnen machine learning
o Predictie
We bekijken data waar we de uitkomst van kennen, we spreken van gelabelde data. We proberen dan voor nieuwe data een predictie te doen, en dus de data relateren aan 1 van de gekende labels.
o Clustering
Bij clustering gaan we verschillende instanties in een dataverzameling in groepen indelen.
Bv om doelgroepen te vinden in salesgegevens.
o Association rule mining
Wordt gebruikt om patronen in data te herkennen, wordt vaak gebruikt voor marketingdoeleinden.
Bv. mensen die chips kopen kopen ook cola.
o Anomaly detection
- Detecteren van fraude
- Verdachte transacties in bankverrichtingen herkennen
Leg uit: supervised learning
- Wat is het doel?
- Hoe zit de algemene structuur eruit?
Doel: Op basis van voorgaande gegevens een model maken dat in staat is om voor een nieuwe rij data waar het target nog niet voor gekend is, een behoorlijk waarde voor dat target te voorspellen.
Algemene structuur:
Men kan de gegevens als het ware voorstellen in een Excel-blad
- De kolommen zijn kenmerken/features
- De rijen zijn instanties data/voorbeelden
- Een kolom: target/doel = uitkomst of resultaat dat moet voorspeld worden.
Taken binnen supervised learning
Classificatie:
o Binaire classificatie: er zijn slechts twee mogelijke uitkomsten.
Vb. het herkennen van een kat of een hond op een foto.
o Multi-class classificatiesystemen: Vb. herkennen van voertuigen: Meerdere mogelijke uitkomsten
Regressie:
o Uitkomst meestal een getal.
Vb. Voorspellen van verkoopsprijzen van huizen.
Time to event prediction:
o Hier wordt een tijdstip voorspeld waarop een gebeurtenis mogelijk kan voorkomen.
Bv. wanneer is er onderhoud nodig aan een machine.
Link predictie
o Voorspellen of er een link is tussen twee (of meerdere) entiteiten in een netwerk.
Bv. sociale media, zoals Facebook, waar met probeert te voorspellen wat interessante ‘vriendschappen’ kunnen zijn.
Multi-outputprediction
o Dit combineert de vorige 5 types problemen
Het zal dus de kunst zijn om voor een bepaald problem, om dat ‘goed’ op te lossen,
om daar het meest geschikte model voor te kiezen. Helaas is die keuze niet voor de
hand liggend.
Twee criteria die een belangrijke rol spelen bij deze keuze zijn:
Interpreteerbaarheid
- De mate waarin door mensen kan verklaard worden hoe een model tot een beslissing komt
No free lunch
- Geen model dat best werkt voor elk mogelijk probleem.
- Soms geeft een neuraal netwerk het beste resultaat, soms een beslissingsboom.
- Meerdere modellen worden vaak gecombineerd