Week 3 - Machine Learning Flashcards
Wat is machine learning volgens Arthur Samuel?
Dit is het in staat stellen van computers om ‘zelf’ te leren op basis van eerdere ervaringen, zonder daartoe expliciet geprogrammeerd te zijn.
Welke soorten machine learning kennen we?
- Supervised learning.
- Unsupervised learning.
- Semi-supervised learning.
- Reinforcement learning.
Wat is supervised learning?
Bij supervised learning leert de machine op basis van voorbeelden. Het bestaat uit input en output, waarbij de input gelabeld wordt met de gewenste waarde . Door middel van herkenning van overeenkomsten, verschillen en andere punten van logica volgt de juiste output. Denk aan verkeersanalyseapps, die de snelste route proberen uit te rekenen.
Voorbeeld: doel is onderscheiden honden en katten. Het gewenste resultaat is het identificeren van de katten. Vooraf wordt een foto van een kat geïdentificeerd als juiste antwoord.
Wat is unsupervised learning?
Modellen voor unsupervised learning hebben geen vooraf gegeven antwoordsleutel. Het bestudeert de input, en begint patronen en overeenkomsten te identificeren. Als je een groep foto’s hebt van honden en katten, dan zal het de foto’s groeperen in een groep met foto’s van honden en een groep met foto’s van katten.
Wat is semi-supervised learning?
Wanneer er sprake is van een enorme set ongestructureerde data, dan is semi-supervised learning een werkbare oplossing. Er wordt een kleine set gelabelde data ingevoerd. De machine zal vervolgens de gelabelde data analyseren op overeenkomsten die worden toegepast op de ongelabelde data.
Wat is reinforcement learning?
Bij deze vorm van machine learning is er geen antwoordsleutel (zoals bij supervised learning), maar worden een reeks toegestane acties, regels en potentiële eindstatussen ingevoerd. De computers kunnen vervolgens leren op basis van voorbeelden.
Wat zijn onafhankelijke variabelen?
Dit zijn kenmerken of feiten van de observatie die invloed hebben op hetgeen je probeert te meten/voorspellen, zoals leeftijd, geslacht of lengte.
Wat zijn afhankelijke variabelen?
Dit is de uitkomst die je probeert te voorspellen.
Wat is de gelabelde waarde?
Dit is de werkelijke uitkomst van hetgeen je geprobeerd hebt te voorspellen. De computer gebruikt dus de onafhankelijke variabelen (features) om de gelabelde waarde te voorspellen waarbij de error wordt geminimaliseerd.
Wat is het verschil tussen regressie en classificatie?
Bij regressie probeert de computer continue om een waarde te bepalen, zoals WOZ-waarde, inkomen, leeftijd.
Bij classificatie voorspelt of classificeert het algoritme de afzonderlijke waarden, zoals waar of onwaar, man of vrouw, spam of geen spam.
Tegen welke problemen kan een machine aanlopen bij het voorspellen van de gelabelde waarde?
- Wat als de features weinig voorspellend zijn?
- Wat als de data inaccuraat zijn?
- Wat als de best voorspellende variabelen worden gemist?
- Wat als de omstandigheden veranderen, zoals de stijgende vastgoedprijzen?
Wat is generaliation?
Dit is het toepassen van ‘het geleerde’ uit trainingsdata toepassen op nieuwe, nog niet eerder geobserveerde gevallen door een machine learning model.
Wat is machine learning volgens Tom Mitchell?
Een computerprogramma leert op basis van ervaring (E). Dit is de trainingsdata.
Vervolgens wordt de taak omschreven in een takenpakket (T). Dit wordt dus ingegeven door de programmeur.
Vervolgens wordt de prestatiemaatstaf (P) ingegeven. Op basis hiervan wordt beoordeeld of de voorspelling juist is en hoeveel die afwijkt.
Voorbeeld
Ervaring E: database met getaxeerde panden
Takenpakket T: voorspel (WOZ-)waarde
Prestatiemaatstaf P: verschil geschatte en werkelijke (WOZ)-waarde.
Noem drie kenmerken van een causaal verband.
- A gaat vooraf aan B;
- Er is een samenhang tussen A en B;
- De samenhang tussen A en B kan niet door iets anders worden verklaard.
Wat is het verschil bij prestatiemaatstaven bij regressie en classificatie?
Bij regressie is de prestatiemaatstaf de mate van error, dus hoe ver de voorspelde waarde af zat van de werkelijke waarde.
Bij classificatie is dit iets complexer, aangezien er enkel goed en fout is.