Topic 2 - deel 2 Flashcards
ML: Lazy learning K-nearest neighbours:
Hier proberen we voor een nieuwe datapunt beslissen tot welke klasse het behoort. Een veelgebruikte techniek is om te kijken hoe ver het nieuwe punt ligt van de andere datapunten. Hiervoor moeten we de juiste afstandsmaat kiezen (bv. De euclidische afstand)
K = met hoeveel punten er vergeleken wordt, elk k waarde levert een andere resultat op.
ML: Regression linear
Hier wordt er gepoogd om een rechte te vinden die de datapunten het best benaderen.
De formule hiervoor is y = b0 + b1.x en we moeten in de formule op zoek naar b0 en b1.
Voor een nieuwe datapunt wordt de formule dan eenvoudig uitgerekend.
ML: Regression logistic
Hier gaan we niet opzoek naar een rechte maar naar een kromme die een s vorm aanneemt.
Voor de meeste punten op de x-as is duidelijk wat de uiteindelijke klasse is (y=0 of y=1), behalve in een heel klein gebied (ongeveer in het midden).
Regression logistic kan ook gebruikt worden voor binaire classificatie.
ML: Beslissingsbomen
Om een beslissingsboom op te stellen is er data nodig.
In een tabel worden de criteria of kenmerken die die beslissing beïnvloeden aangegeven in de kolommen.
Per niveau moet er beslist worden op welke kenmerk er moet gesplitst worden, niet alle kenmerken zijn relevant.
De laatste kolom is de target kolom en de onderste knopen in de beslissingsboom bevatten die verschillende targetwaarden.
Beslissingsbomen: Van oudsher een zeer populair model binnen het domein van datamining
Ook binnen geneeskunde vanwege de hoge interpreteerbaarheid
ML: How to learn?
Trainingsfase: Het uitvoeren van algoritmen op data met gekende output met als resultaat het predictief model.
- We hebben een verzameling data, van deze datapunten gaan we een aantal kenmerken identificeren. Soms makkelijk, soms minder vanzelfsprekend.
- Vervolgens gaan we aan elke datapunt een label koppelen. Categorie in het geval van classificatie of verkoopprijs bij regressie.
- Vervolgens is het de taak van de machine learning algoritme om een predictief model op te stellen. De keuze van het algoritme bepaalt de aard van het probleem.
Interferentiefase.
Dit predictief model kan dan gebruikt worde om voor nieuwe datapunten te voorspellen welke label er met dit datapunt moet geassocieerd worden.
Overfitting:
Als je een model traint op een dataset wil je dat het model zo veel mogelijk de correcte antwoorden geeft waardoor je niveaus en criteria blijft toevoegen.
Door het model te specifiek te trainen zal de accuraatheid van voorspellingen op nieuwe data afnemen, omdat je te veel toevalligheden die in de data aanwezig zijn opneemt in je model.
Hoe overfitting tegengaan?
Als je een model traint, moet je er altijd voor zorgen dat er geen te grote kloof komt tussen de accuraatheid op de training-data en de accuraatheid op ‘ongeziene’ data.
1 Stop met het toevoegen van knooppunten aan de boom wanneer overfitting optreedt.
o Stopcriterium nodig
2 Maak je geen zorgen over overfitting bij het kweken van de boom.
o Nadat de boom is gebouwd, begin je hem opnieuw te snoeien.
Ongeziene data:
Verzameling initiële data wordt in de twee delen opgesplitst.
Een deel training data (vaak 80%) en een deel test data (bv. overige 20%).
De test data speelt de rol van de ongeziene data.
Wat is deeplearning en hoe verschilt het ten opzichte van machine learning.
= Gebaseerd op artificiële neurale netwerken en geïnspireerd door de werking van ons brein.
DL is zeer goed in het uitvoeren van ‘zeer menselijke taken’ zoals herkennen van tekst en het opstellen van teksten, objecten herkennen.
Belangrijk stap in de ML workflow is het selecteren en ontwerpen van features. Bij deep learning is deze stap niet relevant, DL gaat zelf op zoek in de data naar relevante features.
Belangrijke momenten binnen het domein van deep learning.
- Perceptron (bouwsteun DL en artificiele neurale netwerken)
- belangrijk algoritme om een DL-netwerk of model te trainen, is backpropagation
- De eerste netwerken om handschrift te herkennen werden ontworpen in de jaren 90
- 2012: AlextNET, een neuraal netwerk om foto’s te analyseren wint ImageNET, en veegt traditionele technieken uit de computervisie van de kaart
Biologie van een neuron.
Neuronen in ons brein zijn aan elkaar gekoppeld via zenuwbanen.
De dikte van die zenuwbaan bepaalt de mate waarin een volgend neuron een signaal krijgt
- Een dik kanaal versterkt het signaal als het ware
- Een dun kanaal zorgt voor een demping.
Op die manier kunnen signalen gericht gestuurd worden naar bepaalde delen van het brein, waar uiteindelijk een beslissing zal genomen worden.
Wat zijn neural networks?
Waarop zijn ze gebaseerd en wat is het verschil met toen?
Neurale netwerken zijn netwerken van neuronen die met zenuwbanen aan elkaar gelinkt zijn.
- De dikte van de zenuwbanen zullen moeten beslissen welke inputsignalen er via de hidden units naar de output units gestuurd worden.
Elke output unit stelt bijvoorbeeld een type object voor
Ze zijn volledig gebaseerd op artificiële neurale netwerken, die in de jaren 50 al hun intrede deden
Het verschil zit in de:
- diepte van het netwerk,
- dit is het aantal tussenlagen dat verwerkt kan worden
Door de steeds krachtigere GPU’s om de gamingwereld te ondersteunen
is er plots de rekenkracht ter beschikking om heel diepe en complexe netwerken de ontwerpen en te trainen.