concepten Flashcards
Why is data analytics relevant for managers?
It creates business value which creates more money or cost reduction.
What value can be created from data analytics (multiple ways)?
- Marketing: churn prediction (faster + better decision making)
- Bank and finance: fraud detection
- Health: diabetes control (faster + better decision making)
- HR: CV klassificatie (cost reduction)
- Airbnb (creation of new products and services)
- …
In general: cost reduction, creation of new products and services, faster + better decision making
What is so new about data and analytics?
Er is meer data beschikbaar dan vroeger. Computers zijn goedkoper dan vandaag. Dus het is goedkoper om data nu te analyseren. Veel meer methodes zijn beschikbaar zoals support vector machines en neurale netwerken. Deze methodes zijn niet nieuw, maar vergen meer rekenkracht dan een lineaire regressie. Die rekenkracht was er vroeger niet, maar nu wel. Ook gemakkelijker om kennis van machine learning toe te passen dan kennis van statistiek.
What is meant with it’s here to stay and there is no escape?
Technologische kant:
Er is veel meer data beschikbaar dan vroeger, hardware kost is laag, nieuwe machine learning methodes.
Business kant:
Met data analytics kan je incrementeel verbeteren om bv een paar percent te besparen.
Met data analytics kan je ook aan radicale innovatie doen. Kijk maar naar google en amazon. Hun doel is niet om een paar percent te besparen maar om alles op de markt te pakken wat kan. Zo is het heel moeilijk om als bedrijf in competitie te zijn met google en amazon.
Met data analytics kan je ook aan disruptive technology doen.
What is meant with the ‘4th industrial revolution’?
Netwerken, internet of things, cyber physical systems, big data
What is meant by ‘creative destruction’?
Dat door nieuwe creaties, nieuwe technologie, een bepaalde markt zo verstoord kan worden dat heel wat mensen hun jobs verliezen. Dat de mensen die hun jobs verliezen, hun skills niet kunnen gebruiken in de nieuwe creatie/technologie. Ook dat organisaties grote verliezen lijden. Creative destruction kan een ernstige economische impact hebben.
What is disruptive technology?
Een nieuwe technologie die een grote impact heeft op mensen, bedrijven…de hele industrie waar die technologie in speelt.
What is the danger of disruptive technology (from the perspective of society/from the perspective of a company)?
Het gevaar is dat dit een grote economische impact heeft. Het heeft een impact op werknemers en op bedrijven. Mensen verliezen hun jobs en bedrijven maken verliezen.
What is the opportunity of disruptive technology (from the perspective of society/from the perspective of a company)?
Nieuwe producte,/services creeren ook nieuwe jobs. De regels van die bepaalde markt kunnen zodaning veranderd worden dat er zo veel meer en beter mogelijk is.
What are the characteristics of disruptive technology?
- Radikaal nieuw product, service, business model (bv. Uber)
- Die de markt op zijn kop zet en de regels verandert
- Kleine bedrijfjes die ineens tegen grote bedrijven vechten en nog winnen ook
- De regels worden zodoende herschreven dat alles terug mogelijk is.
What is meant by the data analytical cycle?
Je begint bij een business case waarbij uiteindelijk een oplossing wordt gevonden. Hiertussen liggen verschillende stappen. Maar uit je oplossing nieuwe inzichten krijgen en kan je een nieuwe business case maken en zo de cyclus weer opnieuw uitvoeren.
What are the typical steps of the data analytical cycle, what do we mean with these steps, and what are typical activities within these steps?
- Business case -> moet omgezet worden naar een data case (wat is je probleem?)
- Data collection -> data verzamelen
- Data preparation-> data opkuisen, voorbereiden, structureren, opslaan
- Data exploration -> exploreren van data, wat zit in mijn data, moet ik onderscheid maken tussen man en vrouw?…
- Modeling -> obv algoritmes zoals association rule mining, classificatie, regressiee…
- Interpretation -> resultaten van modellen interpreteren. Zijn er patronen te zien? Moet ik het valideren? Kan ik iets doen met dat patroon?
Why do managers need to have a basic understanding of data analytics?
Die cyclus kan enkel draaien als de managers mee zijn met data analytics. Aangezien het allemaal draait om geld. We moeten mee zijn met dit dataverhaal, anders gaat iemand anders ermee lopen. Denk maar aan disruptive technology.
What is data analytics?
Je zoekt naar verbanden en wat je kan doen me die verbanden + Zoeken naar non-obvious patronen.
What is statistics?
Testen van een hypothese. Een hypothese bekrachtigen met data. Resultaten worden geevalueerd door een signifantiewaarde. Hoog: kans dat patroon toevallig is, is laag. Laag: kans dat patroon toevallig is, is hoog.
What is the difference between statistics and machine learning?
In statistiek ga je zelf een model opstellen dat je controleert /bevestigt via data.
In statistiek ga je kijken naar de distributie van je data en bereken je een significatiewaarde om te bepalen of je model toeval is of niet. (om te kijken of er fouten gemaakt zijn)=> impliciete validatie
In machine learning gaat de computer een model afleiden op basis van de data.
Bij machine learning gaan we de voorspelde data vergelijken met de echte data (labeled cases). Machine learning gaat de fouten tellen=> expliciete validatie
What are the advantages and disadvantages of statistics and machine learning?
Voordelen:
- Kwantificatie van de effecten ( slope en intercept)
- Impliciete validatie door significantie
Nadelen:
- Start van een vooropgesteld model
- Gaat ervanuit dat data normaal verdeeld is. Als niet normaal verdeeld, dan kan je geen correcte estimatie van significantiewaarde maken
- Keuze van significantieniveau is niet altijd gemakkelijk
What is significance?
Wat is de kans dat mijn model toeval is, berekend op basis van de distributie van u data. Data moet normaal verdeeld zijn. Als data niet normaal verdeeld is, gaat significantie verkeerd berekend worden.
Als je heel veel variabelen hebt, is het moeilijk om te weten welke variabelen belangrijk zijn (dit probleem heb je niet bij machine learning.)
Lage significantie: de kans dat je patroon uit toeval komt is groot. Het resultaat is dus niet echt te vertrouwen.
Hoge significantie: de kans dat je patroon uit toeval komt is klein. Het resultaat is te vertrouwen.
What information do we use to calculate significance?
Distribution of data
What are the essential points of machine learning?
- Leid model af van data (geen vooropgesteld model nodig, gaan zoeken naar patronen in data)
- Expliciete validatie door errors te tellen ( op basis van gelabelde cases en predicted outcomes) -> distributiekarakteristieken van data niet belangrijk
- Oppassen voor overfitting. Het model moet generaliseerbaar genoeg zijn.
What is a model?
Een combinatie van wiskundige formuleren die mijn input transformeren in een output. Bv. een decision tree.
What is meant by training a model?
Dat is het afleiden van een model op basis van gelabelde data.
What is meant by deploying a model?
Wanneer je je model hebt en nieuwe data geeft aan het model (ongelabelede cases), maar dankzij het model gaat het mijn cases klasseren.
How do you validate a model?
Wanneer je de werkelijke waardes gaat vergelijken met de voorspelling en zo gaat kijken hoeveel keer je fout hebt geklasseerd. Die fouten zijn in te delen in 2 soorten: precision en recall
What is a confusion matrix, how do you interpret it, what can you learn from it?
In een confusion matrix worden de voorspelde resultaten en werkelijke resultaten samengevat onder false positives, true positives, false negatives en true negatives. Op basis van deze confusion matrix kan je precision en recall berekenen.
What is meant by the trade off between precision and recall?
Met trade off bedoelen ze dat als je een hoge precisie zoekt, je een lage recall gaat hebben en omgekeerd. Daarom is het belangrijk om te weten welk van de twee metrics belangrijk zijn voor jouw business case. Alhoewel als ze allebei belangrijk zijn, heb je ook de f1-score.
What is the precision and recall if the model always says yes in a binary classification model?
Recall zal 100 zijn aangezien je alle gevallen gevangen hebt die 1 zijn. Maar precisie gaat lager zijn aangezien je ook degene die 0 in het echt zijn, geclassificeerd hebt als 1. De score voor precisie hangt af wat de ratio tussen 0 en 1 in het echt is.
What is the precision and recall if the model always says no in a binary classification model?
Recall zal 0 zijn, aangezien je geen 1 positieve hebt juist kunnen classificeren. Prcisie gaat oneindig groot zijn aangezien je niet kan delen door nul.
What is overfitting?
Overfitting is wanneer je model zo goed past op je training datan dat dat model niet goed generaliseert naar andere data. Je zal dan ook merken dat precisie, recall en accuracy dalen.
How do you detect/check for overfitting?
Je gaat de gelabelde vallen opsplitsen in 2 sets. 1 set gebruik je om je model te trainen en de andere set gebruik je om je model te valideren. Dat resultaat zou min of meer hetzelfde zal moeten zijn anders ben je aan het overfitten.
What is meant by training set and test set?
Dat je je dataset split in een training en testset en je model maakt op basis van de trainingset. Pas als je klaar bent, zet je er ook de testset op om te weten hoe generaliseerbaar je model is.
What can you do in case of overfitting?
- Grotere trainingsset maken in de hoop dat die meer representatief is.
- Nieuwe, maar representatieve dataset (moet niet groter zijn)
- Gebruik andere data (andere features) of andere preprocessing.
- Gebruik andere technieken. Bv. Gebruik een decision tree, en een neuraal netwerk
- Geef op, er is geen patroon in de data.