concepten Flashcards

1
Q

Why is data analytics relevant for managers?

A

It creates business value which creates more money or cost reduction.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

What value can be created from data analytics (multiple ways)?

A
  • Marketing: churn prediction (faster + better decision making)
  • Bank and finance: fraud detection
  • Health: diabetes control (faster + better decision making)
  • HR: CV klassificatie (cost reduction)
  • Airbnb (creation of new products and services)

  •  In general: cost reduction, creation of new products and services, faster + better decision making
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

What is so new about data and analytics?

A

Er is meer data beschikbaar dan vroeger. Computers zijn goedkoper dan vandaag. Dus het is goedkoper om data nu te analyseren. Veel meer methodes zijn beschikbaar zoals support vector machines en neurale netwerken. Deze methodes zijn niet nieuw, maar vergen meer rekenkracht dan een lineaire regressie. Die rekenkracht was er vroeger niet, maar nu wel. Ook gemakkelijker om kennis van machine learning toe te passen dan kennis van statistiek.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

What is meant with it’s here to stay and there is no escape?

A

Technologische kant:
Er is veel meer data beschikbaar dan vroeger, hardware kost is laag, nieuwe machine learning methodes.

Business kant:
Met data analytics kan je incrementeel verbeteren om bv een paar percent te besparen.
Met data analytics kan je ook aan radicale innovatie doen. Kijk maar naar google en amazon. Hun doel is niet om een paar percent te besparen maar om alles op de markt te pakken wat kan. Zo is het heel moeilijk om als bedrijf in competitie te zijn met google en amazon.
Met data analytics kan je ook aan disruptive technology doen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

What is meant with the ‘4th industrial revolution’?

A

Netwerken, internet of things, cyber physical systems, big data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

What is meant by ‘creative destruction’?

A

Dat door nieuwe creaties, nieuwe technologie, een bepaalde markt zo verstoord kan worden dat heel wat mensen hun jobs verliezen. Dat de mensen die hun jobs verliezen, hun skills niet kunnen gebruiken in de nieuwe creatie/technologie. Ook dat organisaties grote verliezen lijden. Creative destruction kan een ernstige economische impact hebben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

What is disruptive technology?

A

Een nieuwe technologie die een grote impact heeft op mensen, bedrijven…de hele industrie waar die technologie in speelt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

What is the danger of disruptive technology (from the perspective of society/from the perspective of a company)?

A

Het gevaar is dat dit een grote economische impact heeft. Het heeft een impact op werknemers en op bedrijven. Mensen verliezen hun jobs en bedrijven maken verliezen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

What is the opportunity of disruptive technology (from the perspective of society/from the perspective of a company)?

A

Nieuwe producte,/services creeren ook nieuwe jobs. De regels van die bepaalde markt kunnen zodaning veranderd worden dat er zo veel meer en beter mogelijk is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

What are the characteristics of disruptive technology?

A
  • Radikaal nieuw product, service, business model (bv. Uber)
  • Die de markt op zijn kop zet en de regels verandert
  • Kleine bedrijfjes die ineens tegen grote bedrijven vechten en nog winnen ook
  • De regels worden zodoende herschreven dat alles terug mogelijk is.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

What is meant by the data analytical cycle?

A

Je begint bij een business case waarbij uiteindelijk een oplossing wordt gevonden. Hiertussen liggen verschillende stappen. Maar uit je oplossing nieuwe inzichten krijgen en kan je een nieuwe business case maken en zo de cyclus weer opnieuw uitvoeren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

What are the typical steps of the data analytical cycle, what do we mean with these steps, and what are typical activities within these steps?

A
  1. Business case -> moet omgezet worden naar een data case (wat is je probleem?)
  2. Data collection -> data verzamelen
  3. Data preparation-> data opkuisen, voorbereiden, structureren, opslaan
  4. Data exploration -> exploreren van data, wat zit in mijn data, moet ik onderscheid maken tussen man en vrouw?…
  5. Modeling -> obv algoritmes zoals association rule mining, classificatie, regressiee…
  6. Interpretation -> resultaten van modellen interpreteren. Zijn er patronen te zien? Moet ik het valideren? Kan ik iets doen met dat patroon?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Why do managers need to have a basic understanding of data analytics?

A

Die cyclus kan enkel draaien als de managers mee zijn met data analytics. Aangezien het allemaal draait om geld. We moeten mee zijn met dit dataverhaal, anders gaat iemand anders ermee lopen. Denk maar aan disruptive technology.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

What is data analytics?

A

Je zoekt naar verbanden en wat je kan doen me die verbanden + Zoeken naar non-obvious patronen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

What is statistics?

A

Testen van een hypothese. Een hypothese bekrachtigen met data. Resultaten worden geevalueerd door een signifantiewaarde. Hoog: kans dat patroon toevallig is, is laag. Laag: kans dat patroon toevallig is, is hoog.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

What is the difference between statistics and machine learning?

A

In statistiek ga je zelf een model opstellen dat je controleert /bevestigt via data.
In statistiek ga je kijken naar de distributie van je data en bereken je een significatiewaarde om te bepalen of je model toeval is of niet. (om te kijken of er fouten gemaakt zijn)=> impliciete validatie

In machine learning gaat de computer een model afleiden op basis van de data.
Bij machine learning gaan we de voorspelde data vergelijken met de echte data (labeled cases). Machine learning gaat de fouten tellen=> expliciete validatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

What are the advantages and disadvantages of statistics and machine learning?

A

Voordelen:
- Kwantificatie van de effecten ( slope en intercept)
- Impliciete validatie door significantie
Nadelen:
- Start van een vooropgesteld model
- Gaat ervanuit dat data normaal verdeeld is. Als niet normaal verdeeld, dan kan je geen correcte estimatie van significantiewaarde maken
- Keuze van significantieniveau is niet altijd gemakkelijk

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

What is significance?

A

Wat is de kans dat mijn model toeval is, berekend op basis van de distributie van u data. Data moet normaal verdeeld zijn. Als data niet normaal verdeeld is, gaat significantie verkeerd berekend worden.
Als je heel veel variabelen hebt, is het moeilijk om te weten welke variabelen belangrijk zijn (dit probleem heb je niet bij machine learning.)
Lage significantie: de kans dat je patroon uit toeval komt is groot. Het resultaat is dus niet echt te vertrouwen.
Hoge significantie: de kans dat je patroon uit toeval komt is klein. Het resultaat is te vertrouwen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

What information do we use to calculate significance?

A

Distribution of data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

What are the essential points of machine learning?

A
  • Leid model af van data (geen vooropgesteld model nodig, gaan zoeken naar patronen in data)
  • Expliciete validatie door errors te tellen ( op basis van gelabelde cases en predicted outcomes) -> distributiekarakteristieken van data niet belangrijk
  • Oppassen voor overfitting. Het model moet generaliseerbaar genoeg zijn.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

What is a model?

A

Een combinatie van wiskundige formuleren die mijn input transformeren in een output. Bv. een decision tree.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

What is meant by training a model?

A

Dat is het afleiden van een model op basis van gelabelde data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

What is meant by deploying a model?

A

Wanneer je je model hebt en nieuwe data geeft aan het model (ongelabelede cases), maar dankzij het model gaat het mijn cases klasseren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

How do you validate a model?

A

Wanneer je de werkelijke waardes gaat vergelijken met de voorspelling en zo gaat kijken hoeveel keer je fout hebt geklasseerd. Die fouten zijn in te delen in 2 soorten: precision en recall

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

What is a confusion matrix, how do you interpret it, what can you learn from it?

A

In een confusion matrix worden de voorspelde resultaten en werkelijke resultaten samengevat onder false positives, true positives, false negatives en true negatives. Op basis van deze confusion matrix kan je precision en recall berekenen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

What is meant by the trade off between precision and recall?

A

Met trade off bedoelen ze dat als je een hoge precisie zoekt, je een lage recall gaat hebben en omgekeerd. Daarom is het belangrijk om te weten welk van de twee metrics belangrijk zijn voor jouw business case. Alhoewel als ze allebei belangrijk zijn, heb je ook de f1-score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

What is the precision and recall if the model always says yes in a binary classification model?

A

Recall zal 100 zijn aangezien je alle gevallen gevangen hebt die 1 zijn. Maar precisie gaat lager zijn aangezien je ook degene die 0 in het echt zijn, geclassificeerd hebt als 1. De score voor precisie hangt af wat de ratio tussen 0 en 1 in het echt is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

What is the precision and recall if the model always says no in a binary classification model?

A

Recall zal 0 zijn, aangezien je geen 1 positieve hebt juist kunnen classificeren. Prcisie gaat oneindig groot zijn aangezien je niet kan delen door nul.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

What is overfitting?

A

Overfitting is wanneer je model zo goed past op je training datan dat dat model niet goed generaliseert naar andere data. Je zal dan ook merken dat precisie, recall en accuracy dalen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

How do you detect/check for overfitting?

A

Je gaat de gelabelde vallen opsplitsen in 2 sets. 1 set gebruik je om je model te trainen en de andere set gebruik je om je model te valideren. Dat resultaat zou min of meer hetzelfde zal moeten zijn anders ben je aan het overfitten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

What is meant by training set and test set?

A

Dat je je dataset split in een training en testset en je model maakt op basis van de trainingset. Pas als je klaar bent, zet je er ook de testset op om te weten hoe generaliseerbaar je model is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

What can you do in case of overfitting?

A
  1. Grotere trainingsset maken in de hoop dat die meer representatief is.
  2. Nieuwe, maar representatieve dataset (moet niet groter zijn)
  3. Gebruik andere data (andere features) of andere preprocessing.
  4. Gebruik andere technieken. Bv. Gebruik een decision tree, en een neuraal netwerk
  5. Geef op, er is geen patroon in de data.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

What is meant by the art of data analytics?

A

Een model trainen is gemakkelijk, maar de selectie van u modellen, data en parameters is cruciaal. En dat is meer kunst dan wetenschap. Dat komt meer door ervaring.

34
Q

Which issues are not solved by using machine learning?

A
  1. Trainingsdata moet representatief zijn

2. Type I en type II fouten (precision en recall). Je moet afwegen tussen de 2.

35
Q

What kind of problems can you solve with machine learning?

A

Het voorspellen van continue variabelen, clustering/segmentatie, klassificatie, co-occurence (association rule mining)

36
Q

Soorten data

A
  • Small data= je dataset is klein genoeg dat je met pen en papier eigenlijk genoeg hebt
  • Large data= je hebt al een computer nodig om het in te laden. Bv. met excel, SAS, SPSS.
  • Big data= je hebt al een grote computer nodig.
37
Q
  1. Why is parallel processing the solution to the performance problems in big data?
A

Als je verschillende processoren in parallel kan laten werken, dan kan de tijd om een bepaalde taak uit te voeren dalen aangezien je de delen van die bepaalde taak verdeelt over der verschillende processoren.

38
Q
  1. Why do we need to adapt software to make use of parallel processing?
A

Je kan niet zomaar software splitsen over verschillende processoren aangezien de regels van software afhankelijk zijn van elkaar. Daarom moet je je software aanpassen. Als je software gemaakt is voor 1 processor, zal die nooit over meerdere processoren lopen ook al zijn er meerdere beschikbaar. Het zal enkel werken als je de software aanpast zodat die over verschillende processoren kan lopen.

39
Q
  1. How can we make use of parallel processing in data analytics without having to adapt software?
A
  • Concurrent processing: wanneer je verschillende taken onafhankelijk van elkaar parallel doet draaien. Maar tijd daalt niet. Project duurt nog steeds even lang.
  • Verschillende modellen naast elkaar lopen (bv. random forest, SVM en ANN). Als je 3 processoren hebt, zal dit sneller gaan als je 1 model per processor zet.
  • Parameter tuning: Je kan verschillende paremeter tuning naast elkaar laten lopen voor je modellen
  • Embarassingingly parallel processing: Dataset in verschillende setjes knippen en elk setje per processor laten lopen met eigen model. Maar werkt alleen als de resultaten gecombineerd kunnen worden. Bv voor een classificatie, maar niet voor clustering. Bij clustering heb je alle data nodig om globale clustering te weten. Want combinaties kunnen anders zijn. Het ene model kan 2 clusters vinden en de andere kan er 7 vinden.

 Fine grained embarassingly parallel processing is dat je zelf je data niet moet splitsen, de computer doet dat voor jou en start verschillende modelfuncties voor jou en combineert de resultaten ook. Wat kan je hier mee doen?
o Het gemiddelde berekenen van 1 miljoen getallen:
 Deel set in 10
 Berekende gemiddelde van 10 sets:
 Gemiddelde nemen van 10 sets is gemiddelde van 1 miljoen getallen

40
Q

Synchronous parallel processing en Asynchronous parallel processing

A

Synchronous parallel processing: taken worden na elkaar gedaan. Als 1 taak geparallelliseerd wordt in verschillende subtaken, dan zal het systeem pas de volgende taak uitvoeren als alle subtaken van de vorige gedaan zijn. Bv. wachten op gemiddeldes van de 10 sets voordat het globale gemiddelde berekend kan worden. Meer bij machine learning.
Asynchronous parallel processing: een taak kan gestart worden ook als is de vorige taak nog niet klaar is. Meer bij robotica.

41
Q

Why will a program adapted for parallelization not run N times faster on N processors?

A

Data splitsen kost tijd, en dan vervolgens de gesplitste data sturen naar de verschillende processoren kost tijd. Een volgende taak kan ook enkel uitgevoerd worden als de vorige is afgerond in een processor. De resultaten verzamelen kost ook tijd. Ook al heb je 100 processoren, dan zal het niet 100 keer sneller gaan, maar het zal wel beduidend sneller gaan.

42
Q

Why will a computer that is 100 times faster will not solve all performance problems?

A

Hoe meer data je hebt, hoe meer tijd je computer nodig heeft voor je een resultaat krijgt.

43
Q

What is meant by selection bias?

A

Wanneer we de verkeerde veronderstellingen maken omdat we kijken naar de verkeerde data.

Business case: Denk maar aan de case van de bommenwerpers waarbij Wald zei dat we bepaalde delen van een vliegtuigje meer moesten bepantseren. Hiervoor keken ze naar de data van vliegtuigjes die terugkwamen om te zien waar de beschadiging juist was. Maar je moet juist denken aan de data die mist. Want de vliegtuigjes die niet terugkwamen waren heel ernstig beschadigd aan bepaalde delen (zoals cockpit, motoren) waardoor je daar geen data van hebt. En juist die delen moet je beter beschermen.

44
Q

What is meant by correlation does not mean causality?

A

Het is niet omdat er een correlatie is tussen twee dingen dat het ene het andere veroorzaakt.

Business case: Een correlatie tussen ijsverkoop en verdrinken. We zagen een verband tussen ijsjesverkoop en het verdrinken van mensen. Dus als je een ijsje koopt, dan heb je meer kans op verdrinken? Neen, er is een correlatie, maar geen causatie. Deze correlatie kan verklaard worden dat als het warmer is, mensen meer gaan zwemmen in open water. De derde factor is het weer.( Als het warmer is, dan kopen mensen meer ijsjes)

45
Q

What is meant by spurious correlation?

A

Wanneer we een correlatie zien tussen bepaalde zaken, maar dat het eigenlijk puur toeval is. Er is eigenlijk zelfs geen correlatie. Het is gewoon puur toeval of er is een derde ongeziene factor.

46
Q

How combine cluster solutions?

A

Niet met embarrassingly parallel processing, wel op basis van 1 grote dataset en bv. 10 verschillende parametersets laten lopen over 10 verschillende processoren met 1 clustering model per processor

47
Q

Parallel processing issues

A
  • Wachten. Een volgende taak kan pas uitgevoerd worden als de vorige taak uitgevoerd is. Dus meer processoren gaan niet leiden tot snellere resultaten. Het zal wel beduidend sneller zijn, maar 100 extra processoren leiden niet tot een 100 keer sneller resultaat.
  • Een processor kan kapot gaan (van bv. de 100 processoren en dan zit je maar te wachten). Oplossing is om er iets in te programmeren dat mij een signaal geeft als een processor kapot is.
  • Hoe meer data, hoe meer geheugen je nodig hebt. Dus hoe meer harde schijven, niet alleen processoren. Maar zelfs dan heb je ook een probleem met de schaling van de algoritmes. Zie volgend punt.
  • Er zijn ook Non-linear scaling of algorithms (bv. bij afstandsberekeningen): waar rekentijd exponentieel toeneemt. Als data 10 keer toeneemt zal het systeem 100 meer berekeningen moeten doen. De rekentijd neemt niet lineair, maar exponentieel toe. Het gemiddelde berekenen is een voorbeeld van linear scaling en dus als hier de data 10 keer toenoeemt, dan zullen er 10 keer berekeningen zijn.
48
Q

How can you use data analytics strategically to create a competitive advantage?

A

Een voorbeeld waarbij data mining gebruikt wordt om een competitief voordeel te hebben t.o.v. hun concurrenten, is bij Amazon te zien. Amazon had jarenlang boeken verkocht onder de marktwaarde. In het begin leden ze veel verlies, maar ze hebben zo heel veel data kunnen verzamelen (wat is het profiel van hun klanten) waardoor ze jaren later hun business model hebben omgegooid en zo veel succes gemaakt hebben. Dit succes gebruiken ze om hun competitie uit te schakelen. De dag van vandaag is het onmogelijk om nog als Amazon te beginnen tenzij overheden hen de ruimte geven om zo groot als Amazon te worden.

49
Q

What kind of resources do you need to be successful in data analytics, and why are these resources strategic?

A

Je hebt goede data nodig, en dat is niet altijd even gemakkelijk. Kijk maar naar Amazon. Door jarenlang onder de marktwaarde te verkopen hebben ze goede data kunnen verzamelen. Als je deze data kunt omzetten tot een businessplan dan kan je je concurrentie blokkeren. Maar je hebt ook mensen nodig zoals data scientists en managers die iets afweten van data analytics. Zo komen we bij het derde punt. Data analytical thinking. Je hebt mensen nodig die de data kunnen omzetten naar info die we kunnen gebruiken om business problemen op te lossen.

50
Q

What kind of problems can you solve with machine learning?

A
  • Value estimation: sales prediction (een continue variable voorspellen)
  • Classificatie : voorspellen of iemand ziek is of niet
  • Segmentatie/clusteren: groepen maken in mijn populatie op basis van gemeenschappelijke kenmerken
  • Co-occurence/assocation rule discovery: welke dingen gebeuren vaak samen? Bv. Mensen die spaghetti kopen, kopen ook vaak wijn.
51
Q

Which of those are supervised, which of those are unsupervised?

A

Value estimation en classificatie zijn supervised : je hebt voorbeelden uit het verleden waarmee je je machine kan trainen en de toekomst kan voorspellen.

Segmentatie/clusteren en co-occurence/association rule discovery zijn unsupervised: je hebt geen voorbeelden uit het verleden. Je wilt juist weten welke patronen er zijn.
Process mining, network mining, textmining en computer vision kunnen zowel supervised als unsupervised zijn.

52
Q

How do you divide to choose for supervised or unsupervised techniques?

A

Op basis van je business probleem, van je toepassing kijk je of je supervised of unsupervised technieken gaat uitvoeren. Het is niet omdat je labels hebt, dat je automatisch aan supervised learning moet doen. Bv. stel dat je een kankerdiagnose wilt stellen, dan ga je gebruik moeten maken van supervised technieken. Dus als je nog geen labels hebt, dan moet je deze eerst verzamelen. Als het te moeilijk/duur is om labels te verzamelen, kan je je probleem transformeren naar een unsupervised probleem.

53
Q

What is clustering and when to use it?

A

Clusteren is segmenteren. Dit doe je als je geen idee hebt van de classificaties (je weet niet hoeveel klasses er zijn en wat de klasses zijn. Clusteren gebeurt op basis van gemeenschappelijke kenmerken. Of clusteren kan ook gebruikt worden als je weet welke klasses er zijn, maar je hebt geen gelabelde klasses. Wordt gebruikt bij exploratie en segmentatie

54
Q

What is association rule discovery and when to use it?

A

Als je wilt weten wanneer dingen samen gebeuren. Bij clustering groeperen we de rijen, maar bij association rule discovery groeperen we de variabelen. Methode: association rule mining.

55
Q

What is estimation/prediction and when to use it?

A

Een numerische waarde voorspellen op basis van features. Bv bij sales prediction.
Methode: lineaire regressie

56
Q

What is classification and when to use it?

A

Je weet de klasses. Het voorspellen van categorische waardes. Gerelateerd met clustering, alleen weet je bij clustering de groepen niet op voorhand.
Methode: SVM, decision tree, ANN, logistic regression

57
Q

Wat is a recommender system?

A

Bv. Muziekvoorkeuren te achterhalen op basis van voorkeuren van andere mensen

58
Q

What is market basket analysis?

A

Techniek om te weten welke associations (association rule mining) er bestaan door te kijken wat er in het “winkelmandje” van mensen zit. Zo kunnen retailers advertenties beter maken. Layout van de winkel veranderen, kiezen hoe ze best promotie voeren..

59
Q

How can we predict the likelyhood that someone will pay me back?

A

by classification

60
Q

How many subscription plans do you develop?

A

by Clustering

61
Q

What is process mining?

A

Process mining is dat je op basis van logs processen in kaart kan brengen. Op die manier kan je ook zien wie wat doet, waar de bottle necks zitten, waar de problemen zitten en kan je die zo verbeteren.
Zo kan je de dominante stromingen in je proces zien.

62
Q

What kind of data does process mining use?

A

Log data. Bv. Booking.com houdt bij waar je op klikt en uiteindelijk op welk hotel je klikt en boekt.

63
Q

What can you do with discovery process mining?

A
  • Op basis van log data kan je dingen ontdekken die je nog niet wist. Bv. in het geval van Maury, heeft hij zo de dominantie waterstromingen in kaart kunnen brengen.
  • Reverse engineering: wanneer je niet meer weet hoe een proces in elkaar zit doordat er te veel veranderingen zijn geweest. Met proces mining kan je de processen weer in kaart zetten.
  • Decision mining: kijken welke stappen voorafgegaan zijn vooraleer een beslissing gemaakt wordt. Bv. wanneer een lening wordt goedgekeurd, naar wat wordt er gekeken en gedaan?
64
Q

What can you do with conformance checking process mining?

A

Kijken of de echte flow hetzelfde is als de voorziene flow. Vooral bij auditing en testing. Bv. om fraude te detecteren.

65
Q

What can you do with performance mining?

A

Als je weet wat je proces is, waar kan je verbeteren? Waar zijn de bottlenecks? Waar vallen de mensen weg bij het klikken op een website?

66
Q

What is network mining?

A

Proces van het verkrijgen van netwerk data. Bv. mensen die verbonden zijn via facebook. Of transacties bij de bank, aankopen. Of belgeschiedenis.
Kan numerisch voorgesteld worden met matrices, maar hoe meer datapunten hoe groter de matrix. En uiteindelijk hoe meer geheugen je nodig hebt. Daarom is “sparse matrix” de oplossing waar alle nulletjes verwijderd worden. Op basis van matrix kan je clusteren, association rule mining enzo…maar ook specifieke netwerk mining

67
Q

What kind of data does network mining use?

A

Network data. Verband tussen personen of objecten. Bv. mensen die bellen of mailen met elkaar, aankooptransacties, citaties…

68
Q

What can you do with network mining?

A

Op basis van de netwerk data die omgezet is naar matrices kan je zien:

  • Hoe groot is dat netwerk?
  • Hoe compact is dat netwerk? (is iedereen aan het bellen met iedereen, of zijn er maar een paar aantal mensen die veel bellen?)
  • Zijn er bepaalde nodes die belangrijk zijn?
  • Zijn er bepaalde subnetwerken? (welke subnetwerken zijn er?), en welke nodes zorgen ervoor dat die subnetwerken met elkaar verbonden zijn?
69
Q

What kind of insights can you gain from important nodes (C en E) in your network?

A

Marketing: segmentatie. Je kan de important nodes aanspreken die zo je boodschap verpreiden naar heel hun subnetwerk (bv. influencers)
Fraude detectie: welke personen zitten op strategische plaatsen (important nodes). Network mining zegt niet wie fraudeert, maar wel die grootste kans heeft om te frauderen.
Terrorisme: subnetwerken kunnen de terreurcellen zijn. D is de persoon die we moeten hebben als we hoofdpersoon willen oppakken. 2 terreurcellen gaan niet met elkaar communiceren, want dan zouden die allemaal opgepakt worden.

70
Q

Purpose of decision tree

A

exploration and

estimation and classification

71
Q

Decision tree: what is a good split based on?

A

best purity, creating nodes of similar size or at least no nodes with very few records

72
Q

What is pruning?

A

This is when smaller leaf nodes are merged into bigger leafnodes to avoid overfitting.

73
Q

In what problems are decision trees best used?

A

Classification problems when number of classes is small. For example binary classification or a few classes. Although in can be used in regression, it makes lumpy estimates as it can only move perpendicular. In case of a lot of classes, other algoritms are better.

74
Q

What is parametric learning or parametric modelling?

A

Tuning the parameters of a model so that the model fits the data as good as possible.

75
Q

Difference between linear discriminant and linear regression.

A

Linear discriminant is used for classification and linear regression is used for estimation.

76
Q

SVM concept

A
  1. fit the fattest line between classes
  2. for misclassifications there are penalties. The further the misclassification from the decision boundary, the bigger the penalty.
77
Q

How calculate dissimilarity for nominal attributes?

A
p= totaal aantal attributen
m= aantal attributen dat 2 punten gemeen hebben

d(i,j) = p-m/p

en similarity is dan: s(i,j)=1-d(i,j)

Resultaten zijn gelimiteerd tussen 0 en 1

78
Q

How calculate dissimilarity for numeric attributes?

A

by euclidian distance. Result is not limited between 0 and 1, but is always positive

79
Q

advantages and disadvantages of KNN

A

pro: simple to build, can handle missing values well
con: storage, no model description, curse of dimensionality ( als er teveel irrelevante attributes aanwezig zijn waardoor afstand beinvloed wordt)

80
Q

How can you recognize overfitting on a graph?

A

Testseterror/trainingseterror VS complexiteit model.

81
Q

The 3th industrial revolution was already about computers automatization. What is the difference with the 4th industrial revolution?

A

Verschil is dat derde revolutie had al computers en automation. In de vierde revolutie gaan we al die computers, automation en data met elkaar verbinden.