Introduction Flashcards
wat is data science
werken met en analyseren van ‘data’, gegevens
wat is data
informatie in ruwe of ongeorganiseerde vorm die verwijst naar objecten, ideeën of condities
wat betekent data driven
verzamelen en analyseren van data ligt aan basis bedrijfsstrategie en van dagelijkse besluitvorming
waarom wordt data opgedeeld
om overzicht te behouden
welke indelingen zijn er
- op basis van data type
- op basis waarvoor data binnen bedrijf gebruikt word
- indeling, aard en manier van opslaan van data
3 soorten data types:
master data, transactionele data en analytische data
master data
data die niet vaak verandert en wordt door business steeds op zelfde manier gebruikt (bv klantnummer), ‘normale data’
transactionele data
verandert voortdurend en betreft dagelijkse businessativiteiten, beschrijft gebeurtenis (bv bestellingen, bitcoins), vooral financieel
analytische data
data betreffende performantie van business (bv marktaandeel, solvabiliteitsratio’s), data van analyses
manier van opslaan (2):
gestructureerd, ongestructureerd
gestructureerde data
sterk georganiseerde data die volgens voorgedefinieerd data model wordt opgeslagen, op eenvoudige manier toegankelijk en kan gemakkelijk zonder bijkomende inspanningen gebruikt worden in analyses (bv data relationele databanken)
ongestructureerde data
niet opgeslagen volgens voorgedefinieerd data model en wordt op samenhangende en verspreide manier bijgehouden, moeilijk toegankelijk en vereist bijkomende preprocessing voor gebruikt te worden in analyse (bv data in meeting verslagen, rapporten)
alternatieve opdelingen:
- op basis van doel van data output (purpose data ouptut)
- streaming data versus static data
- indeling volgens attitudinal, behavioural of demographic data
2 doelen van data output:
- schema-then-capture, eerst bepalen welke data nodig is voor analyse en dan verzamelen
- capture-first-ask-questions-later, data verzamelen en nadien kijken welke vragen/ analyses men met data kan beantwoorden
attitudinal data
hoe voelt een klant zich, weerspiegelen belang dat klant hecht aan bepaalde eigenschappen van aangeboden producten en diensten
behavioural data
wat doet een klant, omvat koopgedrag en merkvoorkeur van consumenten en wordt gebruikt om promotiecampagne uit te werken
demographic data
wie is klant, data die sociaaleconomisch van aard is (bv populatie, ras, inkomen), die specifieke geografische locaties vertegenwoordigen en vaak geassocieerd met tijd
eigenschappen van big data
1) hoge data velocity
2) groot volume
3) grote variety
velocity
snelheid waaraan data gegenereerd, gecapteerd en/of afgeleverd wordt
variety
diversiteit, data komt van vele verschillende bronnen en zit in meerdere databanken in niet uniforme vormen
2 extra eigenschappen big data
1) variability
2) veracity
veracity
waarheidsgetrouwheid, kwaliteit van data
proces van big data naar smart data
selectie (verzamelen), opkuisen/zuiveren (verfiëren, valideren), verwerking (classificeren) en voorbereiding (in juiste formaat zetten)