Introduction Flashcards
wat is data science
werken met en analyseren van ‘data’, gegevens
wat is data
informatie in ruwe of ongeorganiseerde vorm die verwijst naar objecten, ideeën of condities
wat betekent data driven
verzamelen en analyseren van data ligt aan basis bedrijfsstrategie en van dagelijkse besluitvorming
waarom wordt data opgedeeld
om overzicht te behouden
welke indelingen zijn er
- op basis van data type
- op basis waarvoor data binnen bedrijf gebruikt word
- indeling, aard en manier van opslaan van data
3 soorten data types:
master data, transactionele data en analytische data
master data
data die niet vaak verandert en wordt door business steeds op zelfde manier gebruikt (bv klantnummer), ‘normale data’
transactionele data
verandert voortdurend en betreft dagelijkse businessativiteiten, beschrijft gebeurtenis (bv bestellingen, bitcoins), vooral financieel
analytische data
data betreffende performantie van business (bv marktaandeel, solvabiliteitsratio’s), data van analyses
manier van opslaan (2):
gestructureerd, ongestructureerd
gestructureerde data
sterk georganiseerde data die volgens voorgedefinieerd data model wordt opgeslagen, op eenvoudige manier toegankelijk en kan gemakkelijk zonder bijkomende inspanningen gebruikt worden in analyses (bv data relationele databanken)
ongestructureerde data
niet opgeslagen volgens voorgedefinieerd data model en wordt op samenhangende en verspreide manier bijgehouden, moeilijk toegankelijk en vereist bijkomende preprocessing voor gebruikt te worden in analyse (bv data in meeting verslagen, rapporten)
alternatieve opdelingen:
- op basis van doel van data output (purpose data ouptut)
- streaming data versus static data
- indeling volgens attitudinal, behavioural of demographic data
2 doelen van data output:
- schema-then-capture, eerst bepalen welke data nodig is voor analyse en dan verzamelen
- capture-first-ask-questions-later, data verzamelen en nadien kijken welke vragen/ analyses men met data kan beantwoorden
attitudinal data
hoe voelt een klant zich, weerspiegelen belang dat klant hecht aan bepaalde eigenschappen van aangeboden producten en diensten
behavioural data
wat doet een klant, omvat koopgedrag en merkvoorkeur van consumenten en wordt gebruikt om promotiecampagne uit te werken
demographic data
wie is klant, data die sociaaleconomisch van aard is (bv populatie, ras, inkomen), die specifieke geografische locaties vertegenwoordigen en vaak geassocieerd met tijd
eigenschappen van big data
1) hoge data velocity
2) groot volume
3) grote variety
velocity
snelheid waaraan data gegenereerd, gecapteerd en/of afgeleverd wordt
variety
diversiteit, data komt van vele verschillende bronnen en zit in meerdere databanken in niet uniforme vormen
2 extra eigenschappen big data
1) variability
2) veracity
veracity
waarheidsgetrouwheid, kwaliteit van data
proces van big data naar smart data
selectie (verzamelen), opkuisen/zuiveren (verfiëren, valideren), verwerking (classificeren) en voorbereiding (in juiste formaat zetten)
waar zorgt selectie voor
relevante data
waar zorgt opkuisen/zuiveren voor
correcte data
waar zorgt verwerken/voorbereiden voor
computer verwerkbare data
wat zijn meetschalen/ meetniveau’s
zegt wat je met data kan doen
2 soorten meetschalen
1) kwalitatief
2) kwantitatief
kwalitatieve data
getallen maar niet om mee te rekenen, bepaalt meestal categorie, bv geslacht
kwantitatieve data
getallen, bv temperatuur, leeftijd, afstand
2 types binnen kwalitatieve data
1) nominaal
2) ordinaal
nominaal
iedere waarde is string, opsomming, bv tomaat appel peer
ordinaal
iedere waarde is string, volgorde, bv tevredenheidsscores
2 types binnen kwantitatieve data
1) interval
2) ratio
interval
verschillen tussen waardes, bv temperatuur in °C, tijdstip, datum
ratio
verhoudingen, temperatuur in Kelvin, # liter wijn, 1/4 van klas is gebuisd
karakteristieken meetniveau
- onderscheidingsvermogen
- grootteorde-karakteristiek
- meeteenheid
- absoluut nulpunt
cardinalisering
wanneer waarden van eigenschap niet numeriek zijn en men ze vervangt door getallen
discriminantanalyse
techniek waarbij men berekeningen maakt met waargenomen waarden van meerdere eigenschappen van bv zelfde personen
multicriteria analyse
keuze maken tussen verschillende alternatieven, rekening houdend met meerdere doelstellingen
continue variabele
alle waarden zijn kommagetallen, eender welke waarden tussen 2 grenzen
discrete variabele
enkel bepaalde waarden, bv gehele
betrouwbaarheid
iets dat weinig invloed heeft van buitenaf, levert meetinstrument onder identieke omstandigheden zelfde waarden?
validiteit
meet meetinstrument wat beweert te meten?, wat is bruikbaarheid en wat is juistheid
hypothese
mogelijke uitkomst, wat je denkt, bewering/veronderstelling
operationaliseren
iets meetbaar maken
dikw-piramide
Data, Information, Knowlegde, Wisdom
verschillende onderzoeksfasen van klassiek (statisch) onderzoek
- formuleren van vraagstelling, probleem, theorie
- meetbaar maken, operationaliseren
- steekproefopzet
- verrichten van metingen, verzamelen van gegevens
- beschrijven van gegevens
- formuleren van statische conclusies
- verband tussen resultaten en theorie
BI
business intelligence, stelt model op om specifiek gekende businessvragen te kunnen beantwoorden
OLAP
Online Analytical Processing
4 vormen data analytics
1) descriptive analytics (what happened)
2) diagnostic analytics (why did it happen)
3) predictive analytics (what will happen)
4) prescriptive analytics (how can we make it happen)
analyseren van data (3 delen)
- data mining
- machine learning
- statistiek
data mining
betreft zoeken van bruikbare patronen, verbanden en associaties in data door data te beschrijven, samen te vatten, te groeperen
machine learning
computer programma ‘leert’ uit aangeboden data en past geleerde data toe op nieuwe data
statistiek
betreft verzamelen, bewerken, interpreteren en presenteren van gegevens
populatie
groep waar je testen op uitvoert
steekproef
doen van metingen
aselect
willekeurig
beschrijvende statistiek
info uit data halen