Module 2A: Concepten en definities Big Data Flashcards
Waarom is data handig?
- Data vormen onmisbare bouwstenen voor het vergaren van kennis. Het verzamelen en verwerken van gegevens gebeurt dan ook al sinds jaar en dag.
- Handmatige volkstellingen en bevolkingsregisters vormen vroege illustraties van het vergaren van kennis door het verzamelen van data op een grote schaal.
- Het verzamelen en verwerken van data was oorspronkelijk een kostbare en tijdrovende aangelegenheid.
Wat is de ‘Data age?’
- Golf van ontwikkelingen op het terrein van informatie- en communicatietechnologie heeft ertoe geleid dat de mogelijkheden voor het verzamelen en verwerken van gegevens aanzienlijk zijn toegenomen → Data Age.
- In 2016 werden evenveel data gegenereerd als in de gehele geschiedenis van de mensheid tot 2015 en de hoeveelheid opgeslagen data zal in 2025 gegroeid zijn tot 163 zettabytes. Bovendien zijn overheden en bedrijven steeds beter in staat om voor besluitvorming relevante informatie uit deze grote hoeveelheid aan data te destilleren.
Wat zijn de technologische ontwikkelingen die dit mogelijk maken?
- Mogelijkheid om gegevens te verzamelen
- De capaciteit voor gegevensopslag
- Technologieën om data met elkaar te verbinden is sterk verbeterd
Mogelijkheid om gegevens te verzamelen
Ons leven speelt zich in toenemende mate online af → sinds de opkomst van het internet en met het internet verbonden apparaten. Data wordt veel eenvoudiger verzameld en opgeslagen.
De capaciteit voor gegevensopslag
De capaciteit voor gegevensopslag is iedere 2 tot 3 jaar verdubbeld en ook veel goedkoper geworden.
Technologieën om data met elkaar te verbinden is sterk verbeterd
Technologieën om data met elkaar te verbinden en om te zetten naar relevante informatie → sterk verbeterd!
Definitie Big data?
- Geen consensus. Veel worden de kenmerken gebruikt en omschreven aan de hand van de kenmerken van de gebruikte data en de op deze data toegepaste analysemethode.
- 3V’s:
- Volume: Hoeveelheid data
- Variety: Verscheidenheid aan data
- Velocity: Snelheid van dataverzameling en analyse
Wat houdt volume in?
- Big Data = grote hoeveelheden gegevens dus daarom nemen verschillende definities de hoeveelheid data als uitgangspunt.
- Er is geen minimale hoeveelheid data om te kunnen spreken van Big Data. Wat kenmerkend is = gestreefd wordt naar verzameling en analyse van een volledige, uitputtende hoeveelheid data (n=all)
Contrast traditionele data-analyse en big data?
- Bij traditionele data-analyse: beperkte hoeveelheid data analyseren en verzamelen waarbij een representatieve steekproef wordt genomen.
- Bij Big Data: deze beperking geldt hier niet omdat het verzamelen, opslaan en analyseren van grote hoeveelheden gegevens vele malen eenvoudiger is geworden.
Variety = verscheidenheid? Waarom relevant voor big data?
- Variëteit van de bronnen is relevant.
- Mogelijke bronnen:
- het Internet, sociale media, smartphoneapplicaties, door de overheid beheerde databases, door commerciële bedrijven gegenereerde gegevensbestanden en data verzameld door met het Internet verbonden apparaten
- Bronnen opereren binnen verschillende domeinen die in toenemende mate onderling verbonden zijn = ontschotting: wordt veroorzaakt doordat databanken die oorspronkelijk beheerd werden door de overheid of andere grote organisaties in toenemende mate toegankelijk worden gemaakt voor het publiek.
- Data over het koopgedrag van mensen gebruikt worden om te bepalen of iemand een lening krijgt en kunnen gegevens over iemands fysieke gezondheid worden meegenomen in sollicitatieprocedures.
Verschillende ‘soorten’ data
- Oorspronkelijk analoge data: Oorspronkelijk analoge data komen voort uit de fysieke, offline wereld en worden vervolgens omgezet naar een digitale vorm.
- Stemopnames, met een camera vastgelegde visuele informatie en fysieke activiteit die wordt geregistreerd door een smartwatch.
- Oorspronkelijk digitale data: Oorspronkelijk digitale informatie daarentegen is specifiek gecreëerd voor de digitale wereld, zoals het geval is bij e-mail- en Internetverkeer.
Onderscheid gestructureerde of ongestructureerde data
- Gestructureerde data: Gestructureerde data’ refereert aan vormen van sterk georganiseerde data, bijvoorbeeld data in een ‘relationele database’ die is geordend in kolommen en rijen.
- Ongestructureerde data: Dit betreft data die niet zijn weergegeven in strak georganiseerde databases, maar waarbij het bijvoorbeeld gaat om tekst in facebookposts, foto’s en video’s. Circa 95% van alle data is ongestructureerd en ook de reden voor de data-explosie.
Velocity = snelheid
- Big Data wordt gekenmerkt door dynamische aard van het proces waarmee de data worden gegenereerd en geanalyseerd.
- Onderscheid traditionele data-analyse:
- Daarbij moest men gebruik maken van op een specifiek tijdstip verzamelde data (bijvoorbeeld een periodiek uitgevoerde volkstelling).
- Big Data: analyses constant, veelal real-time verzameld en geanalyseerd → er kan meteen actie worden ondernemen daarmee.
- Inhoud van de website kan direct worden afgestemd op de bezoekersactiviteit
Wat is het real-time effect?
- Meteen reageren op de continue data: dit is vaak ook noodzakelijk voor het goed functioneren van websites, applicaties en andere informatiesystemen: Zo kan een navigatiesysteem slechts adequaat functioneren als het de gebruiker kan lokaliseren en direct rekening kan houden met actuele verkeersomstandigheden.
Samenspel tussen de 3 V’s
- Geen universele 3V-grenslijn die de overgang van Small naar Big Data markeert. Wat geldt als Big Data kan, in het licht van de snelle technologische vooruitgang, van vandaag op morgen veranderen en verschilt bovendien per sector.
- Waar de analyse van grote hoeveelheden data in de financiële sector al langer gangbaar is, kan dit in andere sectoren anders liggen.
3V kantelpunt
- Er bestaat wel een kantelpunt waardoor wordt aangenomen dat traditionele methoden van databeheer en -analyse niet langer adequaat kunnen worden toegepast. Waar dit kantelpunt zich bevindt hangt af van de organisatie die Big Data gebruikt en het specifieke toepassingsgebied van de Big Data-analyse.
Multiple forms of Big Data
- Kitchin en McArdle spreken hiervan omdat veel datasets die worden geclassificeerd als Big Data niet alle 3 V’s of eventuele andere kenmerken.
- Big Data wordt aldus eerder beschouwd als een samenspel van kenmerken en ontwikkelingen die bij verschillende datasets in verschillende mate aanwezig zijn, dan als een vastomlijnde technologie.
Welke andere kenmerken naast de 3 V’s worden verbonden aan Big Data?
Data-gedreven analyse en de op correlaties geörienteerde aard van Big Data.
Hoe vroeger datasets analyseren?
- Oorspronkelijk werden datasets geanalyseerd met als doel het verifiëren van specifieke, vooraf opgestelde hypotheses. De data werden gezien als een middel om antwoord te krijgen op specifieke vraagstellingen, zogeheten queries.
- Supermarkt testen of mannen meer bier kopen dan vrouwen → hypothese testen door query te formuleren die de database de opdracht geeft om een lijst te maken met het geslacht van klanten die bier kopen. Uit het resultaat van deze vraagstelling blijkt of de hypothese correct was.
-
Hypothese gedreven
- Traditionele data-analyse is primair hypothese gedreven: door mensen vooraf opgestelde, specifieke hypotheses bepalen de bandbreedte van de uit analyse verkregen kennis.
Hoe gebeurt data-analyse bij Big Data?
- Data-gedreven: Het doel van de data-gedreven analyse is het vinden van relevante patronen en verbanden in datasets. Hiertoe worden algoritmes gebruikt die niet beperkt worden door specifieke hypotheses. Deze algoritmes testen grote hoeveelheden verbanden en proberen op deze wijze relevante informatie uit de data te destilleren.
- De kennis die vergaard wordt uit data-analyse bevindt zich niet langer uitsluitend binnen de bandbreedte van door mensen opgestelde hypotheses, maar baseert zich primair op wat de data zelf ‘zeggen’. Daardoor kunnen waardevolle en onverwachte verbanden ontdekt worden.
- Een bekend voorbeeld is de data-gedreven analyse van de database van een supermarkt die aantoonde dat klanten die bier kopen vaak eveneens luiers aanschaffen. Toen het management van de supermarkt dit verband ontdekte, werden de schappen met bier dichter bij de luiers gezet, met als gevolg dat de verkoop van bier steeg
Op wat is data-gedreven analyse gericht?
- Gericht op het vinden van statistische verbanden = correlaties, die niet per definitie causaal van aard zijn -> oriëntatie op correlatie
Wat is causaliteit
- Causaliteit betekent dat A de oorzaak is van B, terwijl een correlatie slechts indiceert dat A en B in samenhang voorkomen.
Is een statistisch verband voldoende voor een beslissing te nemen?
- Vaak wel: bv. marketing: het is voldoende om te weten dat er interesse is, zonder dat het noodzakelijk is om de achterliggende reden te weten.
- Je moet voorzichtig omgaan met het nemen van beslissingen op geconstateerde correlaties.
- Of een correlatie daadwerkelijk toereikend is om daarop besluiten te kunnen baseren, hangt veelal af van het te nemen besluit.
- Zo ontdekte het bestuur van de Amerikaanse staat Illinois een correlatie tussen de aanwezigheid van boeken bij kinderen thuis en behaalde examenresultaten. Hierop overwoog de gouverneur om ieder kind eens per maand een boek op te sturen. Later bleek echter dat de schoolprestaties van kinderen die boeken tot hun beschikking hadden ook hoger waren als de kinderen de boeken niet lazen.
- De aanwezigheid van boeken bleek slechts een indicatie voor de prettige studieomgeving die ouders voor hun kinderen wisten te creëren. Er bestond geen causaal verband tussen de aanwezigheid van boeken en studieresultaten.
Wanneer wordt Big Data nuttig?
Het enkel verzamelen = geen nut dus pas nuttig als je relevante informatie uit de data kan distilleren → deze informatie gebruiken als basis voor beleids- of besluitvorming.
Het gehele proces van kennisvergaring en -benutting wordt aangeduid als het Big Data-proces.
Hoe verdeelt de WRR dit?
- Wetenschappelijke Raad voor het Regeringsbeleid (Nederland): verschillende stappen:
- Verzameling en voorbereiding
- Analyse
- Gebruik
- Het onderscheid is analytisch van aard: Door de snelheid waarmee algoritmes werken en het bestaan van constante feedback loops zullen de fasen in tijd overlappen en niet altijd logisch opeenvolgend voorkomen.
Wat is het belang van verzameling en voorbereiding data?
- Wil de analyse toegevoegde waarde hebben → data gereed worden gemaakt voor analyse. Big Data-analyse s mede mogelijk doordat in de fase van datavoorbereiding een grote verscheidenheid aan data, afkomstig uit verschillende bronnen met een verschillende afkomst en structuur samen wordt gebracht.
Data fusion
- Via data fusion kunnen al de soorten heterogene data worden omgezet naar een gestructureerde, homogene dataverzameling. .
- Veel verschillende soorten technieken voor het koppelen van verschillende soorten data.
- Door het koppelen van verschillende soorten data worden grote, veelomvattende datasets gecreëerd. Zo was het campagneteam van President Obama in staat om gedetailleerde informatie over campagne-activiteiten te koppelen aan grote hoeveelheden data over de politieke voorkeuren van kiesgerechtigde Amerikanen, hetgeen resulteerde in veelomvattende databases die de gehele kiesgerechtigde populatie van de VS bestreken.
Waarom is analyse essentieel?
- Zonder analyse zouden grote datasets weliswaar kunnen worden opgeslagen en geraadpleegd, maar zou er geen verschil bestaan tussen input en output. Om de waarde van grote hoeveelheden data te benutten, is het noodzakelijk hieruit relevante informatie te vergaren.
Big Data Analytics
- Het geheel van technologieën waarmee kennis kan worden vergaard uit grote datasets valt onder de noemer Big Data analytics. Veel afkomstig van AI technieken (Machine Learning):
- Datamining en profileren
- Onderscheid analyses
- Tekstanalyse
- Spraak- en afbeeldingsherkenning
- Sociale media-analyses
Wat is datamining?
- Datamining is een van de voornaamste technologieën die wordt ingezet ten behoeve van Big Data-analyse. Bij datamining worden op geautomatiseerde wijze, door middel van algoritmes, patronen ontdekt in grote datasets. Datamining stelt de gebruiker spreekwoordelijk in staat om door de bomen van data het bos weer te zien. Er bestaan verschillende datamining-algoritmes, die ieder andere correlaties opsporen.
Welk onderscheid bestaat binnen datamining?
- Classificatietechnieken
- Clustertechnieken
- Regressietechnieken
- Associatietechnieken
Classificatietechnieken
- Erop gericht om gegevens in verschillende, reeds door programmeurs gecreëerde categorieën onder te brengen. De algoritmes die aan deze techniek ten grondslag liggen ‘leren’ van een set aan reeds geclassificeerde voorbeelden door systematisch verschillen en overeenkomsten tussen de verschillende categorieën te vergelijken.
- Vervolgens zijn de algoritmes in staat om hieruit regels te destilleren en deze toe te passen op nieuwe gevallen.
- Bv. uit het ziekenhuis ontslagen patiënten ondergebracht worden in verschillende, vooraf gedefinieerde klassen die indiceren in hoeverre het risico op heropname aanwezig is.
- Bv. spamfilters: Op basis van een analyse van een grote set van als spam gekwalificeerde mails, kan nieuw inkomende spam met een hoge mate van zekerheid worden geïdentificeerd. Vervolgens worden mails die zijn geclassificeerd als spam, automatisch in de spam-box geplaatst; de mails die niet als spam zijn geclassificeerd, verschijnen in de inbox.
Clustertechnieken
- Algoritmes richte zich op het groeperen van gegevens die sterk overeenkomen.
- Bv. klantenbestand van een winkel aan de hand van hun aankoopgedrag worden onderverdeeld in subgroepen met ‘typen’ klanten.