Module 2A: Concepten en definities Big Data Flashcards

1
Q

Waarom is data handig?

A
  • Data vormen onmisbare bouwstenen voor het vergaren van kennis. Het verzamelen en verwerken van gegevens gebeurt dan ook al sinds jaar en dag.
    • Handmatige volkstellingen en bevolkingsregisters vormen vroege illustraties van het vergaren van kennis door het verzamelen van data op een grote schaal.
  • Het verzamelen en verwerken van data was oorspronkelijk een kostbare en tijdrovende aangelegenheid.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat is de ‘Data age?’

A
  • Golf van ontwikkelingen op het terrein van informatie- en communicatietechnologie heeft ertoe geleid dat de mogelijkheden voor het verzamelen en verwerken van gegevens aanzienlijk zijn toegenomen → Data Age.
  • In 2016 werden evenveel data gegenereerd als in de gehele geschiedenis van de mensheid tot 2015 en de hoeveelheid opgeslagen data zal in 2025 gegroeid zijn tot 163 zettabytes. Bovendien zijn overheden en bedrijven steeds beter in staat om voor besluitvorming relevante informatie uit deze grote hoeveelheid aan data te destilleren.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat zijn de technologische ontwikkelingen die dit mogelijk maken?

A
  1. Mogelijkheid om gegevens te verzamelen
  2. De capaciteit voor gegevensopslag
  3. Technologieën om data met elkaar te verbinden is sterk verbeterd
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Mogelijkheid om gegevens te verzamelen

A

Ons leven speelt zich in toenemende mate online af → sinds de opkomst van het internet en met het internet verbonden apparaten. Data wordt veel eenvoudiger verzameld en opgeslagen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

De capaciteit voor gegevensopslag

A

De capaciteit voor gegevensopslag is iedere 2 tot 3 jaar verdubbeld en ook veel goedkoper geworden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Technologieën om data met elkaar te verbinden is sterk verbeterd

A

Technologieën om data met elkaar te verbinden en om te zetten naar relevante informatie → sterk verbeterd!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definitie Big data?

A
  • Geen consensus. Veel worden de kenmerken gebruikt en omschreven aan de hand van de kenmerken van de gebruikte data en de op deze data toegepaste analysemethode.
  • 3V’s:
    1. Volume: Hoeveelheid data
    2. Variety: Verscheidenheid aan data
    3. Velocity: Snelheid van dataverzameling en analyse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat houdt volume in?

A
  • Big Data = grote hoeveelheden gegevens dus daarom nemen verschillende definities de hoeveelheid data als uitgangspunt.
  • Er is geen minimale hoeveelheid data om te kunnen spreken van Big Data. Wat kenmerkend is = gestreefd wordt naar verzameling en analyse van een volledige, uitputtende hoeveelheid data (n=all)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Contrast traditionele data-analyse en big data?

A
  • Bij traditionele data-analyse: beperkte hoeveelheid data analyseren en verzamelen waarbij een representatieve steekproef wordt genomen.
  • Bij Big Data: deze beperking geldt hier niet omdat het verzamelen, opslaan en analyseren van grote hoeveelheden gegevens vele malen eenvoudiger is geworden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Variety = verscheidenheid? Waarom relevant voor big data?

A
  • Variëteit van de bronnen is relevant.
  • Mogelijke bronnen:
    • het Internet, sociale media, smartphoneapplicaties, door de overheid beheerde databases, door commerciële bedrijven gegenereerde gegevensbestanden en data verzameld door met het Internet verbonden apparaten
  • Bronnen opereren binnen verschillende domeinen die in toenemende mate onderling verbonden zijn = ontschotting: wordt veroorzaakt doordat databanken die oorspronkelijk beheerd werden door de overheid of andere grote organisaties in toenemende mate toegankelijk worden gemaakt voor het publiek.
    • Data over het koopgedrag van mensen gebruikt worden om te bepalen of iemand een lening krijgt en kunnen gegevens over iemands fysieke gezondheid worden meegenomen in sollicitatieprocedures.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Verschillende ‘soorten’ data

A
  1. Oorspronkelijk analoge data: Oorspronkelijk analoge data komen voort uit de fysieke, offline wereld en worden vervolgens omgezet naar een digitale vorm.
    • Stemopnames, met een camera vastgelegde visuele informatie en fysieke activiteit die wordt geregistreerd door een smartwatch.
  2. Oorspronkelijk digitale data: Oorspronkelijk digitale informatie daarentegen is specifiek gecreëerd voor de digitale wereld, zoals het geval is bij e-mail- en Internetverkeer.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Onderscheid gestructureerde of ongestructureerde data

A
  1. Gestructureerde data: Gestructureerde data’ refereert aan vormen van sterk georganiseerde data, bijvoorbeeld data in een ‘relationele database’ die is geordend in kolommen en rijen.
  2. Ongestructureerde data: Dit betreft data die niet zijn weergegeven in strak georganiseerde databases, maar waarbij het bijvoorbeeld gaat om tekst in facebookposts, foto’s en video’s. Circa 95% van alle data is ongestructureerd en ook de reden voor de data-explosie.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Velocity = snelheid

A
  • Big Data wordt gekenmerkt door dynamische aard van het proces waarmee de data worden gegenereerd en geanalyseerd.
  • Onderscheid traditionele data-analyse:
    • Daarbij moest men gebruik maken van op een specifiek tijdstip verzamelde data (bijvoorbeeld een periodiek uitgevoerde volkstelling).
    • Big Data: analyses constant, veelal real-time verzameld en geanalyseerd → er kan meteen actie worden ondernemen daarmee.
  • Inhoud van de website kan direct worden afgestemd op de bezoekersactiviteit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is het real-time effect?

A
  • Meteen reageren op de continue data: dit is vaak ook noodzakelijk voor het goed functioneren van websites, applicaties en andere informatiesystemen: Zo kan een navigatiesysteem slechts adequaat functioneren als het de gebruiker kan lokaliseren en direct rekening kan houden met actuele verkeersomstandigheden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Samenspel tussen de 3 V’s

A
  • Geen universele 3V-grenslijn die de overgang van Small naar Big Data markeert. Wat geldt als Big Data kan, in het licht van de snelle technologische vooruitgang, van vandaag op morgen veranderen en verschilt bovendien per sector.
  • Waar de analyse van grote hoeveelheden data in de financiële sector al langer gangbaar is, kan dit in andere sectoren anders liggen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

3V kantelpunt

A
  • Er bestaat wel een kantelpunt waardoor wordt aangenomen dat traditionele methoden van databeheer en -analyse niet langer adequaat kunnen worden toegepast. Waar dit kantelpunt zich bevindt hangt af van de organisatie die Big Data gebruikt en het specifieke toepassingsgebied van de Big Data-analyse.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Multiple forms of Big Data

A
  • Kitchin en McArdle spreken hiervan omdat veel datasets die worden geclassificeerd als Big Data niet alle 3 V’s of eventuele andere kenmerken.
  • Big Data wordt aldus eerder beschouwd als een samenspel van kenmerken en ontwikkelingen die bij verschillende datasets in verschillende mate aanwezig zijn, dan als een vastomlijnde technologie.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Welke andere kenmerken naast de 3 V’s worden verbonden aan Big Data?

A

Data-gedreven analyse en de op correlaties geörienteerde aard van Big Data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hoe vroeger datasets analyseren?

A
  • Oorspronkelijk werden datasets geanalyseerd met als doel het verifiëren van specifieke, vooraf opgestelde hypotheses. De data werden gezien als een middel om antwoord te krijgen op specifieke vraagstellingen, zogeheten queries.
    • Supermarkt testen of mannen meer bier kopen dan vrouwen → hypothese testen door query te formuleren die de database de opdracht geeft om een lijst te maken met het geslacht van klanten die bier kopen. Uit het resultaat van deze vraagstelling blijkt of de hypothese correct was.
  • Hypothese gedreven
    • Traditionele data-analyse is primair hypothese gedreven: door mensen vooraf opgestelde, specifieke hypotheses bepalen de bandbreedte van de uit analyse verkregen kennis.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hoe gebeurt data-analyse bij Big Data?

A
  • Data-gedreven: Het doel van de data-gedreven analyse is het vinden van relevante patronen en verbanden in datasets. Hiertoe worden algoritmes gebruikt die niet beperkt worden door specifieke hypotheses. Deze algoritmes testen grote hoeveelheden verbanden en proberen op deze wijze relevante informatie uit de data te destilleren.
  • De kennis die vergaard wordt uit data-analyse bevindt zich niet langer uitsluitend binnen de bandbreedte van door mensen opgestelde hypotheses, maar baseert zich primair op wat de data zelf ‘zeggen’. Daardoor kunnen waardevolle en onverwachte verbanden ontdekt worden.
    • Een bekend voorbeeld is de data-gedreven analyse van de database van een supermarkt die aantoonde dat klanten die bier kopen vaak eveneens luiers aanschaffen. Toen het management van de supermarkt dit verband ontdekte, werden de schappen met bier dichter bij de luiers gezet, met als gevolg dat de verkoop van bier steeg
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Op wat is data-gedreven analyse gericht?

A
  • Gericht op het vinden van statistische verbanden = correlaties, die niet per definitie causaal van aard zijn -> oriëntatie op correlatie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Wat is causaliteit

A
  • Causaliteit betekent dat A de oorzaak is van B, terwijl een correlatie slechts indiceert dat A en B in samenhang voorkomen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Is een statistisch verband voldoende voor een beslissing te nemen?

A
  • Vaak wel: bv. marketing: het is voldoende om te weten dat er interesse is, zonder dat het noodzakelijk is om de achterliggende reden te weten.
  • Je moet voorzichtig omgaan met het nemen van beslissingen op geconstateerde correlaties.
  • Of een correlatie daadwerkelijk toereikend is om daarop besluiten te kunnen baseren, hangt veelal af van het te nemen besluit.
    • Zo ontdekte het bestuur van de Amerikaanse staat Illinois een correlatie tussen de aanwezigheid van boeken bij kinderen thuis en behaalde examenresultaten. Hierop overwoog de gouverneur om ieder kind eens per maand een boek op te sturen. Later bleek echter dat de schoolprestaties van kinderen die boeken tot hun beschikking hadden ook hoger waren als de kinderen de boeken niet lazen.
    • De aanwezigheid van boeken bleek slechts een indicatie voor de prettige studieomgeving die ouders voor hun kinderen wisten te creëren. Er bestond geen causaal verband tussen de aanwezigheid van boeken en studieresultaten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Wanneer wordt Big Data nuttig?

A

Het enkel verzamelen = geen nut dus pas nuttig als je relevante informatie uit de data kan distilleren → deze informatie gebruiken als basis voor beleids- of besluitvorming.

Het gehele proces van kennisvergaring en -benutting wordt aangeduid als het Big Data-proces.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Hoe verdeelt de WRR dit?

A
  • Wetenschappelijke Raad voor het Regeringsbeleid (Nederland): verschillende stappen:
  1. Verzameling en voorbereiding
  2. Analyse
  3. Gebruik
  • Het onderscheid is analytisch van aard: Door de snelheid waarmee algoritmes werken en het bestaan van constante feedback loops zullen de fasen in tijd overlappen en niet altijd logisch opeenvolgend voorkomen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Wat is het belang van verzameling en voorbereiding data?

A
  • Wil de analyse toegevoegde waarde hebben → data gereed worden gemaakt voor analyse. Big Data-analyse s mede mogelijk doordat in de fase van datavoorbereiding een grote verscheidenheid aan data, afkomstig uit verschillende bronnen met een verschillende afkomst en structuur samen wordt gebracht.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Data fusion

A
  • Via data fusion kunnen al de soorten heterogene data worden omgezet naar een gestructureerde, homogene dataverzameling. .
  • Veel verschillende soorten technieken voor het koppelen van verschillende soorten data.
    • Door het koppelen van verschillende soorten data worden grote, veelomvattende datasets gecreëerd. Zo was het campagneteam van President Obama in staat om gedetailleerde informatie over campagne-activiteiten te koppelen aan grote hoeveelheden data over de politieke voorkeuren van kiesgerechtigde Amerikanen, hetgeen resulteerde in veelomvattende databases die de gehele kiesgerechtigde populatie van de VS bestreken.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Waarom is analyse essentieel?

A
  • Zonder analyse zouden grote datasets weliswaar kunnen worden opgeslagen en geraadpleegd, maar zou er geen verschil bestaan tussen input en output. Om de waarde van grote hoeveelheden data te benutten, is het noodzakelijk hieruit relevante informatie te vergaren.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Big Data Analytics

A
  • Het geheel van technologieën waarmee kennis kan worden vergaard uit grote datasets valt onder de noemer Big Data analytics. Veel afkomstig van AI technieken (Machine Learning):
    1. Datamining en profileren
    2. Onderscheid analyses
    3. Tekstanalyse
    4. Spraak- en afbeeldingsherkenning
    5. Sociale media-analyses
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Wat is datamining?

A
  • Datamining is een van de voornaamste technologieën die wordt ingezet ten behoeve van Big Data-analyse. Bij datamining worden op geautomatiseerde wijze, door middel van algoritmes, patronen ontdekt in grote datasets. Datamining stelt de gebruiker spreekwoordelijk in staat om door de bomen van data het bos weer te zien. Er bestaan verschillende datamining-algoritmes, die ieder andere correlaties opsporen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Welk onderscheid bestaat binnen datamining?

A
  1. Classificatietechnieken
  2. Clustertechnieken
  3. Regressietechnieken
  4. Associatietechnieken
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Classificatietechnieken

A
  • Erop gericht om gegevens in verschillende, reeds door programmeurs gecreëerde categorieën onder te brengen. De algoritmes die aan deze techniek ten grondslag liggen ‘leren’ van een set aan reeds geclassificeerde voorbeelden door systematisch verschillen en overeenkomsten tussen de verschillende categorieën te vergelijken.
  • Vervolgens zijn de algoritmes in staat om hieruit regels te destilleren en deze toe te passen op nieuwe gevallen.
    • Bv. uit het ziekenhuis ontslagen patiënten ondergebracht worden in verschillende, vooraf gedefinieerde klassen die indiceren in hoeverre het risico op heropname aanwezig is.
    • Bv. spamfilters: Op basis van een analyse van een grote set van als spam gekwalificeerde mails, kan nieuw inkomende spam met een hoge mate van zekerheid worden geïdentificeerd. Vervolgens worden mails die zijn geclassificeerd als spam, automatisch in de spam-box geplaatst; de mails die niet als spam zijn geclassificeerd, verschijnen in de inbox.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Clustertechnieken

A
  • Algoritmes richte zich op het groeperen van gegevens die sterk overeenkomen.
    • Bv. klantenbestand van een winkel aan de hand van hun aankoopgedrag worden onderverdeeld in subgroepen met ‘typen’ klanten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Verschil clustertechnieken en classificatietechnieken?

A
  • Classificatie is gebaseerd op reeds bestaande, van te voren gedefinieerde klassen, terwijl clustering erop is gericht dergelijke klassen te creëren op basis van de data-analyse
35
Q

Wat is outlier detection?

A
  • Sterk verwant aan clusteren is het opsporen van zogenaamde ‘uitbijters’ (outlier detection). Dit betekent dat een algoritme onregelmatigheden in data ontdekt.
    • Bv. Zo kan de belastingdienst atypische (mogelijk frauduleuze) aangiften herkennen en deze aan nader onderzoek onderwerpen.
36
Q

Regressietechnieken

A
  • Formuleren numerieke voorspellingen op basis van in datasets geïdentificeerde verbanden.
  • Voorbeelden:
    • Facebook voorspellen hoe groot de kans is dat een gebruiker in de toekomst actief zal zijn, door het analyseren van reeds beschikbare gegevens als de hoeveelheid gedeelde persoonlijke informatie en het aantal berichten dat deze persoon liket.
    • Een bank die kan voorspellen hoe groot de kans is dat een lening niet wordt terugbetaald met behulp van een algoritme en op basis van gegevens bij het aanvragen van een lening.
37
Q

Associatietechnieken

A
  • Algoritmes zoeken naar correlaties tussen gegevens en worden op basis van deze correlaties associatieregels geformuleerd, die bijvoorbeeld als aanbevelingen aan klanten kunnen worden gepresenteerd.
  • Voorbeeld:
    • De aanbevelingstechnieken van Amazon en Netflix (als u dit interessant vindt, bent u mogelijk ook geïnteresseerd in …) werken op basis van associatie-algoritmes.
38
Q

Definitie profileren

A
  • Nauw verband aan datamaning = profiling of profileren.
  • Algoritmes worden daarbij ingezet om profielen op te stellen, waaronder van personen of groepen van personen. Aan profilering liggen veelal dataminingtechnieken ten grondslag. Om die reden wordt profileren ook wel gezien als op personen toegepaste datamining
39
Q

Onderscheid binnen profileren

A
  1. Persoonsprofiel: Verzameling van eigenschappen (of attributen) van een persoon. Voor het opstellen van een individueel profiel is de regressietechniek geschikt.
    • ​Bv. Mevrouw Jansen, die 46 jaar oud is, vier kinderen heeft en €45.000 per jaar verdient. Bij het verder verfijnen van een persoonsprofiel kan datamining worden ingezet om attributen te voorspellen. Zo kunnen op basis van de berichten die mevrouw Jansen liket op Facebook haar seksuele voorkeur, etniciteit, politieke voorkeur, intelligentie, geluk en mogelijke drugsproblematiek worden voorspeld.
  2. Groepsprofiel: Een groepsprofiel bestaat uit een verzameling attributen van een groep personen.
40
Q

Wat is de onderverdeling groepsprofiel?

A
  1. Distributieve groep: Attributen van de groep zijn aanwezig bij alle personen die zich in de groep bevinden.
    • Niet-getrouw zijn = attribuut van alle personen in de groep vrijgezelle Nederlanders.
  2. Niet-distributieve groep: Dit zijn de meeste groepsprofielen, waarbij de voor de groep geldende attributen niet noodzakelijkerwijs voor alle individuen van de groep gelden: worden vaak uitgedrukt als percentages of gemiddeldes.
    • Bv. een bepaalde postcode gemiddeld 60.000 euro verdienen.
    • Bv. groepsprofiel van personen met blauwe ogen en rood haar, waarvan berekend is dat de kans op het krijgen van een specifieke huidziekte 88% bedraagt.
    • Dit betekent echter niet dat iedere persoon in deze groep deze kans op de huidziekte heeft en al helemaal niet dat deze kans ook wordt verwezenlijkt, omdat dit af kan hangen van individuele factoren als leeftijd, eetgewoonten en het aantal uren dat een persoon doorbrengt in de zon.
41
Q

Waarom is profiling nuttig?

A
  • Profiling kan door het maken van groepsprofielen ook worden gebruikt voor het opstellen van risicoprofielen, bijvoorbeeld ten aanzien van de kans dat iemand zijn lening niet terugbetaald of een terrorist is.
42
Q

Welke algoritmes worden gebruikt voor profiling?

A

Classificatie- en clusteralgoritmes

43
Q

Onderscheid analyses

A
  1. Voorspellende analyse: Technieken gericht op voorspellende analyse = begeleide of gestuurde analyse.
  2. Beschrijvende analyse: Onbegeleide of ongerichte analyses: het algoritme wordt niet vooraf getraind en heeft niet tot doel een bepaald object te kwalificeren. Richten zich op het verschaffen van een beter begrip van de data en het ontdekken van verbanden binnen een dataset.
44
Q

Hoe voeren we een voorspellende analyse?

A
  • Technieken gericht op voorspellende analyse = begeleide of gestuurde analyse.
  • 2 stappen:
    1. Algoritme trainen: Het algoritme wordt getraind door het bloot te stellen aan een reeks geclassificeerde voorbeelden.
      • Bv. gegevens over personen waarvan enkele geclassificeerd zijn als terrorist.
    2. Nieuwe set: Vervolgens wordt het algoritme losgelaten op een nieuwe set aan data en is het in staat om op basis van correlaties en vergelijkbaarheid met de voorbeelden, nieuwe gevallen te classificeren → voorspelling doen over kenmerken van een specifiek object in de data.
      • Zo kan een algoritme in het gegeven voorbeeld op basis van een nieuwe set aan gegevens voorspellen welke personen als terrorist aangemerkt kunnen worden.
45
Q

Welke technieken gaan we voor voorspellende analyse gebruiken?

A

Classificatie- en regressietechnieken

46
Q

Beschrijvende analyse

A
  • Onbegeleide of ongerichte analyses: het algoritme wordt niet vooraf getraind en heeft niet tot doel een bepaald object te kwalificeren.
  • Richten zich op het verschaffen van een beter begrip van de data en het ontdekken van verbanden binnen een dataset.
47
Q

Welke technieken worden gebruikt voor beschrijvende analyse?

A
  • Cluster- en associatietechnieken
48
Q

Wat is prescriptieve analyse

A
  • Descriptieve analyse kan verbonden worden met een zogeheten prescriptieve analyse: Op basis van de uitkomst van een voorspellende analyse kan dan een bepaalde handelswijze worden voorgeschreven.
49
Q

Tekstanalyse

A
  • Stelt de gebruiker in staat om relevante informatie te vergaren uit grote hoeveelheden ongestructureerde tekst, zoals berichten op sociale media en online fora of grootschalige enquêtes.
  1. Text summarisation
  2. Sentiment Analysis
50
Q

Text summarisation

A

Algoritmes die in staat zijn om samenvattingen te maken van grote stukken tekst.

51
Q

Sentiment Analysis

A

= Opinion mining: richt zich op het analyseren van opiniërende teksten over producten, bedrijven, personen en evenementen. Zo kan het voor politieke partijen van belang zijn om informatie te krijgen over op sociale media geuite commentaren tijdens een verkiezingsdebat en streven bedrijven naar een effectieve analyse van productbeoordelingen.

52
Q

Spraak- en afbeeldingsherkenning

A
  • Informatie kan verkregen worden uit (audio)visueel materiaal: bv. callcenters voor klanttevredenheid te monitoren of verkopers zich houden aan het geldende privacybeleid.
  • Andere technieken richten zich op het doorzoeken van duizenden uren aan videomateriaal, bijvoorbeeld ten behoeve van de opsporing van strafbare feiten.
53
Q

Sociale media-analyses

A
  • Richten zich op de gestructureerde en ongestructureerde data die worden gegenereerd op sociale media als Facebook, LinkedIn, Twitter, Instagram en YouTube.
  • Onderverdeling:
    1. Inhoudgebaseerde
    2. Structuurgebaseerde
54
Q

Inhoudgebaseerde sociale media-analyses

A
  • Richten op de de door gebruikers geplaatste ‘content’
55
Q

Structuurgebaseerde sociale media-analyses?

A

Onderzoeken relaties tussen verschillende gebruikers → zo kunnen sub-netwerken kunnen worden geïdentificeerd van gebruikers die veel contact met elkaar hebben en kan de invloed van specifieke actoren op sociale media worden bijgehouden.

56
Q

Menselijke betrokkenheid analyse

A
  • Big Data-analyse vindt plaats met behulp van algoritmes, die ‘zelflerend’ kunnen zijn en zichzelf verder kunnen ontwikkelen op basis van de uitkomsten van de uitgevoerde analyses, maar menselijke betrokkenheid is onmisbaar voor het goed functioneren van data-analyses.
  • Algoritmes worden bedacht, geprogrammeerd en –waar nodig – getraind door mensen. Daarnaast is menselijke betrokkenheid nodig om de verkregen resultaten te interpreteren en te beoordelen op relevantie en geldigheid → niet elke verband = causaal en veel correlaties zijn niet relevant.
  • Mensen zullen ook moeten helpen om een balans te vinden tussen te smalle of te brede analyses. Waar bij te smalle analyses weinig nieuwe kennis uit data zal worden verkregen, leiden te brede analyses sneller tot irrelevante of reeds bekende verbanden. Menselijke intuïtie is nodig om het beste evenwicht hiertussen te bepalen
57
Q

Wat is het uiteindelijke doel van Big Data Analyse?

A
  • Faciliteren van evidence-based decision making → Actionable knowledge, waarbij op basis van uit de analyse verkregen inzichten besluiten kunnen worden genomen of beleid kan worden gemaakt.
58
Q

Belang fase data?

A

Deze fase van het gebruik van de uitkomsten van de data-analyses is getypeerd als de minst technische, maar wel als de belangrijkste fase vanuit een maatschappelijk perspectief.

59
Q

Onderscheid in gebruik data?

A
  1. De fase voorafgaand aan de besluitvorming: De inzichten die uit een data-analyse worden verkregen kunnen worden meegenomen bij het ontwikkelen van besluitvormingsmodellen of algoritmes. De uit analyse verkregen resultaten worden dan gebruikt voor de optimalisering van nieuwe analyses.
    • Bv. statistisch verband tussen grootte van televisisescherm en tijd die duurt om lening terug te betalen: Naar aanleiding van deze bevinding kan schermgrootte worden toegevoegd aan het algoritme dat bepaalt of en onder welke voorwaarden iemand een televisie op krediet kan kopen.
    • Slimme algoritmes gaan zich automatisch aanpassen via feedback loops zodat ze de resultaten van eerder uitgevoerde analyses in rekening nemen.
  2. De besluitvorming: Soms volgt het automatisch uit Big Data analyse: bv. Netflix die films aanraadt op basis van associatie-analyse op basis van eerder bekeken films of series.
60
Q

Wat is kenmerkend voor de besluitvorming?

A
  • Het gaat hier over weinig ingrijpende adviezen, maar kan ook meer dwingend van aard zijn en potentieel een grote invloed hebben op levens.
    • Kan bepalen of iemand al dan niet een lening of hypotheek krijgt → heeft drastische gevolgen voor iemand zijn financiële situatie.
    • De beslissing om strafvorderlijke maatregelen te treffen tegen een persoon op basis van de door een algoritme bepaalde kwalificatie van deze persoon als terrorist, is van een nog ingrijpender aard
  • Vanwege de belangrijkheid van de beslissingen → niet zomaar semi-automatisch beslissingen nemen op Big-data analyse die potentieel grote consequenties heeft.
61
Q

Hoe onderscheid maken bij de toepassingen. big data?

A
  • Wordt op heel veel terreinen gebruikt → onderscheid tussen publieke & private sector.
  • Ook soms niet mogelijk om een volledig beeld te krijgen van Big Data-toepassingen door geheimhouding en het experimentele karakter van sommige toepassingen.
62
Q

Wat zijn de toepassingen van big data in de publieke sector?

A
  1. Veiligheidsdomein
  2. Belastingen
  3. Onderwijs
  4. Sociale zekerheid
  5. Politiek
63
Q

Wat is predictive policing?

A
  • Voorspellen van crimineel en normoverschrijdend gedrag door middel van grootschalige verzameling, verwerking en analyse van data. Voorspellen van criminele activiteiten, mogelijke daders en/of mogelijke slachtoffers.
  • Dit via voorspellende data-analyse
64
Q

Hoe wordt predictive policing gebruikt in de praktijk?

A

Voornamelijk in de opsporingspraktijk om een effectieve politie-inzet te realiseren: bv. welke straat, groepen of individuen extra controle behoeven: Op basis van ingevoerde data, zoals datum, tijdstip, type delict en locatie kan met behulp van een algoritme worden berekend waar de kans op het plaatsvinden van het betreffende type delict het grootst is.

65
Q

Wat is de toekomst van predictive policing?

A
  • Als de toekomstige basis voor het nemen van beslissingen over politiewerk.
  • Nederland wordt verdeeld in vakjes waarbij dan een hoeveelheid data wordt verzameld, demografische gegevens, historische data… → heat maps: die laten zien waar de kans op delicten het grootst is. Deze informatie wordt vervolgens gebruikt om tot een optimale allocatie van politie-inzet te komen en misdaad te voorkomen.
66
Q

Webcrawling

A
  • Toepassing van datamining waarbij het Internet methodisch en automatisch kan worden doorzocht op verdacht materiaal.
  • Analyseren van de achtergrond van een verdachte, opsporen van beeldmateriaal van vuurwapens of kinderporno.
  • Voorbeeld: iColumbo
    • Aan de hand van bepaalde trefwoorden of profielen het Internet te doorzoeken met het oog op de opsporing van strafbare feiten. De dataverzameling wordt door iColumbo geordend en geprioriteerd. Het handmatig doorzoeken van het Internet is met iColumbo niet langer nodig.
67
Q

Toepassing big data bij belastingen?

A
  • Koploper in het gebruik van big data toepassingen
  1. Informatiegestuurd toezicht: data-analyses om fraude te bestrijden en gerichte controles uit te voeren: risico scores, verkeerd ingevulde aangfiten traceren, green lanes voor personen die hun aangifte juist invullen.
  2. Preventie: Belastingdienst in staat om foute belastingaangiftes te voorspellen -> preventieve en controlerende maatregelen af te stemmen.
68
Q

Toepassing big data bij onderwijs?

A
  • Het is van groot belang om leerproces van studenten te kunnen volgen, relevante verbanden kunnen leggen tussen studieresultaten en andere gegevens.
  • Learning analytics: Studiedata analyseren & verzamelen → resultaten van grote waarde bij bevorderen onderwijskwaliteit en onderwijsmonitoring.
    • MyStatLab: Blackboard en andere e-learning-onderwijsapplicaties werd gebruikt om kennis te vergaren over leer processen.
    • Data maakt het mogelijk om een verband te leggen tussen gedrag en onderwijsprestaties: ‘bij wijze van spreken tussen het eetpatroon van studenten en hun scores’
  • Zo nieuwe correlaties ondenkt tussen studieprestaties en een veelheid aan (persoonlijke) karakteristieken als sociaaleconomische achtergrond, etniciteit, leeftijd en geslacht. Deze verbanden kunnen in theorie ten grondslag worden gelegd aan beslissingen over studieondersteuning en toelatingsbeleid.
69
Q

Sociale Zekerheid en big data?

A
  • Heel belangrijk om fraude met publieke gelden tegen te gaan.
  • Risico-indicatie: dient ter voorkoming en bestrijding van misbruik van overheidsgelden binnen de sociale zekerheid.
  • Gegevensanalyse gebeurt in fases:
    • Relevante datasets gekoppeld
    • Potentiële treffers worden nog eens geanalyseerd en nagegaan
  • Voorbeeld: werkloosheid tegen te gaan
    • Ondersteuning op maat per werkloze om ze in te delen in 3 categorieën voor welke soort steun ze krijgen bij het vinden van het werk. Indeling op basis van persoonlijke kenmerken via een computergestuurd interview.
    • Een algoritme bepaalt, op basis van een veelheid aan beschikbare data en het interview, de categorisering van de betreffende werkzoekende.
70
Q

Politiek en big data?

A
  • Het voorbeeld van de verkiezingscampagne van President Obama toont aan dat Big Data analyse van groot belang kan zijn binnen het politieke domein. In een politieke setting kunnen Big Data-technieken onder meer worden gebruikt bij het uiteenzetten van een campagnestrategie, het analyseren van de invloed van politici en het opstellen van kiezersprofielen.
71
Q

Toepassingen big data in de private sector?

A
  1. Financiële sector en verzekeringen
  2. Commerciële sector: retail en marketing
  3. Human resources
  4. Social media en zoekmachines
72
Q

Financiële sector en verzekeringsbranche en Big Data?

A
  • Opsporen kredietfraude, uitvoeren risico-inventarisaties van potentiële klanten, datamining. Creditscores = vorm van Big Data en bepaalt het economische lot van miljoenen individuen.
    • Zeer gevarieerde data → over te gaan tot een kredietbeoordeling.
  • Verzekeringswezen: eenzelfde soort techniek toegepast, op basis waarvan uitgebreide risicotaxaties worden gemaakt bij het berekenen van premies en uitkeringen.
    • Ook voorspelen van waarde van aandelen, opties, derivaten = kern financiële wereld en Big Data.
73
Q

Wat is de credit score?

A
  • Het berekenen van de kredietwaardigheid geschiedt door het loslaten van een algoritme op een bepaalde set aan variabelen, bijvoorbeeld iemands betaalgeschiedenis, uitstaande schulden en de verhouding tussen het vermogen van de kredietaanvrager en de hoogte van de lening. Aan iedere variabele wordt een numerieke waarde verbonden, die in samenhang de kredietscore bepalen.
  • Met het beschikbaar worden van grotere hoeveelheden data, kunnen tegenwoordig ook andere gegevens worden meegenomen. Het kan hierbij bijvoorbeeld gaan om sociale-mediagegevens, algehele uitgavenpatronen, opleiding en telefoonrekening
74
Q

Commerciële sector (retail en marketing) & big data?

A
  • McKinsey: 16 Big Data-technieken die door (online) winkels gebruikt worden ten behoeve van omzetmaximalisatie.
75
Q

Cross selling

A

Big Data analyse kan gebruikt worden om bestaande klanten meerdere producten te laten kopen (cross-selling).

76
Q

Behavioural targeting

A

Marketing kan worden afgestemd op individuele (potentiële) klanten op basis van online gedrag.

77
Q

Location-based marketing

A

Real-time locatie van de klant wordt gebruikt.

78
Q

Sentiment analysis

A

Analyse an het ‘in store’ gedrag van klanten

79
Q

Price discrimination of price optimalization

A

Prijzen van producten of diensten kunnen op elkaar worden afgestemd: op individuen of groepen van klanten.

80
Q

Consumer profiling

A

Overkoepelende term waarbij op basis van data-analyse een zeer gedetailleerd profiel van een consument worden opgesteld. Dit profiel kan bestaan uit daadwerkelijk bestaande of door middel van analyse voorspelde karakteristieken van de specifieke consument. Marketing- en verkoopstrategieën kunnen vervolgens ‘op maat’ worden ingezet.

81
Q

Human Resources en big data?

A
  • Bv. om het toekomstige succes van (potentiële) werknemers te voorspellen: nuttig voor werving en selectie.
  • Ook in staat om naar veel meer te kijken dan slechts cijfers, diploma’s en de resultaten van een assessment bij het aannemen van nieuwe werknemers. Ook activiteit op sociale media, of een tekstanalyse van het cv of een sollicitatiebrief kunnen worden meegenomen.
    • De uitkomst van de op een algoritme gebaseerde analyse kan vervolgens(mede) bepalen wie voor een sollicitatiegesprek wordt uitgenodigd of wordt aangenomen. Het werk van recruiters blijkt deels al overgenomen te kunnen worden door algoritmes.
  • Uit een analyse van 440.000 cv’s blijkt dat een algoritme met 80% zekerheid kan voorspellen welke kandidaten door recruiters op gesprek zullen worden uitgenodigd. Het algoritme is eveneens in staat te beoordelen welke kandidaten geschikt zijn voor specifieke functies
82
Q

Social media en zoekmachines en big data?

A
  • Sociale media-data = nuttig zijn om het optimaal gebruik te faciliteren van de enorme hoeveelheden data die hun gebruikers genereren.
  • Facebook: gepersonaliseerde newsfeed die Facebook relevant acht.
  • Google: zoekresultaten personaliseren en prioriteiten: Google zelf stelt dat het uitgebreid gemaakt maakt van ‘new algorithmic ideas to impact millions of users’.
  • Hier ook behavioral targeting: De advertenties die op sociale media en via zoekmachines worden getoond zijn vormen van behavioural targeting. Advertenties worden daarbij afgestemd op zoekslagen die gebruikers in een zoekmachine hebben ingevoerd of op de pagina’s die een persoon op sociale media heeft geliket.
83
Q

Wat is de proliferatie van big data toepassingen?

A
  • Door voortschrijdende technologische ontwikkelingen zal Big Data-analyse niet langer voorbehouden zijn aan ‘grote’, invloedrijke en financieel daadkrachtige organisaties.
    • Blok constateert dat ‘de infrastructuur om gegevens op te slaan en te verwerken niet alleen ter beschikking [staat] aan grote organisaties en ondernemingen, maar ook aan KMO’s en particulieren.
  • In de toekomst valt dan ook een proliferatie van Big Data-toepassingen te verwachten, waarbij Big Data wordt gebruikt door een veelheid aan overheidsinstanties, ondernemingen en particulieren.