Big data Flashcards
1
Q
3/4 V’s van
Big Data
A
- Volume
- Variatie
- Velociteit
- (Veracity)
2
Q
Volume
A
- dit maakt het ‘big’
- het is geen sample, maar een registratie van ‘alles’ dat gebeurt
- zowel breed (veel variabelen) als diep (veel datapunten per variabele)
3
Q
Variatie
A
- tekst, afbeeldingen, video, audio
- zowel traditioneel gestructureerde gegevens als ongestructureerde gegevens
4
Q
Velociteit (snelheid)
A
vaak zijn dit soort gegevens realtime beschikbaar
5
Q
Veracity
A
waarachtigheid, kwaliteit/vertrouwelijkheid van de gegevens
6
Q
Voordelen
A
- goede ecologische validiteit door een unobtrusive meting
- analyse bouwt voort op technieken voor inhoudsanalyse, maar op grotere schaal en gekoppeld aan andere contextuele gegevens waardoor je nieuwe, voorheen onmogelijke onderzoeksvragen kunt beantwoorden
- speciale populaties en zeldzame verschijnselen zijn makkelijker te vinden
- vermindert risico op fouten door een niet-representatieve of te kleine steekproef
- je kunt meer dynamische en geavanceerde modellen maken
- helpt bij het vinden van correlaties die geen enkele huidige theorie zou voorspellen
7
Q
Uitdagingen
A
niet vrijgesteld van zorgen over:
- (externe) validiteit
- wat betekenen begrippen
- kunnen we ‘echte; attitudes afleiden uit een online persona?
- repliceerbaarheid
- valse correlaties: als een dateset zo groot is zullen er altijd statisch significante correlaties zijn tussen sommige variabelen
- overfitting: je kunt bestaande gegevens heel goed verklaren maar kan het ook goed nieuwe gegevens voorspellen?