Hoorcollege 12 Flashcards
Big data
Wat zijn de 4 voordelen van bestaande data?
- Mogelijkheid tot niet-reactieve (non-reactive) dataverzameling
- Kosten- en tijdsbesparing
- Bestuderen van fenomenen in het verleden
- Veel data
- Vergelijkend onderzoek (bijv. cross-cultureel met ISSP)
- Bestuderen van maatschappelijke, sociale en culturele veranderingen
Wat zijn data-archieven?
- Opslagplaatsen voor data die al verzameld zijn
- Secundaire analyse (secondary analysis)
Voorbeelden:
* General Social Survey (GSS)
* European Social Survey (ESS)
* International Social Survey Programme (ISSP)
* Organization for Economic Co-Operation and Development (OECD)
Wat wordt er bedoeld met privé-documenten?
Privé-bezit van personen
* Dagboeken (bijv. dagboek Anne Frank)
* Brieven (bijv. brieven van soldaten aan familie tijdens WWII)
Privé-bezit van bedrijven en organisaties
* Personeelsbestanden
* Fiscale rapporten
* Patiëntenbestanden van ziekenhuizen
Waar kan je betouwbare informatie vinden over bijvoorbeeld statistiek? (2 bronnen)
Rijksoverheid en CBS
Wat is Open Science Framwork?
➢ Inventarisatie: Is mijn onderzoeksvraag nieuw en uniek?
➢ Ontwerp: Preregistratie
➢ Uitvoering: Opslaan van data (= data repository) en analysestrategie
➢ Verslaglegging: Gelinkt aan alle voorgaande informatie
Voordelen
✓ Bevordert transparantie en dus controleerbaarheid en repliceerbaarheid van onderzoek
✓ Bevordert wetenschappelijke vooruitgang
✓ Bevordert samenwerking tussen onderzoekers over de hele wereld
Wat is massamedia en in welke 3 vormen komen we het tegen?
Fysiek: kranten, tijdschriften
Digitaal: televisie, radio, films
Online: Facebook, Instagram, X, YouTube
Wat is Big Data?
- 2011: Eerste publicatie van onderzoek op basis van big data (als zodanig vermeld)
- 2014: Meer dan 1600 publicaties
- 2014 – nu: Sterke groei gebruik big data in sociologie en business-gerelateerde praktijk
→ Toenemend aanbod Data Science bachelor- en masterprogramma’s
Kenmerken:
* Digitaal verzamelde data (vaak automatisch) – bijv. NS, apps, cookies
- Extreem grote datasets met enorm veel variabelen
- Welke variabelen?
- Hoe te interpreteren?
- Hoe te gebruiken in onderzoek?
- Gebruik van geavanceerde rekenmethodes om te analyseren
- Veel programmeren en data modeling en - visualisatie
- Big Data (achtergrond, ALLE data) ≠ Massamedia (zichbaar, kleine schaal)
Wat bedoelen we met fysieke bronnen en non-verbale bronnen?
- Kunst, kleding, huishouditems
- Zelden gebruikt in sociaal wetenschappelijk onderzoek
- Forensisch onderzoek
- Archeologie / Culturele antropologie
- Gedrag in het (verre) verleden
3 uitdagingen bij zoeken, vinden en toegang
- Onderzoeksvraag (en hypotheses) als leidraad
→ Ook als de data al beschikbaar is! - Zoek naar bestaande studies over het onderwerp
→ Bijv. in OSF, en vraag auteurs hun data met je te delen - Toegang tot vertrouwelijke informatie (bijv. patiëntbestanden, bedrijfsdocumenten)
→ Gaat vaak veel tijd overheen!
Uitdagingen bij meten van concepten
- Onvolledige informatie over te meten concepten
- Vaak bij surveydata (bijv. GSS (US) en ESS (Europa))
➢
Regelmatig incomplete of suboptimale maten voor concepten
→ Wees volhardend en creatief! (m.a.w., beter iets suboptimaals dan helemaal niets)
Uitdagingen bij evalueren van kwaliteit
- Kwaliteitscriteria (HC2 & HC4) blijven gelden!
Uitdagingen
*Hoe is de data verzameld?
Bijv. survey-data
*Accuraatheid en consistentie?
Bijv. openbare documenten
- Interpretatie?
Bijv. survey-data en privé-documenten - Authenticiteit?
Bijv. Fysieke bronnen en historische documenten
➢ Eventueel verschillende bronnen vergelijken! (= triangulatie)
Uitdagingen bij (on)volledigheid
- Hoe adequaat is de data voor jouw onderzoek?
- Populatie & soort steekproef? > generaliseerbaarheid
Bijv. Survey-data uit data-archieven
- Selectieve overleving (selective survival)
- Selectieve verdwijning (selective deposit)
Bijv. historische documenten & privé-documenten - Volledige dekking & overrepresentatie
Bijv. Big data