H4 Dataverzameling & Sampling Flashcards

Question 1

Q

Wat is een Corpus?

Answer

A

Corpus (mv. corpora) is datasets die bestaan uit een grote verzameling teksten. Vaak voorzien van verschillende soorten metadata (= info over de teksten)

Question 2

Q

Wetenschappelijke corpora worden beschreven in welke twee soorten publicaties?

Answer

A

Studies volledig gericht op het samenstellen en beschikbaar stellen van een corpus. Vaak gepubliceerd in gespecialiseerde tijdschriften en overgedragen aan nationale instanties als Corpus Gesproken Nederland
Studies die een corpus samenstellen om zelf iets te zeggen over de data. Vind je in alle gangbare tijdschriften binnen communicatiewetenschap

Question 3

Q

Wat is census?

Answer

A

Alle data die er bestaat verzamelen.

Question 4

Q

Waarom is een census niet altijd het best?

Answer

A

Waarom meer verzamelen als je steekproef betrouwbare conclusies geeft?
Coderen kan tijdrovend zijn, denk bij een tijdsberekening aan pauze en productiviteit
Meestal simpelweg niet praktisch haalbaar

Question 5

Q

Wat is probability sampling?

Answer

A

Dat is een overkoepelde naam voor meerdere manieren samplen –> op basis van kans!!

Question 6

Q

Welke soorten probability sampling zijn er?

Answer

A

Simple Random Sampling
Stratified Random Sampling
Systemic Sampling
Cluster Sampling
Multistage Sampling

Question 7

Q

Wat houdt Simple Random Sampling in?

Answer

A

Kandidaten volledig willekeurig selecteren
bv. met lootjes of een randomizer

Question 8

Q

Wat zijn de nadelen van Simple Random Sampling?

Answer

A

Nadeel: Vereist dat je toegang hebt tot de hele populatie
Nadeel: Kan voorkomen dat bepaalde sub-populaties niet voldoende vertegenwoordigd zijn

Question 9

Q

Wat houdt Stratified Random Sampling in?

Answer

A

Eerst verschillende strata (sub-populaties) onderscheiden en binnen elke deelgroep een steekproef nemen

Question 10

Q

Wat is een nadeel van Stratified Random Sampling?

Answer

A

Nadeel: Vereist een goed overzicht van de populatie met een lijst van alle leden van de verschillende sub-populaties

Question 11

Q

Wat houdt Systemic Sampling in?

Answer

A

Willekeurig startpunt + intervalwaarde n en vervolgens selecteer je iedere Nde item dat je tegenkomt. De N waarde is gebaseerd op de grote van de populatie

Question 12

Q

Wat is het nadeel van Systemic Sampling?

Answer

A

Nadeel: Kan een bias ontstaan in je selectie, bv. bij een vaste rotatie in een televisie programma

Question 13

Q

Wat is Cluster Sampling?

Answer

A

Groepeer alle berichten van interesse in clusters, selecteer dan een random cluster om verder te analyseren

Question 14

Q

Wat is een voordeel en wat is een nadeel van Cluster Sampling?

Answer

A

Voordeel: data is geconcentreerd in beperkte periode –> bespaart tijd en geld
Nadeel: Moet wel opletten dat je niet periode van uitzondering kiest (bv. reclames terwijl wk periode analyseert)

Question 15

Q

Wat is Multistage Sampling?

Answer

A

Combineert bovenstaande strategieën.
bv. eerst een aantal clusters selecteren, vervolgens binnen cluster Stratified Random Sampling uitvoeren.
- Multistage cluster sampling: cluster sampling in een geïdentificeerde cluster

Question 16

Q

Wat is non-probability sampling?

Answer

A

Alternatieve benadering die vaak minder generaliseerbaar zijn maar nog steeds relevante inzichten kunnen opleveren
(niet op basis van kans)

Question 17

Q

Welke soorten Non-probability sampling zijn er?

Answer

A

Convenience sampling
Purposive/judgement sampling
Quota sampling

Question 18

Q

Wat is convenience sampling?

Answer

A

Kies gemakkelijk vergelijkbare gevallen
bv. studenten als doelgroep van een experimentele studie

Question 19

Q

Wat is een voordeel en nadeel van convenience sampling?

Answer

A

Voordeel: erg gemakkelijk
Nadeel: niet altijd representatief of goed doordacht

Question 20

Q

Wat is Purposive/ Judgement sampling?

Answer

A

Beoordeel als onderzoeker zelf of een item in het sample opgenomen moet worden of niet
- Ook belangrijk is om bij te houden wat niet voldoet aan de eisen, eventueel ook waarom!

Question 21

Q

Wat is Quota sampling?

Answer

A

Zelf items kiezen voor de dataset, waarbij je zorgt dat de numerieke verhoudingen tussen de items in je dataset overeenkomen met de verhouding in de populatie (niet-kans gedreven stratified sampling)

Question 22

Q

Wat is van belang om jezelf af te vragen als je spreekt over generaliseerbaarheid naar de populatie?

Answer

A

het is van belang dat je je afvraagt wie de populatie is.
In een experiment kunnen dit alleen levende wezens zijn. In een inhoudsanalyse ook levenloze dingen zoals boeken of reclames

Question 23

Q

Wat houdt representativiteit online in?

Answer

A

We weten niet hoe zoekresultaten bij ons komen, dus is het van belang om kritisch te kijken. Krijg jij bijvoorbeeld dezelfde resultaten als een ander met dezelfde zoekopdracht? (denk aan filterbubbels)

Question 24

Q

Hoe doe je kritisch kijken naar het platform, met welke stappen kun je daar over nadenken?

Answer

A

Inclusie en uitsluiting (patterns of inclusion)
De evaluatie van relevantie (The evaluation of relevance)
Verstrengeling met het gebruik (entanglement with practice)

Question 25

Q

Wat houdt Inclusie in uitsluiting in?
(kritisch kijken naar het platform)

Answer

A

Wat wordt er opgenomen in de index, wat wordt er uitgesloten en hoe wordt de data bewerkt?
Exclusion & demotion

Question 26

Q

Wat betekenen de termen Exclusion & Demotion (bij inclusie en uitsluiting)

Answer

A

Exclusion = alles tegen de richtlijnen van een platform in wordt verwijderd
Demotion = soms laat het systeem bepaalde info aan minder mensen zien

Question 27

Q

Wat houdt de evaluatie van relevantie in? (kritisch kijken naar het platform)

Answer

A

De criteria waarmee algoritmen bepalen wat relevant is. Computers zijn objectief, maar de ontwerpers achter de systemen niet. Hoe bepaal je wat bovenaan in de zoekresultaten staat?

Question 28

Q

Wat houdt Verstrengeling met het gebruik in? (kritisch kijken naar het platform)

Answer

A

We kunnen technologie niet los zien van de gebruikers van de technologie en hoe zij gebruik maken van (werkelijke of ingebeelde) eigenschappen van die technologie om hun doelen te bereiken
bv. YouTubers maken een typefout in hun video’s, zodat meer mensen commenteer en door meer engagement pakt het algoritme het sneller op en komt de video aan meer mensen hun homepage

Question 29

Q

Op welke manieren kan je data verzamelen?

Answer

A

Handmatige dataverzameling : zelf alles verzamelen (afhankelijk van de tijd die dit kost, kan je kijken of automatiseren het waard is)
- Iemand anders moet kunnen reconstrueren hoe je de data verzameld hebt
- Iemand anders moet zelf een vergelijkbare dataset kunnen samenstellen op basis van jouw opgeschreven instructies
Automatische dataverzameling: computers doet het werk, keuze uit
-Bestaande hulpmiddelen: programma’s die ontwikkeld zijn om data te verzamelen van een bepaalde website of online platform (bv. instalooter)
- Een zelfgeschreven script: zelf programmeren om data automatisch te verzamelen, kost veel tijd, vaak wel gebruikt om data in het juiste formaat te krijgen

Question 30

Q

Wat sla je op van je data?

Answer

A

-URL
-Auteur
-Datum (van zoekopdracht en plaatsing)
-Identifier (unieke code van bron in jouw verzameling)
-Zoveel mogelijk andere info

Question 31

Q

Wat moet je doen als je social media accounts van meerdere groepen gebruikt?

Answer

A

Dan moet je uitleggen hoe je tot die groepering bent gekomen

Question 32

Q

Wat moet je aangeven als je een zoekmachine gebruikt?

Answer

A

Welke zoektermen je gebruikt
-Hoeveel zoekresultaten je hebt gevonden
-Hoeveel items je daarvan gebruikt hebt
-Hoe je die items geselecteerd hebt

Question 33

Q

Wat is de PRISMA- methode?

Answer

A

Fase 1 (Identification) Records identified through database searching (n= ) & Additional records identified through other sources (n= )
gaan naar
Records after duplicates removed (n = )
Gaat naar
fase 2 (Screening):
Records screened (n= ) en –> records excluded (n= )
Naar fase 3 (Eligibility)
Full-text articles assessed for eligibility (n =) en Full-text articles excluded, with reasons (n= )
Naar fase 4 (Included)
Studies included in qualitative synthesis (n= )
naar
Studies included in quantitative synthesis (meta-analysis) (n = )

(plaatje is duidelijker :))

Question 34

Q

Brainscape's Knowledge GenomeTM

H4 Dataverzameling & Sampling Flashcards

Brainscape's Knowledge Genome^TM