H4 Dataverzameling & Sampling Flashcards

1
Q

Wat is een Corpus?

A

Corpus (mv. corpora) is datasets die bestaan uit een grote verzameling teksten. Vaak voorzien van verschillende soorten metadata (= info over de teksten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wetenschappelijke corpora worden beschreven in welke twee soorten publicaties?

A
  1. Studies volledig gericht op het samenstellen en beschikbaar stellen van een corpus. Vaak gepubliceerd in gespecialiseerde tijdschriften en overgedragen aan nationale instanties als Corpus Gesproken Nederland
  2. Studies die een corpus samenstellen om zelf iets te zeggen over de data. Vind je in alle gangbare tijdschriften binnen communicatiewetenschap
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat is census?

A

Alle data die er bestaat verzamelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Waarom is een census niet altijd het best?

A
  • Waarom meer verzamelen als je steekproef betrouwbare conclusies geeft?
  • Coderen kan tijdrovend zijn, denk bij een tijdsberekening aan pauze en productiviteit
  • Meestal simpelweg niet praktisch haalbaar
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat is probability sampling?

A

Dat is een overkoepelde naam voor meerdere manieren samplen –> op basis van kans!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welke soorten probability sampling zijn er?

A
  1. Simple Random Sampling
  2. Stratified Random Sampling
  3. Systemic Sampling
  4. Cluster Sampling
  5. Multistage Sampling
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat houdt Simple Random Sampling in?

A

Kandidaten volledig willekeurig selecteren
bv. met lootjes of een randomizer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat zijn de nadelen van Simple Random Sampling?

A

Nadeel: Vereist dat je toegang hebt tot de hele populatie
Nadeel: Kan voorkomen dat bepaalde sub-populaties niet voldoende vertegenwoordigd zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat houdt Stratified Random Sampling in?

A

Eerst verschillende strata (sub-populaties) onderscheiden en binnen elke deelgroep een steekproef nemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat is een nadeel van Stratified Random Sampling?

A

Nadeel: Vereist een goed overzicht van de populatie met een lijst van alle leden van de verschillende sub-populaties

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat houdt Systemic Sampling in?

A

Willekeurig startpunt + intervalwaarde n en vervolgens selecteer je iedere Nde item dat je tegenkomt. De N waarde is gebaseerd op de grote van de populatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is het nadeel van Systemic Sampling?

A

Nadeel: Kan een bias ontstaan in je selectie, bv. bij een vaste rotatie in een televisie programma

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is Cluster Sampling?

A

Groepeer alle berichten van interesse in clusters, selecteer dan een random cluster om verder te analyseren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is een voordeel en wat is een nadeel van Cluster Sampling?

A

Voordeel: data is geconcentreerd in beperkte periode –> bespaart tijd en geld
Nadeel: Moet wel opletten dat je niet periode van uitzondering kiest (bv. reclames terwijl wk periode analyseert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is Multistage Sampling?

A

Combineert bovenstaande strategieën.
bv. eerst een aantal clusters selecteren, vervolgens binnen cluster Stratified Random Sampling uitvoeren.
- Multistage cluster sampling: cluster sampling in een geïdentificeerde cluster

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat is non-probability sampling?

A

Alternatieve benadering die vaak minder generaliseerbaar zijn maar nog steeds relevante inzichten kunnen opleveren
(niet op basis van kans)

17
Q

Welke soorten Non-probability sampling zijn er?

A
  1. Convenience sampling
  2. Purposive/judgement sampling
  3. Quota sampling
18
Q

Wat is convenience sampling?

A

Kies gemakkelijk vergelijkbare gevallen
bv. studenten als doelgroep van een experimentele studie

19
Q

Wat is een voordeel en nadeel van convenience sampling?

A

Voordeel: erg gemakkelijk
Nadeel: niet altijd representatief of goed doordacht

20
Q

Wat is Purposive/ Judgement sampling?

A

Beoordeel als onderzoeker zelf of een item in het sample opgenomen moet worden of niet
- Ook belangrijk is om bij te houden wat niet voldoet aan de eisen, eventueel ook waarom!

21
Q

Wat is Quota sampling?

A

Zelf items kiezen voor de dataset, waarbij je zorgt dat de numerieke verhoudingen tussen de items in je dataset overeenkomen met de verhouding in de populatie (niet-kans gedreven stratified sampling)

22
Q

Wat is van belang om jezelf af te vragen als je spreekt over generaliseerbaarheid naar de populatie?

A

het is van belang dat je je afvraagt wie de populatie is.
In een experiment kunnen dit alleen levende wezens zijn. In een inhoudsanalyse ook levenloze dingen zoals boeken of reclames

23
Q

Wat houdt representativiteit online in?

A

We weten niet hoe zoekresultaten bij ons komen, dus is het van belang om kritisch te kijken. Krijg jij bijvoorbeeld dezelfde resultaten als een ander met dezelfde zoekopdracht? (denk aan filterbubbels)

24
Q

Hoe doe je kritisch kijken naar het platform, met welke stappen kun je daar over nadenken?

A
  1. Inclusie en uitsluiting (patterns of inclusion)
  2. De evaluatie van relevantie (The evaluation of relevance)
  3. Verstrengeling met het gebruik (entanglement with practice)
25
Q

Wat houdt Inclusie in uitsluiting in?
(kritisch kijken naar het platform)

A

Wat wordt er opgenomen in de index, wat wordt er uitgesloten en hoe wordt de data bewerkt?
Exclusion & demotion

26
Q

Wat betekenen de termen Exclusion & Demotion (bij inclusie en uitsluiting)

A

Exclusion = alles tegen de richtlijnen van een platform in wordt verwijderd
Demotion = soms laat het systeem bepaalde info aan minder mensen zien

27
Q

Wat houdt de evaluatie van relevantie in? (kritisch kijken naar het platform)

A

De criteria waarmee algoritmen bepalen wat relevant is. Computers zijn objectief, maar de ontwerpers achter de systemen niet. Hoe bepaal je wat bovenaan in de zoekresultaten staat?

28
Q

Wat houdt Verstrengeling met het gebruik in? (kritisch kijken naar het platform)

A

We kunnen technologie niet los zien van de gebruikers van de technologie en hoe zij gebruik maken van (werkelijke of ingebeelde) eigenschappen van die technologie om hun doelen te bereiken
bv. YouTubers maken een typefout in hun video’s, zodat meer mensen commenteer en door meer engagement pakt het algoritme het sneller op en komt de video aan meer mensen hun homepage

29
Q

Op welke manieren kan je data verzamelen?

A
  1. Handmatige dataverzameling : zelf alles verzamelen (afhankelijk van de tijd die dit kost, kan je kijken of automatiseren het waard is)
    - Iemand anders moet kunnen reconstrueren hoe je de data verzameld hebt
    - Iemand anders moet zelf een vergelijkbare dataset kunnen samenstellen op basis van jouw opgeschreven instructies
  2. Automatische dataverzameling: computers doet het werk, keuze uit
    -Bestaande hulpmiddelen: programma’s die ontwikkeld zijn om data te verzamelen van een bepaalde website of online platform (bv. instalooter)
    - Een zelfgeschreven script: zelf programmeren om data automatisch te verzamelen, kost veel tijd, vaak wel gebruikt om data in het juiste formaat te krijgen
30
Q

Wat sla je op van je data?

A

-URL
-Auteur
-Datum (van zoekopdracht en plaatsing)
-Identifier (unieke code van bron in jouw verzameling)
-Zoveel mogelijk andere info

31
Q

Wat moet je doen als je social media accounts van meerdere groepen gebruikt?

A

Dan moet je uitleggen hoe je tot die groepering bent gekomen

32
Q

Wat moet je aangeven als je een zoekmachine gebruikt?

A
  • Welke zoektermen je gebruikt
    -Hoeveel zoekresultaten je hebt gevonden
    -Hoeveel items je daarvan gebruikt hebt
    -Hoe je die items geselecteerd hebt
33
Q

Wat is de PRISMA- methode?

A

Fase 1 (Identification) Records identified through database searching (n= ) & Additional records identified through other sources (n= )
gaan naar
Records after duplicates removed (n = )
Gaat naar
fase 2 (Screening):
Records screened (n= ) en –> records excluded (n= )
Naar fase 3 (Eligibility)
Full-text articles assessed for eligibility (n =) en Full-text articles excluded, with reasons (n= )
Naar fase 4 (Included)
Studies included in qualitative synthesis (n= )
naar
Studies included in quantitative synthesis (meta-analysis) (n = )

(plaatje is duidelijker :))

34
Q
A