H8: Mensen En Computers Flashcards

1
Q

Wat zijn de uitdagingen van het selecteren van de juiste data?

A
  • Kritisch op validiteit van onderzoeksmethode
    -Controleer dat er geen systematische bias optreedt in de selectie (bv. wanneer altijd dezelfde soort items ten onrechte uitgesloten wordt)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat is data analyse?

A

Automatische analyse van de verschillende soorten boodschappen die je zou kunnen bestuderen via een inhoudsanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat zijn de drie uitgangspunten voor automatische analyses (via computers)?

A

Regel 1: Als een mens het niet kan (ook niet met veel moeite), kan een computer het ook niet
Regel 2: Hoe abstracter (of latenter) de analyse, des te moeilijker wordt het voor de computer
Regel 3: Technologie is nooit objectief: om een computerprogramma te schrijven, doen programmeurs altijd aannames over hoe de wereld in elkaar zit. Er zit dus altijd een bepaald perspectief op de wereld in de programma’s die je gebruikt.

(Door te kiezen voor een automatische oplossingen, beperk je het aantal mogelijke oplossingen voor de vraag die je wil beantwoorden. Zo kan je bv. geen uitzondering maken voor speciale gevallen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is latent en wat is manifeste?

A

Latent = onderliggende, meer verborgen informatie
Manifeste = direct waarneembare informatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat zijn veelgebruikte oplossingen voor automatische inhoudsanalyse van teksten, afbeeldingen en geluidsfragmenten?

A
  1. Algemene (niet-inhoudelijke statistieken)
  2. Woordenlijsten (dictionary-based approach)
  3. Sentiment analyse
  4. Automatische beeldherkenning
  5. ChatGPT en andere taalmodellen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat houdt de oplossing voor automatische inhoudsanalyse: Algemene (niet-inhoudelijke statistieken) in?

A

Het geven van verschillende statistieken over de vorm van tekst, denk aan min./max./gem. zinslengte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat houdt de oplossing voor automatische inhoudsanalyse: Woordenlijsten (Dictionary-based approach) in?

A

Teksten analyseren via woordenlijsten die geassocieerd zijn met een bepaalde categorie
-LIWC: programma met gevalideerde woordenlijsten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat zijn de voor en nadelen van woordenlijsten (dictionary-based approach)?

A

Voordeel: snel, transparant, efficiënt
Nadeel: beperkte dekking
Nadeel: Betekenis is context-afhankelijk

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat houdt de oplossing voor automatische inhoudsanalyse: Sentiment analyse in?

A

Programma’s die meten of een tekst positief of negatief is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat zijn de nadelen van sentiment analyse?

A

-Nadeel: computers zijn minder goed in het begrijpen van niet-letterlijke betekenis
Nadeel: je weet nog steeds niet waarover mensen zich positief of negatief uitlaten (=Stance detection)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat houdt Stance detection in?

A

Het uitvinden van standpunten in tekstuele uitingen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat houdt de oplossing voor automatische inhoudsanalyse: Automatische beeldherkenning in?

A

Bv. herkennen hoeveel mensen lachen op een foto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is het nadeel van automatische beeldherkenning?

A

nadeel: Sterke computer voor nodig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat houdt de oplossing voor automatische inhoudsanalyse: ChatGPT en andere taalmodellen

A
  • Taalmodellen hebben duidelijke instructies nodig (= duidelijke prompt)
    -Taalmodellen moeten getest worden
    *Behandel de evaluatie van het taalmodel als een pilotstudie
    • behandel de evaluatie van het taalmodel als testen van een software
      -Taalmodellen zijn niet altijd veilig op te gebruiken
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is er met automatische oplossingen en specificiteit?

A

Automatische oplossingen zijn vaak erg specifiek, gericht op één specifiek domein/genre of op een specifieke verzameling concepten/entiteiten. Als jouw probleem afwijkt, wordt het nut en de betrouwbaarheid van het automatische systeem lager

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Automatisch vs. semi-automatisch, wat is de afweging daartussen?

A

Volledig automatisch:
Relatief betrouwbaar, vervang menselijke codeurs.
Bv. te gebruiken bij:
- Zinslengte (aantal karakters/woorden)
-Voorkomen specifieke woorden of karakters (incl. emojis)
- Andere oplossingen die je getest hebt voor jouw data

Semi-automatisch:
Eerst computer door alle data heengaan en dan handmatig controleren of alles klopt.
Heuristiek = een vuistregel die meestal klopt, voor coderen twee soorten
1. Woorden die meestal duiden op een bepaalde categorie X, maar niet altijd –> alle data controleren (sorry kan serieus maar ook sarcastisch)
2. Woorden die meestal voorkomen bij een bepaalde categorie X, maar niet altijd –> vooral negatieve gevallen controleren (bv. niet)

17
Q

Wat is modulariteit?

A

Verschillende onderdelen van je project splitsen in losse eenheden/modeles

18
Q

Wat zijn de voordelen van modulariteit?

A

Voordeel: beter overzicht van de taken die nog verricht moeten worden
Voordeel: Verschillende groepsleden kunnen tegelijkertijd aan verschillende onderdelen werken
Voordeel: achteraf duidelijker hoe je verschillende onderdelen aangepakt hebt
Voordeel: Onderdelen uit eerdere studies eenvoudiger herbruikbaar in de toekomst

19
Q

Waarom is het belangrijk dat er een scheiding blijft tussen de dataverzameling en de data-analyse?

A

Als je het in een keer doet, is de ruwe data nergens tussentijds opgeslagen en dit is erg belastend voor het programma dat je gebruikt.

Daarom voordelen van modulariteit:
- Transparantie: Je weet precies

20
Q

Wat zijn de voordelen van modulariteit in betrekking tot de scheiden van dataverzameling en data-analyse?

A
  • Transparantie: je weet precies hoe ruwe data eruit ziet, werk is makkelijker te verdelen
  • Stabiliteit: data blijft binnen hetzelfde tijdsbestek (bv. populaire berichten vandaag kunnen anders zijn dan morgen)
    -Taakverdeling: als data-format van te voren afgesproken kan je allemaal alvast beginnen met het ontwikkelen van analyse scripts voor dataverzameling compleet is
21
Q

De scheiding van verschillende analyses kan je op welke twee manieren doen?

A
  1. Scheiding van verschillende variabelen: als je verschillende variabelen automatisch codeert is het nuttig om de code voor het berekenen van de verschillende variabelen niet teveel te vervlechten met elkaar
  2. Scheiding van coderen en resultaten: bij het automatisch coderen van variabelen, kan je descriptieve en toetsende statistiek beter in een andere file berekenen en eerst tussendoor op te slaan
22
Q

Wat zijn functies, operatoren & vulgreep in Excel?

A

Functies: Voor gedefinieerde handelingen
Operatoren: tekens voor het optellen +, aftrekken -, delen /, vermenigvuldigen * enz.
Vulgreep: Hiermee kan je een formule toepassen op een hele kolom, klik op vierkant blikje rechtsonder in de cel en sleep naar beneden