H8: Mensen En Computers Flashcards
Wat zijn de uitdagingen van het selecteren van de juiste data?
- Kritisch op validiteit van onderzoeksmethode
-Controleer dat er geen systematische bias optreedt in de selectie (bv. wanneer altijd dezelfde soort items ten onrechte uitgesloten wordt)
Wat is data analyse?
Automatische analyse van de verschillende soorten boodschappen die je zou kunnen bestuderen via een inhoudsanalyse
Wat zijn de drie uitgangspunten voor automatische analyses (via computers)?
Regel 1: Als een mens het niet kan (ook niet met veel moeite), kan een computer het ook niet
Regel 2: Hoe abstracter (of latenter) de analyse, des te moeilijker wordt het voor de computer
Regel 3: Technologie is nooit objectief: om een computerprogramma te schrijven, doen programmeurs altijd aannames over hoe de wereld in elkaar zit. Er zit dus altijd een bepaald perspectief op de wereld in de programma’s die je gebruikt.
(Door te kiezen voor een automatische oplossingen, beperk je het aantal mogelijke oplossingen voor de vraag die je wil beantwoorden. Zo kan je bv. geen uitzondering maken voor speciale gevallen.
Wat is latent en wat is manifeste?
Latent = onderliggende, meer verborgen informatie
Manifeste = direct waarneembare informatie
Wat zijn veelgebruikte oplossingen voor automatische inhoudsanalyse van teksten, afbeeldingen en geluidsfragmenten?
- Algemene (niet-inhoudelijke statistieken)
- Woordenlijsten (dictionary-based approach)
- Sentiment analyse
- Automatische beeldherkenning
- ChatGPT en andere taalmodellen
Wat houdt de oplossing voor automatische inhoudsanalyse: Algemene (niet-inhoudelijke statistieken) in?
Het geven van verschillende statistieken over de vorm van tekst, denk aan min./max./gem. zinslengte
Wat houdt de oplossing voor automatische inhoudsanalyse: Woordenlijsten (Dictionary-based approach) in?
Teksten analyseren via woordenlijsten die geassocieerd zijn met een bepaalde categorie
-LIWC: programma met gevalideerde woordenlijsten
Wat zijn de voor en nadelen van woordenlijsten (dictionary-based approach)?
Voordeel: snel, transparant, efficiënt
Nadeel: beperkte dekking
Nadeel: Betekenis is context-afhankelijk
Wat houdt de oplossing voor automatische inhoudsanalyse: Sentiment analyse in?
Programma’s die meten of een tekst positief of negatief is
Wat zijn de nadelen van sentiment analyse?
-Nadeel: computers zijn minder goed in het begrijpen van niet-letterlijke betekenis
Nadeel: je weet nog steeds niet waarover mensen zich positief of negatief uitlaten (=Stance detection)
Wat houdt Stance detection in?
Het uitvinden van standpunten in tekstuele uitingen
Wat houdt de oplossing voor automatische inhoudsanalyse: Automatische beeldherkenning in?
Bv. herkennen hoeveel mensen lachen op een foto
Wat is het nadeel van automatische beeldherkenning?
nadeel: Sterke computer voor nodig
Wat houdt de oplossing voor automatische inhoudsanalyse: ChatGPT en andere taalmodellen
- Taalmodellen hebben duidelijke instructies nodig (= duidelijke prompt)
-Taalmodellen moeten getest worden
*Behandel de evaluatie van het taalmodel als een pilotstudie- behandel de evaluatie van het taalmodel als testen van een software
-Taalmodellen zijn niet altijd veilig op te gebruiken
- behandel de evaluatie van het taalmodel als testen van een software
Wat is er met automatische oplossingen en specificiteit?
Automatische oplossingen zijn vaak erg specifiek, gericht op één specifiek domein/genre of op een specifieke verzameling concepten/entiteiten. Als jouw probleem afwijkt, wordt het nut en de betrouwbaarheid van het automatische systeem lager