examenvragen Flashcards

1
Q

Leg uit: “you shall know a word by the company it keeps”

A

distributionele hypothese in het taalmodel. We kunnen de betekenis van woorden afleiden uit de context, adhv de omringende woorden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Waarom is part-of-speech tagging een desambigueringstaak?

A

Woorden op zich zijn vaak ambigu en je kan de juiste betekenis bepalen door te kijken naar de omringende woorden. Door te kijken naar de context kan je de woordsoort bepalen waardoor de betekenis duidelijk wordt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat zijn digital humanities?

A
  • onderzoeksdomein op het kruispunt van computer- of digitale technologieën en de Humanities of geesteswetenschappen.

Humanities is een term uit de renaissance, er was toen een shift van god die centraal stond in het wereld beeld naar de mens die centraal staat.

Digital Humanities is dus een systematisch gebruik van digitale bronnen en methodes (databanken, tekstanalysetools, programmeertalen, visualisaties,…) in de geesteswetenschap en de analyse van hun toepassing.
Het doel ervan is om onderzoek in de humanities te verzamelen, organiseren, analyseren en presenteren met behulp van computationele methodes.
Het ultieme doel is om nieuwe vragen te stellen en te beantwoorden, en oude vragen op een nieuwe manier te behandelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Voorbeeldprojecten + kenmerken DH projecten

A
  1. Digital humanities @ Stanford
    - informatie gelinkt aan geografische informatie zodat analyse op kaart mogelijk is
  2. Ghent center for digital humanities
    - interdisciplinair: onderzoekers uit geschiedenis, literatuurwetenschappen die samenwerken met informatici
  3. Verdwenen zwinhavens
    - wordt gedaan adhv niet invasieve methodes zoals virtual reality om het landschap intact te houden
  4. Wechanged
    - netwerken vinden van vrouwelijke editors van de 18e en 20ste eeuw
    - database opgebouwd op basis van informatie over die editors en de informatie wordt op geografische manier gelinkt om patronen te ontdekken
  5. CUNE-IIIF-ORM
    - spijkerschrift automatisch omzetten naar transliteratie om eigenamen en belangrijke concepten uit de kleitabletten te extraheren op een automatische manier
  6. Digital transgender archive
    -vanuit 60 instellingen alle data samengebracht in 1 database
  7. Torn Apart
    - geospatial info linken aan tekst: info uit allerlei databanken aan elkaar linken en geografisch visualiseren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Beknopte geschiedenis van DH

A
  • DH stamt af van het gebied van humanities computing
  • 1966: eerste tijdschrift “computers and the humanities”, mensen houden zich steeds op een meer systematische manier bezig met digital humanities
  • 1987: TEI (Text Encoding Initiative): protocol voor het tangen van digitale teksten: heeft mee veld van elektronische wetenschap vorm gegeven en heeft geleid tot XML-standaard, die de basis was voor het latere HTML. Er is hier voor het eerst echt een standaard.
  • ‘90: digitale tekst en beeldarchieven
  • Komst PCs en www: meer aandacht voor design en multimedia waardoor er een shift komt van puur tekst naar andere media die ook kunnen toegevoegd worden aan die databanken
  • 2004: bundel A Companion to DH: eerste keer dat de term gebruikt wordt, vanaf dan spreekt men over de Computationele wending: gebruik van computers (op grote schaal) binnen de humanities
  • 2009: MLA-conventie waar het vakgebied van de DH vormgegeven wordt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Voornaamste punten van kritiek op DH

A
  • gebrek aan kritisch nadenken over implicaties van computationele denkbeelden
  • ” zwarte doos”: wetenschappers gebruiken tools waarvan ze niet weten hoe ze ze moeten gebruiken
  • gebrek aan diversiteit: vooroordelen die invloed hebben op de tools
  • gebrek aan focus op pedagogiek: beurzen vooral gericht op onderzoek, minder op onderwijsinnovatie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat is digitale tekstanalyse?

A

Gebruik van digitale tools voor de automatische analyse van teksten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Verschil tussen close en distant reading

A

Close reading is het lezen en manueel analyseren van teksten. Distant reading is de computationele analyse van teksten om patronen te vinden in grote tekstcollecties (die je als mens niet opmerkt als je teksten leest).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Waar moet je op letten bij het verzamelen van corpora?

A

Het is belangrijk om aan het doel te denken, wat je achteraf met de teksten wilt doen. De tekstcollectie die je aanlegt moet relevant zijn voor je onderzoeksvraag en representatief zijn.
je moet er voor zorgen dat het een betrouwbare weergave geeft van wat je wilt onderzoeken, zorgen voor een mooie evenwichtige verdeling van verschillende kenmerken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Verschil tussen “born digital” en “analoge” teksten

A

Born digital zijn teksten die direct in digitale vorm verschenen zijn.
Analoge teksten zijn teksten die nog moeten gedigitaliseerd worden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hoe kan je teksten digitaliseren? Wat is OCR?

A

Digitaliseren kan via HTR of OCR. OCR is Optical Character Recognition. Het is het omzetten van een afbeelding in een tekst die kan ingelezen en bewerkt worden door een computer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is een bestandsformaat? Wat zijn de twee hoofdsoorten van bestandsformaten? Wat is een extensie?

A

Tekst die we verzamelen, gaan we opslaan in bestanden. Bestanden hebben een bepaald formaat die duidt op de wijze waarop de informatie in een computerbestand gecodeerd is. Het bepaalt wat je met een bestand kan doen, welke software je kan gebruiken.

De twee hoofdsoorten zijn tekst en binair. Tekst zijn de leesbare tekens en binair is de computercode die enkel door specifieke programma’s gelezen kan worden.

Een extensie is een toevoeging aan het einde van een bestandsnaam die meestal uit één of meer letters bestaat en aangeeft om welk bestandsformaat het gaat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is HTML? Waarvoor staat de afkorting HTML?

A

Tekstbestand die gebruikt wordt voor het weergeven van webpagina’s.

HyperText Markup Language.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is een PNG/PDF bestand?

A

Beide binaire bestanden.

Een PNG bestand is een bestandsformaat voor het opslaan van afbeeldingen in digitale vorm en er is een specifieke software voor nodig.

PDF is een bestandsformaat dat is ontwikkeld door de firma Adobe om bestanden met opmaak op alle computersystemen op dezelfde wijze te kunnen tonen en afdrukken. De afkorting staat voor Portable Document Format.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Soorten zoekopdrachten, beperkingen letterlijke zoekopdrachten

A

Soorten: letterlijke zoekopdrachten, Google search, Google advanced search, reguliere expressies

Beperkingen letterlijke zoekopdrachten:
- Je kan niet alle voorkomens van een bepaald werkwoord of alle vormen van een adjectief zoeken.
-Je kan ook niet alle eigennamen vinden in een corpus adhv een letterlijke zoekopdracht of het woordgebruik in een bepaalde tijdsperiode.

oplossing: corpus annoteren met extra informatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Verschillende niveaus van ambiguïteit in natuurlijke taal

A
  1. Morfologische ambiguïteit
  2. Lexicaal-semantische ambiguïteit
  3. Syntactische ambiguïteit
  4. Discoursniveau
  5. Pragmatiek en wereldkennis
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Verschil tussen polysemie en homonymie

A

Bij polysemie zijn de verschillende betekenissen verwant, bij homonymie is er geen etymologisch verband.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Definitie annotatie, types annotaties, soorten taalkundige annotaties

A

Definite: Annotatie verwijst naar het proces zelf, het toevoegen van taalkundige (of andere) informatie aan een digitale tekstverzameling (gesproken of geschreven). Maar annotatie kan ook verwijzen naar het resultaat van het annoteren.

Types:
1. Taalkundige informatie
- zinssplitsing en tokeniseren
- morfologische annotaties
- syntactische annotatie
- semantische annotatie
2. Inhoudelijke informatie
3. Metadata
4. Structurele informatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Sense inventories

A

Een sense inventory is een soort digitaal woordenboek waarin alle betekenissen van een woord een apart label krijgen.
- WordNet en Cornetto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Inter-annotator agreement (definitie + belang)

A

Alle annotatoren hetzelfde deel van een corpus laten annoteren om de labels daarna te vergelijken. Berekenen hoeveel procent van de annotaties overlappen.
Dit is om de betrouwbaarheid van annotaties na te gaan, je berekent dan hoe goed de annotatoren overeenkomen bij het labelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Collocaties

A

Collocaties zijn frequente en/of typische semivaste combinaties zoals een aanbod accepteren of afslaan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Concordanties

A

Concordantie is het woordgebruik in context, de omringende woorden waarbij het woord vaak voorkomt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Stylometrie (definitie, toepassingen en voorbeelden)

A

Stylometrie is de statistische analyse, het bestuderen van schrijfstijl (kijken naar lexicale en syntactische informatie).
Het wordt gebruikt bij het bepalen van auteurschap (authorship attribution) als je bijvoorbeeld probeert na te gaan of een auteur andere boeken heeft onder een schuilnaam en bij de forensische taalkunde waarmee ze ontdekt hebben wie de Unabomber was door de schrijfstijl te herkennen in zijn brieven.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Autorship attribution, forensische taalkunde

A

Bij het bepalen van auteurschap (authorship attribution) bepaal je op basis van lexicale en syntactische kenmerken wie de auteur is van een tekst. Bijvoorbeeld frequenties van functiewoorden, PoS-patronen, frequente opeenvolging van woorden. Bekend voorbeeld: JK Rowling die onder pseudoniem Robert Calbraith boeken schreef, ontdekt door de taalkundige handtekening.
De forensische taalkunde is alles wat met taal en wet/misdaad te maken heeft. Het doel is om te achterhalen wie de auteur is van anonieme teksten. Bekend voorbeeld: Unabomber case waarbij de broer de schrijfstijl herkend heeft.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Type-token ratio? Hoe bereken je TTR?

A

tokens = totale aantal woorden in een tekst
types = totaal aantal unieke woorden in een tekst
TTR = aantal types gedeeld door aantal tokens en heeft altijd een waarde van 0 en 1 als resultaat. Hoe dichter de waarde bij 1, hoe groter de lexicale diversiteit in de tekst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Onderzoek Loic De Langhe

A

“The influence of Alzheimer’s Disease on language complexity in Dutch.”

Meten complexiteit door een statistische analyse uit te voeren van frequenties van zinslengte, discourse markers en het gebruik en verdeling van woordsoorten in het corpus.
Gebaseerd op 2 corpora: werken van Willem Elsschot en boeken van Hugo Claus die Alzheimer’s had.
Ook getoetst aan een standaard referentiecorpus omdat het taalgebruik sowieso evolueert naargelang iemand ouder wordt (als controlemechanisme).
Resultaat: er is een sterk dalende complexiteit van het taalgebruik bij de schrijver met Alzheimers diagnose doorheen zijn carrière, die veel sterker is dan dat je zou verwachten op basis van de stijgende leeftijd. Er was een opvallende daling in het gebruik van discourse markers en significante daling van de gemiddelde zinslengte. => hypothese bevestigd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

N-grammen, bag-of-words vectoren, problemen bow modellen

A

Een N-gram is een sequentie van N tokens of eenheden (n slaat op een cijfer).

Een BOW model houdt geen rekening met de volgorde van woorden in zinnen. Je deelt zinnen op en maakt een lijst van alle unieke woorden die er in voorkomen.
Als het corpus veel groter wordt, is het te veel werk en krijg je veel te lange woordenlijsten met ontzettend lange sparse vectoren die niet zo informatief zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

TF-IDF, nut, hoe bereken je TF-IDF conceptueel

A

Term Frequency - Inverse Document Frequency

TF = frequentie van een woord in een bepaald document
IDF = aantal documenten in het corpus waarin het woord voorkomt

Gaat na hoe belangrijk een woord is in een document in een bepaalde corpus. Meer betekenisvolle of specifieke woorden krijgen een hogere score.

berekenen:
- TF = frequentie van term in het document
- IDF = N (totaal aantal documenten) delen door aantal documenten die de term bevatten
- finale score = TF x IDF
=> hoge score: woord is meer karakteristiek voor een bepaald document

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Waarom is het nuttig om TF-IDF scores te gebruiken in plaats van absolute frequenties?

A

bij absolute of binaire frequenties is er geen onderscheid tussen frequente (grammaticale) woorden en woorden die domein- of document-specifiek zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Topic modelling, “buffet”-metafoor van Jockers, voorbeeld van toepassing van topic modelling

A

Topic Model is een statistisch model dat gebruikt kan worden om “latente” (abstracte) topics in documenten te ontdekken. Het is een typische computationele benadering binnen de distant reading traditie. Bedoeld om grote verzamelingen tekst te verwerken. Vaak gebruikt voor computationeel literatuuronderzoek.

Buffet metafoor:
- topic modelling als een buffet
- algoritmen gaan ervan uit dat alle auteurs van alle teksten aanwezig waren op een tekstueel buffet
- buffetten zijn niet oneindig: er worden maar een paar gerechten aangeboden

toepassing: automatisch labellen krantenartikels, spam filtering in mailbox, aanbevelingssystemen netflix, spotify, goodreads

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Verschil tussen collaborative en content-based filtering

A

collaborative filtering: aanbevelingssystemen die zich baseren op je gebruiksgedrag, en nieuwe producten aanbevelen die aangekocht werden door gebruikers met een gelijkaardig gedrag

content-based filtering: systemen die zich baseren op de keywords/tekst die gebruikt worden om een item in de collectie te beschrijven met behulp van topic models

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Google Books Ngram Viewer (+beperkingen), Voyant

A

GBNV: soort zoekmachine die een grafiek visualiseert hoe vaak woorden gebruikt worden doorheen de tijd.
- beperkingen: verschillende betekenissen worden niet onderscheiden, betekenis van een woord kan veranderen doorheen de tijd en nieuwe woorden hebben geen betrouwbare frequenties

Voyant: je kan corpora gebruiken die door Voyant zelf worden aangeboden of zelf je corpus opladen
- word clouds
- termsberrry
- trends
- concordanties
- summary

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Wat is computationele taalkunde?

A

het analyseren van natuurlijke taal met behulp van computers
het doel is om modellen te bouwen die menselijke intelligentie benaderen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Wat is de Turing test precies en waarom wordt die als een benchmark beschouwd voor het meten van vooruitgang in AI

A

De Turing test meet of een NLP systeem het even goed doet als een mens.
Een menselijke evaluator heeft een tekstgebaseerde conversatie met een machine en een mens en moet beslissen op basis van die communicatie wie van beiden menselijk is. Als de computer de evaluator kan doen geloven dat hij een mens is, is de computer geslaagd voor de test.

35
Q

Moravec’s paradox

A

“It is comparatively easy to make computers exhibit adult level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it come to perception and mobility.”

sommige taken die voor ons heel eenvoudig lijken zoals aanleren van je moedertaal, blijken ontzettend moeilijk voor computers en omgekeerd ook

36
Q

Onderscheid tussen taal- en spraaktechnologie

A

Taaltechnologie gaat over de geschreven taal en spraaktechnologie over de gesproken taal

37
Q

Situeer volgende uitspraken in de geschiedenis van NLP:
1. Every time I fire a linguist, the performance of our speech recognition system goes up. (Fred Jelinek)
2. AI is the new electricity (Andrew Ng)
3. Airplanes don’t flap their wings (Fred Jelinek)

A
  1. 2de AI Boom
  2. NLP anno 2023
  3. anno 2023
38
Q

Waarom wordt het automatisch begrijpen van taal beschouwd als een AI-compleet probleem. Hoe wordt dat probleem opgelost binnen NLP?

A

De moeilijkheid van een computationeel probleem is zo groot dat je nood hebt aan common sense, wereldkennis om het op te lossen.
NLP oplossing: het probleem opsplitsen in deelproblemen en daarvoor modellen bouwen.
Je moet computers dus even slim maken als mensen: strong AI

39
Q

Wat is het verschil tussen een inductieve en deductieve aanpak binnen NLP?
=> belangrijk dat je dit kan toepassen op verschillende toepassingen (vb. meervoud, POS-tagging, sentimentanalyse, etc.)

A

deductieve: de onderzoeker bouwt de informatiebronnen en regels die nodig zijn om de gewenste transformatie te implementeren = regels bouwen als een linguist

inductieve: de onderzoeker verzamelt voorbeelden van de transformatie en gebruikt statistische en lerende aanpakken die de computer toelaten om het model zelf te bouwen = voorbeelden verzamelen

40
Q

Watervalmodel (elke stap kunnen bespreken + toepassen)

A
  1. lexicaal-morfologisch
    -tokenisatie en zinssplitsing
    - stemming / lemmatisering
    - Part-of-Speech tagging
  2. syntactisch
    - chunking / parsing
    - syntactische parsing
  3. semantisch
    - named entity recognition
    - word sense disambiguation
  4. discours
    - coreferentieresolutie
41
Q

Performantie meten van NLP systemen:
verschillende metrieken begrijpen (accuraatheid, precisie, recall, F-score) + berekenen

A
  1. accuraatheid: aantal correcte antwoorden meten
    - TP + TN delen door TP + FN + FP + TN
  2. precisie: hoe correct het systeem werkt
    - TP delen door TP + FP
  3. recall: hoeveel er gevonden zijn
    - TP / TP + FN
  4. f-score: gemiddelde van precisie en recall
42
Q

Lexicongebaseerde sentimentanalyse: werking + voordelen/nadelen

A

Werkt op basis van woordenlijsten: je kan dan een bepaalde invoer binnenkrijgen die je gaat vergelijken aan de woordenlijsten: kijken of een woord voorkomt in de positieve of negatieve woordenlijst.

voordelen: werkt snel en eenvoudig, geen manuele annotaties nodig, geen grote dataset nodig

nadelen: lexicons te beperkt of domienspecifiek, systeem houdt geen rekening met context, score-aggregatie is te simplistisch, taalafhankelijke aanpak (lexicons nodig)

43
Q

Machinaal leren: definitie

A

een computerprogramma leert zelfstandig taken uit te voeren op basis van voorbeelden, zonder dat daar intensief manueel programmeerwerk voor nodig is

44
Q

Verschil tussen clustering, classificatie, regressie

A

clustering: het corpus wordt ingedeeld in clusters of klassen op basis van de kenmerken van de teksten in het corpus. Teksten in dezelfde cluster delen dus bepaalde eigenschappen of kenmerken met elkaar.
-geen labels nodig
- ongesuperviseerd machinaal leren

Classificatie: een computerprogramma leert om categorieën of klassen toe te wijzen aan data
- wel labels nodig bij de data want die labels leren het programma zelfstandig labels te voorspellen
- gesuperviseerd machinaal leren

Regressie: de voorspellingen in een regressietaak zijn geen klassen of categorieën maar numerieke waarden.
- wel labels nodig want die labels leren het programma zelfstandig labels te voorspelen
- gesuperviseerd machinaal leren

45
Q

Verschil tussen gesuperviseerd en ongesuperviseerd leren

A
  • gesuperviseerd machinaal leren: aangebrachte labels door annotatoren: systeem krijgt teksten die een label hebben gekregen door menselijke annotatoren
  • ongesuperviseerd machinaal leren: menselijke annotatoren hebben geen label aangebracht aan data, het systeem leert zelf machinaal
46
Q

Verschillende stappen in een feature-gebaseerde ML aanpak

A
  1. dataverzameling
  2. data annoteren
  3. voorbereiden of preprocessen
  4. omzetten naar numerieke tekstkenmerken
  5. algoritme trainen
  6. een voorspelling maken voor nieuwe data
47
Q

Een eenvoudige feature vector kunnen bouwen

A
48
Q

Wanneer spreken we van “deep learning”?

A

deep learning machine learning algoritmes gaan tijdens het leren op basis van die trainingsdata, bepaalde regelmatigheden proberen te vinden in de data en proberen op basis van die trainingsdata bv. een soort boom te bouwen en die die boom gaan ze dan toepassen op ongeziene tekstdata

49
Q

Wat zijn word embeddings?

A

Elk woord voorstellen als een vector van getallen en wordt dan voorgesteld als een punt in een meerdimensionale ruimte.

50
Q

Wat zijn transformers en in welke bekende NLP applicaties worden ze gebruikt?

A

Een netwerk dat verschillende invoergegevens parallel kan verwerken. => kunnen veel sneller en op veel meer data getraind worden.
Modelleert associaties tussen alle woorden in een zin en kan op die manier relaties tussen woorden in een zin modelleren, rekening houden met de context. (belangrijk want context is cruciaal in taal)

-BERT, GPT-3 en de meeste automatische vertaalsystemen zoals DeepL

51
Q

Wat is de prototypetheorie? Wat is de link met bias?

A

Concept binnen de cognitieve wetenschappen.
Mensen categoriseren dingen en concepten op basis van een prototype of ideale representatie van die categorie. Een van de mogelijke nadelen van de prototypetheorie is is vooringenomenheid, bias.

52
Q

Waarom ondervindt NLP last van vooringenomenheid?

A

Er zijn vele soorten bias:
1. menselijk in de data, dataverzameling en annotatie
- rapporteerbias
- selectiebias
2. menselijke bias in interpretatie
- correlation fallacy

Systemen hebben geen filter om te detecteren wat bias is

53
Q

Wat is bias: verschillende soorten bias kunnen herkennen / bespreken

A
  1. menselijk in de data, dataverzameling en annotatie
    - rapporteerbias
    - selectiebias
    - out-group homogeniteitsbias
    - impliciete associaties
    - halo effect
  2. menselijke bias in interpretatie
    - overgeneralisering
    - bevestigingsbias
    - correlation fallacy
    - subjectieve validatie
    - experimenteerbias
54
Q

Stochastic parrots artikel (3 vragen)
1. Welke milieukost brengen grote taalmodellen met zich mee?
2. Wat bedoelen de auteurs met “Size doesn’t guarantee diversity”. Geef een voorbeeld
3. De auteurs geven een aantal voorbeelden van bias in grote taalmodellen. Bespreek 1 voorbeeld.

A
  1. Welke milieukost brengen grote taalmodellen met zich mee?
    - Onderzoekers hebben recent onderzocht hoeveel het kost om grote taalmodellen te trainen. De kost werd berekend in dollars en in CO2 emissies. Een normale mens is verantwoordelijk voor 5t CO2 uitstoot, een transformer model trainen kost ca. 284t CO2 uitstoot en een eenvoudig BERT model trainen stoot evenveel uit als een transatlantische vlucht. Daarnaast wordt er ook nog geen groene energie gebruikt. Maar misschien is de kost het wel waard? Taalmodellen zijn uitgetest voor automatisch vertalen, een performatieverbetering van 0.1 BLEU score ( = maat om te meten hoe goed machine vertalen is) kost ongeveer $150000 (bovenop de kosten uitstoot)
  2. Wat bedoelen de auteurs met “Size doesn’t guarantee diversity”. Geef een voorbeeld
    - De trainingdata bevatten stereotypische associaties omtrent gender, leeftijd, etniciteit…
    bv:
    De toegang tot het internet is niet voor iedereen gelijk: we zien vooral jonge mensen van ontwikkelde landen.
    De trainingdata komen van Reddit, Wikipedia,… Een meerderheid van die data worden geproduceerd door mannen.
    Filtering zorgt ervoor dat mensen uit kleinere communities weggefilterd worden.
  3. De auteurs geven een aantal voorbeelden van bias in grote taalmodellen. Bespreek 1 voorbeeld.
    - GPT-3 kan zinnen genereren met hoge toxiciteitsscore zelf wanneer het een niet-toxische vraag krijgt. Waarom? In de trainingsdata zitten er 272K documenten van onbetrouwbare nieuwssites en 63K subreddits. “Feeding AI systems on the world’s beauty, ugliness, and cruelty but expecting it to reflect only the beauty is a fantasy.”
55
Q

Ontstaansgeschiedenis van het WWW + evolutie

A

De basis van het ww werd ontwikkeld aan het CERN in Zwitserland door de brit Tim Berners-Lee, de belg Robert Cailliau en collega’s.
In 1990 bouwden ze de eerste browser en in augustus 1991 zetten ze de allereerste website online. Hiervoor konden de computers nog niet met elkaar communiceren, hetgeen die op een computer beschikbaar was, was niet beschikbaar op een andere computer.
Het ideaalbeeld van Cailliau en Berner-Lee was het www als een wereldwijde digitale bibliotheek, waar gebruikers in vrijheid en gratis kennis zouden delen. Wikipedia volstaat nog aan dat idee.
Na 30 jaar is er nu een dominantie van apps, staat het principe van netneutraliteit onder druk, zijn er uploadfilters en wordt ons lees-, luister- en kijkgedrag steeds meer gestuurd door aanbevelingsalgoritmes.

56
Q

Verschil tussen het internet en het WWW

A

Het WWW is software, een applicatie die je gaat sturen over het internet en het internet is hardware, een netwerk die computers met elkaar verbindt en waarover je vanalles kan sturen.

57
Q

Elk onderdeel van een online zoeksysteem kunnen bespreken

A
  1. Spider
    - bot die het WWW op een geautomatiseerde manier doorbladert
    - gebeurt regelmatig om de index van zoekmachines actueel te houden
  2. Index
    - vereenvoudigde kopie van elke pagina die gevonden wordt door de spider met o.a. de kernwoorden van die pagina
  3. Zoekmechanisme
    - als een gebruiker een zoekopdracht ingeeft, wordt een algoritme toegepast op de index zodat relevante webpagina’s geordend weergegeven worden
58
Q

Google rankbrain

A
  • geïntroduceerd in 2015
  • integratie van machine learning in zoeksystemen
  • leert uit klantentevredenheid
  • van woorden naar concepten
59
Q

Vernieuwingen in 2023 in automatische zoeksystemen

A

Google Bard, Bing ChatGPT
- volledig nieuwe visie op zoekmachines
-gebruikers krijgen een samenvattend antwoord ipv enkel links
- zoekmachines worden interactiever en converseren met de gebruiker

60
Q

wat is een vraag-antwoordsysteem?

A

een NLP systeem dat vragen in natuurlijke taal kan interpreteren (NLU) en ook een antwoord in natuurlijke taal kan formuleren (NLG)

61
Q

Hoe werkt een sociale robot? Geef een voorbeeld

A

voorbeeld: Furhat
We willen die systemen common sense geven, wat nog een heel groot probleem is bij de huidige NLP systemen en emoties geven aan een dergelijk systeem. Bedoeling is dat het zou werken zoals ChatGPT.

62
Q

NLP technologie voor de vertaler, tolk, ondertitelaar, …

A

ondertitelaar: live ondertiteling opgenomen
vertaler: automatische vertaalsystemen
tolk:

63
Q

generatieve AI + voorbeelden, naam “ChatGPT”

A

ChatGPT = Chatbot Generative Pre-trained Transformer

generatieve AI:
- lerende systemen die nieuwe data produceren op basis van een trainingset van bestaande data
- voorbeelden: Dall-E, ChatGPT

64
Q

3 factoren die verklaren waarom generatieve AI vandaag opeens zo populair en performant is

A
  1. rekenkracht
  2. big data
  3. betere algoritmes
65
Q

Werking ChatGPT (3 stappen)

A
  1. taalmodel
    - getraind om het statistisch meest waarschijnlijke woord te voorspellen
  2. supervised fine-tuning
    - systeem leert op basis van voorbeelden wat correcte en fouten antwoorden zijn
  3. trial & error
    - model leert om menselijke voorkeuren na te bootsen, gebaseerd op menselijke feedback
66
Q

analogie “machine learning is als een taart” (Yann LeCun)

A

bovenste laag: cherry: trial & error
icing: supervised fine-tuning
cake: taalmodel

67
Q

voornaamste beperkingen van ChatGPT vandaag

A
  • hallucineren, genereren van nonsense: formuleert onbetrouwbare antwoorden, ChatGPT bevat geen expliciete logica of redeneringscapaciteiten
  • mogelijk bias
  • getraind op data van voor 2021, geen recente data
  • taal is niet altijd grammaticaal correct, beter engels dan andere talen rn
  • vertaalkwaliteit voorlopig minder goed dan automatische vertaalsystemen zoals DeepL
68
Q

belangrijke maatschappelijke uitdagingen voor generatieve AI

A
  • bias en productie van haatspraak door bias in de data waarop het gebaseerd
  • fake news
  • AI gecontroleerd door BigTech?
  • andere maatschappelijke vragen
69
Q

Definitie + toepassingen stylometrie

A

= overkoepelende term voor een amalgaam van algoritmen die de stilistische kenmerken van een document aggregeren en kwantificeren, met als doel om statistisch onderbouwde conclusies te bereiken over auteurschap, datering, invloed, herkomst en/of stilistisch-literaire kenmerken.

toepassingen:
- historisch
- literair-theoretisch
- socio- en psycholinguistisch
- demografische profilering
- forensisch-juridisch

70
Q

Belangrijke patronen/features stylometrie

A
  • functiewoorden
  • meest voorkomende woorden
  • n-grams
  • part-of-speech tags
  • zinslengte
  • prosodie
  • semantiek
71
Q

Geschiedenis: belang van: Lutosławski (“stylème”), Yule (lexical richness), Zipf (Zipf’s law), Mosteller & Wallace (belang van functiewoorden)

A

Lutoslawski:
- le stylème: verwijst naar verschillende linguïstische patronen: woordfrequenties, woordsoorten, positie van woorden in een zin
- heeft de term stylometrie uitgevonden

Yule:
- denkt een constante uit: Yule’s K: constante die de woordenschat rijkdom van een auteur beschrijft

Zipf:
- Zipf’s law: stelt dat in lange teksten het meest voorkomende woord 2 keer zo vaak voorkomt als het 2de meest voorkomende woord en 3 keer zo vaak als het 3de meest voorkomende woord

Mosteller & Wallace:
- gaan functiewoorden gebruiken om tot een analyse te komen: de woorden komen vaak voor en staan los van context en werken dus goed om teksten van verschillende of dezelfde auteurs te analyseren

72
Q

Uitdagingen van stylometrie voor historische teksten

A
  • minder (gedigitaliseerde) data: OCR en HTR
  • minder betrouwbare data NLP
  • tekstdualiteit zit anders in elkaar
73
Q

Bespreking case study Abelardus en Heloïse

A
  • correspondentie die uitgekomen is voelt te gestileerd aan, handschrift uit de 13de eeuw niet de 12de
  • adhv stylometrie gezien dat er een sterke eenheid is tussen de brieven, het gaat hier dus waarschijnlijk over dezelfde auteur voor de brieven van Helena en Abelardus
74
Q

Lexicongebaseerde aanpak versus lerende aanpak voor
- detectie van depressie
- detectie van hoofdpijnziektes

A

probleem lexicongebaseerd:
- andere taal => moet je lexicon helemaal opnieuw bouwen
- je kijkt naar woorden, niet naar woorden in context
- systeem kijkt niet naar impliciet taalgebruik

hoofdpijn:
lerende aanpak

75
Q

Wat is een filter bubble?

A

Huidige nieuwsaanbevelingssystemen bevelen nieuws aan op basis van populariteitsmetrieken

76
Q

Welke nieuwsaanbevelingssystemen bestaan er?

A
  • collaboratieve: baseren de rangschikking op basis van de voorkeuren van andere gebruikers met een soortgelijke historie en karakteristieken
  • content-based: baseren rangschikking op basis van de gelijkenis tussen nieuwsartikels en de voorkeuren van gebruikers
77
Q

Immaterieel erfgoed

A

= levend erfgoed. Het omvat sociale gewoonten, voorstellingen, rituelen, tradities, uitdrukkingen, bijzonder kennis of vaardigheden die gemeenschappen en groepen erkennen als een vorm van cultureel erfgoed. Een bijzonder kenmerk is dat het wordt overgedragen van generatie op generatie en belangrijk is voor een gemeenschappelijke identiteit.

78
Q

Waarom verdwijnen dialecten

A
79
Q

Waarom wil je dialecten bewaren

A
  • deel van cultuur
  • belang voor taalwetenschap
  • belang voor historici
80
Q

Onomasiologische versus semasiologische woordenboeken

A

onomasiologisch: je vertrekt vanuit concept en kijkt welke woorden er voor bestaan

semasiologisch: vertrekken vanuit een woord en je geeft de betekenis

81
Q

Het DSDD-project

A

Database of the Southern Dutch Dialects
- 4 dialectgroepen: Vlaams, Zeeuws, Brabants, Limburgs
- onomasiologisch
- de 3 dialectwoordenboeken tegelijk doorzoekbaar maken en het hele dialectgebied in kaart brengen

82
Q

De Woordenbank

A
  • semasiologisch
83
Q

Het GCND-project, belang van spontane opnames (versus enquêtes)

A

Gesproken Corpus (Zuidelijk-)Nederlandse Dialecten

belang:
- spontaan gesproken taal: weelde aan mogelijkheden voor taalkundig onderzoek
- basis voor syntactisch onderzoek
- dialecten als vorm van immaterieel erfgoed
- historisch belang: oral history