examenvragen Flashcards
Leg uit: “you shall know a word by the company it keeps”
distributionele hypothese in het taalmodel. We kunnen de betekenis van woorden afleiden uit de context, adhv de omringende woorden
Waarom is part-of-speech tagging een desambigueringstaak?
Woorden op zich zijn vaak ambigu en je kan de juiste betekenis bepalen door te kijken naar de omringende woorden. Door te kijken naar de context kan je de woordsoort bepalen waardoor de betekenis duidelijk wordt.
Wat zijn digital humanities?
- onderzoeksdomein op het kruispunt van computer- of digitale technologieën en de Humanities of geesteswetenschappen.
Humanities is een term uit de renaissance, er was toen een shift van god die centraal stond in het wereld beeld naar de mens die centraal staat.
Digital Humanities is dus een systematisch gebruik van digitale bronnen en methodes (databanken, tekstanalysetools, programmeertalen, visualisaties,…) in de geesteswetenschap en de analyse van hun toepassing.
Het doel ervan is om onderzoek in de humanities te verzamelen, organiseren, analyseren en presenteren met behulp van computationele methodes.
Het ultieme doel is om nieuwe vragen te stellen en te beantwoorden, en oude vragen op een nieuwe manier te behandelen.
Voorbeeldprojecten + kenmerken DH projecten
- Digital humanities @ Stanford
- informatie gelinkt aan geografische informatie zodat analyse op kaart mogelijk is - Ghent center for digital humanities
- interdisciplinair: onderzoekers uit geschiedenis, literatuurwetenschappen die samenwerken met informatici - Verdwenen zwinhavens
- wordt gedaan adhv niet invasieve methodes zoals virtual reality om het landschap intact te houden - Wechanged
- netwerken vinden van vrouwelijke editors van de 18e en 20ste eeuw
- database opgebouwd op basis van informatie over die editors en de informatie wordt op geografische manier gelinkt om patronen te ontdekken - CUNE-IIIF-ORM
- spijkerschrift automatisch omzetten naar transliteratie om eigenamen en belangrijke concepten uit de kleitabletten te extraheren op een automatische manier - Digital transgender archive
-vanuit 60 instellingen alle data samengebracht in 1 database - Torn Apart
- geospatial info linken aan tekst: info uit allerlei databanken aan elkaar linken en geografisch visualiseren
Beknopte geschiedenis van DH
- DH stamt af van het gebied van humanities computing
- 1966: eerste tijdschrift “computers and the humanities”, mensen houden zich steeds op een meer systematische manier bezig met digital humanities
- 1987: TEI (Text Encoding Initiative): protocol voor het tangen van digitale teksten: heeft mee veld van elektronische wetenschap vorm gegeven en heeft geleid tot XML-standaard, die de basis was voor het latere HTML. Er is hier voor het eerst echt een standaard.
- ‘90: digitale tekst en beeldarchieven
- Komst PCs en www: meer aandacht voor design en multimedia waardoor er een shift komt van puur tekst naar andere media die ook kunnen toegevoegd worden aan die databanken
- 2004: bundel A Companion to DH: eerste keer dat de term gebruikt wordt, vanaf dan spreekt men over de Computationele wending: gebruik van computers (op grote schaal) binnen de humanities
- 2009: MLA-conventie waar het vakgebied van de DH vormgegeven wordt
Voornaamste punten van kritiek op DH
- gebrek aan kritisch nadenken over implicaties van computationele denkbeelden
- ” zwarte doos”: wetenschappers gebruiken tools waarvan ze niet weten hoe ze ze moeten gebruiken
- gebrek aan diversiteit: vooroordelen die invloed hebben op de tools
- gebrek aan focus op pedagogiek: beurzen vooral gericht op onderzoek, minder op onderwijsinnovatie
Wat is digitale tekstanalyse?
Gebruik van digitale tools voor de automatische analyse van teksten
Verschil tussen close en distant reading
Close reading is het lezen en manueel analyseren van teksten. Distant reading is de computationele analyse van teksten om patronen te vinden in grote tekstcollecties (die je als mens niet opmerkt als je teksten leest).
Waar moet je op letten bij het verzamelen van corpora?
Het is belangrijk om aan het doel te denken, wat je achteraf met de teksten wilt doen. De tekstcollectie die je aanlegt moet relevant zijn voor je onderzoeksvraag en representatief zijn.
je moet er voor zorgen dat het een betrouwbare weergave geeft van wat je wilt onderzoeken, zorgen voor een mooie evenwichtige verdeling van verschillende kenmerken.
Verschil tussen “born digital” en “analoge” teksten
Born digital zijn teksten die direct in digitale vorm verschenen zijn.
Analoge teksten zijn teksten die nog moeten gedigitaliseerd worden
Hoe kan je teksten digitaliseren? Wat is OCR?
Digitaliseren kan via HTR of OCR. OCR is Optical Character Recognition. Het is het omzetten van een afbeelding in een tekst die kan ingelezen en bewerkt worden door een computer.
Wat is een bestandsformaat? Wat zijn de twee hoofdsoorten van bestandsformaten? Wat is een extensie?
Tekst die we verzamelen, gaan we opslaan in bestanden. Bestanden hebben een bepaald formaat die duidt op de wijze waarop de informatie in een computerbestand gecodeerd is. Het bepaalt wat je met een bestand kan doen, welke software je kan gebruiken.
De twee hoofdsoorten zijn tekst en binair. Tekst zijn de leesbare tekens en binair is de computercode die enkel door specifieke programma’s gelezen kan worden.
Een extensie is een toevoeging aan het einde van een bestandsnaam die meestal uit één of meer letters bestaat en aangeeft om welk bestandsformaat het gaat.
Wat is HTML? Waarvoor staat de afkorting HTML?
Tekstbestand die gebruikt wordt voor het weergeven van webpagina’s.
HyperText Markup Language.
Wat is een PNG/PDF bestand?
Beide binaire bestanden.
Een PNG bestand is een bestandsformaat voor het opslaan van afbeeldingen in digitale vorm en er is een specifieke software voor nodig.
PDF is een bestandsformaat dat is ontwikkeld door de firma Adobe om bestanden met opmaak op alle computersystemen op dezelfde wijze te kunnen tonen en afdrukken. De afkorting staat voor Portable Document Format.
Soorten zoekopdrachten, beperkingen letterlijke zoekopdrachten
Soorten: letterlijke zoekopdrachten, Google search, Google advanced search, reguliere expressies
Beperkingen letterlijke zoekopdrachten:
- Je kan niet alle voorkomens van een bepaald werkwoord of alle vormen van een adjectief zoeken.
-Je kan ook niet alle eigennamen vinden in een corpus adhv een letterlijke zoekopdracht of het woordgebruik in een bepaalde tijdsperiode.
oplossing: corpus annoteren met extra informatie
Verschillende niveaus van ambiguïteit in natuurlijke taal
- Morfologische ambiguïteit
- Lexicaal-semantische ambiguïteit
- Syntactische ambiguïteit
- Discoursniveau
- Pragmatiek en wereldkennis
Verschil tussen polysemie en homonymie
Bij polysemie zijn de verschillende betekenissen verwant, bij homonymie is er geen etymologisch verband.
Definitie annotatie, types annotaties, soorten taalkundige annotaties
Definite: Annotatie verwijst naar het proces zelf, het toevoegen van taalkundige (of andere) informatie aan een digitale tekstverzameling (gesproken of geschreven). Maar annotatie kan ook verwijzen naar het resultaat van het annoteren.
Types:
1. Taalkundige informatie
- zinssplitsing en tokeniseren
- morfologische annotaties
- syntactische annotatie
- semantische annotatie
2. Inhoudelijke informatie
3. Metadata
4. Structurele informatie
Sense inventories
Een sense inventory is een soort digitaal woordenboek waarin alle betekenissen van een woord een apart label krijgen.
- WordNet en Cornetto
Inter-annotator agreement (definitie + belang)
Alle annotatoren hetzelfde deel van een corpus laten annoteren om de labels daarna te vergelijken. Berekenen hoeveel procent van de annotaties overlappen.
Dit is om de betrouwbaarheid van annotaties na te gaan, je berekent dan hoe goed de annotatoren overeenkomen bij het labelen.
Collocaties
Collocaties zijn frequente en/of typische semivaste combinaties zoals een aanbod accepteren of afslaan.
Concordanties
Concordantie is het woordgebruik in context, de omringende woorden waarbij het woord vaak voorkomt.
Stylometrie (definitie, toepassingen en voorbeelden)
Stylometrie is de statistische analyse, het bestuderen van schrijfstijl (kijken naar lexicale en syntactische informatie).
Het wordt gebruikt bij het bepalen van auteurschap (authorship attribution) als je bijvoorbeeld probeert na te gaan of een auteur andere boeken heeft onder een schuilnaam en bij de forensische taalkunde waarmee ze ontdekt hebben wie de Unabomber was door de schrijfstijl te herkennen in zijn brieven.
Autorship attribution, forensische taalkunde
Bij het bepalen van auteurschap (authorship attribution) bepaal je op basis van lexicale en syntactische kenmerken wie de auteur is van een tekst. Bijvoorbeeld frequenties van functiewoorden, PoS-patronen, frequente opeenvolging van woorden. Bekend voorbeeld: JK Rowling die onder pseudoniem Robert Calbraith boeken schreef, ontdekt door de taalkundige handtekening.
De forensische taalkunde is alles wat met taal en wet/misdaad te maken heeft. Het doel is om te achterhalen wie de auteur is van anonieme teksten. Bekend voorbeeld: Unabomber case waarbij de broer de schrijfstijl herkend heeft.
Type-token ratio? Hoe bereken je TTR?
tokens = totale aantal woorden in een tekst
types = totaal aantal unieke woorden in een tekst
TTR = aantal types gedeeld door aantal tokens en heeft altijd een waarde van 0 en 1 als resultaat. Hoe dichter de waarde bij 1, hoe groter de lexicale diversiteit in de tekst.
Onderzoek Loic De Langhe
“The influence of Alzheimer’s Disease on language complexity in Dutch.”
Meten complexiteit door een statistische analyse uit te voeren van frequenties van zinslengte, discourse markers en het gebruik en verdeling van woordsoorten in het corpus.
Gebaseerd op 2 corpora: werken van Willem Elsschot en boeken van Hugo Claus die Alzheimer’s had.
Ook getoetst aan een standaard referentiecorpus omdat het taalgebruik sowieso evolueert naargelang iemand ouder wordt (als controlemechanisme).
Resultaat: er is een sterk dalende complexiteit van het taalgebruik bij de schrijver met Alzheimers diagnose doorheen zijn carrière, die veel sterker is dan dat je zou verwachten op basis van de stijgende leeftijd. Er was een opvallende daling in het gebruik van discourse markers en significante daling van de gemiddelde zinslengte. => hypothese bevestigd.
N-grammen, bag-of-words vectoren, problemen bow modellen
Een N-gram is een sequentie van N tokens of eenheden (n slaat op een cijfer).
Een BOW model houdt geen rekening met de volgorde van woorden in zinnen. Je deelt zinnen op en maakt een lijst van alle unieke woorden die er in voorkomen.
Als het corpus veel groter wordt, is het te veel werk en krijg je veel te lange woordenlijsten met ontzettend lange sparse vectoren die niet zo informatief zijn.
TF-IDF, nut, hoe bereken je TF-IDF conceptueel
Term Frequency - Inverse Document Frequency
TF = frequentie van een woord in een bepaald document
IDF = aantal documenten in het corpus waarin het woord voorkomt
Gaat na hoe belangrijk een woord is in een document in een bepaalde corpus. Meer betekenisvolle of specifieke woorden krijgen een hogere score.
berekenen:
- TF = frequentie van term in het document
- IDF = N (totaal aantal documenten) delen door aantal documenten die de term bevatten
- finale score = TF x IDF
=> hoge score: woord is meer karakteristiek voor een bepaald document
Waarom is het nuttig om TF-IDF scores te gebruiken in plaats van absolute frequenties?
bij absolute of binaire frequenties is er geen onderscheid tussen frequente (grammaticale) woorden en woorden die domein- of document-specifiek zijn
Topic modelling, “buffet”-metafoor van Jockers, voorbeeld van toepassing van topic modelling
Topic Model is een statistisch model dat gebruikt kan worden om “latente” (abstracte) topics in documenten te ontdekken. Het is een typische computationele benadering binnen de distant reading traditie. Bedoeld om grote verzamelingen tekst te verwerken. Vaak gebruikt voor computationeel literatuuronderzoek.
Buffet metafoor:
- topic modelling als een buffet
- algoritmen gaan ervan uit dat alle auteurs van alle teksten aanwezig waren op een tekstueel buffet
- buffetten zijn niet oneindig: er worden maar een paar gerechten aangeboden
toepassing: automatisch labellen krantenartikels, spam filtering in mailbox, aanbevelingssystemen netflix, spotify, goodreads
Verschil tussen collaborative en content-based filtering
collaborative filtering: aanbevelingssystemen die zich baseren op je gebruiksgedrag, en nieuwe producten aanbevelen die aangekocht werden door gebruikers met een gelijkaardig gedrag
content-based filtering: systemen die zich baseren op de keywords/tekst die gebruikt worden om een item in de collectie te beschrijven met behulp van topic models
Google Books Ngram Viewer (+beperkingen), Voyant
GBNV: soort zoekmachine die een grafiek visualiseert hoe vaak woorden gebruikt worden doorheen de tijd.
- beperkingen: verschillende betekenissen worden niet onderscheiden, betekenis van een woord kan veranderen doorheen de tijd en nieuwe woorden hebben geen betrouwbare frequenties
Voyant: je kan corpora gebruiken die door Voyant zelf worden aangeboden of zelf je corpus opladen
- word clouds
- termsberrry
- trends
- concordanties
- summary
Wat is computationele taalkunde?
het analyseren van natuurlijke taal met behulp van computers
het doel is om modellen te bouwen die menselijke intelligentie benaderen
Wat is de Turing test precies en waarom wordt die als een benchmark beschouwd voor het meten van vooruitgang in AI
De Turing test meet of een NLP systeem het even goed doet als een mens.
Een menselijke evaluator heeft een tekstgebaseerde conversatie met een machine en een mens en moet beslissen op basis van die communicatie wie van beiden menselijk is. Als de computer de evaluator kan doen geloven dat hij een mens is, is de computer geslaagd voor de test.
Moravec’s paradox
“It is comparatively easy to make computers exhibit adult level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it come to perception and mobility.”
sommige taken die voor ons heel eenvoudig lijken zoals aanleren van je moedertaal, blijken ontzettend moeilijk voor computers en omgekeerd ook
Onderscheid tussen taal- en spraaktechnologie
Taaltechnologie gaat over de geschreven taal en spraaktechnologie over de gesproken taal
Situeer volgende uitspraken in de geschiedenis van NLP:
1. Every time I fire a linguist, the performance of our speech recognition system goes up. (Fred Jelinek)
2. AI is the new electricity (Andrew Ng)
3. Airplanes don’t flap their wings (Fred Jelinek)
- 2de AI Boom
- NLP anno 2023
- anno 2023
Waarom wordt het automatisch begrijpen van taal beschouwd als een AI-compleet probleem. Hoe wordt dat probleem opgelost binnen NLP?
De moeilijkheid van een computationeel probleem is zo groot dat je nood hebt aan common sense, wereldkennis om het op te lossen.
NLP oplossing: het probleem opsplitsen in deelproblemen en daarvoor modellen bouwen.
Je moet computers dus even slim maken als mensen: strong AI
Wat is het verschil tussen een inductieve en deductieve aanpak binnen NLP?
=> belangrijk dat je dit kan toepassen op verschillende toepassingen (vb. meervoud, POS-tagging, sentimentanalyse, etc.)
deductieve: de onderzoeker bouwt de informatiebronnen en regels die nodig zijn om de gewenste transformatie te implementeren = regels bouwen als een linguist
inductieve: de onderzoeker verzamelt voorbeelden van de transformatie en gebruikt statistische en lerende aanpakken die de computer toelaten om het model zelf te bouwen = voorbeelden verzamelen
Watervalmodel (elke stap kunnen bespreken + toepassen)
- lexicaal-morfologisch
-tokenisatie en zinssplitsing
- stemming / lemmatisering
- Part-of-Speech tagging - syntactisch
- chunking / parsing
- syntactische parsing - semantisch
- named entity recognition
- word sense disambiguation - discours
- coreferentieresolutie
Performantie meten van NLP systemen:
verschillende metrieken begrijpen (accuraatheid, precisie, recall, F-score) + berekenen
- accuraatheid: aantal correcte antwoorden meten
- TP + TN delen door TP + FN + FP + TN - precisie: hoe correct het systeem werkt
- TP delen door TP + FP - recall: hoeveel er gevonden zijn
- TP / TP + FN - f-score: gemiddelde van precisie en recall
Lexicongebaseerde sentimentanalyse: werking + voordelen/nadelen
Werkt op basis van woordenlijsten: je kan dan een bepaalde invoer binnenkrijgen die je gaat vergelijken aan de woordenlijsten: kijken of een woord voorkomt in de positieve of negatieve woordenlijst.
voordelen: werkt snel en eenvoudig, geen manuele annotaties nodig, geen grote dataset nodig
nadelen: lexicons te beperkt of domienspecifiek, systeem houdt geen rekening met context, score-aggregatie is te simplistisch, taalafhankelijke aanpak (lexicons nodig)
Machinaal leren: definitie
een computerprogramma leert zelfstandig taken uit te voeren op basis van voorbeelden, zonder dat daar intensief manueel programmeerwerk voor nodig is
Verschil tussen clustering, classificatie, regressie
clustering: het corpus wordt ingedeeld in clusters of klassen op basis van de kenmerken van de teksten in het corpus. Teksten in dezelfde cluster delen dus bepaalde eigenschappen of kenmerken met elkaar.
-geen labels nodig
- ongesuperviseerd machinaal leren
Classificatie: een computerprogramma leert om categorieën of klassen toe te wijzen aan data
- wel labels nodig bij de data want die labels leren het programma zelfstandig labels te voorspellen
- gesuperviseerd machinaal leren
Regressie: de voorspellingen in een regressietaak zijn geen klassen of categorieën maar numerieke waarden.
- wel labels nodig want die labels leren het programma zelfstandig labels te voorspelen
- gesuperviseerd machinaal leren
Verschil tussen gesuperviseerd en ongesuperviseerd leren
- gesuperviseerd machinaal leren: aangebrachte labels door annotatoren: systeem krijgt teksten die een label hebben gekregen door menselijke annotatoren
- ongesuperviseerd machinaal leren: menselijke annotatoren hebben geen label aangebracht aan data, het systeem leert zelf machinaal
Verschillende stappen in een feature-gebaseerde ML aanpak
- dataverzameling
- data annoteren
- voorbereiden of preprocessen
- omzetten naar numerieke tekstkenmerken
- algoritme trainen
- een voorspelling maken voor nieuwe data
Een eenvoudige feature vector kunnen bouwen
Wanneer spreken we van “deep learning”?
deep learning machine learning algoritmes gaan tijdens het leren op basis van die trainingsdata, bepaalde regelmatigheden proberen te vinden in de data en proberen op basis van die trainingsdata bv. een soort boom te bouwen en die die boom gaan ze dan toepassen op ongeziene tekstdata
Wat zijn word embeddings?
Elk woord voorstellen als een vector van getallen en wordt dan voorgesteld als een punt in een meerdimensionale ruimte.
Wat zijn transformers en in welke bekende NLP applicaties worden ze gebruikt?
Een netwerk dat verschillende invoergegevens parallel kan verwerken. => kunnen veel sneller en op veel meer data getraind worden.
Modelleert associaties tussen alle woorden in een zin en kan op die manier relaties tussen woorden in een zin modelleren, rekening houden met de context. (belangrijk want context is cruciaal in taal)
-BERT, GPT-3 en de meeste automatische vertaalsystemen zoals DeepL
Wat is de prototypetheorie? Wat is de link met bias?
Concept binnen de cognitieve wetenschappen.
Mensen categoriseren dingen en concepten op basis van een prototype of ideale representatie van die categorie. Een van de mogelijke nadelen van de prototypetheorie is is vooringenomenheid, bias.
Waarom ondervindt NLP last van vooringenomenheid?
Er zijn vele soorten bias:
1. menselijk in de data, dataverzameling en annotatie
- rapporteerbias
- selectiebias
2. menselijke bias in interpretatie
- correlation fallacy
Systemen hebben geen filter om te detecteren wat bias is
Wat is bias: verschillende soorten bias kunnen herkennen / bespreken
- menselijk in de data, dataverzameling en annotatie
- rapporteerbias
- selectiebias
- out-group homogeniteitsbias
- impliciete associaties
- halo effect - menselijke bias in interpretatie
- overgeneralisering
- bevestigingsbias
- correlation fallacy
- subjectieve validatie
- experimenteerbias
Stochastic parrots artikel (3 vragen)
1. Welke milieukost brengen grote taalmodellen met zich mee?
2. Wat bedoelen de auteurs met “Size doesn’t guarantee diversity”. Geef een voorbeeld
3. De auteurs geven een aantal voorbeelden van bias in grote taalmodellen. Bespreek 1 voorbeeld.
- Welke milieukost brengen grote taalmodellen met zich mee?
- Onderzoekers hebben recent onderzocht hoeveel het kost om grote taalmodellen te trainen. De kost werd berekend in dollars en in CO2 emissies. Een normale mens is verantwoordelijk voor 5t CO2 uitstoot, een transformer model trainen kost ca. 284t CO2 uitstoot en een eenvoudig BERT model trainen stoot evenveel uit als een transatlantische vlucht. Daarnaast wordt er ook nog geen groene energie gebruikt. Maar misschien is de kost het wel waard? Taalmodellen zijn uitgetest voor automatisch vertalen, een performatieverbetering van 0.1 BLEU score ( = maat om te meten hoe goed machine vertalen is) kost ongeveer $150000 (bovenop de kosten uitstoot) - Wat bedoelen de auteurs met “Size doesn’t guarantee diversity”. Geef een voorbeeld
- De trainingdata bevatten stereotypische associaties omtrent gender, leeftijd, etniciteit…
bv:
De toegang tot het internet is niet voor iedereen gelijk: we zien vooral jonge mensen van ontwikkelde landen.
De trainingdata komen van Reddit, Wikipedia,… Een meerderheid van die data worden geproduceerd door mannen.
Filtering zorgt ervoor dat mensen uit kleinere communities weggefilterd worden. - De auteurs geven een aantal voorbeelden van bias in grote taalmodellen. Bespreek 1 voorbeeld.
- GPT-3 kan zinnen genereren met hoge toxiciteitsscore zelf wanneer het een niet-toxische vraag krijgt. Waarom? In de trainingsdata zitten er 272K documenten van onbetrouwbare nieuwssites en 63K subreddits. “Feeding AI systems on the world’s beauty, ugliness, and cruelty but expecting it to reflect only the beauty is a fantasy.”
Ontstaansgeschiedenis van het WWW + evolutie
De basis van het ww werd ontwikkeld aan het CERN in Zwitserland door de brit Tim Berners-Lee, de belg Robert Cailliau en collega’s.
In 1990 bouwden ze de eerste browser en in augustus 1991 zetten ze de allereerste website online. Hiervoor konden de computers nog niet met elkaar communiceren, hetgeen die op een computer beschikbaar was, was niet beschikbaar op een andere computer.
Het ideaalbeeld van Cailliau en Berner-Lee was het www als een wereldwijde digitale bibliotheek, waar gebruikers in vrijheid en gratis kennis zouden delen. Wikipedia volstaat nog aan dat idee.
Na 30 jaar is er nu een dominantie van apps, staat het principe van netneutraliteit onder druk, zijn er uploadfilters en wordt ons lees-, luister- en kijkgedrag steeds meer gestuurd door aanbevelingsalgoritmes.
Verschil tussen het internet en het WWW
Het WWW is software, een applicatie die je gaat sturen over het internet en het internet is hardware, een netwerk die computers met elkaar verbindt en waarover je vanalles kan sturen.
Elk onderdeel van een online zoeksysteem kunnen bespreken
- Spider
- bot die het WWW op een geautomatiseerde manier doorbladert
- gebeurt regelmatig om de index van zoekmachines actueel te houden - Index
- vereenvoudigde kopie van elke pagina die gevonden wordt door de spider met o.a. de kernwoorden van die pagina - Zoekmechanisme
- als een gebruiker een zoekopdracht ingeeft, wordt een algoritme toegepast op de index zodat relevante webpagina’s geordend weergegeven worden
Google rankbrain
- geïntroduceerd in 2015
- integratie van machine learning in zoeksystemen
- leert uit klantentevredenheid
- van woorden naar concepten
Vernieuwingen in 2023 in automatische zoeksystemen
Google Bard, Bing ChatGPT
- volledig nieuwe visie op zoekmachines
-gebruikers krijgen een samenvattend antwoord ipv enkel links
- zoekmachines worden interactiever en converseren met de gebruiker
wat is een vraag-antwoordsysteem?
een NLP systeem dat vragen in natuurlijke taal kan interpreteren (NLU) en ook een antwoord in natuurlijke taal kan formuleren (NLG)
Hoe werkt een sociale robot? Geef een voorbeeld
voorbeeld: Furhat
We willen die systemen common sense geven, wat nog een heel groot probleem is bij de huidige NLP systemen en emoties geven aan een dergelijk systeem. Bedoeling is dat het zou werken zoals ChatGPT.
NLP technologie voor de vertaler, tolk, ondertitelaar, …
ondertitelaar: live ondertiteling opgenomen
vertaler: automatische vertaalsystemen
tolk:
generatieve AI + voorbeelden, naam “ChatGPT”
ChatGPT = Chatbot Generative Pre-trained Transformer
generatieve AI:
- lerende systemen die nieuwe data produceren op basis van een trainingset van bestaande data
- voorbeelden: Dall-E, ChatGPT
3 factoren die verklaren waarom generatieve AI vandaag opeens zo populair en performant is
- rekenkracht
- big data
- betere algoritmes
Werking ChatGPT (3 stappen)
- taalmodel
- getraind om het statistisch meest waarschijnlijke woord te voorspellen - supervised fine-tuning
- systeem leert op basis van voorbeelden wat correcte en fouten antwoorden zijn - trial & error
- model leert om menselijke voorkeuren na te bootsen, gebaseerd op menselijke feedback
analogie “machine learning is als een taart” (Yann LeCun)
bovenste laag: cherry: trial & error
icing: supervised fine-tuning
cake: taalmodel
voornaamste beperkingen van ChatGPT vandaag
- hallucineren, genereren van nonsense: formuleert onbetrouwbare antwoorden, ChatGPT bevat geen expliciete logica of redeneringscapaciteiten
- mogelijk bias
- getraind op data van voor 2021, geen recente data
- taal is niet altijd grammaticaal correct, beter engels dan andere talen rn
- vertaalkwaliteit voorlopig minder goed dan automatische vertaalsystemen zoals DeepL
belangrijke maatschappelijke uitdagingen voor generatieve AI
- bias en productie van haatspraak door bias in de data waarop het gebaseerd
- fake news
- AI gecontroleerd door BigTech?
- andere maatschappelijke vragen
Definitie + toepassingen stylometrie
= overkoepelende term voor een amalgaam van algoritmen die de stilistische kenmerken van een document aggregeren en kwantificeren, met als doel om statistisch onderbouwde conclusies te bereiken over auteurschap, datering, invloed, herkomst en/of stilistisch-literaire kenmerken.
toepassingen:
- historisch
- literair-theoretisch
- socio- en psycholinguistisch
- demografische profilering
- forensisch-juridisch
Belangrijke patronen/features stylometrie
- functiewoorden
- meest voorkomende woorden
- n-grams
- part-of-speech tags
- zinslengte
- prosodie
- semantiek
Geschiedenis: belang van: Lutosławski (“stylème”), Yule (lexical richness), Zipf (Zipf’s law), Mosteller & Wallace (belang van functiewoorden)
Lutoslawski:
- le stylème: verwijst naar verschillende linguïstische patronen: woordfrequenties, woordsoorten, positie van woorden in een zin
- heeft de term stylometrie uitgevonden
Yule:
- denkt een constante uit: Yule’s K: constante die de woordenschat rijkdom van een auteur beschrijft
Zipf:
- Zipf’s law: stelt dat in lange teksten het meest voorkomende woord 2 keer zo vaak voorkomt als het 2de meest voorkomende woord en 3 keer zo vaak als het 3de meest voorkomende woord
Mosteller & Wallace:
- gaan functiewoorden gebruiken om tot een analyse te komen: de woorden komen vaak voor en staan los van context en werken dus goed om teksten van verschillende of dezelfde auteurs te analyseren
Uitdagingen van stylometrie voor historische teksten
- minder (gedigitaliseerde) data: OCR en HTR
- minder betrouwbare data NLP
- tekstdualiteit zit anders in elkaar
Bespreking case study Abelardus en Heloïse
- correspondentie die uitgekomen is voelt te gestileerd aan, handschrift uit de 13de eeuw niet de 12de
- adhv stylometrie gezien dat er een sterke eenheid is tussen de brieven, het gaat hier dus waarschijnlijk over dezelfde auteur voor de brieven van Helena en Abelardus
Lexicongebaseerde aanpak versus lerende aanpak voor
- detectie van depressie
- detectie van hoofdpijnziektes
probleem lexicongebaseerd:
- andere taal => moet je lexicon helemaal opnieuw bouwen
- je kijkt naar woorden, niet naar woorden in context
- systeem kijkt niet naar impliciet taalgebruik
hoofdpijn:
lerende aanpak
Wat is een filter bubble?
Huidige nieuwsaanbevelingssystemen bevelen nieuws aan op basis van populariteitsmetrieken
Welke nieuwsaanbevelingssystemen bestaan er?
- collaboratieve: baseren de rangschikking op basis van de voorkeuren van andere gebruikers met een soortgelijke historie en karakteristieken
- content-based: baseren rangschikking op basis van de gelijkenis tussen nieuwsartikels en de voorkeuren van gebruikers
Immaterieel erfgoed
= levend erfgoed. Het omvat sociale gewoonten, voorstellingen, rituelen, tradities, uitdrukkingen, bijzonder kennis of vaardigheden die gemeenschappen en groepen erkennen als een vorm van cultureel erfgoed. Een bijzonder kenmerk is dat het wordt overgedragen van generatie op generatie en belangrijk is voor een gemeenschappelijke identiteit.
Waarom verdwijnen dialecten
Waarom wil je dialecten bewaren
- deel van cultuur
- belang voor taalwetenschap
- belang voor historici
Onomasiologische versus semasiologische woordenboeken
onomasiologisch: je vertrekt vanuit concept en kijkt welke woorden er voor bestaan
semasiologisch: vertrekken vanuit een woord en je geeft de betekenis
Het DSDD-project
Database of the Southern Dutch Dialects
- 4 dialectgroepen: Vlaams, Zeeuws, Brabants, Limburgs
- onomasiologisch
- de 3 dialectwoordenboeken tegelijk doorzoekbaar maken en het hele dialectgebied in kaart brengen
De Woordenbank
- semasiologisch
Het GCND-project, belang van spontane opnames (versus enquêtes)
Gesproken Corpus (Zuidelijk-)Nederlandse Dialecten
belang:
- spontaan gesproken taal: weelde aan mogelijkheden voor taalkundig onderzoek
- basis voor syntactisch onderzoek
- dialecten als vorm van immaterieel erfgoed
- historisch belang: oral history