examenvragen Flashcards

Question 1

Q

Leg uit: “you shall know a word by the company it keeps”

Answer

A

distributionele hypothese in het taalmodel. We kunnen de betekenis van woorden afleiden uit de context, adhv de omringende woorden

Question 2

Q

Waarom is part-of-speech tagging een desambigueringstaak?

Answer

A

Woorden op zich zijn vaak ambigu en je kan de juiste betekenis bepalen door te kijken naar de omringende woorden. Door te kijken naar de context kan je de woordsoort bepalen waardoor de betekenis duidelijk wordt.

Question 3

Q

Wat zijn digital humanities?

Answer

A

onderzoeksdomein op het kruispunt van computer- of digitale technologieën en de Humanities of geesteswetenschappen.

Humanities is een term uit de renaissance, er was toen een shift van god die centraal stond in het wereld beeld naar de mens die centraal staat.

Digital Humanities is dus een systematisch gebruik van digitale bronnen en methodes (databanken, tekstanalysetools, programmeertalen, visualisaties,…) in de geesteswetenschap en de analyse van hun toepassing.
Het doel ervan is om onderzoek in de humanities te verzamelen, organiseren, analyseren en presenteren met behulp van computationele methodes.
Het ultieme doel is om nieuwe vragen te stellen en te beantwoorden, en oude vragen op een nieuwe manier te behandelen.

Question 4

Q

Voorbeeldprojecten + kenmerken DH projecten

Answer

A

Digital humanities @ Stanford
- informatie gelinkt aan geografische informatie zodat analyse op kaart mogelijk is
Ghent center for digital humanities
- interdisciplinair: onderzoekers uit geschiedenis, literatuurwetenschappen die samenwerken met informatici
Verdwenen zwinhavens
- wordt gedaan adhv niet invasieve methodes zoals virtual reality om het landschap intact te houden
Wechanged
- netwerken vinden van vrouwelijke editors van de 18e en 20ste eeuw
- database opgebouwd op basis van informatie over die editors en de informatie wordt op geografische manier gelinkt om patronen te ontdekken
CUNE-IIIF-ORM
- spijkerschrift automatisch omzetten naar transliteratie om eigenamen en belangrijke concepten uit de kleitabletten te extraheren op een automatische manier
Digital transgender archive
-vanuit 60 instellingen alle data samengebracht in 1 database
Torn Apart
- geospatial info linken aan tekst: info uit allerlei databanken aan elkaar linken en geografisch visualiseren

Question 5

Q

Beknopte geschiedenis van DH

Answer

A

DH stamt af van het gebied van humanities computing
1966: eerste tijdschrift “computers and the humanities”, mensen houden zich steeds op een meer systematische manier bezig met digital humanities
1987: TEI (Text Encoding Initiative): protocol voor het tangen van digitale teksten: heeft mee veld van elektronische wetenschap vorm gegeven en heeft geleid tot XML-standaard, die de basis was voor het latere HTML. Er is hier voor het eerst echt een standaard.
‘90: digitale tekst en beeldarchieven
Komst PCs en www: meer aandacht voor design en multimedia waardoor er een shift komt van puur tekst naar andere media die ook kunnen toegevoegd worden aan die databanken
2004: bundel A Companion to DH: eerste keer dat de term gebruikt wordt, vanaf dan spreekt men over de Computationele wending: gebruik van computers (op grote schaal) binnen de humanities
2009: MLA-conventie waar het vakgebied van de DH vormgegeven wordt

Question 6

Q

Voornaamste punten van kritiek op DH

Answer

A

gebrek aan kritisch nadenken over implicaties van computationele denkbeelden
” zwarte doos”: wetenschappers gebruiken tools waarvan ze niet weten hoe ze ze moeten gebruiken
gebrek aan diversiteit: vooroordelen die invloed hebben op de tools
gebrek aan focus op pedagogiek: beurzen vooral gericht op onderzoek, minder op onderwijsinnovatie

Question 7

Q

Wat is digitale tekstanalyse?

Answer

A

Gebruik van digitale tools voor de automatische analyse van teksten

Question 8

Q

Verschil tussen close en distant reading

Answer

A

Close reading is het lezen en manueel analyseren van teksten. Distant reading is de computationele analyse van teksten om patronen te vinden in grote tekstcollecties (die je als mens niet opmerkt als je teksten leest).

Question 9

Q

Waar moet je op letten bij het verzamelen van corpora?

Answer

A

Het is belangrijk om aan het doel te denken, wat je achteraf met de teksten wilt doen. De tekstcollectie die je aanlegt moet relevant zijn voor je onderzoeksvraag en representatief zijn.
je moet er voor zorgen dat het een betrouwbare weergave geeft van wat je wilt onderzoeken, zorgen voor een mooie evenwichtige verdeling van verschillende kenmerken.

Question 10

Q

Verschil tussen “born digital” en “analoge” teksten

Answer

A

Born digital zijn teksten die direct in digitale vorm verschenen zijn.
Analoge teksten zijn teksten die nog moeten gedigitaliseerd worden

Question 11

Q

Hoe kan je teksten digitaliseren? Wat is OCR?

Answer

A

Digitaliseren kan via HTR of OCR. OCR is Optical Character Recognition. Het is het omzetten van een afbeelding in een tekst die kan ingelezen en bewerkt worden door een computer.

Question 12

Q

Wat is een bestandsformaat? Wat zijn de twee hoofdsoorten van bestandsformaten? Wat is een extensie?

Answer

A

Tekst die we verzamelen, gaan we opslaan in bestanden. Bestanden hebben een bepaald formaat die duidt op de wijze waarop de informatie in een computerbestand gecodeerd is. Het bepaalt wat je met een bestand kan doen, welke software je kan gebruiken.

De twee hoofdsoorten zijn tekst en binair. Tekst zijn de leesbare tekens en binair is de computercode die enkel door specifieke programma’s gelezen kan worden.

Een extensie is een toevoeging aan het einde van een bestandsnaam die meestal uit één of meer letters bestaat en aangeeft om welk bestandsformaat het gaat.

Question 13

Q

Wat is HTML? Waarvoor staat de afkorting HTML?

Answer

A

Tekstbestand die gebruikt wordt voor het weergeven van webpagina’s.

HyperText Markup Language.

Question 14

Q

Wat is een PNG/PDF bestand?

Answer

A

Beide binaire bestanden.

Een PNG bestand is een bestandsformaat voor het opslaan van afbeeldingen in digitale vorm en er is een specifieke software voor nodig.

PDF is een bestandsformaat dat is ontwikkeld door de firma Adobe om bestanden met opmaak op alle computersystemen op dezelfde wijze te kunnen tonen en afdrukken. De afkorting staat voor Portable Document Format.

Question 15

Q

Soorten zoekopdrachten, beperkingen letterlijke zoekopdrachten

Answer

A

Soorten: letterlijke zoekopdrachten, Google search, Google advanced search, reguliere expressies

Beperkingen letterlijke zoekopdrachten:
- Je kan niet alle voorkomens van een bepaald werkwoord of alle vormen van een adjectief zoeken.
-Je kan ook niet alle eigennamen vinden in een corpus adhv een letterlijke zoekopdracht of het woordgebruik in een bepaalde tijdsperiode.

oplossing: corpus annoteren met extra informatie

Question 16

Q

Verschillende niveaus van ambiguïteit in natuurlijke taal

Answer

A

Morfologische ambiguïteit
Lexicaal-semantische ambiguïteit
Syntactische ambiguïteit
Discoursniveau
Pragmatiek en wereldkennis

Question 17

Q

Verschil tussen polysemie en homonymie

Answer

A

Bij polysemie zijn de verschillende betekenissen verwant, bij homonymie is er geen etymologisch verband.

Question 18

Q

Definitie annotatie, types annotaties, soorten taalkundige annotaties

Answer

A

Definite: Annotatie verwijst naar het proces zelf, het toevoegen van taalkundige (of andere) informatie aan een digitale tekstverzameling (gesproken of geschreven). Maar annotatie kan ook verwijzen naar het resultaat van het annoteren.

Types:
1. Taalkundige informatie
- zinssplitsing en tokeniseren
- morfologische annotaties
- syntactische annotatie
- semantische annotatie
2. Inhoudelijke informatie
3. Metadata
4. Structurele informatie

Question 19

Q

Sense inventories

Answer

A

Een sense inventory is een soort digitaal woordenboek waarin alle betekenissen van een woord een apart label krijgen.
- WordNet en Cornetto

Question 20

Q

Inter-annotator agreement (definitie + belang)

Answer

A

Alle annotatoren hetzelfde deel van een corpus laten annoteren om de labels daarna te vergelijken. Berekenen hoeveel procent van de annotaties overlappen.
Dit is om de betrouwbaarheid van annotaties na te gaan, je berekent dan hoe goed de annotatoren overeenkomen bij het labelen.

Question 21

Q

Collocaties

Answer

A

Collocaties zijn frequente en/of typische semivaste combinaties zoals een aanbod accepteren of afslaan.

Question 22

Q

Concordanties

Answer

A

Concordantie is het woordgebruik in context, de omringende woorden waarbij het woord vaak voorkomt.

Question 23

Q

Stylometrie (definitie, toepassingen en voorbeelden)

Answer

A

Stylometrie is de statistische analyse, het bestuderen van schrijfstijl (kijken naar lexicale en syntactische informatie).
Het wordt gebruikt bij het bepalen van auteurschap (authorship attribution) als je bijvoorbeeld probeert na te gaan of een auteur andere boeken heeft onder een schuilnaam en bij de forensische taalkunde waarmee ze ontdekt hebben wie de Unabomber was door de schrijfstijl te herkennen in zijn brieven.

Question 24

Q

Autorship attribution, forensische taalkunde

Answer

A

Bij het bepalen van auteurschap (authorship attribution) bepaal je op basis van lexicale en syntactische kenmerken wie de auteur is van een tekst. Bijvoorbeeld frequenties van functiewoorden, PoS-patronen, frequente opeenvolging van woorden. Bekend voorbeeld: JK Rowling die onder pseudoniem Robert Calbraith boeken schreef, ontdekt door de taalkundige handtekening.
De forensische taalkunde is alles wat met taal en wet/misdaad te maken heeft. Het doel is om te achterhalen wie de auteur is van anonieme teksten. Bekend voorbeeld: Unabomber case waarbij de broer de schrijfstijl herkend heeft.

Question 25

Q

Type-token ratio? Hoe bereken je TTR?

Answer

A

tokens = totale aantal woorden in een tekst
types = totaal aantal unieke woorden in een tekst
TTR = aantal types gedeeld door aantal tokens en heeft altijd een waarde van 0 en 1 als resultaat. Hoe dichter de waarde bij 1, hoe groter de lexicale diversiteit in de tekst.

Question 26

Q

Onderzoek Loic De Langhe

Answer

A

“The influence of Alzheimer’s Disease on language complexity in Dutch.”

Meten complexiteit door een statistische analyse uit te voeren van frequenties van zinslengte, discourse markers en het gebruik en verdeling van woordsoorten in het corpus.
Gebaseerd op 2 corpora: werken van Willem Elsschot en boeken van Hugo Claus die Alzheimer’s had.
Ook getoetst aan een standaard referentiecorpus omdat het taalgebruik sowieso evolueert naargelang iemand ouder wordt (als controlemechanisme).
Resultaat: er is een sterk dalende complexiteit van het taalgebruik bij de schrijver met Alzheimers diagnose doorheen zijn carrière, die veel sterker is dan dat je zou verwachten op basis van de stijgende leeftijd. Er was een opvallende daling in het gebruik van discourse markers en significante daling van de gemiddelde zinslengte. => hypothese bevestigd.

Question 27

Q

N-grammen, bag-of-words vectoren, problemen bow modellen

Answer

A

Een N-gram is een sequentie van N tokens of eenheden (n slaat op een cijfer).

Een BOW model houdt geen rekening met de volgorde van woorden in zinnen. Je deelt zinnen op en maakt een lijst van alle unieke woorden die er in voorkomen.
Als het corpus veel groter wordt, is het te veel werk en krijg je veel te lange woordenlijsten met ontzettend lange sparse vectoren die niet zo informatief zijn.

Question 28

Q

TF-IDF, nut, hoe bereken je TF-IDF conceptueel

Answer

A

Term Frequency - Inverse Document Frequency

TF = frequentie van een woord in een bepaald document
IDF = aantal documenten in het corpus waarin het woord voorkomt

Gaat na hoe belangrijk een woord is in een document in een bepaalde corpus. Meer betekenisvolle of specifieke woorden krijgen een hogere score.

berekenen:
- TF = frequentie van term in het document
- IDF = N (totaal aantal documenten) delen door aantal documenten die de term bevatten
- finale score = TF x IDF
=> hoge score: woord is meer karakteristiek voor een bepaald document

Question 29

Q

Waarom is het nuttig om TF-IDF scores te gebruiken in plaats van absolute frequenties?

Answer

A

bij absolute of binaire frequenties is er geen onderscheid tussen frequente (grammaticale) woorden en woorden die domein- of document-specifiek zijn

Question 30

Q

Topic modelling, “buffet”-metafoor van Jockers, voorbeeld van toepassing van topic modelling

Answer

A

Topic Model is een statistisch model dat gebruikt kan worden om “latente” (abstracte) topics in documenten te ontdekken. Het is een typische computationele benadering binnen de distant reading traditie. Bedoeld om grote verzamelingen tekst te verwerken. Vaak gebruikt voor computationeel literatuuronderzoek.

Buffet metafoor:
- topic modelling als een buffet
- algoritmen gaan ervan uit dat alle auteurs van alle teksten aanwezig waren op een tekstueel buffet
- buffetten zijn niet oneindig: er worden maar een paar gerechten aangeboden

toepassing: automatisch labellen krantenartikels, spam filtering in mailbox, aanbevelingssystemen netflix, spotify, goodreads

Question 31

Q

Verschil tussen collaborative en content-based filtering

Answer

A

collaborative filtering: aanbevelingssystemen die zich baseren op je gebruiksgedrag, en nieuwe producten aanbevelen die aangekocht werden door gebruikers met een gelijkaardig gedrag

content-based filtering: systemen die zich baseren op de keywords/tekst die gebruikt worden om een item in de collectie te beschrijven met behulp van topic models

Question 32

Q

Google Books Ngram Viewer (+beperkingen), Voyant

Answer

A

GBNV: soort zoekmachine die een grafiek visualiseert hoe vaak woorden gebruikt worden doorheen de tijd.
- beperkingen: verschillende betekenissen worden niet onderscheiden, betekenis van een woord kan veranderen doorheen de tijd en nieuwe woorden hebben geen betrouwbare frequenties

Voyant: je kan corpora gebruiken die door Voyant zelf worden aangeboden of zelf je corpus opladen
- word clouds
- termsberrry
- trends
- concordanties
- summary

Question 33

Q

Wat is computationele taalkunde?

Answer

A

het analyseren van natuurlijke taal met behulp van computers
het doel is om modellen te bouwen die menselijke intelligentie benaderen

Question 34

Q

Wat is de Turing test precies en waarom wordt die als een benchmark beschouwd voor het meten van vooruitgang in AI

Answer

A

De Turing test meet of een NLP systeem het even goed doet als een mens.
Een menselijke evaluator heeft een tekstgebaseerde conversatie met een machine en een mens en moet beslissen op basis van die communicatie wie van beiden menselijk is. Als de computer de evaluator kan doen geloven dat hij een mens is, is de computer geslaagd voor de test.

Question 35

Q

Moravec’s paradox

Answer

A

“It is comparatively easy to make computers exhibit adult level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it come to perception and mobility.”

sommige taken die voor ons heel eenvoudig lijken zoals aanleren van je moedertaal, blijken ontzettend moeilijk voor computers en omgekeerd ook

Question 36

Q

Onderscheid tussen taal- en spraaktechnologie

Answer

A

Taaltechnologie gaat over de geschreven taal en spraaktechnologie over de gesproken taal

Question 37

Q

Situeer volgende uitspraken in de geschiedenis van NLP:
1. Every time I fire a linguist, the performance of our speech recognition system goes up. (Fred Jelinek)
2. AI is the new electricity (Andrew Ng)
3. Airplanes don’t flap their wings (Fred Jelinek)

Answer

A

2de AI Boom
NLP anno 2023
anno 2023

Question 38

Q

Waarom wordt het automatisch begrijpen van taal beschouwd als een AI-compleet probleem. Hoe wordt dat probleem opgelost binnen NLP?

Answer

A

De moeilijkheid van een computationeel probleem is zo groot dat je nood hebt aan common sense, wereldkennis om het op te lossen.
NLP oplossing: het probleem opsplitsen in deelproblemen en daarvoor modellen bouwen.
Je moet computers dus even slim maken als mensen: strong AI

Question 39

Q

Wat is het verschil tussen een inductieve en deductieve aanpak binnen NLP?
=> belangrijk dat je dit kan toepassen op verschillende toepassingen (vb. meervoud, POS-tagging, sentimentanalyse, etc.)

Answer

A

deductieve: de onderzoeker bouwt de informatiebronnen en regels die nodig zijn om de gewenste transformatie te implementeren = regels bouwen als een linguist

inductieve: de onderzoeker verzamelt voorbeelden van de transformatie en gebruikt statistische en lerende aanpakken die de computer toelaten om het model zelf te bouwen = voorbeelden verzamelen

Question 40

Q

Watervalmodel (elke stap kunnen bespreken + toepassen)

Answer

A

lexicaal-morfologisch
-tokenisatie en zinssplitsing
- stemming / lemmatisering
- Part-of-Speech tagging
syntactisch
- chunking / parsing
- syntactische parsing
semantisch
- named entity recognition
- word sense disambiguation
discours
- coreferentieresolutie

Question 41

Q

Performantie meten van NLP systemen:
verschillende metrieken begrijpen (accuraatheid, precisie, recall, F-score) + berekenen

Answer

A

accuraatheid: aantal correcte antwoorden meten
- TP + TN delen door TP + FN + FP + TN
precisie: hoe correct het systeem werkt
- TP delen door TP + FP
recall: hoeveel er gevonden zijn
- TP / TP + FN
f-score: gemiddelde van precisie en recall

Question 42

Q

Lexicongebaseerde sentimentanalyse: werking + voordelen/nadelen

Answer

A

Werkt op basis van woordenlijsten: je kan dan een bepaalde invoer binnenkrijgen die je gaat vergelijken aan de woordenlijsten: kijken of een woord voorkomt in de positieve of negatieve woordenlijst.

voordelen: werkt snel en eenvoudig, geen manuele annotaties nodig, geen grote dataset nodig

nadelen: lexicons te beperkt of domienspecifiek, systeem houdt geen rekening met context, score-aggregatie is te simplistisch, taalafhankelijke aanpak (lexicons nodig)

Question 43

Q

Machinaal leren: definitie

Answer

A

een computerprogramma leert zelfstandig taken uit te voeren op basis van voorbeelden, zonder dat daar intensief manueel programmeerwerk voor nodig is

Question 44

Q

Verschil tussen clustering, classificatie, regressie

Answer

A

clustering: het corpus wordt ingedeeld in clusters of klassen op basis van de kenmerken van de teksten in het corpus. Teksten in dezelfde cluster delen dus bepaalde eigenschappen of kenmerken met elkaar.
-geen labels nodig
- ongesuperviseerd machinaal leren

Classificatie: een computerprogramma leert om categorieën of klassen toe te wijzen aan data
- wel labels nodig bij de data want die labels leren het programma zelfstandig labels te voorspellen
- gesuperviseerd machinaal leren

Regressie: de voorspellingen in een regressietaak zijn geen klassen of categorieën maar numerieke waarden.
- wel labels nodig want die labels leren het programma zelfstandig labels te voorspelen
- gesuperviseerd machinaal leren

Question 45

Q

Verschil tussen gesuperviseerd en ongesuperviseerd leren

Answer

A

gesuperviseerd machinaal leren: aangebrachte labels door annotatoren: systeem krijgt teksten die een label hebben gekregen door menselijke annotatoren
ongesuperviseerd machinaal leren: menselijke annotatoren hebben geen label aangebracht aan data, het systeem leert zelf machinaal

Question 46

Q

Verschillende stappen in een feature-gebaseerde ML aanpak

Answer

A

dataverzameling
data annoteren
voorbereiden of preprocessen
omzetten naar numerieke tekstkenmerken
algoritme trainen
een voorspelling maken voor nieuwe data

Question 47

Q

Een eenvoudige feature vector kunnen bouwen

Question 48

Q

Wanneer spreken we van “deep learning”?

Answer

A

deep learning machine learning algoritmes gaan tijdens het leren op basis van die trainingsdata, bepaalde regelmatigheden proberen te vinden in de data en proberen op basis van die trainingsdata bv. een soort boom te bouwen en die die boom gaan ze dan toepassen op ongeziene tekstdata

Question 49

Q

Wat zijn word embeddings?

Answer

A

Elk woord voorstellen als een vector van getallen en wordt dan voorgesteld als een punt in een meerdimensionale ruimte.

Question 50

Q

Wat zijn transformers en in welke bekende NLP applicaties worden ze gebruikt?

Answer

A

Een netwerk dat verschillende invoergegevens parallel kan verwerken. => kunnen veel sneller en op veel meer data getraind worden.
Modelleert associaties tussen alle woorden in een zin en kan op die manier relaties tussen woorden in een zin modelleren, rekening houden met de context. (belangrijk want context is cruciaal in taal)

-BERT, GPT-3 en de meeste automatische vertaalsystemen zoals DeepL

Question 51

Q

Wat is de prototypetheorie? Wat is de link met bias?

Answer

A

Concept binnen de cognitieve wetenschappen.
Mensen categoriseren dingen en concepten op basis van een prototype of ideale representatie van die categorie. Een van de mogelijke nadelen van de prototypetheorie is is vooringenomenheid, bias.

Question 52

Q

Waarom ondervindt NLP last van vooringenomenheid?

Answer

A

Er zijn vele soorten bias:
1. menselijk in de data, dataverzameling en annotatie
- rapporteerbias
- selectiebias
2. menselijke bias in interpretatie
- correlation fallacy

Systemen hebben geen filter om te detecteren wat bias is

Question 53

Q

Wat is bias: verschillende soorten bias kunnen herkennen / bespreken

Answer

A

menselijk in de data, dataverzameling en annotatie
- rapporteerbias
- selectiebias
- out-group homogeniteitsbias
- impliciete associaties
- halo effect
menselijke bias in interpretatie
- overgeneralisering
- bevestigingsbias
- correlation fallacy
- subjectieve validatie
- experimenteerbias

Question 54

Q

Stochastic parrots artikel (3 vragen)
1. Welke milieukost brengen grote taalmodellen met zich mee?
2. Wat bedoelen de auteurs met “Size doesn’t guarantee diversity”. Geef een voorbeeld
3. De auteurs geven een aantal voorbeelden van bias in grote taalmodellen. Bespreek 1 voorbeeld.

Answer

A

Welke milieukost brengen grote taalmodellen met zich mee?
- Onderzoekers hebben recent onderzocht hoeveel het kost om grote taalmodellen te trainen. De kost werd berekend in dollars en in CO2 emissies. Een normale mens is verantwoordelijk voor 5t CO2 uitstoot, een transformer model trainen kost ca. 284t CO2 uitstoot en een eenvoudig BERT model trainen stoot evenveel uit als een transatlantische vlucht. Daarnaast wordt er ook nog geen groene energie gebruikt. Maar misschien is de kost het wel waard? Taalmodellen zijn uitgetest voor automatisch vertalen, een performatieverbetering van 0.1 BLEU score ( = maat om te meten hoe goed machine vertalen is) kost ongeveer $150000 (bovenop de kosten uitstoot)
Wat bedoelen de auteurs met “Size doesn’t guarantee diversity”. Geef een voorbeeld
- De trainingdata bevatten stereotypische associaties omtrent gender, leeftijd, etniciteit…
bv:
De toegang tot het internet is niet voor iedereen gelijk: we zien vooral jonge mensen van ontwikkelde landen.
De trainingdata komen van Reddit, Wikipedia,… Een meerderheid van die data worden geproduceerd door mannen.
Filtering zorgt ervoor dat mensen uit kleinere communities weggefilterd worden.
De auteurs geven een aantal voorbeelden van bias in grote taalmodellen. Bespreek 1 voorbeeld.
- GPT-3 kan zinnen genereren met hoge toxiciteitsscore zelf wanneer het een niet-toxische vraag krijgt. Waarom? In de trainingsdata zitten er 272K documenten van onbetrouwbare nieuwssites en 63K subreddits. “Feeding AI systems on the world’s beauty, ugliness, and cruelty but expecting it to reflect only the beauty is a fantasy.”

Question 55

Q

Ontstaansgeschiedenis van het WWW + evolutie

Answer

A

De basis van het ww werd ontwikkeld aan het CERN in Zwitserland door de brit Tim Berners-Lee, de belg Robert Cailliau en collega’s.
In 1990 bouwden ze de eerste browser en in augustus 1991 zetten ze de allereerste website online. Hiervoor konden de computers nog niet met elkaar communiceren, hetgeen die op een computer beschikbaar was, was niet beschikbaar op een andere computer.
Het ideaalbeeld van Cailliau en Berner-Lee was het www als een wereldwijde digitale bibliotheek, waar gebruikers in vrijheid en gratis kennis zouden delen. Wikipedia volstaat nog aan dat idee.
Na 30 jaar is er nu een dominantie van apps, staat het principe van netneutraliteit onder druk, zijn er uploadfilters en wordt ons lees-, luister- en kijkgedrag steeds meer gestuurd door aanbevelingsalgoritmes.

Question 56

Q

Verschil tussen het internet en het WWW

Answer

A

Het WWW is software, een applicatie die je gaat sturen over het internet en het internet is hardware, een netwerk die computers met elkaar verbindt en waarover je vanalles kan sturen.

Question 57

Q

Elk onderdeel van een online zoeksysteem kunnen bespreken

Answer

A

Spider
- bot die het WWW op een geautomatiseerde manier doorbladert
- gebeurt regelmatig om de index van zoekmachines actueel te houden
Index
- vereenvoudigde kopie van elke pagina die gevonden wordt door de spider met o.a. de kernwoorden van die pagina
Zoekmechanisme
- als een gebruiker een zoekopdracht ingeeft, wordt een algoritme toegepast op de index zodat relevante webpagina’s geordend weergegeven worden

Question 58

Q

Google rankbrain

Answer

A

geïntroduceerd in 2015
integratie van machine learning in zoeksystemen
leert uit klantentevredenheid
van woorden naar concepten

Question 59

Q

Vernieuwingen in 2023 in automatische zoeksystemen

Answer

A

Google Bard, Bing ChatGPT
- volledig nieuwe visie op zoekmachines
-gebruikers krijgen een samenvattend antwoord ipv enkel links
- zoekmachines worden interactiever en converseren met de gebruiker

Question 60

Q

wat is een vraag-antwoordsysteem?

Answer

A

een NLP systeem dat vragen in natuurlijke taal kan interpreteren (NLU) en ook een antwoord in natuurlijke taal kan formuleren (NLG)

Question 61

Q

Hoe werkt een sociale robot? Geef een voorbeeld

Answer

A

voorbeeld: Furhat
We willen die systemen common sense geven, wat nog een heel groot probleem is bij de huidige NLP systemen en emoties geven aan een dergelijk systeem. Bedoeling is dat het zou werken zoals ChatGPT.

Question 62

Q

NLP technologie voor de vertaler, tolk, ondertitelaar, …

Answer

A

ondertitelaar: live ondertiteling opgenomen
vertaler: automatische vertaalsystemen
tolk:

Question 63

Q

generatieve AI + voorbeelden, naam “ChatGPT”

Answer

A

ChatGPT = Chatbot Generative Pre-trained Transformer

generatieve AI:
- lerende systemen die nieuwe data produceren op basis van een trainingset van bestaande data
- voorbeelden: Dall-E, ChatGPT

Question 64

Q

3 factoren die verklaren waarom generatieve AI vandaag opeens zo populair en performant is

Answer

A

rekenkracht
big data
betere algoritmes

Answer 64

A

taalmodel
- getraind om het statistisch meest waarschijnlijke woord te voorspellen
supervised fine-tuning
- systeem leert op basis van voorbeelden wat correcte en fouten antwoorden zijn
trial & error
- model leert om menselijke voorkeuren na te bootsen, gebaseerd op menselijke feedback

Answer 65

A

bovenste laag: cherry: trial & error
icing: supervised fine-tuning
cake: taalmodel

Answer 66

A

hallucineren, genereren van nonsense: formuleert onbetrouwbare antwoorden, ChatGPT bevat geen expliciete logica of redeneringscapaciteiten
mogelijk bias
getraind op data van voor 2021, geen recente data
taal is niet altijd grammaticaal correct, beter engels dan andere talen rn
vertaalkwaliteit voorlopig minder goed dan automatische vertaalsystemen zoals DeepL

Answer 67

A

bias en productie van haatspraak door bias in de data waarop het gebaseerd
fake news
AI gecontroleerd door BigTech?
andere maatschappelijke vragen

Answer 68

A

= overkoepelende term voor een amalgaam van algoritmen die de stilistische kenmerken van een document aggregeren en kwantificeren, met als doel om statistisch onderbouwde conclusies te bereiken over auteurschap, datering, invloed, herkomst en/of stilistisch-literaire kenmerken.

toepassingen:
- historisch
- literair-theoretisch
- socio- en psycholinguistisch
- demografische profilering
- forensisch-juridisch

Answer 69

A

functiewoorden
meest voorkomende woorden
n-grams
part-of-speech tags
zinslengte
prosodie
semantiek

Answer 70

A

Lutoslawski:
- le stylème: verwijst naar verschillende linguïstische patronen: woordfrequenties, woordsoorten, positie van woorden in een zin
- heeft de term stylometrie uitgevonden

Yule:
- denkt een constante uit: Yule’s K: constante die de woordenschat rijkdom van een auteur beschrijft

Zipf:
- Zipf’s law: stelt dat in lange teksten het meest voorkomende woord 2 keer zo vaak voorkomt als het 2de meest voorkomende woord en 3 keer zo vaak als het 3de meest voorkomende woord

Mosteller & Wallace:
- gaan functiewoorden gebruiken om tot een analyse te komen: de woorden komen vaak voor en staan los van context en werken dus goed om teksten van verschillende of dezelfde auteurs te analyseren

Answer 71

A

minder (gedigitaliseerde) data: OCR en HTR
minder betrouwbare data NLP
tekstdualiteit zit anders in elkaar

Answer 72

A

correspondentie die uitgekomen is voelt te gestileerd aan, handschrift uit de 13de eeuw niet de 12de
adhv stylometrie gezien dat er een sterke eenheid is tussen de brieven, het gaat hier dus waarschijnlijk over dezelfde auteur voor de brieven van Helena en Abelardus

Answer 73

A

probleem lexicongebaseerd:
- andere taal => moet je lexicon helemaal opnieuw bouwen
- je kijkt naar woorden, niet naar woorden in context
- systeem kijkt niet naar impliciet taalgebruik

hoofdpijn:
lerende aanpak

Answer 74

A

Huidige nieuwsaanbevelingssystemen bevelen nieuws aan op basis van populariteitsmetrieken

Answer 75

A

collaboratieve: baseren de rangschikking op basis van de voorkeuren van andere gebruikers met een soortgelijke historie en karakteristieken
content-based: baseren rangschikking op basis van de gelijkenis tussen nieuwsartikels en de voorkeuren van gebruikers

Answer 76

A

= levend erfgoed. Het omvat sociale gewoonten, voorstellingen, rituelen, tradities, uitdrukkingen, bijzonder kennis of vaardigheden die gemeenschappen en groepen erkennen als een vorm van cultureel erfgoed. Een bijzonder kenmerk is dat het wordt overgedragen van generatie op generatie en belangrijk is voor een gemeenschappelijke identiteit.

Answer 77

A

deel van cultuur
belang voor taalwetenschap
belang voor historici

Answer 78

A

onomasiologisch: je vertrekt vanuit concept en kijkt welke woorden er voor bestaan

semasiologisch: vertrekken vanuit een woord en je geeft de betekenis

Answer 79

A

Database of the Southern Dutch Dialects
- 4 dialectgroepen: Vlaams, Zeeuws, Brabants, Limburgs
- onomasiologisch
- de 3 dialectwoordenboeken tegelijk doorzoekbaar maken en het hele dialectgebied in kaart brengen

Answer 80

A

semasiologisch

Answer 81

A

Gesproken Corpus (Zuidelijk-)Nederlandse Dialecten

belang:
- spontaan gesproken taal: weelde aan mogelijkheden voor taalkundig onderzoek
- basis voor syntactisch onderzoek
- dialecten als vorm van immaterieel erfgoed
- historisch belang: oral history