examenvragen Flashcards
Leg uit: “you shall know a word by the company it keeps”
distributionele hypothese in het taalmodel. We kunnen de betekenis van woorden afleiden uit de context, adhv de omringende woorden
Waarom is part-of-speech tagging een desambigueringstaak?
Woorden op zich zijn vaak ambigu en je kan de juiste betekenis bepalen door te kijken naar de omringende woorden. Door te kijken naar de context kan je de woordsoort bepalen waardoor de betekenis duidelijk wordt.
Wat zijn digital humanities?
- onderzoeksdomein op het kruispunt van computer- of digitale technologieën en de Humanities of geesteswetenschappen.
Humanities is een term uit de renaissance, er was toen een shift van god die centraal stond in het wereld beeld naar de mens die centraal staat.
Digital Humanities is dus een systematisch gebruik van digitale bronnen en methodes (databanken, tekstanalysetools, programmeertalen, visualisaties,…) in de geesteswetenschap en de analyse van hun toepassing.
Het doel ervan is om onderzoek in de humanities te verzamelen, organiseren, analyseren en presenteren met behulp van computationele methodes.
Het ultieme doel is om nieuwe vragen te stellen en te beantwoorden, en oude vragen op een nieuwe manier te behandelen.
Voorbeeldprojecten + kenmerken DH projecten
- Digital humanities @ Stanford
- informatie gelinkt aan geografische informatie zodat analyse op kaart mogelijk is - Ghent center for digital humanities
- interdisciplinair: onderzoekers uit geschiedenis, literatuurwetenschappen die samenwerken met informatici - Verdwenen zwinhavens
- wordt gedaan adhv niet invasieve methodes zoals virtual reality om het landschap intact te houden - Wechanged
- netwerken vinden van vrouwelijke editors van de 18e en 20ste eeuw
- database opgebouwd op basis van informatie over die editors en de informatie wordt op geografische manier gelinkt om patronen te ontdekken - CUNE-IIIF-ORM
- spijkerschrift automatisch omzetten naar transliteratie om eigenamen en belangrijke concepten uit de kleitabletten te extraheren op een automatische manier - Digital transgender archive
-vanuit 60 instellingen alle data samengebracht in 1 database - Torn Apart
- geospatial info linken aan tekst: info uit allerlei databanken aan elkaar linken en geografisch visualiseren
Beknopte geschiedenis van DH
- DH stamt af van het gebied van humanities computing
- 1966: eerste tijdschrift “computers and the humanities”, mensen houden zich steeds op een meer systematische manier bezig met digital humanities
- 1987: TEI (Text Encoding Initiative): protocol voor het tangen van digitale teksten: heeft mee veld van elektronische wetenschap vorm gegeven en heeft geleid tot XML-standaard, die de basis was voor het latere HTML. Er is hier voor het eerst echt een standaard.
- ‘90: digitale tekst en beeldarchieven
- Komst PCs en www: meer aandacht voor design en multimedia waardoor er een shift komt van puur tekst naar andere media die ook kunnen toegevoegd worden aan die databanken
- 2004: bundel A Companion to DH: eerste keer dat de term gebruikt wordt, vanaf dan spreekt men over de Computationele wending: gebruik van computers (op grote schaal) binnen de humanities
- 2009: MLA-conventie waar het vakgebied van de DH vormgegeven wordt
Voornaamste punten van kritiek op DH
- gebrek aan kritisch nadenken over implicaties van computationele denkbeelden
- ” zwarte doos”: wetenschappers gebruiken tools waarvan ze niet weten hoe ze ze moeten gebruiken
- gebrek aan diversiteit: vooroordelen die invloed hebben op de tools
- gebrek aan focus op pedagogiek: beurzen vooral gericht op onderzoek, minder op onderwijsinnovatie
Wat is digitale tekstanalyse?
Gebruik van digitale tools voor de automatische analyse van teksten
Verschil tussen close en distant reading
Close reading is het lezen en manueel analyseren van teksten. Distant reading is de computationele analyse van teksten om patronen te vinden in grote tekstcollecties (die je als mens niet opmerkt als je teksten leest).
Waar moet je op letten bij het verzamelen van corpora?
Het is belangrijk om aan het doel te denken, wat je achteraf met de teksten wilt doen. De tekstcollectie die je aanlegt moet relevant zijn voor je onderzoeksvraag en representatief zijn.
je moet er voor zorgen dat het een betrouwbare weergave geeft van wat je wilt onderzoeken, zorgen voor een mooie evenwichtige verdeling van verschillende kenmerken.
Verschil tussen “born digital” en “analoge” teksten
Born digital zijn teksten die direct in digitale vorm verschenen zijn.
Analoge teksten zijn teksten die nog moeten gedigitaliseerd worden
Hoe kan je teksten digitaliseren? Wat is OCR?
Digitaliseren kan via HTR of OCR. OCR is Optical Character Recognition. Het is het omzetten van een afbeelding in een tekst die kan ingelezen en bewerkt worden door een computer.
Wat is een bestandsformaat? Wat zijn de twee hoofdsoorten van bestandsformaten? Wat is een extensie?
Tekst die we verzamelen, gaan we opslaan in bestanden. Bestanden hebben een bepaald formaat die duidt op de wijze waarop de informatie in een computerbestand gecodeerd is. Het bepaalt wat je met een bestand kan doen, welke software je kan gebruiken.
De twee hoofdsoorten zijn tekst en binair. Tekst zijn de leesbare tekens en binair is de computercode die enkel door specifieke programma’s gelezen kan worden.
Een extensie is een toevoeging aan het einde van een bestandsnaam die meestal uit één of meer letters bestaat en aangeeft om welk bestandsformaat het gaat.
Wat is HTML? Waarvoor staat de afkorting HTML?
Tekstbestand die gebruikt wordt voor het weergeven van webpagina’s.
HyperText Markup Language.
Wat is een PNG/PDF bestand?
Beide binaire bestanden.
Een PNG bestand is een bestandsformaat voor het opslaan van afbeeldingen in digitale vorm en er is een specifieke software voor nodig.
PDF is een bestandsformaat dat is ontwikkeld door de firma Adobe om bestanden met opmaak op alle computersystemen op dezelfde wijze te kunnen tonen en afdrukken. De afkorting staat voor Portable Document Format.
Soorten zoekopdrachten, beperkingen letterlijke zoekopdrachten
Soorten: letterlijke zoekopdrachten, Google search, Google advanced search, reguliere expressies
Beperkingen letterlijke zoekopdrachten:
- Je kan niet alle voorkomens van een bepaald werkwoord of alle vormen van een adjectief zoeken.
-Je kan ook niet alle eigennamen vinden in een corpus adhv een letterlijke zoekopdracht of het woordgebruik in een bepaalde tijdsperiode.
oplossing: corpus annoteren met extra informatie
Verschillende niveaus van ambiguïteit in natuurlijke taal
- Morfologische ambiguïteit
- Lexicaal-semantische ambiguïteit
- Syntactische ambiguïteit
- Discoursniveau
- Pragmatiek en wereldkennis
Verschil tussen polysemie en homonymie
Bij polysemie zijn de verschillende betekenissen verwant, bij homonymie is er geen etymologisch verband.
Definitie annotatie, types annotaties, soorten taalkundige annotaties
Definite: Annotatie verwijst naar het proces zelf, het toevoegen van taalkundige (of andere) informatie aan een digitale tekstverzameling (gesproken of geschreven). Maar annotatie kan ook verwijzen naar het resultaat van het annoteren.
Types:
1. Taalkundige informatie
- zinssplitsing en tokeniseren
- morfologische annotaties
- syntactische annotatie
- semantische annotatie
2. Inhoudelijke informatie
3. Metadata
4. Structurele informatie
Sense inventories
Een sense inventory is een soort digitaal woordenboek waarin alle betekenissen van een woord een apart label krijgen.
- WordNet en Cornetto
Inter-annotator agreement (definitie + belang)
Alle annotatoren hetzelfde deel van een corpus laten annoteren om de labels daarna te vergelijken. Berekenen hoeveel procent van de annotaties overlappen.
Dit is om de betrouwbaarheid van annotaties na te gaan, je berekent dan hoe goed de annotatoren overeenkomen bij het labelen.
Collocaties
Collocaties zijn frequente en/of typische semivaste combinaties zoals een aanbod accepteren of afslaan.
Concordanties
Concordantie is het woordgebruik in context, de omringende woorden waarbij het woord vaak voorkomt.
Stylometrie (definitie, toepassingen en voorbeelden)
Stylometrie is de statistische analyse, het bestuderen van schrijfstijl (kijken naar lexicale en syntactische informatie).
Het wordt gebruikt bij het bepalen van auteurschap (authorship attribution) als je bijvoorbeeld probeert na te gaan of een auteur andere boeken heeft onder een schuilnaam en bij de forensische taalkunde waarmee ze ontdekt hebben wie de Unabomber was door de schrijfstijl te herkennen in zijn brieven.
Autorship attribution, forensische taalkunde
Bij het bepalen van auteurschap (authorship attribution) bepaal je op basis van lexicale en syntactische kenmerken wie de auteur is van een tekst. Bijvoorbeeld frequenties van functiewoorden, PoS-patronen, frequente opeenvolging van woorden. Bekend voorbeeld: JK Rowling die onder pseudoniem Robert Calbraith boeken schreef, ontdekt door de taalkundige handtekening.
De forensische taalkunde is alles wat met taal en wet/misdaad te maken heeft. Het doel is om te achterhalen wie de auteur is van anonieme teksten. Bekend voorbeeld: Unabomber case waarbij de broer de schrijfstijl herkend heeft.
Type-token ratio? Hoe bereken je TTR?
tokens = totale aantal woorden in een tekst
types = totaal aantal unieke woorden in een tekst
TTR = aantal types gedeeld door aantal tokens en heeft altijd een waarde van 0 en 1 als resultaat. Hoe dichter de waarde bij 1, hoe groter de lexicale diversiteit in de tekst.
Onderzoek Loic De Langhe
“The influence of Alzheimer’s Disease on language complexity in Dutch.”
Meten complexiteit door een statistische analyse uit te voeren van frequenties van zinslengte, discourse markers en het gebruik en verdeling van woordsoorten in het corpus.
Gebaseerd op 2 corpora: werken van Willem Elsschot en boeken van Hugo Claus die Alzheimer’s had.
Ook getoetst aan een standaard referentiecorpus omdat het taalgebruik sowieso evolueert naargelang iemand ouder wordt (als controlemechanisme).
Resultaat: er is een sterk dalende complexiteit van het taalgebruik bij de schrijver met Alzheimers diagnose doorheen zijn carrière, die veel sterker is dan dat je zou verwachten op basis van de stijgende leeftijd. Er was een opvallende daling in het gebruik van discourse markers en significante daling van de gemiddelde zinslengte. => hypothese bevestigd.
N-grammen, bag-of-words vectoren, problemen bow modellen
Een N-gram is een sequentie van N tokens of eenheden (n slaat op een cijfer).
Een BOW model houdt geen rekening met de volgorde van woorden in zinnen. Je deelt zinnen op en maakt een lijst van alle unieke woorden die er in voorkomen.
Als het corpus veel groter wordt, is het te veel werk en krijg je veel te lange woordenlijsten met ontzettend lange sparse vectoren die niet zo informatief zijn.
TF-IDF, nut, hoe bereken je TF-IDF conceptueel
Term Frequency - Inverse Document Frequency
TF = frequentie van een woord in een bepaald document
IDF = aantal documenten in het corpus waarin het woord voorkomt
Gaat na hoe belangrijk een woord is in een document in een bepaalde corpus. Meer betekenisvolle of specifieke woorden krijgen een hogere score.
berekenen:
- TF = frequentie van term in het document
- IDF = N (totaal aantal documenten) delen door aantal documenten die de term bevatten
- finale score = TF x IDF
=> hoge score: woord is meer karakteristiek voor een bepaald document
Waarom is het nuttig om TF-IDF scores te gebruiken in plaats van absolute frequenties?
bij absolute of binaire frequenties is er geen onderscheid tussen frequente (grammaticale) woorden en woorden die domein- of document-specifiek zijn
Topic modelling, “buffet”-metafoor van Jockers, voorbeeld van toepassing van topic modelling
Topic Model is een statistisch model dat gebruikt kan worden om “latente” (abstracte) topics in documenten te ontdekken. Het is een typische computationele benadering binnen de distant reading traditie. Bedoeld om grote verzamelingen tekst te verwerken. Vaak gebruikt voor computationeel literatuuronderzoek.
Buffet metafoor:
- topic modelling als een buffet
- algoritmen gaan ervan uit dat alle auteurs van alle teksten aanwezig waren op een tekstueel buffet
- buffetten zijn niet oneindig: er worden maar een paar gerechten aangeboden
toepassing: automatisch labellen krantenartikels, spam filtering in mailbox, aanbevelingssystemen netflix, spotify, goodreads
Verschil tussen collaborative en content-based filtering
collaborative filtering: aanbevelingssystemen die zich baseren op je gebruiksgedrag, en nieuwe producten aanbevelen die aangekocht werden door gebruikers met een gelijkaardig gedrag
content-based filtering: systemen die zich baseren op de keywords/tekst die gebruikt worden om een item in de collectie te beschrijven met behulp van topic models
Google Books Ngram Viewer (+beperkingen), Voyant
GBNV: soort zoekmachine die een grafiek visualiseert hoe vaak woorden gebruikt worden doorheen de tijd.
- beperkingen: verschillende betekenissen worden niet onderscheiden, betekenis van een woord kan veranderen doorheen de tijd en nieuwe woorden hebben geen betrouwbare frequenties
Voyant: je kan corpora gebruiken die door Voyant zelf worden aangeboden of zelf je corpus opladen
- word clouds
- termsberrry
- trends
- concordanties
- summary
Wat is computationele taalkunde?
het analyseren van natuurlijke taal met behulp van computers
het doel is om modellen te bouwen die menselijke intelligentie benaderen