Module 2B - Tekstanalyse Flashcards

1
Q

Wat is NLP?

A
  • Natural Language Processing (NLP): domein dat zich toelegt op de ontwikkeling van de vaardigheid van computers om natuurlijke taal te begrijpen.
  • NLP is een domein dat zich situeert op het snijvlak van linguïstiek en computerwetenschappen. NLP combineert statistische technieken met machine learning technieken, waardoor het bijvoorbeeld mogelijk wordt om kernwoorden uit een tekst te halen.
  • Niet alleen het begrijpen van de taal; ook het produceren van menselijke taal (tekst- of sptraakgeneratie) is een belangrijk onderdeel.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Uiteindelijke doel van NLP?

A
  • Natural Language Processing zorgt ervoor dat de kloof tussen de mens en digitale data kleiner wordt door gebruik te maken van één gemeenschappelijke taal. Het uiteindelijke doel van NLP is het ontwerpen en bouwen van systemen die de menselijke taal begrijpen én produceren, zodat we op termijn geen programmeertalen zoals Java en Python meer nodig zullen hebben.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Is dit uiteindelijke doel van NLP al bereikt?

A
  • Nee, De ontwikkeling én toepassing van NLP is namelijk al een hele uitdaging op zich. Computers vereisen – traditioneel gezien – van mensen dat zij tegen computers praten in precieze programmeertaal. Daarnaast moet de taal absoluut niet dubbelzinnig en heel gestructureerd van aard zijn.
  • Dit is vrijwel onmogelijk, want menselijke taal is nooit precies. Je hebt altijd te maken met aspecten zoals slang, dialecten en sociale context.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Tekstanalyse

A
  • Tekstanalyse (text analytics of text mining) is de geautomatiseerde analyse van tekstuele data om daaruit informatie te halen, of: het automatisch herkennen van informatie in tekst geschreven in natuurlijke taalTekstgeneratie is het automatisch genereren van tekst
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tekstgeneratie

A

Tekstgeneratie is het automatisch genereren van tekst

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Informatiefusie

A
  • Informatiefusie is het automatisch herkennen van informatie in tekst in combinatie met andere brontypes (bijv. beeld, links in sociaal netwerk) waarbij de informatie wordt geïntegreerd.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Eerste systemen text mining

A
  • De eerste systemen die werden ontwikkeld voor het ontsluiten, classificeren en begrijpen van grote tekstcorpora (text mining) waren regelgebaseerd.
    • Regels en patronen werden handmatig gecodeerd door kennisingenieurs. Bv. “if ball, then class sports”.
  • Probleem: bijzonder tijdrovend en niet handig in bv. het recht waarbij informatie regelmatig wijzigt: de patronen gaan telkens handmatig moeten worden aangepast.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hoe wordt machinaal leren gebruikt bij NLP?

A
  • Technieken van machinaal leren: steeds populairder, veel adaptiever en flexibeler. Voornamelijk over gesuperviseerd leren, waarbij de machine getraind wordt met geannoteerde voorbeelden.
  • Voorbeeld:
    • Systeem leren om automatisch een label (klasse of onderwerp) toekennen aan teksten → daartoe de tekst beschrijven met kenmerken (features) en deze kenmerken extraheren uit de tekst.
    • De machine leert automatisch de correlatie tussen de kenmerken en het label/de klasse met behulp van voorbeelden van teksten waaraan een mens dit label heeft toegekend.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Manuele feature engineering

A
  • Technieken van gesuperviseerd leren: voor het classificeren van teksten is een menselijk denkproces vereist over welke kenmerken van het document relevant kunnen zijn, maar daarna kan de machine de waarde of het gewicht van deze features automatisch leren op basis van de gegeven voorbeelden.
  • Krijgt de machine vervolgens een nieuwe tekst, dan kan deze automatisch worden geclassificeerd. Dit betekende al een grote vooruitgang ten opzichte van de regelgebaseerde systemen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat houdt taalonafhankelijkheid in?

A
  • Deze systemen zijn taalonafhankelijk: doordat er geen feature engineering meer nodig is, maar het systeem de features zelf leert, kun je werken met teksten uit verschillende talen (tenminste, als je maar genoeg voorbeelden hebt in elk van die talen).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Zijn de systemen performant van NLP?

A

Deze systemen zijn zeer performant op voorwaarde dat er genoeg voorbeelden zijn om van te leren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nadeel artificiële neurale netwerken en deep learning?

A

Een belangrijk nadeel evenwel is dat deze netwerken weinig transparant zijn en heel veel parameters (gewichten) bevatten om hun patronen in de teksten te gaan modelleren. Het is daarbij niet altijd duidelijk op basis van welke criteria een beslissing wordt genomen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Types van architecturen van neurale netwerken: hoe neuronen en connecties zijn georganiseerd in het netwerk:

A
  1. FFNN
  2. RNN
  3. CNN
  4. Combinaties
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

FFNN

A

Feed forward neurale netwerken (feed forward neural networks - FFNN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

RNN

A

Terugkerende of recurrente neurale netwerken (recurrent neural networks - RNN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

CNN

A

Convolutionele neurale netwerken (convolutional neural network - CNN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

LSTM

A
  • Bijzondere variant van RNN, het lange korte-termijngeheugen netwerk (long short-term memory netwerk (LSTM)), bijzonder geschikt voor tekstanalyse en tekst generatie.
  • Daarvoor is immers een systeem vereist dat over feedbackverbindingen beschikt, zodat niet alleen afzonderlijke datapunten (zoals woorden) kunnen worden verwerkt, maar ook hele reeksen gegevens (zoals gesproken of geschreven zinnen).
    • Elk woord afzonderlijk verwerken zoals traditionele FFNN’S = heel moeilijk om te begrijpen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Werkwijze RNN

A
  • Er wordt woord per woord gelezen, maar er wordt ook rekening gehouden met de voorgeschiedenis. Bij het inlezen van elk nieuw woord, wordt immers informatie over de vorige woorden mee in rekening gebracht. Deze manier van modelleren maakt het mogelijk om de syntax en semantiek (= de betekenis van de zin) te modelleren.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Geheugencellen

A
  • LSTM-vorm van RNN heeft geheugencellen, die het systeem helpen om te leren welke informatie moet worden onthouden, en welke informatie mag worden vergeten. Een LSTM is dus een complexer netwerk, met meer parameters, meer gewichten. Een LSTM beschikt over vier neurale netwerklagen: een cel, een invoerpoort, een uitvoerpoort en een vergeetpoort.
  • De cel onthoudt waarden over willekeurige tijdsintervallen en de drie poorten geven aan welke gegevens nuttig zijn om te bewaren en welke gegevens niet nuttig zijn; zij regelen m.a.w. de informatiestroom in en uit de cel.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Illustratie geheugencellen LSTM?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Encoder-decoder architectuur

A
  • Zeer courant, bv. voor automatische vertaling. De encoder, een RNN? gaat in dat geval onze zin (bronsequentie) coderen, waarbij aan het einde van dat coderingsproces een vector (dit is een grootheid uit de wiskunde met een grootte en een richting) wordt gecreëerd die alle informatie bevat over de zin.
22
Q

Vector in een encoder-decoder architectuur?

A
  • Die vector kan worden voorgesteld in een vectorruimte met een aantal dimensies, of componenten in de vector. Beschikt een vector over 200 componenten, dan betekent dit dat er 200 getallen worden opgeslagen met informatie over die zin.
23
Q

Decoder in een encoder-decoder architectuur?

A

Opnieuw een RNN, gaat uit die vector woord voor woord de nieuwe zin genereren (bijvoorbeeld vertalen van het Frans naar het Engels).

24
Q

Attentiemechanismen

A
  • In NLP worden vaak attentiemechanismen gebruikt om het systeem te leren op welk woord in de originele zin de nadruk, d.i. de attentie, moet liggen.
  • Zo kan het systeem leren dat “beautiful” een grotere attentie (dit is, een groter gewicht in de connectie) heeft met “belle” maar een kleinere attentie met “est”. Die attentiemechanismen zijn dus eigenlijk gewichten, parameters die het systeem gaat leren.
25
Q

Transformer-gebaseerde architectuur

A
  • Combineert 2 FFNN’s die als encoder bronsequenties gaat coderen, respectievelijk als decoder de doelsequenties genereert, en beschikt over gesofisticeerde attentie-mechanismen.
  • Hier: het systeem leert dankzij die attentie-mechanismen dat het een hoog gewicht moet toekennen de relatie tussen “eating” en “apple”, evenals tussen “green” en “apple”, maar niet aan de relatie tussen “eating” en “green”.
    • Dergelijke transformer modellen kunnen woorden verwerken in relatie tot alle andere woorden in een zin, in plaats van één voor één in volgorde.
26
Q

Taalmodellen met biljoenen gewichten

A
  • Er bestaan ook systemen die verschillende types attentiemechanismen parallel kunnen aanleren, om zo te komen tot taalmodellen met biljoenen(!) gewichten.
27
Q

Wat is tekstanalyse?

A
  • Tekstanalyse of text mining kan voor uiteenlopende taken worden ingezet, zoals topicdetectie, classificatie van tekst, sentimentanalyse, vertalingen, detectie van fake news, enzovoort.
28
Q

3 voorbeelden tekstanalyse?

A
  1. Classificeren van teksten
  2. Herkennen van argumenten
  3. Vertalen van natuurlijke taal naar formele kennis
29
Q

Waarvoor hebben we tekstanalyse nodig?

A
  • Bv. nieuwsberichten automatisch indelen volgens het politiek-ideologisch spectrum: 3 klassen maken.
  • Stel 5 woorden vocabularium, dan kunnen we werken met een FFNN: De input bestaat uit het nieuwsbericht in een vereenvoudigde weergave (bijvoorbeeld als een zak met woorden of bag of words), en de outputlaag berekent de kans dat je nieuwsbericht behoort tot de klassen “centrum”, “rechts” of “links” (nadat het eerst met heel veel voorbeelden werd getraind).
30
Q

Sentimentanalyse

A
  • Gebruik van o.m. tekstanalyse om systematisch affectieve toestanden en subjectieve informatie te identificeren, extraheren, kwantificeren en bestuderen. Je analyseert dan bijvoorbeeld of berichten positief, neutraal of negatief zijn. Merken maken vaak gebruik van sentimentanalyse om bij te houden wat er online over hen wordt gezegd (online “word of mouth”).
31
Q

Hoe goed werkt sentimentanalyse?

A

Zeer goed! Machines behalen (minstens) dezelfde performantiegraad bereiken als mensen voor de classificatie van teksten in topics en subtopics, opinies, eigennamen en hun relaties.

32
Q

Wat is argumentation mining?

A
  • Automatische detectie van argumentatieve taal en de classificatie van de argumenten: wat is een premisse, wat is een claim, conclusie?
33
Q

Stappen argumentation mining?

A
  1. Extraheren van de argumenten: argument extraction
  2. Tweede stadium: voorspellen van de relaties tussen argumenten (relations prediction) = herkennen bij welke bewering een bepaalde premisse hoort
34
Q

Argumentatieschema van Toulmin

A

Argumenten in 6 componenten opdelen:

  1. Claim = bewering of premisse
  2. Grounds = gronden of redenen die de bewering ondersteunen
  3. Qualifier = die de graad van zekerheid kwalificeert van de relatie tussen de gronden en de bewering
  4. Warrant = die het logisch verband rechtvaardigt tussen de gronden en de bewering
  5. Backing = die de betrouwbaarheid verzekert van de warrant
  6. Rebuttal = die de relatie tussen gronden en bewering kan verwerpen
  • Zo kunnen teksten indelen in segmenten waaraan een label kan worden toegekend
35
Q

Argumentextractie

A
  • Eerste stadium in argumentation mining dat bestaat uit het segmenteren van de tekst in zinnen of bijzinnen, en het classificeren van deze zinnen of bijzinnen als argumentatief of niet) behalen computers dankzij goede feature engineering en/of voldoende trainingsvoorbeelden waarbij de segmenten in de tekst al geannoteerd zeer goede resultaten.
36
Q

Waar zijn de computers minder goed in bij argumentation mining?

A
  • Classificatie van types van argumentatieve componenten: herkennen van een claim of een ground. Ook niet goed in relaties tussen de componenten:
    • Bv. is x de premisse of rebuttal van y
  • Om dit taak te vervullen, moet de computer een datastructuur in de tekst herkennen: bv. boomstructuur en een graaf waarin de argumentatieve relaties tussen de zinscomponenten worden weergegeven.
37
Q

Hoe worden de beste resultaten behaald bij argumentation mining?

A
  • Algoritmes van gestructureerd leren: structured classifiers, die één enkel classificatiemodel genereren dat de globale structuur van de argumentatie, de componenten en hun relaties in één keer herkent.
38
Q

Welke systemen werden ingezet bij juridische expertsystemen?

A
  • In de jaren 80-90: die regels konden dan geprogrammeerd worden in juridische expertsystemen voor het nemen van automatische beslissingen.
  • Grootste struikelblok: Manueel opstellen van de kennisregels, of het omzetten van de wettekst in kennisregels. Zeker met wetgeving die regelmatig wijzigt, kan dit proces bijzonder tijdrovend zijn.
  • Deep learning: Er wordt nu ingezet op deep learning: automatisch juridische teksten naar kennisregels vertalen: bv. predicatenlogica.
39
Q

Welke stappen integreert een neuraal netwerk om automatisch natuurlijke taal om te zetten naar formele kennis?

A
  • Databank (met vluchtgegevens, geografische informatie) te bevragen → encoder-decoder architectuur.
  • 1 neuraal netwerk integreert daarbij 2 stappen:
  1. Input vertalen naar een ruwe schets waarin gedetailleerde informatie nog niet is ingevuld
  2. Details worden ingevuld gegeven de sketch en de originele zin.
40
Q

Kan je goede resultaten behalen met semantic parsing?

A
  • Ja, voor simpele instructies in beperkte domeinen met voldoende trainingsvoorbeelden en een niet te complexe taal kunnen hiermee zeer goede resultaten worden behaald (met hoge accuraatheden).
  • Niet zo zeer bij juridische taal omdat deze veel complexer is, een groot vocabularium en een open domein is = begrippen gebruikt die ook in andere contexten worden gehanteerd.
    • Dus nog heel wat onderzoek nodig.
    • Er wordt momenteel ook heel wat onderzoek uitgevoerd naar het porteren van modellen die getraind zijn in een bepaald domein naar een domein waarvoor weinig trainingsvoorbeelden voorhanden zijn.
41
Q

Is het mogelijk argumentatieve tekst automatisch te genereren?

A
  • Ja, beweringen en hun premisses wanneer je traint op een grote dataset: bv. berichten en discussies op reddit.
    • Dan kan je een encoder-decoder architectuur gebruiken, eventueel aangevuld met een attentiemechanisme.
42
Q

Wat kunnen we bereiken met tekstgeneratie?

A
  • Chatbots laten spreken en argumenten genereren, of robotjournalisten inzetten om aan verslaggeving te doen. Het is ook met deze technologie dat we automatisch juridische teksten, zoals contracten, kunnen genereren op basis van metadata en formele specificaties.
    • Het generatiemodel kan geleerd worden met voorbeelden van specificaties en corresponderende teksten, bijvoorbeeld met een neuraal netwerk.
43
Q

Wat is het belang van data bij tekstgeneratie?

A
  • Voldoende, representatieve en kwaliteitsvolle trainingsdata bij het ontwikkelen van dergelijke tekstgeneratiesystemen.
    • Dezelfde technieken van tekstgeneratie worden eveneens ingezet om nepnieuws (fake news) te genereren, dit is desinformatie verhuld als nieuws, die verspreid wordt via websites, sociale media en traditionele media, met als doel het maken van winst of het beïnvloeden van de publieke opinie.
44
Q

Wat is de reden dat OpenAi zijn GPT-2 model niet open geeft?

A
  • Mogelijk misbruik, ondanks het doel om open source AI te ontwikkelen. Ze zetten enkel een lichter, minder goed presterend model. GPT-2 is een zogenaamd generatief, transformer-gebaseerd taalmodel, dat coherente teksten kan schrijven, door telkens het volgende woord te voorspellen. Het werd getraind op basis van 8 miljoen webpagina’s aan de hand van 1,5 miljard parameters.
45
Q

GPT-3

A
  • Inmiddels is er een opvolger, GPT-3, waarop Microsoft een exclusieve licentie heeft verkregen om het taalmodel te gebruiken in zijn producten en diensten. Net als zijn voorganger kan GPT-3 coherente teksten schrijven, door telkens het volgende woord te voorspellen.
  • Er is enige input nodig, zoals een titel en korte intro, vervolgens kan het taalmodel zelf een volledig artikel schrijven, of een discussie tussen verschillende personen nabootsen. Het taalmodel is niet publiek beschikbaar, maar wetenschappers kunnen toegang krijgen
46
Q

Kritiek op té grote language models

A
  • Hoe groter de trainingssets en het aantal parameters, hoe ondoorzichtiger de algoritmes worden en hoe moeilijker het is om ze te ‘auditen’ op de aanwezigheid van bias. Ook milieu-overwegingen spelen mee.
  • Zo zou het eenmalig trainen van één versie van Google’s taalmodel, BERT (Bidirectional Encoder Representations from Transformers), dat met 110 miljoen parameters werkt en aan de grondslag ligt van de Google zoekmachine, naar schatting 1.438 pond CO2-equivalent opleveren - ongeveer evenveel als een retourvlucht tussen New York City en San Francisco.
    • In werkelijkheid moeten dergelijke modellen evenwel meermaals worden hertraind, en inmiddels zitten we met de zwaarste taalmodellen al aan miljarden parameters.
47
Q

Waarvoor wordt tekstanalyse en tekst-generatie ingezet?

A
  • Tekstanalyse en -generatie worden samen ingezet voor toepassingen zoals vraag-antwoordsystemen, dialoogsystemen, of virtuele assistenten, bijvoorbeeld Amazon Alexa, Google Home, dit meestal in combinatie met spraakverwerking (speech recognition).
  • Ook op dat vlak is het cruciaal om de kwaliteit en representativiteit van de trainingsdata in de gaten te houden. Wat er dreigt te gebeuren wanneer spraakanalysesystemen getraind worden met onvoldoende representatieve data - enkel van volwassenen en niet van kinderen bijvoorbeeld
48
Q

Hoe worden gebruikersprofielen opgesteld?

A
  • Daarvoor integreren we verschillende bronnen van gebruikersdata:
    • Tekst, zoals status updates waarbij gebruikers van het sociaal netwerk beschrijven waaraan ze denken, waar ze zich bevinden of andere informatie, en dit delen met vrienden;
    • Beelden, zoals gedeelde foto’s;
    • Links, bijv. links met vrienden in het netwerk, links gevormd door van webpagina’s, likes,…
49
Q

Waarom is informatiefusie nuttig?

A
  • Elk van de bronnen kan op zich al heel veel informatie over iemand onthullen, maar in combinatie leveren ze een zeer gedetailleerd profiel op, dat output kan voorspellen, zoals:
    • iemands leeftijd;
    • iemands geslacht;
    • en zelfs iemands persoonlijkheid (volgens de zogenaamde Big Five persoonlijkheidstrekken: openheid voor ervaring v. geslotenheid, zorgvuldigheid v. laksheid, extraversie v. introversie, vriendelijkheid v. antagonisme, neuroticisme v. stabiliteit
50
Q

Deep learning op het vlak van tekstgeneratie, analyse en informatiefusie

A
  • Deep learning is vandaag de dag een populaire techniek voor tekstanalyse, tekstgeneratie en informatiefusie, die op veel vlakken voor belangrijke doorbraken zorgt. Ook voor de juridische praktijk biedt deze krachtige technologie heel wat opportuniteiten:
    • Bijvoorbeeld voor het herkennen en genereren van argumenten, en het vertalen van wetteksten naar een formele kennisrepresentatietaal waarmee men kan redeneren en nieuwe informatie kan afleiden.
  • Hoewel computers voor sommige taken al zeer bevredigende resultaten behalen (en een accuraatheid bereiken vergelijkbaar met, of beter dan, die van de mens), toch is er voor andere taken nog verder onderzoek vereist, alsook vaak meer en/of betere data.