Module 2B - Tekstanalyse Flashcards

Question

Transformer-gebaseerde architectuur

Answer 1

* Combineert 2 FFNN's die als encoder bronsequenties gaat coderen, respectievelijk als decoder de doelsequenties genereert, en beschikt over gesofisticeerde attentie-mechanismen. * Hier: het systeem leert dankzij die attentie-mechanismen dat het een hoog gewicht moet toekennen de relatie tussen "eating" en "apple", evenals tussen "green" en "apple", maar niet aan de relatie tussen "eating" en "green". * Dergelijke transformer modellen kunnen woorden verwerken in relatie tot alle andere woorden in een zin, in plaats van één voor één in volgorde.

Answer 2

* Er bestaan ook systemen die verschillende types attentiemechanismen parallel kunnen aanleren, om zo te komen tot taalmodellen met biljoenen(!) gewichten.

Answer 3

* Tekstanalyse of text mining kan voor uiteenlopende taken worden ingezet, zoals topicdetectie, classificatie van tekst, sentimentanalyse, vertalingen, detectie van fake news, enzovoort.

Answer 4

1. Classificeren van teksten 2. Herkennen van argumenten 3. Vertalen van natuurlijke taal naar formele kennis

Answer 5

* Bv. nieuwsberichten automatisch indelen volgens het politiek-ideologisch spectrum: 3 klassen maken. * Stel 5 woorden vocabularium, dan kunnen we werken met een FFNN: De input bestaat uit het nieuwsbericht in een vereenvoudigde weergave (bijvoorbeeld als een zak met woorden of bag of words), en de outputlaag berekent de kans dat je nieuwsbericht behoort tot de klassen "centrum", "rechts" of "links" (nadat het eerst met heel veel voorbeelden werd getraind).

Answer 6

* Gebruik van o.m. tekstanalyse om systematisch affectieve toestanden en subjectieve informatie te identificeren, extraheren, kwantificeren en bestuderen. Je analyseert dan bijvoorbeeld of berichten positief, neutraal of negatief zijn. Merken maken vaak gebruik van sentimentanalyse om bij te houden wat er online over hen wordt gezegd (online "word of mouth").

Answer 7

Zeer goed! Machines behalen (minstens) dezelfde performantiegraad bereiken als mensen voor de classificatie van teksten in topics en subtopics, opinies, eigennamen en hun relaties.

Answer 8

* Automatische detectie van argumentatieve taal en de classificatie van de argumenten: wat is een premisse, wat is een claim, conclusie?

Answer 9

1. Extraheren van de argumenten: argument extraction 2. Tweede stadium: voorspellen van de relaties tussen argumenten (relations prediction) = herkennen bij welke bewering een bepaalde premisse hoort

Answer 10

Argumenten in 6 componenten opdelen: 1. Claim = bewering of premisse 2. Grounds = gronden of redenen die de bewering ondersteunen 3. Qualifier = die de graad van zekerheid kwalificeert van de relatie tussen de gronden en de bewering 4. Warrant = die het logisch verband rechtvaardigt tussen de gronden en de bewering 5. Backing = die de betrouwbaarheid verzekert van de warrant 6. Rebuttal = die de relatie tussen gronden en bewering kan verwerpen * Zo kunnen teksten indelen in segmenten waaraan een label kan worden toegekend

Answer 11

* Eerste stadium in **argumentation mining** dat bestaat uit het segmenteren van de tekst in zinnen of bijzinnen, en het classificeren van deze zinnen of bijzinnen als argumentatief of niet) behalen computers dankzij goede feature engineering en/of voldoende trainingsvoorbeelden waarbij de segmenten in de tekst al geannoteerd zeer goede resultaten.

Answer 12

* Classificatie van types van argumentatieve componenten: herkennen van een claim of een ground. Ook niet goed in relaties tussen de componenten: * Bv. is x de premisse of rebuttal van y * Om dit taak te vervullen, moet de computer een datastructuur in de tekst herkennen: bv. boomstructuur en een graaf waarin de argumentatieve relaties tussen de zinscomponenten worden weergegeven.

Answer 13

* Algoritmes van gestructureerd leren: **structured classifiers**, die één enkel classificatiemodel genereren dat de globale structuur van de argumentatie, de componenten en hun relaties in één keer herkent.

Answer 14

* In de jaren 80-90: die regels konden dan geprogrammeerd worden in juridische expertsystemen voor het nemen van automatische beslissingen. * Grootste struikelblok: Manueel opstellen van de kennisregels, of het omzetten van de wettekst in kennisregels. Zeker met wetgeving die regelmatig wijzigt, kan dit proces bijzonder tijdrovend zijn. * Deep learning: Er wordt nu ingezet op deep learning: automatisch juridische teksten naar kennisregels vertalen: bv. predicatenlogica.

Answer 15

* Databank (met vluchtgegevens, geografische informatie) te bevragen → encoder-decoder architectuur. * 1 neuraal netwerk integreert daarbij 2 stappen: 1. Input vertalen naar een ruwe schets waarin gedetailleerde informatie nog niet is ingevuld 2. Details worden ingevuld gegeven de sketch en de originele zin.

Answer 16

* Ja, voor simpele instructies in beperkte domeinen met voldoende trainingsvoorbeelden en een niet te complexe taal kunnen hiermee zeer goede resultaten worden behaald (met hoge accuraatheden). * Niet zo zeer bij juridische taal omdat deze veel complexer is, een groot vocabularium en een open domein is = begrippen gebruikt die ook in andere contexten worden gehanteerd. * Dus nog heel wat onderzoek nodig. * Er wordt momenteel ook heel wat onderzoek uitgevoerd naar het porteren van modellen die getraind zijn in een bepaald domein naar een domein waarvoor weinig trainingsvoorbeelden voorhanden zijn.

Answer 17

* Ja, beweringen en hun premisses wanneer je traint op een grote dataset: bv. berichten en discussies op reddit. * Dan kan je een encoder-decoder architectuur gebruiken, eventueel aangevuld met een attentiemechanisme.

Answer 18

* Chatbots laten spreken en argumenten genereren, of robotjournalisten inzetten om aan verslaggeving te doen. Het is ook met deze technologie dat we automatisch juridische teksten, zoals contracten, kunnen genereren op basis van metadata en formele specificaties. * Het generatiemodel kan geleerd worden met voorbeelden van specificaties en corresponderende teksten, bijvoorbeeld met een neuraal netwerk.

Answer 19

* Voldoende, representatieve en kwaliteitsvolle trainingsdata bij het ontwikkelen van dergelijke tekstgeneratiesystemen. * Dezelfde technieken van tekstgeneratie worden eveneens ingezet om nepnieuws (fake news) te genereren, dit is desinformatie verhuld als nieuws, die verspreid wordt via websites, sociale media en traditionele media, met als doel het maken van winst of het beïnvloeden van de publieke opinie.

Answer 20

* Mogelijk misbruik, ondanks het doel om open source AI te ontwikkelen. Ze zetten enkel een lichter, minder goed presterend model. GPT-2 is een zogenaamd generatief, transformer-gebaseerd taalmodel, dat coherente teksten kan schrijven, door telkens het volgende woord te voorspellen. Het werd getraind op basis van 8 miljoen webpagina's aan de hand van 1,5 miljard parameters.

Answer 21

* Inmiddels is er een opvolger, GPT-3, waarop Microsoft een exclusieve licentie heeft verkregen om het taalmodel te gebruiken in zijn producten en diensten. Net als zijn voorganger kan GPT-3 coherente teksten schrijven, door telkens het volgende woord te voorspellen. * Er is enige input nodig, zoals een titel en korte intro, vervolgens kan het taalmodel zelf een volledig artikel schrijven, of een discussie tussen verschillende personen nabootsen. Het taalmodel is niet publiek beschikbaar, maar wetenschappers kunnen toegang krijgen

Answer 22

* Hoe groter de trainingssets en het aantal parameters, hoe ondoorzichtiger de algoritmes worden en hoe moeilijker het is om ze te 'auditen' op de aanwezigheid van bias. Ook milieu-overwegingen spelen mee. * Zo zou het eenmalig trainen van één versie van Google's taalmodel, **BERT** (Bidirectional Encoder Representations from Transformers), dat met 110 miljoen parameters werkt en aan de grondslag ligt van de Google zoekmachine, naar schatting 1.438 pond CO2-equivalent opleveren - ongeveer evenveel als een retourvlucht tussen New York City en San Francisco. * In werkelijkheid moeten dergelijke modellen evenwel meermaals worden hertraind, en inmiddels zitten we met de zwaarste taalmodellen al aan miljarden parameters.

Answer 23

* Tekstanalyse en -generatie worden samen ingezet voor toepassingen zoals vraag-antwoordsystemen, dialoogsystemen, of virtuele assistenten, bijvoorbeeld Amazon Alexa, Google Home, dit meestal in combinatie met spraakverwerking (speech recognition). * Ook op dat vlak is het cruciaal om de kwaliteit en representativiteit van de trainingsdata in de gaten te houden. Wat er dreigt te gebeuren wanneer spraakanalysesystemen getraind worden met onvoldoende representatieve data - enkel van volwassenen en niet van kinderen bijvoorbeeld

Answer 24

* Daarvoor integreren we verschillende bronnen van gebruikersdata: * Tekst, zoals status updates waarbij gebruikers van het sociaal netwerk beschrijven waaraan ze denken, waar ze zich bevinden of andere informatie, en dit delen met vrienden; * Beelden, zoals gedeelde foto's; * Links, bijv. links met vrienden in het netwerk, links gevormd door van webpagina's, likes,...

Answer 25

* Elk van de bronnen kan op zich al heel veel informatie over iemand onthullen, maar in combinatie leveren ze een zeer gedetailleerd profiel op, dat output kan voorspellen, zoals: * iemands leeftijd; * iemands geslacht; * en zelfs iemands persoonlijkheid (volgens de zogenaamde Big Five persoonlijkheidstrekken: openheid voor ervaring v. geslotenheid, zorgvuldigheid v. laksheid, extraversie v. introversie, vriendelijkheid v. antagonisme, neuroticisme v. stabiliteit

Answer 26

* Deep learning is vandaag de dag een populaire techniek voor tekstanalyse, tekstgeneratie en informatiefusie, die op veel vlakken voor belangrijke doorbraken zorgt. Ook voor de juridische praktijk biedt deze krachtige technologie heel wat opportuniteiten: * Bijvoorbeeld voor het herkennen en genereren van argumenten, en het vertalen van wetteksten naar een formele kennisrepresentatietaal waarmee men kan redeneren en nieuwe informatie kan afleiden. * Hoewel computers voor sommige taken al zeer bevredigende resultaten behalen (en een accuraatheid bereiken vergelijkbaar met, of beter dan, die van de mens), toch is er voor andere taken nog verder onderzoek vereist, alsook vaak meer en/of betere data.

Module 2B - Tekstanalyse Flashcards

(50 cards)