HC14 Text mining Flashcards

Question 1

Q

welke vorm van ongestructureerde data wordt het meest gebruikt?

Answer

A

tekst data
nuttig omdat je alles gedetailleerd kan opschrijven
lastig dat het rommel, ruis en onduidelijkheid kan geven

Question 2

Q

wat is tekst?

Answer

A

een combinatie van karakters

woord informatie: bekende combinaties van karakters

tekst informatie: bekende combinaties en volgorde van woorden

Question 3

Q

waarom is vrije tekst ontcijferen lastig voor een computer?

Answer

A

er moeten eerst patronen worden aangeleerd, omdat de computer zelf geen betekenis aan de tekst kan geven

Question 4

Q

wat is text mining

Answer

A

informatie automatisch uit tekst halen

Question 5

Q

hoe werkt natural language processing en wat is het doel?

Answer

A

het is een pipeline van allerlei processen met als doel tekst omzetten in informatie

Question 6

Q

wat doe je bij pre-processing van de tekst bij NLP?

Answer

A

je kan allerlei dingen doen, maar dit is niet per se nodig. afhankelijk van vraagstuk. er is mogelijk verlies van info hierdoor. het is het filteren/aanpassen van karakters om ruis te verminderen en pipeline te versnellen. bv kleine letters, geen accenten etc.

Question 7

Q

wat doe je bij tekst splitsen/tokenization bij NLP?

Answer

A

je verhoogt de granulariteit.

Granulariteit verhogen

“Granulariteit” betekent hoe fijnmazig de tekst wordt opgesplitst.
In de zin bovenaan worden bepaalde letters en speciale tekens (zoals apostrof en punt) gemarkeerd, wat suggereert dat deze mogelijk aparte tokens kunnen zijn of invloed hebben op de segmentatie.
Tekst opsplitsen in tokens

Simpel:
Splitsen op basis van spaties en interpunctie (zoals komma’s en punten).
Speciale karakters (zoals het koppelteken of apostrof) kunnen ook apart als token worden behandeld.
Complex:
Gebruik van woordenboeken en getrainde modellen om betekenisvollere eenheden te vinden.
Subword- en karaktertokens worden gebruikt in geavanceerde taalmodellen zoals BERT of GPT om woorden efficiënter te verwerken.
Balans tussen snelheid en nauwkeurigheid

Rechts zie je een trade-off:
Snelle methodes (weinig geheugenverbruik) kunnen leiden tot meer fouten.
Langzamere methodes (die meer geheugen gebruiken) kunnen zorgen voor minder fouten, omdat ze beter omgaan met complexe taalkundige structuren.
Dit hangt af van hoeveel fouten acceptabel zijn en hoeveel rekenkracht beschikbaar is.
Kort samengevat:
Tokenization is een proces waarbij tekst wordt opgesplitst in kleinere eenheden. Simpele methodes gebruiken spaties en leestekens, terwijl geavanceerde methodes machine learning en subword tokens gebruiken. Er is een afweging tussen snelheid en nauwkeurigheid bij de keuze van een tokenization-strategie.

Question 8

Q

wat doe je bij transformation bij NLP?

Answer

A

verminderen irrelevante informatie en filteren van woorden of woordcombinaties.
je kan woorden eruit filteren door bv een blacklist met stopwoorden en woorden erin houden met een whitelist. of je kan naar de frequentie kijken: drempelwaardes zetten en woorden met hele hoge of lage frequentie eruit halen omdat deze vaak weinig informatie bevatten

ook verminderen variabiliteit en dimensionaliteit. door spellingscorrectie en door stemming of lemmatization. dus woorden naar stam doen op basis van regels (snel en fout gevoelig) of woord naar lemma op basis van woordenboek (langzamer)

ook kan je woordcombinaties die vaak samen voorkomen als 1 woord halen

ook de-identificatie bv naam vervangen door [name] of neppe naam

Question 9

Q

wat kan je bij transformation met taalkundige analyse doen?

Answer

A

Part-of-speech tagging
* Filteren op woordsoorten:
* zelfstandig/bijvoegelijk naamwoord, werkwoord,
bijwoord, lidwoord, voegwoord, voornaamwoord, …
Parsing (Zinsontleding)
* Filteren op woord relatie

Question 10

Q

wat doe je bij vectorization bij nlp?

Answer

A

tekst naar gestructureerde data omzetten. numerieke vector per document/patient/observatie/ meerder vectors in matrix of tabel

Question 11

Q

hoe werkt bag-of-words bij vectorization?

Answer

A

kolom met alle woorden, rijen met alle patients, en dan 0 of 1 invullen als het woord erin voorkomt.
nadeel: veel kolommen en veel 0

Question 12

Q

hoe werkt named entities bij vectorization?

Answer

A

herkent (nuttige) klinische entiteiten: ziektes, medicatie, verrichting en die gebruik je vervolgens in je matrix

Question 13

Q

wat doe je bij een combi van named entity recognition en named entity linking?

Answer

A

herkennen van gestandaardiseerde concepten: je koppelt de entiteiten dan aan de gestandaardizeerde code hiervoor
probleem: je moet rekening houden met de context, bv een ontkenning, specificatie, temporaliteit, etc.

Question 14

Q

hoe werkt word embeddings bij vectorization?

Answer

A

je laat een neural network model alle relaties tussen woorden leren: de semantische relatie tussen woorden is gebaseerd op hun gebruik in een bepaalde context. woorden komen vaak in dezelfde omgeving voor als andere woorden met dezelfde betekenis

met deze embeddings kan je een soort samenvatting van een document maken

ook kan je spellingscorrectie doen/afkortingen vervangen

Question 15

Q

is er 1 manier om natural language processing te doen?

Answer

A

nee, afhankelijk van welke info je wil gebruiken, hoe veel detail bewaard moet blijven, hoeveel data en computerkracht je hebt

Question 16

Q