Natural language processing Flashcards
Natural language processing
Går ut på att FÖRSTÅ och GENERERA mänskligt språk på ett meningsfullt och användsbart sätt
Lexical analys
Bryta ner till tokens, mindre betydelsefulla delar
- ord
- typ av ord, verb?
Syntaktisk analys
Delar av meningar
- Fraser
- Syntaxer
Semantisk analys
Förstå innebörden av ord och meningar
Pragmatisk analys
Förstå språket i dess kontext
- Vad betyder det, språket bakom orden
- “Oj vad kallt det är när fönstret är öppet”
Bag of words model
Grunläggande teknik för presentera text
- Enklaste modellen
- Corpus , BOW
Samlingen av all text som ska analyseras, skapar ett ordförråd utifrån all text
- Som en lista med alla ord
- Tokenisering, BOW
Varje ord blir en egen token
“Katten åt musen” blir
“katten” “åt” “musen”
- Vektorisering, BOW
Varje token får ett numeriskt värde utifrån dess frekvens.
Ett ord som nämns 3 gånger får värdet “3”
Vad är syftet med Bag of words model?
Kunna använda text i maskininlärningsalgoritmer
Textsammanfattning
Algoritm för att analysera innehåll
- automatisk sammanfattar längre text
- extraherar det viktigaste meningarna
Namngiven entity recognition
Algoritm som analyserar innehåll
- identifierar och klassificerar det som är namngivet
- personer, platser, företag
Sentimentanalys
Algoritm för att analysera innehåll
- Identifierna och klassificiera emotionella tonen
Latent semantisk analys
Algoritm för att analysera innehåll
- Identitera underliggande koncept
- Hitta synonymer
- Vikt som representerar frekvens
- Singular value decomposition
Singular value decomposition
Minskar hela tiden samtidigt som man bevarar de viktigaste relationerna.