Natural language processing Flashcards
Natural language processing
Går ut på att FÖRSTÅ och GENERERA mänskligt språk på ett meningsfullt och användsbart sätt
Lexical analys
Bryta ner till tokens, mindre betydelsefulla delar
- ord
- typ av ord, verb?
Syntaktisk analys
Delar av meningar
- Fraser
- Syntaxer
Semantisk analys
Förstå innebörden av ord och meningar
Pragmatisk analys
Förstå språket i dess kontext
- Vad betyder det, språket bakom orden
- “Oj vad kallt det är när fönstret är öppet”
Bag of words model
Grunläggande teknik för presentera text
- Enklaste modellen
- Corpus , BOW
Samlingen av all text som ska analyseras, skapar ett ordförråd utifrån all text
- Som en lista med alla ord
- Tokenisering, BOW
Varje ord blir en egen token
“Katten åt musen” blir
“katten” “åt” “musen”
- Vektorisering, BOW
Varje token får ett numeriskt värde utifrån dess frekvens.
Ett ord som nämns 3 gånger får värdet “3”
Vad är syftet med Bag of words model?
Kunna använda text i maskininlärningsalgoritmer
Textsammanfattning
Algoritm för att analysera innehåll
- automatisk sammanfattar längre text
- extraherar det viktigaste meningarna
Namngiven entity recognition
Algoritm som analyserar innehåll
- identifierar och klassificerar det som är namngivet
- personer, platser, företag
Sentimentanalys
Algoritm för att analysera innehåll
- Identifierna och klassificiera emotionella tonen
Latent semantisk analys
Algoritm för att analysera innehåll
- Identitera underliggande koncept
- Hitta synonymer
- Vikt som representerar frekvens
- Singular value decomposition
Singular value decomposition
Minskar hela tiden samtidigt som man bevarar de viktigaste relationerna.
IBM Watson
Fråga-Svar system
- Djupa analyser och komplexa problem
PageRank
Rangordnar webbsidor efter deras relevans
- Matematisk formel som uppdateras ju fler länkar som sidan har
- Bayes sats för att räkna ut sannolikheten att sidan klickas på igen
HITS
liknar PageRank med räknar in innehållet av sidorna
SimRank
Mäter likhet mellan två webbsidor
- Anta två sidor som refereras av samma sidor vara lika
TrustRank
Filtrerar ut spam-sidor
- Utifrån hur många pålitliga sidor som länkar