Natural Language Processing (Powerpoint) Flashcards
Vad är PageRank?
En algoritm som rankar hemsidor (web pages) baserat på deras importance och relevans.
Importance mäts baserat på Antalet och Kvaliten av länkar som pekar till den sidan.
Ett underliggande antagande är att viktigare hemsidor har är länkade till från flera andra hemsidor.
Hur fungerar PageRank algorithmen?
Webben representeras som en riktad graf
- Varje web page tilldelas initialt “an equal” PageRank Value
- PageRanken uppdateras sedan iterativt för varje sida baserat på PageRank och andra sidor som länkar till sidan
- Finns också en dampening Factor som ser till att PageRank distributionen konvergerar
- Är baserad på sannolikheten av att en användare fortsätter att klicka vidare på länkar
- Konvergens innebär att algoritmen fortsätter att uppdatera PageRank värden tills dess att förändringarna mellan iterationer faller under en viss tröskel och rankningen är då stabiliserad.
Vad är Natural Language Processing?
Understanding och Generation of natural (human) language?
Subfield of AI that focuses on the interaction between computers and humans through natural language. The goal of NLP is to enable computers to understand, interpret, and respond to human language in a way that is both meaningful and useful.
Vad är de huvudsakliga uppgifterna av NLP?
- Text Analysis
- Speech recognition
- Natural Language generation
- Machine Translation
- Sentiment Analysis
○ Determine sentiment or emotion expressed in a piece of text - Named Entitiy Recognition
○ Identifiera och klassifiera key elements in text, such as names of people, organizations, locations etc. - Question Answering
- Text Summarization
Key Stages of Processing Language (Traditional)
- Lexical analysis
- Syntactic Analysis
- Semantic Analysis
- Pragmatic Analysis
Vad innebär Lexical Analysis?
- Breaks down the text into its basic units of meaning, known as tokens
- Tokens can be words, phrases or other meaningful elements
- Identify and classify parts of speach (nouns, verbs, adjectives, etc.)
Syntactic Analysis
Checking for correct word order and hierarchical organization
Semantic Analysis
- Understanding meaning of words and sentences.
- Goes beyond the structure to interpret the actual meaning
- Disambiguation, determine relationships between words and phrases
Pragmatic Analysis
- Understanding language in context and interpreting the intended meaning based on situational factors
- Identifying speech acts
- Understanding deixis , impliations and inferred meanings behind the text
Vad är Bag-Of-Words?
Technique in natural language processing for: Text Representation and Feature Extraction
Converts text into numberical feature vectors.
Vad fokuserar BOW model på?
Focuses solely on the frequency of words in the text
Hur fungerar BOW modelen?
- Corpus Creation
- Collect a set of documents to analyze - Vocabulary Building
- Create a vocabulary of all unique words. Each unique word becomes a feature in the model - Tokenization
- Tokenize each document in the corpus in to individual words/tokens - Vectorization
- Skapar en vector där varje dimension correspons to a word in the vocabulary.
- The value in each dimension is the frequency of the corresponding
Vad används BOW modellen för?
- Text classification
- Sentiment Analysis
- Information Retrieval
- Document Clustering
Vilka är Algorithms for content analysis of documents?
- Latent Semantic Analysis
- Text Summarization
- Named Entity Reconition (NER)
- Sentiment Analysis
Vad är Latent Semantic Analysis (LSA)?
Algorithm used for analyzing the content of a document.
Analyzes the relationship between words and phrases in a document to identify the underlying concepts
- Used to identify related terms, find synonyms and group similar documents together