Separation of elements from the text. Building glossaries of terms. Stop words. Normalization. Address lists. Question-phrases Flashcards
Какво е необходимо за анализ на документи?
Да бъде извлечена информацията, която съдържат и която подлежи на анализ.
Как се извършва прочитането на документи?
Чрез последователно прочитане на всеки символ.
Каква е целта на разделянето на документи на по-малки части?
Да улесни търсенето и анализа на информацията.
Какви са основните елементи при изграждането на речници от термини?
Установяване, подбор и записване на термини.
Какво представляват стоп думите?
Често използвани думи, които носят смисъл на текст, но сами по себе си не носят конкретен смисъл.
Какви методи се използват за нормализация на термини?
Премахване на символи, използване на синоними, уеднаквяване на букви и разпознаване на изрази.
Какво е морфологичен анализ?
Процес на откриване на основната част на думата.
Какво е списък с адреси?
Допълнителен списък, който добавя указатели към списъците със срещания.
Какво представляват индекси на две думи?
Индекси, при които всяка двойка от последователни думи в документа се третира като фраза.
Какво представлява уеднаквяването на буквите в термините?
Метод, който използва само малки или само главни букви при записването на термини.
Какви рискове съществуват при премахването на знаци от термини?
Може да промени значението на термина и да доведе до нежелателни термини.
Каква информация се съхранява в позиционните индекси?
Срещанията на термина и точните му позиции в документа.