Information Retrieval Tasks. Boolean Model. Inverted Index Flashcards
Какво представлява извличането на информация?
Процес на намиране на материали, обикновено документи, състоящи се от неструктурирани данни (текст), в големи колекции, които задоволяват информационна нужда
Какво са неструктурирани данни?
Данни, които нямат ясна, семантично явна, разбираема за компютър структура.
Какво е обработка на полу-структурирани данни?
Обработка на документи, които съдържат определена структура, като заглавия, параграфи или метаданни.
Каква е задачата на клъстеризацията?
Групиране на документите на база на тяхното съдържание.
Какво представлява класификацията в извличането на информация?
Определяне на класове, към които принадлежи всеки документ.
Какво е Grepping?
Линейно сканиране на текстови документи, наречено на UNIX командата grep.
Какво представлява бинарната термин-документ матрица?
Структура, която показва дали конкретна дума се среща в определен документ (1 – дума присъства, 0 – не присъства).
Какво е термин в контекста на извличането на информация?
Единица от информация, която може да бъде дума или фраза.
Какво представлява булевият модел?
Модел за извличане на информация, в който заявките се представят под формата на булев израз с оператори AND, OR, NOT.
Какво е документ в контекста на извличането на информация?
Единица, за която е изградена система за извличане; група от документи се нарича колекция или корпус.
Какво представлява информационната нужда?
Тема, за която потребителят би желал да знае повече.
Какво е обърнат индекс?
Структура от данни, която служи за бързо търсене на документи, съдържащи определени термини.
Какво представлява речника в обърнатия индекс?
Съдържа термините, като обикниовено се подреждат по азбучен ред и няма повторения.
Какво са постингите?
Списък в кои документи даден термин се среща
Какво включва изграждането на обърнат индекс?
- Събиране на документите
- Преобразуване в списък от токени
- Нормализация на токените
- Създаване на обърнат индекс от речник и постинги
Каква е операцията при обработка на булеви заявки?
Използва се метод на сливането (merge)
Какво е оптимизация на заявка?
Процес, при който първо се сливат списъците с най-малко постинги.
Fill in the blank: Обратният индекс се състои от _______ и списък с постинги.
[речник]