Information Retrieval Tasks. Boolean Model. Inverted Index Flashcards

1
Q

Какво представлява извличането на информация?

A

Процес на намиране на материали, обикновено документи, състоящи се от неструктурирани данни (текст), в големи колекции, които задоволяват информационна нужда

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Какво са неструктурирани данни?

A

Данни, които нямат ясна, семантично явна, разбираема за компютър структура.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Какво е обработка на полу-структурирани данни?

A

Обработка на документи, които съдържат определена структура, като заглавия, параграфи или метаданни.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Каква е задачата на клъстеризацията?

A

Групиране на документите на база на тяхното съдържание.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Какво представлява класификацията в извличането на информация?

A

Определяне на класове, към които принадлежи всеки документ.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Какво е Grepping?

A

Линейно сканиране на текстови документи, наречено на UNIX командата grep.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Какво представлява бинарната термин-документ матрица?

A

Структура, която показва дали конкретна дума се среща в определен документ (1 – дума присъства, 0 – не присъства).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Какво е термин в контекста на извличането на информация?

A

Единица от информация, която може да бъде дума или фраза.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Какво представлява булевият модел?

A

Модел за извличане на информация, в който заявките се представят под формата на булев израз с оператори AND, OR, NOT.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Какво е документ в контекста на извличането на информация?

A

Единица, за която е изградена система за извличане; група от документи се нарича колекция или корпус.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Какво представлява информационната нужда?

A

Тема, за която потребителят би желал да знае повече.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Какво е обърнат индекс?

A

Структура от данни, която служи за бързо търсене на документи, съдържащи определени термини.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Какво представлява речника в обърнатия индекс?

A

Съдържа термините, като обикниовено се подреждат по азбучен ред и няма повторения.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Какво са постингите?

A

Списък в кои документи даден термин се среща

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Какво включва изграждането на обърнат индекс?

A
  1. Събиране на документите
  2. Преобразуване в списък от токени
  3. Нормализация на токените
  4. Създаване на обърнат индекс от речник и постинги
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Каква е операцията при обработка на булеви заявки?

A

Използва се метод на сливането (merge)

17
Q

Какво е оптимизация на заявка?

A

Процес, при който първо се сливат списъците с най-малко постинги.

18
Q

Fill in the blank: Обратният индекс се състои от _______ и списък с постинги.

A

[речник]