Tolerant extraction. Spelling correction. Phonetic correction. Flashcards

1
Q

Какво е основната задача при работа с обърнат индекс и заявка?

A

Да се определи дали всеки термин от заявката съществува в лексиката и да се намери указателят към съответните постинги

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Какво е предимството на B-дървото?

A

Поддържа търсене на термини с общи представки

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Какви са двата основни подхода за реализиране на речник?

A
  • Хеширане
  • Дървета за търсене
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Какво представлява хеширането в контекста на търсене в речници?

A

Метод, при който всеки термин (ключ) от лексиката се хешира в естествено число.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Какви са основните недостатъци на хеширането?

A
  • Не позволява лесно намиране на близки варианти на термините
  • Не поддържа търсене на термини с общи представки
  • Хеш функцията може да стане недостатъчна с времето
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Какво е B-дърво?

A

Дърво за търсене, което пази данните си сортирани и позволява по-ефективно подреждане на данните.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Какво представляват произволните заявки?

A

Заявки, използвани, когато потребителят не е сигурен за правописа на термин или когато търси разновидности на дума.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Как се обработват крайни произволни заявки?

A

Чрез дърво, започващи с представката (При водещи произволни заявки се започва с наставката)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Какви са крайни произволни заявки?

A

Заявки, при които символът “” се среща само в края на низа (например “mon”). (Приводещи произволни заявки “” се среща в началото на низа)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Какво е permuterm индекс?

A

Индекс от разместени термини, който включва ротации на термини за обработка на произволни заявки.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Как се конструира permuterm индекс?

A

Добавя се символ “$” в края на всеки термин и се създават всички възможни ротации на думата.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Какво е k-грам индексиране?

A

Техника, при която последователност от k символа се използва за изграждане на индекс, съдържащ всички k-грами от термините.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Какви са основните принципи на алгоритмите за корекция на правописа?

A
  • Връщане на най-близкия правопис на грешно написана заявка
  • Предложение на по-популярната дума при равна близост
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Какво е редакционно разстояние?

A

Минималният брой операции, необходими за преобразуването на единия низ в другия.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Какви са операциите за редакционно разстояние?

A

Вмъкване на символ, изтриване на символ и замяна на символ.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Какво е soundex алгоритъм?

A

Алгоритъм за фонетично хеширане, който представя термините във форма от 4 символа.

17
Q

Каква е основната идея на фонетичните корекции?

A

Техника, която се използва, когато потребителите записват заявка по звученето на думите. Преобразува във “фонетичен хеш”.

18
Q

Какво е контекстово редактиране?

A

Поправка на фрази, при които думите са правилно написани, но подредени неправилно.

19
Q

Какво представлява изолираното редактиране?

A

Поправка на всеки термин от заявката, дори и да съдържа множество термини.