Tolerant extraction. Spelling correction. Phonetic correction. Flashcards
Какво е основната задача при работа с обърнат индекс и заявка?
Да се определи дали всеки термин от заявката съществува в лексиката и да се намери указателят към съответните постинги
Какво е предимството на B-дървото?
Поддържа търсене на термини с общи представки
Какви са двата основни подхода за реализиране на речник?
- Хеширане
- Дървета за търсене
Какво представлява хеширането в контекста на търсене в речници?
Метод, при който всеки термин (ключ) от лексиката се хешира в естествено число.
Какви са основните недостатъци на хеширането?
- Не позволява лесно намиране на близки варианти на термините
- Не поддържа търсене на термини с общи представки
- Хеш функцията може да стане недостатъчна с времето
Какво е B-дърво?
Дърво за търсене, което пази данните си сортирани и позволява по-ефективно подреждане на данните.
Какво представляват произволните заявки?
Заявки, използвани, когато потребителят не е сигурен за правописа на термин или когато търси разновидности на дума.
Как се обработват крайни произволни заявки?
Чрез дърво, започващи с представката (При водещи произволни заявки се започва с наставката)
Какви са крайни произволни заявки?
Заявки, при които символът “” се среща само в края на низа (например “mon”). (Приводещи произволни заявки “” се среща в началото на низа)
Какво е permuterm индекс?
Индекс от разместени термини, който включва ротации на термини за обработка на произволни заявки.
Как се конструира permuterm индекс?
Добавя се символ “$” в края на всеки термин и се създават всички възможни ротации на думата.
Какво е k-грам индексиране?
Техника, при която последователност от k символа се използва за изграждане на индекс, съдържащ всички k-грами от термините.
Какви са основните принципи на алгоритмите за корекция на правописа?
- Връщане на най-близкия правопис на грешно написана заявка
- Предложение на по-популярната дума при равна близост
Какво е редакционно разстояние?
Минималният брой операции, необходими за преобразуването на единия низ в другия.
Какви са операциите за редакционно разстояние?
Вмъкване на символ, изтриване на символ и замяна на символ.
Какво е soundex алгоритъм?
Алгоритъм за фонетично хеширане, който представя термините във форма от 4 символа.
Каква е основната идея на фонетичните корекции?
Техника, която се използва, когато потребителите записват заявка по звученето на думите. Преобразува във “фонетичен хеш”.
Какво е контекстово редактиране?
Поправка на фрази, при които думите са правилно написани, но подредени неправилно.
Какво представлява изолираното редактиране?
Поправка на всеки термин от заявката, дори и да съдържа множество термини.