Vector-spatial model Flashcards
Какво е векторно-пространствен модел?
Представянето на документи като вектор в общо векторно пространство
Какво представлява вектор на документ в контекста на векторно-пространствения модел?
Вектор с по един компонент за всеки термин от речника
Какво е косинусова мярка за подобие?
Изчисление на приликата между два документа по техните векторни представяния
Как се представя търсенето в контекста на векторно-пространствения модел?
Като вектор
Какво включва процесът на изчисляване на векторни оценки?
Колекция от документи, търсене в свободен текст, положително число K. Процесът включва изчисляване на оценки за документите и избиране на K с най-високи оценки
Какво представляват шампионските списъци?
Предварително определени множества от документи за всеки термин с най-висока тежест
Какви са два основни етапа при извличането на най-близките K документа?
- Избиране на подмножество A от документи, което съдържа документи с високи резултати
- Връщане на K документа с най-висок резултат от това А
Какво са слоести индекси?
Обобщение на списъка с най-релевантните документи за термин
Какво е основното предизвикателство при оценяването на релевантни документи?
Променящата се база от документи
Верно или невярно: Булевият модел може напълно да замени векторния модел.
Невярно
Как се избира лидер в процеса на съкращаване на клъстери?
Случайно
Какво представлява оценяваща функция?
Функция, която акумулира резултата от фазите на обработка
Какви методи се използват за справяне с променящата се база от документи?
Методи за машинно самообучение
Какъв е недостатъка на векторната разлика?
Два документа с подобно съдържание имат голяма векторна разлика, тъй като единият е по-дълъг от другия.
Как се справяме с влиянието на дължините на векторите?
Като приликата между два документа се представи като изчисление на косинусовата мярка за подобие на техните векторни представяния
Какво изисква извличането на топ K оценки?
Структурата от данни heap
Как се съкращава изчислението на косинусите?
- Премахват се всички термини с idf по-малък от определен праф
- Избират се само документи, които съдържат голям брой от търсените думи
Какво представлява съкращаване на клъстерите?
Предварителна стъпка, при която се събират векторите на документите и се изчислява косинусовия резултат на тези документи, които са в малки клъстери