Parametric and zonal indexing. Frequency and weights of terms. Weight functions. Flashcards
Какво е параметричен индекс?
Индекс, използван за метаданни, който позволява филтриране на документите по конкретни стойности
Какво е зонален индекс?
Индекс, който разделя документ на зони (заглавие, основен текст и др.), като различните зони имат различна важност
Какви са начините за определяне на теглата в претеглините зони?
- Ръчно от експерти
- Машинно самообучние
Какво е честота на термина (tf)?
Брой срещания на термин в документ
Какъв е проблемът на tf?
Всички думи се третират еднакво
Какво е обърната документова честота (idf)?
Оценява колко често се среща термин в колекция
Какво е tf-idf?
Комбинация от tf и idf, която определя значимостта на термин в документа
Как се представя документ като вектор?
Всяка дума е компонент на вектора, а стойността на компонента е tf-idf тежестта на термина
Как се оценява релевантността на документ към заявка?
Сумират се tf-idf стойностите за всички думи от заявката, които са в документа.
Какво е максимална tf нормализация?
Нормализация на tf спряпо най-често срещаната дума в документа
Какво е ранкирано булево извличане?
Оценяване на претеглената зона.
Какъв е проблемът на по-дългите документи?
Повтарят повече думи, което води до изкуствено високи tf стойности