Evaluation of Information Retrieval Systems. Measures. Evaluation on corpora of texts. Flashcards
Какво е необходимо за измерване на ефективността на системите за извличане на информация?
Тестов набор, който се състои от:
* Набор от документи
* Тестов набор от информационни нужди, изразени чрез заявки
* Множество от преценки за уместност
Какво означава терминът ‘златен стандарт’ или ‘основна истина’ в контекста на оценка на уместността?
Подход, при който документът е или уместен, или неуместен за информационната нужда
Какви мерки се използват за оценяване на ефективността на дадена система?
Прецизност (precision) и връщане (recall)
Какво представлява прецизността (P) в извличането на информация?
Частта от извлечените документи, които са уместни: P(уместни|извлечени)
Какво представлява връщането (R) в извличането на информация?
Частта от уместните документи, които са извлечени: R(извлечени|уместни)
В кои четири категории се класифицират документите?
- Вярно извлчени (true positive)
- Невярно извлчени (false positive)
- Невярно неизвлечени (false negative)
- Вярно неизвлечени (true negatvie)
Какво е точността (accuracy)?
Точността измерва частта от правилните класификации
Защо точността не е подходяща мярка за извличането на информация?
Поради силната аисметрия на данните, при която голяма част от документите са неуместни
Какво е F-мярката?
Претегленото хармонично средно на прецизността и връщането
Какво измерва R-точността?
Точността спрямо размера на набора от уместни документи
Какво е NDCG моделът?
Модел, подходящ за ситуации, при които няма двоичност на връзките. Изчислява нормализиращ фактор за класиране на документи
Какви критерии се използват за измерване на потребителската удовлетвореност?
- Скорост на индексиране
- Скорост на търсене
- Експресивност на езика за запитвания
- Размер на списъка с документи
Какво представляват потребителските случаи (use cases) в контекста на оценка на удовлетвореността?
Ситуации, в които хората изпълняват задачи, а техните действия и резултати се анализират
Какъв е недостатък от използване на потребителски случаи за оценка на удовлетвореност?
- Отнема много време
- Скъпа операция е
Какво е A/B тестване?
Метод, при който малка част от трафика се препраща на случаен принцип към новата система с промяна само на един параметър
Защо A/B се предпочита?
Лесно е да се разбере и може да измери малки промени.
Какви са двата вида резюмета на документи?
- Статични
- Динамични
Какво са статичните резюмета?
Едни и същи за всяка заявка.
Какво са динамичните резюмета?
Пригодени за конкретната заявка
Какъв е недостатъка на динамичните резюмета?
По-сложен дизайн и изчисления
Кога един документ е уместен?
Когато отговаря на изразената информационна нужда, а не защото съдържа съвпадащи думи