Index construction. Distributed indices. Dynamic indices. Flashcards
Какво е важно да се вземе предвид при изграждането на система за извличане на информация?
Хардуерните ограничения
Какво е времето за преместване на главата при четене или писане от диска?
Около 5 ms
Какво представлява буферът в контекста на оперативната памет?
Част от оперативната памет, която държи прочетените или записаните блокове
Какво е блоково индексиране, базирано на сортиране?
Процес на изграждане на индекс чрез обхождане на документи и събиране в паметта двойки термин-docID, докато не се запълни блок, след което този блок се записва в паметта и се сортира
Какво представлява termID в контекста на блоковото индексиране?
Уникален сериен номер, представящ термин
Какви алгоритми използват уеб търсачките за разпределено индексиране?
Document-partitioned index и term-partitioned index
Какво представлява MapReduce архитектурата?
Структура, която разделя изчисленията на малки части, обработвани от множество машини
Какви са основните фази на MapReduce архитектурата?
Map и Reduce
Какво е динамично индексиране?
Процес, който позволява добавянето на нови термини и актуализиране на постинг списъците
Какви индекси поддържа динамичното индексиране?
Голям основен и малък спомагателен
Какво представлява спомагателният индекс в динамичното индексиране?
Малък индекс за новите документи, съхраняван в паметта
Как се извършват търсения в динамичното индексиране?
В търсенията се използват и двата индекса, а резултатите се обединяват
Какво е блоково индексиране?
Процес на събиране на данни в блокове и последващо записване на диска
Какво е основното предимство на Индексирането в паметта с едно обхождане?
Позволява индексиране на колекция от всякакъв размер, стига да има достатъчно дисково пространство
Какво е необходимото условие за периодично реконструиране на индекса?
Малък брой промени и достатъчно ресурси
Какво се случва, когато спомагателният индекс стане твърде голям?
Слива се с основния индекс
Какво е основният недостатък на съхраняването на всеки постинг списък като отделен файл?
Нееффективност при работа с голям брой файлове
Каква стратегия предпочитат някои търсачки за обновление на индекса?
Реконструкция от нулата
Какво представлява Map фазата?
Фаза, при която данните се преобразуват в ключ-стойност двойки
Какво представлява Reduce фазата?
Фаза, при която всички двойки за даден ключ се обединяват и запазват близо една до друга за бързо извличане.