Információ keresés Flashcards
Információ visszakeresés jelentése, célja
A felhasználók információ igényének minél pontosabb és teljesebb kielégítése. A keresés tárgya a dokumentum által hordozott információ. A félstrukturált és strukturált adatok visszakeresését jelenti.
Nehézség: az igény sokszor nem áll pontosan rendelkezésre (nincs leképezve a rendszer követelményeire), embereknél nincs speciális előképzettség.
Adat visszakeresés fogalma
Keresés a dokumentum szintaktikai struktúrájában
Szöveges adatforrás logikai nézetének definiálása a visszakereséshez
- adatforráshoz tartozó dokumentumok megadása
- szövegeken végezhető műveletek megadása
- szövegmodell (dokumentum struktúrája, mely elemei kereshetők) megadása
Releváns dokumentumok fogalma
Azok a dokumentumok, amelyek kielégítik az adott információs igényt. Megítélése szubjektív.
Visszakeresés elvi feladata: az összes releváns dokumentum megtalálása.
Rangsorolás (ranking) fogalma
Relevancia szerinti rendezés.
Visszakeresés fajtái
Ad-hoc, szűrés (filtering), böngészés.
Ad-hoc visszakeresés
- a felhasználó egy adott kérdésre vár választ a rendszertől
- a rendszer által tartalmazott dokumentumok halmaza közel állandó, a felhasználói kérések folyamatosan változnak
Szűrés
A visszakeresés egy fajtája.
A felhasználói kérések állandóak, a dokumentumok bővülnek, és ezekből kiválasztjuk a relevánsakat.
Lekérdezés módjai
Kulcsszavas (egyszavas, logikai kifejezés, stb.), mintailleszkedés, strukturált kérdések (állandó, hierarchikus, hypretext), lekérdezési protokollok.
IR modell(ezés)
IR modell = dokumentum logikai nézete + a felhasználói feladat.
Jellemzően index kifejezéseket használnak. Főleg szöveges indexek, nem csak ilyenek léteznek. Igények és a dokumentum szemantikája nem fejezhető ki veszteség nélkül index kifejezésekkel.
Lelke az invertált állomány. Fő cél: jobb fedés, jobb hatékonyság.
Invertált állomány
Minden index termhez tárolja, hogy hol szerepel, és melyik dokumentumban. Lehetséges gyorsítások: index, hash tábla, stb.
Fedés
A releváns dokumentumok hány százalékát adja vissza a rendszer.
Pontosság
A visszaadott dokumentumok hány százaléka releváns.
Index kifejezések súlyozása
Minden dokumentumban súlyt rendelünk az összes indexhez (ha nincs benne az index term a dokumentumban, akkor a súlya 0)
Metakeresés
Keresés több kereső terében. Gyűjti a válaszokat és egyesíti. Működési fázisok: - keresőmotor választás - dokumentum választás - merging algoritmusok