Információ keresés Flashcards
Információ visszakeresés jelentése, célja
A felhasználók információ igényének minél pontosabb és teljesebb kielégítése. A keresés tárgya a dokumentum által hordozott információ. A félstrukturált és strukturált adatok visszakeresését jelenti.
Nehézség: az igény sokszor nem áll pontosan rendelkezésre (nincs leképezve a rendszer követelményeire), embereknél nincs speciális előképzettség.
Adat visszakeresés fogalma
Keresés a dokumentum szintaktikai struktúrájában
Szöveges adatforrás logikai nézetének definiálása a visszakereséshez
- adatforráshoz tartozó dokumentumok megadása
- szövegeken végezhető műveletek megadása
- szövegmodell (dokumentum struktúrája, mely elemei kereshetők) megadása
Releváns dokumentumok fogalma
Azok a dokumentumok, amelyek kielégítik az adott információs igényt. Megítélése szubjektív.
Visszakeresés elvi feladata: az összes releváns dokumentum megtalálása.
Rangsorolás (ranking) fogalma
Relevancia szerinti rendezés.
Visszakeresés fajtái
Ad-hoc, szűrés (filtering), böngészés.
Ad-hoc visszakeresés
- a felhasználó egy adott kérdésre vár választ a rendszertől
- a rendszer által tartalmazott dokumentumok halmaza közel állandó, a felhasználói kérések folyamatosan változnak
Szűrés
A visszakeresés egy fajtája.
A felhasználói kérések állandóak, a dokumentumok bővülnek, és ezekből kiválasztjuk a relevánsakat.
Lekérdezés módjai
Kulcsszavas (egyszavas, logikai kifejezés, stb.), mintailleszkedés, strukturált kérdések (állandó, hierarchikus, hypretext), lekérdezési protokollok.
IR modell(ezés)
IR modell = dokumentum logikai nézete + a felhasználói feladat.
Jellemzően index kifejezéseket használnak. Főleg szöveges indexek, nem csak ilyenek léteznek. Igények és a dokumentum szemantikája nem fejezhető ki veszteség nélkül index kifejezésekkel.
Lelke az invertált állomány. Fő cél: jobb fedés, jobb hatékonyság.
Invertált állomány
Minden index termhez tárolja, hogy hol szerepel, és melyik dokumentumban. Lehetséges gyorsítások: index, hash tábla, stb.
Fedés
A releváns dokumentumok hány százalékát adja vissza a rendszer.
Pontosság
A visszaadott dokumentumok hány százaléka releváns.
Index kifejezések súlyozása
Minden dokumentumban súlyt rendelünk az összes indexhez (ha nincs benne az index term a dokumentumban, akkor a súlya 0)
Metakeresés
Keresés több kereső terében. Gyűjti a válaszokat és egyesíti. Működési fázisok: - keresőmotor választás - dokumentum választás - merging algoritmusok
IR eredményesség javításának lehetőségei
- felhasználói relevancia, profilozás
- logikai elemzés
- kontrollált szótár (tezaurusz)
- hypelink struktúra figyelembe vétele, pl. google pagerank
Webkereső feladatai
- dokumentumgyűjtés
- dokumentumok indexelése
- keresés
- dokumentum és keresési feltétel (query) kezelés
Dokumentumgyűjtés feladatai (webkeresés)
Crawling.
- robot, spider felméri a változott lapokat, amiket indexelni kell
- helyi szerveren fut, távoli szervernek küld kéréseket
- folyamata: seed URL, majd DFS vagy BFS-sel halad
- több crawler egyszerre: redundancia, web particionálása
- népszerű vs. passzív lapok, lapváltási gyakoriságot is tanulják
Dokumentumok indexelése (webkeresés)
Fajtái:
- teljes
- szűkített (gyakori kereséshez)
Metaadat elemzés, kihagyások (pl. névelők), toldalékok kezelése, súlyok és hyperlink információk (pl. link népszerűség).
Keresés (webkeresés)
Query, advanced search, query normalizálás.
Ransgsoroló algoritmusok: standard IR és webIR között a linkek használata a fő különbség. Google Pagerank: véletlen bejárást szimulálva számolja a lap pontszámát. HITS: adott témakörökre fókuszál: minél több oldal jelöl egy oldalt, annál népszerűbb. Népszerűbb oldalak nagy valószínűséggel tartalmaznak releváns információt.
Dokumentum és query kezelés (webkeresés)
Eredmény megjelenítése (10-lapról, klaszterezés, lekérdezés finomítása).
Virtuális gyűjtemény (indexeléskor kizárt dokumentumok) vs. fizikai gyűjtemény (indexelés után kezelt dokumentumok).