Chapitre_3_Indexation et Recherche d’Information Flashcards
qu’est ce qu’un SRI?
est un programme (ensemble de programmes) informatique qui a pour but de sélectionner des informations pertinentes répondant à des besoins utilisateurs
qu’elle est la diff entre SRI et SGBD?
Dans SGBD, la recherche se fait par une parfaite égalité (exact match) entre la requête et les valeurs des attributs des enregistrements. Dans SRI, la recherche est approximative. Le document retrouvé peut être pertinent pour le système mais non pour l’utilisateur.
c’est quoi l’indexation?
Consiste à créer un ensemble de mots clés reflétant aux mieux le contenu sémantique du document, cette liste de mots clés sera plus facilement exploitable lors du processus de la RI
qu’elles sont les approches de l’indexation?
Manuelle (expert en indexation) Automatique (ordinateur) Semi-automatique (combinaison des deux)
c’est quoi l’indexation manuelle?
Choix des mots effectué par des indexeurs Basée sur un vocabulaire contrôlé Approche utilisée souvent dans les bibliothèques, les centres de documentation Dépend du savoir faire de l’indexeur
qu’elles sont les Avantages du vocabulaire contrôlé?
Permet la recherche par concepts (par sujets, par thèmes), plus intéressante que la recherche par mots simples Permet la classification (regroupement) de documents (par sujets, par thème) Fournit une terminologie standard pour indexer et rechercher les documents
qu’elles sont les Inconvénients du vocabulaire contrôlé?
Indexation très coûteuse – Pour construire le vocabulaire – Pour affecter les concepts (termes) aux documents (imaginer cette opération sur le web) Difficile à maintenir – La terminologie évolue, plusieurs termes sont rajoutés tous les jours( néologisme) Processus humain donc subjectif - Des termes différents peuvent être affectés à un même document par des indexeurs différents Les utilisateurs ne connaissent pas forcément le vocabulaire utilisé par les indexeurs
c’est quoi INDEXATION AUTOMATIQUE?
Le but de l’indexation automatique est de transformer les documents en substituts capables de représenter le contenu de ces documents (Salton & McGill, 1983) C’est le SRI qui génère les indexes des documents.
qu’elles dont les approches de l’indexation automatique?
Approches : 1. Statistique : (distribution des mots) 2. TALN : Traitement automatique du langage naturel (compréhension du texte)
c’est l’approche statique?
4 étapes : – Étape 1 : Extraction de mots simples – Étape 2 : Normalisation des mots extraits – Étape 3 : Statistique sur les occurrences – Étape 4: Construction du fichier inverse et pondération des mots
comment se fait l’évaluation et la performance ?
L’évaluation de performance des SRI se fait selon trois paramètres : la vitesse de recherche, le rappel et la précision. *La vitesse de recherche mesure l’efficience (efficiency) des SRIs. *Le rappel et la précision mesure l’efficacité (effectiveness) des SRIs.
qu’elles sont les critères essentiels?
Le rappel : capacité du système à fournir en réponse tous les documents pertinents – La précision : capacité du système à ne fournir que des documents pertinents en réponse.