Chapitre_3_Indexation et Recherche d’Information Flashcards

1
Q

qu’est ce qu’un SRI?

A

est un programme (ensemble de programmes) informatique qui a pour but de sélectionner des informations pertinentes répondant à des besoins utilisateurs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

qu’elle est la diff entre SRI et SGBD?

A

Dans SGBD, la recherche se fait par une parfaite égalité (exact match) entre la requête et les valeurs des attributs des enregistrements. Dans SRI, la recherche est approximative. Le document retrouvé peut être pertinent pour le système mais non pour l’utilisateur.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

c’est quoi l’indexation?

A

Consiste à créer un ensemble de mots clés reflétant aux mieux le contenu sémantique du document, cette liste de mots clés sera plus facilement exploitable lors du processus de la RI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

qu’elles sont les approches de l’indexation?

A

Manuelle (expert en indexation) Automatique (ordinateur) Semi-automatique (combinaison des deux)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

c’est quoi l’indexation manuelle?

A

Choix des mots effectué par des indexeurs Basée sur un vocabulaire contrôlé Approche utilisée souvent dans les bibliothèques, les centres de documentation Dépend du savoir faire de l’indexeur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

qu’elles sont les Avantages du vocabulaire contrôlé?

A

Permet la recherche par concepts (par sujets, par thèmes), plus intéressante que la recherche par mots simples Permet la classification (regroupement) de documents (par sujets, par thème) Fournit une terminologie standard pour indexer et rechercher les documents

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

qu’elles sont les Inconvénients du vocabulaire contrôlé?

A

Indexation très coûteuse – Pour construire le vocabulaire – Pour affecter les concepts (termes) aux documents (imaginer cette opération sur le web) Difficile à maintenir – La terminologie évolue, plusieurs termes sont rajoutés tous les jours( néologisme) Processus humain donc subjectif - Des termes différents peuvent être affectés à un même document par des indexeurs différents Les utilisateurs ne connaissent pas forcément le vocabulaire utilisé par les indexeurs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

c’est quoi INDEXATION AUTOMATIQUE?

A

Le but de l’indexation automatique est de transformer les documents en substituts capables de représenter le contenu de ces documents (Salton & McGill, 1983) C’est le SRI qui génère les indexes des documents.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

qu’elles dont les approches de l’indexation automatique?

A

Approches : 1. Statistique : (distribution des mots) 2. TALN : Traitement automatique du langage naturel (compréhension du texte)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

c’est l’approche statique?

A

4 étapes : – Étape 1 : Extraction de mots simples – Étape 2 : Normalisation des mots extraits – Étape 3 : Statistique sur les occurrences – Étape 4: Construction du fichier inverse et pondération des mots

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

comment se fait l’évaluation et la performance ?

A

L’évaluation de performance des SRI se fait selon trois paramètres : la vitesse de recherche, le rappel et la précision. *La vitesse de recherche mesure l’efficience (efficiency) des SRIs. *Le rappel et la précision mesure l’efficacité (effectiveness) des SRIs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

qu’elles sont les critères essentiels?

A

Le rappel : capacité du système à fournir en réponse tous les documents pertinents – La précision : capacité du système à ne fournir que des documents pertinents en réponse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly