TE1 Flashcards
Qu’est-ce que la Recherche d’Information ?
L’ensemble des méthodes et techniques pour
- l’acquisition,
- l’organisation,
- le stockage,
- la recherche
- la sélection
d’information pertinente pour un utilisateur.
Quels sont les domaines d’application de la recherche d’information ?
– Recherche locales sur les forums, blogs, sites de news
– Recherche sur les réseaux sociaux (facebook, twitter, telegram, etc.)
– Recherche sur les sites internes des entreprises
– Recherche sur les sites de bibliothèques numériques – Recherche sur les sites spécialisés (médecine, droit, littérature, chimie, mathématique, brevets, etc.)
– Recherche local sur ordinateurs et appareils mobiles personnel (Mac OS Spotlight, Desktop search)
– En combinaison avec les autres applications: système de recommandation (Netflix, Amazon, etc.), analyse big data, etc.
Un document peut être … ?
– un texte complet (livre, article de news, blog)
– une partie de texte (chapitre, paragraphe, phrase)
– une page Web (html, php)
– une image
– une vidéo
– Etc.
Que fait requête ?
Exprime le besoin d’informations de l’utilisateur
Sous quelle forme se présente une requête ?
Peut être sous forme de description textuelle, mots clés, un exemple de document similaire, etc.
Comment définir la notion de pertinence ?
Un document pertinent est un document qui doit contenir l’information que l’utilisateur recherche.
– notion qui peut être complexe et subjective selon le contexte et qui dépend de
• l’utilisateur
• la requête
– c’est sur cette notion que les systèmes de recherche d’information sont jugés.
Qu’est-ce qu’une information structurée ?
Information structurée en champs => on se rapproche des systèmes de gestion de bases de données
– requête simple
– correspondance exact (SQL)
A quelle type d’information (structurée ou non), la RI s’intéresse-t-elle?
RI s’intéresse surtout à l’accès à l’information non-structurée, même si, dans les documents textuels, il peut y avoir une partie structurée: champs (auteur, date, titre, etc.)
Quel est le le problème central de la RI ?
Comment juger la pertinence est le problème central de la RI.
Quels types de besoin en information existe-t-il ?
– Ponctuel (adhoc)
– Récurrent (filtrage, alertes, flux RSS)
Ils utilisent les mêmes technologies.
Comment s’exprime un besoin ?
Langage de requêtes
– Texte libre, Liste de mots clés
– Avec ou sans opérateurs (AND, OR, NOT, etc.)
– Images
– Aucun : navigation dans une liste de concepts
Quel est le paradoxe de la RI (ASK) ?
- Une “requête idéale” doit comporter toutes les informations que l’utilisateur recherche –> la similarité serait maximale (doit avoir toutes les infos que l’utilisateur recherche)
- Or, l’utilisateur recherche une information qu’il ne connaît pas à priori, il ne peut donc pas l’exprimer (décrire) de manière précise (idéale)
Ce phénomène est qualifié par Belkin comme ASK : “Anomalous State of Knowledge”.
Comment évaluer un outil de recherche?
- Précision: fraction de documents récupérés correspondant au besoin d’informations de l’utilisateur
- Rappel: fraction de documents pertinents dans la collection qui sont récupérés
Quel est le modèle le plus simple pour fonder un système de recherche d’information ?
Le modèle booléen
Google utilise-t-il le modèle booléen?
Pas tout-à-fait mais il se base dessus.
– Oui, car on peut spécifier les opérateurs de recherche booléenne.
– Oui, car il essaie au mieux de respecter l’expression booléenne de la requête.
– Non, car il permet de faire un classement des résultats.
• Sur Google, l’interprétation par default d’une requête sous forme de w(1) w(2) …w(n) est :
– w(1) AND w(2) AND … AND w(n)
• Il y a pourtant des cas où on obtient des résultats qui ne contiennent pas un w(i) :
– le terme était présent sur le lien qui pointe la page (texte d’ancre)
– la page contient une variante de w(i) (morphologie, correction orthographique, synonyme)
– expression booléenne génère très peu de résultats
Quelle est la différence principale entre le modèle booléen et le modèle utilisé par Google ?
- La recherche booléenne simple renvoie les documents correspondants sans ordre particulier.
- Google (et le moteurs de recherche les mieux conçus) classe l’ensemble de résultats. Il utilise certains estimateurs pour classer les bons résultats plus haut que les mauvais résultats: ranking.
Qu’est-ce qu’une matrice d’incidence terme-document ?
La solution pour éviter de parcourir linéairement les textes à chaque nouvelle requête –> elle consiste à indexer les documents à l’avance.
Prenons les vecteurs d’incidence suivant: Antony 110001, Cleopatra 100000 et Calpurnia 010000.
Quel est le vecteur d’incidence correspondant à la requête “(Antony or Cleopatra) and not Calpurnia”?
100001
Quelle est la structure clé de la RI ?
Index inversé
Qu’est-ce que l’index inversé ?
Pour chaque terme t, on stocke la liste de tous les documents qui contiennent t. Chaque document est identifié par un docID, un numéro de série de document.
Brutus –> 1, 2, 4, 11, 31, 45, 173, 174
Caesar –> 1, 2, 4, 5, 6, 16, 57, 132
Calpurnia –> 2, 31, 54, 101
Quelles sont les premières étapes du traitement de texte ?
- Tokenisation
- Normalisation
- Stemming (racinisation)
- Stop words (mots-vides)
En quoi consiste la tokenisation ?
Couper la séquence de caractères en tokens de mots. S’occuper des cas tels que John’s, a state-of-the-art solution.
En quoi consiste la normalisation ?
Mapper le texte et les termes de requêtes à la même forme. Vous voulez que U.S.A. et USA correspondent.
En quoi consiste le stemming (racination) ?
Nous pouvons souhaiter que différentes formes d’une racine correspondent
• kill, killed
En quoi consistent les stop words (mots-vides) ?
Nous pouvons omettre des mots très courants (ou non)
• the, a, to, of
Prenons un corpus de 1 million de documents, chacun d’une longueur de 1000 mots, et un vocabulaire total de 500’000. Quelle est la taille maximale approximative des listes des occurrences et la taille de la matrice de cooccurrence?
10^9 et 5 * 10^11
Si les longueurs des deux listes des occurrences sont x et y, quelle est la complexité algorithmique dans le pire des cas pour fusionner les listes d’occurrences dans une requête OR?
O(x+y)
Considérons une requête qui est un AND de n termes. Pour chacun des n termes, obtenir ces listes des occurrences, puis les combiner avec AND.
Quel est le meilleur ordre pour le traitement de cette requête?
De la plus petite à la plus grande.
Quel est le problèmes avec des index biword ?
• Faux positifs
• Explosion d’index due à un dictionnaire plus grand
– Infaisable pour plus que deux mots, même très grand pour les biword.
• Les index biword ne sont pas la solution standard (pour tous les mots-clés) mais peuvent faire partie d’une stratégie composée.
En quoi consistent les index biword ?
Il s’agit d’une manière de séparer une query (requête) en groupe de deux mots utilisés pour effectuer des recherches booléennes sur les fichiers.
Par exemple the texte “Applied Science University” génèrerait les biwords
– applied science
– science university