TE1 - test questions Flashcards
Prenons l’algorithme de l’intersection de deux listes présenté dans la figure 1 qui permet d’exécuter la requête x AND y.
En se basant sur la même logique, écrire un algorithme optimisé pour exécuter la requête x OR y. Décrire en quelques phrases votre démarche.
Dans le cadre du modèle Booléen, est-il utile de stocker la fréquence documentaire (df) de chaque terme dans l’index inversé ? Justifier votre réponse.
Oui on en a besoin. Il s’agit en effet de la taille de chaque posting liste qui est stockée dans l’index. C’est utilisé pour l’optimisation des requêtes.
Dans le cadre du modèle vectoriel, pour calculer le poids des termes dans un document, pourquoi utilise-t-on le logarithme des fréquences des termes et non les fréquences brutes ?
Pour atténuer la grandeur des fréquences : un doc contenant 100 fois plus un terme n’est pas 100 fois plus pertinent
Dans le cadre du modèle vectoriel, pour calculer le poids des termes d’une requête pourquoi fait-on intervenir l’IDF des termes qui composent la requête (Inverse Document Frequency)?
Pour différencier la rareté des termes et donner plus de poids aux termes rares
Dans le cadre du modèle vectoriel, est-il nécessaire de faire intervenir l’IDF des termes si la requête contient un seul terme ? Justifier votre réponse.
Non, pas besoin Car le but de idf est différencier le poids entre les termes de requête pour accentuer le poids des termes plus spécifiques. Avec un seul terme cela ne s’applique pas.
Dans le cadre du modèle vectoriel, pour calculer la similarité entre un vecteur de document et un vecteur de requête pourquoi “le cosinus de l’angle entre les vecteurs” est-elle une fonction adaptée?
Deux vecteurs sont proches quand ils sont dans la même direction => angle 0=> cosine tend vers 1 quand l’angle tend vers 0 et cos et 0 quand les vecteurs sont orthogonaux. Valeur toujours entre 0 et 1. Cos ne tient pas compte de la longeur des vecteurs (normalise pas taille des vecteurs) au contraire de distance Euclidienne trop influencée pas la taille
Est-il juste d’utiliser la formule suivante pour calculer la similarité de la requête et des documents ? Justifier votre réponse.
Oui c’est la même chose que la formule de cosinus sans la normalisation par la taille de la requête. En effet on n’a pas besoin de diviser par la taille de la requête qui est toujours identique pour une même requête.
D’après vous, est-ce que l’ordre de l’application de “stemming” et de “suppression des mots vides” peut impacter le résultat de l’indexation ?
Si l’on applique d’abord le stemming, le mot peut devenir un stop word et être éliminé par la suite.
Quel est l’impact de l’utilisation de l’idf sur le ranking ?
L’idf attribue de la valeur selon la rareté du mot dans le but de mettre de l’importance sur les motsrares. Sans idf, les termes de la requête ont le même poids, ce qui influence le calcul de similarité. On ne se base que sur la fréquence du mot dans le document.