Séance 10 : Résumés automatiques Flashcards
Qu’est-ce qu’un résumé indicatif?
Une liste de mots représentative du contenu d’un texte
=> possible de le faire en se créant un dictionnaire avec les fréquences
Que sont les problèmes avec le résumé indicatif?
- Il manque les mots complexes (ex: uranium tetravalent, uranium de formule générale…)
- Le seul critère est la fréquence, il manque la distribution
Qu’est-ce que la fréquence VS la distribution?
Le nombre de fois qu’un mot apparaît dans un texte
vs
Le nombre de textes dans lesquels apparaît un mot
Qu’est-ce qu’un résumé par extraction?
Extraction de phrases ou de paragraphes les plus représentatives du texte
=> donne des résultats plus intéressants
Quel est le problème avec le résumé par extraction?
Manque de cohérence entre les phrases, parfois une qui référait à la précédente
Quelle est la première étape de toute étude?
L’observation et l’analyse des faits
Quelles étaient les 2 hypothèses de Luhn lorsqu’on rédige un texte scientifique?
- Terminologie discipline : quand on nomme un concept d’une manière, on va tj le nommer ainsi = on n’utilise pas de paraphrases ou des synonymes pour ces mots la ex: fission nucléaire
=> donc, la fréquence des mots est un critère utile qui reflète leur importance dans un texte (mais pas dans les œuvres littéraires (trop de synonymes, paraphrases).
2.Le choix du vocabulaire change selon les sujets abordés (des mots spécifiques sont associés à un domaine)
=> donc, un regroupement de mots fréquents qui réfèrent aux sujets abordés est une phrase résumante
Qu’est-ce qu’une phrase résumante?
Un regroupement de mots fréquents dans une même phrase. Cela démontre qu’elle porte sur différents sujets du texte.
*Une phrase est résumante si elle regroupe plusieurs concepts fréquents de plusieurs sujets.
Comme la méthode de Luhn date, elle est mauvaise.
Faux, Luhn est un pionner, tous ceux qui ont suivi s’en sont inspiré.
Quelle est la méthode générale de Luhn pour son résumé par extraction?
- Découpe le texte en phrases
- Fait un index de mots absents de l’AD et les met dans un TA avec leur fréquence
- Calcule son ratio (Nbr mots dans le texte/Nbr mots différents dans le texte)
- Calcule la prépondérance des phrases (selon le nbr de mots avec une fréquence > ratio (vs nbr total phrase))
- Place les phrases (leur no.) avec leur prépondérance dans un tableau
- Extrait les clefs (no.) en ordre inverse des valeurs (de la plus grande à la moins grande prépondérance)
- Extrait les 10 premières phrases (à la plus haute prépondérance) et place dans un tableau résumé
- Classe en ordre textuel (de no.) les phrases du tableau résumé et affiche
Quelles sont les avancées de Edmundson dans sa méthodologie?
- Il travaille à partir d’un corpus très délimité (100 articles scientifiques)
- Il compare son résumé par extraction pour chaque article avec un résumé par extraction fait par un résumeur humain
=> lui donne une base de comparaison pour s’évaluer
PROBL : influencé par la subjectivité
3.Calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de quatre critères (après une recherche exploratoire pour déterminer la meilleure combinaison de critères)
Quels sont les 4 critères identifiés par Edmundson dans sa recherche exploratoire? Quels étaient utilisés par Luhn?
- Indices
- Mots prépondérants (Luhn)
- Mots des titres
- Position des phrases
(4 choses supplémentaires qu’il prend en considération pour que son résumé soit encore plus précis)
Quelle est la différence entre recherche exploratoire et expérimentale ?
Expérimentale : possède un cadre théorie, part de la pratique de qq autre, suit sa méthodologie, change un élément et regarde la différence
Exploratoire : plus libre, fait propres recherches
Sur quoi se base Edmundson pour établir ces indices?
Il se base sur 1) la distribution 2) le ratio (fréquence dans résumé par humain/fréquence dans le corpus)
Quels sont les catégories de mots qu’Edmunson obtient à l’aide des indices? Quel cote il leur attribue?
- MOTS POSITIFS (ratio élevé)
ex:
Comparatifs
Superlatifs
Adverbes de conclusion
Termes spécialisés
Pronoms relatifs interrogatifs (qui, quoi, où, etc.)
Conjonctions causales (parce que, car, puisque, etc.). + ou - pertinents
=> attribue une cote > 0 (positive)
2.MOTS NÉGATIFS (ratio faible)
ex:
expressions anaphoriques
expressions péjoratives
=> attribue une cote < 0 (négative)
3.MOTS NEUTRES (distribution élevée, ratio moyen)
ex: Auxiliaires Pronoms Adjectifs Prépositions (Grosso modo l’antidictionnaire)
=> se font attribue une cote 0 (aucun impact)
4.RÉSIDU (distribution faible, ratio faible)
ex:
Archaïsmes
Mots techniques
Qualificatifs
=> attribue une cote 0 aussi