Examen final Flashcards
Trois types de résumés automatique…
indicatif, par extraction et résumé au sens propre du terme
indicatif?
liste de mots qu’on va produire à partir du texte, donne pas le contenu, mais donne une idée de ce que traite le texte, repérer des mots
par extraction?
repérer les phrases qui résume le plus le texte, phrases résumantes, identifier ces phrases et les assembler, surtout là-dedans qu’on travaille
résumé au sens propre du terme?
un résumé comme un être humain le ferait, faut très bien connaître le domaine du texte, le comprendre et le reformuler, recherche fondamentale (lit, discute, échange, colloque, etc.) nous on se situe dans la recherche appliquée
Qui commence en 1959 la génération de résumés par extraction
H.P. Luhn
Hypothèse de Luhn…
lorsqu’on rédige un texte scientifique, terminologie disciplinée (un nom qu’on utilise toujours, on utilise pas de synonymes et de paraphrases, ainsi la fréquence des mots peut être indicatif du sujet contrairement au texte littéraire) la fréquence des mots est un critère qui reflète leur importance dans un texte.
le choix du vocabulaire change selon les sujets abordés : un regroupement de mots fréquents dans une même phrase reflète son caractère «résumant» parce qu’elle porte sur différents sujets du texte (exemple si on traite de l’uranium d’un point de vue militaire on n’aura pas le même vocabulaire que d’un point de vue du minerais
Méthode Luhn:
- identification des mots prépondérants (absents de l’antidictionnaire, fréquence supérieur à un ratio, nombre de mots total sur nombre de mots différents absents de l’antidictionnaire)
- calcul de la prépondérance des phrases (nombre de mots prépondérants au carré divisé par le nombre de mots dans la phrase)
Approche de Edmundson en quelle année?
69
méthodologie générale Edmundson…
corpus de 100 articles scientifiques, création d’un résumé par extraction pour chaque article par un résumeur humain, calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de quatre critères, recherche exploratoire afin de déterminer la meilleure combinaison de critères
plus son logiciel va se rapprocher des résumés faits par les humains plus le résultat va être bon (selon lui, en réalité très subjectif)
critères identifiés par Edmundson
premier critère = indices tous les mots du corpus va calculer la fréquence d’un mot dans l’ensemble des textes divisés par le nombre de textes dans lesquels il apparaît
fréquence d’un mot dans l’ensemble des textes divisé par le nombre de textes dans lesquels il apparaît
mots positifs - ratio élevé (fréquence élevé, peu de distribution 100 fois mais dans juste 2 textes)
mot négatifs - ratio faible (fréquence pauvre mais grande distribution 10 fois dans 10 texte)
mots neutres - distribution élevée-ration moyen
résidu - distribution faible- ratio faible
mots positifs
ed
> 0 (cote de 1) comparatifs superlatifs adverbes de conclusion termes spécialisés pronoms relatifs interrogatifs (qui, quoi?) conjonctions causales (pcq, car)
mots négatifs
ed
< 0 (cote de -1)
expressions anaphoriques
expressions péjoratives
mots neutres
ed
cote de 0 auxiliaires pronoms adjectifs prépositions grosso modo l'antidictionnaire
résidu
ed
cote de 0
archaïsmes
mots techniques
qualificatifs
Deuxième critère (mots prépondérant)
ed
en guise d’antidictionnaire, il utilise la liste des mots neutres crée en 1.
mots des titres absents de l’antidictionnaire (troisième critère)
ed
chaque mot se fait attribuer un poids. Les mots du titre principal se font donner un poids légèrement supérieur.
quatrième critère (position des phrases)
ed
début et fin de texte
début et fin de section
début et fin de paragraphe
on amplifie le poids déjà accordé à ces phrases
Pour deux phrases de même poids l’une au début d’une section et l’Autre au centre d’une section, celle qui est en début de section se fera donner priorité
calcul de la prépondérance
ed
pour chaque phrase d’un texte
on fait la somme des poids
la présence d’un mot positif fait augmenter de 1
présence d’un mot négatif fait diminuer de 1
présence d’un mot prépondérant fait augmenter de 1
présence de mots qu’on retrouve dans les titres fait augmenter de 1
le poids est augmenté en fonction de sa position
Recherche exploratoire
Edmundson a obtenu les meilleurs résultats en utilisant….
indices + mots des titres + position
l’utilisation des mots prépondérants nuisait
cela ne veut pas dire que les mots prépondérants ne sont pas utiles. Cela signifie qu’ils ne peuvent pas être combinés avec les autres catégories d’Edmundson