Séance 10 : Résumés automatiques Flashcards
Qu’est-ce qu’un résumé indicatif?
Une liste de mots représentative du contenu d’un texte
=> possible de le faire en se créant un dictionnaire avec les fréquences
Que sont les problèmes avec le résumé indicatif?
- Il manque les mots complexes (ex: uranium tetravalent, uranium de formule générale…)
- Le seul critère est la fréquence, il manque la distribution
Qu’est-ce que la fréquence VS la distribution?
Le nombre de fois qu’un mot apparaît dans un texte
vs
Le nombre de textes dans lesquels apparaît un mot
Qu’est-ce qu’un résumé par extraction?
Extraction de phrases ou de paragraphes les plus représentatives du texte
=> donne des résultats plus intéressants
Quel est le problème avec le résumé par extraction?
Manque de cohérence entre les phrases, parfois une qui référait à la précédente
Quelle est la première étape de toute étude?
L’observation et l’analyse des faits
Quelles étaient les 2 hypothèses de Luhn lorsqu’on rédige un texte scientifique?
- Terminologie discipline : quand on nomme un concept d’une manière, on va tj le nommer ainsi = on n’utilise pas de paraphrases ou des synonymes pour ces mots la ex: fission nucléaire
=> donc, la fréquence des mots est un critère utile qui reflète leur importance dans un texte (mais pas dans les œuvres littéraires (trop de synonymes, paraphrases).
2.Le choix du vocabulaire change selon les sujets abordés (des mots spécifiques sont associés à un domaine)
=> donc, un regroupement de mots fréquents qui réfèrent aux sujets abordés est une phrase résumante
Qu’est-ce qu’une phrase résumante?
Un regroupement de mots fréquents dans une même phrase. Cela démontre qu’elle porte sur différents sujets du texte.
*Une phrase est résumante si elle regroupe plusieurs concepts fréquents de plusieurs sujets.
Comme la méthode de Luhn date, elle est mauvaise.
Faux, Luhn est un pionner, tous ceux qui ont suivi s’en sont inspiré.
Quelle est la méthode générale de Luhn pour son résumé par extraction?
- Découpe le texte en phrases
- Fait un index de mots absents de l’AD et les met dans un TA avec leur fréquence
- Calcule son ratio (Nbr mots dans le texte/Nbr mots différents dans le texte)
- Calcule la prépondérance des phrases (selon le nbr de mots avec une fréquence > ratio (vs nbr total phrase))
- Place les phrases (leur no.) avec leur prépondérance dans un tableau
- Extrait les clefs (no.) en ordre inverse des valeurs (de la plus grande à la moins grande prépondérance)
- Extrait les 10 premières phrases (à la plus haute prépondérance) et place dans un tableau résumé
- Classe en ordre textuel (de no.) les phrases du tableau résumé et affiche
Quelles sont les avancées de Edmundson dans sa méthodologie?
- Il travaille à partir d’un corpus très délimité (100 articles scientifiques)
- Il compare son résumé par extraction pour chaque article avec un résumé par extraction fait par un résumeur humain
=> lui donne une base de comparaison pour s’évaluer
PROBL : influencé par la subjectivité
3.Calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de quatre critères (après une recherche exploratoire pour déterminer la meilleure combinaison de critères)
Quels sont les 4 critères identifiés par Edmundson dans sa recherche exploratoire? Quels étaient utilisés par Luhn?
- Indices
- Mots prépondérants (Luhn)
- Mots des titres
- Position des phrases
(4 choses supplémentaires qu’il prend en considération pour que son résumé soit encore plus précis)
Quelle est la différence entre recherche exploratoire et expérimentale ?
Expérimentale : possède un cadre théorie, part de la pratique de qq autre, suit sa méthodologie, change un élément et regarde la différence
Exploratoire : plus libre, fait propres recherches
Sur quoi se base Edmundson pour établir ces indices?
Il se base sur 1) la distribution 2) le ratio (fréquence dans résumé par humain/fréquence dans le corpus)
Quels sont les catégories de mots qu’Edmunson obtient à l’aide des indices? Quel cote il leur attribue?
- MOTS POSITIFS (ratio élevé)
ex:
Comparatifs
Superlatifs
Adverbes de conclusion
Termes spécialisés
Pronoms relatifs interrogatifs (qui, quoi, où, etc.)
Conjonctions causales (parce que, car, puisque, etc.). + ou - pertinents
=> attribue une cote > 0 (positive)
2.MOTS NÉGATIFS (ratio faible)
ex:
expressions anaphoriques
expressions péjoratives
=> attribue une cote < 0 (négative)
3.MOTS NEUTRES (distribution élevée, ratio moyen)
ex: Auxiliaires Pronoms Adjectifs Prépositions (Grosso modo l’antidictionnaire)
=> se font attribue une cote 0 (aucun impact)
4.RÉSIDU (distribution faible, ratio faible)
ex:
Archaïsmes
Mots techniques
Qualificatifs
=> attribue une cote 0 aussi
Comment Edmundson traite les mots prépondérants ? Vs Luhn?
Il utilise son dictionnaire d’indices comme antidictionnaire, donc plus complet, il se base sur des critères vs Luhn juste la fréquence
Comment Edmundson traite les mots des titres?
Il enlève d’abord ceux dans l’AD, puis chaque mot dans un titre se fait accorder un poids (généralement les titres sont assez résumants). Les mots du titre principal se font donner un poids légèrement supérieur.
Comment Edmundson traite la position des phrases?
Il amplifie le poids déjà accordé aux phrases en :
- début et fin de texte
- début et fin de section
- début et fin de paragraphe
Comment Edmundson calcule la prépondérance des phrases?
Comme Luhn, mais ajoute les mots positifs et négatifs, les titres et la position des phrases :
On fait la somme des poids:
- La présence d’un indice positif fait augmenter son poids de 1 (si 3 mots positifs : +3)
- La présence d’un indice négatif fait diminuer son poids (si 2 mots négatifs : -2)
- La présence de mots prépondérants fait augmenter son poids
- La présence de mots qu’on retrouve dans les titres fait augmenter son poids (voir autre question)
- Le poids est augmenté en fonction de sa position (voir autre question)
Après avoir testé toutes les combinaisons de critères, quelle est la conclusion d’Edmundson?
Il obtient les meilleurs résultats (plus proche des résumés humains) avec la combinaison :
Indices + Mots des titres + Position
*L’utilisation des mots prépondérants nuisait, car les mots absents de l’AD avec ratio élevé étaient aussi des mots positifs souvent, donc on dédouble accidentellement le poids donné à chaque phrase
Est-ce que la conclusion d’Edmunson signifie que les mots prépondérants sont inutiles?
Non, juste qu’ils ne peuvent pas être combinés avec les autres catégories d’Edmunson, cela se mélange pas avec les indices, qui incluent déjà, mais donnent autre info
Quels sont les 3 plus grands aspects techniques de la méthode d’Edmundson?
- Calcul de la distribution (vs juste fréquence)
- Identification des titres
- Dépendant d’un domaine (lui l’a fait pour un domaine, mais pas précisé lequel, doit s’adapter
Quelles sont les éléments de la méthodologie qu’ont repris Kupiec, Pedersen et Chen (1995) ?
- Se serve aussi de corpus scientifiques
- Création d’un résumé par extraction pour chaque document par un résumeur humain
Quels sont les éléments que KPC ajoutent?
Calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de cinq critères (remodulent les critères)
Quels sont les critères utilisés par KPC pour identifier une phrase comme résumante?
1.Longueur de la phrase
On rejette les phrases < 5 mots sinon donne des cotes trop élevées (ex: 1 mot preponderant sur 4 = dj 0,25%)
- Présence de locutions comme comme: Cette lettre…, En conclusion… ou de mots comme: résultat, résumé, discussion, etc.
(ingredient de l’analyse du discours)
3.Position des paragraphes (inspiré de edmunston)
Les phrases des 10 premiers et 5 derniers paragraphes ont un poids plus important (plutôt que donner poids à chaque phrase a fin et début => plus simplifié, épuré)
4.Présence de mots thématiques (absents d’un antidictionnaire + fréquence élevée) -> comme mots prépondérants de Luhn,
MAIS :Uniquement appliqué aux phrases ayant déjà un poids important
5.Présence de noms propres (?)
Qu’est-ce que le théorème de Bayes?
Le théorème de Bayes énonce des probabilités conditionnelles: étant donné deux évènements A et B, le théorème de Bayes permet de déterminer la probabilité de A sachant B, si l’on connaît les probabilités de A, de B, de B sachant A.
Quel est l’apport du théorème de Bayes dans la génération automatique de résumés?
Utilisation d’un rapport de probabilité pour calculer la prépondérance des phrases (moins subjectif, plus précis)
Comment KPC applique le théorème de Bayes?
Ils calculent la probabilité qu’une phrase fasse partie d’un résumé sachant la probabilité des indices C1, C2…C5 observés dans la phrase
Quelle est l’amélioration de KPC par rapport à Edmundson?
Le poids est attribué automatiquement aux critères plutôt que manuellement (calcul plus précis)
Que peut-on dire de l’évaluation de KPC?
Les seuls à apporter une évaluation :
Pour des résumés à 25%, 84% des phrases choisies par leur logiciel avaient été choisies par un résumeur humain (bon!)
Quels sont les 3 aspects techniques (avantages) de l’approche de KPC?
Plus facile à implémenter que l’approche de Edmundson
Reconnaissance automatique des noms propres
Le théorème de Bayes est applicable parce que les critères constituent des variables indépendantes
Quelle est la condition pour que le théorème de Bayes soit applicable?
Les critères doivent constituer des variables indépendantes (ex: probabilité d’être un garçon indépendante, pas rapport avec la probabilité d’être une fille)
Donne un exemple de variables dépendantes et qu’est-ce que c’est?
Des variables dépendantes s’influencent ensemble, elles sont des éléments interreliés.
Exemple : catégorisation grammaticale (la catégorie de chaque mot dépend de la catégorie des autres mots)
Ex : Pierre ferme la porte. (LA peut être un dét ou un nom. et PORTE un nom ou un verbe)
=> Dép. car si LA est un déterminant, PORTE est un nom
Que fait-on quand les variables sont dépendantes?
On utilise la chaîne de Markov