Séance 10 : Résumés automatiques Flashcards

Question 1

Q

Qu’est-ce qu’un résumé indicatif?

Answer

A

Une liste de mots représentative du contenu d’un texte

=> possible de le faire en se créant un dictionnaire avec les fréquences

Question 2

Q

Que sont les problèmes avec le résumé indicatif?

Answer

A

Il manque les mots complexes (ex: uranium tetravalent, uranium de formule générale…)
Le seul critère est la fréquence, il manque la distribution

Question 3

Q

Qu’est-ce que la fréquence VS la distribution?

Answer

A

Le nombre de fois qu’un mot apparaît dans un texte

vs

Le nombre de textes dans lesquels apparaît un mot

Question 4

Q

Qu’est-ce qu’un résumé par extraction?

Answer

A

Extraction de phrases ou de paragraphes les plus représentatives du texte

=> donne des résultats plus intéressants

Question 5

Q

Quel est le problème avec le résumé par extraction?

Answer

A

Manque de cohérence entre les phrases, parfois une qui référait à la précédente

Question 6

Q

Quelle est la première étape de toute étude?

Answer

A

L’observation et l’analyse des faits

Question 7

Q

Quelles étaient les 2 hypothèses de Luhn lorsqu’on rédige un texte scientifique?

Answer

A

Terminologie discipline : quand on nomme un concept d’une manière, on va tj le nommer ainsi = on n’utilise pas de paraphrases ou des synonymes pour ces mots la ex: fission nucléaire

=> donc, la fréquence des mots est un critère utile qui reflète leur importance dans un texte (mais pas dans les œuvres littéraires (trop de synonymes, paraphrases).

2.Le choix du vocabulaire change selon les sujets abordés (des mots spécifiques sont associés à un domaine)

=> donc, un regroupement de mots fréquents qui réfèrent aux sujets abordés est une phrase résumante

Question 8

Q

Qu’est-ce qu’une phrase résumante?

Answer

A

Un regroupement de mots fréquents dans une même phrase. Cela démontre qu’elle porte sur différents sujets du texte.

*Une phrase est résumante si elle regroupe plusieurs concepts fréquents de plusieurs sujets.

Question 9

Q

Comme la méthode de Luhn date, elle est mauvaise.

Answer

A

Faux, Luhn est un pionner, tous ceux qui ont suivi s’en sont inspiré.

Question 10

Q

Quelle est la méthode générale de Luhn pour son résumé par extraction?

Answer

A

Découpe le texte en phrases
Fait un index de mots absents de l’AD et les met dans un TA avec leur fréquence
Calcule son ratio (Nbr mots dans le texte/Nbr mots différents dans le texte)
Calcule la prépondérance des phrases (selon le nbr de mots avec une fréquence > ratio (vs nbr total phrase))
Place les phrases (leur no.) avec leur prépondérance dans un tableau
Extrait les clefs (no.) en ordre inverse des valeurs (de la plus grande à la moins grande prépondérance)
Extrait les 10 premières phrases (à la plus haute prépondérance) et place dans un tableau résumé
Classe en ordre textuel (de no.) les phrases du tableau résumé et affiche

Question 11

Q

Quelles sont les avancées de Edmundson dans sa méthodologie?

Answer

A

Il travaille à partir d’un corpus très délimité (100 articles scientifiques)
Il compare son résumé par extraction pour chaque article avec un résumé par extraction fait par un résumeur humain

=> lui donne une base de comparaison pour s’évaluer
PROBL : influencé par la subjectivité

3.Calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de quatre critères (après une recherche exploratoire pour déterminer la meilleure combinaison de critères)

Question 12

Q

Quels sont les 4 critères identifiés par Edmundson dans sa recherche exploratoire? Quels étaient utilisés par Luhn?

Answer

A

Indices
Mots prépondérants (Luhn)
Mots des titres
Position des phrases

(4 choses supplémentaires qu’il prend en considération pour que son résumé soit encore plus précis)

Question 13

Q

Quelle est la différence entre recherche exploratoire et expérimentale ?

Answer

A

Expérimentale : possède un cadre théorie, part de la pratique de qq autre, suit sa méthodologie, change un élément et regarde la différence

Exploratoire : plus libre, fait propres recherches

Question 14

Q

Sur quoi se base Edmundson pour établir ces indices?

Answer

A

Il se base sur 1) la distribution 2) le ratio (fréquence dans résumé par humain/fréquence dans le corpus)

Question 15

Q

Quels sont les catégories de mots qu’Edmunson obtient à l’aide des indices? Quel cote il leur attribue?

Answer

A

MOTS POSITIFS (ratio élevé)

ex:
Comparatifs
Superlatifs
Adverbes de conclusion
Termes spécialisés
Pronoms relatifs interrogatifs (qui, quoi, où, etc.)
Conjonctions causales (parce que, car, puisque, etc.). + ou - pertinents

=> attribue une cote > 0 (positive)

2.MOTS NÉGATIFS (ratio faible)

ex:
expressions anaphoriques
expressions péjoratives

=> attribue une cote < 0 (négative)

3.MOTS NEUTRES (distribution élevée, ratio moyen)

ex: 
Auxiliaires
Pronoms
Adjectifs
Prépositions
(Grosso modo l’antidictionnaire)

=> se font attribue une cote 0 (aucun impact)

4.RÉSIDU (distribution faible, ratio faible)

ex:
Archaïsmes
Mots techniques
Qualificatifs

=> attribue une cote 0 aussi

Question 16

Q

Comment Edmundson traite les mots prépondérants ? Vs Luhn?

Answer

A

Il utilise son dictionnaire d’indices comme antidictionnaire, donc plus complet, il se base sur des critères vs Luhn juste la fréquence

Question 17

Q

Comment Edmundson traite les mots des titres?

Answer

A

Il enlève d’abord ceux dans l’AD, puis chaque mot dans un titre se fait accorder un poids (généralement les titres sont assez résumants). Les mots du titre principal se font donner un poids légèrement supérieur.

Question 18

Q

Comment Edmundson traite la position des phrases?

Answer

A

Il amplifie le poids déjà accordé aux phrases en :

début et fin de texte
début et fin de section
début et fin de paragraphe

Question 19

Q

Comment Edmundson calcule la prépondérance des phrases?

Answer

A

Comme Luhn, mais ajoute les mots positifs et négatifs, les titres et la position des phrases :

On fait la somme des poids:

La présence d’un indice positif fait augmenter son poids de 1 (si 3 mots positifs : +3)
La présence d’un indice négatif fait diminuer son poids (si 2 mots négatifs : -2)
La présence de mots prépondérants fait augmenter son poids
La présence de mots qu’on retrouve dans les titres fait augmenter son poids (voir autre question)
Le poids est augmenté en fonction de sa position (voir autre question)

Question 20

Q

Après avoir testé toutes les combinaisons de critères, quelle est la conclusion d’Edmundson?

Answer

A

Il obtient les meilleurs résultats (plus proche des résumés humains) avec la combinaison :

Indices + Mots des titres + Position

*L’utilisation des mots prépondérants nuisait, car les mots absents de l’AD avec ratio élevé étaient aussi des mots positifs souvent, donc on dédouble accidentellement le poids donné à chaque phrase

Question 21

Q

Est-ce que la conclusion d’Edmunson signifie que les mots prépondérants sont inutiles?

Answer

A

Non, juste qu’ils ne peuvent pas être combinés avec les autres catégories d’Edmunson, cela se mélange pas avec les indices, qui incluent déjà, mais donnent autre info

Question 22

Q

Quels sont les 3 plus grands aspects techniques de la méthode d’Edmundson?

Answer

A

Calcul de la distribution (vs juste fréquence)
Identification des titres
Dépendant d’un domaine (lui l’a fait pour un domaine, mais pas précisé lequel, doit s’adapter

Question 23

Q

Quelles sont les éléments de la méthodologie qu’ont repris Kupiec, Pedersen et Chen (1995) ?

Answer

A

Se serve aussi de corpus scientifiques

- Création d’un résumé par extraction pour chaque document par un résumeur humain

Question 24

Q

Quels sont les éléments que KPC ajoutent?

Answer

A

Calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de cinq critères (remodulent les critères)

Question 25

Q

Quels sont les critères utilisés par KPC pour identifier une phrase comme résumante?

Answer

A

1.Longueur de la phrase

On rejette les phrases < 5 mots sinon donne des cotes trop élevées (ex: 1 mot preponderant sur 4 = dj 0,25%)

Présence de locutions comme comme: Cette lettre…, En conclusion… ou de mots comme: résultat, résumé, discussion, etc.

(ingredient de l’analyse du discours)

3.Position des paragraphes (inspiré de edmunston)

Les phrases des 10 premiers et 5 derniers paragraphes ont un poids plus important (plutôt que donner poids à chaque phrase a fin et début => plus simplifié, épuré)

4.Présence de mots thématiques (absents d’un antidictionnaire + fréquence élevée) -> comme mots prépondérants de Luhn,
MAIS :Uniquement appliqué aux phrases ayant déjà un poids important

5.Présence de noms propres (?)

Question 26

Q

Qu’est-ce que le théorème de Bayes?

Answer

A

Le théorème de Bayes énonce des probabilités conditionnelles: étant donné deux évènements A et B, le théorème de Bayes permet de déterminer la probabilité de A sachant B, si l’on connaît les probabilités de A, de B, de B sachant A.

Question 27

Q

Quel est l’apport du théorème de Bayes dans la génération automatique de résumés?

Answer

A

Utilisation d’un rapport de probabilité pour calculer la prépondérance des phrases (moins subjectif, plus précis)

Question 28

Q

Comment KPC applique le théorème de Bayes?

Answer

A

Ils calculent la probabilité qu’une phrase fasse partie d’un résumé sachant la probabilité des indices C1, C2…C5 observés dans la phrase

Question 29

Q

Quelle est l’amélioration de KPC par rapport à Edmundson?

Answer

A

Le poids est attribué automatiquement aux critères plutôt que manuellement (calcul plus précis)

Question 30

Q

Que peut-on dire de l’évaluation de KPC?

Answer

A

Les seuls à apporter une évaluation :

Pour des résumés à 25%, 84% des phrases choisies par leur logiciel avaient été choisies par un résumeur humain (bon!)

Question 31

Q

Quels sont les 3 aspects techniques (avantages) de l’approche de KPC?

Answer

A

Plus facile à implémenter que l’approche de Edmundson

Reconnaissance automatique des noms propres

Le théorème de Bayes est applicable parce que les critères constituent des variables indépendantes

Question 32

Q

Quelle est la condition pour que le théorème de Bayes soit applicable?

Answer

A

Les critères doivent constituer des variables indépendantes (ex: probabilité d’être un garçon indépendante, pas rapport avec la probabilité d’être une fille)

Question 33

Q

Donne un exemple de variables dépendantes et qu’est-ce que c’est?

Answer

A

Des variables dépendantes s’influencent ensemble, elles sont des éléments interreliés.

Exemple : catégorisation grammaticale (la catégorie de chaque mot dépend de la catégorie des autres mots)

Ex : Pierre ferme la porte. (LA peut être un dét ou un nom. et PORTE un nom ou un verbe)

=> Dép. car si LA est un déterminant, PORTE est un nom

Question 34

Q

Que fait-on quand les variables sont dépendantes?

Answer

A

On utilise la chaîne de Markov