Séance 10 : Résumés automatiques Flashcards

1
Q

Qu’est-ce qu’un résumé indicatif?

A

Une liste de mots représentative du contenu d’un texte

=> possible de le faire en se créant un dictionnaire avec les fréquences

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Que sont les problèmes avec le résumé indicatif?

A
  1. Il manque les mots complexes (ex: uranium tetravalent, uranium de formule générale…)
  2. Le seul critère est la fréquence, il manque la distribution
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est-ce que la fréquence VS la distribution?

A

Le nombre de fois qu’un mot apparaît dans un texte

vs

Le nombre de textes dans lesquels apparaît un mot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce qu’un résumé par extraction?

A

Extraction de phrases ou de paragraphes les plus représentatives du texte

=> donne des résultats plus intéressants

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quel est le problème avec le résumé par extraction?

A

Manque de cohérence entre les phrases, parfois une qui référait à la précédente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelle est la première étape de toute étude?

A

L’observation et l’analyse des faits

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quelles étaient les 2 hypothèses de Luhn lorsqu’on rédige un texte scientifique?

A
  1. Terminologie discipline : quand on nomme un concept d’une manière, on va tj le nommer ainsi = on n’utilise pas de paraphrases ou des synonymes pour ces mots la ex: fission nucléaire

=> donc, la fréquence des mots est un critère utile qui reflète leur importance dans un texte (mais pas dans les œuvres littéraires (trop de synonymes, paraphrases).

2.Le choix du vocabulaire change selon les sujets abordés (des mots spécifiques sont associés à un domaine)

=> donc, un regroupement de mots fréquents qui réfèrent aux sujets abordés est une phrase résumante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce qu’une phrase résumante?

A

Un regroupement de mots fréquents dans une même phrase. Cela démontre qu’elle porte sur différents sujets du texte.

*Une phrase est résumante si elle regroupe plusieurs concepts fréquents de plusieurs sujets.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Comme la méthode de Luhn date, elle est mauvaise.

A

Faux, Luhn est un pionner, tous ceux qui ont suivi s’en sont inspiré.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelle est la méthode générale de Luhn pour son résumé par extraction?

A
  1. Découpe le texte en phrases
  2. Fait un index de mots absents de l’AD et les met dans un TA avec leur fréquence
  3. Calcule son ratio (Nbr mots dans le texte/Nbr mots différents dans le texte)
  4. Calcule la prépondérance des phrases (selon le nbr de mots avec une fréquence > ratio (vs nbr total phrase))
  5. Place les phrases (leur no.) avec leur prépondérance dans un tableau
  6. Extrait les clefs (no.) en ordre inverse des valeurs (de la plus grande à la moins grande prépondérance)
  7. Extrait les 10 premières phrases (à la plus haute prépondérance) et place dans un tableau résumé
  8. Classe en ordre textuel (de no.) les phrases du tableau résumé et affiche
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelles sont les avancées de Edmundson dans sa méthodologie?

A
  1. Il travaille à partir d’un corpus très délimité (100 articles scientifiques)
  2. Il compare son résumé par extraction pour chaque article avec un résumé par extraction fait par un résumeur humain

=> lui donne une base de comparaison pour s’évaluer
PROBL : influencé par la subjectivité

3.Calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de quatre critères (après une recherche exploratoire pour déterminer la meilleure combinaison de critères)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quels sont les 4 critères identifiés par Edmundson dans sa recherche exploratoire? Quels étaient utilisés par Luhn?

A
  1. Indices
  2. Mots prépondérants (Luhn)
  3. Mots des titres
  4. Position des phrases

(4 choses supplémentaires qu’il prend en considération pour que son résumé soit encore plus précis)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelle est la différence entre recherche exploratoire et expérimentale ?

A

Expérimentale : possède un cadre théorie, part de la pratique de qq autre, suit sa méthodologie, change un élément et regarde la différence

Exploratoire : plus libre, fait propres recherches

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Sur quoi se base Edmundson pour établir ces indices?

A

Il se base sur 1) la distribution 2) le ratio (fréquence dans résumé par humain/fréquence dans le corpus)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quels sont les catégories de mots qu’Edmunson obtient à l’aide des indices? Quel cote il leur attribue?

A
  1. MOTS POSITIFS (ratio élevé)

ex:
Comparatifs
Superlatifs
Adverbes de conclusion
Termes spécialisés
Pronoms relatifs interrogatifs (qui, quoi, où, etc.)
Conjonctions causales (parce que, car, puisque, etc.). + ou - pertinents

=> attribue une cote > 0 (positive)

2.MOTS NÉGATIFS (ratio faible)

ex:
expressions anaphoriques
expressions péjoratives

=> attribue une cote < 0 (négative)

3.MOTS NEUTRES (distribution élevée, ratio moyen)

ex: 
Auxiliaires
Pronoms
Adjectifs
Prépositions
(Grosso modo l’antidictionnaire)

=> se font attribue une cote 0 (aucun impact)

4.RÉSIDU (distribution faible, ratio faible)

ex:
Archaïsmes
Mots techniques
Qualificatifs

=> attribue une cote 0 aussi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Comment Edmundson traite les mots prépondérants ? Vs Luhn?

A

Il utilise son dictionnaire d’indices comme antidictionnaire, donc plus complet, il se base sur des critères vs Luhn juste la fréquence

17
Q

Comment Edmundson traite les mots des titres?

A

Il enlève d’abord ceux dans l’AD, puis chaque mot dans un titre se fait accorder un poids (généralement les titres sont assez résumants). Les mots du titre principal se font donner un poids légèrement supérieur.

18
Q

Comment Edmundson traite la position des phrases?

A

Il amplifie le poids déjà accordé aux phrases en :

  • début et fin de texte
  • début et fin de section
  • début et fin de paragraphe
19
Q

Comment Edmundson calcule la prépondérance des phrases?

A

Comme Luhn, mais ajoute les mots positifs et négatifs, les titres et la position des phrases :

On fait la somme des poids:

  • La présence d’un indice positif fait augmenter son poids de 1 (si 3 mots positifs : +3)
  • La présence d’un indice négatif fait diminuer son poids (si 2 mots négatifs : -2)
  • La présence de mots prépondérants fait augmenter son poids
  • La présence de mots qu’on retrouve dans les titres fait augmenter son poids (voir autre question)
  • Le poids est augmenté en fonction de sa position (voir autre question)
20
Q

Après avoir testé toutes les combinaisons de critères, quelle est la conclusion d’Edmundson?

A

Il obtient les meilleurs résultats (plus proche des résumés humains) avec la combinaison :

Indices + Mots des titres + Position

*L’utilisation des mots prépondérants nuisait, car les mots absents de l’AD avec ratio élevé étaient aussi des mots positifs souvent, donc on dédouble accidentellement le poids donné à chaque phrase

21
Q

Est-ce que la conclusion d’Edmunson signifie que les mots prépondérants sont inutiles?

A

Non, juste qu’ils ne peuvent pas être combinés avec les autres catégories d’Edmunson, cela se mélange pas avec les indices, qui incluent déjà, mais donnent autre info

22
Q

Quels sont les 3 plus grands aspects techniques de la méthode d’Edmundson?

A
  • Calcul de la distribution (vs juste fréquence)
  • Identification des titres
  • Dépendant d’un domaine (lui l’a fait pour un domaine, mais pas précisé lequel, doit s’adapter
23
Q

Quelles sont les éléments de la méthodologie qu’ont repris Kupiec, Pedersen et Chen (1995) ?

A
  • Se serve aussi de corpus scientifiques

- Création d’un résumé par extraction pour chaque document par un résumeur humain

24
Q

Quels sont les éléments que KPC ajoutent?

A

Calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de cinq critères (remodulent les critères)

25
Q

Quels sont les critères utilisés par KPC pour identifier une phrase comme résumante?

A

1.Longueur de la phrase

On rejette les phrases < 5 mots sinon donne des cotes trop élevées (ex: 1 mot preponderant sur 4 = dj 0,25%)

  1. Présence de locutions comme comme: Cette lettre…, En conclusion… ou de mots comme: résultat, résumé, discussion, etc.

(ingredient de l’analyse du discours)

3.Position des paragraphes (inspiré de edmunston)

Les phrases des 10 premiers et 5 derniers paragraphes ont un poids plus important (plutôt que donner poids à chaque phrase a fin et début => plus simplifié, épuré)

4.Présence de mots thématiques (absents d’un antidictionnaire + fréquence élevée) -> comme mots prépondérants de Luhn,
MAIS :Uniquement appliqué aux phrases ayant déjà un poids important

5.Présence de noms propres (?)

26
Q

Qu’est-ce que le théorème de Bayes?

A

Le théorème de Bayes énonce des probabilités conditionnelles: étant donné deux évènements A et B, le théorème de Bayes permet de déterminer la probabilité de A sachant B, si l’on connaît les probabilités de A, de B, de B sachant A.

27
Q

Quel est l’apport du théorème de Bayes dans la génération automatique de résumés?

A

Utilisation d’un rapport de probabilité pour calculer la prépondérance des phrases (moins subjectif, plus précis)

28
Q

Comment KPC applique le théorème de Bayes?

A

Ils calculent la probabilité qu’une phrase fasse partie d’un résumé sachant la probabilité des indices C1, C2…C5 observés dans la phrase

29
Q

Quelle est l’amélioration de KPC par rapport à Edmundson?

A

Le poids est attribué automatiquement aux critères plutôt que manuellement (calcul plus précis)

30
Q

Que peut-on dire de l’évaluation de KPC?

A

Les seuls à apporter une évaluation :

Pour des résumés à 25%, 84% des phrases choisies par leur logiciel avaient été choisies par un résumeur humain (bon!)

31
Q

Quels sont les 3 aspects techniques (avantages) de l’approche de KPC?

A

Plus facile à implémenter que l’approche de Edmundson

Reconnaissance automatique des noms propres

Le théorème de Bayes est applicable parce que les critères constituent des variables indépendantes

32
Q

Quelle est la condition pour que le théorème de Bayes soit applicable?

A

Les critères doivent constituer des variables indépendantes (ex: probabilité d’être un garçon indépendante, pas rapport avec la probabilité d’être une fille)

33
Q

Donne un exemple de variables dépendantes et qu’est-ce que c’est?

A

Des variables dépendantes s’influencent ensemble, elles sont des éléments interreliés.

Exemple : catégorisation grammaticale (la catégorie de chaque mot dépend de la catégorie des autres mots)

Ex : Pierre ferme la porte. (LA peut être un dét ou un nom. et PORTE un nom ou un verbe)

=> Dép. car si LA est un déterminant, PORTE est un nom

34
Q

Que fait-on quand les variables sont dépendantes?

A

On utilise la chaîne de Markov