Examen final Flashcards

1
Q

Trois types de résumés automatique…

A

indicatif, par extraction et résumé au sens propre du terme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

indicatif?

A

liste de mots qu’on va produire à partir du texte, donne pas le contenu, mais donne une idée de ce que traite le texte, repérer des mots

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

par extraction?

A

repérer les phrases qui résume le plus le texte, phrases résumantes, identifier ces phrases et les assembler, surtout là-dedans qu’on travaille

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

résumé au sens propre du terme?

A

un résumé comme un être humain le ferait, faut très bien connaître le domaine du texte, le comprendre et le reformuler, recherche fondamentale (lit, discute, échange, colloque, etc.) nous on se situe dans la recherche appliquée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qui commence en 1959 la génération de résumés par extraction

A

H.P. Luhn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hypothèse de Luhn…

A

lorsqu’on rédige un texte scientifique, terminologie disciplinée (un nom qu’on utilise toujours, on utilise pas de synonymes et de paraphrases, ainsi la fréquence des mots peut être indicatif du sujet contrairement au texte littéraire) la fréquence des mots est un critère qui reflète leur importance dans un texte.

le choix du vocabulaire change selon les sujets abordés : un regroupement de mots fréquents dans une même phrase reflète son caractère «résumant» parce qu’elle porte sur différents sujets du texte (exemple si on traite de l’uranium d’un point de vue militaire on n’aura pas le même vocabulaire que d’un point de vue du minerais

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Méthode Luhn:

A
  1. identification des mots prépondérants (absents de l’antidictionnaire, fréquence supérieur à un ratio, nombre de mots total sur nombre de mots différents absents de l’antidictionnaire)
  2. calcul de la prépondérance des phrases (nombre de mots prépondérants au carré divisé par le nombre de mots dans la phrase)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Approche de Edmundson en quelle année?

A

69

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

méthodologie générale Edmundson…

A

corpus de 100 articles scientifiques, création d’un résumé par extraction pour chaque article par un résumeur humain, calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de quatre critères, recherche exploratoire afin de déterminer la meilleure combinaison de critères

plus son logiciel va se rapprocher des résumés faits par les humains plus le résultat va être bon (selon lui, en réalité très subjectif)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

critères identifiés par Edmundson

A

premier critère = indices tous les mots du corpus va calculer la fréquence d’un mot dans l’ensemble des textes divisés par le nombre de textes dans lesquels il apparaît
fréquence d’un mot dans l’ensemble des textes divisé par le nombre de textes dans lesquels il apparaît

mots positifs - ratio élevé (fréquence élevé, peu de distribution 100 fois mais dans juste 2 textes)
mot négatifs - ratio faible (fréquence pauvre mais grande distribution 10 fois dans 10 texte)
mots neutres - distribution élevée-ration moyen
résidu - distribution faible- ratio faible

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

mots positifs

ed

A
> 0 (cote de 1)
comparatifs
superlatifs
adverbes de conclusion
termes spécialisés 
pronoms relatifs interrogatifs (qui, quoi?)
conjonctions causales (pcq, car)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

mots négatifs

ed

A

< 0 (cote de -1)
expressions anaphoriques
expressions péjoratives

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

mots neutres

ed

A
cote de 0
auxiliaires
pronoms
adjectifs
prépositions
grosso modo l'antidictionnaire
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

résidu

ed

A

cote de 0
archaïsmes
mots techniques
qualificatifs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Deuxième critère (mots prépondérant)

ed

A

en guise d’antidictionnaire, il utilise la liste des mots neutres crée en 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

mots des titres absents de l’antidictionnaire (troisième critère)
ed

A

chaque mot se fait attribuer un poids. Les mots du titre principal se font donner un poids légèrement supérieur.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

quatrième critère (position des phrases)

ed

A

début et fin de texte
début et fin de section
début et fin de paragraphe

on amplifie le poids déjà accordé à ces phrases
Pour deux phrases de même poids l’une au début d’une section et l’Autre au centre d’une section, celle qui est en début de section se fera donner priorité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

calcul de la prépondérance

ed

A

pour chaque phrase d’un texte
on fait la somme des poids
la présence d’un mot positif fait augmenter de 1
présence d’un mot négatif fait diminuer de 1
présence d’un mot prépondérant fait augmenter de 1
présence de mots qu’on retrouve dans les titres fait augmenter de 1
le poids est augmenté en fonction de sa position

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Recherche exploratoire

Edmundson a obtenu les meilleurs résultats en utilisant….

A

indices + mots des titres + position
l’utilisation des mots prépondérants nuisait

cela ne veut pas dire que les mots prépondérants ne sont pas utiles. Cela signifie qu’ils ne peuvent pas être combinés avec les autres catégories d’Edmundson

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

aspects techniques (Edmundson)…

A

calcul de la distribution
identification des titres
dépendant d’un domaine

21
Q

approche de Kupiec, Pedersen et Chen

A

Méthodologie générale

  • corpus de documents scientifiques
  • création d’un résumé par extraction pour chaque document par un résumeur humain
  • calcul de la probabilité qu’une phrase d’un article se retrouve dans le résumé en fonction de cinq critères
22
Q

Cinq critère de KPC

A
  1. longueur de la phrase (on rejette les phrases de moins de 5 mots)
  2. présence de locutions comme : cette lettre, en conclusion, ou des mots comme : résultat, résumé discussion, etc.
  3. position des paragraphes (les phrases des 10 premiers et 5 derniers paragraphes ont un poids plus important)
  4. présence de mots thématiques (absents d’un antidictionnaire + fréquence élevé) Uniquement appliqué aux phrases ayant déjà un poids important
  5. présence de noms propres
23
Q

prépondérance des phrases… KPC

A

utilisation du théorème de Bayes (probalités conditionnelles)

24
Q

KPC, amélioration comparé à Edmunson…

A

le poids est attribué automatiquement aux critères plutôt que manuellement, le calcul est plus précis

25
Q

évaluation de KPC…

A

pour des résumés à 25%, 84% des phrases choisies par leur logiciel avaient été choisies par un résumeur humain

26
Q

aspects techniques KPC

A

plus facile à implémenter que l’approche de Edmundson
reconnaissance automatique des noms propres
le théorème de Bayes est applicable parce que les critères constituent des variables indépendantes

27
Q

Présentation de Prolog

A

compile buffer, ne pas oublier les points à la fin
varaible = majuscule pour interroger, jamais nous on va placer une information dans une variation, Prolog va le faire lui-même

28
Q

prolog = programmation en logique

A

langage de programmation déclaratif
il fait appel aux mécanismes d’inférence de la logique des prédicats
permet de représenter des relations et de faire des inférences
contrairement à la logique procédurale (on n’a pas à chercher de valeurs pour les variables, on n’a pas à formuler de comparaison, on n’a pas à manuellement choisir quoi afficher

29
Q

quand utilise-t-on prolog?

A

pour des problèmes exprimés sous forme d’objets et de relations
par exemple : création d’un arbre généalogique, représentation de relations sémantiques (hyperonyme, hyponyme, synonyme)

30
Q

représentation des connaissances (prolog)

A

lorsqu’on dit Jean possède un livre
on identifie deux objets livre et jean
on exprime une relation d’appartenance
on fait appel aux connaissances du lecteur ou de l’interlocuteur sur la nature des objets et sur les propriétés de la relation (elle est unidirectionnelle et ce qu’elle représente) = prolog fait la même chose c’est là sa grande forme

31
Q

la relation (prolog)

A

n’exige pas obligatoirement que tous les objets soient nommés explicitement
l’interlocuteur comprend les informations implicites en fonction de ses connaissances et du contexte (c’est l’esprit de Prolog)

32
Q

l’interprétation (prolog)

A

prolog vérifie si
si la relation de possession existe
et porte sur les objets : jean et livre

33
Q

programmation en prolog

A

comporte 3 niveaux
décrire des connaissances de base (en prolog : identifier des faits)
définir de nouvelles connaissances à partir des connaissances de base (en prolog : définir des règles, exemple gp, agp)
exploiter les connaissances (en prolog : consulter les connaissances) = interroger l’interface

34
Q

les variables…

A

sont locales et se propagent.
quand on veut améliorer un programme en prolog devient plus courts contrairement à Python
les variables d’une même règle sont les mêmes mais sont différents d’une règle à l’autre

35
Q

caractéristiques de prolog

A

non déterministe (il peut exploiter plusieurs possibilités sans y voir de contradiction)
représentation de structures récursives
capable de revenir sur ses décisions (on dit de faire des remontées du backtracking)

36
Q

prolog historique

A

Marseille, 1972 par le groupe d’Intelligence Artificielle de Luminy (Alain Colmerauer)
est devenu populaire au début des années 80, avec les projets internationaux de développement de l’intelligence artificielle

37
Q

versions de prolog…

A

deux grandes familles le standard de Marseille et celui d’Edimbourg (on utilise ce dernier)

38
Q

Grammaire à clauses définies…

A

formalisme :
qui permet de créer une grammaire sans avoir à manipuler les variables de base
ne requiert pas le prédicat append\3
qui permet d’utiliser la flèche à la place de :-
prolog convertit ensuite la forme 2 vers la forme 1 «ou à peu près…»

39
Q

Utilisation de la GCD

A

en mode reconnaissance p([le,chat,mange,la,souris],[]).

en mode génération p(x,[]).

40
Q

un prédicat s’identifie par…

A

son nom et son nombre d’arguments (arité), la somme des faits, même nom et même nombre d’arguments
s’écrit comme cela personne\1, doit toujours mentionner le nombre d’argument

41
Q

foncteur

A

est le mot avant la parenthèse d’un fait, personne(marie), personne est le foncteur
à gauche du :-

42
Q

argument

A

(atome,chaîne,nombre,structure) dans la parenthèse d’un fait

personne(marie) = marie est l’argument

43
Q

règle

A

:- (présence d’un si), avec des conditions à droite du :-

44
Q

fait

A

tout ce qui n’est pas une règle, le dictionnaire

45
Q

programmation (prolog)

A

l’ordre des éléments, arbitraire : on choisit l’ordre qu’on veut
la signification d’un terme (arbitraire) patient(jean) patience, malade
mais doit toujours être la même

46
Q

variables

A

commencent par une majuscule
portée
UNIQUEMENT à l’intérieur d’un fait ou d’une règle
Variable anonyme

une variable peut contenir : un atome, ex:père(X,marie)., un nombre, ex: nbrEnfants(michel,X)., une structure possede(jean,livre(patricia_cornwell,combustion)), possede(jean,X).

47
Q

la virgule

A

équivaut à et, rend les deux conditions obligatoires

48
Q

le point-virgule

A

représente ou signifie qu’au moins un des deux conditions doit être vraie, évite au maximum de l’utiliser

49
Q

Les critères de Edmunson

A

1=indices=tous les mots du corpus va calculer la fréquence d’un mot
2=mots prépondérants
3= mots des titres absents de l’antidictionnaire
4=position des phrases