Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2004/3 (Vol. 41)

  • Pages : 60
  • DOI : 10.3917/docsi.413.0200
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 200 - 202 Article suivant
1

LA MASSE D’INFORMATION TEXTUELLE existant sous forme électronique ne cesse d’augmenter régulièrement, que ce soit sous forme de documents accessibles sur Internet, dans les bases de données des entreprises et des institutions, ou sous forme de courriels. L’usager, qui n’a plus ni le temps ni les ressources cognitives pour faire face à un tel volume d’informations, se trouve dans une situation de saturation. Il lui faut donc pouvoir prendre connaissance du contenu des textes par des moyens rapides et efficaces. C’est la fonction des index, des tables des matières et des résumés qui constituent des moyens efficaces et éprouvés pour représenter ce contenu et y accéder rapidement.

2

Depuis peu, de nouveaux moyens sont apparus, tels que les outils de cartographie qui permettent de visualiser un document ou un ensemble de documents sous forme de graphe, les logiciels d’analyse de textes qui, sous des formes variées, mettent en évidence les éléments informationnels jugés importants dans un texte, et les systèmes de résumé automatique qui condensent un texte ou plusieurs textes sources en un texte cible.

3

Le résumé automatique est un sujet qui a encore été très peu traité en France [voir les éléments de bibliographie page suivante] et jamais du point de vue de l’industrie de l’information. Il intéresse pourtant toute la chaîne de l’information, des producteurs aux utilisateurs : c’est un moyen de parcourir rapidement de grands volumes d’information, et donc de faire des économies de temps.

4

Résumer, selon la définition standard, c’est prendre un texte source pour générer un texte cible : une synthèse, une condensation. Automatiser le résumé devrait permettre d’analyser un corpus à l’aide d’une machine, d’en comprendre le sens et ensuite de générer un texte co-référencé linguistiquement correct. Si nous considérons l’offre commerciale actuelle, il apparaît que nous sommes encore loin de telles réalisations.

Qu’est-ce que le résumé automatique ?

5

Il existe deux approches en matière de résumé automatique : l’approche par compréhension et l’approche par extraction.

6

La première repose sur des modèles fondés sur des concepts de psychologie cognitive et sur le paradigme de l’intelligence artificielle. À partir d’un texte source, elle permet de générer un nouveau texte, avec de nouvelles phrases et de nouvelles constructions syntaxiques. Pour obtenir un résumé pertinent, il faut coder un grand nombre de connaissances qui ne figurent pas toujours explicitement dans le texte originel.

7

L’approche par extraction, utilisée dans des produits commerciaux et dans certains laboratoires, est inspirée du postulat : « Pour résumer, il suffit d’extraire ». Elle repose sur des algorithmes de repérage d’unités textuelles pertinentes. Le résumé respecte la linéarité et la structure du texte source. On distingue pour cette approche les quatre grands algorithmes suivants, qui se heurtent chacun à des limites et des difficultés d’application.

Le séminaire

Organisé par le Groupement français de l’industrie de l’information (GFII), en partenariat scientifique avec l’Université Paris-X Nanterre, ce séminaire intitulé « Le résumé automatique : état de l’art technique, premiers retours d’expériences et éclairages juridiques » réunissait les interventions suivantes.

Aspects techniques

Introduction, par Ruth Martinez, GFII, et Stéphane Chaudiron, Université Paris-X

Les différentes approches du résumé automatique, par Jean-Luc Minel, Laboratoire LALICC, CNRS-Université Paris-IV

Vers l’analyse et la compréhension automatique de textes, par Thierry Poibeau, Laboratoire d’informatique de Paris-Nord (LIPN), Université Paris-XIII

Résumés ou citations : jusqu’où peut-on aller avec des outils automatiques sans ressources linguistiques particulières. L’apport de la technologie GMIL de calcul de signatures de documents, par Eric Fourboul, société Go Albert

Lingway KM et aide à la lecture : synthèse de l’information adaptée à la typologie des documents, par José Coch, société Lingway

Pertinence Summarizer : un outil de résumé automatique au service de la veille, en multilingue, par Abderrafih Lehmam, société Pertinence

Usages et aspects juridiques

Retour d’expérience des usagers, par Alain Minodier, « Art on Demand »

Retour d’expérience, par Pierre Buffet, Questel.Orbit

Le statut juridique du résumé automatique et de ses composantes, par maître Jean Martin, avocat à la Cour, chargé d’enseignement à l’Université Paris-Dauphine

8

Le calcul de score, technique très utilisée dans les systèmes industriels, est fondé sur la recherche de la fréquence des mots dans le texte, pondérée ensuite par différentes techniques. Cela permet d’affecter un score à un mot, puis à une phrase. C’est une technique rapide à mettre en œuvre, facile et indépendante des langues traitées.

9

Le calcul de similarité consiste à rechercher, dans un texte, des parties qui contiennent les mêmes mots. Si des paragraphes sont « similaires », on considérera que ce sont eux qu’il faut extraire pour construire le résumé.

10

Le calcul de score « cue phrase » repose sur l’idée de travailler non sur ce qui est dit mais sur la manière dont cela est dit. On recherche donc des expressions prototypiques, pondérées ensuite en fonction de leur localisation dans le texte. Chaque phrase du texte à résumer se voit attribuer un score en fonction de la présence ou non d’une ou plusieurs « cue phrases ». Le résumé est alors la pondération de ces différents schémas d’expression.

11

L’étiquetage, enfin, consiste à repérer des schémas d’expressions et des marques discursives qui vont introduire des informations jugées saillantes : des marques qui introduisent une conclusion, une citation, une définition, etc. Lorsque ces marques sont repérées, on attribue à l’unité textuelle une étiquette qui la qualifie.

Un résumé automatique peut-il « comprendre un texte » ?

12

On peut définir la compréhension comme la tâche qui consiste à identifier de l’information structurée à partir d’un document textuel. On compte trois niveaux de compréhension : la recherche, l’extraction d’information, et la compréhension du texte qui permet de représenter de façon explicite toute l’information d’un document. Les ambitions dans ce domaine ont un peu baissé : on ne peut pas représenter toute la connaissance. Par conséquent, depuis dix ans, les laboratoires de recherche n’ont plus la volonté de tout automatiser : on se focalise sur l’extraction d’information et la sélection d’éléments pertinents, et on laisse ensuite la main à des experts du domaine pour en faire une synthèse.

13

L’analyse du contenu des textes permet de retrouver automatiquement des expressions typiques d’un domaine. On distingue les documents du domaine technique qui utilisent un vocabulaire spécifique, ce qui implique une analyse de la terminologie, de ceux du domaine non technique qui utilisent un vocabulaire commun, ce qui rend difficile le repérage d’« entités nommées » utiles à la détermination du domaine dont relève le document.

14

L’objectif de l’analyse terminologique est d’obtenir une meilleure indexation. On recherche des synonymes par extension de requêtes, ce qui permet d’améliorer le rappel de documents mais peut faire baisser la précision. Des réseaux sémantiques permettent d’aider à la structuration de la terminologie.

15

Le repérage des entités nommées est une autre étape de l’analyse de contenu. Ces entités sont des mots ou expressions se référant à un objet précis, discriminant, comme des noms de personnes ou de produits ou des dates. Le plus délicat est évidemment le repérage d’entités non discriminantes. Les entités repérées doivent ensuite être mises en relation.

16

L’analyse linguistique permet une recherche plus précise et pertinente et met au jour de nouvelles connaissances (nouveaux termes, nouvelles relations entre les entités). Sa mise en œuvre est cependant délicate pour des raisons de coût, d’efficacité et d’utilisabilité. Les principes de mise en œuvre reposent sur des approches hybrides qui vont utiliser à la fois les bases existantes mais aussi intégrer dynamiquement de nouvelles connaissances. Un expert intervient sur les différentes étapes pour valider l’extraction.

17

Des campagnes d’évaluation sont lancées pour analyser ces systèmes de compréhension (exemple :<www. technolangue. net). Après avoir fixé un domaine, on passe à l’étape d’entraînement et d’adaptation des systèmes, puis on compare les résultats fournis par le système avec ceux fournis par un expert, et enfin on échange entre les concepteurs de systèmes. Les évaluateurs travaillent ensuite sur les scores de rappel, de précision et de mesure. Il faut toujours un documentaliste pour valider ou vérifier les informations.

Quelles sont actuellement les tendances de l’offre ?

18

Trois industriels qui proposent des systèmes de résumé automatique ou intègrent un module de résumé dans leur offre technologique ont présenté leurs produits.

19

La technologie GMIL de la société Go Albert se définit comme un « Générateur de Marqueur Indépendant de la Langue ». Elle permet l’extraction de syntagmes nominaux, ordonnés selon leur représentativité. C’est une solution hybride qui utilise des statistiques et de la linguistique embarquée. L’automatisation des algorithmes autorise une indépendance par rapport aux langues et une rapidité de traitement. Cette solution prend en compte la notion d’information et de granularité de l’information. Les utilisations principales sont la lecture rapide, l’accès direct à l’information et la valorisation des outils de recherche.

20

Lingway KM propose une aide à la lecture en synthétisant l’information adaptée à la typologie des documents. Ce n’est pas un logiciel de résumé automatique. Il permet d’adapter une typologie de documents aux besoins des utilisateurs. La recherche est multilingue au niveau sémantique.

21

Pertinence Summarizer est un outil de traitement automatique du langage qui lit et condense des textes dans différentes langues. La technologie d’intelligence artificielle intégrée dans le logiciel s’appuie exclusivement sur des méthodes linguistiques.

Quelle est la qualité des résumés produits aux yeux des utilisateurs ?

22

Les utilisateurs du site Art On Demand peuvent, en une seule application, trouver des contenus pertinents avec le minimum de bruit et de silence, prendre rapidement connaissance du contenu, extraire les contenus pertinents. Les utilisateurs sont plutôt satisfaits même s’ils trouvent que le corpus n’est pas assez important.

23

Questel.Orbit cherche à faciliter la lecture par une combinaison d’approches : Anacubis, logiciel de navigation et d’analyse ; Patent Examiner, outil de gestion et de lecture de documents de brevets ; PatReader, outil Questel s’appuyant sur la technologie Lingway pour faciliter la lecture des brevets. Les utilisateurs ont montré de l’intérêt pour cette nouvelle approche (s’il ne s’agit pas d’un outil de résumé automatique stricto sensu, il remplit les mêmes fonctions), mais s’interrogent sur la confiance à apporter à cet outil et sur son fonctionnement. Ils souhaitent pouvoir l’adapter à leurs besoins propres.

Y a-t-il un cadre réglementaire spécifique au type de résumé produit ?

24

Maître Martin distingue les résumés licites, les résumés illicites, et les résumés illicites licités dès lors qu’ils entrent dans le cadre d’une exception. Outre la contrefaçon, il faut toujours penser au parasitisme et à la concurrence déloyale. Le droit de propriété intellectuelle protège la forme d’expression des idées, pas les idées. La structure de l’information est protégée et non l’information elle-même. La source du résumé est une œuvre protégée.

25

• Est-ce qu’un résumé automatique est libre ou tributaire de droits de propriété intellectuelle ?

26

Le résumé est asservi au droit de la source. S’il suit la structure du document source, donc sa forme, on considère que l’on emprunte la forme de la source et donc ce résumé est tributaire du droit de la source. L’utilisation de la synonymie est un artifice. L’extraction est un emprunt plus ou moins massif de la forme. Le résumé peut être libre si l’on s’affranchit de la forme de la source. Le risque est alors de trahir la pensée de l’auteur (atteinte du droit moral de celui-ci). Il faut trouver un juste milieu.

27

• Si le résumé est tributaire de la forme, ne peut-on bénéficier des exceptions au droit d’auteur ?

28

Copie privée : elle est autorisée pour un usage personnel et non collectif ou dans un cercle familial restreint.

29

Citation : quand on parle de résumé, on pense aux citations puisque l’on compare le résumé à l’extraction. Pour entrer dans le cadre de cette exception, il faut remplir certaines conditions (article L122-5 du Code de la propriété intellectuelle) : les citations doivent être brèves et une valeur ajoutée intellectuelle doit être apportée. Dans l’état actuel du résumé automatique, on ne peut invoquer le droit de citation car il y a un rapport de proportionnalité à respecter et l’absence d’œuvre citante puisque le résumé n’est composé que d’extraits.

30

Substitution : si l’on achète un article, on a le droit de savoir ce qu’il y a dedans (comme pour tout bien acheté). Le résumé aurait dans ce cas une fonction d’étiquetage. Mais le résumé ne doit pas se substituer à la source.

31

• Le résumé automatique est-il protégé par le droit d’auteur ?

32

S’il n’y a pas d’originalité dans la forme, il n’est pas protégé. S’il a une forme particulière, une originalité, il bénéficie de la protection du droit d’auteur. Si l’intervention du dispositif électronique, l’intelligence de traitement, les algorithmes influent sur la forme du résumé, il y a plusieurs titulaires du droit et ce sont notamment les informaticiens. Le résumé constitue alors une œuvre informationnelle.

Notes

[*]

Une synthèse détaillée des interventions présentées lors de cette journée est disponibe auprès du GFII, sous forme électronique, au prix de 15 euros HT : gfii@ gfii. asso. fr

Résumé

Français

Le 13 mai dernier, le GFII et l’Université Paris-X invitaient à un séminaire consacré au résumé automatique. Les quelques systèmes que l’on trouve actuellement sur le marché conduisent à se poser de multiples questions. D’ordre technique : quels résumés ces logiciels peuvent-ils générer ? Dans quelle mesure un logiciel peut-il « comprendre » un texte ? Quelles sont les technologies utilisées ? Quelle est la qualité des résumés produits ? Et des questions de nature juridique : les résumés ainsi générés ne contreviennent-ils pas au cadre réglementaire ? Y a-t-il vraiment un cadre réglementaire spécifique à ce type de résumé ?

Plan de l'article

  1. Qu’est-ce que le résumé automatique ?
  2. Un résumé automatique peut-il « comprendre un texte » ?
  3. Quelles sont actuellement les tendances de l’offre ?
  4. Quelle est la qualité des résumés produits aux yeux des utilisateurs ?
  5. Y a-t-il un cadre réglementaire spécifique au type de résumé produit ?

Pour citer cet article

Lesourd Nathalie, « Séminaire GFII. Le résumé automatique : état de l'art, retours d'expériences, éclairages juridiques», Documentaliste-Sciences de l'Information 3/2004 (Vol. 41) , p. 200-202
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2004-3-page-200.htm.
DOI : 10.3917/docsi.413.0200.


Article précédent Pages 200 - 202 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback