Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2002/6 (Vol. 39)

  • Pages : 60
  • DOI : 10.3917/docsi.396.0328
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 328 - 329 Article suivant
1

CETTE JOURNEE A DEBUTE par un exposé de Sylvie Dalbin dont l’objectif était de fournir aux participants un large panorama des problématiques et technologies de l’indexation automatique et de l’interrogation en langage naturel.

La problématique de la recherche en langage naturel

2

L’usage des techniques de recherche en langage naturel s’est amplifié ces dernières années par le développement des portails : les utilisateurs souhaitent désormais disposer d’écrans de recherche simples et conviviaux, quels que soient les modes de gestion des bases de données qui se trouvent en amont.

3

Le principe fondamental d’un tel système comprend quatre phases :

  • une indexation des informations contenues dans les documents ;

  • et/ou (cette distinction est importante dans le choix d’un logiciel) une indexation des informations contenues dans les requêtes ;

  • un appariement de ces deux index ;

  • une restitution du résultat de la recherche en lots triés et/ou classifiés.

La richesse de l’indexation en langage naturel réside dans le fait de ne pas seulement indexer les mots du texte, mais d’ajouter à cette opération :

  • un enrichissement linguistique : afin de pallier les problèmes d’ambiguïté liés à la langue (synonymie, polysémie, termes complexes et expressions idiomatiques, etc.), le logiciel doit d’une part conserver la structure de la phrase tout en extrayant les termes pour les ramener à leur lemme (terme linguistique désignant la racine du mot), et d’autre part effectuer des traitements syntaxiques et sémantiques afin d’en comprendre le contexte ;

  • des traitements statistiques selon la notion de tri par pertinence : calcul de la pondération du terme en valeur absolue (fréquence, occurrence d’un mot par rapport au texte ou à la base, typographie, etc.) ou en terme de valeur relative par rapport à la requête (proximité et ordre des termes…).

Pour effectuer ces traitements, les logiciels disposent de référentiels, dictionnaires, grammaires, règles, qui expliquent en grande partie la performance, mais aussi le coût de telles solutions (70 000 à 140 000 €).

L’expérience des AGF

4

Bruno Salléras a exposé son expérience de quatre années de mise à disposition de la base de données documentaire des AGF aux vingt mille salariés de l’entreprise.

5

Dès 1990, ces derniers pouvaient interroger le fonds documentaire par des mots clés et des opérateurs booléens. Les AGF étant l’une des premières compagnies d’assurance à mettre en ligne un site Internet en 1997, le Centre documentaire a naturellement accompagné cette évolution. Le cahier des charges établi fin 1997 a permis de proposer dès 1998 un accès en texte intégral aux articles du fonds documentaire : le site des « ressources documentaires » est alors réalisé par les documentalistes et informaticiens et la recherche d’informations se fait au moyen du logiciel Spirit (société TGID).

Pour en savoir plus

Cette journée d’étude organisée par l’ADBS Normandie en partenariat avec le Groupe d’information et de documentation économique de Haute-Normandie (GIDE) et l’Association internationale Villes et Ports (AIVP) s’est déroulée le 5 décembre dernier à la Cité de l’agriculture de Rouen.

Le texte de l’intervention de Sylvie Dalbin, consultant chez ATD, groupe Desybel, est accessible en ligne sur le site <www. adbs. org/ normandie>.

Au sujet de l’expérience des Assurances générales de France (AGF), voir aussi : La nouvelle conception de l’intranet documentaire des AGF, entretien de Sylvie Dalbin avec Bruno Salléras, Documentaliste - Sciences de l’information, 2000, vol. 37, n° 3-4, p. 200-204. Et : Une expérience d’utilisation d’un système d’information documentaire en langage naturel, par Sylvie Dalbin et Bruno Salléras, Documentaliste - Sciences de l’information, 2000, vol. 37, n° 5-6, p. 312-324

Au sujet de l’expérience des l’Institut national de la propriété industrielle (INPI, <www. inpi. fr>), voir aussi : Accès aux brevets en langage naturel : le système CIB-LN de l’INPI, par Sabine Darrigade, Michèle Lyon-Bougeat, Bernard Marx et al., Documentaliste - Sciences de l’information, 2001, vol. 38, n° 2, p. 100-110.

6

À cette première version de l’intranet documentaire ont succédé trois autres versions, à la suite de conseils avisés d’une ergonome et de l’évaluation régulière du site par les documentalistes qui ont régulièrement amélioré l’écran de recherche.

7

Aujourd’hui, environ quatre mille questions sont posées mensuellement par plus de mille usagers différents sur un écran très convivial qui leur permet d’interroger en langage naturel (« politique des 35 heures », « comment renégocier son crédit ») une base de 35.000 documents (articles, études, etc.).

8

Tous les matins, les documentalistes sélectionnent les documents à intégrer dans la base, puis les téléchargent et/ou les « océrisent » avec Omnipage (pour que Spirit puisse les indexer). Les tableaux ou graphiques sont également liés sous forme d’images en format pdf (Acrobat).

9

Spirit offre également la possibilité de fonctionner avec un dictionnaire de reformulation, outil permettant d’intégrer les termes spécifiques du métier des assurances (plate-forme téléphonique, assurance vie, etc.) pour une interrogation plus fine.

L’expérience de Ouest France

10

Françoise Dassié a présenté l’historique et le fonctionnement de l’interrogation de la base de données du quotidien Ouest France (deux millions d’articles en ligne).

11

Dans les années soixante-dix, les articles du journal étaient quotidiennement microfilmés puis, en 1980, le journal a travaillé avec la société Cora sur un système informatique de traitement linguistique. Après un travail collaboratif avec l’équipe de documentalistes, les informaticiens ont réalisé une deuxième maquette de leur outil, Darwin, utilisé au centre de documentation.

12

À partir des années 1995-96, la direction décide de ne plus opérer de sélection mais de mettre l’intégralité des articles quotidiens en ligne. Darwin est abandonné au profit du logiciel Verity, interrogé pour des recherches simples par les journalistes (qui se retournent vers les documentalistes pour des recherches complexes.)

13

Cette base est également proposée sur Internet au public et aux journalistes de terrain vers la fin des années quatre-vingt-dix.

14

Aujourd’hui, pour améliorer la recherche dans ces fonds, il a été décidé de se réorienter vers un produit en langage naturel, Intuition, de la société Sinequa (ce produit a pris la suite de Darwin de Cora). C’est ainsi que, dans les semaines qui viennent, les deux bases de données vont fusionner, et la base complète des articles en texte intégral sera accessible à tout public en langage naturel.

CIBLN, l’interrogation en langage naturel à l’INPI

15

L’objectif de l’Institut national de la propriété industrielle (INPI) est d’offrir à tout public un accès simple et pertinent à sa base de données brevets, à partir de son site en ligne.

16

L’application CIB-LN, présentée par Annie Buisson, ingénieur brevets, permet de formuler une question avec ses propres termes ; la question est ici posée non sur la base de brevets, mais sur le plan de la Classification internationale de brevets (CIB). Ce n’est que dans une deuxième étape, une fois que l’usager a choisi précisément un ou des codes de classement, que la requête est posée sur la base brevets.

17

L’objectif de l’application est de rapprocher la libre expression d’un non-spécialiste d’une classification complexe de professionnels, qui comporte plus de 69.000 entrées. Développé en collaboration avec la société Lingway (dont certains collaborateurs sont issus de la société Lexiquest/ Erli), le système s’appuie sur une analyse linguistique et sémantique de la classification et de la question. L’analyse des termes de la requête est complétée par une analyse contextuelle grâce à un réseau sémantique.

18

Avec 30.000 accès mensuels, la base de données offre ainsi un accès permanent à l’IST contenue dans les brevets français, mais aussi dans de nombreux brevets étrangers et internationaux.

19

Les deux principales difficultés à surmonter ont été le multilinguisme de la base de données et la complexité des termes juridico-techniques contenus dans les documents.

Résumé

Français

Organisée à Rouen par l’ADBS Normandie en partenariat avec le GIDE et l’AIVP, cette journée a permis aux participants, professionnels et étudiants, de découvrir la problématique de l’indexation automatique et de l’interrogation en langage naturel, ainsi que trois témoignages d’expériences différentes qui ont offert un aperçu de la large palette d’usages possibles de ces techniques.

Plan de l'article

  1. La problématique de la recherche en langage naturel
  2. L’expérience des AGF
  3. L’expérience de Ouest France
  4. CIBLN, l’interrogation en langage naturel à l’INPI

Pour citer cet article

Boustany Joumana, Vaissaire Clotilde, « Journée d'étude ADBS Normandie. Indexation automatique et langage naturel », Documentaliste-Sciences de l'Information, 6/2002 (Vol. 39), p. 328-329.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2002-6-page-328.htm
DOI : 10.3917/docsi.396.0328


Article précédent Pages 328 - 329 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback