Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2007/1 (Vol. 44)

  • Pages : 120
  • DOI : 10.3917/docsi.441.0056
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 56 - 57 Article suivant
1

En 2000, la toute nouvelle entité Totalfinaelf – résultat du rapprochement Totalfina et Elf Aquitaine – prend la décision d’acheter un outil de veille commun aux différentes branches de l’entreprise. Les conclusions des études préalables réalisées chez Totalfina et Elf Aquitaine conduisent à préférer l’outil OpenPortal4U de la société Arisem à celui de Datops. « D’un point de vue outil, on était sur la même longueur d’onde », se souvient Aline Duru, responsable chez Total du département Information Documentation Veille au sein de la direction Veille Information Archives. Fondé sur l’analyse sémantique multilingue, OpenPortal4U doit assurer « le cycle complet de la chaîne documentaire » : automatisation de la collecte d’informations sur Internet, tri, classement et diffusion.

Présentation des résultats
Source : Total
Représentation du fonctionnement sémantique de l’application

Une construction progressive de l’outil de veille

2

Très vite, l’outil livré avec une base de connaissances standard établie par Arisem montre certaines limites. Aucune spécification pétrolière n’y apparaît et quelques approximations se révèlent telle, par exemple, la définition du golfe de Guinée, zone géographique primordiale pour Total car un des pôles majeurs de la production offshore. Adapter la base de connaissances à la spécificité du métier s’impose donc, et ce pour chacun des quatre serveurs dédié à une activité : Chimie, Holding, Raffinage Marketing, Exploration Production. Définir à l’aide d’un vocabulaire spécialisé les concepts que le système utilisera et sélectionner les sources intéressantes sur Internet constituent la phase préalable à l’utilisation de cette solution de veille.

3

Au sein de la base Exploration Production, les thésaurus des bases de données Tulsa [1][1] Tulsa : base bibliographique pétrolière produite par..., Georef [2][2] Georef : base bibliographique géologique produite par... et Pascal [3][3] Pascal : base pluridisciplinaire produite par l’IN... utilisés pour l’interrogation des bases de données s’avèrent difficilement transposables dans l’outil : ils sont « trop pointus, mal adaptés à Arisem », et obligent à redéfinir un vocabulaire pertinent et hiérarchisé. Les chercheurs et documentalistes travaillent de concert et construisent la base de connaissances au fur et à mesure des besoins, thématique par thématique, de manière itérative. D’emblée des efforts se portent sur la partie géographique et sur le vocabulaire géologique de la base de connaissances Exploration Production. Durant un été, une personne intègre les échelles stratigraphiques, travail fastidieux mais qui apporte une réelle valeur ajoutée aux chercheurs.

4

Durant les premières années d’utilisation, ce paramétrage de l’outil prend du temps : « Pour mettre en place une thématique, chercher les bonnes sources, sélectionner le vocabulaire et configurer, cela prenait bien dix jours à temps plein ou deux mois en temps réel car nous n’étions pas à plein temps sur l’outil », précise Aline Duru. Cet investissement lourd reste malheureusement indispensable à une veille efficace.

5

L’étape suivante consiste à élargir le périmètre de la veille en intégrant à OpenPortal4U des sources scientifiques et techniques : information bibliographique au sein de la branche Exploration Production, cédéroms métier pour le Raffinage Marketing, agrégateurs de presse et bases de données spécialisées pour la Holding. Au sein de la branche Exploration Production, l’équipe se heurte à une difficulté : l’information bibliographique lue comme un seul document ne peut être découpée référence par référence, ce qui rend impossible son tri. Lors d’un colloque organisé par l’université de Tulsa, une solution s’ébauche, avec un outil présenté par Dialog qui permet ce découpage. Ces sources d’information structurée et spécifique sont intégrées, ce qui autorise alors une véritable veille multisources sur l’internet, l’intranet et les bases de données externes.

Un paramétrage en partie sous-traité

6

Aujourd’hui une cinquantaine de thématiques (ou axes de veille) sont suivies au sein des différentes branches du groupe. Le paramétrage de l’outil est en partie sous-traité à l’éditeur, mais Total conserve la maîtrise du vocabulaire utilisé : « On garde la main ! ». Une consultante spécialisée intègre la liste hiérarchisée des termes fournie par Total, teste les sources sélectionnées et affine le vocabulaire pour l’adapter au mieux des besoins. Deux à cinq jours sont nécessaires pour mettre en place une thématique. Le suivi d’une telle thématique porte essentiellement sur les sources Internet qui requièrent un ajustement permanent, le vocabulaire restant stable vu le peu d’évolutivité du domaine d’activité.

7

Chaque utilisateur, selon ses droits, accède à une information pertinente issue de nombreuses sources multilingues, triée par catégories et sous-catégories. Les utilisateurs finals consultent directement les résultats affichés et les clients de la veille bénéficient d’une sélection de résultats affinée par les documentalistes et chargés de veille.

8

L’intérêt de cette solution, outre la veille, prend tout son sens dans le cadre de projets multimétiers. Sur un projet de recherche globale du groupe, par exemple, un même référentiel documentaire est partagé mais l’utilisateur ne cible que l’information pertinente à ses yeux, réduisant ainsi le bruit.

9

La restitution des résultats reste encore pauvre : la surbrillance des termes n’apparaît pas au premier niveau des catégories mais seulement au niveau de la recherche spécifique, l’interface pourrait être plus intuitive, etc. Cependant ces quelques faiblesses ergonomiques ne remettent pas en question les apports fonctionnels de cette solution, appréciée par les utilisateurs. L’attachement des chercheurs ou utilisateurs à la solution d’Arisem semble proportionnel à l’investissement consacré.

Enrichissement de la base de connaissance

La base de connaissance permet d’introduire dans l’application, de façon multilingue, le vocabulaire des thématiques traitées et les liens hiérarchiques et de proximité que les termes entretiennent entre eux. Si on recherche de l’information sur une société pétrolière, on saisit le nom de cette société dans l’équation de recherche. Fort des renseignements qui lui auront été fournis au niveau de la base de connaissance, l’outil sélectionnera les documents qui citent le nom de cette société mais également le nom de ses filiales ou de son PDG. L’outil permettra de désambiguïser une recherche sur la société Total, et de prendre en compte la marque Elf et les anciens noms de la société. Il en va de même au niveau du classement. Les termes sont traduits en quatre langues (français, anglais, espagnol, allemand), en fonction des besoins de la thématique, ce qui permet d’éviter des équations de recherche et de classement trop longues et propices aux oublis.

Le travail d’enrichissement de cette base est fastidieux, mais chaque méthode a ses inconvénients, et un outil ne fait que ce qu’on lui demande. Il faut donc être rigoureux et exigeant si on veut obtenir des résultats précis et pertinents.

A. D.

Notes

[1]

Tulsa : base bibliographique pétrolière produite par l’Université de Tulsa dans l’Oklahoma.

[2]

Georef : base bibliographique géologique produite par l’American Geological Institute en Virginie.

[3]

Pascal : base pluridisciplinaire produite par l’INIST-CNRS.

Plan de l'article

  1. Une construction progressive de l’outil de veille
  2. Un paramétrage en partie sous-traité

Pour citer cet article

Duru Aline, Gicquel Florence, « Un outil de catégorisation automatique. L'exemple de total », Documentaliste-Sciences de l'Information, 1/2007 (Vol. 44), p. 56-57.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-1-page-56.htm
DOI : 10.3917/docsi.441.0056


Article précédent Pages 56 - 57 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback