Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2007/1 (Vol. 44)

  • Pages : 120
  • DOI : 10.3917/docsi.441.0040
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 40 - 41 Article suivant
1

Au sein du pôle Banque Finance Investissement (BFI) du groupe BNP Paribas, le département Études économiques jouit d’une longue expérience de gestion documentaire. Sa cinquantaine d’économistes, statisticiens et documentalistes collecte, analyse et diffuse à trois mille clients internes une information pertinente. Michel Bernardini – aux Études économiques depuis 1980, huit ans documentaliste, précurseur sur la GED et l’internet, aujourd’hui responsable informatique et logistique du département – se passionne pour les technologies de traitement et de diffusion de l’information. Son implication et son savoir-faire apportent un soutien précieux aux différents projets menés au sein du département.

2

Dès les années quatre-vingt-dix, une application de GED autour de Filenet et Basis met l’information à la disposition des clients internes. Limitée techniquement (uniquement du pull, alertes stockées sur les bases Notes, etc.) et freinée par la complexité du langage d’interrogation (« croiser les opérateurs booléens, utiliser les thesauri »), cette application ne satisfait pas entièrement.

Une solution originale fondée sur quatre produits

3

En janvier 2003, le projet LEOnard (LEO Navigateur Assistant de Recherche Documentaire) est lancé avec pour objectif principal : accéder facilement, à travers un portail, à des sources hétérogènes, externes comme internes – Internet, intranet, bases métier, bases Notes et bases GED. Deux autres objectifs suivent : disposer d’un flux de la presse quotidienne et « crawler » l’actualité d’Internet. L’outil recherché doit être capable de fédérer toutes ces informations disparates et de présenter des résultats triés et exploitables. Reste à trouver la solution qui répondra à ces différentes contraintes.

4

Douze éditeurs de moteur de recherche sont contactés, cinq sélectionnés (Autonomy, Exalead, Polyspot, Sinequa, Verity) et deux restent en lice : Exalead et Polyspot. À l’issue des tests, Polyspot sort vainqueur, « tant du point de vue des fonctionnalités que de la pertinence des résultats et de la stabilité informatique », précise Michel Bernardini. L’implémentation de Polyspot démarre début 2004. La connexion aux bases internes et externes est effectuée et les deux thésaurus du service Documentation (géographie et économie / sociétés) sont intégrés. L’emploi de leurs termes associés et spécifiques vient enrichir la recherche de l’utilisateur : à la requête crédit à la consommation seront automatiquement adjoints vente à crédit, prêt personnel, crédit revolving, crédit gratuit, crédit automobile et le synonyme crédit aux particuliers.

5

Ceci n’est cependant que la première brique de LEOnard et le début d’une solution originale fondée sur quatre produits. D’abord, pour renforcer la veille sur Internet, est ajouté KB Crawl de BEA-Conseil. Une fois la lourde opération de paramétrage réalisée pour plus de cent sites, et après une phase de communication intense et d’amélioration de l’interface utilisateur, LEOnard est prêt en 2005. En quatre jours, mille quatre cents clients affluent. Confortée par ce succès et fidèle aux objectifs de départ, l’équipe de projet enrichit LEOnard, mi-2006, avec Mediacompil, un outil de panorama de presse numérique. Enfin un pilote est réalisé avec les produits de text mining de Temis pour améliorer l’analyse et l’exploitation du corpus de documents.

6

Polyspot, BEA-Conseil, Mediacompil, Temis – quatre solutions hexagonales et une approche revendiquée par Michel Bernardini : « On a fait le choix de travailler avec des petits éditeurs français hyperdynamiques et hyperréactifs » perçus comme des « partenaires ».

Les apports des technologies de text mining

7

Les trois « briques » de la solution mise en œuvre remplissent les objectifs assignés : veille tant à l’interne qu’à l’externe sur une information structurée ou non, actualité presse disponible dès huit heures du matin, accès facilité à l’information.

8

Néanmoins, malgré ses nombreux atouts – fédérer des sources d’informations hétérogènes, rechercher et trier par métadonnées, présenter les résultats sous forme de courts résumés avec classification automatique dynamique par thèmes –, les limites de Polyspot sont atteintes. L’absence d’analyse sémantique restreint ses performances. Là où l’analyse statistique extraira l’expression très fréquente mais dénuée d’intérêt : « et lire aussi page… », l’analyse sémantique parviendra à déjouer ce piège. Elle lèvera également l’ambiguïté de certains termes comme orange ou carrefour (sociétés ou non ?). Le recours aux technologies de text mining de Temis vise donc à ajouter au moteur de recherche une couche d’« intelligence ».

Quatre solutions technologiques différentes pour un seul accès et une recherche multisources
Source : Michel Bernardini, Études économiques, BNP Paribas
9

L’extraction d’entités nommées (sociétés, zones géographiques, personnalités, etc.) est l’une des premières améliorations prévues et prendra tout son intérêt avec le panorama de presse. Elle permettra de donner automatiquement du sens à une lecture de la presse, tous titres confondus : les noms de sociétés et de personnalités seront extraits non pas statistiquement mais à partir de règles linguistiques et en fonction du contexte, augmentant ainsi la pertinence. À terme, l’outil permettra, à partir du nom d’une société, de rebondir sur le secteur d’activité. Cette lecture « intelligente » facilitera également l’analyse du corpus d’informations acheminé via LEOnard, notamment par le biais de KB Crawl.

10

Rendre l’utilisateur le plus autonome possible en lui facilitant au maximum l’accès à une information riche de sens, tel est bien le but de LEOnard. Cette autonomie plébiscitée par les utilisateurs (une enquête menée en interne avait montré que 93 % des utilisateurs avaient le réflexe Google avant d’appeler la documentation) ne signifie pas pour autant une moindre charge pour la fonction documentaire. Quatre heures de travail quotidien consacré à la maintenance des quelque cent cinquante sites issus du sourcing et à la vérification des liens cassés sont nécessaires pour une utilisation optimale de KB Crawl…

11

Bâtie autour de serveurs d’extraction, de classification et de catégorisation, la solution Temis est fondée sur l’utilisation de skill cartridges ou cartouches de connaissances. Ces cartouches contiennent des dictionnaires multilingues et des règles linguistiques décrivant la manière d’extraire les concepts. Les règles s’appuient sur l’identification du genre grammatical de chaque mot, l’identification des noms propres, l’analyse morphosyntaxique pour repérer les structures de phrases types, etc. Les skill cartridges sont spécifiques d’un domaine (chimie, médecine, etc.) ou génériques. L’activité transversale de BNP Paribas a naturellement conduit l’équipe à choisir deux cartouches génériques, Competitive intelligence et Text mining 360. La personnalisation de ces cartouches est conseillée, voire indispensable à une extraction pertinente des concepts sans excès de bruit.

12

Aujourd’hui, l’intégration de la partie sociétés du thésaurus permet d’« apprendre à Temis à normaliser les sociétés comme (le fait) BNP Paribas », car Michel Bernardini est convaincu que « c’est à l’outil de s’adapter » et « aux documentalistes de garder leur méthode ». Ce travail de paramétrage est actuellement pris en charge par l’éditeur à partir des éléments fournis par le client BNP ; la mise à jour pourra ensuite être assurée chez le client. Outre l’extraction des entités nommées, les bénéfices de Temis sont attendus sur l’amélioration des résumés fournis par Polyspot et à terme sur l’aide à l’indexation pour les documentalistes.

13

Courant mars 2007, la brique text mining de Temis sera disponible sur LEOnard. Nul doute que ses possibilités permettront d’atteindre alors la cible des trois mille clients visée par Michel Bernardini.

Plan de l'article

  1. Une solution originale fondée sur quatre produits
  2. Les apports des technologies de text mining

Pour citer cet article

Bernardini Michel, Gicquel Florence, « Outils de recherche et analyse sémantique. Le portail de BNP Paribas», Documentaliste-Sciences de l'Information 1/2007 (Vol. 44) , p. 40-41
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-1-page-40.htm.
DOI : 10.3917/docsi.441.0040.


Article précédent Pages 40 - 41 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback