Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2007/6 (Vol. 44)

  • Pages : 64
  • DOI : 10.3917/docsi.446.0385
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 385 - 388 Article suivant
1

LE PROGRAMME DE CETTE JOURNÉE VISAIT À PROPOSER DES ÉLÉMENTS DE réflexion et de décision quant au(x) rôle(s) des vocabulaires contrôlés au sein des dispositifs d’accès à l’information. Ces rôles sont à repenser – renouveler – rénover, indiquait Sylvie Cabral, du cabinet Ourouk, en fonction de ce qu’il est possible aujourd’hui de savoir des habitudes et des attentes des utilisateurs de ces dispositifs.

La réalité multidimensionnelle des pratiques

2

Que sait-on, justement, des utilisateurs et de leurs pratiques de recherche d’informations ? Majid Ihadjadene, de l’Université Paris-10, a proposé une synthèse très structurée et très informée des différentes études d’usage récentes menées à propos des moteurs de recherche.

3

Au plan socio-économique général, ces études font état d’une utilisation croissante des moteurs qui, pour ce qui est des usages d’Internet, vient juste après celle du courrier électronique. Ces travaux montrent aussi que les utilisateurs restent en principe fidèles à un ou deux moteurs, et ont tendance à faire confiance aux résultats qu’ils fournissent ; peu au fait des modèles d’affaires sous-jacents aux moteurs de recherche, ils ne font guère de différence, parmi ces résultats, entre information et publicité.

4

Lorsque l’on se penche sur les différents moments d’une recherche d’informations, que ce soit en analysant les traces laissées par les utilisateurs (journaux ou logs des moteurs de recherche) ou en observant des groupes d’usagers en situation de recherche, les conclusions sont convergentes. En premier lieu, les stratégies de recherche restent très rudimentaires : peu de mots dans les requêtes, pas de recours aux opérateurs booléens, peu de requêtes différentes dans une même session, prise de connaissance uniquement des résultats les mieux classés. Ensuite, parmi les fonctions avancées offertes par les outils de recherche, il apparaît que seule la catégorisation des résultats soit fréquemment utilisée et appréciée ; les possibilités de recherche multilingue, par exemple, sont en général délaissées. Enfin, les systèmes qui produisent leurs résultats sous forme (carto)graphique semblent soulever des difficultés cognitives chez la majorité des utilisateurs.

5

La plupart des travaux synthétisés dans cette intervention portent sur des pratiques de recherche sur le World Wide Web. Mais les études consacrées à l’usage des intranets, sensiblement moins nombreuses, produisent des résultats similaires. Autrement dit, on constate un transfert d’usages ou une contamination, diront certains, entre les moteurs de recherche sur Internet et les autres systèmes de recherche d’informations. Ceux-ci ne constituent d’ailleurs pas les seuls substituts à la médiation documentaire, et on observe une nette tendance à la diversification des moyens d’information et à leur mise en complémentarité (navigation, sérendipité, outils de diffusion, alertes par courriel, réseaux sociaux).

6

Après la synthèse de travaux universitaires venaient des synthèses d’expériences de terrain.

Les interventions

Des moteurs et des usages : la réalité multidimensionnelle des pratiques. Madjid Ihadjadene, Université Paris-10 Nanterre

Au-delà du tout automatique, quelles approches pour la recherche et la navigation dans les systèmes d’entreprises ? Jean-Paul Taravella, Atos Origin

Le thésaurus à la recherche peut-il se libérer du thésaurus d’indexation ? Sylvie Dalbin, Assistance et Techniques Documentaires

Données structurées : exploitation en indexation et en recherche. Dominique Maret, société Lingway

Modes d’accès à des ressources en ligne : entre navigation et recherche par formulaire. Françoise Moulin et Hervé le Ruz, Institut national de recherche et de sécurité (INRS)

Complémentarité entre outils statistiques et linguistiques pour un accès performant à une information multilingue. Michel Bernardini, BNP Paribas

Les supports des intervenants peuvent être consultés sur le site de l’ADBS : www.adbs.fr/uploads/journees/5749_fr.php (accès réservé aux adhérents).

L’offre et la demande d’outils de recherche d’information dans les entreprises

7

Jean-Paul Taravella, consultant pour ATOS Origin, établit un constat d’émiettement de l’offre logicielle pour l’accès à l’information (plus de cinquante solutions sont en lice), parallèlement à une diversification des types de demandes rencontrées dans les très grandes entreprises et des démarches retenues pour y répondre. Il est par conséquent difficile de repérer des tendances fortes dans ce domaine. Cette extrême diversité semble provenir d’un faisceau de phénomènes qui ont tous potentiellement un effet de fragmentation par rapport à des approches supposant le choix entre un petit nombre de modèles canoniques d’organisation de l’information.

8

Le premier de ces phénomènes est le mouvement de balancier entre la position selon laquelle une auto-organisation de l’information est possible et satisfaisante et la position qui défend le besoin d’ajouter de la méta-information (des métadonnées). Après le tout « indexation et vocabulaire contrôlé » et le tout « moteur de recherche », on arrive aujourd’hui à une situation d’équilibre où toutes les solutions hybrides ou mixtes se rencontrent. D’autres facteurs significatifs sont sans doute la multiplication des acteurs de l’accès à l’information (documentalistes, archivistes, informaticiens et urbanistes de systèmes d’information, consultants internes, experts métiers, etc.) et la multiplication des sources d’information, dont les structures et les usages sont différents et faiblement compatibles. Enfin, les projets qui se mettent en place se distribuent entre des approches « spécialistes » et des approches « grand public » visant au contraire à satisfaire le plus grand nombre, même si ce public est interne à l’entreprise.

9

Logiques hétérogènes, sources hétérogènes, outils hétérogènes et concurrents, y compris au sein d’une même organisation : face à cette hétérogénéité généralisée, il faut bien se rendre à cette évidence qu’il n’existe pas de moteur de recherche pertinent dans l’absolu. Au reste, contrairement à ce que laissent voir les études d’usage sur le Web, il semble que les utilisateurs en entreprise ne soient jamais vraiment satisfaits de leur moteur de recherche. Les positionnements choisis par les éditeurs de logiciels reflètent en partie l’éparpillement des « doctrines » et la difficulté des choix, et s’étagent du tout automatique et/mais opaque au fortement paramétrable, (c’est-à-dire demandant un travail de préparation), ou bien de l’outil simple et robuste dont le modèle est éprouvé sur le Web au système sophistiqué et fonctionnellement très riche. Mais le moteur de recherche ne fait pas tout, et les pratiques de traitement intellectuel de l’information ont leur place dans ce paysage, à condition, plus que jamais, d’apporter la démonstration d’un rapport coût / efficacité favorable et d’un impact réel sur les affaires.

Des usages diversifiés et renouvelés des thésaurus

10

Spécialiste des langages documentaires, Sylvie Dalbin, du cabinet ATD, livrait ensuite sa propre analyse, fondée sur les métamorphoses du paysage documentaire qui touchent en particulier les modes, les moyens et les pratiques d’accès à l’information. C’est surtout en étudiant les possibilités d’utilisation des thésaurus dans des contextes non traditionnels que Sylvie Dalbin entendait donner un exemple de ces métamorphoses. Ces contextes sont ceux où le thésaurus est utilisé, lors de la recherche, de manière indépendante ou non symétrique par rapport aux pratiques d’indexation des ressources interrogées. Autrement dit le thésaurus peut aussi être sollicité lors de recherches sur les mots du texte, et non sur les seuls champs d’indexation. Ces usages participent du regain de faveur du thésaurus, après une période où il a été un peu délaissé, tout en prenant acte du fait que le modèle actuel d’accès à l’information n’est plus celui de l’IST (information scientifique et technique) : l’accès est le fait de tout le monde, le moteur de recherche est présent de toute façon. Le vocabulaire contrôlé se positionne donc nécessairement par rapport au moteur de recherche, mais en appui de celui-ci et non en opposition avec lui.

11

Ces usages sont relativement diversifiés et peuvent intervenir à chaque étape de la recherche d’informations. Au moment de la formulation de la requête, le thésaurus peut constituer une aide à la sélection des termes, une sorte de réservoir terminologique dans lequel sont surtout exploitées les relations d’équivalence ; cette approche s’avère particulièrement intéressante dans un cadre multilingue. On peut aussi puiser dans le thésaurus, et notamment dans ses listes annexes, des ensembles de termes appartenant à certaines catégories, qui sont présentées sous formes de listes dans lesquelles l’utilisateur choisit ses clés ou filtres de recherche. Lors du traitement de la requête par le système, un thésaurus peut être mis à contribution soit en exploitant automatiquement ses synonymies pour enrichir la requête initiale, soit en utilisant le voisinage sémantique des termes, pour formuler une nouvelle requête. La recherche fédérée est aussi grandement facilitée lorsque l’on dispose d’un méta-thésaurus fournissant des équivalences entre différents langages d’indexation. Enfin, au moment de la présentation des résultats, la structure du thésaurus et/ou celle des métadonnées associées aux éléments du lot résultat peut être mise à profit pour en proposer un affichage enrichi, offrant des choix pour affiner ou étendre la recherche.

12

Il existe des exemples de toutes ces approches, qui ont souvent dépassé le stade expérimental et qui sont parmi les plus prometteuses à l’heure actuelle. Mais les thésaurus ne sortent pas toujours indemnes de ces évolutions : réduits, déstructurés, augmentés, combinés pour être adaptés à ces usages, ils doivent et devront surtout être conçus de manière toujours plus rigoureuse.

Des fonctions de recherche différenciées prenant en compte la structure des documents

13

L’exposé de Dominique Maret, directeur avant-vente de la société Lingway, portait sur les questions du traitement et de la recherche de documents structurés ou semi-structurés. On a l’habitude d’opposer données structurées (dans des tables ou champs de bases de données) et documents textuels, dépourvus de structure. Ajouter des métadonnées (indexer, décrire, annoter, baliser), c’est pourvoir ces documents de la structure manquante. Or le monde, ou plus précisément Internet, fourmille de documents construits selon une structure qui, dans la plupart des cas, n’est pas exploitée. Cette structure est plus ou moins régulière et plus ou moins facile à détecter. On peut citer, par ordre croissant de structuration : les pages web, les articles de journaux ou articles scientifiques, les brevets, les curriculum vitæ, les notices accompagnant les images, les descriptifs de produits d’un catalogue en ligne, etc.

14

La suggestion de Dominique Maret (appuyée sur les travaux de développement menés par Lingway) est de prendre en compte cette structure lors de l’indexation des ressources : il s’agit de repérer dans les documents les éléments de cette structure, et de procéder à une indexation multichamps. Il devient alors possible de proposer des fonctions de recherche différenciées selon la nature du champ interrogé. Des aides linguistiques et sémantiques ciblées peuvent notamment être mises en place, aides dans lesquelles des éléments de thésaurus ou de taxonomies peuvent jouer un rôle important.

Des modes d’accès diversifiés, adaptés aux ressources et aux pratiques des usagers

15

Tous les points de vue précédemment exposés ont été utilement complétés, et dans l’ensemble confirmés, par les témoignages et retours d’expérience qui ont suivi, en dernière partie de cette journée d’étude.

16

Françoise Moulin et Hervé le Ruz ont présenté la démarche de l’Institut national de recherche et de sécurité (INRS) dans la conception de son site Internet dédié à tous les aspects de la santé et de la sécurité au travail. Cette démarche illustre de manière particulièrement convaincante la nécessité de ne pas concevoir dans tous les cas un système d’accès centralisé et monolithique. Le site offre des informations de natures diverses (techniques, scientifiques, réglementaires, médicales), de sources diverses, sur des thèmes divers et pour des publics et des besoins divers. Si ce corpus n’était pas segmenté, mais traité en masse par un moteur de recherche, il est vraisemblable que la qualité des résultats de recherche serait insatisfaisante.

17

Un découpage par collections, dont chacune réunit des ressources homogènes, permet de proposer des fonctions d’accès différentes et adaptées à la fois à la nature de ces ressources et aux modes de questionnement préférés par leurs utilisateurs habituels. Des modalités de recherche simple, de recherche multicritères, de sélection dans des listes alphabétiques ou de recherche dans un plan de classement thématique sont donc proposées, exclusivement ou en combinaison, une fois que l’utilisateur a choisi sa source d’informations. Le langage documentaire, ici en l’occurrence le plan de classement, n’est pas systématiquement appliqué à l’ensemble des ressources, mais l’est à certaines collections où son emploi se justifie et répond à une demande des publics.

Complémentarité entre outils statistiques et outils linguistiques

18

Michel Bernardini, dont l’intervention clôturait cette journée, a présenté le système LEOnard, développé aux Études économiques de BNP-Paribas. Conscients que 90 % des utilisateurs cherchent sur Google en première indication, les promoteurs de ce système ont voulu proposer, face à la surabondance de l’information et à la multiplicité des sources, une interface « grand public » qui puisse recueillir une forte adhésion au sein de l’entreprise. Cette interface unifiée offre une recherche fédérée sur des sources diversifiées. Le parti pris est celui de la richesse fonctionnelle, même si d’une certaine façon c’est en anticipation des besoins et des demandes des utilisateurs.

19

Ce projet est également fédérateur de technologies : il en mobilise quatre différentes qui sont vues comme complémentaires et non exclusives. Au centre du dispositif, on trouve PolySpot, dont les technologies statistiques permettent de traiter et de rechercher des documents de formats et de langues hétérogènes. KBCrawl a été retenu pour répondre aux besoins de la veille. Le système intègre aussi un flux de mise à disposition de la presse quotidienne. Enfin, des fonctions de fouille de textes assurées par les technologies de Temis permettent de compléter les propositions du moteur de recherche, d’améliorer l’exploitation des lots résultats et d’apporter un appui à la lecture et à l’analyse des documents. C’est à ce niveau que l’intégration d’un thésaurus pourrait s’avérer bénéfique. Bonne nouvelle : un tel projet ne nécessite pas des investissements ni des travaux titanesques. Si le coût financier n’est pas précisé (« pas des millions d’euros »), la charge de travail annoncée pour cette mise en œuvre est inférieure à cent cinquante jours.

D’indéniables opportunités pour les langages documentaires

20

À la lumière des différentes contributions qui viennent d’être résumées, on peut avancer une réponse à la question mise en exergue de cette journée d’étude : il est indéniable que les opportunités pour les langages documentaires existent, sous réserve qu’ils soient adaptés (j’ai cru entendre « nettoyés ») et intégrés (j’ai cru entendre « de manière intelligente ») à des dispositifs de recherche forcément flexibles et multimodaux. Il se confirme que « la chimie de l’accès à l’information », selon le mot de Jean-Paul Taravella, est plus complexe que ne le laisserait supposer la prépondérance de certains outils (j’ai cru entendre « googlisation »)...

Résumé

Français

La journée d’étude organisée par l’ADBS le 20 septembre 2007 se voulait « un panorama des usages, des pratiques et des outils mis en œuvre dans la recherche d’information ». Le programme visait à examiner le rôle que les vocabulaires contrôlés peuvent jouer aujourd’hui au sein des dispositifs d’accès à l’information. Après une synthèse de travaux universitaires récents portant sur les pratiques de recherche sur Internet, plusieurs expériences de terrain ont été présentées. Autant de pistes proposées aux professionnels de l’I-D pour les aider à situer et à enrichir leurs offres d’accès à l’information.

Pour citer cet article

Menon Bruno, « Journée d'étude ADBS. Optimiser l'accès à l'information, une opportunité pour les langages documentaires ?», Documentaliste-Sciences de l'Information 6/2007 (Vol. 44) , p. 385-388
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-6-page-385.htm.
DOI : 10.3917/docsi.446.0385.


Article précédent Pages 385 - 388 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback