Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2003/6 (Vol. 40)

  • Pages : 60
  • DOI : 10.3917/docsi.406.0387
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 387 - 391 Article suivant
1

EN INTRODUISANT CETTE JOURNEE, Sophie David, puis Claudine Masse, ont formé le vœu qu’elle favorise une dynamique d’échanges entre la communauté des chercheurs et celle des professionnels de l’information. L’organisation conjointe par l’Université Paris-V et l’ADBS témoignait de cette volonté, et cet objectif semble bien avoir été atteint.

2

Les exposés techniques proposaient un riche tour d’horizon, nous mettant mieux à même de cerner les réalités actuelles et futures du web sémantique, en présentant ses principes et ses problématiques ainsi que des exemples d’applications à divers stades d’avancement. La table ronde qui a suivi et les nombreuses interventions et questions de l’assistance faisaient entendre quant à elles les préoccupations de la profession. Celles-ci peuvent se résumer en trois interrogations. En quoi les méthodes et les savoir-faire des professionnels de l’information nourrissent-ils la démarche des chercheurs dans ce domaine ? En quoi les concepts et les outils issus de ces recherches changeront-ils nos pratiques et nos métiers ? En quoi les notions recouvertes par la terminologie des promoteurs du web sémantique sont-elles distinctes et/ou parentes de celles du monde de l’information documentaire ?

3

À l’évidence, nul ne disposait de réponses complètes à ces questions, pourtant bien légitimes : le web sémantique repose largement, comme on le verra, sur la description normalisée – indexation, catalogage ? – des ressources du web ; de plus, il offrira de nouveaux systèmes de médiation entre les internautes et ces ressources. C’est donc à double titre que les professionnels de l’information s’attendent à être parties prenantes dans la mise en œuvre du web sémantique : experts de la description des contenus, ils auraient la charge de ces aspects de l’infrastructure sémantique du web futur ; familiers des besoins en information et des stratégies de recherche, ils pourraient utilement contribuer à la définition des fonctionnalités intégrées aux outils du web sémantique.

4

Or ils sont jusqu’à présent peu impliqués dans la conception de ces outils, et encore peu sollicités pour décrire les ressources numériques ou constituer les référentiels qui sous-tendent ces descriptions, ce qui est plus surprenant. Une certaine inquiétude se manifeste donc, celle de voir ce champ d’activité, par excellence celui de l’information maîtrisée, confisqué par les informaticiens qui sont aussi, comme on le fit remarquer, des professionnels de l’information.

5

Il importe cependant de souligner que le web sémantique ne se limite pas à l’application au web et à grande échelle des techniques documentaires qui nous sont habituelles. À la croisée de l’intelligence artificielle, des technologies Internet et de la gestion des connaissances, le champ du web sémantique englobe certes une partie de nos compétences, mais doit surtout être vu comme une entreprise pluridisciplinaire. L’ampleur et la variété de ses applications potentielles, le caractère nécessairement réparti et coopératif des travaux à mener à bien, la sophistication technique des outils qu’il permet d’envisager requerront l’engagement de plus d’une communauté professionnelle. On le voit, l’instauration de « nouvelles formes de partenariat » est sans nul doute l’un de ces nouveaux enjeux mentionnés dans le titre de la journée.

Le programme de la journée

Cette journée d’étude a eu lieu le 14 octobre 2003 dans le socle de la grande arche de la Défense, dans la salle de Sources d’Europe. Elle était co-organisée par l’Association des professionnels de l’information et de la documentation (ADBS) et l’IUT de Paris (Université Paris-V René-Descartes), avec la collaboration scientifique de Sophie David (CNRS UMR 7114 et Université Paris-X).

La matinée, placée sous la présidence de Stéphane Chaudiron (Université Paris-X et Ministère délégué à la Recherche et aux nouvelles Technologies), réunissait les interventions suivantes :

Comprendre le projet du web sémantique : mises en œuvre et perspectives, par Philippe Laublet (LaLICC - CNRS UMR Université de Paris-Sorbonne)

Thésaurus, texte intégral et web sémantique : rupture ou continuité ? Par Winfried Schmitz-Esser (Université des sciences appliquées de Hambourg)

Le web sémantique : une infrastructure d’intégration de sources de données, par Chantal Reynaud (Université Paris-X et LRI-Université Paris-XI)

Gestion des connaissances via un web sémantique d’entreprise, par Olivier Corby (INRIA - Sophia-Antipolis)

Placée sous la présidence de Muriel Amar (IUT Paris-V et Bibliothèque publique d’information), l’après-midi proposait le programme suivant :

Thésaurus documentaires et ontologies : divergences et ressemblances, par Bénédicte Pincemin (CNRS et LLI-Université Paris-XIII)

Annotation et métadonnées pour le web sémantique, par Yannick Prié (LIRIS-Université Lyon-I)

Mondeca : de la gestion documentaire au web sémantique, par Jean Delahousse (Société Mondeca)

Quelles applications pour quels services ? Vers de nouvelles collaborations, table ronde animée par Philippe Collier, journaliste indépendant, avec la participation de Stéphane Cottin (Conseil constitutionnel), Danièle Dégez (cabinet Documentation et gestion), Jean Delahousse, Philippe Laublet et Winfried Schmitz-Esser

Des synthèses de toutes les interventions, réalisées par des étudiants de l’IUT de Paris sous la direction de Muriel Amar et Sophie David, peuvent être consultées sur le site web de l’ADBS, dans l’espace réservé aux adhérents de l’association, à l’adresse <www.adbs.fr/site/evenements/journees/>.

Les principes

6

Le projet du web sémantique naît de critiques bien connues adressées au réseau sous sa forme actuelle : HTML donne des liens sans sémantique, tissant certes un réseau hypertextuel dense, mais où l’on manque de repères ; les moteurs de recherche laissent beaucoup d’opérations à la charge des internautes et leurs résultats sont souvent hasardeux ; les métadonnées sont limitées dans leur usage comme dans leur portée, peu fiables, peu utilisables et peu utilisées par les moteurs de recherche. Bref, alors que par leur volume et leur diversité, les ressources du web sont de moins en moins exploitables sans l’aide de logiciels aux fonctions avancées, elles sont à cause de ces faiblesses peu propices aux traitements automatisés.

7

On entend donc mettre en place un dispositif permettant de structurer les informations du web de façon à les rendre manipulables et « compréhensibles » par des agents logiciels. Leur visée : faciliter l’utilisation des informations et services du web en libérant l’internaute d’une partie de sa charge cognitive, et donner l’impression d’un système homogène et cohérent en mobilisant automatiquement et de manière transparente les multiples ressources, sites et services nécessaires à l’accomplissement d’une tâche.

8

Mais si la vision ultime est celle d’un tout dont l’efficacité serait supérieure à celle de la somme de ses parties, le vocable « web sémantique » recouvre en réalité une grande variété de fonctions, dont certaines restent d’ailleurs à imaginer. En voici quelques-unes :

  • la recherche généraliste bien sûr, avec le moteur de recherche sémantique : doté de capacités de raisonnement, il s’appuie sur la description formalisée et la mise en relation des différentes sources d’information pour traiter intelligemment les requêtes et présenter en une seule étape des résultats complets ;

  • l’exploitation et la combinaison de ressources pour accomplir une tâche spécialisée : des outils dédiés associent dialogue avec des sources hétérogènes, description des préférences des utilisateurs et raisonnement basé sur des connaissances métier pour synthétiser l’information requise ;

  • l’offre de services web plus complets, avec des outils qui identifient, activent et combinent différents services pour mener à bien des opérations plus ou moins complexes de la vie quotidienne ou professionnelle, comme l’organisation d’un voyage, la souscription d’un contrat d’assurance, etc. ;

  • la navigation sémantique, qui profite de la sémantisation des hyperliens pour orienter l’internaute dans son parcours du réseau.

Ces différents types de systèmes seront en outre, au moins dans un premier temps, bâtis autour de communautés d’intérêts, dans des domaines bien circonscrits, et pour des portions du web, publiques ou privées : un « web sémantique d’entreprise », par exemple.

9

Il serait donc inexact de voir dans le web sémantique une entreprise monolithique : on parlera de webs sémantiques, au pluriel, dès lors que des sites intègrent une ou plusieurs fonctions avancées mettant en jeu les concepts du web sémantique, au singulier. Car ce qui fait l’unité du projet est une communauté de principes et de méthodes, une démarche.

Les métadonnées

10

L’annotation des ressources du web par les métadonnées, tout d’abord. La notion de métadonnée n’est pas nouvelle. Mais il va sans dire que nous sommes loin de l’usage plus ou moins anarchique des balises META de HTML ; on s’éloigne même quelque peu du concept élaboré dans le cadre des bibliothèques virtuelles et du Dublin Core. Bien que cette filiation ne soit pas désavouée, le rôle central qu’on entend faire jouer aux métadonnées dans le web sémantique laisse supposer que leur portée sera amplifiée par rapport à une approche « catalogage et indexation ». De ce point de vue, la définition qui en a été proposée – « Information associée à une ressource du web, permettant d’en favoriser l’utilisation par un agent humain, du fait de son exploitation par un agent logiciel » – est révélatrice. Assez large, elle met l’accent sur la finalité des métadonnées, sans vraiment insister sur leur nature descriptive.

11

C’est qu’il y a à ce sujet une ambiguïté : s’agit-il de décrire des ressources numériques ou plutôt de programmer leur utilisation par des logiciels ? En réalité, les fonctions des métadonnées dans le web sémantique dépassent les dimensions signalétique et thématique qu’on leur connaissait jusqu’à présent. Selon le contexte et les applications, elles servent aussi de support à la gestion des droits, au recueil d’annotations diverses telles que commentaires et recommandations, à la qualification des hyperliens, à la définition de parcours de lecture ou d’assemblage de documents à la carte, etc.

Les ontologies

12

Pour être susceptibles d’être exploitées automatiquement, les métadonnées doivent être entièrement explicites, c’est-à-dire suivre un modèle et être exprimées dans un vocabulaire clairement et formellement définis. Les ontologies, deuxième pilier du web sémantique, sont le réceptacle de ces définitions. Elles modélisent les connaissances nécessaires à la description – et au traitement – d’un ensemble de ressources. On y représente les valeurs que l’on peut donner aux métadonnées et l’interprétation que les sytèmes peuvent en faire, c’est-à-dire les concepts d’un domaine, les relations qu’ils entretiennent et la sémantique de ces relations, mais aussi les règles de raisonnement qui leur sont applicables.

13

La question de l’analogie avec les thésaurus, souvent soulevée, reçoit ici un début de réponse : la structuration des concepts en réseau et la normalisation de leur expression sont des points communs indéniables, mais ne doivent pas masquer les spécificités de chacun de ces instruments. Bien sûr, il est possible, et même souhaitable, que l’on tire parti de l’existant et que les thésaurus servent de point de départ à la construction d’ontologies pour le web sémantique. Il est toutefois probable qu’ils seront remaniés et étoffés. Par exemple, il est souvent nécessaire d’intégrer aux ontologies des connaissances sur des personnes ou des lieux, et pas seulement sous forme de listes annexes.

14

Ces spécificités dérivent de vocations dissemblables : les thésaurus sont adaptés à leur rôle d’outils de médiation documentaire, les ontologies doivent servir à la représentation de multiples aspects des ressources numériques ; les thésaurus sont destinés avant tout à un usage humain, les ontologies davantage orientées vers un usage par les machines (même si, au cours de leur cycle de vie, les consultations humaines sont nécessaires et fréquentes). En conséquence, les normes pour les thésaurus fixent la liste des relations utilisables et la forme des termes, mais laissent une certaine souplesse dans les formats et les présentations utilisés ; pour les ontologies, on a en revanche une normalisation très stricte des formats, mais une grande ouverture dans la définition des relations nécessaires aux applications visées et dans le type de termes qui y figurent.

Les méthodes de raisonnement

15

Enfin, troisième ensemble de composantes, les méthodes de raisonnement : techniques de déduction et de preuve sont indispensables à la fois pour effectuer les enchaînements impliqués par les règles d’utilisation des concepts des ontologies et pour expliquer le cas échéant les résultats fournis de façon à convaincre l’internaute de leur validité. Le dispositif est complété par des systèmes de cryptage et de certification, qui ne sont pas spécifiques de la démarche du web sémantique, mais y ont néanmoins leur place, en contribuant à instaurer une confiance que le web actuel n’inspire pas toujours.

OWL renforce les fondations du web sémantique

Le Consortium World Wide Web (W3C) a annoncé en août dernier le passage du langage OWL (Ontology Web Language) en « candidat à la recommandation ». L’avancement d’un document à ce stade constitue un appel explicite à adopter cette spécification, indique que le document a été révisé par les autres groupes de travail du W3C, et assure que la spécification est stable.

Les premiers langages utilisés pour le développement d’outils et d’ontologies pour des communautés d’utilisateurs spécifiques (particulièrement en sciences et dans des applications d’e-commerce propres à certaines entreprises) n’ont pas été définis pour être compatibles avec l’architecture du web en général ni du web sémantique en particulier. OWL répare ce manque en utilisant à la fois les URI pour le nommage et la fonctionnalité fournie par RDF pour créer des liens. Les ontologies web présentent pour avantages la capacité d’être distribuées au travers de nombreux systèmes, la mise à échelle pour les besoins du web, la compatibilité avec les standards web pour l’accessibilité et l’internationalisation, enfin l’ouverture et l’extensibilité.

Ces ontologies web structurées autorisent ainsi une intégration plus riche et garantissent l’interopérabilité des données au travers de frontières applicatives. La bio-informatique, le secteur de la santé, les entreprises corporatives et les gouvernements sont les premiers utilisateurs de ce standard. Communiqué de presse du W3C en français : <www.w3.org/2003/08/owl-pressrelease.html.fr>

Un besoin de standardisation

16

On aura reconnu dans ce qui précède une approche similaire à celle de l’intelligence artificielle : des bases de faits - les métadonnées - sont interprétées grâce à des bases de connaissances - les ontologies - par des moteurs d’inférence qui accomplissent ainsi des tâches complexes en simulant le comportement d’intervenants humains. Les techniques sont analogues, mais se distinguent dans le cas du web sémantique par leur contexte de fonctionnement et par l’échelle à laquelle elles doivent s’appliquer, inimaginable il y a vingt ans. De ce fait, l’intégration d’informations provenant de sources hétérogènes et la recherche de l’interopérabilité de sites et de systèmes implantés en divers endroits par différents acteurs revêtent une importance cruciale.

17

D’où une volonté marquée de standardisation, problématique qui occupe une place prépondérante dans les travaux actuels. Standardisation d’abord des formats d’encodage des informations, des métadonnées et des ontologies : par son expressivité et sa souplesse, la syntaxe XML est appelée à servir de lingua franca au web sémantique. Standardisation également des modèles et langages permettant de décrire de façon entièrement explicite les sources d’informations et les services disponibles, mais aussi de coder dans des ontologies les connaissances nécessaires à ces descriptions. RDF (Resource Description Framework) et OWL (Ontology Web Language, voir ci-dessus) seront sans doute les principaux vecteurs de ce qui constituera le noyau à proprement parler sémantique du web. Les formalismes de raisonnement et les techniques de preuves semblent pour l’instant moins consensuels.

Les applications

Dans le monde de l’entreprise

18

L’exemple des webs sémantiques d’entreprise illustre l’application de cette démarche à des contextes plus restreints que le web « grand public » : les multiples problématiques de gestion des connaissances autour de ressources informationnelles qui sont, dans leur diversité, un modèle réduit de ce que l’on rencontre sur le réseau en font un champ d’expérimentation privilégié. L’échelle relativement réduite et la présence d’une culture d’entreprise rendent plus aisées la création des ontologies et la définition des usages et des utilisateurs. Par rapport à un traitement plus classique de ces problématiques, l’approche du web sémantique offre une garantie de stabilité et de compatibilité, du fait de l’utilisation de langages et d’outils standards pour la construction des ontologies et le recueil des annotations. Parmi les systèmes visés figurent des applications de mémoire d’entreprise distribuée, de mémoire de projet avec retour d’expérience, de cartographie de compétences pour l’aide à la recherche de partenaires commerciaux et industriels.

Dans le secteur du tourisme

19

Pour preuve de la maturité atteinte par les techniques du web sémantique et de l’intérêt de les appliquer à des secteurs fortement demandeurs, on peut évoquer des applications dans le domaine du tourisme, qui est l’industrie la plus numérisée. Les collectivités locales, en particulier, ont beaucoup à gagner, économiquement et en notoriété, en mettant en valeur sur le réseau leurs atouts touristiques. D’où la conception d’un service web chargé d’organiser et de présenter les ressources documentaires d’une région, issues de sources d’information variées, locales ou non. Ce service réutilise le thésaurus de l’OMT (Organisation mondiale du tourisme) et en fait une partie de l’ontologie de l’application, tout en le complétant par des connaissances sur les lieux, les personnes et les objets touristiques pertinents (hébergement, patrimoine, transports).

Dans le domaine de la presse et des médias

20

Une autre problématique sectorielle, expérimentée lors de l’Exposition mondiale 2000 à Hanovre, concerne la presse et les médias. Le problème posé par le traitement intelligent de l’information dans ce secteur est qu’il n’est guère envisageable de décrire ou d’indexer l’intégralité de sa production documentaire : volumes importants, très rapide renouvellement et durée de vie très brève de l’information sont des contre-indications du traitement documentaire classique, sur le plan économique comme sur celui de l’efficacité. Il est en revanche possible de capturer à la fois l’univers référentiel, la sémantique et la phraséologie de la presse dans une ontologie, laquelle peut être exploitée pour rechercher intelligemment dans le texte intégral. L’approche défendue ici est donc celle, un peu paradoxale, d’une application de web sémantique sans métadonnées. L’idée de déplacer l’essentiel de la charge de travail vers la formalisation des connaissances donne un aperçu de la manière dont pourraient évoluer les missions des professionnels de l’information dans l’avenir.

Les obstacles

21

Est-ce à dire que nous touchons à l’âge d’or de l’information sur les réseaux ? Pas tout à fait : un certain nombre de problèmes à la fois méthodologiques, techniques et organisationnels demeurent, et appellent à poursuivre les travaux de recherche.

22

Par exemple, sur le web, la notion de document est plus ou moins co-extensive à celle de page, ce qui dans beaucoup de cas n’est guère satisfaisant. On sait que tout traitement documentaire suppose la délimitation de l’unité documentaire à traiter, et il n’en ira pas différemment pour le recueil de métadonnées. Il importe donc de réfléchir à cette question dans le cas du document numérique sur le réseau.

23

Mais il faudra surtout, lors du passage à la pratique, en grandeur réelle, répondre au double défi que représentent la création et la mise en œuvre des ontologies et la constitution des métadonnées.

Difficulté de mise en œuvre des ontologies

24

Les ontologies sont en théorie plus complètes, plus détaillées et plus complexes que les thésaurus, et risquent de se révéler encore plus ardues à confectionner et à maintenir. C’est pourquoi des éléments de méthodologie sont indispensables, et commencent à voir le jour. Bien que présentées initialement comme des instruments idéalement formels et raffinés, les ontologies « réelles » sont plus pragmatiquement le résultat de multiples compromis entre fonctionnalité et complexité. Il s’agit donc d’adapter leur niveau de détail à leurs visées opérationnelles, de concilier le volume de concepts à représenter avec le maintien de la cohérence, et de garantir le degré de formalisation requis par les capacités des logiciels qui devront les utiliser.

25

Au-delà de la mise au point de méthodes pour créer les ontologies, l’ingénierie ontologique doit aussi se préoccuper de divers aspects relatifs à leur exploitation : ainsi, assurer l’interopérabilité de ressources hétérogènes nécessitera de fusionner différentes ontologies du même domaine ou de domaines connexes. Compte tenu de la multiplicité des points de vue possibles sur une même réalité, cette tâche risque de ne pas aller de soi.

Difficulté de gestion des métadonnées

26

Le deuxième défi du passage à la pratique réside dans l’organisation du recueil des métadonnées. Qui les constitue et à quel moment sont-elles créées ? Dans le modèle documentaire traditionnel, elles le sont a posteriori, par des experts de la description des contenus ; les promoteurs du web sémantique voient plutôt les métadonnées comme sous-produit de l’activité de production d’information. Cette dernière hypothèse est viable tant que l’on se limite à un noyau conventionnel de métadonnées, de type Dublin Core, ou dans le cas d’une information produite par l’institution qui l’utilisera ; elle est moins crédible dès lors que les usages de cette information ne sont pas connus à l’avance, et des scénarios intermédiaires de partage des tâches devront être imaginés.

27

Quel que soit le scénario retenu, il est impératif de disposer d’outils de productivité garantissant la cohérence syntaxique (les métadonnées doivent respecter le formalisme voulu) et la pertinence sémantique (les valeurs choisies doivent figurer dans l’ontologie de référence et bien caractériser les objets décrits). Certains de ces outils existent déjà, reste à valider leur efficacité.

Les enjeux économiques restent à étudier

28

Subsiste enfin la question des coûts, posée à plusieurs reprises. Peut-être n’était-ce pas le lieu de le faire, puisque cette journée était dédiée aux enjeux documentaires du web sémantique ; aussi faudra-t-il la soulever de nouveau lors d’une autre journée, consacrée cette fois à ses enjeux économiques, sous la forme moins décourageante d’une étude du rapport coûts / bénéfices de sa mise en œuvre.

Résumé

Français

Extension du web visant à rendre les contenus exploitables et interprétables par des machines, le « web sémantique » présente-t-il de nouveaux enjeux pour les professionnels de l’information et de la documentation ? Pour aborder cette question, l’IUT de l’Université Paris-V et l’ADBS ont réuni chercheurs et praticiens, lors d’une journée d’étude proposée le 14 octobre dernier à Paris. Exposés techniques et exemples d’applications ont permis d’engager un débat avec les professionnels, particulièrement concernés par les perspectives ouvertes par le web sémantique.

Plan de l'article

  1. Les principes
    1. Les métadonnées
    2. Les ontologies
    3. Les méthodes de raisonnement
    4. Un besoin de standardisation
  2. Les applications
    1. Dans le monde de l’entreprise
    2. Dans le secteur du tourisme
    3. Dans le domaine de la presse et des médias
  3. Les obstacles
    1. Difficulté de mise en œuvre des ontologies
    2. Difficulté de gestion des métadonnées
    3. Les enjeux économiques restent à étudier

Pour citer cet article

Menon Bruno, « Journée d'étude ADBS - IUT Paris-V. Le web sémantique : de nouveaux enjeux documentaires ? », Documentaliste-Sciences de l'Information, 6/2003 (Vol. 40), p. 387-391.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2003-6-page-387.htm
DOI : 10.3917/docsi.406.0387


Article précédent Pages 387 - 391 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback