Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2006/2 (Vol. 43)

  • Pages : 86
  • DOI : 10.3917/docsi.432.0144
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 144 - 147 Article suivant
1

LE TERME FAIT PARFOIS UN PEU PEUR AUX PROFESSIONNELS DE L’INFORMATION ET documentation alors que le concept est bien connu : au sens étymologique, les métadonnées sont des données sur les données dont la fonction est de qualifier un document ou une information, aujourd’hui essentiellement une ressource électronique. Mais ces métadonnées vont bien au-delà des traditionnelles données bibliographiques ou d’indexation. En effet, la gestion du cycle de vie des documents, la production et la diffusion d’information par différents canaux sont fondées sur leur utilisation. Le développement du web sémantique s’appuie sur les métadonnées à la fois pour augmenter la qualité des recherches et offrir de nouveaux services. Ce mouvement ne fera que se renforcer.

2

Les deux premières interventions de cette journée ont permis de poser les enjeux des métadonnées pour les professionnels de l’information : elles proposaient un aperçu de ce phénomène, à la fois théorique dans la première intervention et technique dans la deuxième qui brossait un panorama de métadonnées disponibles. Les autres communications pointaient l’usage des métadonnées dans des contextes variés mais précis, avec comme finalité la valorisation de l’information : le domaine des archives et du records management, les métadonnées encapsulées dans les logiciels d’Adobe, les ressources audiovisuelles, les dictionnaires, les sites web. L’intervention de clôture précisait le sens de métadonnées dans le contexte du web sémantique.

Entre description bibliographique et outil de structuration des documents

3

De quoi s’agit-il ? D’où viennent les métadonnées ? Quels usages en peut-on faire ? Si l’on part de la définition communément admise – les métadonnées sont des données sur les données – se pose aussitôt la question de savoir comment définir une donnée. Elle est souvent considérée comme une information ou une connaissance, ce qui soulève le problème de son traitement et de l’interprétation d’une donnée isolée, sans éclairage sur son contexte ou sur le sens dans lequel elle a été élaborée.

4

Les données doivent donc être fournies dans un cadre structurel qui permettra de restituer un sens à un ensemble d’entre elles. Ce qui est important, c’est l’éclairage mutuel, le lien qui existe entre données et structure et qui s’établit grâce aux métadonnées.

5

La description d’objet existe depuis longtemps, mais l’apparition du document électronique a provoqué une rupture. Une ressource numérique inclut à la fois un contenu et son appareillage (« bibliographique, descriptif et structurel »), beaucoup plus riche de fait qu’une simple notice dans une base de données. Les métadonnées se situent au carrefour de la description bibliographique et de la structuration des documents qu’elles renouvellent toutes deux.

Le programme de la journée et les intervenants

Les métadonnées entre description bibliographique et outil de structuration des documents, par Dominique Cotte, maître de conférences en SIC à l’Université Lille-3 et consultant au cabinet Ourouk

Une jungle d’acronymes : comment choisir son schéma de métadonnées ? Par Patrick Le Bœuf, conservateur au service de normalisation documentaire de la Bibliothèque nationale de France (BnF)

Constitution de jeux de métadonnées en fonction des contextes, l’exemple du records management, par Geneviève Drouhet, responsable du centre d’archives du groupe Médéric

Les métadonnées vues par l’inventeur du PDF, par Jimmy Barens, directeur avant-vente pour l’Europe de l’Ouest chez Adobe

L’utilisation des métadonnées dans la production et la diffusion d’un dictionnaire sur différents supports, par Louis Lecomte, société Larousse

Nouvelles formes de numérisation et d’indexation pour permettre la diffusion de contenu audiovisuel sur différents supports, par Philippe Hénaux, Cognacq Jay Image

Rôle et place des métadonnées parmi les techniques actuelles d’optimisation de la visibilité de son site web, par Bertrand Sajus, Ministère de la Culture, et Olivier Roumieux, La Documentation française

Rôle des métadonnées dans le développement du web sémantique, par François-Yves Villemin, Conservatoire national des arts et métiers (CNAM)

6

Le fait pour un document numérique de contenir sa propre description, en plus de l’information qu’il véhicule, a été rendu possible grâce au développement des langages à balises. Un des premiers, SGML, a été créé dès 1969 pour les documents imprimés dans l’objectif de structurer le texte afin de faciliter le dialogue entre les machines pour l’édition.

7

L’idée nouvelle est de faciliter la description d’un document en la plaçant non plus en aval mais en amont afin d’y introduire dès le début de la production éditoriale des éléments descriptifs. Se pose ensuite la question de savoir qui doit le faire : l’auteur ou le professionnel de l’information ? Aujourd’hui, avec le développement des outils de gestion de contenu, tout le monde peut publier des pages sur l’Internet ou sur des intranets. Cela impose de mettre au point une démarche visant à rendre explicite ce qui est implicite dans un document.

8

Deux autres problèmes apparaissent aujourd’hui avec l’utilisation des outils électroniques : l’accès à l’information par fragments et la difficulté de reconstituer la filiation entre les données elles-mêmes.

9

Au-delà de la notion même d’indexation, les métadonnées devraient permettre de structurer le contenu d’un document nativement numérique de façon plus fine, tout en restituant son sens. D’importantes possibilités découlant naturellement de l’utilisation des métadonnées permettront à la fois d’exploiter précisément l’information contenue dans un document mais aussi de modéliser des ensembles de documents. Des exemples de modélisation existent, notamment dans le domaine pédagogique.

10

Il est important de ne pas sous-estimer la réflexion qui doit être faite en amont et qu’il ne faut pas limiter à reproduire une indexation de type bibliographique. Cette réflexion doit pleinement s’intégrer à la production éditoriale elle-même. En fonction de l’usage envisagé, elle doit être intégrée dès la conception d’un document et s’appuyer sur les normes existantes pour exploiter au mieux les documents numériques.

11

Par rapport aux divers contextes professionnels, différents schémas de métadonnées peuvent être envisagés [voir en hors texte pages 146-147].

Constitution de jeux de métadonnées en fonction des contextes : l’exemple du records management

12

Le « record » – ou document d’archive, si l’on adopte cette traduction floue qui ne renvoie qu’au document papier – doit être le reflet de ce qui a été dit, décidé et effectué. Il doit inclure les métadonnées qui sont une partie indissociable de son « management ».

13

Après une première norme générale sur le records management définie en 2001, il a été décidé d’élaborer une norme internationale sur les métadonnées liées au RM. Celle-ci est structurée en trois parties portant sur les principes directeurs, sur la mise en œuvre et sur une analyse critique des jeux de métadonnées centrée sur InterPARES (International Research on Permanent Authentic Records in Electronic Systems).

14

Les principales caractéristiques de ces trois jeux de métadonnées sont d’être pratiques à mettre en œuvre et faciles à utiliser. Le jeu de quinze métadonnées normalisées du Dublin Core, le plus sommaire, a servi d’ossature aux autres. Les métadonnées du gouvernement de Grande-Bretagne, structurées en dix-sept éléments, donnent au record sa valeur d’archive (record-ness). Le troisième, celui du gouvernement du Québec, s’appuie sur la gestion intégrée des documents au sein d’un ensemble de services fonctionnant en réseau. Il existe trois profils d’application (le document de référence, le document de transaction et le dossier) correspondant à trois niveaux de contrainte (obligatoire, sous condition ou facultatif).

15

Si les métadonnées assurent l’authenticité, la fiabilité, l’intégrité et la disponibilité des données, il subsiste aujourd’hui un écart sensible entre une démarche sophistiquée et une mise en œuvre encore rudimentaire au sein des entreprises.

Une jungle d’acronymes : comment choisir son schéma de métadonnées ?

Il existe trois types de métadonnées : les généralistes (MARC/MARCXML, MODS/MADS, Dublin Core, ONIX, etc.), les métadonnées spécialisées en fonction des types de documents (textes, manuscrits, archives, thèses, documents audiovisuels, etc.) ou de la discipline concernée (DDI pour les enquêtes en sciences sociales, LOM pour les ressources pédagogiques), et enfin les métadonnées de structure pour les ressources complexes numérisées (METS, par exemple).

Les métadonnées peuvent concerner un ensemble de ressources, une ressource individuelle ou encore une partie d’une ressource. Elles peuvent être encapsulées, englobantes ou externes.

Dans le monde des bibliothèques, on trouve le format traditionnel de description bibliographique MARC (Machine Readable Cataloging), et son éventuel successeur MODS (Metadata Object Description Schema), développé également par la bibliothèque du Congrès. Il permet soit de récupérer une partie de notice en MARC21 soit de créer des métadonnées originales. Il est enrichi par le format MADS (Metadata Authority Description Schema) sur la notion d’autorité.

Par ailleurs, il existe le Dublin Core, créé aux États-Unis (Ohio) en 1995 pour définir pour différentes communautés d’utilisateurs un ensemble commun de métadonnées qui soit le plus simple possible à manipuler, tout en étant suffisamment structuré pour améliorer la performance des moteurs de recherche. Le format ONIX (Online Information eXchange) pour les ouvrages ou les publications en série provient quant à lui du monde de l’édition et affiche comme objectif de rendre les livres plus attractifs.

En ce qui concerne les métadonnées spécialisées par types de documents, il existe le format TEI (Text Encoding Initiative) pour « l’échange de données textuelles, notamment pour les sciences humaines et les textes littéraires », le format MASTER (Manuscript Access Through) pour les manuscrits, dont le but est de permettre l’accès en ligne à tous les manuscrits numérisés. Pour les archives, EAD (Encoded Archival Description) est un format normalisé de description des instruments de recherche archivistiques. Il autorise les métadonnées englobantes et est enrichi par le format EAC (Encoding Archival Context) pour les autorités. TEF (Thèses électroniques françaises), format le plus récent (mars 2006), est actuellement dans sa phase d’examen critique. Il permettra l’échange entre les universités des thèses numérisées ainsi que leur archivage. Pour d’autres types de ressources numériques, il existe VRACore pour la description d’œuvres numérisées, issu du secteur de l’art plastique, CIMI XML Schema pour des ressources muséographiques et MPEG7 pour des objets audiovisuels numériques.

Les métadonnées vues par Adobe

16

Premier producteur de formats de fichiers produits dans le monde, Adobe a constaté une hétérogénéité des formats de métadonnées mis en œuvre dans ses différents logiciels. Il lui a donc semblé nécessaire de normaliser ses métadonnées, sous la pression de l’explosion du contenu numérique et du développement des photos numérisées.

17

La démarche retenue a été de se situer à l’intérieur du cycle de vie du document numérique, avec comme objectif un format unique permettant un accès universel à toute la communauté des utilisateurs et en se fondant sur les préconisations du web sémantique. Pour cela, la société s’est appuyée sur les standards (PDF, XML), en partant du principe que c’est à l’ordinateur de rechercher de façon efficace dans le fonds, sans changer les habitudes des utilisateurs ; tout en leur demandant cependant de prendre quelques instants pour saisir les métadonnées du document qu’ils sont en train de créer.

18

Les équipes d’Adobe ont mis au point en 2001 XMP (Extensible Metadata Protocol), qui n’est pas un format complet de fichier mais qui doit être intégré comme en-tête dans les formats d’origine. Il s’agit d’un standard ouvert pour l’échange de métadonnées entre formats de fichier permettant plus particulièrement une gestion des droits des utilisateurs et des recherches plus pertinentes.

La production et la diffusion d’un dictionnaire sur différents supports

19

Un dictionnaire comme le dictionnaire Larousse, très codifié et de conception très ancienne, est de fait structuré par différentes métadonnées. Tous les indices lexicaux ou extralexicaux (catégories grammaticales, définitions, exemples proposés, mentions étymologiques, référents des mots, etc.), constituent un jeu de métadonnées particulier à ce type de document. Le balisage technique de ces métadonnées, avec SGML puis XML, a permis de proposer des vues différentes d’une même source, par exemple sur cédérom et sur papier, et de faciliter l’accès aux articles du dictionnaire.

20

Mais les logiques sous-tendues par ces technologies permettent d’aller plus loin. Le dictionnaire peut ainsi être exploité comme une ressource lexicologique pour une recherche d’information. C’est l’objet du CoPilote, assistant de recherche qui permet de poursuivre sur Internet une recherche à partir du Petit Larousse. Le système propose à l’utilisateur d’opérer sa sélection parmi les différents sens qui peuvent être associés à la question, puis il enrichit la requête, automatiquement, de mots clés contextuels sélectionnés dans la ressource terminologique. En exploitant finement son contenu et sa structure, le dictionnaire permet ainsi de lever toute ambiguïté de la question initiale et de reformuler la requête qui sera finalement transmise au moteur de recherche sur le web.

Diffusion de contenu audiovisuel sur différents supports

21

Après avoir fortement informatisé la production des ressources, le secteur de l’audiovisuel se trouve actuellement dans une problématique de valorisation de ce patrimoine. Les usages et les pratiques se multiplient sur des supports et pour des terminaux variés. Garantir à la fois la réponse à ces besoins et les droits à des coûts acceptables suppose des infrastructures adaptées, interopérables et intégrant de nombreuses métadonnées qui facilitent ces usages.

22

Différents aspects fonctionnels ou techniques doivent être traités simultanément pour assurer un service complet. L’enrichissement des contenus par des méthodes manuelles ou automatiques (reconnaissance d’images, chapitrage par storyboard, transcription textuelle des dialogues ou commentaires d’un programme, etc.) permet de faciliter la création de catalogues. Les formats techniques d’encodage assurent dans le temps la diffusion des médias (MPEG2, MPEG4), l’intégration de moyens de paiement sécurisé, la prise en charge des formats très récents comme MPEG7 pour les métadonnées, MXF en amont pour la production et la post-production, TV Anytime pour la diffusion sur des terminaux de réception, ou encore DRM pour la gestion des droits.

23

Cette multiplicité de standards et/ou normes constitue bien sûr un frein. La norme MPEG21 (ISO 21000-1 à 21000-16), qui prend en charge au sein d’une infrastructure globale dénommée « cadre multimédia » différents modules techniques, légaux ou d’identification et de description des contenus, constitue une solution d’avenir pour l’échange normalisé de contenus multimédias.

Une meilleure visibilité de son site

24

En ce qui concerne l’usage des métadonnées, l’histoire d’Internet et du web peut se scinder en trois étapes. Après une période d’utilisation intense des balises méta HTML, en particulier des keywords, le spamming a freiné, voire arrêté l’utilisation de ces métadonnées keywords. L’arrivée de moteurs comme Google excluant ces métadonnées de ses traitements a accéléré le processus. Aujourd’hui une troisième étape démarre avec une utilisation des métadonnées « Titre/Description », ce qui peut s’avérer très efficace pour une meilleure visibilité de son site web.

25

Les moteurs exploitent en fait ces deux zones d’une part dans le traitement initial et d’autre part pour la pondération des résultats de la recherche. Lorsqu’elle est jugée « pertinente » par les moteurs, la zone « Description » est exploitée également dans la présentation des résultats afin d’orienter au mieux le lecteur. Une attention portée à cette zone constitue un atout à la fois pour l’attractivité de son site, mais aussi pour la navigation de l’internaute s’il arrive sur ce site à partir du moteur. Ce travail à valeur ajoutée sur ces zones constitue aussi un appui à la gestion du document en amont et en aval de sa publication. Les exemples montrent qu’une réflexion doit être menée sur une meilleure structuration de cette zone de métadonnées : « Artiste-date-lieux » pour des expositions, « Nom d’auteur-titre » pour des ouvrages, rubriques et sous-rubriques de dossiers ou structures de sites.

Métadonnées et web sémantique

26

Poursuivant le développement de la toile, le web sémantique doit être considéré dans une logique d’utilisation du web par des machines, et non exclusivement, comme actuellement, par l’homme. Ainsi, toute donnée doit être accompagnée d’informations permettant à des machines de l’exploiter.

27

Un des premiers mécanismes adopté pour cela a été l’ajout de métadonnées. La métadonnée est alors considérée comme « une donnée qui contient la sémantique, c’est-à-dire l’explication de la donnée à laquelle elle réfère et son contexte ». Ces métadonnées peuvent être externes à l’objet : c’est le cas des Topic Maps. Les Topic Maps correspondent à un formalisme, non hiérarchique, utilisable pour des index, tables de matières, glossaires ou thésaurus sous la forme d’un réseau sémantique. Les métadonnées peuvent être également internes à l’objet : c’est ce que propose le langage RDF.

28

Quant à la sémantique attribuée à la métadonnée, elle peut représenter une connaissance que l’on pourrait appeler objective dans le cas du Dublin Core, ou une connaissance communautaire dans le cas des ontologies. Les ontologies permettent de partager des informations en fournissant une sémantique formelle (lisible par une machine) d’un domaine du réel fondée sur un consensus entre experts. Une ontologie comprend un vocabulaire commun aux experts et une représentation des relations entre ces termes, d’où leur fréquente association avec les taxonomies ou les thésaurus. Il faut noter toutefois que ces relations sont sensiblement plus complexes que celles utilisées dans les langages documentaires.

Valoriser les fonds documentaires

29

La forte proximité des métadonnées avec les principes de la description bibliographique ne doit pas faire oublier l’étendue ni la diversité des applications et des usages des jeux de métadonnées. Dans ce contexte technique, la valorisation des fonds traités par les professionnels de l’I&D constitue une occasion idéale de revisiter l’étape de description et celle de conception d’une offre documentaire enrichie par des manipulations diverses à partir des métadonnées.

Résumé

Français

Les différents usages des métadonnées pour la gestion du cycle de vie des documents et pour la production et la diffusion d’information par différents canaux, l’impact des métadonnées sur la valorisation de l’information grâce à sa manipulation par des programmes informatiques : tels étaient les thèmes d’une journée d’étude conjointement organisée le 4 avril 2006 au CNAM par a commission Technologies et méthodes de l’Association des professionnels de l’information et de la documentation (ADBS) et l’Institut national des techniques de la documentation (INTD-CNAM).

Plan de l'article

  1. Entre description bibliographique et outil de structuration des documents
  2. Constitution de jeux de métadonnées en fonction des contextes : l’exemple du records management
  3. Les métadonnées vues par Adobe
  4. La production et la diffusion d’un dictionnaire sur différents supports
  5. Diffusion de contenu audiovisuel sur différents supports
  6. Une meilleure visibilité de son site
  7. Métadonnées et web sémantique
  8. Valoriser les fonds documentaires

Pour citer cet article

Baudry de Vaux Marie, Dalbin Sylvie, « Journée d'étude ADBS-INTD. Métadonnées et valorisation de l'information», Documentaliste-Sciences de l'Information 2/2006 (Vol. 43) , p. 144-147
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2006-2-page-144.htm.
DOI : 10.3917/docsi.432.0144.


Article précédent Pages 144 - 147 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback