Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2006/5 (Vol. 43)

  • Pages : 86
  • DOI : 10.3917/docsi.435.0324
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 324 - 326 Article suivant
1

LA GESTION ELECTRONIQUE DE DOCUMENTS (GED) FAIT DEPUIS longtemps partie du quotidien des professionnels de l’information. Originellement assimilée à la numérisation, elle s’appuie désormais sur toute la gamme des technologies d’acquisition du document numérique : liens profonds vers les sites externes et récupération de documents viennent compléter les possibilités de dématérialisation des supports papier. La GED est ainsi devenue incontournable pour toutes les applications documentaires, de la veille à la capitalisation des connaissances, en passant par la diffusion de l’information. Mais la constitution de fonds numériques qu’elle rend possible soulève cependant un certain nombre d’interrogations, notamment techniques. Cette matinée fut l’occasion de faire le point, à travers des présentations tour à tour pratiques et théoriques, sur les objectifs de la numérisation et sur la question, toujours épineuse, des formats de fichiers.

Numériser, pour quoi faire ?

2

Une des caractéristiques d’un fonds documentaire est qu’il est généralement constitué de documents très variés dans leur forme : documents numériques natifs, documents numérisés à partir de différents supports, documents issus de différentes sources (internes/externes), etc., ainsi que dans leur contenu : texte, image, son, multimédia... Dans le souci d’une meilleure gestion de l’information, la nécessité d’une unification s’impose dès lors que l’on veut élargir l’accès à l’information, la valoriser ou conserver un fonds plus ou moins ancien (archivage). Quelques impératifs, qui détermineront la stratégie de numérisation, sont d’emblée à prendre en compte pour mener au mieux cette opération d’unification : examen des aspects juridiques (droit d’auteur, droit des éditeurs, etc.), choix du mode d’acquisition des données et choix des outils de gestion et de diffusion pour l’exploitation finale du fonds.

3

L’acquisition des données (documents numériques natifs et documents à numériser) peut se faire selon trois modes : le mode vectoriel est surtout utilisé pour les plans et les schémas ; le mode image permet de conserver la mise en page du document d’origine mais suppose une description et une indexation qui faciliteront l’accès au document ; le mode texte, enfin, où l’image du texte est analysée par un logiciel de reconnaissance optique de caractère (OCR) afin d’en récupérer le contenu (mais, pour que l’OCR offre de bons résultats, le support d’origine doit être de bonne qualité.)

4

Le traitement des données dépend des documents considérés. Si les documents numériques natifs possèdent des métadonnées associées au document à la source, elles pourront être importées directement dans le système ; sinon, il faudra les créer lors de l’acquisition. Quant aux documents à numériser, il faudra, en mode image, indexer sur notice et/ou créer des métadonnées associées au fichier ; en mode texte, procéder à une indexation manuelle ou automatique à l’aide d’un outil d’analyse de document.

Le programme et les intervenants

Présidente de séance : Michèle Lénart, présidente de la commission Technologies et méthodes de l’ADBS

> Numériser, pour quoi faire : objectifs, réalités, contraintes… et illusions. Par Myriel Brouland, Ourouk

> Les formats de représentation de documents face aux contraintes de conservation et diffusion. Par Jean-Pierre Blanger, RICOH

> Mise en place du portail documentaire de Radio France, par Christine Berdon et Claire Scopsi, Radio France

Les supports des interventions sont accessibles aux adhérents sur le site de l’ADBS, à l’adresse wwww. adbs. fr/ site/ evenements/ journees/index.php?annee=2006

5

La pérennité des supports et des outils de lecture, donc le stockage des fichiers, reste un problème majeur et de brûlante actualité. Les choix en la matière doivent être orientés en gardant toujours à l’esprit l’objectif de la numérisation du fonds : est-elle entreprise dans un but d’archivage/conservation (stockage sur support de type bande magnétique), de valorisation/édition (stockage hors ligne type CD, DVD), ou de valorisation/diffusion (stockage sur disque dur pour diffusion en ligne) ? La tendance actuelle privilégie cette dernière option.

6

Deux objectifs peuvent évidemment être poursuivis simultanément. À l’Institut national de l’audiovisuel (INA), donné ici en illustration, la numérisation du fonds sous-tendait deux projets : la conservation à long terme et la diffusion massive par l’intermédiaire d’un site Internet. Le travail en amont, qui permet de bien définir ce que l’on veut faire, est donc d’une importance capitale avant toute entreprise de numérisation.

7

Les trois autres projets de numérisation présentés (un fonds de documents scientifiques, un fonds d’articles de presse et un fonds historique) ont illustré la variété des solutions de numérisation.

8

Cette période de transition entre papier et tout numérique, où l’on s’inquiète de la faible pérennité des supports, formats et outils, laisse entrevoir de constantes évolutions.

Les formats de représentation

9

Question très technique mais absolument essentielle, les formats de représentation sont une composante indissociable du document numérique. Ce sont eux qui permettront les échanges en déterminant les règles et conventions d’organisation des contenus. Ils contiennent trois catégories d’information : des éléments de description (langue, date, auteur, version, format, etc.) ; du contenu (texte, police de caractères, image, son, etc.) ; et des données de service (accès, confidentialité, signature, conditions d’affichage, etc.).

10

Avant de faire le choix d’un format, il faut donc bien étudier ses caractéristiques et s’assurer qu’il répond aux exigences minimales requises, parmi lesquelles notamment la compacité, la complétude, la pérennité, la portabilité, la réutilisabilité, la standardisation et la normalisation… Puis s’interroger sur les usages envisagés ; création, stockage et conservation, diffusion, identification d’un contenu avec particulièrement l’identification orientée métier, attribut qui va prendre de plus en plus d’importance dans la caractérisation des documents.

11

Il existe actuellement une multitude de formats. Parmi les plus récents, et pas forcément connus dans le monde documentaire : TIFF pour les images, Open Document et Open XML pour les suites bureautiques, PDF, PDF/A et XPS pour l’édition et la conservation à long terme.

12

• TIFF (.tif) est un format public, c’est-à-dire que l’on peut accéder à ses spécifications. Il est intéressant pour les images puisque fondé sur une structure balisée pour l’enregistrement et l’échange d’images facsimilées.

13

• Open Document Format (ODF) est un format de compression édité par la communauté du libre. C’est un fichier Zip fondé sur un schéma XML unique qui a été adopté en mai 2005 par l’Organization for the Advancement of Structured Information Standards (OASIS).

14

• Open XML (.docx,.xlsx,.pptx, etc.) est un format de document bureautique open source de Microsoft Office. Son intérêt réside notamment dans la possibilité qu’il offre de baliser le contenu en prenant en compte l’orientation métier.

15

• PDF et PDF/A (.pdf), largement adoptés pour l’édition de documents et la conservation à long terme, sont des formats publics d’Adobe. Le format PDF/A (A pour « archive ») est devenu une norme ISO en octobre 2005.

Projet Doc_RF de Radio France : une indexation et un portail d’accès communs
16

• XPS (XML Paper Specification,.xps) est un format public récent de Microsoft, concurrent de PDF. Il devrait être intégré dans Microsoft Office 2007.

17

Évidemment, le format adopté déterminera les usages ultérieurs du document. Il est donc impératif, pour toute organisation, d’élaborer une « charte du document » qui devra préconiser les formats de représentation en fonction des usages, préciser les bonnes pratiques pour la création, l’archivage et la conservation, définir les méthodes de vérification des logiciels utilisés pour la création ou la génération des documents numériques et de l’intégrité des documents produits.

Le portail documentaire de Radio France

18

La présentation du projet mené à Radio France a servi d’illustration pratique aux deux exposés précédents. Actuellement, les fonds documentaires de l’entreprise radiophonique sont très variés (discothèque centrale, documentation des émissions, documentation sonore d’actualité, fonds E-doc associé au site Internet, documentation d’actualité presse, bibliothèque, documentation musicale, bibliothèque d’orchestre) et font l’objet d’applications dispersées dont plusieurs sont fondées sur Doris/Loris.

19

Diffusées sur un intranet, ces applications ne sont cependant pas suffisamment performantes (recherche uniquement par mot clé et application par application) et sont donc complétées par des produits documentaires (dossiers documentaires avec des liens vers les différents fonds, notices nécrologiques, etc.). D’autre part, les données documentaires, tous fonds confondus, souffrent d’un isolement technique en raison de leur format, différent de celui de référence utilisé par les différentes antennes de Radio France.

20

L’objectif du projet présenté est donc de fédérer les différentes applications autour d’un portail pour permettre l’interrogation simultanée de celles-ci, de mettre en place un moteur de recherche adapté à l’indexation en texte intégral (les utilisateurs non-documentalistes utilisant plus volontiers le langage naturel dans leurs recherches), de proposer des outils (webservices) permettant l’intégration des données documentaires dans les applications d’antenne où elles seraient une valeur ajoutée (concrètement : accéder directement d’une application métier aux applications documentaires) et enfin d’unifier les formats (choix des mêmes technologies que celles des applications d’antenne) – tout en préservant les spécificités de production ou d’acquisition des documents. Ce portail « Doc_RF » est à ce jour en cours de réalisation.

21

Dans l’avenir, un autre projet nommé « Audio-surf » permettra la retranscription sous format texte des émissions sonores, une technique qui assure un meilleur taux de reconnaissance lors d’une recherche et une lecture plus rapide pour les professionnels documentalistes.

Résumé

Français

Dans le cadre du dernier Forum de la GEIDE, l’Association des professionnels de l’information et de la documentation (ADBS) proposait le 3 octobre 2006 une demi-journée d’étude pour faire le point sur l’usage de la gestion électronique de documents pour la constitution de fonds documentaires : les différentes étapes à respecter, les précautions à prendre selon les documents que l’on traite et les objectifs assignés à leur numérisation, les formats de représentation auxquels on peut recourir. L’exemple du portail documentaire de Radio France a été présenté en illustration.

Plan de l'article

  1. Numériser, pour quoi faire ?
  2. Les formats de représentation
  3. Le portail documentaire de Radio France

Pour citer cet article

Ferchaud Bernadette, « Journée d'étude ADBS. Constituer un fonds documentaire numérique», Documentaliste-Sciences de l'Information 5/2006 (Vol. 43) , p. 324-326
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2006-5-page-324.htm.
DOI : 10.3917/docsi.435.0324.


Article précédent Pages 324 - 326 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback