Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2002/3 (Vol. 39)

  • Pages : 60
  • DOI : 10.3917/docsi.393.0130
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 130 - 133 Article suivant
1

IL N’EST NULLEMENT BESOIN DE DEMONTRER AUJOURD’HUI les multiples intérêts d’une numérisation. Mais cette opération, fondamentale pour parvenir à une réelle valorisation du document source, doit être effectuée avec précaution. Plusieurs solutions adoptées pour numériser des documents patrimoniaux ou des archives, et testées dans le cadre d’études pointues ou d’usages savants, ont été présentées lors de cette manifestation, ainsi que des expériences de numérisation de fonds littéraires.

Prendre en compte les complexités de l’édition ancienne

2

Le Conservatoire national des arts et métiers (CNAM) entreprend de numériser son fonds ancien constitué de cent cinquante mille ouvrages scientifiques et techniques présentant toutes les complexités d’une édition ancienne (format, pagination, illustration, etc.). Il est d’ores et déjà envisagé que les solutions techniques choisies, adaptées au contexte technique actuel, soient remises en question au fur et à mesure de leur évolution.

3

Ce sont les fac-similés de quelques ouvrages qui sont proposés en ligne aujourd’hui, auxquels sont associés des répertoires alimentés manuellement. Les tables de matières et d’illustrations présentes en mode texte sont également saisies par des prestataires externes. Les erreurs constatées après la mise en correspondance des fac-similés et des tables sont analysées et leur nombre diminue progressivement. L’analyse des différents formats de diffusion proposés sur le marché a permis d’opter aujourd’hui pour le format gif [1][1] Parmi le grand nombre de sites proposant des définitions.... Quant à la navigation, elle se fait par feuilletage et mise en regard des pages, adaptée à la spécificité de ces documents. La recherche peut être effectuée sur les notices et les tables ou par des moteurs de recherche externes.

4

Ce travail de numérisation implique aussi une analyse des pratiques de lecture à partir des journaux d’activité (logs), qui sera diffusée très prochainement, mais il apparaît déjà que le confort de lecture de ces bibliothèques virtuelles doit être amélioré.

5

Le système développé aujourd’hui est adapté à une simple mise à disposition des fac-similés et à leur impression à distance. Les études se poursuivent dans le domaine tridimensionnel [2][2] Entre autres en utilisant le VRML (Virtual Reality....

Les journées d’étude

Cette manifestation a été organisée, dans le cadre de l’Institut des sciences du document numérique (ISDN) Rhône-Alpes, par l’École normale supérieure de lettres et sciences humaines et le laboratoire Reconnaissance de formes et vision de l’Institut national des sciences appliquée (INSA). Elle a eu lieu le 7 mars 2002 à Lyon, autour de trois sessions qui font l’objet de ce compte rendu.

Quatre autres exposés ont été proposés par la suite dans le cadre des « Jeudis du numérique » (voir page suivante), lors d’une conférence prononcée simultanément en visioconférence à l’École nationale supérieure de lettres et sciences humaines de Lyon, l’Institut de la communication et des medias (ICM) d’Echirolles, l’Espace Culture Multimédia de l’École nationale supérieure des Mines (EMSE) de Saint-Etienne :

  • L’historien et la numérisation du patrimoine livresque français, par François Dupuigrenet Desrousilles (ENSSIB) ;

  • Des usages…, par Jean-Pierre Sakou (Oséa) ;

  • L’art de numériser, par Christian Chabrier (Arkhenum) ;

  • La numérisation a-t-elle encore un avenir ? par Hubert Emptoz (INSA).

Ces quatre conférences sont disponibles sous forme de diaporama (format powerpoint) ou sous forme audiovisuelle (format SMIL : Synchronized multimedia integration language, nécessitant le téléchargement gratuit du lecteur Real Player) sur le site de l’ISDN : <//isdn.enssib.fr>.

La numérisation des revues mathématiques françaises

6

Ce travail a été confié à la cellule Mathdoc qui, au sein du CNRS, est chargée de piloter ce programme spécifique. L’objectif poursuivi est d’assurer la conservation d’un fonds, toujours d’actualité dans cette discipline, et de maintenir la visibilité des revues françaises au sein du patrimoine numérique mondial. Les articles des cinq revues qui font l’objet de la première phase du projet seront librement accessibles à partir d’un délai adapté à chacune d’entre elles afin de ne pas ébranler leur stabilité économique.

7

Le choix technique s’est porté sur des formats standards facilement convertibles (tiff, xml), sur des images de qualité permettant une reconnaissance optique des caractères et une recherche plein texte (sauf pour les formules mathématiques), et sur une segmentation par unités logiques. Les textes sont accompagnés d’une base de données bibliographiques en libre accès proposant des liens croisés avec des bases de recensement grâce à un format d’échange des données structurées (xml selon une dtd mise au point par la cellule Mathdoc). Ces choix techniques visent la qualité et la pérennité. Ils devraient pouvoir être appliqués à la deuxième phase du projet qui consistera à élargir le champ du domaine mathématique concerné par le plan de numérisation.

La lecture de l’écriture manuscrite par la machine

8

La reconnaissance des manuscrits est encore un défi – en dehors de quelques applications industrielles (lecture de chèques, codes postaux, blocs notes personnels) qui, dans un contexte applicatif limité, ont permis de développer des méthodes fiables. La lecture réelle, incluant des niveaux d’interprétation depuis le niveau graphique jusqu’au niveau lexical, syntaxique, voire sémantique, est une étape postérieure à la simple reconnaissance de formes et tous les problèmes n’ont pas encore été surmontés. La machine doit en effet pouvoir développer des capacités omniscripteurs lui permettant de reconnaître n’importe quelle écriture, mais aussi des capacités monoscripteurs lui permettant de reconnaître les fantaisies de chaque scripteur et de lui attribuer sans faute un texte donné.

9

Les résultats des travaux entrepris par le laboratoire PSI de Rouen sur la reconnaissance de mots dans le texte ainsi que sur l’identification et la vérification du scripteur permettent d’envisager diverses applications, entre autres dans l’expertise des documents anciens. L’intérêt n’est pas, en effet, de retranscrire en code ASCII des textes manuscrits mais de pouvoir en extraire les mots clés. La recherche est prometteuse mais le faible nombre de corpus numérisés en freine malheureusement le développement.

La détection automatique de la structure d’un document

10

Dans le cadre de leur campagne de numérisation, les archives de la Mayenne ont traité des registres d’incorporation militaire du XIXe siècle, constitués de formulaires types dont la structure est restée la même pendant quarante ans. Certaines cases s’étant révélées trop petites, on y avait ajouté des paperolles (post-it) qui masquent la structure du document. Le traitement manuel consiste en une indexation des noms propres en langage XML. Les travaux de recherche consistaient à appliquer la méthode DMOS [3][3] Méthode DMOS (Description et modification de la segmentation... permettant la détection automatique de la structure d’un document. Appliquée aux registres matricules, et malgré le nombre important de paperolles, un taux insignifiant de rejet (0,4 %) a été constaté. Il a été possible aussi de découper virtuellement les registres et de supprimer les données médicales, pour ne donner accès au public qu’aux informations qui pouvaient lui être communiquées.

Les principales interventions

• Le conservatoire numérique des arts et métiers. Pierre Cubaud, Conservatoire national des arts et métiers, Paris. Site <cnum.cnam.fr>

• NUMDAM : NUMérisation de Documents Anciens Mathématiques. Thierry Bouche, Cellule Mathdoc, Université Joseph-Fourrier, Grenoble. Site <www. mathdoc. ujf-grenoble. fr>

• La reconnaissance des manuscrits. Laurent Heutte et Thierry Paquet, Laboratoire PSI, Université de Rouen

• Le traitement des registres matricules du XIXe siècle aux archives de la Mayenne. Bertrand Couasnon, IRISA-INSA, Rennes. Site <www. irisa. fr>

• Métadonnées et structuration des documents numériques. Yannick Maignien, École nationale supérieure Lettres et sciences humaines, Centre d’ingénierie documentaire, Lyon

• Numériser les archives en couleur : les réalisations de la ville de Douai. Vincent Doom, Archives municipales de Douai. [L’intervenant n’ayant pu se déplacer, une présentation plus succincte a été faite par l’une des personnes présentes à la manifestation]

• Montesquieu… ou comment valoriser vingt mille pages de manuscrits ? Catherine Volpilhac-Auger, École nationale supérieure Lettres et sciences humaines, Lyon

• L’édition électronique de la correspondance de Pierre Bayle. Antony McKenna, Université Jean Monnet, Saint-Étienne, UMR 5 CNRS 4037, ENS-Lsh

• Images et mirages : la numérisation de dictionnaires anciens. Jean-Philippe de Saint-Gérand, Université de Clermont-Ferrand et Abdel Bélaïd, Loria-CNRS, Nancy

11

Pour en améliorer l’accès, le volume de la bande passante nécessaire a été diminué ne laissant la faculté de ne visualiser, dans un premier temps, que les index et des vignettes et de sélectionner ensuite le document souhaité. L’étape suivante consiste à automatiser la lecture des noms ainsi que d’autres champs à vocabulaire réduit (la taille, la couleur des yeux), de valider la méthode DMOS sur d’autres documents dont la structure est moins nette et d’effectuer des annotations automatiques sur d’autres corpus pour faciliter la recherche textuelle.

Métadonnées et structuration des documents numériques

12

Les manuscrits et les documents anciens sont des documents complexes dont la numérisation n’implique pas seulement une reproduction à l’identique. L’adjonction de métadonnées et la structuration des documents, deux opérations indispensables à assurer, doivent répondre à une double exigence : assurer la description la plus fine possible tout en étant suffisamment simples pour faciliter l’interopérabilité la plus large possible. Mais il semble qu’il y ait un décalage dans l’usage des données et des métadonnées sur le web. Si les principes classiques du catalogage sont repris, mais appliqués à des objets divers et non plus seulement à des textes écrits, les métadonnées doivent ensuite être intégrées dans un ensemble de données, images et textes, puis encapsulées avec les ressources grâce aux possibilités de structuration logique ou physique riches, d’annotations et de hiérarchies données par le format image. Ces ressources hétérogènes peuvent ainsi être traitées en collaboration de manière interdisciplinaire.

13

RDF (Ressource Description Framework) [4][4] RDF : « Format universel de description de données,... est un exemple de syntaxe de métadonnées utilisant le langage XML [5][5] « XML (Extensible Markup Language, ou Langage extensible... qui permet de définir des relations entre des ressources complexes qui soient interprétables par des machines, grâce, entre autres, à l’élaboration de métadonnées procédurales donnant des informations sur le niveau d’accès, le type de pratiques et de lecture savantes (indexation, annotation, validation, etc.) qui sont proches des usages, en l’occurrence des usages savants.

Numériser les archives en couleur

14

Pour donner accès aux registres paroissiaux et à l’état civil de leur ville, les archivistes de Douai ont opté immédiatement pour la couleur, ce qui procure un confort visuel maximal. Un cofinancement public et privé a permis de mettre en œuvre ce projet ambitieux offrant dès aujourd’hui une présentation de qualité à des documents présentés souvent sous des formats non standards. À ce jour, trois postes au sein de l’établissement permettent de consulter les documents concernés. À terme, ils devraient être disponibles sur un site web qui permet déjà d’admirer une série remarquable de sceaux [6][6] <www. ville-douai. fr/ intcult. htm>.

D’autres propositions techniques

15

Deux interventions, très différentes des précédentes, ont présenté des produits commerciaux. L’un d’entre eux permet une lecture nomade par feuilletage de fac-similés téléchargés donnant l’opportunité de les segmenter, de les regrouper selon le choix de l’utilisateur et de conserver les liens hypertextes. Le deuxième est un outil de GED utilisant le langage XML pour décrire et structurer les données, et autorisant différentes formes d’exploitation et de consultation.

L’ISDN et les jeudis du numérique

Le 6 décembre 1999, les présidents de la Conférence universitaire Rhône-Alpes et de la Conférence des grandes écoles de la région Rhône-Alpes ont annoncé la création d’un Institut des sciences du document numérique (ISDN) destiné à fédérer les efforts de recherche dans ce domaine à Lyon et dans la région rhône-alpine. Cet institut regroupe dix-sept laboratoires de recherche ayant des approches disciplinaires différentes (sciences de l’ingénieur et sciences humaines et sociales). Son objectif est de « faciliter les échanges entre les équipes de façon à enrichir les recherches en cours et à développer de nouvelles actions ». Le soin de coordonner cette dynamique a été confié à l’École nationale supérieure des sciences de l’information et des bibliothèques (ENSSIB).

En collaboration avec l’Agence régionale du numérique, des conférences de haut niveau sur les enjeux du numérique sont organisées tous les quinze jours, le jeudi, de 17 heures à 19 heures. L’entrée est libre. Ces conférences sont diffusées en direct sur le web. Les thèmes développés sont présentés sur le site de l’ISDN : <//isdn.enssib.fr>, et annoncés sur plusieurs listes de diffusion dont les listes adbs-info et biblio-fr.

Des exemples : Montesquieu, Bayle et des dictionnaires anciens

16

Les manuscrits de Montesquieu illustrent parfaitement l’intérêt d’une numérisation qui a permis de reconstituer la cohérence d’un fonds considérable mais dispersé et de le rendre disponible à des chercheurs de plus en plus nombreux à être intéressés par les textes inédits. Cette opération a donné également les moyens d’évaluer la complexité des documents « où s’enchevêtrent plusieurs mains », elle en facilite même la lecture lorsque les originaux sont dégradés. On a pu y ajouter des métadonnées (au sens classique du terme), à savoir des annotations sur les contenus, les transcriptions, les supports, les écritures, et des liens ont pu être établis avec une autre édition, celle des œuvres complètes de Voltaire. La numérisation a modifié ainsi le regard que l’on peut porter sur une œuvre, et la mise à disposition à une large échelle est susceptible d’accélérer les travaux liés à l’authenticité des documents, enjeu d’une recherche nouvelle.

17

La numérisation de la correspondance de Pierre Bayle, philosophe français du XVIIIe siècle, soit dix-huit cents lettres, fait l’objet d’un inventaire, d’une base des textes annotés par les chercheurs et d’une base image des lettres. Elle facilite le travail d’édition en équipe qui consiste à donner des explications des termes utilisés, à indiquer des ajouts ou lacunes constatés dans le texte et de formaliser la présentation selon des normes imposées. Outre le fait qu’elle a facilité la reconstitution du fonds initial, qui devait se monter à cinq mille lettres, à partir d’autres textes et de notes critiques, la numérisation a permis divers travaux de cartographie et l’analyse approfondie des lieux et des personnes mentionnés ou des citations faites. Après la poursuite d’un travail titanesque sur les quinze autres volumes qui doivent encore être publiés, les résultats des travaux liés à cette numérisation pourraient être appliqués à la construction d’un dictionnaire de Port Royal, impliquant une analyse biographique et bibliographique de deux mille trois cents personnages !

18

C’est le recours à une expertise pluridisciplinaire qui a été mis en valeur lors de la présentation des travaux de numérisation des dictionnaires anciens. En amont, il s’agit d’appréhender correctement non seulement les difficultés techniques liées à la qualité de l’impression et à la nature diverse des illustrations, mais également la dimension historique de l’ouvrage, les applications susceptibles d’en être tirées pour différents types de publics. L’étape suivante consiste à saisir les formes structurelles et sémantiques du document pour le baliser et l’indexer intelligemment afin de le rendre lisible et compréhensible pour un usager final donné. Une fois la numérisation achevée, l’évaluation du respect des documents doit être envisagée, ainsi que la valorisation des résultats par des spécialistes des usages, consistant à encapsuler l’ouvrage amené à être diffusé sur Internet.

Notes

[1]

Parmi le grand nombre de sites proposant des définitions des formats d’image <margotte.univ-paris1.fr/webcurse/html_imb.html>, <vcampus.u-strasbg.fr/public/faerber/traitements/formats_graph.html>…

[2]

Entre autres en utilisant le VRML (Virtual Reality Modeling Language) : langage de modélisation permettant d’intégrer des objets 3D sur les supports électroniques. Parmi les sites proposant des informations sur ce langage : <apia.u-strasbg.fr/VRML> ou <wwww. web3d. org/ Specifications/ VRML97>.

[3]

Méthode DMOS (Description et modification de la segmentation ) : « méthode constituée d’un formalisme grammatical de position permettant de modéliser la connaissance, et d’un analyseur associé autorisant une modification en cours d’analyse de la structure analysée. Cette modification permet d’introduire le contexte (niveau symbolique) dans la phase de segmentation (niveau numérique), afin d’améliorer la reconnaissance. La méthode DMOS offre en plus les avantages de séparer la connaissance (décrite sous la forme d’une grammaire) et le programme, et de produire automatiquement l’analyseur par compilation de la grammaire. Ces avantages facilitent largement la maîtrise de l’introduction de connaissances complexes… » Source : <www. irisa. fr/ bibli/ publi/ theses/ 1996/ couasnon/ couasnon. html>.

[4]

RDF : « Format universel de description de données, proposé par Netscape au consortium W3C, dans le but de créer un système d’indexation adapté autant à la création de serveurs de recherche dans Internet qu’à l’indexation de fichiers stockés sur le disque dur de l’usager. Le format RDF est à la base de la nouvelle technologie Aurora de Netscape qui propose dans son navigateur une nouvelle façon d’organiser les données, non pas par type de données, mais par centre d’intérêt. Il ne faut pas confondre le format RDF et le système RDF, qui partagent le même sigle, ce dernier ayant été élaboré à l’origine par le consortium W3C pour l’échange des données à travers le Web ». Source : Le guide-âne du webmestre, Admiroutes,5 avril 2002, <www. admiroutes. asso. fr/ webmestre>.

[5]

« XML (Extensible Markup Language, ou Langage extensible de balisage) est un langage de balisage destiné à succéder à HTML sur le World Wide Web. Mais contrairement à HTML, qui présente un jeu limité de balises orientées présentation (titre, paragraphe, image, lien hypertexte, etc.), XML est un métalangage, qui va permettre d’inventer à volonté de nouvelles balises pour isoler toutes les informations élémentaires (titre d’ouvrage, prix d’article, numéro de sécurité sociale, référence de pièce, etc.), ou agrégats d’informations élémentaires, que peut contenir une page Web ». Source : idem.

Résumé

Français

L’Institut des sciences du document numérique (ISDN) proposait le 7 mars 2002 à Lyon une journée d’étude consacrée à La valorisation du patrimoine et la numérisation des collections. Les solutions techniques adoptées pour le traitement des problèmes posés par divers manuscrits et documents anciens ont été présentées : éditions anciennes de documents scientifiques, revues de mathématiques, reconnaissance de l’écriture manuscrite, détection automatique de la structure d’un document, ajout de métadonnées et structuration des documents, numérisation d’archives en couleur, etc. Des exemples de numérisation de fonds littéraires ont aussi été présentés.

Plan de l'article

  1. Prendre en compte les complexités de l’édition ancienne
  2. La numérisation des revues mathématiques françaises
  3. La lecture de l’écriture manuscrite par la machine
  4. La détection automatique de la structure d’un document
  5. Métadonnées et structuration des documents numériques
  6. Numériser les archives en couleur
  7. D’autres propositions techniques
  8. Des exemples : Montesquieu, Bayle et des dictionnaires anciens

Pour citer cet article

Battisti Michèle, « Journée d'étude de l'ISDN. Valorisation du patrimoine et numérisation des collections», Documentaliste-Sciences de l'Information 3/2002 (Vol. 39) , p. 130-133
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2002-3-page-130.htm.
DOI : 10.3917/docsi.393.0130.


Article précédent Pages 130 - 133 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback