Document numérique
Lavoisier

I.S.B.N.sans
180 pages

p. 129 à 144
doi: en cours

Veille sur la revue
Veille sur l'auteur
Vous consultez

Volume 6 2002/1-2

Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques

Bertrand Coüasnon Jean Camillerapp
Dans un certain nombre de cas, les dossiers numériques sont constitués par rétroconversion de documents papier. Or jusqu’à présent ces rétroconversions impliquent de développer, pour chaque type de documents, un système spécifique de reconnaissance. Nous proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le système de reconnaissance adapté à partir de la description de la structure de chaque document. Cette méthode qui a déjà été utilisée sur différents types de documents (partitions musicales, formules mathématiques...), permet entre autres de repérer les structures tabulaires contenues dans une page. Elle vient d’être validée sur plus de 5 000 fiches nominatives d’incorporation militaire du XIXe siècle. En produisant une description XML du document, la méthode permet d’appliquer ensuite d’autres traitements comme la constitution de pages d’index visuels ou le masquage de champs confidentiels.Mots-clés : reconnaissance de documents, tableaux, formulaires, gestion des connaissances a priori, analyse structurelle, grammaire. Digital files are in many cases build by retrospective conversion of paper documents. Until now this retrospective conversion needs to develop, for each kind of document, a new recognition system from scratch. Therefore we propose in this paper a generic approach for structured document recognition: the DMOS method. With its help, we can automatically produce a new recognition system from a grammatical description of the document structure. The DMOS method has been successfully applied to produce various recognition systems: one for musical scores, one for mathematical formulae and one for table structures. It has been also validated on more than 5,000 military forms of the 19th century. By producing an XML description of the recognized form, the recognition system allows, for example, to build a visual index or to hide confidential cells.Keywords : documents analysis, table-form, printed-form, a priori knowledge, syntactic analysis, grammar.
• Introduction
• Présentation de la méthode DMOS
— Principes de la méthode
— Langage EPF
— Extracteurs d’éléments terminaux
— Analyseur associé
— Conclusion
• Validation de la généricité de la méthode
• Validation sur des fiches d’incorporation militaire
— Description du document
— Evaluation
— Exploitation de la structure reconnue
• Conclusion
• 6. Bibliographie


© Cairn 2007 Vie privée | Conditions d’utilisation | Conditions générales de vente
À propos | Éditeurs | Bibliothèques | Aide à la navigation | Plan du site | Raccourcis