Document numérique 2006/2
Document numérique
2006/2 (Vol. 9)
126 pages
Editeur
DOI 10.3166/dn.9.2.83-109
A propos de cette revue Site Web
Alertes e-mail

Recevez des alertes automatiques relatives à cet article.

S'inscrire Alertes e-mail - Document numérique

Être averti par courriel à chaque nouvelle parution :
d'un numéro de cette revue
d'une publication de Rodrigo Almeida
d'une publication de Pierre Cubaud
d'une publication de Jérôme Dupire
d'une publication de Alexandre Topol
d'une citation de cet article

Votre adresse e-mail

Gérer vos alertes sur Cairn.info

Cairn.info respecte votre vie privée

Vous consultezInteractions et métadonnées riches pour les bibliothèques numérisées

AuteursRodrigo Almeida du même auteur


1 - Introduction


Bien que l’on puisse dire que « the migration of library material to an online environment using the same paper distribution paradigm [is] a simple technical feasibility issue » (Stern, 1999), nous pensons que ce sujet ancien soulève encore de nombreuses questions difficiles pour les chercheurs. L’expérience fondatrice en matière de numérisation de document est peut-être le photo-télégraphe d’Arthur Korn (1904). Dans cet appareil, une cellule au sélénium balaie une photographie en un nombre fini de lignes. Le signal électrique résultant est transmis sur une ligne téléphonique au récepteur qui, à son tour, déplace une source lumineuse - au dessus d’un papier photosensible. Lorsqu’il juge de la qualité de reproduction de ses facsimilés, Korn montre bien les relations entre le nombre de lignes de balayage, le temps de transmission et les limitations de la technologie des lignes (Brethes, 1995). Il a cependant fallu attendre une vingtaine d’années pour qu’Harry Nyquist propose une explication formelle du processus d’échantillonnage. Ce qu’on appelle maintenant le théorème de Nyquist donne une borne inférieure à la fréquence d’échantillonnage liée à la bande passante du signal d’origine. Quand l’échantillonnage se fait à une fréquence inférieure à la limite de Nyquist, le signal résultant contient des formes absentes de l’original : du moiré[1] [1] Ou alias. On peut obtenir facilement des figures de moiré...
suite

2 Les technologies de numérisation actuelles sont bien différentes du phototélégraphe de Korn, mais la nature même de la numérisation comme processus d’échantillonnage reste inchangée. Afin d’éviter le moiré, il faut examiner soigneusement la bande passante du signal d’origine. Il est en pratique difficile de décider de la pertinence des signaux « émis » par une bibliothèque et les ouvrages qu’elle renferme et les exemples de sous-estimation sont fréquents, du fait des contraintes techniques ou économiques (sans oublier les approches naïves). La numérisation en niveaux de gris est ainsi encore très courante dans les projets de numérisation du patrimoine imprimé, comme par exemple notre Conservatoire numérique des arts et métiers (Cubaud et al., 2003) (CNUM, h http://cnum. cnam. fr). On sait cependant qu’une captation couleur renforce considérablement la lisibilité des fac-similés. Le traitement des planches hors-textes dépliantes est un exemple moins trivial. Cette technique de mise en page a été intensivement utilisée dans l’édition scientifique et technique jusqu’au milieu du XIXe. Elle permet en effet un commentaire (pour l’auteur) ou un examen (pour le lecteur) en parallèle, évitant les allers-retours entre pages dus aux limites physiques imposées par la typographie. A notre connaissance, aucune interface de consultation de bibliothèque numérique actuellement en service ne transcrit ce type de fonctionnalité. Bien souvent, c’est à cause de la limitation des métadonnées associées au fac-similé. Dans le projet CNUM, nous avons bien distingué les hors-textes des autres fac-similés, mais pas le fait qu’une planche soit dépliante ou non. On doit dès lors considérer la version numérique du livre à planches comme un alias.

3 En plus des limitations de metadonnées, les bibliothèques numériques souffrent de la métaphore WIMP (Window Icon Menu Pointing device) qui est à la base de leurs interfaces. La consultation de plusieurs documents en parallèle se traduit par des superpositions de fenêtres et des actions très nombreuses de redimensionnement (O’Hara et al., 1997) et, de fait, la plupart des utilisateurs préfèrent télécharger et imprimer leurs documents de travail (Cubaud, 2005). De ce point de vue, les interfaces Web actuelles n’offrent finalement guère d’avantages vis à vis du FTP utilisé auparavant… Avec la multiplication des bibliothèques en ligne, d’accès international, les utilisateurs sont confrontés à un nouveau problème : évaluer l’adéquation de ces collections avec leur besoin de documentation. Pour estimer la valeur d’un corpus, il faut avoir recours à un moteur de recherche, ce qui suppose la capacité de l’utilisateur d’énoncer une telle requête. Comment dès lors déambuler dans une bibliothèque numérique ? Quelles techniques de visualisation utiliser quand la taille de corpus peut atteindre le million d’items ? Il nous semble que des techniques du type de celles communément employées en CAO permettraient d’y répondre. En reconstituant les caractéristiques géométriques (3D) et visuelles des documents et en les insérant dans une scène 3D commune, il devient possible de les manipuler comme le designer manipule ses pièces mécaniques ou ses éléments architecturaux. De nombreux auteurs ont étudié le potentiel de cette approche pour le document numérique natif (voir en particulier Rao et al., 1995 et Card et al., 1999 pour une discussion des articles séminaux). Les fac-similés de livres posent des problèmes spécifiques : la grande diversité des formats et la nature même des facsimilés images ne permettent pas de réaliser des interfaces aussi plastiques que celles gérant des documents numériques natifs. Après un bref état de l’art, nous décrivons dans la première partie de cet article un prototype d’atelier de lecture immersif dont les briques de base sont un outil de parcours dans les collections par visualisation exhaustive et un outil de navigation/lecture de fac-similés.

4 Dans tous les prototypes d’interfaces offrant l’accès à une bibliothèque numérique, l’élément de base est le fac-similé, la page numérisée en mode image. Celle-ci est acquise via l’utilisation d’un scanner, qui, aussi évolué soit-il, ne permet que rarement de restituer la page de manière optimale. Il faut, pour être dans ce cas d’utilisation optimal, pouvoir désolidariser les différentes pages à numériser de manière à les mettre à plat, une par une, et éviter ainsi les légères transformations dues à leur partie reliée. Une presse, manuelle ou automatique, peut également être utilisée pour appuyer le livre relié et ainsi minimiser ces déformations. Les deux méthodes sont cependant inacceptables pour des ouvrages fragiles ou rares. D’autre part, il peut être intéressant de conserver la réalité physique d’un ouvrage, en particulier lorsque les dimensions de sa typographie ou de ses illustrations sont importantes. Dans ce cas, la numérisation 2D n’apporte aucune solution satisfaisante. Nous proposons donc dans la deuxième section de cet article une approche employant la photogrammétrie pour extraire les informations volumiques d’une page. Les prises de vue n’altèrent pas l’ouvrage par une mise à plat forcée et permettent d’obtenir un maillage 3D assez précis. Un livre n’est pas seulement un ensemble de pages planes. C’est un volume, complexe, avec parfois une riche dynamique d’interaction lorsqu’il comporte des systèmes dépliables. C’est l’objet de notre étude en cours sur les livres à systèmes qui nécessitent une description beaucoup plus complète que les livres usuels. La description et la mise en œuvre de tels ouvrages sont présentées dans la dernière section.

2 - Interaction 3D immersive pour la lecture et la navigation

5 Les problématiques d’acquisition, de stockage, de diffusion des bibliothèques numériques peuvent aujourd’hui être considérées comme secondaires pour des fonds numérisés de quelques dizaines de milliers d’ouvrages. Les aspects touchant à l’indexation, à la recherche et à la visualisation de documents concentrent désormais l’attention des chercheurs. Sur ce dernier point, sujet de notre travail, une interface est nécessaire pour ouvrir l’accès à une collection, permettre la sélection des livres et faciliter la lecture et l’annotation des ouvrages. Pour cela, certains projets s’appuient sur des métaphores de navigation et de représentation réelles pour profiter de l’expérience des utilisateurs. D’autres proposent de nouvelles métaphores capables d’offrir de nouveaux services. Nous passons en revue quelques travaux significatifs dans le domaine de la visualisation 3D de documents avant de présenter nos propres travaux.

2.1 - Etat de l’art

6 Lesk précise que la majorité des utilisateurs préfèrent « fureter » dans un fonds d’ouvrages plutôt que d’y effectuer une recherche directe (Lesk, 1997). Très souvent, les lecteurs n’ont pas une idée précise des ouvrages qu’ils cherchent mais plutôt une idée du sujet qui les intéresse. Dans ce cas, ils parcourent un ensemble d’ouvrages visuellement puis, par éliminations successives, sélectionnent quelques ouvrages répondant à leurs critères de choix initiaux. Dans ce contexte, le choix d’une interface en images est judicieux car elle permet la mise en place de ces heuristiques visuelles pour aider dans la recherche de livres d’intérêt. De leur côté, Jones et Dumais jugent que les interfaces documentaires classiques offrent de nombreux avantages parmi lesquels les systèmes de recherche multicritères et le classement à la volée, mais ne permettent pas à l’utilisateur de se souvenir de l’endroit où un ouvrage a été trouvé (Jones et al., 1986). L’intérêt d’une interface pour accéder aux bibliothèques numériques est donc à la fois de stimuler la mémoire spatiale et visuelle et de faciliter la lecture croisée.

7 Une initiative intéressante a été réalisée avec LibViewer (Rauber et al., 2000) qui offre plusieurs heuristiques visuelles 2D pour rendre plus intuitives les recherches et la représentation des ouvrages dans un important fonds documentaire. Dans ce système, les auteurs ont avant tout souhaité donner à chaque élément des caractéristiques particulières afin d’offrir aux utilisateurs des repères visuels directs. Chaque type d’objet (journal, magazine, manuscrit, enregistrement audio, etc.) est représenté différemment. Les couleurs sont utilisées pour informer l’utilisateur de certaines spécificités de l’objet (langage, genre etc.).

8 Les interfaces 3D pour visualiser le fonds d’une bibliothèque numérique sont très intéressantes car elles permettent littéralement de se rendre compte du volume occupé par ce fonds. Bon nombre de projets proposent des représentations virtuelles de la véritable bibliothèque. Certaines bibliothèques « virtuellement réelles » comme (Kipp, 1997), (Fingerhut, 2000) et (Plenacoste et al., 2001), reproduisant à l’identique la bibliothèque réelle prise pour modèle, peuvent offrir d’appréciables services. Les habitués d’une telle bibliothèque retrouveront probablement sans problème les différents ouvrages, puisqu’ils (re)connaîtront les lieux. Cependant, peu d’utilisateurs accédant à une bibliothèque en ligne se trouvent dans ce cas. Pour la grande majorité, une représentation fidèle du lieu ne sera d’aucune utilité.

9 Si toutefois la bibliothèque est reconstituée en utilisant des livres texturés, l’utilisateur peut tout de même trouver des livres d’un simple coup d’œil. Dans le projet de Kipp, les ouvrages disposés dans des salles, sur des étagères, sont habillés avec des couleurs unies, distinctes, signifiant qu’ils appartiennent à telle ou telle catégorie. Ce genre d’information n’est pas forcément nécessaire et apparaît être bien moins utile que de fournir l’image du dos ou des plats du livre. Il est en effet impossible de discriminer un livre d’un autre dans une même catégorie. Notons toutefois que la bibliothèque décrite dans (Kipp, 1997) est une collection de thèses et d’articles dont le dos et la couverture ne fournissent aucune information discriminante.

10 En règle générale, la reproduction d’un univers réel tel qu’une bibliothèque avec ses salles, ses allées et ses rayons a souvent pour conséquence directe de nous focaliser sur les explorations déambulatoires, au détriment des recherches directes et spécifiques. Pour cette raison, nous avons décidé de prototyper une interface 3D aussi intuitive que possible, mais très éloignée de la représentation contraignante des bibliothèques réelles.

11 Ces dernières considérations s’attachent à la création d’une interface de recherche. Pour les postes de lecture, tous les projets buttent sur un problème de taille qu’est la lecture sur écran. La majorité des lecteurs sont gênés par les contrastes des supports informatiques et par la nécessité de devoir faire défiler verticalement le document. Gould et Grischokowsky soulignent bien ce rapport entre la représentation et la vitesse d’acquisition des informations (Gould et al., 1984). Pour les documents numériques, ils constatent que la résolution du dispositif de sortie est un élément déterminant dans la vitesse de lecture (Gould et al., 1987). Or, la résolution d’un écran excède rarement 100 points par pouce alors qu’un confort optimal de lecture sans distinction du moiré est atteint à une résolution supérieure à 300 points par pouce. Malgré ces points négatifs, fortement dépendant des progrès technologiques, la lecture sur écran est devenue une pratique courante et acceptée depuis l’avènement de l’internet. Il reste toutefois d’autres aspects d’ordre logiciel à améliorer pour, par exemple, faciliter la lecture croisée, l’organisation d’un espace de travail. En cela, une solution 3D offre des possibilités de représentation beaucoup plus riches que la 2D sans pour autant pénaliser de manière rédhibitoire le rendement des utilisateurs comme le montrent certaines études (Cockburn et al., 2001).

12 Le Web Forager (Card et al., 1996) est une interface conçue pour organiser une collection de pages HTML. Bien qu’il ne traite pas directement des bibliothèques numériques, les métaphores proposées en sont issues. Cet outil de data mining propose une interface très conviviale et intuitive dans laquelle l’organisation des informations se fait sur deux niveaux différents. Le premier autorise l’utilisateur à regrouper des pages HTML dans une sorte de classeur, les Web Books qui ont l’apparence et la structure séquentielle des livres. Plusieurs outils sont offerts pour pouvoir manipuler ces classeurs, parmi lesquels un outil de feuilletage et une loupe à document pour pouvoir examiner toutes les pages en un coup d’œil (Card et al., 1991). Le deuxième niveau d’organisation concerne le rangement des Web Books. L’utilisateur dispose pour cela de différents « meubles » pour y déposer les livres. Il pourra, par exemple, ranger des livres qu’il n’est pas certain de réutiliser dans un avenir proche dans les étagères alors qu’une collection de pages qu’il utilise souvent pourra rester sur le bureau au premier plan. L’utilisation de telles métaphores (étagères, bureau) permet, d’après les auteurs, de profiter de la mémoire spatiale de l’utilisateur et de la rendre encore plus efficace en se reposant sur les habitudes de rangement que l’on peut avoir dans un bureau réel.

13 Les détails d’implémentation du Web Forager ne sont pas explicités et aucune démonstration n’est plus disponible. Beaucoup de questions se posent quant à son fonctionnement interne. Le point de vue est-il fixe ? Quelles sont les contraintes de positionnement des livres ? L’interaction est-elle fluide ? Néanmoins, les principes décrits par cette interface (la spatialisation des livres, le feuilletage interactif, l’organisation de l’espace de travail) sont une grande source d’inspiration même si nous ne partageons pas cette approche orientée réalité virtuelle très contrainte qui induit une surcharge inutile de l’interface avec des objets réels. Certes, il est important de limiter les mouvements et les actions de l’utilisateur dans une interface 3D sous peine de la rendre inutilisable. Mais certaines métaphores ne nous paraissent pas judicieuses pour permettre un travail efficace sur les livres. Le bureau, par exemple, oblige l’utilisateur à poser les livres à plat, horizontalement par rapport au point de vue. Nous doutons que la lecture soit possible à cause de cette vue en perspective. Un livre positionné perpendiculairement à la direction du point de vue permet une lecture nettement plus confortable. Le Web Forager n’interdit pas de lire verticalement un livre en arrière plan mais la place de choix au premier plan est tenue par le bureau et son plateau horizontal.

14 Avec le Web Book a été proposée la première tentative de feuilletage interactif. Dans le domaine des bibliothèques numériques, cette fonctionnalité est apparue à l’initiative de la British Library en 1998 lors d’une exposition publique sur les livres anciens (Carpenter et al., 1998). La technique a été améliorée dans des travaux plus récents (Card et al., 2004 ; Chu et al. 2004) par l’adjonction d’une navigation 3D complète. Ces différentes tentatives ne permettent que de lire un livre à la fois. Aucun environnement n’est proposé pour travailler sur plusieurs livres en parallèle. Or le but premier du poste de lecture est de reproduire cette tâche de lecture croisée que l’on effectue couramment sur un bureau réel.

2.2 - Un atelier 3D pour la consultation de collections numérisées

15 Dans l’interface reproduite figure 8(2), la scène 3D est limitée verticalement par un sol. La caméra est fixée en permanence au dessus de ce sol et son champ est fixe. Les fac-similés sont présentés sur un outil spécifique en forme de trépied (sorte de lutrin simplifié). Le livre peut être positionné de manière arbitraire sur le sol, repoussé, tiré ou pivoté par une action de l’utilisateur sur le cylindre au bas du trépied. Cette manipulation s’effectue en temps réel et de manière continue avec un pointeur ordinaire du type souris : deux degrés de liberté suffisent en effet pour déterminer la position du trépied sur le sol. Plusieurs trépieds peuvent ainsi être positionnés sur le plan de travail. Le déplacement d’un trépied peut se voir contraint par la présence des autres si on choisit de détecter les collisions éventuelles de ces objets 3D.

16 Il est également possible de modifier l’apparence du trépied pour permettre l’affichage du livre ouvert. L’action de feuilletage peut alors être simulée de manière assez convaincante par une animation de la circulation de la page courante d’un bord vers l’autre. La destruction du trépied s’effectue par un clic droit sur la partie cylindrique du trépied reposant sur le sol. Il est possible d’imaginer d’autres raccourcis pour l’interaction pour, par exemple, permettre le passage rapide du trépied en premier plan (mode plein écran). Ces raccourcis devraient trouver leur place sur des équivalents de boutons ou de menus sur la base du trépied.

17 Le défilement dans les pages du livre se fait par un clic sur la page courante. Comme pour une fenêtre 2D conventionnelle, le trépied dispose sur son axe vertical d’un « ascenseur » pour accélérer la progression dans le document (représenté figure 8(2) par une boule rouge). L’axe horizontal permet de contrôler le rapport entre la dimension (en pixels) du fac-similé et celle choisie pour le trépied. On réalise ainsi une fonction de zoom indépendante de la position du trépied sur le plan de travail. La taille du trépied lui-même est négociable par le biais d’une poignée spécifique (boule bleue en haut à gauche du trépied).

18 Le design proposé pour le trépied/lutrin de lecture est évidement arbitraire. Pour des raisons de performance du rendu 3D, nous l’avons limité à des primitives géométriques élémentaires, et l’analogie avec une fenêtre conventionnelle est voulue. L’intérêt principal du dispositif, en comparaison aux propositions de (Card et al., 2004) et (Chu et al., 2004), réside dans la possibilité de faire coexister un assez grand nombre de trépieds sur le même plan de travail. Il est également possible de le compléter par des outils de recherche et de navigation dans des collections.

19 La navigation dans les collections est réalisée avec l’aide d’une métaphore d’étagère cylindrique, sorte de roue de Ramelli géante englobant le lecteur. L’objectif de cet outil est de faciliter l’exploration libre de la collection par simple consultation des dos des ouvrages, comme dans une bibliothèque réelle. Le rangement des ouvrages peut tout à fait respecter les règles de bibliothéconomie et les lois de la gravité : classifications thématiques ou par formats, lourdes encyclopédies au « sol », petits in-12 précieux à la hauteur des yeux. Les heuristiques visuelles des habitués des salles de consultation et des librairies restent ainsi opérantes dans la scène 3D. Il est aussi possible d’imaginer que la collection se réorganise à la demande de l’utilisateur. Une organisation cylindrique de la collection permet de répondre par exemple à des requêtes portant sur deux critères d’interrogation (par ex. sur un thème et une époque). Il est en effet possible de classer les titres par ordre de pertinence sur deux axes dans les deux dimensions du cylindre (Cubaud et al., 1998). Le principe peut se généraliser avec des géométries plus complexes, comme des hyper-phères (Topol, 2002), au prix d’une complexification de la navigation dans l’espace de réponses.

20 Un premier démonstrateur basé sur OpenGL a été présenté à des professionnels des NTIC lors des conférences JFT’2003 et ECDL’03. Une audience plus large a été atteinte durant l’exposition grand public Image par image (Montreuil, mars 2003) et les journées nationales Sciences en fête auxquelles le CNAM participe (oct. 2003). A chacune de ces expositions, nous avons installé un poste dédié à l’atelier 3D et un autre pour l’accès au site web du CNUM. La session était limitée par une horloge à quelques minutes et les actions de l’utilisateur étaient enregistrées. Nous avons pu conclure de ces démonstrations que les utilisateurs atteignent vite une certaine aisance dans la manipulation des trépieds de lecture. La fonction de pagination a été bien accueillie du grand public et des bibliothécaires (mais pas toujours par les informaticiens professionnels). Quelques modifications du démonstrateur ont paru nécessaires. L’amplitude de déplacement des trépieds a été bornée : un trépied ne peut pas être plus grand que l’écran ni réduit au-delà d’une taille limite raisonnable. La détection de collision entre les objets a été améliorée, ainsi que l’éclairage et le rendu des ombres.

21 Plusieurs fonctions de notre atelier de visualisation 3D de documents restent à mettre en œuvre. Le démonstrateur actuel n’inclut en effet qu’une collection simplifiée, la création/destruction des trépieds et le feuilletage. Nous entreprenons à cette fin une réécriture complète du logiciel en utilisant un moteur 3D pour jeux vidéos (Dupire et al., 2005). Plusieurs logiciels très intéressants ont en effet été introduits récemment dans l’industrie du jeu vidéo pour s’affranchir des limitations de standard de programmation 3D tels que OpenGL et Java3D. En parallèle aux améliorations logicielles, nous avons débuté des expériences avec un dispositif d’affichage immersif.

22 Travailler avec de multiples documents n’est pas une tâche facile. Avec les documents numériques, les techniques classiques de visualisation et d’interaction sont particulièrement inefficaces comparées à la lecture sur papier (O’Hara et al., 1997). Dans un environnement 3D, les différents livres peuvent être positionnés automatiquement, mis en avant, sans occulter les autres éléments de l’interface, pour être distingués par l’utilisateur. Il a également la possibilité de les placer lui-même et d’organiser ainsi son espace de travail et de mettre à profit sa mémoire spatiale. Dans ce contexte, l’apport essentiel d’un dispositif de visualisation immersif est d’englober l’utilisateur et de monopoliser sa concentration en minimisant les stimuli extérieurs. Un tel environnement immersif permet d’utiliser plus profitablement la « cognition externe », essentielle pour gérer une telle tâche complexe (Scaife et al., 1996).

2.3 - Visualisation immersive

23 Procurer à un utilisateur une meilleure immersion dans l’espace virtuel 3D nécessite de modifier les conditions de restitution visuelle de celui-ci. (Patrick et al., 2001) a montré que la visualisation d’une scène qui occupe tout le champ de vision de l’utilisateur peut lui apporter une plus grande appropriation cognitive de l’espace virtuel (figure 1).

...
Comparaison entre champs de vision à 60° (gauche) et 160° (droite). La quantité d’imagettes affichée à droite est doublée

Comparaison entre champs de vision à 60° (gauche) et 160° (droite). La quantité d’imagettes affichée à droite est doublée

24 Dans cette perspective, seuls de rares périphériques, comme le casque de réalité virtuelle et les écrans larges, remplissaient les conditions préconisées. Nous avons choisi comme système de visualisation immersif la VisionStation de la société Elumens. La VisionStation est un écran hémisphérique de diamètre 1,5 m couplé à un vidéo-projecteur à lentille modifiée pour fournir une image visible sur un champ de 160 par 160 degrés. L’utilisateur est assis devant une petite tablette qui contient le vidéo-projecteur et sur laquelle peut être placé un périphérique d’interaction. La VisionStation n’est pas seulement un grand écran : un logiciel spécifique est utilisé pour adapter les images de la scène 3D projetée à l’écran hémisphérique. Quatre rendus de la scène doivent être produits simultanément pour que le champ de vision atteigne 160° car une projection conventionnelle produirait des distorsions de perspective. Les quatre rendus doivent être assemblés en temps réel dans une image unique, qui est ensuite déformée sphériquement pour apparaître plane sur l’écran.

25 Le principal inconvénient rencontré dans l’utilisation de la VisionStation comme outil de consultation de documents numériques est la résolution de l’image projetée. Elle est au maximum de 1 024 x 768 pixels (limitation du vidéo-projecteur). Cette résolution reste très satisfaisante pour des applications comme les simulateurs de vol, les jeux vidéo et de manière plus générale, pour l’affichage d’images animées. Par contre, lors d’un travail plus précis sur des documents textuels ou graphiques, la qualité de l’image perçue devient un critère essentiel pour le confort et la bonne compréhension des informations par l’utilisateur (Kasik et al., 2002). Mutter et Maurutto montrent que la vitesse de lecture sur un écran d’ordinateur est proportionnelle à la résolution de l’image affichée (Mutter et al., 1991). C’est dans ce contexte particulier que la VisionStation montre ses limites. On peut en effet discerner à l’affichage le détail des pixels projetés. Ce phénomène constitue un obstacle important à l’utilisation de ce dispositif, dans cette configuration, pour ce type d’application. (Baudisch et al., 2001) a proposé un dispositif composé de matériel courant (un vidéo-projecteur, un écran de projection et un moniteur) permettant de projeter simultanément une vue globale de la scène et une partie de celle-ci à une résolution plus élevée. Ce système a été testé pour la visualisation et le travail informationnel en 2D tel que l’analyse de cartes ou d’images satellitaires. Ce dispositif ne semble pas approprié pour gérer simultanément des contextes différents, la vue détaillée étant inévitablement une partie de l’image globale. De plus, le problème du bruit visuel lié aux écrans traditionnels se retrouve encore un peu dans ce système. Nous avons donc ajouté à notre dispositif un écran plat tactile (TFT 17 pouces). Celui-ci est capable d’afficher des résolutions plus fines que la VisionStation (jusqu’à 1 280 x 1 024). Nous avons envisagé l’utilisation de ce moniteur pour différentes tâches. Il pourrait permettre d’afficher une partie de la scène 3D, qui nécessiterait des conditions compatibles avec un travail sur les documents (confort visuel), ou d’isoler une partie de la scène, permettant une vision précise et plus détaillée de celle-ci. Nous pourrions, d’autre part, permettre à l’utilisateur d’accéder, par cet affichage complémentaire, à des éléments d’interaction non disponibles dans la vue globale.

26 Plusieurs essais-erreurs ont été nécessaires pour obtenir une visualisation satisfaisante des fac-similés d’ouvrages sur la VisionStation. Du fait du pitch important du projecteur, les images de fac-similés sont fortement moirées. Comme l’affichage de la scène nécessite quatre calculs de rendu par trame, un sur-échantillonnage s’avère trop consommateur d’espace mémoire. Une alternative satisfaisante consiste à flouter légèrement les fac-similés et à recourir à du mipmapping pour gérer les transformations dynamiques de textures. Au final, le dispositif fonctionne correctement et est simple d’utilisation (figure 8(3)). Le déplacement dans la scène 3D pour la sélection d’ouvrages fonctionne de manière fluide, malgré la charge de calcul imposée au sous-système de rendu 3D (nous avons eu recours à une carte QuadroFX 3000 sur PC Pentium4 3,2 GHz). La VisionStation, à la différence d’autres dispositifs immersifs comme les casques de visualisation, ne fatigue pas l’utilisateur dans une utilisation longue (on regrette toutefois le bruit de ses ventilateurs !). La visualisation par le deuxième écran offre un plus grand confort quand des informations plus détaillées sur le document désiré sont nécessaires. Bien que l’idée de sélectionner directement les documents, par la main par exemple, soit tout à fait intéressante, la manipulation directe semble impraticable parce que les objets au-delà de la position de l’objectif de projection produisent des ombres sur les images projetées. Un mode plus intuitif de sélection de document reste à définir et fait l’objet de travaux en cours.

3 - Numérisation 3D de documents par photogrammétrie

27 La numérisation de livres s’effectue en général par prise de vue par le dessus. L’ouvrage est déposé tel quel sur un plateau équilibrant, ou maintenu ouvert à 90° si son état le nécessite. Les déformations des images peuvent ensuite être traitées par logiciel, selon diverses heuristiques : rectification des bords (Brown et al., 2003), des lignes de texte (ex. du logiciel I2S Book Restorer), inclinométrie (Wada et al., 1995 ; Zang et al., 2004). Bien que tout à fait acceptables pour des ouvrages reliés, modernes et en bon état, aucune de ces techniques ne peut s’appliquer à corriger les artefacts apparaissants sur le fac-similé reproduit figure 2. Il n’existe pas à notre connaissance d’étude de l’impact de ces déformations sur le confort de lecture.

...
Pliures de papier et ombres résultantes. (A. Ramelli. Le diverse et artificiose machine (…). Parigi : in casa del’autore, 1588. Accessible en ligne au CNAM h http://cnum. cnam. fr/ fSYN/ fDY3. html)

Pliures de papier et ombres résultantes. (A. Ramelli. Le diverse et artificiose machine (…). Parigi : in casa del’autore, 1588. Accessible en ligne au CNAM h http://cnum. cnam. fr/ fSYN/ fDY3. html)

28 Il semble dès lors naturel de chercher à capturer la géométrie de la page par une numérisation 3D. Les premiers travaux en ce sens ont été réalisés dans le cadre du projet Digital Atheneum (Brown et al., 2000), par utilisation du scanner MINOLTA 3D1500. Dans cette technique, un motif lumineux connu, par exemple une grille, est projeté sur la surface, et une prise de vue effectuée sous un angle différent. La déformation du motif sur l’image permet de déduire la surface. La précision obtenue est liée à la finesse du motif. Il existe également des appareils « tout en un », appelés « scanner 3D », constitués d’un laser à balayage associé à un appareil photographique numérique. Il s’agit d’un cas particulier de lumière structurée, où la ligne projetée est générée par le balayage d’un rayon laser (dans un plan perpendiculaire à celui de la figure), elle-même balayant l’objet (dans le plan de la figure). Nous avons pu tester le scanner Minolta VIVID 700, qui fonctionne selon ce principe, sur des exemples de livres anciens. La précision de restitution est très bonne dans les autres zones : inférieure au 1/10e de mm. Un dispositif plus économique a été décrit dans (Brown et al., 2001). Il consiste en un balayage du document par une ligne lumineuse, les images étant successivement photographiées. La précision semble comparable à celle obtenue par laser.

29 La photogrammétrie offre plusieurs avantages par rapport aux techniques de lumière structurée : le couplage entre acquisition de la texture et acquisition de la surface, la séparation totale entre la phase d’acquisition (rapide) et la phase de calcul (lente), la rusticité de l’installation : un matériel photographique standard, orienté approximativement et non étalonné donne déjà des résultats. Si l’on procède à un étalonnage de l’équipement, il est possible d’obtenir directement des informations métriques absolues sur la surface du document (il devient ainsi possible d’exploiter un plan coté, par ex.). En revanche, la photogrammétrie présente deux inconvénients : la nécessité de la présence d’une texture sur le document, qui exclut son utilisation pour des zones uniformes (marges, interlignes, etc.) et le risque de fausse corrélation, qui reste le problème majeur de la photogrammétrie si on l’envisage sans aucun contrôle humain.

3.1 - Principe de la reconstruction 3D

30 La prise de vue de document a quelques caractéristiques qui la distinguent des applications plus courantes (photogrammétrie aérienne ou architecturale par exemple). Certains aspects facilitent le processus de reconstruction 3D : l’orientation externe des prises de vue est fixe et connue ; l’objet est relativement plat, sans discontinuités ni occlusions dans le cas général, ce qui facilite la corrélation entre les images. Cependant, la mise au point est rapprochée et variable, ce qui rend difficile un étalonnage unique préalable. La forte convergence entraîne de problème de profondeur de champ. Les livres présentent une texture avec une grande répétition de motifs (les lettres dans du texte, traits de gravure dans les illustrations), ce qui présente un danger de fausses corrélations.

31 On trouvera dans (Hass, 2003) et (Cubaud et al., 2004) la description d’une chaîne photogrammétrique qui tient compte de ces spécificités. Dans un logiciel de photogrammétrie, la partie délicate est en effet l’identification des couples de points homologues sur les deux vues. Pour chaque point d’intérêt de la vue gauche par exemple, on cherche à identifier son homologue sur la vue droite par corrélation automatique. La description d’une surface nécessitant des dizaines de milliers de points, le temps de calcul peut devenir rédhibitoire et ceci d’autant plus qu’on cherche une fiabilité (absence de fausses corrélations) élevée. Nous utilisons dans ce logiciel une approche itérative destinée à minimiser ce temps de calcul. En effet, la surface d’une page de livre a des propriétés de continuité qu’il convient d’exploiter : la hauteur d’un point n’est jamais très éloignée de celles de ses voisins.

32 Un premier semis de points est sélectionné sur l’image de gauche. Les points d’intérêt retenus dans l’image sont, classiquement, des « coins » (Ma et al., 2003) : zones de l’image présentant de brusques variations d’intensité dans les directions horizontales et verticales (méthode de Harris). Le calcul de leurs homologues à droite n’est pas très long puisqu’ils sont peu nombreux (environ 60 points). Une approximation de la surface est ensuite obtenue par triangulation des points objets alors calculés. Un second semis de points, quatre fois plus dense, est sélectionné à gauche. Pour chacun d’eux, la surface approximative obtenue précédemment permet de prédire la plage de hauteurs possibles du point objet correspondant. La recherche de l’homologue à droite se fait alors sur un segment « prédicteur », ce qui réduit le temps de calcul de corrélation pour chacun des points. Une surface plus proche de la réalité est obtenue par triangulation entres ces nouveaux points. On recommence ensuite le processus : à chaque boucle, le nombre de points à corréler est plus grand, mais la surface triangulée étant plus précise, l’approximation de la hauteur des points-objets est meilleure, et les segments de recherche sont plus courts.

33 L’algorithme général du logiciel est le suivant :

Chargement image et paramètres d’orientation approximatifs repeaterProduction des points d’intérêt à gaucheSélection d’un jeu de points d’intérêtRecherche des points homologues à droiteAffinage de l’orientation et calcul des points-objetsAjout de points à la triangulationjusqu’à nombre de points suffisantsProduction du fichier VRML, de la texture et de l’ortho-image

34 Sa mise en œuvre représente 5 600 lignes de code Java, sous Windows. Il est complété par une feuille de calcul Excel où sont entrés les paramètres géométriques du banc de prise de vue et les paramètres extrinsèques des caméras, dont on déduit la résolution à attendre du modèle 3D.

3.2 - Résultats obtenus

35 Un banc expérimental a été monté sur un bâti de prises de vues professionnel. Sur le socle, deux appareils photographiques (Konika Digital Revio KD500Z et Canon PowerShot S45, 4Mpix) ont été fixés à l’aide de deux « bras magiques » et visent le document à 30° par rapport à la verticale. Le banc est équipé de quatre projecteurs tungstène, deux de chaque côté, orientés à 45°. La résolution attendue est de l’ordre de 0,1 mm. Nous avons fait l’impasse sur l’étalonnage des appareils. Celui-ci aurait nécessité une petite étude à part entière, en particulier la réalisation d’un objet étalon aux dimensions parfaitement connues. Cet aspect n’a pas été jugé prioritaire, dans la mesure où l’on peut faire de la restitution 3D non métrique (c’est-à-dire à un facteur d’échelle près) en se passant des paramètres d’orientation interne (focale et coordonnées du point principal d’autocollimation). Dans les faits, une échelle approximative est déterminée par l’entrée manuelle dans le logiciel de la longueur de la base stéréoscopique, mesurée au double-décimètre. En ce qui concerne la distorsion, sa non-prise en compte (même si celle-ci est prévue dans le logiciel) conduit à rechercher chaque point homologue non plus strictement sur un segment, mais sur une plage autour de ce segment, ainsi qu’à une légère erreur dans le positionnement des points-objet.

36 Trois ouvrages anciens ont été utilisés pour l’expérimentation, dans chacun desquels nous avons numérisé une ou quelques doubles pages (voir figure 3 pour un exemple). Les clichés ont été utilisés en niveaux de gris, tel quels dans un premier temps. Il s’est cependant révélé nécessaire d’effacer le fond (le plan de travail), pour éviter les recherches de corrélation inutiles. Dans le cas d’une page de texte, le détecteur de coins de Harris fournit une grande quantité de points d’intérêt assez bien répartis. Dans le cas d’une gravure, de grandes zones sont dépourvues de points d’intérêt. Il faudrait ajouter des points par simple détection de gradient horizontal. D’autres méthodes sont encore à évaluer (Schmidt et al., 2000). On compte quelques dizaines de fausses corrélations parmi des milliers de points. Celles-ci sont cependant très gênantes, car elles provoquent des aberrations desurface inacceptables. À l’exception de rares cas, les fausses corrélations se concentrent sur les zones contenant des lignes, contours et motifs répétitifs (figure 4) parallèles à la base stéréoscopique. Dans ce cas, le segment de recherche leur est parallèle et l’ambiguïté dans l’identification de l’homologue est grande. Ce problème peut être contourné par une rotation du document. Les bords de page posent également problème du fait de l’absence de texture. La triangulation produite (figures 5 et 6) est calculée en moins de 5 min. sur un ordinateur de type Pentium IV cadencé à 2 GHz. Ce temps devrait pouvoir être considérablement diminué par optimisation de l’algorithme, ne serait-ce que par sa parallèlisation. Nous ne nous sommes pas penchés sur cet aspect.

...
Exemplaire très abîmé par l’humidité : Privat, Deschanel « Précis de physique », Paris, 1855 (CNAM 8°C44)

Exemplaire très abîmé par l’humidité : Privat, Deschanel « Précis de physique », Paris, 1855 (CNAM 8°C44)

...
Motif répétitif horizontal

Motif répétitif horizontal

...
Vue gauche après triangulation (27 075 triangles)

Vue gauche après triangulation (27 075 triangles)

...
Surface 3D traduite en VRML, sans plaqué de texture pour faire ressortir les fausses corrélations

Surface 3D traduite en VRML, sans plaqué de texture pour faire ressortir les fausses corrélations

37 La robustesse, qu’il s’agisse d’éviter les fausses corrélations ou bien de les supprimer a posteriori, peut être considérablement améliorée par un certain nombre de techniques. Ceci constitue un sujet pour une étape ultérieure de ce travail. Parmi ces techniques, citons l’introduction :

  • d’une troisième image,
  • d’une corrélation croisée : l’homologue de l’homologue d’un point doit être ce point lui-même (Ulges et al., 2004),
  • d’une fenêtre de corrélation adaptative, c’est-à-dire tenant compte de la surface approximative locale déjà calculée,
  • de contraintes sur les vecteurs normaux de la triangulation, afin de tenir compte des éventuelles propriétés de continuité et de dérivabilité de la surface.

A partir de la connaissance de la surface 3D du document numérisé, on peut tenter de le mettre à plat. C’est utile pour les manuscrits reliés, pour lesquels les heuristiques de rectification de lignes de textes sont inopérantes (registres paroissiaux, ou manuscrits d’auteurs importants, par exemple). C’est historiquement la première application envisagée pour la numérisation 3D (Brown et al., 2000). Les progrès effectués en matière de visualisation 3D temps réel permettent toutefois de s’affranchir de ce procédé et d’offrir à l’utilisateur une interface de consultation purement 3D. Celle-ci rendrait ainsi possible la mesure de la taille réelle d’éléments graphiques présents sur le document, au gré de l’utilisateur.

4 - Modélisation des livres à systèmes

38 Dès lors que l’objet livre devient lui-même centre d’intérêt, la mise à plat devient de toute manière insuffisante. On peut citer ainsi les livres d’artistes, avec souvent de nombreux collages superposés, les herbiers et, bien sûr, les livres à systèmes[2] [2] On parle aussi de livres animés ou de livres à transformations. ...
suite
. Ces livres ont comme particularité d’être agrémentés, voire construits autour de systèmes articulés (parties mobiles) de pièces de papier. De tels ouvrages procurent une expérience de lecture allant beaucoup plus loin que le simple parcours du texte et des illustrations. Les domaines investis par les livres à systèmes vont du ludique jusqu’aux ouvrages scientifiques et techniques (notamment en astronomie et en anatomie), pour lesquels les dispositifs sont réalisés à des fins pédagogiques. Nous prendrons comme exemple un texte de l’ingénieur de la Renaissance Salomon de Caus, consacré à la gnomonique. La page reproduite figure 8-1 inclut un modèle en papier de gnomon. Il est composé de deux plats posés initialement l’un sur l’autre. Le plus petit plat, qui représente le stylet du gnomon, doit être levé en premier. Le grand plat se lève ensuite en glissant le stylet dans une échancrure située sur le bord du grand plat. Une fois le modèle construit, le lecteur doit placer le livre au soleil, l’orienter dans la direction est-ouest et, grâce à l’ombre du stylet, lire l’heure solaire sur les graduations latérales.

39 La numérisation de tels ouvrages est très intéressante dans un contexte de préservation du patrimoine et d’augmentation de l’accessibilité, en particulier vers le grand public. En effet, ces livres souvent très anciens sont fragilisés par les effets conjugués du temps et des manipulations répétées des systèmes en papier. Recréer virtuellement de tels ouvrages permettrait d’assurer à la fois leur diffusion vers des publics nouveaux, de faciliter leur accès pour un public déjà expert et d’assurer leur préservation.

40 Devant la grande diversité des systèmes existants (qui n’a de limite que l’imagination des « ingénieurs papier »[3] [3] L’ingénieur papier désigne la personne qui conçoit...
suite
), nous avons proposé une première différenciation. Celle-ci se base sur les propriétés interactives des dispositifs. Ainsi, nous avons dégagé deux grands ensembles de systèmes animés (voir tableaux 1 et 2). D’une part, nous considérons ceux qui ne nécessitent aucune action spécifique du lecteur pour être activés. Le fait d’ouvrir le livre ou de tourner la page est le prérequis nécessaire et suffisant à leur déploiement. Dans cette catégorie viennent se ranger tous les livres connus sous le nom de « pop-up books », mais aussi les carrousels et les peep-shows. Nous avons regroupé, d’autre part, ceux qui demandent une interaction particulière pour être animés. Nous sommes généralement en présence de systèmes moins globaux, plus discrets, comme les tirettes, roues ou volets, dont les particularités sont développées dans le tableau 2. Ces systèmes constituent en outre les briques de base à d’autres systèmes plus complexes comme ceux présentés, par exemple, dans le tableau 3.

Tableau 1 - Les types de livres animés

Pop-up Livre en relief, dont les scènes ou éléments se déploient lors de l’ouverture des pages. Caroussel Livre s’ouvrant à 360°, et présentant une histoire en relief à la manière d’un manège. Peep-show (tunnel book) Livre se déployant en profondeur, permettant de voir une scène en perspective, grâce aux différents plans illustrés qui le composent, donnant cette impression de « tunnel »

Tableau 2 - Les systèmes élémentaires

Volet Pièce de papier fixée à la page en un point et qui dévoile, lorsqu’elle est soulevée, le texte et/ou les images cachés dessous. Tirette Languette de papier qui, lorsqu’elle est tirée/poussée, entraîne l’animation d’autres pièces de papier de la page. Roue Disque de papier, souvent inséré dans l’espace de deux pages consécutives collées, actionné directement par une ouverture sur le bord des pages, permettant de modifier le contenu d’une fenêtre découpée sur la page courante

Tableau 3 - Exemples de systèmes composés

Métamorphose Système fonctionnant sur le même principe que les stores vénitiens. En déplaçant une languette de papier, on fait apparaître 2 images différentes. Volvelle Disques de papiers, concentriques, pouvant être manipulés indépendamment les uns des autres, permettant d’obtenir une information ou une image différente en fonction de leurs positions relatives. Harlequinade Illustrations repliées les unes sur les autres, permettant de modifier la scène de départ lorsqu’elles sont dépliées, faisant ainsi avancer l’histoire

41 Cela ne signifie pas que l’interaction avec les systèmes de cette dernière catégorie soit plus simple, bien au contraire. Ce sont souvent ces systèmes qui vont demander des outils et/ou métaphores de manipulation plus élaborées dans l’interface de consultation (déplacements de la caméra, rotations du livre pour aborder tel ou tel angle, etc.).

42 La virtualisation des livres à systèmes se décompose en plusieurs étapes. La phase de numérisation des pages, tout d’abord, comprenant l’habituelle numérisation du texte et des illustrations, à laquelle s’ajoute la numérisation spécifique des systèmes. Vient ensuite la phase de reconstruction, qui consiste à modéliser le livre, ses pages ainsi que les différents systèmes. La complexité des systèmes déterminera si il est nécessaire de les démonter, afin d’en extraire de manière sûre toutes les parties constituantes, ainsi que la configuration interéléments (mécanisme). Ce processus peut être simplifié si l’on décide de ne pas copier strictement le fonctionnement interne des systèmes.

43 Deux options sont envisageables pour la reconstruction. Nous pouvons, d’une part, choisir de reconstruire toutes les parties du système, si elles présentent un intérêt d’un point de vue de l’ingénierie (ingéniosité d’un système par exemple). L’objet final sera une copie stricte de l’original : tous les mécanismes, même ceux qui sont invisibles, dissimulées dans l’épaisseur de la double page, leurs articulations et leurs effets seront préservés. Leur intégration se fait grâce à l’utilisation d’un moteur physique (par ex. Karma, Ode, etc.) dans l’environnement de consultation. Celui-ci permet de gérer un tel système articulé contraint. Les positions de chaque partie seront donc calculées, en temps réel, en fonction des actions de l’utilisateur. Nous pouvons, d’autre part, décider que ces mêmes mécanismes sont d’un intérêt négligeable et que leur numérisation n’apporterait aucune plus value à la consultation du livre. Seules les parties terminales (actionneur et actionné) doivent donc être prises en considération. Cette seconde option permet de s’abstenir de la reconstruction des structures cachées de la chaîne cinématique. D’un point de vue fonctionnel, la perte d’information (liens entre les parties du système) devra être compensée. Ceci peut être réalisé par différentes méthodes qui seront choisies selon la complexité des cas.

44 La première technique consiste à copier les mouvements complets des parties mobiles et visibles des systèmes, en créant des animations des modèles 3D des systèmes. L’infographiste détermine et enregistre dans un fichier lié au modèle un nombre de positions clés caractéristiques du mouvement (key frames). Lors de la consultation, le système est capable de calculer, en temps réel et par interpolation, toutes les positions transitoires entre deux de ces positions-clés. Cette méthode est à privilégier lorsque les systèmes sont structurellement complexes et/ou que leurs mouvements sont difficilement décomposables en déplacements élémentaires (rotations, translations). L’inconvénient majeur de l’utilisation de fichiers d’animations est qu’ils sont spécifiques à une instance particulière d’un système (généralement inapplicables à d’autres systèmes) et que le travail d’infographie est proportionnel au nombre de systèmes.

45 La seconde technique est à prescrire dans le cas d’animation de systèmes élémentaires ou de systèmes plus complexes dans lesquels des systèmes élémentaires sont facilement identifiables et pour lesquels la décomposition en mouvements simples est possible. Les systèmes de base, ainsi que leurs possibilités de déplacements, étant identifiés, le travail consiste à spécifier le type du système, ainsi que les bornes (amplitude) du mouvement et à lier ces métadonnées au modèle 3D, sous la forme d’un fichier texte structuré. Le système modifiera en temps réel, par des animations procédurales élémentaires, la position des parties manipulées en respectant les contraintes spécifiées dans les métadonnées. Cette solution est, de loin, celle à privilégier puisque c’est la plus générique et qu’elle ne nécessite pas de compétence spécifique d’infographiste.

46 Pour ce faire, une description de la structure de la page et des systèmes liés reste indispensable pour stocker les informations d’interdépendance entre les parties et les fonctionnalités associées. Nous avons choisi de spécifier ces informations au travers d’un langage orienté objet (voir figure 7). Chaque type de système est représenté par une classe dérivée introduisant une forte sémantique. Ces différentes classes comportent des méthodes permettant d’opérer les actions spécifiques au type de système représenté. Chaque système d’une page est une instance d’une de ces classes. Tout système ainsi modélisé dérive d’une classe introduisant les transformations géométriques les décrivant. A ce niveau d’abstraction, on peut distinguer deux types de systèmes mettant en œuvre respectivement :

  • une translation, caractérisée par une contrainte d’amplitude maximale et par son état courant,
  • une rotation, caractérisée par un angle maximum (le cas échéant) et par sa valeur courante.

...
Diagramme des différentes classes de base

Diagramme des différentes classes de base

Une classe de base commune à tous les systèmes rassemble les informations géométriques et hiérarchiques :

  • la position du système dans le repère local du système père auquel il est rattaché,
  • l’axe de rotation ou de translation du système,
  • les informations pour savoir si un système peut être manipulé par l’utilisateur ou pas (isMovable) et s’il se trouve dans sa position finale ou pas (isActive),
  • les références des systèmes attachés (les systèmes fils).

Cette classe de base permet de construire un graphe de dépendance des différents systèmes. Tout système fils ne peut être activé que si le système père est activé. Tous les systèmes situés à un même niveau dans cette hiérarchie pourront être manipulés indépendamment les uns des autres. Ce mécanisme simple permet de définir les systèmes parallèles ou séquentiels. A chaque page d’un livre à système sera également associée une liste de systèmes présents sur cette page. Les méthodes de cette classe de base permettent d’effectuer les actions réalisables sur un type particulier de système.

47 Nous avons modélisé le modèle de gnomon extrait de La pratique et démonstration des horloges solaires dont la reproduction virtuelle est donnée dans la figure 8(1) droite. La page est donc la racine de la hiérarchie d’objets, suivie du petit plat et enfin du grand plat. L’accès, pour l’utilisateur, au dernier niveau de cette hiérarchie (grand plat) en termes d’interaction, est conditionné par le déploiement complet du niveau précédent (petit plat).

...
De haut en bas : 1) Reconstruction 3D (droite) du modèle de gnomon (gauche). 2) Vue en mode «cockpit» de l’atelier de lecture. La collection est accessible en fond. Les ouvrages favoris (panier) sont accessibles en avant-plan. Trépieds pour la lecture des fac-similés (à droite). Consultation en mode feuilletage (à gauche). 3) Une session de travail avec l’écran immersif et l’écran de focus

De haut en bas : 1) Reconstruction 3D (droite) du modèle de gnomon (gauche). 2) Vue en mode «cockpit» de l’atelier de lecture. La collection est accessible en fond. Les ouvrages favoris (panier) sont accessibles en avant-plan. Trépieds pour la lecture des fac-similés (à droite). Consultation en mode feuilletage (à gauche). 3) Une session de travail avec l’écran immersif et l’écran de focus

48 L’interaction avec les livres à système dans des environnements de lecture présente un niveau d’interaction supplémentaire par rapport aux livres « simples ». Celle-ci hérite en effet des possibilités de ce dernier (sélection, manipulation, suppression, feuilletage, etc.), auxquelles s’ajoutent les actions spécifiques sur les pages présentant des systèmes. Nous avons proposé dans (Cubaud et al., 2005) un langage de description hiérarchique permettant de traduire ces contraintes inter-éléments, qui sont le plus souvent des blocages.

49 Dans une approche globale de la page d’un livre à système, il est donc nécessaire de pouvoir distinguer clairement les parties pouvant être manipulées (mobiles) des éléments fixes. Ce processus doit être réalisé de manière à ne pas surcharger la page qui contient elle aussi des informations (textes, images). Par exemple, l’utilisation de widgets 3D inadaptés peut avoir pour conséquence de masquer des informations situées sur la page du livre (en lecture simple). En outre, la nature de ces nouvelles interactions varie selon les systèmes rencontrés (soulever un volet, tirer une languette, etc.). Le lecteur doit pouvoir identifier efficacement quelle(s) action(s) sont réalisables sur le système qu’il considère. Ces interactions peuvent, par ailleurs, être combinées entre elles dans le cas de systèmes hiérarchiques, dans lesquels une partie du système en contraint une autre. Nous avons donc porté une attention toute particulière à assister les fonctions de sélection et manipulation des systèmes.

50 La fonction de sélection d’un système doit se distinguer de l’interaction globale avec la page, qui est sémantiquement liée au feuilletage. Ainsi, l’accès au mode de sélection se fait de manière spécifique et différencié des commandes utilisées pour tourner la page. La difficulté suivante est liée au fait que le lecteur peut ne pas connaître a priori les systèmes qu’il peut sélectionner (l’ensemble fini des parties avec lesquelles il peut interagir sur la page). Nous avons donc implanté un mode de mise en valeur de l’ensemble les systèmes disponibles sur une page donnée. De cette manière, le lecteur peut savoir avec quelles parties de la page il va pouvoir interagir. Ce mode est accessible durant la phase de sélection ou indépendamment de celle-ci. Dans le premier cas, cohabitent sur la page les indicateurs de systèmes « sélectionnables » et de système « sélectionné ».

51 Dans le même ordre d’idée, une assistance à la manipulation des systèmes s’est avérée être nécessaire. Elle se décline à deux niveaux : le premier niveau d’aide permet d’indiquer au lecteur quel est le type de transformation que peut subir un système donné (translation ou rotation) et d’induire ainsi l’action correcte via le périphérique matériel utilisé (gant de réalité virtuelle, stylet, doigt sur un écran tactile, etc.). Le second niveau permet de supplanter l’interaction fine avec l’utilisateur en automatisant le déplacement du ou des parties d’un système donné. On peut ainsi voir un système complexe se déployer entièrement suite à une simple commande (idée du raccourci). Ces différentes dispositions sont accessibles pour la totalité des systèmes que nous connaissons et permettent de guider plus efficacement le lecteur dans sa découverte du livre.

5 - Conclusion

52 La montée en puissance des système d’affichage et des connexions internet haut débit permettent d’espérer que l’accès aux bibliothèques numériques devienne dans un futur proche as easy as a game (Christoffel et al., 2002). C’est d’autant plus nécessaire que se développent en ce moment des initiatives de numérisations massives, à l’échelle mondiale. Pourtant, les bibliothèques numérisées, dans leur état présent, semblent souffrir d’un « moiré généralisé ». Un grand soin est en général pris dans la numérisation des textes, mais on ne prête pas assez attention au médium sous-jacent (le livre), à son environnement physique (la bibliothèque), ainsi qu’aux gestes et aux démarches des lecteurs. Passer de l’interface textuelle unidimensionnelle au volume, comme les technologies 3D temps réel l’autorisent dès à présent, pourrait permettre d’élargir le flux de communication entre les bibliothèques numériques et leurs usagers.

53 Nous avons présenté dans cet article une synthèse de nos contributions à ce domaine. La première est un poste de lecture et de recherche qui est issu de travaux débutés en 1998. Cette interface rassemble dans un même environnement la collection et les livres ouverts pour la consultation. Ainsi, il est possible de remplir les deux tâches essentielles lors de l’appropriation d’un corpus : trouver par des heuristiques visuelles les textes d’intérêt et les parcourir. Notre prototype actuel intègre un feuilletage interactif des ouvrages, par le biais d’une métaphore d’interaction appelée lutrin. Les fac-similés de pages sont modélisés dans le lutrin par de simples faces 3D. Le feuilletage ne peut se faire que page par page, à l’aide de rotations de 180° autour de l’axe du lutrin. Les animations produites sont irréalistes puisque le maillage des pages ne subit aucune déformation lors du feuilletage. Une partie des développements en cours a pour but de rendre ce feuilletage plus réaliste comme cela a déjà été proposé dans (Card et al., 2004 ; Chu et al., 2004). Pour cela, les maillages représentant les pages seront fabriqués à l’aide de patches de Bézier dont l’intérêt est de permettre le réglage adaptatif des niveaux de détail. Un autre aspect, sans doute plus important à étudier, est le défilement accéléré des pages pour permettre une recherche visuelle rapide.

54 Quelle que soit la manière de modéliser la page, elle n’apparaîtra qu’en deux dimensions (sur la face unique ou le long du patch de Bézier). La texture seule ne pourra en aucun cas donner des informations de relief. Or, pour les ouvrages anciens reliés, ce relief peut avoir son importance. Nous avons présenté une technique de reconstruction 3D adaptée à la capture de ce type de relief. L’objet-livre ainsi reconstruit pourra être naturellement reproduit dans l’environnement de lecture 3D que nous avons présenté, mais le feuilletage reste dans ce contexte à étudier. La numérisation classique ne permet pas non plus de traiter les livres à systèmes qui sont constitués de plusieurs parties articulées. Nous avons donc développé les briques de bases d’un modeleur spécialisé et il faudra enrichir les fonctionnalités de l’environnement de lecture 3D pour ce type d’ouvrage. Au-delà, nous souhaiterions étudier comment décrire dans un formalisme commun toutes ces métadonnées décrivant la matérialité des ouvrages.

55 Il reste enfin à comparer, dans un cadre expérimental commun, les procédés proposés par les différentes équipes qui contribuent à ce thème de recherche. Les appels en ce sens comme (Chen et al., 2002) sont donc bienvenus, mais il faudra sans doute pour cela élaborer un corpus type (comme ceux utilisé en traitement automatique de la langue, ou de l’image numérique). Viendra ensuite la comparaison des pratiques de lecture sur les différents systèmes.

Bibliographie

6. Bibliographie

Baudish P., Good N., Stewart P., « Focus plus context screens : combining display technology with visualization techniques », Proc. of UIST’01, Orlando, USA, Nov. 2001.

Brethes JC., Histoire de la télécopie, PUF, 1995, p. 27-35.

Brown M., Seales W., « Beyond 2D images : Effective 3D imaging for library materials », Proc. of the 5th ACM conf. on Digital Libraries, San Antonio, June 2000, p. 27-36.

Brown M., Seales W., « Document Restauration Using 3D Shape : A General Deskewing Algorithm for Arbitrarily Warped Documents », Proc. Int. Conf. On Computer Vision (ICCV’01), Vancouver, vol. 2, 7-14 juillet 2001, p. 367-375.

Brown M., Tsoi D., « Correcting Common Distorsions in Camera-Imaged Library Materials », Proc. of ACM-IEEE JCDL’03, Houston, May 2003, p. 367-8.

Card SK., Robertson G., Mackinlay J., « The Information Visualizer, an Information Workspace », Proc. of ACM CHI’91, New Orleans, Louisiana, USA, 1991.

Card SK., Robertson G., York W., « The WebBook and the Web Forager : An Information Workspace for the World-Wide-Web », Proc. of ACM CHI’96. Vancouver, Canada, April 1996.

Card SK., Hong L., Mackinlay J., Chi E., « 3Book : A Scalable 3D Virtual Book », Proc. of ACM CHI’04. Vienna, Austria, April 2004.

Card SK., Mackinlay J., Shneiderman B. (eds.), Readings in Information visualization. Using Vision to Think, Morgan Kaufmann, 1999. (chap. 5, en particulier).

Carpenter L., Shaw S., Prescott (eds.), Towards the digital library : The british library initiatives for access programme, London, British library, 1998, p. 61 et suiv.

Chen C., Börner K., « Top ten problems in visual interfaces to digital libraries », in Börner K., Chen C. (eds), Visual interfaces to digital libraries, LNCS 2539, Springer, 2002.

Christoffel M., Schmitt B., « Accessing libraries as easy as a game », in Börner K., Chen C. (eds) Visual interfaces to digital libraries, LNCS 2539, 2002.

Chu YC., Bainbridge Jones D., Witten I., « Realistic books : a bizarre hommage to an obsolete medium ? », Proc. of ACM-IEEE JCDL’04, Tucson, June 2004.

Cockburn A., McKenzie B., « 3D or not 3D ? Evaluating the Effect of the Third Dimension in a Document Management System », Proc. of ACM CHI’2001, Seattle, WA, USA, 2001.

Cubaud P., Thiria C., Topol A., « Experimenting a 3D Interface for the Access to a Digital Library », Proc. of ACM DL’98, Pittsburgh, USA, June 1998.

Cubaud P., Topol A., « A VRML-based user interface for an online digitalized antiquarian collection », Proc. of ACM SIGGRAPH Web3D Symp, Padderborn, April 2001, p. 51-59.

Cubaud P., Stokowski P., Topol A., « Mixing Browsing and Reading Activities in a 3D Digitalized Library », Proc. of ACM-IEEE JCDL’02, Portland, USA, June 2002.

Cubaud P., Deblock G., « Le conservatoire numérique des arts et métiers : historique du projet et organisation du site », Actes du colloque La numérisation des textes et des images, techniques et réalisations, Université Lille 3, Editions de l’université Lille 3, Jan. 2003.

Cubaud P., Haas JF., Topol A., « Numérisation 3D de documents par photogrammétrie », Actes 8ème conf. francophone sur l’écrit et le document (CIFED’04), La Rochelle, France, juin 2004.

Cubaud P., « Interaction 3D pour les bibliothèques numériques », in Papy (dir.) Les bibliothèques numériques, Traité IC2, Hermès, 2005.

Cubaud P., Dupire J., Topol A., « Digitization and 3D modeling of movable books », Proc. of ACM-IEEE JCDL’05, Denver, USA, June 2005.

Dupire J., Topol A., Cubaud P., « Video game technology as a virtual reality development tool : The example of a 3D digital library », Proc. of 7th Int. conf on Computer Games, Angoulème, nov. 2005.

Fingerhut M., « Le site Web de la bibliothèque considéré comme un espace », Bulletin des bibliothèques de France, t. 45, n° 3, mai 2000.

Gould G., Grischokowsky N., « Doing the same work with hard copy and with Cathode-Ray tube (CRT) computers terminals », Human Factors Journal, 26(3) :323-337, 1984.

Gould JD., Alfaro L., Fonn R., Haupt B., Minuto A., Salaun J., « Why Reading was slower from CRT displays than from paper », Proc. of ACM CHI+GI 87, Toronto, Canada, 1987.

Haas JF., Numérisation tridimensionnelle de livres anciens par photogrammétrie, Rapport de stage Mastère de photogrammétrie numérique, ENSG, Noisy, sept. 2003. 81 p.

Jones W., Dumais S., « The Spatial Metaphor for User Interfaces : Experimental Tests of Reference by Location versus Names », ACM Trans. on Office Information Systems, 4(1) :42-63, 1986.

Kasik D., Troy J., Amorosi S., Murray M., Swamy S., « Evaluating Graphics Displays for Complex 3D Models », IEEE Computer Graphics & Applications, 22(3) :56-64. 2002.

Kipp NA., Virtual Digital Library Interface with a Spatial Metaphore, Research report, Dept. of Computer Science, Virginia Tech, 1997.

Lesk M., Practical Digital Libraries : Books, Bytes and Bucks, Morgan Kaufmann, San Francisco, USA, 1997.

Ma, Y., Soatto, S., Kosecka, J., An Invitation to 3-D Vision : From Images to Geometric Models, Springer, 2003.

Muter P., Maurutto P., « Reading and Skimming from computer screens : the paperless office revisited », Behavior and Information Technology, 10(4), 257-266, 1991.

O’Hara K., Sellen A., « A comparison of reading paper and on-line documents », Proc. of ACM CHI’97, Atlanta, USA, 1997.

Patrick E., Cosgrove D., « Using a Large Projection Screen as an Alternative to Head-Mounted Displays for Virtual Environments », Proc. of ACM CHI’00, Amsterdam, April 2000, p. 478-485.

Plénacoste P., Lecolinet E., Pook S., Dumas C., Fekete JD., « Zoomable and 3D Representations for Digital Libraries », Proc. of IHM-HCI 2001, Lille, France, sept. 2001.

Rao R., Pedersen J., Hearst M., Mackinlay J., Card SK., Masinter L., Halvorsen PK., Robertson G., « Rich interaction in the digital library », Communications of the ACM, 38(4) :29-39, 1995.

Rauber A., Bina H., « Visualizing electronic document repositories : drawing books and papers in a digital library », Proc. of the 5th IFIP 2.6 work. conf. on Visual Databases Systems (VDB5), Fukuoka, Japan, May 2000.

Scaife M., Rogers Y., « External cognition : How do graphical representations work ? », Int. Journal of Human-Computer Studies, 45 :185-213, 1996.

Schmidt C., Mohr R., Bauckage C., « Evaluation of interest point detectors », Int. Journal of Computer Vision, 37(2) :151–172, 2000.

Stern D., « Digital libraries. Philosophies, technical design considerations, and example scenarios », Science and tech. libraries 17 (3-4), 1999.

Topol A., Interaction 3D pour les paysages informationnels, Thèse de doctorat en informatique, Conservatoire national des arts et métiers, décembre 2002.

Wada T., Ukida H., Matsuyama T., « Shape from shading with interreflections under proximal light source : 3D shape reconstruction of unfolded book surface from a scanner image », Proc. Int. Conf. of Computer Vision (ICCV’95), 1995, p. 66-71.

Zhang Z., Tan CL., Fan L., « Estimation of 3D shape of warped document surface for image restoration », Proc. of Int. conf. on Pattern Recognition ICPR 2004, vol. 1, p. 486-9.

 

Notes

[ 1] Ou alias. On peut obtenir facilement des figures de moiré en superposant deux feuilles de celluloïd sur lesquelles on trace des réseaux de lignes de dimension et d’orientation légèrement différentes.Retour

[ 2] On parle aussi de livres animés ou de livres à transformations.Retour

[ 3] L’ingénieur papier désigne la personne qui conçoit les systèmes articulés en papier.Retour

Résumé

Les interfaces des bibliothèques numériques d’aujourd’hui ne transcrivent qu’une partie des activités qu’effectue un usager de bibliothèque. Nous présentons dans cet article quelques expériences visant 1) à étudier l’intérêt de métaphores d’interaction 3D pour la lecture et la navigation dans de grands corpus textuels numérisés, 2) à permettre l’acquisition de métadonnées décrivant l’aspect physique des ouvrages.

Mots-clés

bibliothèques numériques, numérisation 3D, interaction 3D



Current digital libraries interfaces transcribe only part of the activities which library patrons’ carry out. We present in this article some experiments relating to 1) the study of 3D interaction metaphors that provide a continuous navigation space for reading and browsing activities 2) the acquisition of metadata describing the physical apect of the documents.

Keywords

digital libraries, 3D digitization, 3D interaction

PLAN DE L'ARTICLE


POUR CITER CET ARTICLE

Rodrigo Almeida et al. « Interactions et métadonnées riches pour les bibliothèques numérisées », Document numérique 2/2006 (Vol. 9), p. 83-109.
URL :
www.cairn.info/revue-document-numerique-2006-2-page-83.htm.
DOI : 10.3166/dn.9.2.83-109.