Document numérique 2006/2
Document numérique
2006/2 (Vol. 9)
126 pages
Editeur
A propos de cette revue Site Web
Alertes e-mail

Recevez des alertes automatiques relatives à cet article.

S'inscrire Alertes e-mail - Document numérique

Être averti par courriel à chaque nouvelle parution :
d'un numéro de cette revue
d'une publication de Christophe Tricot
d'une publication de Christophe Roche
d'une publication de Charles Emmanuel Foveau
d'une publication de Samah Reguigui
d'une citation de cet article

Votre adresse e-mail

Gérer vos alertes sur Cairn.info

Cairn.info respecte votre vie privée

Vous consultezCartographie sémantique de fonds numériques scientifiques et techniques

AuteursChristophe Tricot du même auteur

Équipe Condillac
Université de Savoie, Campus Scientifique
F-73376 Le Bourget du Lac cedex
christophe.tricot@univ-savoie.fr

1 - Introduction


L’objectif de cet article est de présenter nos travaux sur la cartographie et la navigation thématique d’un fonds documentaire composé de documents numériques scientifiques et techniques. La problématique était d’étudier et de fournir les moyens permettant à des collaborateurs d’une même communauté de pratique d’identifier et d’accéder à l’information nécessaire à leur activité contenue dans les documents.

2 Cette étude a été initiée avec le « Groupement pour la Recherche sur lesÉchangeurs Thermiques » (GRETh) qui ont mis en place il y a deux ans un site Internet pour la diffusion des connaissances et des informations scientifiques et techniques au service de ses adhérents (principalement des industriels). Une base de données a alors été constituée. Elle contient plus de cinq cents documents dont des rapports de thèses, des rapports scientifiques et techniques (issus de recherches effectuées dans le cadre contractuel de la recherche collective du laboratoire GRETh), de la bibliographie scientifique (issue de publications d’articles de différentes sources), ainsi que de nombreux autres documents. Tous ces documents se rapportent aux métiers du GRETh qui sont basés sur la mécanique des fluides et la thermique des échangeurs. Une phase préliminaire de veille stratégique, menée par le GRETh, a conduit en partie à la constitution de cette base de données. Le nombre d’utilisateurs qui viennent rechercher de l’information est constitué d’une cinquantaine de chercheurs et d’au moins une centaine d’entreprises industrielles (les collaborateurs des entreprises ayant eux-mêmes accès au système).

3 Notre objectif a été dans un premier temps d’étudier les différents paradigmes existants (au sens d’une problématique et de ses solutions) permettant d’accéder à un fonds documentaire scientifique et technique. Notre étude s’est alors rapidement orientée vers les techniques de visualisations interactives pour l’accès et la recherche d’informations annotées sémantiquement.

4 Pour parvenir à notre objectif de cartographie du fonds documentaire, il a fallu au préalable mettre en place un moteur d’indexation automatique s’appuyant sur la sémantique du domaine. Puis, nous avons proposé des cartographies exploitant cette sémantique pour permettre aux usagers d’accéder aux documents. Le résultat de cette approche est la création et la mise en place d’un outil pérenne car, il favorise la diffusion et l’échange de connaissances.

5 Notre étude a débuté par la définition, avec l’aide des utilisateurs, d’un certain nombre de besoins, comme la capacité à naviguer dans le fonds documentaire tout en gardant une vision globale de la structuration. Par la suite, l’étude des solutions existantes et l’analyse des retours d’expérience, nous ont permis de spécifier et de réaliser deux nouvelles cartographies dédiées à la navigation et à la recherche dans des fonds documentaires annotés par l’ontologie du domaine : le « EyeTree « et l’ « OntoRequest ». Pour terminer, l’ensemble de ces travaux a été validé dans le cadre de la réalisation d’un système de cartographie sémantique de fonds documentaire MISTI (Moteur Internet Sémantique pour la Thermique Industrielle). Cet article reprend et présente chronologiquement les différentes étapes de notre étude.

2 - Problématique

2.1 - La documentation scientifique et technique

6 Une documentation scientifique et technique est constituée d’un ensemble de documents qui portent sur un même domaine. Au domaine est associée une terminologie dont la signification des termes est définie en relation avec les concepts métier – c’est-à-dire l’ontologie du domaine – et à laquelle est attaché un ensemble de « mots d’usage » utilisé pour la rédaction du corpus.

7 La prise en compte des mots d’usage permet de gérer la diversité langagière – communauté de pratique et langues naturelles – tout en se référant à la même ontologie du domaine. Par exemple, les mots d’usage « perte de charge » et « pressure drop » se réfèrent à la même notion.

2.2 - Les besoins

8 L’objectif de cette étude est de définir et mettre en œuvre les moyens nécessaires pour accéder à un fonds documentaire, non pas en fonction de mots-clés présents dans les documents mais, selon la modélisation du domaine définie par les experts en termes de concepts métier. L’accès à la base de connaissances doit également gérer le multilinguisme car, des documents différents dans les termes qu’ils emploient (parce que produits par des communautés de pratique différentes) peuvent néanmoins se référer aux mêmes notions ; c’est en particulier le cas lorsque les documents sont rédigés dans des langues différentes. Nous avons pu identifier cinq besoins à satisfaire pour permettre de répondre à cet objectif.

9 Identifier l’information à l’aide des concepts métier : l’identification de la « bonne information » requiert une recherche basée sur les concepts métier associés au domaine. Ces concepts sont dénotés par les mots d’usage, termes et expressions, contenus dans les documents. Cette approche de recherche est donc extralinguistique ce qui la rend très différente d’une approche par mots-clés ou par ensemble de mots (sémantique distributionnelle). De plus, une approche par concepts métier permet d’avoir une indexation elle aussi extralinguistique des documents sur l’ontologie du domaine, garantissant ainsi de retrouver l’information dans les documents indépendamment de leur langue.

10 Avoir une vision globale du fonds documentaire : permettre à l’utilisateur de s’approprier l’information issue du fonds documentaire nécessite de lui fournir les moyens pour l’appréhender dans sa globalité indépendamment de la diversité langagière des communautés de pratiques. C’est pourquoi, il faut fournir une vision globale de l’ensemble du fonds documentaire en relation directe avec les concepts qu’il manipule.

11 Naviguer selon la modélisation du domaine : comme décrite précédemment, l’information doit être identifiée à l’aide des concepts métier du domaine. De même, l’accès aux documents doit se faire selon la structuration de ses concepts. Ainsi, la navigation s’effectue selon la modélisation du domaine ce qui permet à l’utilisateur de comprendre, assimiler et exploiter cette modélisation.

12 Assister l’utilisateur dans l’expression de ses besoins : une des premières difficultés, lors d’une recherche d’information, est d’exprimer sa requête. Même si l’utilisateur maîtrise bien le domaine, il lui est souvent difficile de choisir les bons éléments pour exprimer ses besoins. Ce problème est particulièrement flagrant lors d’une recherche par mots-clés avec un moteur de recherche. Il faut donc assister l’utilisateur pour construire sa requête en exploitant les connaissances du domaine et leur organisation.

13 Présenter les résultats : la compréhension des résultats de sa recherche est une autre difficulté pour l’utilisateur. C’est pourquoi, il est nécessaire de fournir une présentation des résultats qui soit adaptée à l’utilisateur et à son activité.

14 L’ensemble de ces besoins est lié à la nécessité pour l’utilisateur d’évoluer dans un espace informationnel souvent important. Cette problématique est donc une problématique de navigation et de recherche d’informations dans un fonds documentaire.

2.3 - La visualisation de fonds documentaire exploitant la structuration

15 Face à un grand nombre de documents et d’informations, il est nécessaire d’aider l’utilisateur. Pour cela, il est possible d’amplifier sa cognition en exploitant les capacités naturelles de l’homme à traiter l’information graphique. On parle alors de « visualisation de l’information » (Bertin, 1977 ; Card et al., 1999b) ou de « visualisation des connaissances » (Burkhard, 2004 ; Keller et al., 2005).

16 Comme décrite précédemment, la problématique est de proposer une solution pour permettre aux utilisateurs de naviguer et de rechercher dans un fonds documentaire en exploitant les connaissances du domaine. Cette problématique repose alors sur deux éléments fondamentaux :

17 La structuration du domaine du fonds documentaire : pour proposer une recherche et une navigation basées sur les connaissances du domaine, il est nécessaire de proposer et d’exploiter une structuration du fonds documentaire. Se pose alors le problème de la nature de cette structuration.

18 La visualisation pour naviguer et interroger le fonds documentaire : la visualisation offre la possibilité d’aider l’utilisateur en exploitant ses capacités à percevoir et traiter l’information graphique. Apparaît alors la problématique du choix des techniques de visualisation.

19 En accord avec notre approche de cartographie reposant sur l’organisation des connaissances, la partie suivante décrit les possibilités existantes pour structurer un fonds documentaire et la partie qui lui succède, décrit les techniques pour le visualiser.

3 - Structuration

20 Depuis l’invention de l’écriture et plus couramment depuis la création des bibliothèques, se pose le problème de l’organisation des documents. L’intérêt d’un fonds documentaire n’est pas de collectionner des documents mais de permettre à des individus d’accéder aux informations nécessaires (si elles existent) pour leur activité. Cet objectif implique tout d’abord, d’identifier les informations pertinentes et ensuite, de fournir les moyens pour y accéder. Ceci n’est possible qu’en exploitant la structuration du fonds documentaire. Il paraît alors évident que la qualité des résultats est directement fonction du type de structuration. Cependant les possibilités pour organiser, classer et structurer un ensemble de documents sont nombreuses (surtout depuis l’avènement de l’outil informatique et de sa puissance de traitement).

21 De manière générale, structurer un fonds documentaire revient à identifier des sous-ensembles constitués d’éléments (les documents) répondant à une ou plusieurs propriétés. Ces sous-ensembles sont généralement nommés des « classes ». Le processus de structuration permet d’identifier la ou les classes d’appartenance de chaque élément.

22 Nous pouvons distinguer deux grandes familles de méthodes de structuration : la structuration par sémantique distributionnelle et la structuration par sémantique « du domaine ».

23 La sémantique distributionnelle. Le traitement pour structurer le fonds documentaire porte uniquement sur les documents eux-mêmes et les informations qu’ils contiennent. C’est le cas par exemple, avec les algorithmes de datamining comme le clustering : l’algorithme permet de calculer une distance entre les documents, basée sur leur contenu. Selon cette distance, les documents proches appartiennent au même cluster.

24 La sémantique « du domaine ». La structuration du fonds documentaire ne repose pas uniquement sur le contenu des documents. Elle fait appel à des ressources externes, comme des connaissances relatives au domaine pour déterminer l’appartenance d’un élément à une classe. La classe est alors nommée « concept ». Cette structuration étant propre au domaine, on parle alors de « concepts métier ».

25 La navigation et la recherche reposent sur la structuration du fonds documentaire sous forme de classes. Le passage d’une classe à une autre est effectué en parcourant la relation qui les lie. Les relations possibles entre des classes peuvent être variées mais généralement elles correspondent soit à un treillis soit à une hiérarchie. Par exemple, dans le cas du clustering, il s’agit d’une hiérarchie de clusters et dans le cas de la sémantique du domaine, il s’agit d’une hiérarchie de concepts.

26 Après la structuration, il nous reste à présenter la deuxième partie de notre approche : la visualisation a proprement parlé du fonds documentaire.

4 - Visualisation

27 Face à de grandes quantités d’informations, les représentations graphiques sont privilégiées. Ceci s’explique par la capacité naturelle de l’homme à assimiler et traiter, instantanément et sans effort, des informations représentées graphiquement (par exemple la position relative de villes sur une carte routière). En effet, la vue est un des sens les plus performants de l’être humain. L’œil permet de percevoir un ensemble de signaux simultanément et d’effectuer un grand nombre de traitements instantanément avant même de mettre en jeu des mécanismes cognitifs comme le raisonnement ou la mémorisation (Barsalou, 1999). Cette économie des traitements cognitifs amplifie la cognition car l’utilisateur peut alors se concentrer sur l’exploitation des informations perçues.

28 Dans le cadre de données abstraites (par opposition aux données physiques telles que les données géographiques), comme c’est le cas dans un fonds documentaire, on parle de « visualisation de l’information » (Card et al., 1999b). De plus, si leur visualisation a pour objectif de créer ou de partager des connaissances portant sur un domaine, on parle alors de « visualisation des connaissances » (Burkhard, 2004 ; Keller et al., 2005).

29 À chaque entité et à chaque relation visualisées est associée au moins une représentation graphique codée avec différentes variables (couleur, taille, forme, position…) (Bertin, 1977, 1999 (orignal : 1967)). Les représentations sont ensuite assemblées dans un espace graphique nommé « la carte ». Le passage des entités et des relations à la carte en utilisant des techniques graphiques constitue le processus de cartographie. Chaque carte est alors équivalente à une extension de la mémoire humaine. On parle alors d’ « amplification de la cognition » où la carte joue le rôle de support de la pensée (Card et al., 1999b).

30 Cependant, la carte ne peut pas se réduire à un assemblage de représentations graphiques. Elle doit répondre à des règles pour permettre à l’utilisateur d’avoir une vision claire et efficace de son contenu. Pour être en accord avec le mantra de Shneiderman ("Overview first, zoom and filter, then details on demand") (Shneiderman, 1996), la carte doit tout d’abord proposer une vision globale de l’ensemble des éléments représentés en s’appuyant sur les connaissances du domaine. Puis, elle doit permettre de se concentrer sur un élément ou un sous-ensemble d’éléments et d’en visualiser les détails si besoin.

31 L’étude des besoins a permis de mettre en évidence la nécessité de proposer deux approches visuelles complémentaires pour exploiter le fonds documentaire : par navigation et par recherche. Les parties suivantes décrivent l’étude de chacune de ces approches.

5 - Navigation

32 Depuis des années, les travaux portant sur la navigation visuelle au sein d’un ensemble d’éléments ont permis de produire de nombreuses solutions et techniques très variées. Pour déterminer si une de ces solutions pouvait répondre (en totalité ou en partie) à notre problématique, nous avons étudié leurs propriétés. Les chapitres suivants présentent la synthèse chronologique de cette étude.

5.1 - Visualisation de collections

33 Face au nombre important de solutions existantes, nous les avons tout d’abord réparties en deux familles : les solutions de visualisation intra-document et les solutions de visualisation d’une collection de documents. Cette répartition est déjà proposée dans plusieurs travaux (Card et al., 1999a ; Jacquemin et al., 2005). Par exemple, pour illustrer le choix de cette répartition, prenons deux systèmes très représentatifs de ces deux familles : WebBook et DocCube. WebBook (Card et al., 2004 ; Card et al., 1996) est un système qui permet de représenter des documents avec une métaphore de livre en trois dimensions. DocCube quant à lui, (Mothe et al., 2003) représente un fonds documentaire avec des nuages de sphères où chaque sphère correspond à un ensemble de documents.

34 Dans notre cas, celui d’un fonds documentaire, ce qui nous concerne c’est la représentation d’une collection de documents. Nous avons donc poursuivi nos travaux par l’étude des solutions de la deuxième famille.

35 Nous avons scindé en deux l’ensemble des solutions de visualisations de collections de documents en prenant comme critère discriminant la représentation explicite ou non de la structuration du fonds documentaire. Il est important de souligner que le fonds documentaire est nécessairement structuré. Cependant, si cette structuration est explicitement représentée, elle est mise d’avantage en valeur. Cette distinction est importante par son impact sur l’utilisateur. Dans le cas d’une représentation explicite de la structuration, l’accès aux documents se fait par l’intermédiaire de leurs classes d’appartenance (indépendamment de la façon dont ont été construites les classes, sémantique distributionnelle ou propre au domaine). Par contre, dans le cas où la structuration ne serait pas représentée explicitement, l’accès aux documents est direct.

36 Pour illustrer cette différence prenons comme exemple le système Lighthouse (Leuski et al., 2000) pour lequel la représentation de la structuration n’est pas explicite. Les documents sont représentés par des structures visuelles dans un espace en trois dimensions.

...
Le système Lighthouse

Le système Lighthouse

37 La structuration du fonds documentaire concerné repose sur une fonction de distance (similarité entre les documents) qui donne une répartition spatiale des documents. L’utilisateur appréhende l’ensemble des documents à travers leur répartition dans la carte. Le système DocCube (Mothe et al., 2003) décrit précédemment, appartient lui aussi à cette catégorie.

...
Le système Grokker

Le système Grokker

38 Pour illustrer l’autre cas, prenons l’exemple du système Grokker[1] [1] http :/ / w www. grokker. com ...
suite
pour lequel la représentation de la structuration des documents est explicite (ici des documents accessibles via Internet).

39 Les documents sont structurés à l’aide d’une hiérarchie de clusters. La visualisation est constituée d’un cercle global correspondant au cluster le plus général. Ce cercle contient la représentation de ses sous-clusters et ceci de manière récursive jusqu’aux documents représentés par des carrés. Pour accéder aux documents, l’utilisateur est guidé par la structuration en parcourant les niveaux hiérarchiques de clusters. La représentation de la structuration favorise son apprentissage par les usagers.

40 Un des besoins lié à notre problématique est d’avoir une navigation dans le fonds documentaire guidé par la structuration du domaine. Par conséquent, il est important d’aider les utilisateurs à comprendre et assimiler cette structuration. C’est pourquoi nous écartons les solutions qui ne représentent pas explicitement la structuration comme Data Mountain (Robertson et al., 1998), ThemeScapes (Wise et al., 1995), Galaxy Of News (Rennison, 1994), Bib3D (Cubaud et al., 1998 ; Cubaud et al., 2001) et Vibe System (Olsen et al., 1993).

5.2 - Représentation explicite de la structuration

41 À ce stade de l’étude, il reste encore toutes les solutions qui permettent de visualiser une collection de documents en représentant explicitement leur structuration.

42 La représentation explicite de la structuration peut se ramener à une représentation de type « nœud-lien » où les nœuds représentent les classes et les liens représentent les relations entre les classes. Ce constat nous a donc amenés à écarter toutes les solutions exploitant des techniques de pavage (Baker et al., 1995) comme les « treemaps » (Johnson et al., 1991 ; Wijk et al., 1999), les « cushion treemaps » (Wijk et al., 1999), les « beamtrees » (Ham et al., 2003) et les « information slices » (Andrews et al., 1998).

43 Le choix d’une technique de visualisation dépend beaucoup de la structure des données à visualiser. Dans le cadre de la structuration d’un fonds documentaire, nous pouvons avoir principalement un treillis ou une hiérarchie. Par la suite, nous avons réparti les solutions restantes en solutions pour les treillis et solutions pour les hiérarchies.

44 Les treillis. Les travaux dans le domaine de la visualisation d’information proposent de nombreuses solutions de dessin de treillis avec des représentations de type nœuds-liens (Tollis, 1996). Ces solutions varient principalement selon les algorithmes utilisés pour placer les nœuds et pour dessiner les liens.

45 Les hiérarchies. Les travaux pour visualiser des hiérarchies sont extrêmement plus variés. Ils vont du « treeview simple » (présent dans les systèmes d’exploitation pour visualiser une arborescence de fichiers) aux arbres de cônes en 3D (Robertson et al., 1991) en passant par les arbres hyperboliques (Lamping et al., 1995).

6 - Recherche

46 Notre objectif est également de proposer une solution pour permettre aux utilisateurs d’accéder à l’information pertinente pour leur activité. Pour cela, il faut lui fournir les outils pour construire une requête, puis la soumettre au système et enfin, lui présenter les résultats.

47 Les utilisateurs sont habitués à effectuer des recherches d’informations (l’exemple le plus courant est la recherche sur Internet). Généralement ces recherches sont proposées via une interface possédant un champ de saisie, pour saisir dans un premier temps une requête en langage naturel et une zone pour afficher dans un deuxième temps les résultats.

48 La requête doit exprimer les besoins de l’utilisateur et, tout comme la structuration du fonds documentaire, elle doit s’appuyer sur les connaissances du domaine. Par exemple, l’utilisateur doit pouvoir formuler une requête pour retrouver tous les documents traitant d’un thème donné.

49 Une des principales difficultés pour les utilisateurs est de construire leurs requêtes et de déterminer les éléments qui doivent la constituer (Mothe et al., 2003). Un utilisateur même familier avec le domaine concerné, saura reconnaître un concept à partir de termes qui le dénotent alors qu’il ne saura pas toujours donner les termes qui dénotent un concept[2] [2] Nous nous plaçons dans le cas d’une recherche sans perte...
suite
. Nous sommes généralement dans le deuxième cas où l’utilisateur sait quels sujets (thèmes ou concepts) il recherche sans nécessairement connaître tous les mots d’usage utilisés dans le corpus. Dès lors, il apparaît nécessaire d’aider l’utilisateur à construire sa requête en proposant de sélectionner des concepts métier parmi ceux déjà identifiés dans le domaine.

50 La construction de la requête ainsi que l’exploitation des résultats associés, ne doit pas surcharger cognitivement l’utilisateur pour le laisser se concentrer sur sa tâche principale : exploiter la bonne information. Mais, face à un grand nombre de concepts métier, l’utilisateur ne peut plus sélectionner directement ceux qui vont constituer sa requête sans entraîner une surcharge cognitive. Pour permettre une économie cognitive, l’approche courante est d’utiliser des techniques de visualisation de l’information représentant graphiquement les classes du fonds documentaire. On retrouve cette approche dans le système OntoExplo (Hernandez, 2005 ; Hernandez et al., 2004) : Un treillis de concepts est représenté et lorsqu’un utilisateur sélectionne un concept, les documents associés sont affichés.

7 - Notre approche : la cartographie sémantique

51 L’étude préalable a permis de mettre en évidence la nécessité de combiner des techniques de structuration et de visualisation pour permettre à l’utilisateur d’exploiter au mieux les informations d’un fonds documentaire. Notre proposition reprend ces principes pour aboutir à une cartographie sémantique d’un corpus annoté par l’ontologie du domaine.

7.1 - Structuration et annotation sémantique

7.1.1 - Modélisation du domaine

52 La structuration du fonds documentaire, la navigation au sein de la base documentaire, tout comme l’expression de la requête, reposent sur la modélisation des concepts métier, c’est-à-dire sur l’ontologie du domaine.

...
Exemple d’ontologie : procédés d’élaboration de solide unique

Exemple d’ontologie : procédés d’élaboration de solide unique

53 Bien que les ontologies connaissent depuis plusieurs années un succès qui ne se dément pas (Gomez-Perez et al., 2004), et qui s’explique principalement par ce qu’elles promettent, c’est-à-dire la possibilité de définir une conceptualisation d’un domaine qui soit à la fois consensuelle et partageable entre des acteurs humains et logiciels (Duineveld et al., 2000), il n’existe pas vraiment de consensus quant à leur définition (Gruber, 1993). Néanmoins la définition de T.R. Gruber reste la plus souvent citée en ingénierie des connaissances : « An ontology is an explicit specification of a conceptualization » (Gruber, 1993), c’est-à-dire une description, dans un formalisme compréhensible par un ordinateur, des concepts et des relations d’un domaine, partagée par une communauté d’agents ». Dans le cadre de nos travaux, notre choix s’est porté sur le modèle ontologique OK[3] [3] Le modèle OK repose sur la définition de concept par « différenciation...
suite
(Roche, 2001) qui permet d’obtenir de la part des experts des définitions consensuelles, condition sine qua non de la réelle utilisation d’une ontologie.

7.1.2 - Annotation sémantique des documents

54 La structuration du fonds documentaire correspond à une classification des documents sur l’ontologie du domaine. Elle se fonde sur l’annotation sémantique des documents (Kiryakov et al., 2003), c’est-à-dire sur l’association pour chaque document des concepts référencés par son contenu. Pour cela il est nécessaire de définir au préalable la terminologie de l’entreprise, c’est-à-dire d’associer aux mots d’usage de ses différents vocabulaires (correspondants aux différentes communautés de pratique et langues utilisées) leurs significations en référence aux concepts métier de l’ontologie. L’analyse linguistique du contenu des documents, sur la base des mots d’usage apparaissant dans les textes, permet de les indexer sur les concepts appropriés.

55 Il est à souligner que la classification obtenue est extralinguistique. Les documents, quelles que soient leurs langues d’écriture et quelles que soient les communautés de pratique qui les produisent, sont indexés sur la même ontologie. Ainsi une requête exprimée dans une langue donnée retournera tous les documents, quelles que soient leur langue, correspondant aux concepts associés à la requête.

7.2 - Cartographie sémantique

7.2.1 - La visualisation des connaissances

56 Comme nous l’avons vu précédemment, il existe de nombreuses techniques de visualisation de l’information qu’il est possible d’appliquer à un fonds documentaire.

57 Nous définissons la visualisation des connaissances comme l’ « utilisation de représentations visuelles de données abstraites pour amplifier la cognition à finalité de création et/ou de partage de connaissances ». Cette définition reprend la définition généralement admise de la visualisation de l’information – « utilisation de représentations visuelles de données abstraites pour amplifier la cognition » (Card et al., 1999b) – mais à laquelle on adjoint un objectif de création et de partage de connaissances. Cette vision est proche de celles qui sont présentées par plusieurs auteurs dans leurs travaux récents (Burkhard, 2004 ; Burkhard, 2005 ; Keller et al., 2005). La conséquence directe de cette vision est d’obliger à tenir compte des connaissances du domaine et de leur sémantique pour guider le choix des techniques de visualisation. Notre problématique a pour finalité de mettre en œuvre un moteur de recherche exploitant la sémantique du domaine pour permettre aux usagers, d’accéder à un outil pérenne qui favorise la diffusion et l’échange de connaissances. Cet objectif est l’objet même de la visualisation des connaissances.

7.2.2 - La cartographie sémantique

58 Le domaine de la visualisation des connaissances offre de nombreuses techniques. Si le choix et la mise en œuvre de ces techniques sont guidés par les connaissances du domaine – on est donc dans le cadre de la visualisation des connaissances – on parle alors de « cartographie sémantique ». Nous la définissons comme l’ « ensemble des opérations de conception et d’élaboration de cartes (interactives) pour visualiser des connaissances ». Cette définition est basée sur la définition de la cartographie mais appliquée aux connaissances.

59 À la lumière de ces éléments nous pouvons réécrire notre problématique comme la recherche de solutions pour cartographier sémantiquement un fonds documentaire scientifique et technique. La partie suivante présente la mise en œuvre de notre approche pour cartographier sémantiquement le fonds documentaire du GRETh.

7.3 - Navigation avec « EyeTree »

60 Ne disposant pas d’évaluations absolues des techniques de visualisation (Plaisant, 2004), nous n’avons pas pu déterminer la meilleure technique (si elle existe) pour cartographier un fonds documentaire annoté sémantiquement. C’est pourquoi, nous avons réalisé plusieurs cartographies à partir de techniques graphiques existantes et nous avons capitalisé les retours d’expérience des utilisateurs pour déterminer la meilleure solution (Tricot et al., 2006). Le choix des techniques a été guidé par l’analyse des retours des utilisateurs finaux. Par exemple, les utilisateurs reprochaient au « treeview simple » son manque de visibilité face à une grande hiérarchie ; ils souhaitaient en avoir une vision globale. Pour prendre en compte cette remarque, nous avons ensuite proposé une cartographie en trois dimensions.

61 Ainsi, dans le cadre de cette étude, nous avons réalisé des navigateurs basés sur des visualisations de type « treeview simple », puis arbres de cônes (Robertson et al., 1991) et arbres hyperboliques (Lamping et al., 1995).

62 Les retours d’expérience de l’utilisation de ces différentes cartographies nous ont permis d’identifier, dans le cadre de notre application, quatre critères principaux pour la réalisation d’une carte sémantique interactive :

  • utiliser une technique de type « focus + context » (Card et al., 1999c) pour permettre à l’utilisateur de se concentrer sur certains éléments tout en facilitant l’accès aux autres éléments ;
  • utiliser une géométrie euclidienne pour ne pas perturber la perception naturelle des manipulations du plan (par opposition aux arbres hyperboliques (Lamping et al.,1995)) ;
  • proposer une vue globale de l’ontologie permettant à l’utilisateur de facilement appréhender l’ensemble des concepts du domaine ;
  • pouvoir parcourir la base de connaissances tout en gardant un point fixe de référence.

...
EyeTree

EyeTree

63 Forts de ces résultats, nous avons été amenés à définir un nouveau paradigme basé sur une technique de visualisation de type « fisheye » avec un plan qui possède une géométrie euclidienne : la technique visuelle de « Fisheye Polaire » (Sarkar et al., 1992) prenant en compte les critères précédents. Voici le résultat obtenu avec un nœud sélectionné (figure ci-dessus).

64 Cette technique fait partie des techniques de représentation avec déformation (Furnas, 1999 ; Leung et al., 1994 ; Sarkar et al., 1992). Pour cela, les nœuds sont répartis radialement dans l’espace euclidien avant de subir une transformation via une fonction d’amplification continue appliquée aux coordonnées polaires des nœuds.

7.4 - Recherche avec « OntoRequest »

65 L’objectif est de permettre à l’utilisateur de construire une requête de concepts métier. Dans ce cas, l’utilisateur doit pouvoir sélectionner les concepts désirés depuis l’ontologie puis lancer sa recherche. Le résultat est alors l’ensemble des documents indexés sur tous les concepts de la requête (l’intersection des ensembles de documents associés à chaque concept).

66 Tout comme l’EyeTree, OntoRequest exploite les capacités de perception de l’homme. Pour cela, il cartographie la requête par un disque au centre de la carte. En périphérie de ce disque sont représentés, par des disques plus petits, les concepts sélectionnés (initialement les catégories de l’ontologie).

67 Voici ci-dessous une saisie d’écran d’une requête constituée de cinq concepts (« Condition de fonctionnement », « Fluide », « Objectif », « Mode de Fabrication » et « Transfert ») :

...
OntoRequest : exemple de requête

OntoRequest : exemple de requête

68 Par opposition à l’EyeTree, l’ontologie entière n’est pas représentée mais uniquement les concepts sélectionnés. L’attention de l’utilisateur est alors concentrée sur sa requête à savoir les concepts sélectionnés.

69 Si l’utilisateur souhaite modifier sa requête afin de l’étendre ou de la restreindre, il lui suffit de généraliser ou spécialiser les concepts en parcourant la relation de généralisation/spécialisation. Pour chaque concept à spécialiser (ou généraliser), l’utilisateur sélectionne sa représentation qui se place dynamiquement à droite de la requête et déploie ses sous-concepts. Il suffit ensuite à l’utilisateur de sélectionner le sous-concept désiré. La saisie d’écran ci-dessous représente le résultat de la sélection du concept « fluide » :

...
OntoRequest : sélection d’un concept

OntoRequest : sélection d’un concept

70 Le résultat de la requête, représenté par le disque central, est l’intersection des ensembles de documents rattachés aux concepts situés en périphérie (à chaque concept est associée l’union des documents rattachés à tous les concepts qu’il subsume).

8 - Mise en œuvre : Misti

71 Le « Groupement pour la Recherche sur les Échangeurs Thermiques » (GRETh) – à l’origine de ces travaux – a mis en place un site internet pour la diffusion des connaissances et des informations scientifiques et techniques au service de leurs adhérents qui sont principalement des industriels. Ces informations (articles, thèses, rapports techniques et scientifiques, etc.) sont regroupées au sein d’une base de données. Tous ces documents se rapportent aux métiers du GRETh, basés sur la mécanique des fluides et la thermique des échangeurs.

72 Dans ce contexte-là, notre approche a été mise en œuvre dans le système MISTI (Moteur Internet Sémantique pour la Thermique Industrielle) : portail web de recherche et de navigation dans un fonds documentaire scientifique et technique.

73 En tenant compte des résultats présentés précédemment, nous avons défini un système offrant à l’utilisateur trois approches pour retrouver l’information dont il a besoin pour son activité :

  • une approche classique : l’interface principale,
  • une approche par navigation : l’EyeTree,
  • une approche par construction de requête : l’OntoRequest.

Dans le système Misti, les trois approches sont accessibles par des onglets : un onglet par approche de recherche. Elles sont décrites dans les parties suivantes.

8.1 - Recherche classique

74 Les utilisateurs sont habitués à effectuer des recherches d’informations en soumettant à un système une requête en langage naturel. Nous estimons que cette méthode de recherche « classique » est nécessaire pour ne pas perturber les utilisateurs habitués à cette méthode. C’est pourquoi, MISTI propose une méthode de recherche classique mais, tout comme l’EyeTree et l’OntoRequest, en exploitant l’ontologie du domaine.

75 La recherche est effectuée en deux temps : la construction de la requête et l’affichage des résultats.

76 La construction de la requête. L’utilisateur exprime sa requête en langage naturel dans un champ de saisie. Elle est constituée de termes qui dénotent pour l’utilisateur des concepts métier. La requête est ensuite soumise au système qui analyse les termes, identifie des concepts métier et retourne les documents associés.

77 Par exemple, l’utilisateur va demander au système de trouver « les documents qui traitent des conditions de fonctionnement ». Le système identifie alors le concept métier « Condition de fonctionnement » et retourne les documents associés.

78 Pour assister l’utilisateur, le système propose une vue arborescente classique de la hiérarchie de concepts métier du domaine. Lorsque l’utilisateur sélectionne un des concepts, le système l’ajoute au champ de saisie.

79 L’affichage des résultats. Une fois la requête analysée, le système récupère un certain nombre de documents correspondants. À chaque document, il associe un « marqueur sémantique » sur la base de la fréquence d’apparition de chacun des concepts métier de la requête. La corrélation de ces fréquences fournit un niveau de pertinence. La liste des documents est ensuite affichée par ordre décroissant de pertinence.

80 Voici une saisie d’écran de la recherche avec comme requête « condition de fonctionnement » :

...
Misti : recherche classique

Misti : recherche classique

8.2 - EyeTree et OntoRequest

81 Les deux paradigmes, EyeTree et OntoRequest, décris précédemment sont intégrés à Misti. Ils constituent les deux approches complémentaires de recherche : navigation et construction de requête. Dans les deux cas, l’interface est divisée en deux avec à gauche, le paradigme concerné et à droite, un volet pour afficher les résultats. Ainsi l’utilisateur n’est pas perturbé en passant d’une interface à une autre.

82 La saisie d’écran (ci-dessous) représente l’EyeTree avec le concept « Condition de fonctionnement » sélectionné. Le volet de droite contient la liste des documents associés à ce concept.

...
Misti : EyeTree

Misti : EyeTree

9 - Conclusion et perspectives

83 La cartographie sémantique, que nous définissons comme l’ensemble des opérations de conception et d’élaboration de cartes (interactives) pour visualiser des connaissances, basée sur les connaissances du domaine permet une exploration de fonds documentaires qui répond aux besoins exprimés en termes de navigation, de vision globale et d’expression des besoins.

84 La modélisation des connaissances du domaine sous la forme d’une ontologie a permis non seulement de structurer le fonds documentaire via une annotation sémantique de son contenu mais aussi, de spécifier et de réaliser deux nouvelles solutions graphiques dédiées à la cartographie de documents techniques annotés par une ontologie de domaine : L’ « EyeTree » et l’ « OntoRequest ». Ils ont été validés dans le cadre de la réalisation d’un système de cartographie sémantique de fonds documentaire MISTI (Moteur Internet Sémantique pour la Thermique Industrielle).

85 L’ « EyeTree », navigateur graphique de type « fisheye polaire » (focus+context avec déformations linéaires) permet des interactions dédiées à l’exploration d’ontologies (parcours de sous éléments par rapport à un point fixe). L’ « OntoRequest » permet de construire graphiquement une requête, basée sur la structuration ontologique des concepts métier du domaine, sans obliger les utilisateurs de maîtriser les connaissances du domaine. Il a l’avantage de permettre aux utilisateurs de généraliser et spécialiser leur requête intuitivement et sans surcharge d’informations.

86 La définition de ces deux outils n’a pas été immédiate. Elle a nécessité de nombreuses adaptations en accord avec les retours d’expérience des utilisateurs. Nous les avons donc obtenus suite à de nombreuses expérimentations et à plusieurs changements pouvant être de l’ordre de l’évolution (par exemple la modification des animations) ou de l’ordre du changement profond (comme le choix d’une toute nouvelle représentation).

87 Ces travaux ont permis de mettre en lumière l’importance de réaliser des cartographies basées sur une structuration sémantique du fonds documentaire et sur les retours d’expérience. Cette conclusion est généralisable à d’autres domaines et il s’agit de l’objet même de la cartographie sémantique : cartographier les connaissances d’un domaine en exploitant sa structuration sémantique.

Bibliographie

10. Bibliographie

Andrews K., Heidegger H., "Information Slices : Visualising and Exploring Large Hierarchies using Cascading, Semi-Circular Discs", Late Breaking Hot Topic Paper, IEEE Symposium on Information Visualization (InfoVis’98), Research Triangle Park, North Carolina, Oct. 1998.

Baker M. J., Eick S. G., "Space-filling Software Visualization", Journal of Visual Languages and Computing, 6(2), p. 119-133, 1995.

Barsalou L. W., "Perceptual symbol Systems», Behavioral and Brain Sciences, 1999.

Bertin J., La graphique et le traitement graphique de l’information, Paris : Flammarion, 1977.

Bertin J., Sémiologie graphique : les diagrammes, les réseaux, les cartes (3ème ed.). Paris : Mouton, 1999 (orignal : 1967).

Burkhard R. A., "Learning from Architects : The Difference between Knowledge Visualization and Information Visualization", Proceedings of the Information Visualisation, Eighth International Conference on (IV’04) – Vol. 00, IEEE Computer Society, 2004.

Burkhard R. A., "Towards a Framework and a Model for Knowledge Visualization : Synergies Between Information and Knowledge Visualization", Knowledge and Information Visualization, Springer, 2005, p. 238-255.

Card S. K., Hong L., Mackinlay J. D., Chi E. H., "3Book : a scalable 3D virtual book", CHI ‘04 extended abstracts on Human factors in computing systems, Vienna, Austria, ACM Press, 2004.

Card S. K., Mackinlay J. D., Shneiderman B., Data mapping : document visualization, Readings in information visualization : using vision to think, Morgan Kaufmann Publishers Inc., 1999a, p. 409-410.

Card S. K., Mackinlay J. D., Shneiderman B., Information visualization, Readings in information visualization : using vision to think, Morgan Kaufmann Publishers Inc., 1999b, p. 1-34.

Card S. K., Mackinlay J. D., Shneiderman B., Readings in information visualization : using vision to think, San Francisco, Calif. : Morgan Kaufmann Publishers, 1999c.

Card S. K., Robertson G. G., York W., "The WebBook and the Web Forager : an information workspace for the World-Wide Web", Proceedings of the SIGCHI conference on Human factors in computing systems : common ground, Vancouver, British Columbia, Canada, ACM Press, 1996.

Cubaud P., Thiria C., Topol A., "Experimenting a 3D interface for the access to a digital library", Proceedings of the third ACM conference on Digital libraries, Pittsburgh, Pennsylvania United States, ACM Press, 1998.

Cubaud P., Topol A., "A VRML-based user interface for an online digitalized antiquarian collection", Proceedings of the sixth international conference on 3D Web technology, Paderbon, Germany, ACM Press, 2001.

Duineveld A. J., Stoter R., Weiden M. R., Kenepa B., Benjamins V. R., "WonderTools ? A Comparative Study of Ontological Engineering Tool", International Journal of Human-Computer Studies, 52(6), 2000, p. 1111-1133.

Furnas G. W., The FISHEYE view : a new look at structured files, Readings in information visualization : using vision to think, Morgan Kaufmann Publishers Inc., 1999, p. 312-330.

Gomez-Perez A., Fernandez-Lopez M., Corcho O., Ontological Engineering : With Examples from the Areas of Knowledge Management, E-Commerce and Semantic Web (Springer ed.), 2004.

Gruber T. R., "A translation approach to portable ontology specifications", Knowledge Acquisition, 5(2), 1993, p. 199-220.

Ham F. v., Wijk J. J. v., "Beamtrees : compact visualization of large hierarchies", Information Visualization, 2(1), 2003, p. 31-39.

Hernandez N., "Ontologies pour l’aide à l’exploration d’une collection de documents", Ingénierie des Systèmes d’Information, Hermès Sciences, 2005, p. 11-31.

Hernandez N., Aussenac-Gilles N., "OntoExplo : Ontologies pour l’aide à une activité de veille ou d’exploration d’un domaine", VIème Journées de l’innovation, Foix, 28-29 janvier 2004.

Jacquemin C., Folch H., Garcia K., Nugier S., "Visualisation interactive d’espaces documentaires", Revue I3, 5(1), 2005.

Johnson B., Shneiderman B., "Tree-Maps : a space-filling approach to the visualization of hierarchical information structures", Proceedings of the 2nd International IEEE Visualization Conference, San Diego, Oct. 1991.

Keller T., Tergan S.-O., "Visualizing Knowledge and Information : An Introduction", Knowledge and Information Visualization, Springer, 2005, p. 1-23.

Kiryakov A., Popov B., Ognyanoff D., Manov D., Kirilov A., Goranov M., "Semantic Annotation, Indexing, and Retrieval", International Semantic Web Conference2003, Springer, p. 484-499.

Lamping J., Rao R., Pirolli P., "A focus+context technique based on hyperbolic geometry for visualizing large hierarchies", Proceedings of the SIGCHI conference on Human factors in computing systems, Denver, Colorado, United States, 1995, ACM Press/Addison-Wesley Publishing Co.

Leung Y. K., Apperley M. D., "A review and taxonomy of distortion-oriented presentation techniques», ACM Trans. Comput.-Hum. Interact., 1(2), 1994, p. 126-160.

Leuski A., Allan J., "Lighthouse : Showing the Way to Relevant Information", Proceedings of the IEEE Symposium on Information Vizualization, IEEE Computer Society, 2000.

Mothe J., Chrisment C., Dousset B., Alaux J., "DocCube : Multi-Dimensional Visualisation and Exploration of Large Document Sets», Journal of the American Society for Information Science and Technology, JASIST, Special topic section : web retrieval and mining, 7(54), 2003, p. 650-659.

Olsen K. A., Korfhage R. R., Sochats K. M., Spring M. B., Williams J. G., "Visualization of a document collection : the vibe system", Inf. Process. Manage., 29(1), 1993, p. 69-81.

Plaisant C., "The challenge of information visualization evaluation", Proceedings of the working conference on Advanced visual interfaces, Gallipoli, Italy, ACM Press, 2004.

Rennison E., "Galaxy of news : an approach to visualizing and understanding expansive news landscapes", Proceedings of the 7th annual ACM symposium on User interface software and technology, Marina del Rey, California, United States, ACM Press, 1994.

Robertson G. G., Czerwinski M., Larson K., Robbins D. C., Thiel D., Dantzich M. v., "Data mountain : using spatial memory for document management", Proceedings of the 11th annual ACM symposium on User interface software and technology, San Francisco, California, United States, ACM Press, 1998.

Robertson G. G., Mackinlay J. D., Card S. K., "Cone Trees : animated 3D visualizations of hierarchical information", Proceedings of the SIGCHI conference on Human factors in computing systems : Reaching through technology, New Orleans, Louisiana, United States, ACM Press, 1991.

Roche C., "The ‘Specific-Difference’ Principle : a Methodology for Building Consensual and Coherent Ontologies", International Conference on Artificial Intelligence (IC-AI’2001), Las Vegas, Nevada, 2001.

Sarkar M., Brown M. H., "Graphical fisheye views of graphs", Proceedings of the SIGCHI conference on Human factors in computing systems, Monterey, California, United States, ACM Press, 1992.

Shneiderman B., "The Eyes Have It : A Task by Data Type Taxonomy for Information Visualizations", IEEE Symposium on Visual Languages, IEEE Computer Society, 1996.

Tollis I. G., "Graph drawing and information visualization", ACM Comput. Surv., 28(4es), 1996, p. 19.

Tricot C., Roche C., "Exploration interactive de bases de connaissances : un retour d’expérience", EGC 2006, Lille, 2006.

Wijk J. J. V., Huub van de W., "Cushion Treemaps : Visualization of Hierarchical Information", Proceedings of the 1999 IEEE Symposium on Information Visualization, IEEE Computer Society, 1999.

Wise J. A., Thomas J. J., Pennock K., Lantrip D., Pottier M., Schur A., Crow V., "Visualizing the non-visual : spatial analysis and interaction with information from text documents", Proceedings of the 1995 IEEE Symposium on Information Visualization, Atlanta, Georgia, IEEE Computer Society, 1995.

 

Notes

[ 1] http :// w www.grokker. comRetour

[ 2] Nous nous plaçons dans le cas d’une recherche sans perte d’information et sans bruit. En particulier la recherche doit retourner tous les documents relatifs à un concept même si nous ne connaissons pas tous les termes qui le dénotent.Retour

[ 3] Le modèle OK repose sur la définition de concept par « différenciation spécifique » qui, si elle peut paraître rigide, a le mérite d’être bien admise par les experts en particulier dans les domaines techniques dans la mesure où les différences spécifiques constituent les unités de signification élémentaires à partir desquelles se définissent et se structurent les concepts.Retour

Résumé

L’objectif de cet article est de présenter nos travaux sur la cartographie et la navigation thématique d’un fonds documentaire composé de documents numériques. La problématique était d’étudier et de fournir les moyens pour identifier et accéder à l’information contenue dans les documents nécessaires à une activité. Dans un premier temps, nous avons étudié les différentes solutions existantes et nous nous sommes alors rapidement orientés vers les techniques de visualisations interactives pour l’accès et la recherche d’informations annotées sémantiquement. Pour parvenir à notre objectif, il a fallu au préalable mettre en place un moteur d’indexation automatique s’appuyant sur la sémantique du domaine. Puis nous avons proposé des cartographies exploitant cette sémantique et le résultat de cette approche est la création et la mise en place d’un outil pérenne car il favorise la diffusion et l’échange de connaissances.

Mots-clés

visualisation, visualisation de connaissances, cartographie sémantique



The objective of this article is to present our work on the cartography and thematic navigation of documentary collection. Our problems were to study and provide a solution to identify and to access information contained in the documents necessary to an activity. Initially, we studied the various existing solutions and we quickly directed ourselves towards techniques of interactive visualizations which provide access and search for semantically annotated information. To accomplish our objective, it was necessary to install an engine of automatic indexing based on the semantics of the field. Then, we proposed two cartographies exploiting this semantics and the result of this approach is the creation and the installation of a perennial tool because it supports the diffusion and the exchange of knowledge.

Keywords

visualization, knowledge visualization, semantic cartography

PLAN DE L'ARTICLE


POUR CITER CET ARTICLE

Christophe Tricot et al. « Cartographie sémantique de fonds numériques scientifiques et techniques », Document numérique 2/2006 (Vol. 9), p. 12-35.
URL :
www.cairn.info/revue-document-numerique-2006-2-page-12.htm.