Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2007/1 (Vol. 44)

  • Pages : 120
  • DOI : 10.3917/docsi.441.0081
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 81 - 83 Article suivant
1

Depuis plus de cent ans, tout au long de l’évolution des systèmes d’information, on s’est ingénié à concevoir des outils de description du contenu des documents à des fins de recherche documentaire. Ces outils ont pris de nombreuses formes, évoquées à plusieurs reprises dans ce numéro : taxinomies, classifications, thésaurus.

2

Les systèmes de gestion de connaissances, qui se sont développés après les systèmes de gestion documentaire, ont apporté de nouveaux outils (et de nouvelles dénominations). Les réseaux sémantiques sont de ceux-là, et les plus usités. Ils proposent une mise en œuvre des relations de sens entre des catégories de termes par l’expression des liens sémantiques décrivant les composants de la connaissance. Dans ces réseaux, les nœuds sont des concepts et les arcs des relations entre ces concepts.

3

Au début des années soixante, déjà, on avait vu apparaître nombre de langages documentaires dont l’ambition était un développement de la syntaxe avec une grammaire s’ajoutant à la partie morphologique du langage. Le SYNTOL de Jean-Claude Gardin [1][1] René-Charles Cros, Jean-Claude Gardin, Francis Lévy...., l’Analyse codée de Robert Pagès [2][2] André Demailly. « Robert Pagès et l’analyse codée »...., le Semantic Code de Kent et Perry [3][3] James Whitney Perry, Allen Kent, Madeline M. Berry.... en faisaient partie. En 1966, Maurice Coyaud en citait une dizaine [4][4] Maurice Coyaud. Introduction à l’étude des langages.... Aucun de ces langages n’a survécu.

4

La nécessité d’un enrichissement des langages purement morphologiques reste cependant un élément essentiel dans le développement des systèmes de connaissance. Ce qu’ont bien relevé Bachimont et Malaisé [5][5] Bruno Bachimont, Véronique Malaisé, Pierre Zweigenbaum.... : « L’inconvénient principal des langages documentaires à mots clés reste l’impossibilité de préciser la sémantique de l’association des mots de la requête, dès qu’il s’agit de dépasser les opérateurs booléens classiques. »

5

Cet inconvénient avait déjà été perçu par Jean-Claude Gardin et était à l’origine du SYNTOL, « un langage artificiel […] conçu pour l’expression des informations trouvées dans les documents scientifiques […], comportant un ensemble de règles d’ordre à la fois logique et linguistique, visant différentes manières d’exprimer les informations trouvées dans la documentation scientifique. »

6

L’extraordinaire développement du Web a encore accru le besoin d’outils de description des contenus des documents ou des ressources. La fin des années quatre-vingt-dix a ainsi vu apparaître une nouvelle famille d’outils linguistiques : les ontologies.

Définition et structure

7

Historiquement, l’ontologie est une discipline de la philosophie qui a pour objet l’étude systématique de la nature et de l’organisation de l’être. Apparu dans son acception informationnelle il y a une dizaine d’années, dans le domaine de l’ingénierie des connaissances et de l’intelligence artificielle, ce terme désigne les « artefacts » élaborés dans le cadre d’une modélisation conceptuelle apte à jouer un rôle de référentiel conceptuel. Les travaux sur les ontologies se sont plus particulièrement développés dans un contexte informatique et ont pris leur essor avec le web sémantique [6][6] Voir les propos de Bruno Menon sur ce sujet, pages....

8

Une ontologie fournit le vocabulaire spécifique à un domaine de la connaissance et, selon un degré de formalisation variable, fixe le sens des concepts et des relations qui les unissent.

9

L’article publié en 1996 par M. Uschold et M. Gruninger [7][7] Mike Uschold, Michael Grüninger. « Ontologies: Principles,... reste à notre sens le texte fondateur sur les ontologies. On y trouve cette définition : « Il s’agit du terme utilisé se référant à la compréhension partagée [a shared understanding] d’un domaine d’intérêt qui peut être utilisé comme cadre unificateur pour résoudre les problèmes de communication entre les gens et d’interopérabilité entre les systèmes. »

10

Les composantes d’une ontologie sont les suivantes : une ou plusieurs taxinomies ordonnées en classes et sous-classes composées d’instances représentant les individus ou objets ; les types d’attributs ou propriétés qui peuvent être attachés à ces objets ; les types de relations entre les concepts d’une taxinomie ; des axiomes ou des règles d’inférence permettant de définir les propriétés de ces relations.

11

Le développement des ontologies s’est fait parallèlement à celui de la notion de métadonnée. Pour être susceptibles d’être exploitées automatiquement, les métadonnées doivent être entièrement explicites et exprimées dans un vocabulaire clairement et formellement défini. Les ontologies sont le réceptacle de ces définitions. On y représente les « valeurs » que l’on peut donner aux métadonnées et l’interprétation que les systèmes peuvent en faire, c’est-à-dire les concepts d’un domaine, les relations qu’ils entretiennent, la sémantique de ces relations et les règles de raisonnement qui leur sont applicables.

Formalisation et construction

12

Mais avant de considérer l’expression des relations dans les ontologies, en particulier avec le langage OWL, il n’est peut-être pas inutile de rappeler que, dans le cadre des langages documentaires traditionnels, les différents types de relations possibles furent étudiés de manière extensive.

13

Les thésaurus classiques reposent sur les trois grands types classiques de relations (équivalence, hiérarchie, association). Mais d’autres types en ont également été étudiés comme, par exemple, les relations proposées par Wilfried Schmitz–Esser [8][8] Wilfried Schmitz-Esser. « Thesaurus and beyond: an... : genre/espèce, tout/partie, descendance, instrumentation, causalité, bénéfice, dommage, matière. Avec ces types de relations, on se rapproche beaucoup des langages à facettes (les facettes permettant d’introduire les relations entre les constituants de la classification [9][9] Brian Campbell Vickery. La classification à facettes....) et de la notion de point de vue introduite dans la construction des taxinomies. On peut également remarquer qu’un thésaurus peut être organisé, selon son constructeur ou son utilisateur, soit par facette, soit par thème (ou champ sémantique), comme le montre l’exemple cité par Georges Van Slype [10][10] Georges Van Slype. Les langages d’indexation : conception,....

14

Un autre élément que nous allons retrouver dans les ontologies – la formalisation de règles pour l’utilisation de langages documentaires et plus particulièrement de thésaurus – a été étudié dans le cadre de travaux sur les systèmes experts il y a déjà un certain nombre d’années. C’est le cas, par exemple, du système EXPRIM [11][11] Marion Créhange et al. Le point sur EXPRIM. Rapport... proposé par le CRIN, la SEP et le BvD, dans le cadre des projets ESPRIT. L’établissement de ces règles permet au système de réagir comme un indexeur expert et d’optimiser l’utilisation du thésaurus lors de la recherche.

15

La construction des ontologies est fondée sur les langages formels. Un langage d’ontologie permet de signifier l’appartenance d’un objet à une catégorie, de déclarer la relation de généralisation entre catégories et de typer les objets que lie une relation.

16

L’un des premiers langages pour la formalisation et la description des ontologies a été RDF Schema (RDF-S), développé à partir de Resource Description Framework (RDF) et permettant d’exprimer un ensemble de relations telles que : type, sub-class of, range ou domain. Dans le cadre du web sémantique, le W3C travaille sur le langage OWL (Ontology Web Language) et l’ISO, de son côté, propose TOPIC Maps.

17

Issu de DAML+OIL, lui-même né du rapprochement du langage OIL (Ontology Interchange Language), créé dans le cadre du projet européen Ontoknowledge, et de DAML (Darpa Agent Mark-up Language), projet de la Défense américaine, le langage OWL se décline en plusieurs niveaux : OWL-Lite, OWL-DL et OWL-FULL, qui s’emboîtent les uns dans les autres.

18

La construction des ontologies se fonde sur des schémas proches de ceux de la construction des thésaurus. Ainsi, selon Bruno Bachimont [12][12] Bruno Bachimont, Jean Charlet, Raphaël Troncy. « Ontologies..., les étapes de la construction d’une ontologie sont les suivantes : normalisation des termes d’un corpus, conduisant à la création d’une « ontologie différentielle » ; puis phase de formalisation pour la création d’une « ontologie formelle » ; enfin traduction en langage interprétable par la machine pour une « ontologie computationnelle ».

19

Encore plus proches de la construction des thésaurus sont les phases de construction des ontologies proposées par Jean-Marie Pinon [13][13] Jean-Marie Pinon. Un système de recherche d’information... : construction d’un corpus de documents ; analyse linguistique du corpus (acquisition et validation des termes) ; normalisation sémantique et définition des relations ; et élaboration de l’ontologie opérationnelle.

Outils de développement

20

Les outils informatiques – éditeurs ou outils de développement d’ontologies – sont relativement nombreux mais tous ou presque sont issus d’instituts de recherche ou de laboratoires d’universités. Aucun de ces outils n’est encore parvenu au stade de développement industriel et de la commercialisation. Parmi les plus connus, on peut citer ONTOEDIT (Ontology Editor), Protege 2000 du Stanford Research Institute, ONTOLINGUA, OILED de l’Université de Manchester, WEBODE du Laboratoire d’intelligence artificielle de Madrid, Differential Ontology Editor (DOE) de l’Institut national de l’audiovisuel.

21

Ces outils utilisent des extracteurs de terminologie (à partir d’un corpus spécifique) qui sont eux-mêmes des produits universitaires comme NOMINO, TERMINO ou LEXTER.

22

Selon Gilles Balmisse, de Knowledge Consult, « les outils permettant de créer ou de gérer les ontologies ne sont pas encore assez matures pour permettre l’"industrialisation" de l’utilisation des ontologies dans les entreprises. Ils ne sont pas d’accès facile et il n’existe pas encore de véritables standards. » Mais, comme le souligne Frédéric Fürst [14][14] Frédéric Fürst. L’ingénierie ontologique. Nantes :... « la définition d’une méthodologie unifiée de construction et de validation des ontologies est nécessaire, en particulier pour faciliter la fusion des ontologies. Cette unification doit porter sur les principes de structuration sémantique des connaissances mais également sur les langages opérationnels de représentation. »

23

N’a-t-on pas déjà entendu cette remarque à propos des thésaurus et en particulier de leur fusion ou de leur « réconciliation », comme on disait autrefois ?

Ontologies et thésaurus

24

D’ailleurs nombre d’auteurs commencent à traiter du rapprochement des deux outils linguistiques [15][15] Anita Ghouas Dziri. « Ontologie et thésaurus : des.... Comme le souligne Yolla Polity [16][16] Dans : Gérard Henneron, Rosalba Palermiti, Yolla Polity..., « les ressemblances entre un thésaurus et une ontologie sont frappantes. Dans les deux cas, il s’agit d’un vocabulaire contrôlé, utilisé et validé par les acteurs d’un domaine. Dans les deux cas, ce vocabulaire est structuré et doté de relations sémantiques entre les termes qui le composent. Mais les ressemblances s’arrêtent là car la sémantique des objets et des relations dans une ontologie est une sémantique formelle qui n’est pas destinée à être interprétée par des êtres humains […]. Leur caractère formel les rend aptes à alimenter des traitements et des raisonnements menés par des automates. »

25

Bruno Bachimont, pour sa part, souligne que, « les ontologies n’étant pas sans rapport avec les terminologies, on peut trouver dans les thésaurus des ressources pour amorcer une ontologie. Mais il faut prendre garde au fait que ce ne sont que des "ressources pour" et pas des "embryons de". » Le même auteur précise que « les ontologies sont des artefacts construits en fonction d’une tâche précise et ne peuvent être réutilisées, en tant qu’objets formels, pour une autre tâche. »

Limites

26

Ce constat semble limiter le développement et l’usage des ontologies, comme cela a déjà été le cas pour d’autres langages de description de contenu. Il est également difficile de faire partager à de nombreuses personnes les mêmes conceptualisations. Ne risque-t-on pas de retomber dans les mêmes problèmes que ceux que les thésaurus ont connus ?

27

Comme l’a écrit Fürst, « l’expérimentation des idées autour du contenu des ontologies, des méthodes à utiliser pour les construire et des modèles et langages servant à leur représentation, n’a pour l’instant toujours pas abouti à des consensus et de nombreux problèmes n’ont pas encore trouvé de solution. »

28

Enfin, parmi les problèmes non résolus relatifs aux ontologies, il convient d’évoquer celui du coût que Yolla Polity expose ainsi : « Le chantier de construction d’ontologies est ouvert mais il pose de sérieux problèmes dont celui du caractère prohibitif des coûts et des délais de mise au point d’une ontologie couvrant ne serait-ce qu’un champ spécifique d’un secteur industriel, médical ou scientifique. »

Notes

[1]

René-Charles Cros, Jean-Claude Gardin, Francis Lévy. L’automatisation des recherches documentaires. Un modèle général : le SYNTOL. Paris : Gauthier-Villars, 1964.

[2]

André Demailly. « Robert Pagès et l’analyse codée ». Documentaliste - Sciences de l’information, 1992, vol. 29, n° 2, p. 59-64.

[3]

James Whitney Perry, Allen Kent, Madeline M. Berry. Machine literature searching. New York : Interscience Publishers, 1956.

[4]

Maurice Coyaud. Introduction à l’étude des langages documentaires. Paris : Klincksieck, 1966.

[5]

Bruno Bachimont, Véronique Malaisé, Pierre Zweigenbaum. « Vers une combinaison de méthodologies pour la structuration de termes en corpus : premier pas vers des ontologies dédiées à l’indexation de documents audiovisuels ». In : L’organisation des connaissances : approches conceptuelles, conférence ISKO France, Grenoble, 3-4 juillet 2003. Paris : L’Harmattan, 2005.

[6]

Voir les propos de Bruno Menon sur ce sujet, pages 23-26.

[7]

Mike Uschold, Michael Grüninger. « Ontologies: Principles, Methods and Applications ». Knowledge Engineering Review, 1996, vol. 11, n° 2, p. 93-136.

[8]

Wilfried Schmitz-Esser. « Thesaurus and beyond: an advanced formula for linguistic engineering and information retrieval ». Knowledge Organization, 1999, vol. 26, n° 1, p. 10-22.

[9]

Brian Campbell Vickery. La classification à facettes. Paris : Gauthier-Villars, 1962.

[10]

Georges Van Slype. Les langages d’indexation : conception, construction et utilisation dans les systèmes documentaires. Paris : Éditions d’organisation, 1986.

[11]

Marion Créhange et al. Le point sur EXPRIM. Rapport CRIN 85-R-019. Nancy, 1988.

[12]

Bruno Bachimont, Jean Charlet, Raphaël Troncy. « Ontologies pour le Web sémantique ». Information, interaction, intelligence, 2004, n° hors série « Le Web sémantique », p. 69–100.

[13]

Jean-Marie Pinon. Un système de recherche d’information multilingue basé sur les connaissances. 15es journées francophones d’ingénierie des connaissances, 5-7 mai 2004.

[14]

Frédéric Fürst. L’ingénierie ontologique. Nantes : Institut de recherche en informatique, 2002. Rapport de recherche n° 02-07.

[15]

Anita Ghouas Dziri. « Ontologie et thésaurus : des systèmes d’organisation des connaissances différents et complémentaires ». In : Indice, index, indexation. Paris : ADBS Éditions, 2006. P. 191-202.

[16]

Dans : Gérard Henneron, Rosalba Palermiti, Yolla Polity (dir). L’organisation des connaissances : approches conceptuelles. Paris : L’Harmattan, 2005.

Plan de l'article

  1. Définition et structure
  2. Formalisation et construction
  3. Outils de développement
  4. Ontologies et thésaurus
  5. Limites

Pour citer cet article

Chaumier Jacques, « Les ontologies. Antécédents, aspects techniques et limites», Documentaliste-Sciences de l'Information 1/2007 (Vol. 44) , p. 81-83
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-1-page-81.htm.
DOI : 10.3917/docsi.441.0081.


Article précédent Pages 81 - 83 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback