Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2012/4 (Vol. 49)

  • Pages : 78
  • DOI : 10.3917/docsi.494.0062
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 62 - 70 Article suivant
1

La gestion et l’exploitation des connaissances sont devenues aujourd’hui, pour de nombreux domaines d’activité, une véritable stratégie managériale. Les prises de décisions, l’accomplissement de certaines tâches se font sur la base des connaissances disponibles. Dans le processus de knowledge management (KM) [1][1] Un dossier consacré au knowledge management a été publié..., l’efficacité du recueil des informations et des connaissances auprès de sources reconnues comme fiables d’un point de vue scientifique est primordiale. Ces sources peuvent être les experts humains, des corpus textuels ou des applications informatiques (bases de données) qui couvrent les connaissances d’un domaine. L’hétérogénéité de ces sources, leur nombre et, dans certains cas, leur grande répartition géographique rendent la tâche d’acquisition des connaissances difficiles. Créer un système à base de connaissance apparaît comme une initiative complexe, et cela se vérifie peut-être encore plus dans le domaine des sciences historiques dans lequel nous avons travaillé. Y capter la connaissance nécessite de tenir compte des différents contextes, de la pluridisciplinarité de cette science et de son évolutivité.

2

Dans le domaine du patrimoine culturel, le travail des chercheurs consiste en partie à recueillir l’information sur le terrain, dans les villes et villages sous forme de fiches texte, photos, croquis, plans et vidéos. L’information réunie ainsi pour chaque œuvre sera approfondie et corrigée si besoin par un travail d’archives, pour finalement être stockée dans une base de données. Ce mode de recueil d’information sur des fiches papier ou directement sur des ordinateurs portables est lourd et coûteux en temps. Les informations collectées sont nombreuses et hétérogènes et leur transformation en forme exploitable par un système d’information n’est pas automatique. Dans cette perspective, identifier, analyser et comprendre les différentes sources et composants de la connaissance apparaissent comme des tâches primordiales, préliminaires à toute tentative de création de modèle.

3

La modélisation de la connaissance, de même que la création d’un modèle, constitue une action toujours réductrice par rapport à la réalité, mais apparaît toutefois comme indispensable dans une approche consensuelle et de partage entre les différents acteurs. Simplicius, le système d’aide à l’acquisition des connaissances que nous proposons [6], est de nature hybride car il s’appuie sur des technologies du traitement du signal, de modélisation de connaissances et de traitement du langage naturel. Il utilise une interface vocale qui permet de réduire le temps de recueil et d’améliorer ainsi l’efficacité de collecte, la description des œuvres étudiées étant dictée et enregistrée en format audio.

4

Alors qu’il existe des travaux dans chaque domaine composant [2][2] Pour un état de l’art des différentes technologies... cette application (reconnaissance du signal, modélisation des connaissances, indexation automatique), il n’existe pas, à notre connaissance, de systèmes hybrides qui automatisent le cycle de vie des connaissances ni dans le domaine du patrimoine culturel, ni dans d’autres domaines.

5

Afin de bien comprendre cette problématique, nous présenterons d’abord la nature des connaissances qui sont manipulées par les chercheurs en patrimoine culturel, puis la présentation des modèles selon lesquels l’information et la connaissance sont capitalisées, ainsi que le passage de l’information vers la connaissance.

1 - Nature des connaissances

6

La connaissance dans le domaine du patrimoine culturel, plus que dans d’autres disciplines, possède un aspect incrémental, fortement dépendant du contexte et pluridisciplinaire.

  • Incrémental, parce qu’elle s’appuie sur les connaissances déjà acquises pour évoluer.

  • Dépendant du contexte, parce que la création et l’existence d’un objet du patrimoine culturel sont rarement le fruit du hasard. De même, son emplacement dans un lieu est souvent le fruit d’une intention. L’étude de contexte permet donc de comprendre l’histoire de l’objet.

  • Pluridisciplinaire, parce que l’étude matérielle et immatérielle de l’objet nécessite l’apport des autres sciences comme la chimie, la géologie, l’ethnologie.

L’objet historique « déborde de sens » [11], la perception de ce sens dépend aussi bien du contexte que des connaissances déjà acquises.

7

Nous sommes donc en présence de flux de connaissances dont la maîtrise rend indispensable la prise en compte à la fois des connaissances et expériences des individus (chercheurs en patrimoine), des connaissances des disciplines connexes, de l’existant (système descriptif, bases de données, lexiques, etc.), des modèles conceptuels du domaine, et, enfin, des interactions qui peuvent exister entre ces différents éléments.

8

Capter la connaissance dans un processus d’étude et d’analyse du patrimoine historique nécessite la compréhension des interactions entre les informations qui se dégagent de l’objet étudié, les connaissances de la personne qui étudie ces objets, les connaissances et les informations que peuvent fournir le contexte et d’autres sciences : c’est donc une approche systémique. Ces informations que recèle un objet du patrimoine culturel dans un contexte particulier ne peuvent êtres comprises qu’à la lumière des connaissances accumulées par un chercheur et celles des autres sciences mises à sa disposition dans une approche globale. Enfin, capter l’information qui émane d’un objet du patrimoine, c’est étudier non seulement l’objet et ses propriétés intrinsèques, sa forme, sa structure, ses dimensions, mais aussi les contextes qui lui sont associés : il s’agit donc bien d’une vue holistique [1] [14].

Étude du contexte

9

Dans le domaine des sciences historiques et en particulier dans le domaine du patrimoine culturel, la perception de la signification des données et des informations sur un objet étudié est fortement influencée par l’étude de son contexte [9], primordiale dans le domaine de l’archéologie [4] où l’interprétation des informations et donc la constitution des connaissances ne peut se faire sans celle-ci ; l’étude du niveau stratigraphique, des zones géographiques apportent des renseignements sur la chronologie de l’objet et permettent une étude comparative, à condition que l’on connaisse l’environnement dans lequel l’objet a été trouvé. Pour consolider les connaissances sur un artefact, il faut pouvoir créer un va-et-vient permanent entre les connaissances liées au contexte, celles associées à d’autres objets trouvés dans le même contexte et les informations sur l’objet étudié. L’importance de l’étude du contexte est telle que l’intérêt même d’un objet peut être remis en cause en fonction de ce contexte. Quel intérêt en effet peut avoir un tesson de céramique trouvé seul au milieu de nulle part ?

10

Étudier un objet historique implique donc, d’une part, la manipulation d’informations objectives sur les objets, telles que ses caractéristiques physiques et, d’autre part, celle d’informations subjectives en rapport avec le contexte étudié. Elle est également conditionnée par la production antérieure de connaissances.

Données, informations, connaissances

11

Pour illustrer ces trois notions - données, informations et connaissances [14] -, nous allons les rapporter aux objets du patrimoine culturel. Ceux-ci possèdent un certain nombre de caractéristiques auxquelles nous pouvons avoir accès par une série de mesures et d’analyses. Cependant, ces mesures et analyses produisent des données qui, en dehors d’un contexte, sont difficilement compréhensibles. Une série de nombres (par exemple 10, 50) non associée à un contexte est complètement dénuée de sens. En revanche, les mêmes nombres rapportés au contexte de largeur et de hauteur d’un objet expriment des informations précises : la largeur de l’objet est de 10 cm, sa hauteur est de 50 cm. C’est la mise en contexte d’une donnée qui crée de la valeur ajoutée pour constituer une information. D’autres caractéristiques de l’objet ne seront accessibles qu’à travers une série de déductions, que seul le spécialiste du domaine est capable de faire, notamment en se basant sur l’étude du contexte de l’objet et surtout sur ses propres connaissances. Un biface pour une personne non initiée ne représente qu’un morceau de silex alors que, pour un spécialiste, il évoquera un outil fabriqué par l’homme à une période donnée.

Événement

12

L’existence d’un objet fabriqué par l’homme est en forte corrélation avec les notions de temps et d’espace. En effet, l’événement de création a eu lieu à une date ou une période précise et dans un lieu donné. Au cours de son existence, l’objet peut subir de nombreux autres événements tels que déplacements, modifications, transformations, réparations ou destruction, qui peuvent impliquer à leur tour des changements de formes, des modifications de matériaux, des changements de fonctions de l’objet, la présence d’acteurs (restaurateurs, fabricants, conservateurs, etc.). Naturellement, tous ces événements, comme dans le cas de la création, doivent pouvoir être situés dans le temps et dans l’espace. Il s’agit donc d’analyser un événement par rapport à un contexte donné.

2 - Les modèles utilisés

13

Un modèle est une abstraction permettant de rendre plus visibles certains aspects du « monde ». Il est nécessairement réducteur au sens où il est adapté à la résolution de tâches bien spécifiques, dans le cadre d’un domaine particulier. Dans un processus de knowledge management, le type d’informations et de connaissances à acquérir doit être formalisé par les modèles issus du travail de réflexion collective, regroupant des experts d’un domaine.

14

La modélisation de connaissances peut être présentée comme un processus assurant la traduction d’une connaissance non formalisée - par exemple, la connaissance détenue par un expert – en une forme exploitable par un système informatique et appliquée à un domaine particulier.

15

Dans le cas présent, la collecte d’informations sur les œuvres du patrimoine se fait selon le modèle SDI (système descriptif de l’inventaire) [20], alors que la connaissance sera formalisée par le modèle conceptuel CIDOC-CRM [5], qui décrit les concepts du domaine et des relations qui les relient.

Modèle SDI

16

Pour décrire les objets du patrimoine, les chercheurs doivent suivre un certain nombre de préceptes, qui sont regroupés dans le système descriptif de l’inventaire (SDI). Celui-ci porte sur l’organisation des informations et sur la façon dont la description textuelle doit être organisée.

17

Ce protocole d’analyse permet de rendre compte de la nature des informations qu’on peut associer aux œuvres étudiées. Il spécifie non seulement les types d’informations qui sont essentiels pour décrire un objet culturel mais apporte également des précisions sur le vocabulaire à utiliser pour décrire les différentes caractéristiques de l’objet ou de son contexte. Dans certains cas, le vocabulaire utilisé pour la description est contrôlé par des thésaurus.

18

Les principaux inconvénients du SDI sont en rapport avec sa structure : structure plate, séquentielle où il est difficile d’effectuer des recherches poussées (la recherche s’appuie uniquement sur des mots-clés). Le SDI ne permet pas non plus de contextualiser l’information, la sémantique n’y est pas explicitée et est définie uniquement par convention. Par exemple, il est convenu que le contenu du champ DATE correspond à la date de création de l’objet. Enfin, le modèle SDI est difficilement évolutif.

Modèle conceptuel de domaine CIDOC-CRM

19

CIDOC-CRM est un modèle conceptuel qui propose un ensemble de classes, de propriétés et de relations pour décrire les domaines du patrimoine culturel. C’est un modèle orienté objet : c’est donc à l’intérieur de ce contexte que sont définis les éléments qui entrent dans sa composition (Classe, Propriété, Super-classe/Sous-classe).

20

Dans sa version actuelle, CIDOC-CRM définit 90 classes/entités et 148 propriétés. Ce qui permet d’exprimer l’ensemble des événements qui pourraient arriver à une œuvre d’art, depuis sa création jusqu’au moment où elle sera documentée par le système. Toutes les phases de modifications, de restaurations, de déplacements pourront ainsi être explicitées.

21

La description des parties constituantes de l’œuvre et des relations entre elles est également possible. L’identification de ces relations apporte souvent une information indispensable pour situer une œuvre dans le contexte historique.

Modélisation d’événement

22

L’existence d’une œuvre du patrimoine culturel est ponctuée par un certain nombre d’événements tels que sa création, son acquisition, éventuellement par des déplacements, des modifications, sa destruction. Souvent, ces événements ont lieu dans un espace-temps défini et en présence des différents acteurs (artiste, restaurateurs, etc.). L’utilisation du modèle CIDOC-CRM permet d’assurer la modélisation de ces événements ainsi que les relations que ces événements peuvent avoir entre eux.

Adaptation de CIDOC-CRM

23

Par souci de clarté et de meilleure lecture par l’utilisateur habitué à la nomenclature du SDI, nous avons créé, à partir de CIDOC-CRM, un modèle dans lequel nous avons défini les équivalences entre les différents champs du SDI et certaines classes de CIDOC-CRM. De plus, nous avons ajouté à certaines classes des sous-classes, pour pouvoir exprimer des propriétés particulières. Par exemple, à la classe DIMENSION, que nous avons déclarée comme équivalente à la classe E54.Dimension du CIDOC-CRM, nous avons ajouté des sous-classes : fils de chaîne, hauteur, longueur, masse, profondeur, rapport de dessin. De même, nous avons déclaré les classes : DESCRIPTION, HISTORIQUE, PRECISION_ETAT, PRECISION_INSCRIPTION, PRECISION_REPRESENTATION en tant que sous-classes de la classe E62.STRING.

24

Pour pouvoir intégrer les thésaurus définis par le SDI (cf. 2, § Modèle SDI) et effectuer les liens entre ces thésaurus et le modèle CIDOC-CRM, nous avons fait le choix de les utiliser au format SKOS [15], format de représentation structuré pour les thésaurus, les taxonomies et, d’une façon générale, pour tout type de vocabulaire contrôlé. Il utilise le formalisme RDF [13] et, de ce fait, tout comme lui, il définit des concepts et les relie entre eux à l’aide des propriétés permettant l’identification, la description, la structuration et l’organisation de schémas conceptuels.

25

Ci-dessous, l’extrait du thésaurus DENOMINATION au format SKOS formalise la représentation du concept DENO:3928 décrit par le terme « tableau » en tant que forme lexicale préférentielle et le terme « tableaux » en tant que forme lexicale alternative. Il possède un concept générique DENO:3921 et, entre autres, un concept spécifique DENO:3935.

Figure 1
26

Le lien entre le concept DENO (dénomination) représenté en format OWL [16] et le même concept défini dans le thésaurus au format SKOS est établi à l’aide de la relation « P1.is_identified_by ». Les détails des adaptations de CIDOC-CRM (création des équivalences, création des sous-classes ainsi que les relations avec les thésaurus au format SKOS) sont schématisés par la figure 2 (page 69).

Apport du modèle ontologique

27

Dans la perspective de l’ingénierie des connaissances, les ontologies peuvent être vues comme des structures permettant la modélisation et le partage des connaissances. « Comme les terminologies, les ontologies en ingénierie des connaissances sont une réponse à un besoin relativement similaire, celui de la normalisation des communications et des échanges » [17].

28

La littérature du domaine présente les ontologies comme un ensemble de concepts et de leurs relations, définis à l’aide d’un langage formel par un ensemble d’acteurs et pour un domaine particulier. Nous pouvons citer ici Borst [3] qui définit l’ontologie de la façon suivante : « Une ontologie est une spécification formelle d’une conceptualisation partagée ».

29

La notion de concept fait référence à la représentation ou à l’idée que l’on peut se faire des objets du monde réel, qu’ils soient concrets ou abstraits, chacun de ces objets pouvant avoir un certain nombre de caractéristiques appelées attributs. Les relations représentent les interdépendances et les interactions que peuvent avoir ces objets du monde réel. Ce sont des liens de spécialisation, de composition, d’appartenance ou de relations spatiales.

30

Il est possible de trouver dans cette définition des ontologies une certaine analogie avec les schémas relationnels de bases de données, qui sont également une conceptualisation d’un domaine. Les différences entre les deux approches sont liées à l’essence même de ces systèmes. Les schémas des bases de données sont limités par un certain déterminisme des applications pour lesquelles ils ont été conçus, et par la culture et le savoir des concepteurs.

31

Déterminés par les besoins d’une application en particulier, ils restent trop souvent hermétiques, rigides et difficiles à faire évoluer. Les technologies en question peuvent êtres par ailleurs performantes pour retrouver une information, à condition d’utiliser les descripteurs qui ont servi auparavant à indexer cette information. Il est donc préférable de connaître le contenu de la base avant son interrogation, sinon la requête peut rester sans réponse alors que l’information existe dans le système.

32

La nature de la connaissance (cf. §1, Nature des connaissances), son évolutivité, son caractère incrémental, sa forte dépendance du contexte, son hétérogénéité, rendent indispensable l’utilisation de modèles plus souples, ouverts et interopérables.

33

L’utilisation des ontologies est une réponse aux insuffisances des systèmes de type bases de données. À la différence des systèmes relationnels, les ontologies conceptualisent l’univers de discours, en décrivent les concepts d’une façon générale et ce, indépendamment d’une application en particulier. L’indépendance vis-à-vis du modèle applicatif ainsi que l’atomicité des concepts favorisent l’utilisation des ontologies dans un contexte évolutif et facilitent l’interopérabilité [18], ce qui les rend compatibles avec le fonctionnement du Web.

3 - De l’acquisition vocale au peuplement d’ontologie

34

Les objectifs du système que nous proposons sont de permettre le recueil d’informations et de connaissances à l’aide d’un dictaphone et d’aboutir à la création d’une ontologie de domaine selon un modèle conceptuel prédéfini. La principale difficulté consiste à capter et à assurer le passage de l’information et de la connaissance qui se dégagent des différentes sources : objets étudiés dans le contexte espace-temps, savoir du chercheur en interaction avec d’autres sciences. Dans ce processus, le chercheur joue le rôle d’un médiateur, il communique sous forme de description orale les informations et connaissances qu’il est en mesure de restituer, grâce à l’étude de l’objet dans son contexte et en fonction de sa propre connaissance et de celle mise à sa disposition par d’autres sciences.

Figure 1 - Cycle de vie des informations et connaissances à travers trois étapes fonctionnellesFigure 1
35

Afin d’extraire l’information et la connaissance contenues dans la description orale du chercheur et les formaliser de façon à ce qu’elles soient lisibles par un ordinateur, nous proposons de passer par trois étapes fonctionnelles :

  • étape 1 : recueil d’informations et de connaissances à l’aide d’un dictaphone en respectant le système descriptif de l’inventaire ;

  • étape 2 : extraction d’informations en respectant le système descriptif de l’inventaire et le modèle conceptuel CIDOC-CRM ;

  • étape 3 : peuplement de l’ontologie partielle de domaine selon le modèle conceptuel CIDOC-CRM.

Recueil d’informations et de connaissances

36

La première étape doit permettre la description orale des objets du patrimoine et de leur contexte par l’expert du domaine. Les informations qu’il dictera en décrivant un objet patrimonial seront guidées par une grille descriptive virtuelle (connue de l’expert) qui, dans notre cas, correspond au SDI (cf. 2, § Modèle SDI). Cette étape doit donc remplacer les recueils traditionnels d’informations tels que l’interview d’un expert fait par un cogniticien sur la base de fiches questions- réponses.

37

La description, « guidée » par SDI, que le spécialiste fera sur le terrain, peut être globalement divisée en deux catégories : visible et accessible à l’enquêteur sur le terrain ; non visible et accessible uniquement à travers l’étude historique et l’analyse approfondie.

38

L’information appartenant à la 1re catégorie (aspects matériels) est immédiatement disponible, visible et mesurable. L’information de la 2e catégorie (aspects immatériels) n’est pas matérialisée et n’est pas directement accessible par de simples mesures de l’objet. C’est le type d’information qui ne peut être connue que par des experts du domaine.

Extraction d’informations

39

La deuxième étape consiste en l’extraction d’informations à partir des fichiers textes produits à l’étape précédente. Cette étape utilise principalement l’analyse linguistique pour détecter les phrases et les termes contenant des informations définies par le système descriptif en vue de leur intégration dans le modèle conceptuel.

40

Elle devra résoudre de nombreuses ambiguïtés, et notamment des ambiguïtés sémantiques. Son principal composant est un analyseur linguistique dont les grammaires ont été définies en fonction du système descriptif SDI et du modèle conceptuel CIDOC-CRM.

41

Nous avons utilisé l’analyseur syntaxique robuste XIP, dont l’objectif est d’extraire des dépendances syntaxiques, qui garantit un résultat d’analyse de corpus, même si le texte est mal formé ou erroné, ce qui peut arriver dans le cas de textes issus d’une transcription orale [8]. La catégorie de l’information qui devra être localisée pour l’extraction est définie par le système descriptif de l’inventaire. C’est lui qui indique non seulement le type d’information à rechercher, mais qui contrôle également, dans certains cas, le vocabulaire à utiliser. Les termes doivent correspondre à l’entrée d’un lexique.

42

Le système descriptif de l’inventaire a donc guidé en partie la conception des patrons d’extractions et des grammaires locales. Un ensemble de règles qui s’appliquent pour construire la structure syntaxique de la phrase a été élaboré. Ces règles s’appuient en partie sur des lexiques, contenant des mots avec leurs propriétés morphosyntaxiques. Des traits sont également associés à ces mots, permettant ainsi de les regrouper en classes et leur associer une sémantique. En tout, nous avons créé des règles permettant de localiser les informations suivantes : « dénomination », « emplacement », « représentation », « catégorie technique », « dimensions », « précisions sur les dimensions », « état de conservation », « inscriptions (marques emblématiques et poinçons) », « auteur de l’œuvre », « titre de l’œuvre ».

Les lexiques

43

Nous avons créé deux types de lexiques : d’une part, celui contenant le vocabulaire défini comme autorisé pour remplir certains champs : DENO, REPR MATR, etc. ; d’autre part, nous avons créé des lexiques contenant des vocabulaires permettant d’analyser le contexte. Deux types de format sont utilisés. Pour les lexiques à grand vocabulaire, le terme de chaque lexique s’est vu associer sa forme infinitive pour les verbes et le masculin singulier pour les noms ; de plus, à chaque terme a été ajouté son trait sémantique et morphologique. Dans l’exemple présenté ci-dessous, le trait sémantique « Dénomination » est associé au terme « calice ».

Figure 1
44

Le format des lexiques de plus petite taille comprend la forme lemmatisée du terme avec le trait sémantique et morphologique qui lui est associé.

Figure 1
45

Dans cet exemple, le trait « insc » (inscription) est associé aux termes « marque », « cachet » et « sceau ».

Levée des ambiguïtés

46

Le repérage des mots ou syntagmes n’est pas la seule difficulté à laquelle doit faire face un système d’extraction d’information. Dans un contexte aussi riche qu’est la description d’un artefact du patrimoine culturel, devant la richesse de la langue employée et devant la multiplicité des sens qu’on peut donner à des descripteurs utilisés, l’un des problèmes majeurs est la résolution des ambiguïtés sémantiques.

47

Un mot ou un syntagme peut être utilisé dans différents contextes aussi bien pour décrire la représentation d’une œuvre que désigner l’œuvre elle-même, par exemple « un tableau représentant un calice » ; le nom d’une personne peut être celui d’un personnage représenté ou celui de l’artiste.

48

Il arrive fréquemment que les objets du patrimoine fassent partie d’un ensemble. La description de ce type d’objet peut faire allusion aux éléments contenus ou contenant. On se trouve donc dans une situation où plusieurs noms d’œuvres sont cités. Comment savoir laquelle fait l’objet de l’étude ?

49

Dans la phrase : « Calice en argent doré, orné de grappes de raisins, d’épis de blé, de roseaux sur le pied et la fausse coupe, d’une croix et des instruments de la Passion dans des médaillons, sur le pied. », les termes : « calice », « croix », « instruments », « médaillons » existent dans le lexique DENOMINATION. Le terme « calice » existe également dans le lexique REPRESENTATION. Comment être sûr qu’il s’agit de DENOMINATION ? Comment choisir le terme qui désigne la DENOMINATION ?

Étude de la position initiale

50

L’étude de l’ordonnancement des descripteurs dans un texte apporte une aide appréciable, notamment pour la résolution de certains types d’ambiguïtés. L’étude de la position initiale, qui s’appuie sur des considérations cognitives [7] [10], accorde une importance accrue aux débuts de phrase : on y place en position initiale une information donnée ou une information plus importante.

51

Dans cette perspective, l’extraction de l’information, à partir de notre texte : « Calice en argent doré, orné de grappes de raisins, d’épis de blé, de roseaux sur le pied et la fausse coupe, d’une croix et des instruments de la passion dans des médaillons, sur le pied. », favorisera le descripteur « Calice » par rapport aux autres descripteurs cités ci dessus, pour désigner la dénomination de l’objet étudié.

Contexte local

52

La résolution des ambiguïtés nécessite l’analyse et la compréhension du contexte local. L’analyse morphosyntaxique des mots qui entourent le terme dont on cherche à identifier le sens, la recherche des indices linguistiques définis en fonction d’une thématique peuvent résoudre certaines ambiguïtés.

53

Dans la phrase : « C’est une peinture à l’huile de très grande qualité, panneau sur bois représentant deux figures à mi corps sur fond de paysage, Saint Guilhem et Sainte Apolline, peintures enchâssées sous des architectures à décor polylobés ; Saint Guilhem est représenté en abbé bénédictin (alors qu’à sa mort en 812 il n’était que simple moine) ; Sainte Apolline tient l’instrument de son martyre, une longue tenaille. », s’agit-il d’un tableau qui se trouve à Saint Guilhem, ou d’une représentation de Saint Guilhem et Sainte Apolline ?

54

Une étude de la position et de la classe sémantique des arguments dans la relation « sujet-verbe-objet » apporte des indices pour la résolution de cette ambigüité, selon le principe que le sujet constitue le thème de la phrase - « ce dont on parle » -, alors que le verbe exprime le propos de la phrase - « ce que l’on dit du thème ».

55

Dans l’exemple cité plus haut, le verbe « représentant » porte le trait [Repr :+], qui l’associe à la classe REPRÉSENTATION ; en l’absence d’autres indices significatifs, on peut donc en déduire que le propos de la phrase est la « représentation » et que Saint Guilhem et Sainte Apolline ne désignent pas des lieux mais plutôt la représentation.

56

Les textes générés automatiquement par la transcription des fichiers sonores peuvent contenir des erreurs. Il est donc indispensable de contrôler leur contenu avant de passer à l’étape 3 de la méthode : le peuplement de l’ontologie de domaine selon le modèle prédéfini.

Peuplement de l’ontologie

57

La troisième étape permet de générer automatiquement une composante d’ontologie du patrimoine culturel, en se basant sur les informations extraites à la deuxième étape et sur le modèle conceptuel préalablement défini CIDOC-CRM. Il s’agit de passer d’un système de type base de données vers un système a base de connaissances. Il faut donc assurer le passage des catégories SDI vers les concepts/relations de CIDOC-CRM. Le peuplement d’ontologie partielle se fait au format OWL, format qui autorise une exploitation dans le cadre du Web.

58

L’information représentée par une grille de type SDI (système descriptif de l’inventaire) est plus pauvre que celle représentée par une ontologie. Dans une « grille » de type SDI et contrairement à une ontologie, l’information n’est pas contextualisée et sa sémantique n’est pas explicitée (cf. 2, § Modèle SDI - Système descriptif de l’inventaire)

59

Le passage du modèle défini par le système descriptif de l’inventaire vers l’ontologie CIDOC-CRM se fait grâce à la recherche des champs du système descriptif dont le contenu peut être considéré comme une instance d’une des classes de l’ontologie CRM. Pour effectuer la transcription d’une information de SDI vers CIDOC-CRM, il faut pouvoir lui associer un ou plusieurs concepts - qui peuvent être un événement (de création), un objet matériel ou immatériel, une date ou période - reliés grâce à des relations spécifiques.

4 - Expérimentations et résultats

60

Les expérimentations que nous avons effectuées se basent sur un prototype et sont encore peu nombreuses. Pour présenter un véritable retour d’expériences et avoir des résultats pouvant nourrir des statistiques plus fiables, il faudrait mettre notre application en exploitation. Néanmoins, les résultats obtenus sont suffisamment prometteurs pour nous inciter à continuer les développements en vue de mettre notre système en utilisation courante.

61

Les principales sources d’erreurs se situent au niveau de la transcription de la description orale de l’œuvre vers le texte et au niveau de l’extraction d’information à partir de textes retranscrits. Chacune de ses étapes nécessite la vérification et d’éventuelles corrections par des chercheurs avant le lancement de peuplement d’une ontologie partielle au format OWL-DL, conforme au modèle conceptuel CIDOC-CRM.

62

Pour les extractions d’informations à partir de l’ensemble des textes descriptifs de chaque chercheur, nous avons calculé la « précision », le « rappel » et le « F-score », selon les formules :

Figure 1
63

Les résultats des calculs sont inscrits dans le tableau ci-dessous. La lettre A correspond à une voix féminine avec accent régional, B à une voix féminine sans accent et C à la voix d’un homme sans accent.

Tableau 1 - Résultats d’extraction d’informationsTableau 1
64

Voici ci-dessous l’exemple de la description d’un tableau, réalisée par un chercheur du patrimoine. Le premier texte donne le résultat issu de la transcription orale (les erreurs sont mises en évidence par un marquage en caractères gras), le second texte est le résultat après correction. C’est à partir de ce fichier qu’est faite l’analyse linguistique, l’extraction d’information et le peuplement d’ontologie, schématisée en partie par la figure 2.

Figure 2 - Exemple de l’ontologie d’une œuvre issue d’une description dictéeFigure 2
65

« Et le Damiani église Saint-Sauveur. Tableau représentant saint Benoît d’Aniane et saint Benoît de Nursie offrant à Dieu le Père la nouvelle église abbatiale d’Aniane. Ce tableau est situé dans le cœur et placé à 3,50 m du sol. C’est une peinture à l’huile sur toile encadrée et 24 en bois Doré. Ça auteure et de 420 cm sa largeur de 250 cm. Est un tableau du XVIIe siècle. Il est signé en bas à droite droite de Antoine Ranc. Est un tableau en mauvais état de conservation un réseau de craquelures s’étend sur l’ensemble de la couche picturale. »

66

Ville d’COM{Aniane} EDIF{église Saint-Sauveur}. PREPR{DENO{Tableau} représentant REPR{saint Benoît d’Aniane] et REPR{saint Benoît de Nursie} offrant à REPR{Dieu le Père} la nouvelle église abbatiale d’Aniane}. Ce tableau est situé EMPL{dans le cœur et placé à 3,50 m du sol}. C’est une peinture à MATR{l’huile sur toile} encadrée d’un cadre en MATR{bois doré}. Sa DIMS{hauteur est de 420} cm sa DIMS{largeur de 250 cm}. Est un tableau du SCLE{XVIIe siècle}. Il est signé en bas à droite de AUTR{Antoine Ranc}. PETAT{Est un tableau en mauvais état de conservation un réseau de craquelures s’étend sur l’ensemble de la couche picturale}.

5 - Conclusion

67

L’originalité de notre système se situe dans le droit fil des tendances interdisciplinaires et inter-méthodologiques de l’information-communication par le lien qu’il établit entre plusieurs domaines de recherche : le traitement du signal, l’acquisition et la modélisation de connaissances, le traitement automatique de la langue et le management des connaissances.

68

Le module d’acquisition audio permet d’éviter l’opération de saisie au clavier de notes sur papier et représente donc un gain de temps sensible. Il fournit à l’expert un outil qui lui permet d’acquérir des connaissances directement observables sur le terrain. Les difficultés que nous avons rencontrées pendant la réalisation de ce travail sont principalement en rapport avec les imperfections et les incertitudes des technologies utilisées.

69

Dans le contexte de la modélisation de connaissances, qui se fonde sur les informations extraites automatiquement à partir d’un document texte généré grâce à la transcription d’un document vocal, on mesure l’importance de la justesse de l’information extraite. L’étape de la vérification et de la correction, aussi bien du document obtenu directement à partir de la transcription que des informations extraites par le système, est primordiale car elle est garante des résultats permettant d’obtenir un modèle de connaissance correct à l’arrivée. C’est là où se situe à notre avis la principale difficulté et d’éventuelles pertes de temps dans le déroulement des séquences pour acquérir des connaissances avec notre système.

70

Malgré tout, les tests que nous avons réalisés dans des conditions réelles confirment notre intuition de départ. Il est possible d’automatiser le passage de la parole vers un modèle de connaissance, même si le résultat n’est pas à 100 % fiable et que chaque étape nécessite une intervention humaine pour corriger et valider les résultats.

71

Pouvoir suivre l’évolution des œuvres à travers le temps et l’espace, comparer leurs attributs, les confronter avec d’autres sources de connaissances appartenant à d’autres sciences constitue dans le domaine du patrimoine culturel un véritable fondement pour le développement de nouvelles connaissances. Dans cette perspective, l’extensibilité, l’alignement et la coopération ontologique [18] [19] [21] et l’ouverture des données sont des notions très importantes notamment dans le contexte du Web sémantique [2] et de la modélisation de connaissances.

72

Les formalismes ( (SKOS, RDF, OWL) que nous utilisons à différents niveaux dans notre projet le positionnent dans une perspective favorable pour une éventuelle utilisation dans le contexte d’ouverture et de partage de données sur le Web. D’autres initiatives dans le domaine culturel vont dans ce sens : projet STITCH [3][3] http://www.cs.vu.nl/STITCH, projet Europeana [4][4] http://pro.europeana.eu, projet TelPlus [5][5] www.theeuropeanlibrary.org, projet data.bnf.fr [6][6] http://data.bnf.fr/semanticweb ou encore la traduction du Répertoire d’autorité-matière encyclopédique et alphabétique unifié (Rameau) [7][7] http://rameau.bnf.fr en format SKOS [12], qui visent la numérisation du patrimoine culturel dans le souci d’interconnexion intelligente des ressources.

73

Octobre 2012


Références

  • [1] AMIDON D. M. Innovation Strategy for The Knowledge Economy. Butterworth Heinemann, 1997 ; version française : Innovation et management des connaissances. Editions d’Organisation, 2001 ;traduction et adaptation G. Gruz et E. Mercier-Laurent, p. 128-140
  • [2] BERNERS-LEE T, HENDLER J., LASSILA O. « The Semantic Web ». Scientific American, May 2001
  • [3] BORST W. N. Construction of Engineering Ontologies, PhD Thesis, University of Twente, Netherlands, 1997
  • [4] DJINDJIAN F. « Pour une théorie générale de la connaissance en archéologie ». Archeologia e Calcolatori, 2002, n° XIII, p. 101-117
  • [5] DOERR M., CROFTS N., GILL T., STEAD S., STIFF M. Definition of the CIDOC Conceptual Reference Model, version 4.2.1. ICOM/Cidoc, octobre 2006, http://www.cidoc-crm.org/docs/cidoc_crm_version_4.2.1.pdf
  • [6] CHATEAU (du) S. Simplicius, système d’aide au management des connaissances pour le patrimoine culturel. Thèse en Informatique, Université Lyon 3, 2010
  • [7] ENKVIST N.E. « Notes on valency, semantic scope, and thematic perspective as parameters of adverbial placement in English ». In : Reports on Text Linguistics: Approaches to Word Order, N. E. Enkvist, V. Kohonen (eds.), Åbo Akademi, 1976
  • [8] HAGÈGE C., ROUX C. « Entre syntaxe et sémantique : Normalisation de la sortie de l’analyse syntaxique en vue de l’amélioration de l’extraction d’information à partir de textes ». In : Actes : TALN 2003, Batz-sur-Mer, 11–14 juin 2003, http://atala.org/doc/actes_taln/AC_0089.pdf
  • [9] HERNANDEZ N. Ontologies de domaine pour la modélisation du contexte en recherche d’information. Thèse, Université Paul Sabatier, Toulouse, 2005
  • [10] HO-DAC L. La position initiale dans l’organisation du discours : une exploration en corpus. Thèse de doctorat, Université Toulouse le Mirail. 2007
  • [11] IACOVELLA A., BENEL A, CALABRETTO S, HELLY B. « Assistance à l’interprétation dans les bibliothèques numériques pour les sciences historiques ». In : J.-L. Lebrave (éd.). La société de l’information et ses enjeux. Actes : du colloque de bilan du programme interdisciplinaire « Société de l’information », 2001-2005. Paris : CNRS, 2005, p. 167-179, http://benel.tech-cico.fr/publi/benel_PSI_05.pdf
  • [12] ISAAC A., BOUCHET T. « Rameau et Skos ». Arabesques, 2009, n° 54, p. 13-14
  • [13] KLYNE G. et CARROLL J. Resource Description Framework (RDF) : Concepts and abstract syntax. W3C Recommendation, 10 February 2004. World Wide Web Consortium, 2004, http://www.w3.org/TR/rdf-concepts
  • [14] MERCIER-LAURENT E. Rôle de l’ordinateur dans le processus global de l’innovation à partir de connaissances. Mémoire HDR en informatique, Université Lyon 3, 2007
  • [15] MILES A., BRICKLEY D. SKOS Core Guide. W3C Working Draft, 2 novembre 2005, http://www.w3.org/TR/2005/WD-swbp-skos-core-guide-20051102
  • [16] PATEL-SCHNEIDER P., HAYES P., HORROCKS I. (éds). OWL Web Ontology Language Semantics and Abstract Syntax. W3C Recommendation, 10 February 2004. World Wide Web Consortium, 2004, http://www.w3.org/TR/owl-semantics
  • [17] ROCHE C. « Terminologie et ontologie ». Langages, 2005, vol. 39, n° 157, p. 48-62, http://www.persee.fr/web/revues/home/prescript/article/lgge_0458-726x_2005_num_39_157_974
  • [18] SHVAIKO P., EUZENAT J. Ontology Matching. Springer-Verlag, 2007, 333 p.
  • [19] TALENS G., BOULANGER D. « Evolutive ontologies by versioning ». In : Proceedings : 4th International Conference on Research Challenges in Information Science, RCIS 2010, Nice 19-21 mai 2010. Institute of Electrical and Electronics Engineers, 2010
  • [20] VERDIER H. Système descriptif des objets mobiliers. Éditions du Patrimoine, 1999
  • [21] ZIANI N., BOULANGER D., TALENS G. Système d’aide à l’alignement d’ontologies métier. In : Actes : du 28e congrès INFORSID, Marseille, mai 2010, http://liris.cnrs.fr/inforsid/sites/default/files/2010_ziani.pdf

Notes

[1]

Un dossier consacré au knowledge management a été publié dans Documentaliste- Sciences de l’information, n°2, juin 2012

[2]

Pour un état de l’art des différentes technologies utilisées dans le projet voir [6]

Résumé

Français

Cet article propose un travail de recherche appliquée répondant à un réel besoin d’amélioration de recueil, d’indexation et de recherche des connaissances dans le domaine du patrimoine culturel. Conçu, modélisé et expérimenté en environnement réel par Stefan du Château, Danielle Boulanger et Eunika Mercier-Laurent, le système Simplicius présenté dans cet article permet d’automatiser le cycle de vie d’informations et connaissances pour une recherche future. Il est composé de plusieurs modules permettant le recueil d’informations orales, leur « traduction » automatique vers un fichier texte, l’analyse linguistique et l’extraction d’informations et, enfin, le peuplement semi-automatique d’une ontologie de domaine selon un modèle conceptuel prédéfini. Ce système hybride s’appuie à la fois sur les techniques de traitement du signal, de traitement du langage naturel et la modélisation des connaissances.

English

Interdisciplinary approach to cultural heritage knowledge managementThis article describes an applied research project that addressed a real need to improve cultural heritage knowledge collection, indexing and research. Designed, modelized and tested in a real environment by our three authors, their system makes it possible to automate an information and knowledge life cycle for future research. Several modules make possible oral information collection, and their "automatic" translation into text files, linguistic analysis and data extraction and semi-automatic population of domain ontology based on a predefined conceptual model. This hybrid system is based on both signal processing techniques, natural language processing and knowledge modeling.

Español

Enfoque interdisciplinario sobre la gestión de conocimientos en el patrimonio culturalEste artículo presenta un trabajo de investigación aplicada que responde a una necesidad real de mejora de la selección, indexación y la investigación de conocimientos en el campo de patrimonio cultural. Concebido, modelado y experimentado en entorno real por Stefan du Château, Danielle Boulanger y Eunika Mercier-Laurent, el sistema presentado en este artículo permite automatizar el ciclo de vida de la información y conocimientos para futura investigación. Se compone de muchos módulos que permiten la recolección de informaciones orales, su “traducción” automática a un archivo de texto, el análisis lingüístico y la extracción de informaciones y, en fin, la población semiautomática de una ontología del dominio según un modelo conceptual predefinido Este sistema híbrido se apoya a la vez sobre las técnicas de tratamiento de señales, del tratamiento del lenguaje natural y de la modelización de conocimientos.

Deutsch

Interdisziplinärer Ansatz des Wissensmanagements im kulturellen ErbeDieser Aufsatz stellt die Arbeit einer angewandten Forschung dar, die einem reellen Bedarf entsprechen, die Sammlung, Indexierung und Forschung des Wissens im Bereich des kulturellen Erbes zu verbessern. Das in diesem Beitrag vorgestellte System wurde von Stefan du Château, Danielle Boulanger und Eunika Mercier-Laurent konzipiert, erstellt und in einer realen Umgebung experimentiert und erlaubt es, den Lebenszyklus von Informationen und Wissen für zukünftige Recherchen zu automatisieren. Es setzt sich aus mehreren Modulen zusammen, die die Sammlung mündlicher Informationen, ihre automatische „Übersetzung“ in eine Textdatei, die linguistische Analyse und die Extraktion von Informationen, sowie schlussendlich die halbautomatische Anreicherung einer Fachontologie nach einem vordefinierten konzeptuellen Modell ermöglichen. Dieses hybride System stützt sich gleichzeitig auf die Techniken der Signalverarbeitung, der Verarbeitung natürlicher Sprache und der Modellierung von Wissen.

Plan de l'article

  1. 1 - Nature des connaissances
    1. Étude du contexte
      1. Données, informations, connaissances
    2. Événement
  2. 2 - Les modèles utilisés
    1. Modèle SDI
    2. Modèle conceptuel de domaine CIDOC-CRM
      1. Modélisation d’événement
    3. Adaptation de CIDOC-CRM
    4. Apport du modèle ontologique
  3. 3 - De l’acquisition vocale au peuplement d’ontologie
    1. Recueil d’informations et de connaissances
    2. Extraction d’informations
      1. Les lexiques
      2. Levée des ambiguïtés
      3. Étude de la position initiale
      4. Contexte local
    3. Peuplement de l’ontologie
  4. 4 - Expérimentations et résultats
  5. 5 - Conclusion

Pour citer cet article

du Château Stefan, Boulanger Danielle, Mercier-Laurent Eunika, « Approche interdisciplinaire du management des connaissances en patrimoine culturel », Documentaliste-Sciences de l'Information 4/2012 (Vol. 49) , p. 62-70
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2012-4-page-62.htm.
DOI : 10.3917/docsi.494.0062.


Article précédent Pages 62 - 70 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback