Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2005/6 (Vol. 42)

  • Pages : 72
  • DOI : 10.3917/docsi.426.0392
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 392 - 404 Article suivant
1

DÉCRIRE DES IMAGES, EN TOUTE GÉNÉRALITÉ, est un processus complexe et subjectif, qui dépend beaucoup de la future utilisation de ces images. Le traitement automatique de celles-ci donne rarement les informations sémantiques suffisantes dont a besoin un utilisateur. En pratique, et pour de nombreux domaines, les documentalistes ont donc l’habitude de produire des descriptions textuelles des images en s’appuyant sur des ressources terminologiques : schémas de classifications, listes d’autorité, dictionnaires de noms propres, thésaurus généraux ou spécialisés, etc. Le but de ces ressources est de contrôler les descriptions en atténuant leur variabilité. Il est alors possible d’automatiser – dans une certaine mesure – la production des descriptions et d’améliorer la recherche des images dans les systèmes qui les utilisent.

2

Parallèlement, de nombreux efforts sont menés depuis quelques années pour faire évoluer le web – gigantesque espace documentaire – vers ce que l’on appelle le web sémantique. En première approximation, le but du web sémantique est de développer un web dont le contenu s’adresse, au moins pour partie, aux machines, afin qu’elles puissent aider les utilisateurs humains [8]. Plus précisément, un tel web doit doter ses ressources (documents, images, services, etc.) d’annotations dont la vocation n’est pas d’assurer l’affichage des documents mais l’appréhension de leur contenu par divers outils logiciels. Cependant, si l’on désire que les machines nous aident à mieux trouver et utiliser l’information, il nous faut les y aider en explicitant celle-ci. C’est pourquoi le web sémantique est souvent défini comme une infrastructure juxtaposant au web actuel des documents structurés par des langages (pour exprimer la connaissance, pour décrire les relations entre les connaissances, pour décrire les conditions d’utilisation, les garanties et les modes de paiement) et des dispositifs permettant de trouver les ressources [11].

3

Aujourd’hui, on assiste à une convergence entre les outils et pratiques documentaires d’une part, et les technologies du web sémantique d’autre part, les premiers voulant bénéficier des services offerts par les secondes. Notre intention ici est de présenter rapidement les technologies du web sémantique actuellement disponibles et d’illustrer en quoi elles peuvent être utiles à la pratique documentaire dans le contexte audiovisuel. Nous commençons donc par présenter le langage RDF, qui permet le partage de l’information entre humains et machines, et le langage OWL, qui permet de définir des ontologies sur le web. Nous montrons ensuite comment ces technologies sont aujourd’hui reprises par le monde documentaire et comment se traduit concrètement l’évolution des possibilités qu’elles offrent à présent. Nous donnons enfin deux exemples d’applications documentaires où ces technologies sont aujourd’hui employées.

1 - Les technologies du web sémantique

4

Le web sémantique [5], c’est avant tout des langages et des outils permettant de représenter formellement de la connaissance afin que la machine ait accès au sens des documents. Les ontologies permettent de modéliser les connaissances d’un domaine pour une certaine communauté. Elles fournissent dans le web sémantique le vocabulaire formel dans lequel les annotations RDF pourront être exprimées. Nous présentons donc ci-dessous les rudiments du langage RDF dans lequel sont décrites les ressources du web sémantique. Nous introduisons ensuite le langage OWL qui permet de représenter des ontologies dans le web sémantique.

Produire des descriptions

5

L’annotation d’images à l’aide de simples mots clés, voire de catégories, n’est souvent pas suffisante. Il faut être capable d’exprimer l’information relationnelle : savoir qu’un objet « programme TV » peut avoir un « présentateur » qui est une « personne » et une « chaîne de diffusion », ou qu’un « long métrage » est une « fiction » dont la « durée » est supérieure à « 52 minutes ». Il est donc naturel que le premier langage pour le web sémantique, RDF, mette l’accent sur les relations. Une notice documentaire pourra être exprimée en RDF à la manière de la figure 1.

6

RDF (Resource Description Framework) [7] [13] est un langage, recommandé par le W3C (World Wide Web Consortium), fondé sur les notions de ressources et de relations entre ressources. Un triplet <s, p, o> exprime une relation p entre un sujet s et un objet o. Les relations et certaines ressources sont identifiées par des URI (uniform resource identifiers) [4] dont l’exemple le plus connu est celui des URL (uniform resource locators), qui constituent les « adresses » des pages du web. Les ressources peuvent être identifiées ou rester anonymes, elles peuvent également être typées en utilisant la relation rdf:type. Notons que certaines ressources sont externes (foaf), et que d’autres sont spécifiques à notre application (tv). Les objets peuvent être des littéraux (comme une chaîne de caractères ou un nombre entier).

7

La figure 1 présente une partie d’un document RDF sous forme graphique. Les objets d’un triplet qui sont des littéraux sont représentés dans un rectangle (ici, Magazine des sports de France 2 ou 52’). Un document RDF constitue donc un graphe étiqueté sur ses arêtes et ses sommets (plus précisément un multigraphe orienté et étiqueté) où les éléments apparaissant comme sujets ou objets sont les sommets, et où chaque triplet est représenté par un arc dont l’origine est son sujet et la destination son objet.

8

Intuitivement, ce graphe peut se comprendre comme : « Il existe un programme qui est un magazine sportif, dont le présentateur est Gérard Holtz, la durée est 52 minutes, le titre est “Magazine des sports de France 2”, et qui est diffusé par la chaîne France 2. »

9

Ce document sera codé en machine par un document rdf/xml [3] ou n3. La figure 2 présente l’exemple original exprimé en rdf/xml.

Figure 1 - Graphe RDF representant une notice documentaireFigure 1
Figure 2 - Description d’une notice documentaire en RDF/XMLFigure 2
Figure 3 - L’expression owl s’interprete comme : « la classe emissionplateau est l’intersection de la classe emissionsimple et des objets dont la propriete sequence prend ses valeurs dans la classe sequenceplateau »Figure 3

Un graphe à l’échelle du monde

10

Comme on l’a vu, les objets, ou les ressources, sont identifiés par des URI. À l’instar de ce qui se passe dans le web, ceci présente l’intérêt que l’objet référencé n’a pas besoin de se trouver ou d’être décrit dans le document lui-même. Les documents RDF constituent donc un immense graphe à l’échelle du monde [11]. RDF peut être utilisé pour annoter des documents écrits dans des langages non structurés, ou comme une interface pour des documents écrits dans des langages déjà structurés (des bases de données, par exemple).

11

L’utilisation des URI permet le partage des descriptions entre plusieurs documents. Ainsi, le contenu d’un programme TV peut être décrit sur le site du diffuseur alors que l’enregistrement numérique de cette émission se trouvant dans un fonds d’archives comme celui de l’INA peut être décrit localement. De plus, si la Société des amis de Gérard Holtz publie sa page FOAF ou que le journaliste-présentateur a une page FOAF qui l’identifie, mieux vaut la référencer plutôt que de la recopier ou la réinventer. De cette manière, on peut dire que les technologies mises en œuvre dans le web sémantique sont réellement ouvertes : il est toujours possible d’ajouter des propriétés à une ressource, qu’elle ait été créée par nous ou non.

12

Notons enfin que les URI ne doivent pas être lues comme des URL : il n’y a aucune obligation que l’identificateur http:// fr. wikipedia. org/ wiki/ Gérard_Holtz donne accès à un document quelconque. Contrairement aux locateurs, les URI ne sont que des identificateurs : ils permettent de spécifier de quoi l’on parle. On peut faire une analogie avec les numéros ISBN qui permettent à deux personnes d’être assurées qu’elles parlent du même ouvrage. Cette seconde particularité – la non-obligation pour les URI de donner accès à la ressource – contribue à la robustesse du web sémantique : les documents RDF peuvent être consultés hors ligne et il n’y a plus de liens cassés, comme il peut y en avoir avec le web actuel.

Modéliser son domaine

13

Même si RDF est un format très ouvert et malléable (il est possible d’ajouter des annotations à propos de n’importe quelle ressource), il est nécessaire, pour interroger une base documentaire, d’identifier les termes sur lesquels la description doit porter. Il est d’usage dans les systèmes documentaires de répertorier et de classifier ces termes dans des listes d’autorités ou des thésaurus généraux ou spécialisés. Dans le web sémantique, les grandes classes d’objets impliqués et leurs relations constituent un modèle conceptuel du domaine [6] et sont décrites dans une « ontologie » [1] [18].

14

Les ontologies fournissent ainsi le vocabulaire propre à un domaine et fixent – avec un degré de formalisation variable – le sens des concepts (ou classes) et des relations (ou propriétés) entre ceux-ci. Ces concepts (et ces relations) sont généralement organisés par une relation de spécialisation. Exprimer de la connaissance sur le web est l’ambition du web sémantique. Au-delà de ce simple mot d’ordre, diffuser des ontologies sur le web est le moyen de permettre à d’autres de se les approprier, de les étendre et de les réutiliser. Le langage OWL (Ontology Web Language) [9], compatible avec RDF, permet de les représenter. À l’instar de RDF, OWL est une recommandation du W3C depuis février 2004.

15

Le langage OWL a pour but d’étendre RDF en décrivant plus précisément les ressources utilisées pour étiqueter les graphes. Pour cela, il fournit un mécanisme permettant de spécifier les classes dont les instances sont des ressources, comme les propriétés. OWL s’écrit toujours à l’aide de triplets RDF, en définissant la sémantique de nouveaux mots clés :

  • <hhttp:// stade2. france2. frrdf:type MagazineSportif> : la ressource http:// stade2. france2. fr a pour type MagazineSportif (qui est donc une classe) ;

  • <tv:MagazineSportif rdfs:subClassOf tv:Emission> : la classe MagazineSportif est une sous-classe de Emission, toutes les instances de MagazineSportif sont donc des instances de Emission ;

  • <tv:durée rdf:type owl:DatatypeProperty> affirme que tv:durée est une propriété (une ressource utilisable pour étiqueter les arcs) dont le type de donnée est simple (data) ;

  • <tv:diffuséSur rdfs:range tv:Chaine> affirme que toute ressource utilisée comme extrémité d’un arc étiqueté par tv:diffuséSur sera une instance de la classe tv:Chaine.

Ces primitives, permettant de signifier l’appartenance d’un objet à une catégorie, de déclarer la relation de généralisation entre catégories et de typer des objets reliés par une relation, constituent la base de tout langage d’ontologie.

16

Outre ces mécanismes primitifs, OWL dispose également d’un grand nombre de constructeurs permettant de contraindre plus précisément la définition des classes (en les décrivant comme union, intersection, complémentaire d’autres descriptions ou comme l’ensemble d’un certain nombre d’individus), des domaines de relations (en spécifiant le type de toutes leurs valeurs, ou d’un certain nombre de celles-ci) ou des relations (en les déclarant transitives, symétriques ou en spécifiant leur inverse). Par ailleurs, il est possible de déclarer que deux classes ou ressources sont équivalentes ou, au contraire, différentes. La figure 3 donne par exemple une définition formelle du concept émission plateau comme étant un type d’émission dont toutes les séquences sont des séquences plateau.

17

Dans les ontologies comme dans les descriptions, l’ouverture est de mise. Ainsi, les ontologies peuvent faire référence à des concepts introduits dans d’autres ontologies. On peut le voir dans les descriptions précédentes où la classe Person n’est pas définie dans l’ontologie de la télévision mais dans l’ontologie FOAF (friend-of-a-friend, www. foaf-project. org/ ). Il est donc possible non seulement d’utiliser, mais aussi de prolonger une ontologie existante (pour ses propres besoins). Il est même possible d’aller plus loin et d’introduire des classes au sein d’une hiérarchie existante. Il est tout aussi possible de déclarer deux classes ou deux relations d’ontologies différentes comme équivalentes ou au contraire incompatibles. Enfin, il est possible de contraindre certaines caractéristiques de classes extérieures à l’ontologie [11].

2 - Évolution des outils et pratiques documentaires vers le web sémantique

18

Après cette rapide introduction aux langages du web sémantique, nous nous intéressons maintenant à leur utilisation pouvant être mise à profit dans la pratique documentaire en général et pour la description d’images en particulier. En effet, l’utilisation conjointe de ces technologies avec les outils documentaires traditionnellement employés en indexation multimédia a récemment montré son efficacité [20] [22]. Nous présentons donc trois types de ressources utiles dans les tâches de documentation qui utilisent les technologies du web sémantique.

Dublin Core

19

Le Dublin Core (http:// dublincore. org) [10] est un vocabulaire (ou une ontologie) minimal(e) pour l’indexation des pages web. Il a été défini sous l’égide de l’Online Computer Library Center (OCLC) et maintenant d’un forum ouvert. L’ensemble d’éléments du Dublin Core est une version très réduite des notices MARC qui ne comprend que quinze éléments (title, creator, subject, description, publisher, contributor, date, type, format, identifier, source, language, relation, coverage, rights). De plus, la signification de certains d’entre eux peut être précisée à l’aide de raffinements. Une description utilisant le Dublin Core est donc composée de ces éléments auxquels on associe des valeurs. Ces valeurs peuvent être libres (de simples chaînes de caractères) ou contrôlées par des formats de données bien définis : par exemple, le MeSH (Medical Subject Headings), un URI, le W3CDTF pour le codage des dates et des heures selon le W3C, le RFC 3066 pour le nouveau codage des langues, etc.

20

Utiliser ces éléments pour décrire une ressource est une garantie d’être (partiellement) compris par l’ensemble des programmes qui supportent le schéma simple du Dublin Core. Par ailleurs, on remarque que le vocabulaire à utiliser dans ces champs reprend très souvent d’autres standards, ce qui constitue une bonne pratique.

21

L’ensemble des éléments du Dublin Core fut une des premières « ontologies » décrites en RDF [2].

Visual Resource Association (VRA)

22

Visual Resource Association (www. vraweb. org) [24] est une organisation réunissant de nombreuses universités américaines, galeries et instituts d’arts. Elle a développé une ontologie pour décrire à la fois des œuvres d’art et leur représentation visuelle. Le modèle sous-jacent aux catégories définies par VRA commence donc par distinguer deux types d’objets :

  • l’œuvre (vra:work), qui est une entité physique qui existe, ou a pu exister dans le passé ou encore pourrait exister dans le futur. Cette notion recouvre donc les créations artistiques (peinture, sculpture), mais également les bâtiments ou toute autre construction, les œuvres littéraires ou encore les interprétations d’un artiste ;

  • et l’image (vra:image), qui est une représentation visuelle d’une œuvre (par exemple, une photographie ou un document audiovisuel).

La version actuelle (3.0) du standard fournit un ensemble de dix-sept descripteurs pour décrire ces deux types d’entités. À l’instar du Dublin Core, ces éléments peuvent être précisés à l’aide d’attributs, et il est recommandé de contrôler leur valeur en utilisant des listes d’autorités ou des thésaurus. En fait, tous ces descripteurs peuvent être définis soit comme équivalents, soit comme spécialisant les éléments du Dublin Core ce qui, là encore, assure une interopérabilité avec les standards existants.

23

Deux traductions en OWL/RDF de ce modèle co-existent aujourd’hui [17] [21], mais l’on peut espérer que celles-ci fusionnent prochainement.

Simple Knowledge Organisation System (SKOS)

24

Simple Knowledge Organization System (SKOS) [14] 15], récemment proposé par le W3C, est un modèle pour exprimer des systèmes d’organisation de connaissance d’une manière qui s’intègre dans le web sémantique. Plus précisément, SKOS a comme objectif de fournir un modèle et le vocabulaire permettant de représenter la structure et le contenu de schémas conceptuels tels que des thésaurus, des schémas de classification, des glossaires, des terminologies spécialisées ou tout autre type de vocabulaire contrôlé. Pour cela, SKOS définit un certain nombre de classes et de propriétés RDF [15] et peut donc être vu lui aussi comme une application RDF.

25

SKOS partage en partie certains objectifs qui ont motivé la création du langage OWL : représenter de la connaissance sur le web de manière à ce que les machines puissent plus facilement comprendre et manipuler l’information qui y est présente. Si OWL fournit pour cela un modèle logique et orienté objet puissant, la complexité des ontologies à produire peut apparaître bien trop grande au regard des besoins de nombreuses applications. C’est donc pour cette classe d’applications que le modèle SKOS a été créé, tout en restant conforme à la vision du web sémantique. La description d’un schéma conceptuel SKOS reste un graphe RDF qui peut être lié à d’autres données RDF issues du web sémantique.

26

SKOS permet de définir des concepts et de les relier entre eux. Un schéma conceptuel sera décrit en SKOS en utilisant des propriétés identifiantes, descriptives, structurantes ou permettant de gérer des collections.

27

Les propriétés identifiantes (skos:prefLabel, skos:altLabel, skos:hiddenLabel, skos:symbol) permettent d’identifier un concept à l’aide d’une forme lexicale préférentielle, de formes lexicales alternatives, ou même de leur mauvaise orthographe usuelle dans une langue donnée ; il est également possible d’associer un symbole au concept.

28

Les propriétés descriptives (skos:definition, skos:example, skos:scopeNote, skos:historyNote, skos:editorialNote) permettent de définir en langue naturelle un concept dans un certain contexte, à travers des exemples ou de son évolution historique dans une certaine communauté.

29

Les propriétés structurantes (skos:broader, skos:narrower, skos:related) permettent de lier les différents concepts du schéma conceptuel à la manière des relations thésaurales : plus générique, plus spécifique ou lié à.

30

Les propriétés englobantes (skos:member) permettent de spécifier l’appartenance d’un concept à une collection, éventuellement ordonnée.

31

Le modèle SKOS [14] est encore un document de travail qui évoluera sans aucun doute dans un futur proche. Mais, par sa simplicité et ses objectifs – s’affranchir du processus coûteux de construction d’une ontologie formelle en permettant de représenter des schémas simples de connaissance –, il contribue déjà à populariser le web sémantique.

3 - Exemples d’applications

32

L’évolution des applications documentaires vers les technologies du web sémantique est donc de plus en plus manifeste. Dans cette dernière partie, nous en présentons deux exemples qui font appel à ces langages et nous montrons comment ils permettent d’aller au-delà de ce qui est actuellement offert dans les centres de documentation. Dans le premier exemple, il s’agit de décrire une collection d’images représentant des peintures célèbres. Le second exemple est plus complexe puisqu’il s’agit de décrire des documents audiovisuels, donc incluant une dimension temporelle.

Indexation d’une collection de peintures dans un musée

33

Notre premier scénario concerne l’indexation d’une collection de peintures dans un musée d’art tel que le Rijksmuseum (wwww. rijksmuseum. nl/ index.jsp) à Amsterdam. Imaginons, que ce musée ati demandé à une entreprise spécialisée de produire des images numérisées en haute résolution des œuvres les plus importantes de sa collection. L’assurance qualité du musée requiert la possibilité de pouvoir suivre quand, où et par qui chacune de ces numérisations a été effectuée, ainsi que l’équipement qui a été utilisé. Les responsables informatiques du musée qui maintiennent la base de données sous-jacente ont besoin de connaître la taille, la résolution et le format de chacune des images. De plus, les responsables du site web du musée doivent connaître les différentes informations liées aux droits de chacune des œuvres. Les peintures devront finalement être décrites afin que les visiteurs du site puissent naviguer virtuellement dans le musée, non seulement grâce aux titres des œuvres et aux noms des artistes, mais également grâce à un sujet représenté (« coucher de soleil »), à un genre (« autoportrait »), à un style (« post-impressionnisme »), à une période (« fin de siècle ») ou encore à une région (« Europe de l’Ouest »). Ce scénario peut aisément être réalisé en utilisant les technologies du web sémantique [22].

34

L’utilisation conjointe de VRA et de quelques thésaurus spécialisés (représentés en SKOS) permet de satisfaire la plupart des pré-requis énoncés ci-dessus. Par exemple, l’image reproduite en figure 4 représente le Jardin à Sainte-Adresse de Claude Monet, propriété du Metropolitan Museum de New York. La figure 5 donne un ensemble d’assertions RDF décrivant cette peinture. L’ontologie définie par VRA est tout d’abord utilisée pour distinguer l’œuvre physique (la peinture) de sa représentation image (visible dans ce document). Les informations générales sont décrites à l’aide de propriétés VRA, mais elles auraient pu tout aussi bien l’être en utilisant les métadonnées définies par le Dublin Core. Les valeurs de certaines propriétés renvoient également à d’autres vocabulaires contrôlés. Ainsi, Claude Monnet correspond au concept ID:500019484 dans le thésaurus ULAN (Union List of Artists Names) qui pourrait être représenté à l’aide du modèle SKOS. La description de l’image contient d’autres types d’information et est finalement liée à l’œuvre

Figure 4 - Claude Monet, Jardin à Sainte-Adresse. Image de Mark Harden, reproduite avec son autorisationFigure 4
Figure 5 - Description RDF d’une peinture à l’aide de l’ontologie VRA et de divers thésaurus spécialisés pouvant être représentés en SKOSFigure 5

Indexation de données audiovisuelles ou multimédias

35

Notre deuxième scénario concerne l’accès, par le grand public, au patrimoine audiovisuel public. De nombreux organismes (par exemple l’INA) envisagent de fournir un service de vidéo à la demande sur le web pour plusieurs milliers d’heures extraites dans leurs fonds d’archives et correspondant à des émissions diffusées à la télévision ou à la radio et libérées de droits. D’une manière générale, le système technique proposé doit pouvoir faire le lien entre le contenu audiovisuel et sa description qui devient alors la condition sine qua non à son accès. La mise en place de ce service nécessite une représentation de la structure et du contenu du catalogue documentant le fonds disponible, afin qu’un utilisateur puisse l’interroger ou le parcourir.

Un cadre général pour la description des documents

36

La recherche de séquences audiovisuelles particulières ou plus généralement la manipulation du fonds (production de nouveaux documents, thématisation, etc.) s’effectue donc grâce à la description des documents. Actuellement, plusieurs équipes de documentalistes sont chargées de décrire manuellement les émissions diffusées. Ce processus de description documentaire peut se résumer en trois étapes :

  • le catalogage : il s’agit de prendre les éléments objectifs et extrinsèques au contenu d’un document (nom, auteur, producteur, durée, droits, etc.) et de l’identifier à l’intérieur d’une programmation (titre, chaîne et heure de diffusion, etc.) ;

  • le découpage structurel : il s’agit de localiser dans le programme des entités temporelles pertinentes pour une application donnée et de leur apposer un genre audiovisuel et une thématique générale, afin de rendre compte de la structure logique du document ;

  • la caractérisation des segments : il s’agit enfin de décrire le contenu proprement dit des entités repérées à l’étape précédente.

Les langages de structuration documentaire (appartenant à la famille XML) sont généralement utilisés tout le long de ce processus. En effet, souvent bien outillés techniquement, ils permettent en outre de contraindre ou d’exprimer au mieux la structure logique d’un document. L’utilisation de listes d’autorités pour caractériser les genres audiovisuels ou les thématiques générales, de mots clés issus d’un thésaurus et de texte libre pour décrire le contenu vient compléter la liste des outils mis à la disposition des documentalistes. Ces derniers peuvent ainsi, en visionnant les programmes, produire des notices documentaires qui décrivent les documents audiovisuels.

37

Ce cadre de description étant fixé, la recherche de séquences audiovisuelles particulières s’avère parfois difficile, notamment si elle est effectuée par des personnes non-documentalistes, et à plus forte raison non professionnelles de l’audiovisuel. En effet, la description suppose une reformulation du contenu des documents pour une exploitation. Le raisonnement est typiquement une manipulation qui permet, par exemple, de mieux satisfaire les requêtes lors de l’interrogation de la base des descriptions. Cependant, le type de langage utilisé (documentaire), qui restreint les inférences à la seule validation de structure, et l’emploi du texte libre ou de thésaurus pour décrire le contenu, qui empêche de véritablement contrôler la sémantique des descriptions, limitent sérieusement les possibilités de raisonnement. Dès lors, quel langage ou mécanisme faut-il utiliser pour pouvoir raisonner dans les descriptions documentaires ? Nous détaillons dans la suite comment combiner un langage documentaire particulier (MPEG-7) et les langages OWL et RDF pour résoudre ce problème [20].

Utiliser MPEG-7 pour décrire la structure des documents audiovisuels

38

Dès 1996, le Moving Picture Experts Group (MPEG) a souligné la nécessité d’une solution puissante pour identifier et décrire les données multimédias. L’obstacle majeur mis en lumière par le comité était « le manque d’une représentation standard, compréhensible et flexible pour le multimédia ». Pour y remédier, le comité a élaboré la norme MPEG-7 [12]. Ce langage définit la notion d’outils de description multimédia. Dans la terminologie de cette norme, les outils font référence à un ensemble de descripteurs dont les valeurs permettent de décrire des caractéristiques physiques audiovisuelles (couleur, texture, mouvement, etc.), à un ensemble de schémas de descriptions qui permettent d’organiser les descripteurs dans des modèles pour les objets multimédias, et au langage de définition des descriptions (DDL) qui permet d’encoder le tout. Il est à noter que les descripteurs de bas niveau (couleur dominante, mouvement de caméra, spectre sonore, mélodie, etc.) prédominent largement dans la norme car celle-ci a, pour l’essentiel, été élaborée par la communauté de l’analyse automatique et du traitement du signal.

39

Le langage de définition des descriptions est une partie centrale de la norme MPEG-7 puisqu’il fournit les règles syntaxiques pour exprimer et combiner les descripteurs et les schémas de description. C’est le langage XML Schema [19] qui a été retenu comme langage de définition des descriptions pour la norme. Il permet de spécifier la nature et l’organisation des éléments susceptibles d’intervenir dans une instance de document conforme à la classe qu’il est en train de définir. Synthétiquement, XML Schema permet de déclarer les éléments (et leurs attributs) susceptibles d’apparaître dans un document XML en précisant leur ordre et leur arrangement, de différencier les types simples des types complexes (en précisant leurs usages) et de définir ces derniers, de dériver des types existants (par restriction ou par extension) en contrôlant ces dérivations, ou encore de réutiliser des définitions de type ou des déclarations d’éléments grâce au mécanisme des espaces de noms.

Figure 6 - Architecture permettant le raisonnement dans les descriptions documentairesFigure 6
40

L’ontologie de l’audiovisuel permet de formaliser les connaissances structurelles des descriptions. Elle est traduite en types XML Schema pour pouvoir exprimer des modèles de document et est instanciée lors de la description. Enfin, une autre ontologie de domaine, avec les faits qui y sont raccordés, permet d’exprimer la connaissance conceptuelle qui sera liée aux éléments structurels de la description.

41

L’intégration des caractéristiques structurelles et sémantiques est considérée comme la contribution la plus importante du langage MPEG-7. La description structurelle est fondée sur l’idée de segment qui est une portion spatiale, temporelle ou spatio-temporelle du contenu audiovisuel. Un segment se spécialise en différents types utilisables selon le média à décrire (audio, image, vidéo, multimédia). Ces types ajoutent les notions de temps média, qui permet d’obtenir un segment temporellement connecté, et de masque, qui permet de construire des régions et des segments non connectés spatialement ou temporellement. Ils autorisent aussi certaines décompositions (dans le temps, dans l’espace, par média) selon le média auquel ils sont liés, et ils définissent alors les types de résultats issus de ces découpages. La description sémantique, quant à elle, traite du monde dépeint dans le contenu audiovisuel.

42

L’approche adoptée par MPEG-7 est un modèle centré sur l’événement interprété comme un moment où il se passe quelque chose. Les objets, les personnes et les lieux permettent de décrire cet événement ainsi que le temps où il se produit. De plus, ces entités ont des propriétés qui les relient. Enfin, MPEG-7 a laissé la porte ouverte à la création de structures de connaissance très simple, de type thésaurus, à travers les schémas de classification. Ceux-ci permettent de définir des termes et de les organiser grâce à cinq relations : plus spécifique, plus général, est lié à, utilise et est utilisé par. Cependant, ces schémas sont vus comme des ressources externes, utilisables lors de la description pour valuer des entités, mais ils ne peuvent pas être utilisés dans un schéma pour contraindre la structure d’une classe de documents.

43

En première conclusion, nous remarquons tout d’abord que les descripteurs standardisés proposés par MPEG-7 sont de trop bas niveau pour prendre en compte tous les besoins de description (par exemple, ceux du type de l’INA), puisque ceux-ci sont essentiellement liés aux caractéristiques physiques des informations audiovisuelles. Ainsi, pour décrire la structure d’un document, il n’est pas possible, par exemple, de typer les segments selon leur genre audiovisuel (reportage, séquence plateau, interview, etc.) ou selon leur thématique générale (sports, sciences, politique, économie, etc.). De même, pour appréhender le contenu, les descripteurs proposés par cette norme sont encore loin d’être suffisants pour décrire de manière fine une scène particulière.

44

D’autre part, nous constatons qu’il est nécessaire d’exprimer la sémantique de ces descripteurs dans un langage formel et utilisable par la machine pour véritablement permettre la manipulation du contenu multimédia par les machines. Mais nous affirmons que MPEG-7 ne permet pas de jouer ce rôle puisque le langage ne possède pas de sémantique formelle et que la définition des types se restreint aux seuls mécanismes de sous-typage offerts par XML Schema. Ce dernier permet donc d’ajouter de la structure, mais il ne peut pas exprimer sa sémantique.

Figure 7 - Construction de l’ontologie de l’audiovisuel dans l’outil doe. la hiérarchie de concepts y est explicitée et l’ontologie est finalement traduite dans le langage owlFigure 7

Utiliser les langages du web sémantique pour décrire le contenu des documents audiovisuels et la sémantique de MPEG-7

45

La formalisation des descriptions de documents audiovisuels étant une piste pour rendre plus aisée la recherche ou plus généralement la manipulation de ces documents, nous décrivons dans la suite une architecture permettant la construction d’une base de connaissances sur laquelle il est possible d’effectuer des raisonnements tant sur la structure que sur le contenu. Plus précisément, nous montrons comment combiner les langages MPEG-7 et OWL pour produire des descriptions de documents audiovisuels [23] [16]. Cette architecture (figure 6) a comme base une ontologie de l’audiovisuel dont on traduit une partie dans un langage documentaire et la modélisation d’une autre ontologie de domaine pour décrire le contenu. Le découpage temporel d’une émission particulière et la description effective de son contenu génèrent un ensemble de faits qui viennent enrichir une base de connaissances, autorisant ainsi le raisonnement.

46

Le document télévisuel traverse toute une série d’étapes avant d’être capté et archivé. Ainsi, les contenus audiovisuels sont d’abord produits pour être vendus à des diffuseurs qui en font des programmes. Ceux-ci s’inscrivent alors dans une grille des programmes (résultat d’une politique éditoriale) qui se transforme en un flux d’images et de sons qui parvient aux téléspectateurs et à l’INA. L’ontologie de l’audiovisuel commence donc par distinguer l’objet audiovisuel selon la place qu’il occupe dans ce cycle de vie :

  • l’objet de production peut être une séquence ou une émission complète à structure simple ou composite ;

  • l’objet de diffusion permet d’inclure le programme dans une tranche horaire, et de spécifier le statut (première diffusion, multidiffusé, etc.) et le mode de diffusion (direct, duplex, liaison téléphonique, etc.) ;

  • l’objet d’archivage est assimilé à la description du programme et peut s’inscrire dans une collection.

Les objets de production se spécialisent ensuite selon leur genre audiovisuel. Ainsi, le magazine, le journal télévisé ou le best-of, d’une part, et le documentaire, la fiction ou l’émission plateau, d’autre part, spécialisent respectivement les émissions composites et les émissions simples.

47

L’ontologie de l’audiovisuel (figure 7) permet ainsi de normaliser le sens des termes couramment utilisés pour décrire la structure et la mise en forme des documents audiovisuels. Les concepts sont ensuite formalisés et leur sémantique est accessible dans un système informatique. Mais nous avons vu également l’importance de pouvoir représenter et contrôler la structure logique des documents. Le langage des schémas XML ayant été justement élaboré dans ce but, nous proposons de traduire certains concepts de l’ontologie de l’audiovisuel en types XML Schema. La combinaison de ces types, via les primitives de modélisation du langage XML Schema, permet de construire des schémas de description qui contrôleront la description de la structure logique des documents.

Figure 8 - Structure des magazines sportifsFigure 8
Figure 9 - Exemple de description de la structure d’une emission en mpeg-7 etendueFigure 9
Figure 10 - Exemple de triplets rdf/xml construits automatiquement a partir de la description mpeg-7 etendueFigure 10
Figure 11 - L’assertion rdf indiquant que « Sandy Casar est un coureur cycliste qui s’est classe 2E dans la course cycliste à etapes Paris-Nice » est liée a une description de la structure d’une emission tvFigure 11
48

Ainsi, il est possible d’exprimer un schéma général de description pour toute une collection d’émissions. Par exemple, la figure 8 donne la structure des émissions classifiées comme des magazines sportifs. Ce schéma de description indique qu’un magazine sportif commence toujours par une séquence Plateau Début, suivie par un certain nombre de séquences qui sont soit une séquence Séquence Plateau, soit un enchaînement Plateau Lancement, Reportage, et se termine par une séquence Plateau Fin. De plus, la hiérarchie des types conserve la modélisation ontologique du domaine de l’audiovisuel et nous indique donc que les types Plateau Image et Plateau Invite peuvent se substituer au type Séquence Plateau. Finalement, les Reportage peuvent contenir des Interview et des Séquence Extrait.

49

La description d’un document audiovisuel commence par la localisation d’entités d’intérêts. Il s’agit de repérer dans le temps (et l’espace) des segments dont on va caractériser la forme et décrire le contenu. Des outils sont disponibles (par exemple, SegmenTool) pour découper temporellement les émissions et produire un début de description MPEG-7. On spécialise alors les segments obtenus selon leur genre et on leur adjoint une thématique générale grâce aux types construits avec l’ontologie de l’audiovisuel. La description peut refléter la structure logique de l’émission et elle doit être validée par le schéma correspondant à la collection dont elle fait partie. Chaque séquence est alors caractérisée par un intervalle temporel sur le média et définie en termes de genre audiovisuel et de thématique générale dans la description (figure 9). Comme les descripteurs utilisés ont leur correspondance dans l’ontologie de l’audiovisuel, nous pouvons engendrer des instances des concepts de cette ontologie. La figure 10 donne un exemple d’assertion RDF construite automatiquement à partir de la description MPEG-7 précédente et indiquant qu’il existe une interview de Sandy Casar dans un reportage de l’émission Stade2.

50

Nous venons de voir comment le découpage temporel d’un programme particulier fournit l’instanciation de la structure de la description et par conséquent les connaissances assertionnelles liées au domaine de l’audiovisuel. Nous pouvons utiliser les mêmes mécanismes pour décrire le contenu proprement dit de chacune des séquences, ce qui constitue la phase d’annotation des documents. Nous pouvons modéliser une ontologie pour un sport particulier, le cyclisme, pour décrire les émissions traitant de ce sport (Tour de France, magazine sportif, journal télévisé, etc.). Par exemple, la figure 11 indique que « le coureur cycliste Sandy Casar est désormais classé 2e du classement général de la course Paris-Nice » et que cette assertion est liée – via une relation XPATH – à un segment particulier de la description du document audiovisuel.

51

L’ensemble des assertions engendrées a donc une traduction immédiate en triplets RDF qui viennent alimenter une base de connaissances sur laquelle on peut effectuer des inférences. Ainsi, il est désormais possible de retrouver « toutes les séquences audiovisuelles décrites comme étant de genre interview, dont la durée est supérieure à 30s, et dont l’interviewé est un coureur cycliste figurant sur le podium d’une course cycliste à étape ». Pour répondre à cet exemple complexe, la machine pourra inférer, grâce aux connaissances ontologiques, que « être sur un podium » revient à avoir terminé dans les trois premiers de la course au classement général. Elle pourra en outre calculer la durée des séquences audiovisuelles grâce à la donnée des index temporels de début et de fin exprimée dans la description de la structure de chaque émission. La machine pourra donc retourner la séquence décrite dans la figure 11 puisque « Paris-Nice » est bien une course cycliste à étapes et que « Sandy Casar » est bien un coureur cycliste.

Conclusion

52

Le web sémantique n’est pas encore un accomplissement. Cependant les technologies permettant de le construire (RDF, OWL) se mettent en place. Nous avons vu que leur utilisation dans le cadre de l’indexation documentaire, la recherche d’information était naturelle et envisageable. Nous avons aussi présenté certaines ressources simples et pratiques (Dublin Core, VRA, SKOS) aidant la diffusion de l’information ainsi que sa collecte automatique. Enfin, l’intérêt d’utiliser ces techniques dans le cadre d’indexation de documents audiovisuels a été montrée.

53

Les maîtres mots de ce web sémantique sont sémantique, distribution, ouverture et partage. La sémantique permet une plus grande précision dans les requêtes et les réponses ; l’ouverture permet l’échange et le partage de ressources toujours plus complètes et toujours plus précises.

54

Si les fournisseurs de ressources documentaires parviennent à s’accorder pour implémenter ce partage comme d’autres communautés ont su le faire sur le web, la tâche de collecte s’en trouvera simplifiée au bénéfice de tout le monde.

55

R. T.


Références

  • 1 –  Bruno Bachimont. Engagement sémantique et engagement ontologique : conception et réalisation d’ontologies en ingénierie des connaissances. In : Ingénierie des connaissances : évolutions récentes et nouveaux défis. Eyrolles, 2000
  • 2 –  Dave Beckett, Eric Miller, Dan Brickley. Expressing simple Dublin Core in RDF/XML. 2002. http:// dublincore. org/ documents/ dcmes-xml/
  • 3 –  Dave Beckett, ed. rdf/xml Syntax Specification (Revised). W3C Recommendation, 2004. www. w3. org/ TR/ rdf-syntax-grammar
  • 4 –  Tim Berners-Lee, Roy Fielding, Larry Masinter. Uniform Resource Identifiers (URI): Generic Syntax. Request for Comments 2396, IETF, 1998. www. ietf. org/ rfc/ rfc2396. txt
  • 5 –  Tim Berners-Lee, Jim Hendler, Ora Lassila. The Semantic Web. Scientific American, 2001, 284(5)
  • 6 –  Michael Brodie, John Mylopoulos, Joachim Schmidt, ed. On Conceptual Modelling: Perspectives from Artificial Intelligence, Databases and Programming Languages. Springer Verlag, 1984
  • 7 –  Pierre-Antoine Champin. RDF tutorial. 2000. www710. univ-lyon1. fr/ champin/ rdf-tutorial/
  • 8 –  Jean Charlet, Philippe Laublet, Chantal Reynaud, éd. Web sémantique. Rapport final de l’action spécifique 32, CNRS. 2003. http:// rtp-doc. enssib. fr/ basedoc/ rapports/ ASWebSemantique2003. pdf
  • 9 –  Mike Dean, Guus Schreiber, ed. OWL Web Ontology Language: Reference. W3C Recommendation, 2004. www. w3. org/ TR/ owl-ref/
  • 10 –  Dublin Core Metadata Initiative. Dublin Core Element set, Version 1.1: reference description (revised version). DCMI, 2004. http:// dublincore. org/ documents/ dces/ Trad. française : wwww-rocq. inria. fr/ vercoust/METADATA/DC-fr.1.1.html
  • 11 –  Jérôme Euzenat, Raphaël Troncy. Web sémantique et pratiques documentaires. In : Publier sur Internet, séminaire Inria. ADBS Éditions, 2004.
  • 12 –  Iso/Iec. Information Technology - Multimedia Content Description Interface. Norme ISO/IEC n° 15938, 2001
  • 13 –  Frank Manola, Eric Miller, ed. Resource Description Framework (RDF) Primer. W3C Recommendation, 2004. www. w3. org/ TR/ rdf-primer/
  • 14 –  Alistair Miles, Dan Brickley, ed. SKOS Core Guide. W3C Working Draft, 2005. www. w3. org/ TR/ swbp-skos-core-guide/
  • 15 –  Alistair Miles, Dan Brickley, ed. SKOS Core Vocabulary Specification. W3C Working Draft, 2005. www. w3. org/ TR/ swbp-skos-core-spec/
  • 16 –  Frank Nack, Jacco van Ossenbruggen, Lynda Hardman. That Obscure Object of Desire: Multimedia Metadata on the Web (Part II). IEEE Multimedia, 2005, 12(1)
  • 17 –  Andy Seaborne. VRA Core 3.0 conversion in RDFS. The SIMILE Project. 2003. hhttp:// simile. mit. edu/2003/10/ontologies/vraCore3
  • 18 –  Steffen Staab, Rudi Studer, ed. Handbook of ontologies. Springer Verlag, 2004
  • 19 –  Henry Thompson, David Beech, Murray Maloney, Noah Mendelsohn, ed. xml Schema part 1: structures. w3c Recommendation, 2001. www. w3. org/ TR/ XMLschema-1
  • 20 –  Raphaël Troncy. Formalisation des connaissances documentaires et des connaissances conceptuelles à l’aide d’ontologies : application à la description de documents audiovisuels. Thèse de doctorat, Grenoble, Univ. Joseph-Fourier, 2004
  • 21 –  Mark van Assem. VRA Core 3.0 conversion in RDFS. 2005. www. w3. org/ 2001/ sw/ BestPractices/ MM/ vra-conversion. html
  • 22 –  Jacco van Ossenbruggen, Raphaël Troncy, Giorgos Stamou, Jeff Z. Pan, ed. Image annotation on the Semantic Web. W3C Working Draft, 2006
  • 23 –  Jacco van Ossenbruggen, Frank Nack, Lynda Hardman. That Obscure Object of Desire: Multimedia Metadata on the Web (Part I). IEEE Multimedia, 2004, 11(4)
  • 24 –  Visual Resource Association Data Standards Committee. VRA Core Categories. Version 3.0. 2002. www. vraweb. org/ vracore3. htm

Résumé

Français

Le web sémantique constitue à présent un cadre de référence pour concevoir des outils et des méthodes permettant d’instrumenter les documents pour les publier, les transmettre et les exploiter sur le web. Raphaël Troncy présente d’abord les technologies et outils du web sémantique actuellement disponibles (langages RDF et OWL, ontologies) pour montrer ensuite comment ils peuvent s’intégrer à un processus documentaire dans le contexte audiovisuel et comment se traduisent concrètement leurs innovations récentes. Il expose enfin deux exemples d’applications documentaires recourant à ces technologies : l’indexation d’une collection de peintures et l’indexation de données audiovisuelles ou multimédias.

Plan de l'article

  1. 1 - Les technologies du web sémantique
    1. Produire des descriptions
    2. Un graphe à l’échelle du monde
    3. Modéliser son domaine
  2. 2 - Évolution des outils et pratiques documentaires vers le web sémantique
    1. Dublin Core
    2. Visual Resource Association (VRA)
    3. Simple Knowledge Organisation System (SKOS)
  3. 3 - Exemples d’applications
    1. Indexation d’une collection de peintures dans un musée
    2. Indexation de données audiovisuelles ou multimédias
      1. Un cadre général pour la description des documents
      2. Utiliser MPEG-7 pour décrire la structure des documents audiovisuels
      3. Utiliser les langages du web sémantique pour décrire le contenu des documents audiovisuels et la sémantique de MPEG-7
  4. Conclusion

Pour citer cet article

Troncy Raphaël, « Nouveaux outils et documents audiovisuels : les innovations du web sémantique », Documentaliste-Sciences de l'Information, 6/2005 (Vol. 42), p. 392-404.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2005-6-page-392.htm
DOI : 10.3917/docsi.426.0392


Article précédent Pages 392 - 404 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback