Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2006/2 (Vol. 43)

  • Pages : 86
  • DOI : 10.3917/docsi.432.0136
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 136 - 142 Article suivant
1

UNE PREMIÈRE INTERVENTION A RAPPELÉ LES ASPECTS THÉORIQUES de la numérisation de l’image et présenté une approche prospective des pratiques documentaires de demain illustrées par quelques exemples de productions actuelles. L’exposé suivant a permis de faire le tour de la question et de donner les précisions utiles à la bonne compréhension du sujet tant par les définitions que par la description des usages des métadonnées pour les images fixes. Une troisième communication a successivement abordé les différents aspects de l’indexation et de la recherche dans des bases d’images, indexation et recherche qui s’appuient sur la combinaison constante de l’image et du texte. Une dernière intervention a proposé un rappel général de l’état de l’art en matière d’indexation des documents musicaux.

2

Les présentations de diverses expérimentations ont complété ces exposés : l’outil de recherche d’images NewPhenix Picture, un autre projet dont l’objectif est d’étudier l’utilisation de la transcription automatique de la parole comme outil d’aide à la description des documents sonores, et le projet européen Semantic Hifi.

Nouvelles pratiques, métadonnées et patrimoine audiovisuel : de l’indexation à l’éditorialisation

3

La tendance du numérique est de fragmenter et de recomposer, les seules contraintes étant celles liées à la possibilité calculatoire et à l’adressage en mémoire. Ce qui se traduit par une discrétisation des contenus, ramenés à un ensemble fini d’entités élémentaires (vides de sens), et par la manipulation de cet ensemble par une machine en vue d’usages particuliers. On retrouve ici le concept de grammatisation développé par Jacques Derrida et Bernard Stiegler, « décomposition et structuration des contenus du fait de leur matérialisation technique » et le constat qui en découle : l’influence du support technique sur le contenu, qui n’est jamais indépendant de la technique, ce qui fait que les nouvelles techniques d’écriture modifient le regard qu’on peut porter sur les contenus [voir le numéro de décembre 2005 de Documentaliste-SI, vol. 42, n° 6, p. 348-353 et 354-360].

4

Après l’approche théorique, le point de vue documentaire : « En quoi la numérisation de l’image et du son va-t-elle modifier l’activité documentaire ? » Alors que l’indexation documentaire avait tendance à refléter la structure et le contenu du document initial, la fragmentation numérique rompt le lien avec ce document initial. Le traitement documentaire cherche alors à rendre possibles les publications futures : il tend maintenant à reconfigurer l’origine pour l’usage au lieu de rendre compte de l’origine du document dans les termes de l’usage.

Le programme de la journée et les intervenants

Nouvelles pratiques, métadonnées et patrimoine audiovisuel : de l’indexation à l’éditorialisation, par Bruno Bachimont, directeur scientifique de la direction Recherche et expérimentation de l’Institut national de l’audiovisuel (INA) et enseignant-chercheur à l’Université de technologie de Compiègne

Les métadonnnées pour l’image fixe, par Patrick Peccatte, Soft Experience

Les principes de l’analyse de l’image et de la recherche par similarité visuelle, par Christian Fluhr, responsable du Laboratoire d’ingénierie de la connaissance multimédia multilingue (LIC2M) du Commissariat à l’énergie atomique / Laboratoire d’intégration des systèmes et des technologies (CEA/LIST)

Présentation de la technologie NewPhenix et démonstration sur une base contenant 100 000 photos, par Joël Huberson, NewPhenix

Transcription automatique des documents sonores : une aide à la documentation de l’audiovisuel, par Laurent Vinet, chargé de projet à la direction Recherche et expérimentation (Groupe de recherches audiovisuelles et multimédias) de l’INA

Les applications de traitement des documents sonores, et Présentation du projet européen Semantic Hifi de l’IRCAM, par Hugues Vinet, directeur scientifique de l’Institut de recherche et de coordination acoustique/musique (IRCAM, Centre Georges-Pompidou), coordinateur du projet SemanticHifi

Quelles évolutions pour les métiers ? Par Jean-Yves de Lépinay, Forum des Images, Paris

5

On passe ainsi de la fidélité au document à l’offre d’usages multiples. Il en résulte une fragmentation des contenus pour une multiplication des usages. Avec, en amont, une virtualisation et une dislocation des contenus : les repères habituels disparaissent, le numérique associe les informations nécessaires et l’adresse. Et, en aval, une reconfiguration multi-supports, multi-formats, multi-usages, multi-éditoriale (télévision, téléphonie mobile, Internet, DVD, etc.). Cela revient à passer d’une organisation physique des contenus à une modélisation logique, avec la complexité des interfaces et des modèles de représentation. Il faut surmonter l’arbitraire de la fragmentation numérique et de l’accès aléatoire (que faut-il retrouver : un octet, un pixel ?). Il est donc nécessaire de développer à la fois modèle(s) d’indexation et modèle(s) d’usage.

De l’indexation aux métadonnées

6

Le travail documentaire actuel et à venir consiste à caractériser ce que l’on voit et/ou entend, à le structurer pour permettre l’accès le plus rapide possible au contenu recherché (avec un modèle à créer pour cette structuration), et à utiliser ce que l’on sait (ajouter les connaissances que l’on a). On passe ainsi du signal au contenu culturel : il faut repérer, transcrire, représenter les connaissances (avec un modèle de représentation de la visualisation). Il s’agit d’un travail d’interprétation.

7

Il s’agit donc d’une manipulation des informations et d’une reconfiguration du travail documentaire, avec passage des index aux métadonnées et création d’une information sur le contenu qui rend celui-ci exploitable. Traditionnellement, l’index pointe vers le document pertinent pour l’usage visé, l’objectif étant de retrouver des documents ou contenants de l’information recherchée, tels qu’ils sont. Maintenant les métadonnées donnent une information sur l’exploitation de l’information, elles permettent de pointer sur une partie arbitraire du contenu, l’objectif étant de sélectionner un segment, de le transformer pour l’exploiter. En d’autres termes, elles servent à sélectionner des ressources pour créer de nouveaux contenus

8

Et ce que l’on appelle document tend à n’être plus que le « contenant » d’origine à partir duquel on peut extraire des fragments, qui sont des ressources : leur sens viendra des conditions de leur exploitation et de leur utilisation. La cohérence du document d’origine n’est plus constitutive du contenu de la ressource.

Une mutation professionnelle : le travail documentaire passe de l’indexation à l’éditorialisation

9

L’objectif est de trouver des ressources pour créer de nouveaux contenus en recontextualisant chaque fragment utile dans son nouvel environnement (ce fragment étant extrait de son contexte d’origine). Cette recontextualisation peut se faire selon deux approches :

  • une approche généalogique : la ressource sélectionnée est enrichie pour être resituée dans son contexte d’origine ; le travail éditorial consiste à publier le travail documentaire (démultiplication des publications) ;

  • une approche amnésique : la ressource sélectionnée est enrichie dans un nouveau contexte oublieux de l’ancien ; le travail éditorial est une création en coupure avec le travail documentaire effectué sur la ressource.

La documentation ne consiste donc plus à documenter mais à éditer des ressources qu’il faut enrichir à plusieurs niveaux. L’enrichissement éditorial est un travail généraliste qui renvoie à une compétence documentaire (travail anonyme) ; l’enrichissement expert est un travail spécialisé renvoyant à la compétence scientifique et à l’autorité académique (travail signé).

10

La numérisation du système technique audiovisuel achevée, il reste à déployer ce système. Le besoin technique se concentre sur les systèmes de repurposing : un même contenu doit être démultiplié sur des cibles multi-usages, multi-supports, multi-formats. Cette démultiplication n’est pas seulement technique, mais éditoriale. La création de contenus peut se faire avec plusieurs corps de métiers mêlant des compétences éditoriales propres au support, des contenus disciplinaires et des compétences documentaires qui permettent une recontextualisation fidèle utilisant le patrimoine tout en le respectant.

11

Dans l’objectif du développement d’un éditorial de masse, deux étapes fonctionnent déjà : la description et l’indexation de grands volumes de documents (documentation de masse), et la création d’un contenu ou d’une série limitée de contenus avec les conditions esthétiques, techniques et éditoriales requises (éditorial sur mesure de type artisanal). La troisième étape sera la description et l’enrichissement de grands volumes de ressources pour les utiliser et les éditer dans de nouveaux contextes (éditorial de masse). Il est alors nécessaire de documenter la recontextualisation, d’enrichir les fragments pour les rendre lisibles et les intégrer dans leur nouveau contexte (en évitant la contextualisation « amnésique »).

12

Et Bruno Bachimont de conclure : « Si les outils numériques impliquent une déqualification documentaire, ils suscitent de nouveaux besoins et une requalification éditoriale de la documentation. »

13

Arlette Boulogne

La technologie NewPhenix

La société NewPhenix propose un outil innovant de recherche d’images qui s’appuie sur le LIC2M du CEA, avec lequel elle a une licence exclusive de diffusion mais également un accord de R&D qui lui permet de demander des développements pour répondre aux besoins de ses clients. Cet outil comprend trois modules : un module d’analyse du contenu pixélique de l’image et d’indexation, un autre de recherche par similarité visuelle et un troisième de clustering qui permet de construire des sous-ensembles homogènes sur le plan visuel. NewPhenix Picture est capable d’assurer des fonctions de veille, de gestion et d’exploitation d’un fonds d’images numériques mais aussi de traitement des courriels ou de traitement automatique de documents ou de contenus.

Les technologies utilisées pour l’analyse de l’image sont celles exposées par Christian Fluhr [voir page XXX]. Elles offrent des fonctions de recherche d’image par des images similaires. Elles permettent de caractériser une image en fonction de ses propriétés essentielles que sont la couleur, la texture et la forme. Cette démarche conduit à la définition d’une « signature numérique de l’image ».

L’outil de NewPhenix utilise également les traitements linguistiques : il réalise une analyse du texte descriptif des images (mots clés et légendes) et il opère un traitement des requêtes. L’outil linguistique effectue une analyse morphologique et une analyse syntaxique des textes, qui permettent de lever automatiquement certaines ambiguïtés comme la distinction entre une chaîne de caractères qui peut être un nom ou un verbe (par exemple « marche »).

Le traitement des requêtes permet non seulement à l’utilisateur de poser sa question en langue naturelle, mais aussi de la poser dans la langue qui lui convient (aujourd’hui : français, anglais et espagnol, mais l’allemand et l’italien sont en cours de mise au point). Les techniques de « crosslinguisme » permettent par exemple de poser une question en anglais sur des légendes écrites en français.

L’ambiguïté des termes polysémiques peut être levée grâce à l’interface qui propose à l’utilisateur de préciser le sens de sa question. Ainsi lors d’une requête sur le terme « grue », le système proposera le choix entre grue (oiseau) et grue (équipement) ; l’utilisateur obtiendra alors les images correspondant à sa sélection. Les polysémies ne sont pas les mêmes d’une langue à une autre. Ainsi le mot « glace » peut en français être un dessert, un miroir ou un élément naturel : le système proposera de choisir comme ci-dessus. Par contre, une interrogation sur « ice », mot anglais non polysémique, donnera immédiatement les images correspondantes.

Ces solutions permettent de donner accès à des bases d’images en ligne et facilitent leur utilisation par des internautes qui pratiquent des langues variées.

Claudine Masse

claudine. masse@ adbs. fr

Les métadonnées pour l’image fixe

15

Une métadonnée est un ensemble structuré de données décrivant une ressource telle que livre, article, image, vidéo, document audio, etc. Elle peut être utilisée pour la description et la recherche de documents, pour leur préservation et la gestion de collections de ressources. Les métadonnées peuvent être externes aux ressources ou internes : elles peuvent se trouver dans une base de données ou un fichier indépendant associé aux données ou bien se situer dans les données elles-mêmes (métadonnées « embarquées »), ce qui facilite les échanges mais oblige en revanche à copier ces métadonnées dans une base de données pour exploiter une grande collection de ressources numériques.

16

Il existe deux types de métadonnées :

  • celles qui correspondent aux paramètres techniques de prise de vue et aux réglages de l’appareil : format EXIF (Exchangeable Image File) développé en octobre 1995 (version 2.1 en juin 1998) par le JEIDA (Japan Electronic Industry Development Association). Ces données sont fournies automatiquement par un appareil de prise de vue numérique ;

  • les métadonnées sémantiques : IPTC-NAA Information Interchange Model (IIM), modèle global de données pour la presse, défini par l’IPTC (International Press and Telecommunications Council) et la NAA (Newspaper Association of America) en 1991 (dernière version, 4.1, de juillet 1999). Ce modèle a servi de base à la société Adobe pour intégrer ces informations associées à l’image dans le logiciel Photoshop. Pour être renseignées, ces données nécessitent l’intervention d’un opérateur humain.

IPTC/IIM est ainsi constitué de trente-trois métadonnées de type interne, c’est-à-dire stockées à l’intérieur des fichiers images. Si les bénéfices de l’utilisation de l’IPTC/IIM ne sont plus à démontrer, ce modèle de données comporte par contre des inconvénients majeurs : certains champs devenus obsolètes (en raison des différentes versions du standard) sont cependant toujours utilisés ; la longueur des champs est limitée ; la présence de caractères accentués dans les légendes peut poser des problèmes (sur Mac) ; la structure est figée en trente-trois champs, de sorte que le jeu d’informations est fermé et non extensible de manière standard ; enfin ce modèle est inadapté aux descriptions multilingues.

17

C’est pourquoi s’est développé un nouveau standard, XMP, plus souple et plus adaptable aux divers utilisateurs. Il s’appuie sur le Dublin Core, ensemble de quinze éléments de métadonnées portant sur le contenu, la propriété intellectuelle et la version (date, format, langue) d’un document. Créé en septembre 2001 par Adobe, il utilise une version simplifiée de RDF et une technologie XML définie par le W3C pour décrire la sémantique des ressources. Il est extensible et permet à l’utilisateur de définir ses propres schémas de métadonnées.

18

XMP définit un mécanisme appelé XMP Packet, supporté par toutes les applications Adobe récentes et par de nombreux éditeurs, et qui permet d’encapsuler les métadonnées XMP dans les fichiers des applications. Les métadonnées sont alors internes. Enfin, un mécanisme d’aliasing permet de mettre en correspondance des métadonnées définies dans plusieurs schémas indépendants (par exemple : « pdf : Author » et « dc : Creator » sont équivalents et la métadonnée correspondante est stockée une seule fois).

19

L’exemple de l’utilisation de XMP par le musée du Louvre illustre la possibilité de créer un schéma de métadonnées spécifique à un fonds.

20

Le modèle XMP rassemble donc de multiples avantages par rapport aux métadonnées IPTC/IIM : il est extensible et évolutif, avec une extensibilité documentée et des types de données structurées ; il gère les caractères accentués (codage Unicode) et il est adapté aux légendes multilingues.

21

Plus récemment, un nouveau schéma XMP appelé IPTC Core a été défini pour faciliter la transition de la technologie IPTC/IIM vers la nouvelle technologie XMP. IPTC Core comporte la fourniture de quatre custom panels IPTC pour la gestion des informations XMP dans Photoshop CS : IPTC Contact, IPTC Content, IPTC Image et IPTC Status. Le schéma XMP IPTC Core est le successeur de l’IPTC/IIM depuis mars 2005 ; c’est une norme qui commence à émerger…

22

Dominique Ménillet

La transcription automatique des documents sonores

Un projet en cours d’expérimentation à l’INA vise à utiliser la transcription automatique de la parole comme outil d’aide à la description des documents sonores. Le principe de la transcription automatique d’un document sonore consiste à appliquer à celui-ci deux processus successifs : segmenter le document en parole/non parole puis, sur les zones de parole, opérer la transcription proprement dite (transformer le signal sonore en un texte aligné sur le document).

Pour fonctionner, ces systèmes ont besoin d’une phase d’apprentissage qui leur permet d’acquérir des modèles de ce qu’ils devront reconnaître. Ces modèles sont principalement :

  • un modèle acoustique permettant au système d’apprendre à reconnaître les phonèmes de la langue cible (une trentaine pour le français). L’apprentissage consistant à lui fournir pour chaque phonème une grande quantité d’échantillons sonores le représentant (la prononciation variant d’un locuteur à l’autre, etc.) ;

  • un lexique (dictionnaire) : c’est l’ensemble des mots que le système sera capable de reconnaître (par assemblage de phonèmes). L’ordre de grandeur de ce lexique est de 65 000 mots ;

  • un modèle de langage qui donne une probabilité d’occurrence d’une suite de mots (en général de deux à quatre). Ces probabilités étant apprises sur de grandes quantités de textes écrits (archives du journal Le Monde par exemple) et/ou parlés (transcription manuelle de documents sonores).

Au sein de l’INA, cette expérimentation, menée avec les services opérationnels, tend à mettre en place des outils destinés à accélérer le processus de description documentaire des documents radio et à en réduire le coût, et, d’un point de vue ergonomique, à améliorer les méthodes de travail. Ainsi, la transcription intégrale des documents radio permet une recherche plein texte dans une base de transcriptions indexées dont chaque mot est « time codé » (rechercher dans le texte est équivalent à rechercher dans l’audio).

Utilisée comme outil de navigation, la transcription facilite la découverte et la description du document radio : le documentaliste audiovisuel pourra avoir une vue globale de la temporalité du document, poser des marqueurs sur les parties les plus intéressantes de celui-ci, écarter les parties de document non pertinentes pour la documentation, copier du texte de la transcription vers les champs de la notice documentaire.

Au stade présent de l’expérimentation, il reste à évaluer la capacité à transcrire les entités nommées (transcription automatique), à mettre au point un protocole d’évaluation pour quantifier les oublis (moteur d’indexation et interface de recherche), et à mettre en place un système d’évaluation de l’application (interface de description).

Hortensia Pappano

hpappano@ ina. fr

Les principes de l’analyse de l’image et de la recherche par similarité visuelle

24

Au sein du Laboratoire d’intégration des systèmes et des technologies du Commissariat à l’énergie atomique (CEA/LIST), le Laboratoire d’ingénierie de la connaissance multimédia multilingue (LIC2M), créé par Christian Fluhr, mène des recherches sur les technologies linguistiques multilingues et sur le traitement de l’information véhiculée par les images fixes ou animées. Ces deux axes de recherche – traitement du texte et traitement de l’image – permettent une fertilisation croisée. Le LIC2M travaille également sur le traitement de l’information véhiculée par la parole, en collaboration avec le Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (LIMSI) du CNRS, sur le traitement de la musique et autres sons, en collaboration avec l’Institut de recherche et coordination acoustique/musique (IRCAM) du centre Pompidou, et sur le traitement coopératif entre médias.

Caractérisation de l’image et recherche par similarité visuelle

25

L’image est caractérisée par des « indexeurs » ou « descripteurs visuels » de trois types : texture, couleur et forme. Cette caractérisation se fait à partir d’une analyse globale et d’une analyse locale de l’image (découpage en sections ou identification des points significatifs). L’ensemble des caractéristiques de l’image ainsi indexée en constitue la signature. Lors d’une recherche à partir d’une image, sa signature est comparée avec celles de la base de données. Le système fait alors apparaître les images les plus ressemblantes.

26

Pour la couleur, les indexeurs ou descripteurs visuels consistent en onze noms de couleurs (vert, gris, rose, etc.), quatre nuances (clair, foncé, etc.) et trente-sept teintes. L’analyse de la texture d’une image se fonde sur les micro-variations qui existent dans l’intensité et les couleurs et sur la répétition de micro-motifs identiques. Pour les formes, domaine où la recherche est moins avancée, le moteur s’appuie actuellement sur l’analyse des silhouettes, tout en poursuivant son évolution vers la reconnaissance d’objets.

27

La recherche dans une base d’images peut être paramétrée pour ne porter que sur une ou deux des catégories d’indexeurs visuels. Les exemples et démonstrations présentent ainsi des recherches fondées sur la combinaison texture et couleur (sans les formes) ou sur un seul des trois éléments : texture, couleur ou forme. On notera également que l’outil de recherche permet de formuler des requêtes par mots clés, l’utilisateur s’appuyant alors sur les résultats obtenus pour rebondir sur une recherche par similarité visuelle.

Catégorisation automatique d’images

28

Les images d’une base ou celles qui résultent d’une requête par mots clés peuvent être catégorisées automatiquement en classes de ressemblance ou « clusters ». Cette opération s’appuie toujours sur le principe d’identification des textures, couleurs et formes. Un exemple a été présenté, qui montre des images réparties en trois classes selon leur proximité visuelle : une classe de voitures détourées, une classe de groupes de personnes et une classe de voitures en contexte, sur une route et dans un paysage.

29

À l’intérêt de la classification des images par proximité visuelle s’ajoute celui de l’apprentissage des mots clés : l’image d’une voiture détourée sera indexée par « voiture » et ce mot clé va se propager vers toutes les photos de la même classe, permettant ainsi au système d’apprendre ce qu’est une voiture.

Collaboration texte-image et génération automatique de descriptions d’images

30

Le moteur génère automatiquement des descriptions d’images en langage naturel, qui comportent les indexeurs de base et les mots clés résultant de l’apprentissage. Par exemple : « Photo de dimension 384 par 307 pixels. Le fond de cette image est noir. Elle est composée de trois objets. Cette image a pour thème principal jouet. L’objet principal est un nounours beige qui se trouve à gauche de la photo. Nous distinguons au centre une balle verte et blanche. Nous notons un cube multicolore à droite. » (On remarquera en outre dans cet exemple que le système a appris que les objets « nounours », « balle » et « cube » sont des jouets, constituant ainsi les bases d’un dictionnaire d’objets.)

31

En description automatique d’images, on distingue les cas simples (objets bien visibles) des cas complexes (scènes d’extérieur ou d’intérieur, par exemple). La description d’images complexes nécessite la génération automatique d’attributs s’appliquant aux images. Ces attributs s’organisent en arborescences à plusieurs niveaux de complexité croissante. Le premier niveau est la nature de l’image (photo ou dessin, noir et blanc ou couleur), puis viennent son contexte (intérieur/extérieur) et enfin plusieurs niveaux sur ses thèmes (par exemple, pour l’extérieur : paysage ou ville ; puis, pour paysage : plage, forêt, montagne ; et ainsi de suite).

32

La reconnaissance et la description automatiques d’images complexes passent aussi par la segmentation de l’image en régions ou zones et par la constitution de bases de dictionnaires, voire d’ontologies. Chaque zone de l’image est caractérisée par sa position, sa couleur et sa texture. À partir de cette mémorisation sont créés les dictionnaires qui permettent de nommer le contenu des zones. Par exemple, telle couleur combinée avec telle position et telle texture donnera tel élément (eau, ciel ou herbe). Les dictionnaires sont ensuite mis en œuvre pour la description d’autres images.

Reconnaissance des visages

33

Le CEA/LIST travaille également sur les visages à l’aide de plusieurs technologies. Il utilise d’abord celles fondées sur la localisation des yeux et du contour du visage et sur l’indexation de la texture des « traits de visage caractéristiques ». Ces approches non biométriques sont suffisantes pour des volumes relativement restreints de visages, comme le montre le résultat d’une identification sur quatre mille portraits de face. Il utilise, en outre, une technique d’indexation biométrique qui permet la génération automatique de descriptions de visages en s’appuyant sur les éléments caractéristiques des individus représentés (yeux, lunettes, bouche et menton, barbe, etc.). Enfin, le CEA/LIST pilote un projet de recherche relatif à la sécurité (« Threat Detection »), où il intervient plus particulièrement sur la reconnaissance des visages : analyse de visages, création de la signature des visages et comparaison des signatures. Exemple d’application en sécurité aérienne : comparaison de la signature du visage du propriétaire d’un bagage – « taguée » au bagage – avec la signature du visage de la personne arrivant à un contrôle avec ce même bagage.

D’autres projets de recherche

34

Un des programmes en cours consiste à évaluer les différentes technologies actuellement utilisées pour l’indexation automatique de l’image. Dans le cadre du programme Technovision, le CEA/LIST a mis en place des campagnes de tests comparatifs, avec la participation d’équipes françaises et européennes (projet Imageval). Ces tests portent sur la reconnaissance d’objets, l’interprétation des parties écrites des images, la recherche d’images par leurs attributs ou encore la détection de toutes les images issues de la transformation d’une image donnée (protection des droits).

35

Le second est le projet Ontoimage de constitution automatique d’ontologies. En effet, le CEA/LIST compte créer, au sein d’une coopération internationale, une ontologie associant informations pixeliques et informations sémantiques. Cette ontologie permettra d’associer des noms d’objets à leurs différentes représentations-images, d’établir des relations sémantiques entre les objets et enfin d’extraire les caractéristiques communes aux objets de même nom et les caractéristiques discriminantes entre objets de même nom et autres objets. Elle utilisera le web comme principale source de connaissance.

36

Marie-Berthe Jadoul

Indexation des documents musicaux et applications

38

Avant la présentation du projet SemanticHifi, un rappel général a été proposé de l’état de l’art en matière d’indexation des documents musicaux : définitions des métadonnées musicales et exemples d’applications d’indexation audio (bases de données d’enregistrements, systèmes de vente en ligne, segmentation parole/musique, identification du locuteur, protection, surveillance du piratage, manipulation et production du contenu).

39

En matière de description musicale pour les fonctions de navigation inter et intra document, il faut distinguer les descriptions objectives et, parmi elles, les descriptions manuelles (informations éditoriales, données de production) de celles qui sont automatisées (tempo, intensité, couleur orchestrale, structures temporelles, analyse harmonique, répétitions et variations de motifs) ; puis les descriptions subjectives (genres musicaux, proximité culturelle, toutes formes d’annotations personnalisées et de liens hyperdocuments).

40

Il existe différents types d’extraction automatique : analyse spectrale (fréquence fondamentale simple et multiple, analyse de tonalité, de mode) ; analyse temporelle ou segmentation (alignement de partition à partir du signal, suivi de partition, mélodies monophoniques, niveau intra-note) ; extraction de structures composites (extraction mélodique, transcription polyphonique, séparation de sources mixées) ; caractérisation (empreintes digitales, classification automatique à partir de catégories de haut niveau, identification de sources).

Le projet européen SemanticHifi

41

Programme IST (sciences et technologies de l’information) financé par la Commission européenne, ce projet regroupe un consortium européen associant des laboratoires de recherche : Ircam (France) qui assure la coordination et gestion du projet, Sony CSL (France), Université Pompeu Fabra (Espagne), Fraunhofer Institut IDMT (Allemagne), Université Ben Gourion (Israël), et des industriels : Native Instruments (Allemagne, leader mondial des logiciels pour DJ) et Sony European Technology Center (Allemagne).

42

Ce projet vise à développer une nouvelle génération de systèmes de haute fidélité, dotés de capacités de stockage permettant la gestion de dizaines de milliers de morceaux et offrant des fonctionnalités pour la navigation, l’interaction, le rendu, la personnalisation et l’édition du matériel musical.

43

SemanticHifi prévoit la réalisation d’outils de classification personnalisée qui analyseront automatiquement les contenus musicaux, autorisant différentes heuristiques de navigation entre morceaux : recherche par artiste, par genre, par chantonnement, par similarité musicale avec un morceau donné, génération automatique de listes de morceaux définies par des critères globaux, etc.

44

Une autre fonction prévue est la navigation à l’intérieur d’un morceau, selon plusieurs modes complémentaires : capacité de se déplacer virtuellement, à l’aide d’interfaces, au sein de l’orchestre entre les différents instruments ou voies de polyphonie et de réaliser son propre mixage assisté ; possibilité, à partir d’un découpage automatisé dans le temps des différentes parties constituant le morceau, de donner à voir ces structures internes et de passer instantanément de l’une à l’autre. La production d’œuvres spécialement conçues pour ces dispositifs de présentation analytique et de navigation fait également partie de l’expérimentation à mener.

45

D’autres fonctions plus ludiques, de l’ordre de l’interprétation (accompagnement automatique ou karaoké interactif, chœur virtuel, chef d’orchestre, etc.), sont également prévues, ainsi que des fonctions liées à l’édition et à la composition (manipulation/recomposition par le contenu de morceaux de musique : montage/mixage avec synchronisation de tempo, transposition, filtrage, time stretching, passage continu d’un son à l’autre).

46

Enfin, la chaîne hi-fi de demain sera connectée à Internet et dotée de fonctions d’accès à des sites distants, permettant entre autres le partage, auprès de communautés de pairs, du travail réalisé sur les documents musicaux (indexation, spatialisation, interprétation et composition). Tout cela en respectant les droits de propriété afférents aux œuvres puisque seules les informations relatives aux morceaux et à leurs manipulations seront échangées, et non les contenus, protégés par le droit d’auteur.

47

Engagé en décembre 2003, ce projet sera finalisé en novembre 2006 après des tests utilisateurs prévus en juin 2006 à l’occasion de la Fête de la musique à la Cité des sciences et de l’industrie. Cette chaîne hi-fi nouvelle génération devrait ensuite être commercialisée à partir de 2007.

48

Hortensia Pappano

Résumé

Français

Au moment de la sortie du numéro spécial thématique de Documentaliste – Sciences de l’information consacré à l’image et à l’audiovisuel (vol. 42, n? 6, 2005), le secteur Audiovisuel de l’ADBS proposait, le 9 mars 2006 à l’IRD, une journée d’étude consacrée à l’indexation des images et des sons. Quelles conséquences la numérisation des images et des documents sonores et musicaux peut-elle avoir sur le travail documentaire en général et plus précisément sur la pratique de l’indexation ? Quel usage faire des métadonnées ? Comment fonctionnent les outils de recherche par le contenu ? Exposés théoriques et présentations d’expérimentations ont tenté de répondre à ces questions.

Plan de l'article

  1. Nouvelles pratiques, métadonnées et patrimoine audiovisuel : de l’indexation à l’éditorialisation
    1. De l’indexation aux métadonnées
    2. Une mutation professionnelle : le travail documentaire passe de l’indexation à l’éditorialisation
  2. Les métadonnées pour l’image fixe
  3. Les principes de l’analyse de l’image et de la recherche par similarité visuelle
    1. Caractérisation de l’image et recherche par similarité visuelle
    2. Catégorisation automatique d’images
    3. Collaboration texte-image et génération automatique de descriptions d’images
    4. Reconnaissance des visages
    5. D’autres projets de recherche
  4. Indexation des documents musicaux et applications
    1. Le projet européen SemanticHifi

Pour citer cet article

Boulogne Arlette, Jadoul Marie-Berthe, Masse Claudine, Ménillet Dominique, Pappano Hortensia, « Journée d'étude ADBS audiovisuel. Indexation des images et des sons: le numérique a-t-il changé les pratiques ?», Documentaliste-Sciences de l'Information 2/2006 (Vol. 43) , p. 136-142
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2006-2-page-136.htm.
DOI : 10.3917/docsi.432.0136.


Article précédent Pages 136 - 142 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback