Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2005/1 (Vol. 42)

  • Pages : 60
  • DOI : 10.3917/docsi.421.0012
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Pages 12 - 21 Article suivant
1

CET ARTICLE PRESENTE UNE PARTIE DES résultats d’une étude menée sur trois types de textes qui sont à notre avis les sources les plus fructueuses pour la génération automatique d’indexation plan par plan d’images animées. Ces trois types de textes sont les sous-titres pour malentendants, l’audiovision (créée à l’intention des aveugles et malvoyants) et les scénarios de production dépouillés. Le dépouillement du scénario de production est un processus, exécuté normalement par l’assistant-réalisateur et souvent à l’aide d’un logiciel, par lequel on identifie pour chaque scène les éléments qui y figureront : comédiens, décor, costumes, coiffures, animaux, véhicules, accessoires, et ainsi de suite, afin d’organiser le tournage. Le présent article fait état des résultats concernant la partie de notre étude qui était consacrée au dernier type de texte, lequel nous intéresse pour son contenu potentiellement riche en termes d’indexation.

2

Pour réaliser cette partie de l’étude, il nous fallait un scénario dépouillé pour le tournage, afin de permettre la comparaison de la terminologie servant à identifier les costumes, les accessoires et ainsi de suite, avec le texte de la description que nous rédigions pour chaque plan, au fur et à mesure que nous faisions le visionnement des vidéocassettes. Par ailleurs, pour les autres parties de l’étude, il nous fallait comparer la terminologie avec le texte des sous-titres pour malentendants et avec le texte de l’audiovision. À partir de telles comparaisons, nous pouvions identifier les termes d’indexation utiles pour le repérage de plans et de séquences dans un système d’information traitant ce genre de données. Notre objectif général était d’identifier la contribution de chacune de ces sources textuelles à la totalité de l’indexation.

3

Comme il s’agissait de comparer les trois sources textuelles, nous cherchions une production pour laquelle les trois types de texte étaient disponibles. Notre choix était déterminé par la disponibilité des textes pour Cher Olivier, une production en cinq parties destinée à la télévision (mini-série) réalisée en 1997 par André Melançon et produit et distribué par Avanti Ciné Vidéo. « Librement inspirée de la vie du grand comique québécois Olivier Guimond, cette série retrace les hauts et les bas de sa longue carrière et de sa vie personnelle » [12]. Cher Olivier fut télédiffusée en cinq parties d’une heure, au printemps de 1997. La production a gagné huit prix Gémeaux [7]. Avanti Ciné Vidéo nous a gracieusement fourni l’accès à une version imprimée de ses fichiers du scénario dépouillé. Une autre compagnie montréalaise, le Centre national de sous-titrage, nous a fourni le texte des sous-titres. Une troisième, Studio Vox, nous a fourni le texte de l’audiovision ainsi que des vidéocassettes couvrant les deux premières parties de Cher Olivier. Puisque seules ces deux premières parties étaient accompagnées d’audiovision, notre recherche s’est limitée à celles-ci.

1 - Contexte de la recherche

4

Les résultats de nos études antérieures sur l’indexation plan par plan des images animées ont démontré que les images animées (et les images fixes, autres que les images artistiques) semblent partager des caractéristiques que l’on ne trouve pas dans des documents textuels ni dans d’autres types d’objets informationnels [19] [20] [18] [6]. La correspondance est plutôt directe entre le contenu informationnel d’images et les termes utilisés pour les décrire, que ces termes proviennent d’indexeurs professionnels, de textes associés tels que des descriptions dans des catalogues, d’articles de journaux, de descripteurs fournis par des usagers, ou d’autres sources. Qui a comme tâche de décrire le contenu d’une image nomme les objets, les personnes ou les événements visibles dans l’image. Bien qu’une variété de termes soit disponible pour décrire une même chose, les termes les plus importants sont assez évidents, ils sont cohérents d’un contexte à un autre et offrent la solution la plus évidente pour l’indexation du plan.

5

Les résultats que nous avons déjà obtenus offrent une base théorique solide en faveur de l’utilisation de textes créés lors des processus de préproduction, de production et de postproduction comme matériel-source pour la génération automatique d’indexation plan par plan d’images animées. Cette approche est déjà employée dans certains systèmes existants. On peut imaginer le jour où l’environnement de production sera presque totalement numérique et où, dans ce contexte, beaucoup de textes sources s’accumuleront en route. Ces textes se trouveront dans des bases de données multimodulaires qui gèreront tous les aspects d’une production et il s’agira alors d’exploiter ces textes pour des fins d’indexation. Nos recherches font partie d’un petit corpus de travaux focalisés sur cette problématique. Nous cherchons à développer des façons d’identifier automatiquement les termes utiles, de générer automatiquement l’indexation, de la lier aux plans, aux séquences et aux scènes correspondants dans un film ou une émission de télévision. Quelques autres chercheurs qui œuvrent dans ce domaine sont Auffret et Prié [1], Goodrum [2] [3] [4] [5], Le Roux [8], Lespinasse et Bachimont [9], Lespinasse, Habert et Bachimont [10] et Prié [11].

6

Notre analyse récente du texte de l’audiovision pour la présente étude nous a permis de comparer nos résultats avec ceux d’une étude antérieure sur cette question [16] et ainsi de renforcer notre méthodologie en l’affinant et en analysant les données plus en profondeur. Par ailleurs, dans la première étude, nous avions analysé la première demi-heure de chacune de trois productions, alors que dans la présente étude nous analysons au complet les deux premières parties de la mini-série (les deux seules pour lesquelles l’audiovision était disponible). La méthode améliorée est maintenant disponible pour d’autres études dans ce domaine.

7

Nous nous intéressons également à la question de l’indexation multilingue pour les images animées. Les résultats d’une partie de nos travaux préliminaires dans ce domaine [17] [14] [15] [13] nous permettent de croire que, pour les images animées, il est raisonnable de penser qu’on peut générer automatiquement l’indexation de n’importe quelle langue source vers n’importe quelle langue cible. C’est que la problématique n’est pas la même que celle de la traduction de textes continus. Dépourvus de l’aspect de discours et du besoin de reconnaître et de traduire des expressions idiomatiques, les textes consistent tout simplement en listes de noms d’objets, de personnes et d’événements. Bien qu’il puisse y avoir plus d’un nom pour un objet, en tenant compte des synonymes, on couvre assez rapidement les possibilités d’identifier les bons termes d’indexation.

2 - Méthodologie

8

La première partie de notre travail consista à trouver les textes qui nous permettraient d’effectuer une collecte de données : le texte employé pour la production de sous-titres, celui de l’audiovision, et le texte du scénario de production dépouillé pour le tournage. Mettre la main sur un scénario de production s’avérait difficile. Le moteur de recherche Google donne une liste d’environ 130 réponses lorsqu’on pose la question « scénario de tournage » (et en ajoutant des guillemets autour du texte de la requête), et environ 37.200 réponses à la requête en anglais « shooting script », toujours avec les guillemets. Cependant, pour la plupart, ces réponses renvoient à des libraires et à des sites d’amateurs de films. Le contenu varie considérablement d’un scénario à l’autre. Par ailleurs, les scénarios qu’on peut trouver sur le web ne sont pas dépouillés pour le tournage. Nous avions besoin de comparer l’information du dépouillement avec celle contenue dans les plans et les séquences numérotés de la production afin d’étudier les rapports entre les deux. On s’attend, sans doute, à des pratiques d’archivage peu rigoureuses chez les studios commerciaux. Cependant les producteurs du secteur public et les producteurs sans but lucratif ne semblent pas faire preuve de plus de rigueur en archivant les scénarios de production. Cela était d’autant plus surprenant que nos demandes initiales d’information nous laissaient croire le contraire. Au moment où nous avons entrepris cette recherche, la norme MPEG7 n’était pas encore publiée.

9

Cependant nous voulions pouvoir arrimer éventuellement nos travaux à cette norme. Ainsi, nous avons décidé dès le début d’utiliser le langage extensible de marquage (eXtensible Markup Language ou XML) pour l’encodage de nos données. Un assistant a cherché la meilleure approche à l’encodage. Un autre assistant a travaillé sur la structure de données nécessaire à la génération de rapports correspondant à la structure de ceux produits dans notre étude antérieure sur l’audiovision, lesquels s’avéraient satisfaisants. Nous avons étudié plusieurs possibilités, dont la production de nos propres gabarits pour la saisie de données mais nous avons choisi de travailler avec FileMaker Pro, logiciel de systèmes de gestion de bases de données (SGBD). FileMaker Pro offrait plusieurs avantages correspondant à nos besoins. C’est un logiciel facile à utiliser ; il offre la possibilité d’exporter les données vers un ou des fichiers XML ; il est transparent entre les environnements Windows et Macintosh. Par ailleurs, au moment où nous avons pris cette décision, FileMaker était le seul logiciel SGBD capable d’associer les données exportées avec une feuille de style XSLT (eXtensible Stylesheet Language Transformation, un langage inclus dans la norme XSL qui permet de transformer un document XML en un nouveau document XML ayant une structure et éventuellement une document type definition ou DTD [21] différentes). Bref, cette configuration nous offrait la possibilité et l’économie d’autres transformations des données exportées.

10

Nous avons structuré et construit plusieurs bases de données FileMaker pour couvrir divers aspects des deux parties de Cher Olivier que nous souhaitions étudier. Pour chaque partie, il y avait une base de données pour le texte de l’audiovision (descriptifs oraux et codes temporels associés), le texte de l’audiovision parcellisé en « épisodes » (terme que nous avons donné à chaque unité logique ou petit événement de description), les descriptions textuelles de l’action de chaque plan, le texte des sous-titres et de leur code temporel, et les transcriptions produites une fois le montage complété. L’information concernant le scénario dépouillé pour le tournage est hébergée dans une seule base de données pour les deux parties, puisque celles-ci furent tournées simultanément. Nous n’avions pas projeté d’étudier les transcriptions mais puisque nous avons obtenu des résultats intéressants (non publiés pour l’instant) lors d’une étude comparant le texte des sous-titres avec celui des transcriptions pour plusieurs productions, et puisque nous avions en main les transcriptions de la maison de production, nous avons décidé de coder l’information afin d’en permettre une analyse éventuelle. Par ailleurs, nous avons créé une feuille de style à l’aide de l’XSLT. Celle-ci nous donnait la possibilité d’accumuler l’information provenant des diverses bases de données et de les exporter vers des fichiers XML en les organisant dans un schéma logique que nous pouvions définir.

11

Nous avons alors visionné les vidéocassettes des deux parties de Cher Olivier afin de corriger le texte hébergé dans nos bases de données (lequel avait été saisi à partir de textes sur papier) pour l’harmoniser avec celui de la version vidéo. Nous avons adopté la version publiée sur cassettes comme la version officielle et nous avons ajusté les notices saisies de la version papier pour qu’elles s’y conforment. L’étape suivante était de visionner de nouveau les cassettes afin d’identifier et de numéroter chaque plan. Lors de ce processus, nous avons rédigé une description pour chaque plan en saisissant toutes ces informations dans une base de données créée à cette fin. Une fois ce travail fait, nous avons parcellisé le texte de l’audiovision en « épisodes ». Cette information était saisie dans une autre base de données, créée à cette fin. Finalement, nous avons construit des fichiers Excel pour exprimer la position des épisodes d’audiovision relativement aux plans correspondants, en empruntant la méthode développée lors de notre étude précédente sur l’audiovision [16].

Le scénario de production

12

Les données provenant du scénario de production dépouillé pour le tournage nous ont été fournies par Avanti Ciné Vidéo sous forme de papier imprimé à partir d’une base de données MovieMagic. À l’aide de FileMaker, nous avons reproduit cette base de données dont la structure est indiquée dans l’encadré ci-contre.

13

Nous avons ajouté le champ Notes afin d’enregistrer toute information utile mais non prévue autrement. Plus tard, nous avons utilisé cette structure comme base pour la construction de la base de données servant à l’analyse, en incorporant 15 de ces 21 champs et en en ajoutant plusieurs nouveaux.

14

Lors du visionnement pour identifier les plans individuels, nous avons pris des précautions pour éviter certains biais. Le chercheur principal a construit la base de données et a effectué la saisie des données pour le scénario de production. L’assistant de recherche a rédigé les descriptions des plans à partir de l’image vidéo. Il a également construit la base de données pertinente et a saisi cette information. Cette méthode simule la situation réelle de travail de l’assistant-réalisateur qui construit la base de données pour le dépouillement et du monteur qui rédige d’abord des descriptions de chaque plan pour pouvoir les retrouver plus tard, lors du montage.

15

Ensuite, nous avons construit la base de données pour l’analyse, afin d’y inscrire de l’information concernant la correspondance entre mots-clés provenant de descriptions de plans et mots-clés enregistrés dans la base de données pour le dépouillement. Il fallait construire une table de correspondance pour pouvoir jumeler les numéros des plans avec l’identificateur de la scène et de la séquence dans la base de données pour le dépouillement. Cette table de correspondance permettait de trier la base de données de l’analyse soit par l’identificateur de la scène et de la séquence, soit par les numéros affectés aux plans lors du visionnement des cassettes.

16

Nous avons d’abord produit un « clone » de la base de données pour le dépouillement. De ce clone, les données concernant les parties 3, 4 et 5 de la mini-série furent éliminées. Nous avons aussi éliminé certains champs inutiles à l’analyse. Finalement, nous avons ajouté de nouveaux champs pour tenir compte des mots-clés provenant des descriptions des plans. Ces champs correspondaient à ceux de la base de données pour le dépouillement, afin de nous offrir une flexibilité maximale dans l’analyse. Il aurait été possible de mettre tous les mots-clés dans un seul champ, mais nous voulions permettre une analyse très détaillée si les données offraient une certaine richesse. Or il s’est avéré que l’ensemble de données que nous avons analysé n’était pas très riche. Cependant d’autres ensembles de données profiteraient de cette structure plus élaborée.

17

L’étape suivante consistait à revoir, notice par notice, les données dans les bases contenant les descriptions des plans afin de noter les occurrences de mots-clés correspondant à ceux déjà enregistrés dans la base de l’analyse (et hérités de la base de données pour le dépouillement).Nous avions ajouté un deuxième champ pour les notes dans la base de données de l’analyse afin de repérer les anomalies ou autres observations intéressantes en cours de route, au fur et à mesure que les données étaient comparées plan par plan dans les bases de données de description et enregistrées dans la base de données de l’analyse. Nous rapportons ces observations dans la section intitulée « Discussion ». Une partie de la recherche subséquente que nous souhaitons faire des données du projet global sera de comparer les mots-clés de la présente analyse avec ceux trouvés dans l’audiovision et dans les sous-titres pour malentendants. Cette phase nous permettra d’atteindre l’objectif principal de notre étude, celui d’évaluer la contribution de chaque type de texte à la problématique globale de l’indexation et du repérage.

Structure de la base de données relative au scénario de production

1 Informations préliminaires

Identificateur de la scène

Période de la journée

Date de tournage et journée séquentielle de tournage

Localisation réelle et représentée

Datation

2 Informations générales concernant le tournage

Personnages nécessaires

Synopsis de l’action

Figurants

3 Informations précises pour le tournage

Sons

Véhicules

Animaux

Accessoires

Costumes, maquillage et coiffure

Décors

Musique

Caméras

Effets spéciaux

Équipement spécial

Consultants

Notes

3 - Résultats

18

Le scénario de production de la première partie de Cher Olivier contient 30 séquences et 648 plans. Celui de la deuxième partie contient 26 séquences et 576 plans. Cependant, dans la première partie, une des séquences contient quatre scènes et une autre en contient deux. Afin de faciliter l’analyse, nous calculons chaque scène comme une séquence, puisque chacune contient des données distinctes dans les champs du scénario de production. Dans l’analyse, nous comptons donc 34 séquences dans la première partie et 26 dans la deuxième partie. Par ailleurs, quelques-unes des séquences du scénario de production ne se sont traduites par aucun plan dans la production. Dans la forme que la production a prise pour la télédiffusion, des plans provenant de 31 séquences se retrouvent dans la première partie alors que des plans provenant de 25 séquences se retrouvent dans la deuxième partie. Les séquences qui ne produisaient aucun plan dans la version télédiffusée sont enlevées du compte dans l’analyse.

19

Le compte comprend 5 plans sans image dans chaque partie, plans qui n’offrent qu’un fondu vers le noir pour permettre l’insertion de publicité lors de la diffusion. Puisque ces plans contiennent des éléments sonores appartenant à l’audiovision, et pour assurer l’uniformité de nos différentes analyses, nous les avons comptés comme des plans et nous les traitons dans l’analyse. Toutefois, aucun de ces 10 plans noirs ne contient de l’information pertinente à ce volet de l’étude (pas d’action à décrire ; pas de correspondance possible entre mots-clés et scénario de production) et l’impact sur les résultats est négligeable, puisqu’ils représentent moins de 1 % des plans.

20

Le tableau 1 présente un récapitulatif des données. Dans l’analyse, nous traitons les deux productions séparément, puisqu’il s’agit de diffusions séparées. Dans la première partie, il y avait de 3 à 46 plans par séquence. Pour la deuxième partie, de 1 à 96 plans par séquence. Les chiffres correspondant aux moyennes pour le nombre de plans par séquence sont arrondis.

Tableau 1 - Récapitulatif des données

Première partie

Deuxième partie

Moyenne

Nombre de séquences dans le scénario de production

34

26

30

Nombre de séquences dans la version télédiffusée

31

25

28

Nombre total de plans

648

576

612

Nombre moyen de plans par séquence

21

23

22

Tableau 2 - Correspondance entre la terminologie des descriptions et celle du scénario de production

Première partie

Deuxième partie

Nombre de séquences du scénario de production

31

25

Nombre de séquences avec correspondance

22

22

Nombre de séquences sans aucune correspondance

9

3

Nombre minimum de correspondances

1

1

Nombre minimum de correspondances

4

7

Figure 1

Figure 1

21

Nous présentons ensuite la correspondance entre mots-clés dans les descriptions des plans et la terminologie du scénario de production dépouillé pour le tournage. Puisque chaque séquence contenait de nombreux plans, des correspondances ont été établies entre tous les plans disponibles pour chaque séquence. Pour chacune des deux productions, on a trouvé 22 séquences avec une ou plusieurs correspondances. Pour la première partie, le nombre minimum de correspondances était de 1 (c’est-à-dire un seul terme et une seule occurrence de ce terme parmi les plans disponibles pour cette séquence) et le nombre maximum de correspondances était de 4. Pour la deuxième partie, le nombre minimum de correspondances était également de 1, mais deux occurrences du mot-clé dans les descriptions des plans correspondaient aux mots-clés disponibles du scénario dépouillé. Le nombre maximum de correspondances était de 7 pour la deuxième partie. Le tableau 2 offre une synthèse de cette information.

22

Les chiffres les plus élevés pour les correspondances sont de 4 et 7 pour les première et deuxième parties respectivement. Puisque 15 champs peuvent être considérés dans l’analyse du scénario de production, nous observons que ces chiffres sont plutôt faibles. Dans la première partie, on trouve environ un tiers des séquences qui ne comptent aucune correspondance de mots-clés. En ajoutant les séquences où on trouve un seul mot-clé, cette proportion passe à deux tiers. Dans la deuxième partie, ces proportions respectives sont environ un vingtième et presque la moitié. Cependant, dans quelques cas, un petit nombre de plans ont un nombre relativement élevé de mots-clés. Dans la deuxième partie, la séquence 9 consiste en un seul plan, mais trois termes de trois champs distincts dans la base de données de dépouillement proviennent des descriptions de plans (« joue » et « piano » se trouve dans un seul champ et « piano » se trouve seul dans deux autres champs).

23

Nous observons également que, parfois, un seul mot-clé paraît de nombreuses fois dans une seule séquence. Puisque nous avons compté chaque mot-clé une seule fois à l’intérieur de la description d’un plan, le nombre d’occurrences représente le nombre de plans dans une séquence contenant ce mot-clé. Ce phénomène s’explique par la façon dont certaines séquences sont montées, incluant souvent des aller-retour de plan contre-plan. Cela est visible dans les données, notamment lorsque les chiffres identificateurs de plans montent par deux quand ils sont associés au mot-clé faisant partie de la description.

24

Le tableau 3 donne une liste de tous les mots-clés de Cher Olivier qui sont présents à la fois dans les descriptions des plans et parmi les termes employés dans le scénario de production dépouillé pour le tournage.

25

Il arrive que la correspondance entre les mots-clés dans les descriptions de plans et ceux du scénario ne se fasse pas parce qu’on emploie un synonyme ou un terme avec un autre type de relation thésaurale comme une relation « terme générique / terme spécifique » ou encore une relation « terme relié ». On peut imaginer qu’en filtrant une requête par un thésaurus on pourrait inclure ces termes et ainsi améliorer les résultats. On observe par contre qu’une telle manipulation des données n’améliorerait que peu les résultats. Dans la première partie, de telles relations ne sont présentes que pour sept ensembles de mots-clés (nous n’avons pas compté le nombre d’occurrences de chacun) et dans la deuxième partie, pour huit ensembles seulement. Exemples : « voiture » et « auto », « dis-que » et « 78 tours », « pâtes » et « spaghetti ». En filtrant une requête par un réseau sémantique étendu, on trouverait d’autres correspondances, telles que « boîte de provisions » et « carton d’épicerie », mais de telles manipulations exigeraient un investissement important de ressources pour peu de résultats.

4 - Discussion

26

Nos résultats indiquent que le scénario de production n’est pas une source très riche de mots-clés utilisables pour générer l’indexation de l’image animée, notamment lorsqu’il s’agit de plans individuels. Nos données indiquent qu’il est impossible de cibler des plans et que l’unité d’indexation serait plutôt la séquence. Cela se vérifiait aussi pour le texte de l’audiovision mais pour d’autres raisons. Dans ce dernier cas, il arrive souvent que le texte récité ne puisse pas être entendu en même temps que le plan correspondant s’affiche à l’écran parce qu’un son plus important occupe déjà l’espace sonore. Dans un tel cas, le son de l’audiovision est inséré dans un espace sonore à proximité. De plus, il arrive souvent qu’une description se rapporte à l’action de toute une séquence de plans et non pas à un seul plan.

27

Dans le cas de textes provenant de scénarios de tournage, ce phénomène se rapporte au type de montage. Comme on peut l’observer dans nos données, souvent le texte correspondant se rapporte aux volées de plans contre-plans coupés de façon à ce qu’un seul plan n’offre pas assez d’information ou encore soit trop court. L’usager à la recherche d’information doit donc se référer à une unité plus grande, c’est-à-dire la séquence, afin de pouvoir comprendre la relation ou encore de pouvoir associer à l’image le mot-clé de la requête.

28

Notre analyse est limitée par le fait qu’il s’agit de deux productions seulement (lesquelles peuvent être conçues aussi comme deux parties d’une seule production) et par la possibilité que nos scénarios de production ne soient pas typiques. Il faudrait comparer les caractéristiques d’autres scénarios de production : normalement, l’information est-elle plus détaillée ou moins détaillée ? Normalement, la relation entre la terminologie des scénarios et celle d’autres textes descriptifs est-elle plus fructueuse que dans le cas présent ? Existe-t-il des cas où le scénario de production est tellement détaillé et où le montage est tel que la correspondance peut être établie avec chaque plan ? Il faudrait faire d’autres recherches sur cette question pour pouvoir trouver des réponses à ces questions.

29

À l’exception de noms au singulier et au pluriel, nous n’avons pas compté les variantes de mots qui produiraient une correspondance si on en faisait la troncature, par exemple « piano » et « pianiste ». Il y en avait si peu qu’une telle analyse était inutile. Cependant nous tenons compte du fait que de telles manipulations peuvent être plus fructueuses avec d’autres ensembles de données. De plus, dans des systèmes de stockage et repérage en environnement web capables de filtrer a priori les requêtes par un thésaurus ou par d’autres réseaux sémantiques afin d’inclure la terminologie associée, nous estimons que de telles manipulations auraient probablement comme résultat une performance améliorée du système.

30

Nous avons compté des verbes comme mots-clés sept fois dans notre analyse, tous dans la deuxième partie. Cela est remarquable parce que, dans tous nos travaux précédents, très peu de verbes sont employés comme mots-clés. Il est vrai que les mots correspondant à ces verbes dans notre liste sont aussi des noms ou des adjectifs. Cependant, dans nos données, ces mots sont employés comme verbes dans les descriptions des plans.

5 - Conclusions

31

Bien que le texte des sous-titres pour malentendants puisse être associé à des plans individuels, il est également vrai que ce texte appartient parfois plus précisément à des séquences, comme dans le cas où des plans très courts sont entrecoupés et que le dialogue continue à travers le tout, tel que reflété dans les données du cas présent. Cependant, dans le cas de scénarios de production, la situation est beaucoup moins ambiguë. Notre étude démontre clairement que la meilleure unité de documentation pour l’indexation est la séquence. Comme nous l’avons rapporté dans nos travaux sur l’audiovision, bien que le texte puisse parfois être relié aux plans individuels, il est normalement plus utile de le relier aux séquences. Il faut donc remettre en question notre hypothèse visant à fournir une indexation automatisée de plans individuels. L’indexation des séquences est peut-être plus pratique. À notre avis, la différence est vraisemblablement analogue à la différence entre un index de livre et une table des matières détaillée. Nos résultats nous portent à croire que les techniques automatisées de génération de l’indexation s’appliquent mieux à la séquence qu’au plan. Cependant on peut imaginer facilement des productions où ce serait plutôt le contraire.

32

Il serait nécessaire d’entreprendre davantage de recherches dans le domaine de l’analyse de scénarios pour pouvoir confirmer ou infirmer les résultats que nous avons obtenus. Nous nous attendions à ce que le scénario de production soit beaucoup plus riche en mots-clés pour l’indexation que ce ne fut le cas. Cependant nous ne savons pas si les scénarios que nous avons analysés étaient typiques ou non. En faisant davantage de travaux dans ce domaine, on pourrait s’attendre à des informations plus utiles concernant les scénarios de production. Le développement d’une méthodologie pour l’étude de ces questions constitue une contribution qui peut servir de point de départ. Nous croyons que notre travail dans ce domaine est utile. En comparant le texte étudié dans le présent rapport avec le texte de l’audiovision, nous pourrons consolider les connaissances acquises. D’autres travaux, que ce soient les nôtres ou les travaux d’autres chercheurs, contribueront à compléter le portrait de la contribution qu’apporte chaque source textuelle à l’indexation. À la longue, nous pouvons espérer arriver à une base théorique solide pour le développement de lignes directrices visant la construction de systèmes d’information pour le stockage et le repérage d’images animées. Lorsque de telles techniques sont combinées avec les approches (dites « low-level ») sur lesquelles travaillent les informaticiens, nous pouvons espérer voir le jour où les usagers de tels systèmes hybrides trouveront rapidement et efficacement les images animées qu’ils cherchent à consulter.

33

JUILLET 2004

Remerciements

Nous remercions le Conseil de recherches en sciences humaines du Canada pour le financement de cette recherche. Nous remercions Alexandre Delage, Rida Benjelloun, Marc Lemaire et Patrick Beaulieu pour leur travail lors des phases initiales de ce projet. Nous remercions Avanti Ciné Video, le Centre national de sous-titrage et Studio Vox d’avoir partagé avec nous le matériel de base qui permettait la collecte de données. Nous remercions Jean-Michel Sivry pour sa révision du texte. C’est grâce à la générosité de tous ces acteurs que nous avons pu mener à terme ce projet.


Références

  • 1 –  Auffret, Gwendal, et Yannick Prié. Managing full-indexed audiovisual documents: a new perspective for the humanities. Computers and the Humanities, 1999, 33, n°4, p. 319-344.
  • 2 –  Goodrum, Abby A. Multidimensional scaling of video surrogates. Journal of the American Society for Information Science, 2001, 52, n° 2, p. 174-183.
  • 3 –  Goodrum, Abby A. Representing moving images: implications for developers of digital video collections. Proceedings the Annual Meeting of the American Society for Information Science, Pittsburgh, October 25-29, 1998. P. 100-107.
  • 4 –  Goodrum, Abby A. A cognitive approach to representing moving image documents. In Advances in Knowledge Organization 6, Structures and relations in knowledge organization: Proceedings of the 5th International Society for Knowledge Organization Conference, Lille, August, 1998, éd. W. Mustafa el Hadi, J. Maniez et S. Politt. Wurzburg : Ergon Verlag, 1998. P. 256-263.
  • 5 –  Goodrum, Abby A. Task-based representation of moving images. Proceedings of the 26th Annual Conference of the Canadian Association for Information Science, Ottawa, June 3-5, 1998. P. 209-220.
  • 6 –  Hudon, Michèle, James M. Turner et Yves Devin. How many terms are enough? Stability and dynamism in vocabulary management for moving image collections. Proceedings of the 6th International Society for Knowledge Organization (ISKO) Congress, Toronto, 10-13 July 2000, Toronto, Canada, éd. Clare Beghtol, Lynne C. Howarth, Nancy J. Williamson. Würzburg : Ergon Verlag, 2000. P. 333-338.
  • 7 –  i(france)! Disponible à l’adresse <wwww. ifrance. com/ teleromans/olivier_fiche.htm> (document consulté le 29 juin 2004).
  • 8 –  Le Roux Estelle. Extraction d’information de documents textuels associés à des contenus audiovisuels. Cinquième rencontre des étudiants chercheurs en informatique pour le traitement automatique des langues (RECITAL), Tours, juillet 2001.
  • 9 –  Lespinasse, Karine, et Bruno Bachimont. Is peritext a key for audiovisual documents? : the use of texts describing television programs to assist indexing. Conference on Intelligent Text Processing and Computational Linguistics (CICLing), Mexico City, February 18-24, 2001. Proceedings. P. 505-506.
  • 10 –  Lespinasse, Karine, Benoît Habert, etBruno Bachimont. Le péritexte, un sésame pour les données audiovisuelles ? L’analyse exploratoire d’un corpus hétérogène de notices documentaires interprétant des documents audiovisuels. JADT, Cinquièmes Journées internationales d’Analyse statistique des données textuelles, Lausanne, 9-11 mars 2000. P. 65-74.
  • 11 –  Prié, Yannick. Modélisation de documents audiovisuels en strates interconnectées par les annotations pour l’exploitation contextuelle. Thèse, Institut national des sciences appliquées (INSA) de Lyon, 1999.
  • 12 –  Québec Audiovisuel: QAV.ca - le portail de l’audiovisuel québécois. Disponible à l’adresse <wwww. qav. ca/ FicheFilm/ fichefilm-fr.php?ID=459> (document consulté le 29 juin 2004).
  • 13 –  Turner, James M. et Michèle Hudon. Multilingual metadata for moving image databases: preliminary results. L’avancement du savoir : élargir les horizons des sciences de l’information, Travaux du 30e congrès annuel de l’Association canadienne des sciences de l’information, éd. Lynne C. Howarth, Christopher Cronin, Anna T. Slawek. Toronto: Faculty of Information Studies, 2002. P. 34-45.
  • 14 –  Turner, James M. A rich model for moving image databases. Au-delà du Web : les technologies, la connaissance, et les gens ; travaux du 29e congrès de l’Association canadienne des Sciences de l’information, Québec, 2001 05 27-29, éd. D. Grant Campbell. P. 267-278.
  • 15 –  Turner, James M. et Jean-François Roulier. La description d’images fixes et en mouvement par deux groupes linguistiques, anglophone et francophone, au Québec. Documentation et bibliothèques, 1999. 45, n° 1 (janvier-mars), p. 17-22.
  • 16 –  Turner, James M. Some characteristics of audio description and the corresponding moving image. Information access in the global information economy: proceedings of the 61st ASIS Annual Meeting, Pittsburgh, Pennsylvania, October 24-29 1998, vol. 35. Medford, NJ: Information Today, 1998. P. 108-117.
  • 17 –  Turner, James M. Cross-language transfer of indexing concepts for storage and retrieval of moving images: preliminary results. Global complexity: information, chaos and control: proceedings of the 59th ASIS Annual Meeting, Baltimore, Maryland, October 21-24 1996, vol. 33. Medford, NJ: Information Today, 1996. P. 214-217.
  • 18 –  Turner, James M. Comparing user-assigned terms with indexer-assigned terms for storage and retrieval of moving images: research results. Proceedings of the 58th ASIS Annual Meeting, Chicago, Illinois, October 9-12, 1995, vol. 32, p. 9-12.
  • 19 –  Turner, James. Determining the subject content of still and moving image documents for storage and retrieval: an experimental investigation. Thèse, University of Toronto, 1994.
  • 20 –  Turner, James. Indexing film and video images for storage and retrieval. Information Services & Use, 1994, 14, n° 3, p. 225-236.
  • 21 –  XML Techn. Disponible à l’adresse <wwww. xmltechno. com/ glossaire/index.cfm> (document consulté le 29 juin 2004).

Résumé

Français

Cette étude s’inscrit dans une série de travaux relatifs à la génération automatique d’indexation d’images animées. Des supports textuels connexes à la production audiovisuelle (scénarios de production, sous-titres pour malentendants, audiovision pour malvoyants) sont ici utilisés à des fins d’extraction de vocabulaire permettant l’indexation de films séquence par séquence. Le contexte de cette recherche, la méthode adoptée et les résultats obtenus à partir d’un exemple précis sont présentés et discutés. Ce travail offre une base théorique solide en faveur de l’exploitation comme matériel-source de textes créés lors des processus de préproduction, de production et de postproduction de documents audiovisuels.

Plan de l'article

  1. 1 - Contexte de la recherche
  2. 2 - Méthodologie
    1. Le scénario de production
  3. 3 - Résultats
  4. 4 - Discussion
  5. 5 - Conclusions

Pour citer cet article

Turner James M., Colinet Emmanuël, « Scénarios de production pour l'indexation d'images animées », Documentaliste-Sciences de l'Information, 1/2005 (Vol. 42), p. 12-21.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2005-1-page-12.htm
DOI : 10.3917/docsi.421.0012


Pages 12 - 21 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback