Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2004/6 (Vol. 41)

  • Pages : 60
  • DOI : 10.3917/docsi.416.0340
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 340 - 342 Article suivant
1

EST-IL BIEN UTILE DE REPARLER D’INDEXATION AUJOURD’HUI ? LA question de l’indexation n’est-elle pas réglée, ou du moins stabilisée, en pratique si ce n’est en théorie [1][1] Voir l’ouvrage de Muriel Amar : Les fondements théoriques... ? De prime abord, l’avènement de l’information numérique ne devrait guère affecter dans leurs principes des méthodes et techniques d’indexation longuement éprouvées : elles resteraient de rigueur pour l’information non numérique, pour l’image, et pour l’audiovisuel, mais l’indexation automatique des moteurs de recherche pourrait leur être substituée dans le cas de l’information textuelle numérique. Le mérite de la journée du 5 octobre a été de montrer que cette vision un peu simpliste ne saurait cerner la réalité des multiples approches de l’indexation telle qu’elle se conçoit et telle qu’elle se pratique.

L’élargissement de la notion d’indexation

2

À la lumière des exposés théoriques comme des cas réels, on se rend compte que la définition habituelle de l’indexation s’élargit passablement. Ainsi, selon Bruno Bachimont, indexer, c’est « reformuler le contenu d’un document ou d’une inscription dans une forme plus adaptée à son exploitation dans une application donnée ». Ce que cette définition a de pragmatique (on indexe pour une application) et de généraliste (on ne précise pas laquelle) se retrouve dans les diverses figures de l’indexation qui ont été présentées.

3

On ne parle plus seulement d’indexation, mais également d’enrichissement, d’annotation et de marquage, de métadonnées et de balises. Le terme d’indexation semble recouvrir toutes ces notions, qui s’inscrivent dans deux paradigmes : une approche documentaire, qui consiste à ajouter au document des informations caractérisant son contenu ; une approche formelle, qui revient à substituer au document une version formalisée de ses contenus de manière à les rendre manipulables par des automates.

4

La forme numérique permet d’isoler n’importe quelle portion de contenu jugée pertinente, et de lui associer une indexation. Dès lors, l’indexation d’un document, en particulier d’un document audiovisuel ou iconique, commence par l’identification plus ou moins fine de ces portions pertinentes. Ce découpage est en soi une opération de caractérisation du contenu que l’on entend rendre accessible.

5

Dans un autre ordre d’idées, l’examen des outils sémantico-statistiques d’analyse de textes montre que des fonctions de base en petit nombre, diversement combinées, permettent de concevoir des outils répondant à des besoins divers : l’extraction de concepts significatifs dans les textes, le « typage » et la mise en relation de ces concepts, la comparaison de documents entre eux ou avec des catégories Fouille de texte, clustering et catégorisation sont des opérations qui entrent ainsi dans la définition élargie de l’indexation, au service d’applications telles que la veille économique et concurrentielle, la gestion d’incidents, la gestion de la relation clients, etc.

Les interventions

• Numérique et indexation : du texte à l’audiovisuel, par Bruno Bachimont, Université de technologie de Compiègne et Institut national de l’audiovisuel

• État de l’art des outils d’analyse et de traitement documentaire automatique : quels usages pour quelles applications ? Par Catherine Leloup, consultante indépendante

• La gestion des sons numériques dans un environnement de production intégré : essences et métadonnées, par Jean-François Cosandier, Radio Suisse Romande

• La visibilité des revues scientifiques : l’intégration d’une « indexation traditionnelle » dans les standards de référencement des documents électroniques, par Sylvie Grésillaud, Institut de l’information scientifique et technique (INIST-CNRS)

• Indexation automatique et enrichissement documentaire : l’exemple du journal Le Monde, par Didier Rioux, Le Monde

• Optimiser l’accès à l’information sur le portail intranet grâce à la généralisation de l’indexation des contenus et l’utilisation systématique de la taxinomie Air France, par Audrey Blanchard, Air France

• Quelles compétences pour les professionnels au regard des évolutions de la fonction documentaire ? Pistes de réflexion, par Florence Muet, Information-Management, membre du bureau de l’ADBS

Des synthèses de ces interventions sont en ligne sur le site de l’ADBS à l’adresse <www. adbs. fr/ site/ evenements/ journees/ > (accès réservé aux adhérents)

La diversification des pratiques

6

Au fil de cette journée, on découvre aussi qu’à l’hétérogénéité des supports de l’information (papier, électronique analogique, numérique) répond une diversité des tactiques mises en œuvre pour en caractériser les contenus.

7

Quatre institutions ont présenté leurs problématiques :

  • Air France, dans le contexte de son intranet ;

  • l’Institut de l’information scientifique et technique (INIST) du CNRS, avec d’une part l’alimentation des bases de données PASCAL et FRANCIS et d’autre part l’acquisition et la production de revues électroniques ;

  • Le Monde, dont les archives en ligne ont été récemment refondues ;

  • la Radio Suisse Romande, avec la gestion de ses archives sonores.

Si, pour chacune d’entre elles, l’indexation est bien au cœur du processus de mise en valeur de l’information, les solutions adoptées sont sensiblement différentes.

• Des langages d’indexation variés

8

On constate tout d’abord que toutes les formes de langages d’indexation sont représentées :

  • indexation libre par unitermes (Air France avec le moteur Verity) ou par groupes de mots (appelés « concepts » dans le cas d’Intuition, moteur de Sinequa, utilisé au journal Le Monde), mots-clés auteurs (INIST revues électroniques) ;

  • indexation avec un vocabulaire contrôlé (INIST bases PASCAL et FRANCIS) ;

  • indexation avec des codes de classement (INIST bases PASCAL et FRANCIS) ou avec des rubriques de plan de classement (Air France).

De plus, il est fréquent de voir combinés différents langages d’indexation, de façon à multiplier les possibilités d’accès. On relève ainsi les configurations suivantes :

  • indexation libre et plan de classement (Air France) ;

  • indexation libre et valeurs contrôlées pour certains champs (Le Monde) ;

  • indexation contrôlée et codes de classement (INIST bases PASCAL et FRANCIS) ;

  • indexation contrôlée et/ou mots-clés auteurs (INIST revues électroniques).

Enfin, ces diverses formes d’indexation peuvent s’inscrire dans des schémas standardisés de métadonnées (Radio Suisse Romande, INIST revues électroniques) ou suivre des modèles spécifiques.

• Une automatisation partielle

9

Si aucun des exemples présentés ne fait état d’une indexation entièrement automatisée, la présence de contenus textuels numériques va de pair avec l’automatisation de la plus grande partie des opérations d’indexation. Pour Air France et Le Monde, il s’agit de l’indexation automatique du texte intégral, réalisée avec des systèmes acquis auprès de fournisseurs industriels. Pour l’alimentation des bases PASCAL et FRANCIS à l’INIST, on a choisi le développement spécifique d’un système d’indexation assistée à partir d’éléments tels que titres et résumés. À la Radio Suisse Romande, où la production de métadonnées n’est pas automatisée, on suit de près les progrès des recherches sur l’indexation automatique de la parole.

10

La part de l’indexation qui reste « manuelle » répond à des logiques différentes. À Air France, on vise à offrir un accès par navigation en plus de l’accès par le moteur de recherche, en affectant des rubriques de classement. Au Monde, on complète les possibilités de repérage et de filtrage par l’alimentation de quelques champs de caractérisation non thématique du contenu, ou par l’ajout d’un titre complémentaire qui en explicite certains concepts importants. À l’INIST, les revues sont réparties en trois catégories selon le traitement qu’elles reçoivent : indexation automatique, indexation assistée et indexation manuelle. Les titres « réfractaires » sont donc indexés manuellement, cependant que l’on contrôle et valide l’indexation pour la deuxième catégorie.

11

Un souci d’efficacité préside évidemment à ces stratégies d’automatisation. Plus qu’une réponse à l’accroissement des volumes à traiter, cette automatisation est rendue nécessaire surtout par la rationalisation des ressources humaines (autrement dit par la diminution des effectifs) et par l’accélération des rythmes de mise à disposition de l’information. Les délais de traitement passent ainsi de trois mois à quelques jours pour PASCAL et FRANCIS.

• L’indexation à la source

12

Pratiquée à l’origine essentiellement dans le monde universitaire avec les mots clés d’auteurs, l’indexation à la source s’étend à d’autres contextes : les créateurs ou producteurs des émissions de la Radio Suisse Romande, ou les différents collaborateurs qui alimentent l’intranet d’Air France, sont ainsi sollicités pour élaborer tout ou partie des éléments de caractérisation des informations qu’ils produisent. Cette tendance est en cohérence avec la philosophie des métadonnées d’Internet.

13

On invoque souvent l’objectivité et la stabilité de l’indexation obtenue avec les moteurs de recherche ou les systèmes sémantico-statistiques, pour les opposer à la subjectivité et à la variabilité de l’indexation opérée par les documentalistes. Il faudra désormais compter avec une autre forme de subjectivité et de variabilité, qui résulte de la multiplication des intervenants dans le processus d’indexation.

Le rôle des professionnels de l’I-D

14

Ces évolutions ne sont pas sans incidence sur la profession. Elles en modifient la substance, et impliquent la possession de compétences nouvelles. La fonction documentaire est-elle ainsi « tirée vers le haut », comme le revendiquent certains intervenants ? À chacun d’en juger.

• Le déplacement des responsabilités

15

L’activité des professionnels de l’information-documentation était naguère centrée sur les documents qu’ils traitaient et sur les usagers qu’ils assistaient dans leur recherche. Ce rôle d’intermédiation était l’essence même de la profession. Ce modèle n’est pas caduc, bien sûr, mais nombre de situations apparaissent où une répartition différente des responsabilités est de mise.

16

Le traitement documentaire mobilise moins d’efforts dans des contextes où le document numérique est traité de manière partiellement automatique : à l’INIST, le temps des ingénieurs documentalistes dédié à l’indexation des bases PASCAL et FRANCIS est passé de 80 % à 25 %. Au journal Le Monde, le marquage des documents représente moins du quart de l’activité des documentalistes. Pour l’intranet d’Air France, l’essentiel des tâches des « taxonomistes » porte sur la gestion de plan de classement, sur l’optimisation du moteur de recherche et sur la sensibilisation des contributeurs à la nécessité de caractériser eux-mêmes le contenu qu’ils produisent.

17

Avec les systèmes fondés sur les techniques d’Internet (World Wide Web et intranets surtout), il est évident aussi que les contacts directs avec les usagers se raréfient.

18

La position des documentalistes se modifie donc, et s’oriente principalement vers des interactions avec le dispositif technique du système d’information qu’ils sont amenés à gérer. Cela au sens large, puisque la création et la maintenance des systèmes d’organisation des connaissances (langages documentaires, terminologies, etc.) occupent dans certains cas une place importante dans les attributions des professionnels : à l’INIST, on estime à 30 % le temps dévolu à la gestion des référentiels terminologiques ; et la dénomination de « taxonomiste » utilisée à Air France parle d’elle-même. On note au passage que l’automatisation de l’indexation n’invalide pas nécessairement l’utilité d’une forme ou d’une autre de langage documentaire.

19

Parmi les autres fonctions qui prennent un relief nouveau, on relève également les relations avec les fournisseurs d’information ou la réalisation « proactive » de produits d’information à haute valeur ajoutée.

• L’éventail des compétences

20

De cette redistribution des rôles découlent des exigences accrues ou diversifiées, selon les cas, en ce qui concerne les savoir-faire des professionnels.

21

Sur l’axe technique, les outils informatiques de plus en plus présents requièrent, à côté ou en place des techniques documentaires traditionnelles, la maîtrise des bases de données, des moteurs de recherche, des logiciels de gestion de contenu, et des technologies Internet, tant dans leur définition que dans leur fonctionnement au jour le jour.

22

Sur l’axe conceptuel, on passe de l’appréciation du besoin immédiat et de l’analyse unitaire des documents à la nécessité d’une vision globale et structurée des besoins et des ressources de l’organisation.

23

Sur l’axe relationnel enfin, à la capacité de manager une équipe et d’accompagner la démarche d’un utilisateur s’ajoutent les compétences nécessaires à la gestion des relations avec les fournisseurs de contenus et de technologies.

Notes

[1]

Voir l’ouvrage de Muriel Amar : Les fondements théoriques de l’indexation : une approche linguistique. Paris : ADBS Éditions, 2000.

Résumé

Français

L’ADBS proposait le 5 octobre 2004 à Paris une journée de réflexion sur l’indexation à l’ère du numérique. La numérisation des ressources documentaires, alliée au développement des outils de gestion et de traitement de l’information, conduit en effet à revisiter la notion d’indexation : cette journée visait à s’interroger sur la pertinence de l’indexation manuelle aujourd’hui et sur les perspectives des traitements automatiques. Les interventions ont montré à la fois l’élargissement en cours du concept d’indexation et, selon les contextes et la nature des documents traités, une grande diversité de pratiques qui ne sont pas sans incidences sur le rôle des professionnels de l’I-D.

Pour citer cet article

Menon Bruno, « Journée d'étude ADBS. L'indexation à l'heure du numérique », Documentaliste-Sciences de l'Information, 6/2004 (Vol. 41), p. 340-342.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2004-6-page-340.htm
DOI : 10.3917/docsi.416.0340


Article précédent Pages 340 - 342 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback