Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2007/1 (Vol. 44)

  • Pages : 120
  • DOI : 10.3917/docsi.441.0066
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 66 - 74 Article suivant
1

EN 2005, LA PUBLICATION SUCCESSIVE de nouvelles versions de normes anglo-saxonnes, ANSI/NISO Z39.19 et BS 8723, et la médiatisation de nouvelles formes de langages documentaires – les taxonomies, les ontologies – ont amené l’ADBS à poser la question de l’évolution de la norme française AFNOR Z 47-100 et, en corollaire, de la norme internationale ISO 2788 (voir page 68 la présentation de ces normes). Fallait-il envisager une révision complète de ces deux normes qui dataient des années quatre-vingt et qui ne prenaient pas ou guère en compte la gestion automatisée des thésaurus, ou considérer ces derniers comme obsolètes et destinés à disparaître au profit de nouvelles formes de langages contrôlés ?

2

La réponse à cette question constituant un préalable à tout travail de fond, un groupe de spécialistes des langages documentaires, créé à l’ADBS en 2003 pour échanger au sujet du web sémantique, a orienté sa réflexion autour de deux interrogations : comment les nouvelles normes posaient-elles la problématique des langages documentaires et en quoi étaient-elles novatrices ? à quels besoins les taxonomies et ontologies répondaient-elles et quelle pouvait être leur articulation avec les thésaurus ?

3

La réflexion du groupe s’est appuyée sur un important travail d’analyse comparative des quatre normes, travail qu’il nous a paru intéressant de faire partager. Pour que cette restitution reste abordable et lisible, nous avons fait le choix de ne pas entrer ici dans un trop grand niveau de détail. Les lecteurs qui souhaiteraient approfondir cet article pourront se reporter aux tableaux qui ont servi de base à sa rédaction : ils sont en ligne sur le site de l’ADBS [1][1] www.adbs.fr / site / publications / infopro.php.

1 - Un peu d’histoire

4

L’évolution des besoins de structuration de l’information est à l’origine de la remise en question des normes nationales de gestion des thésaurus. Sous la pression des nouvelles technologies du Web, la présentation des informations à l’écran a changé, pour s’adresser à un public plus large. Avec des interfaces plus faciles d’accès, avec une gestion des recherches moins sophistiquée car non exclusivement destinée à des documentalistes formés aux techniques d’indexation et d’interrogation des bases de données, la présentation des langages documentaires bénéficie des avancées des technologies du Web, en constante évolution.

5

Les thésaurus utilisés pour l’indexation et pour la recherche par mots clés se sont ainsi placés au centre d’un débat : les normes d’élaboration et de gestion des thésaurus datent, pour la plupart, des années quatre-vingt et accusent leur âge. D’autres outils – moteurs de recherche en texte intégral, taxonomies, ontologies – occupent, à tour de rôle, le devant de la scène dans le monde de la documentation.

6

Dès 2002, dans les colloques internationaux, certains professionnels américains et anglais de l’information communiquent sur le sujet. En 2003, lors de la révision périodiquement effectuée de la norme américaine de gestion du thésaurus, il apparaît évident que la prochaine version en sera complètement restructurée. Ce qui se confirme lorsque, début 2005, l’organisme de normalisation américain dédié à la documentation et aux livres, NISO (National Information Standards Organization), met à disposition un nouveau draft[2][2] Dans la terminologie propre aux organismes de normalisation,.... La version actuellement en vigueur de la norme ANSI/NISO Z39.19 a donc été adoptée en juillet 2005 et publiée peu après [3][3] Il faut noter que le processus de révision avait été....

7

En Grande-Bretagne, en l’absence d’une structure comparable à NISO, un collectif de professionnels s’est attelé à la tâche. Le draft de la future norme BS 8723, qui remplacera à terme, pour les parties 1 et 2, la norme BS 5723 (équivalente à la norme ISO 2788, actuellement en vigueur), a été diffusé, partie par partie, en 2005 et 2006. La dernière de ses cinq parties est actuellement en cours de rédaction, alors que les deux premières parties, approuvées, de la norme ont déjà été publiées par la British Standards Institution (BSI).

2 - Périmètre d’application des normes : élargissement à d’autres langages contrôlés

8

La première constatation qui s’impose à la lecture de ces mises à jour est que les normes de gestion de thésaurus ont élargi leur périmètre d’application à d’autres langages contrôlés comme, par exemple, les taxonomies. Sur le terrain, on constatait dès 2002-2003 l’utilité de la connaissance des règles de construction des thésaurus dans la gestion des taxonomies. Les titres des deux normes récemment révisées annoncent donc l’extension de leur périmètre aux vocabulaires contrôlés (controlled vocabularies) pour la norme américaine ou, selon les termes de la norme anglaise, aux vocabulaires structurés (structured vocabularies).

9

La norme américaine Z39.19 prend donc en compte les thésaurus, comme par le passé, mais aussi les synonym rings, les taxonomies et les lexiques, langages qui partagent avec les thésaurus un même système de choix des termes et le même type de réflexion préalable à la mise en place des relations, dans le but d’assurer aux utilisateurs une recherche plus facile.

10

Quant à la norme britannique BS 8723, elle s’applique bien entendu aux thésaurus mais aussi, dans sa partie 3, aux classifications, aux taxonomies, aux systèmes de vedettes matière et aux ontologies.

3 - Choix des termes : beaucoup d’éléments communs, mais quelques divergences entre les normes

11

On retrouve dans les différentes normes beaucoup d’éléments ou de rubriques identiques pour expliciter les règles de choix des termes (noms, abréviations, homographes, termes d’emprunt, etc.).

12

Il faut noter que les normes les plus récentes sont de plus en plus riches en exemples et descriptifs de cas rencontrés. Ceux-ci sont toutefois le plus souvent identiques d’une norme à l’autre. On remarquera cependant la spécificité de certains exemples ou cas liés à la langue anglaise et qui ne peuvent s’appliquer directement en français.

13

On retrouve toujours le même principe de base pour le choix des termes, soit « un terme égale un concept ». Ce qui renvoie à la notion de terme composé pour l’expression d’un concept qui ne peut être énoncé en un terme unique et à la difficulté d’appréhender un tel concept dans un langage contrôlé.

14

Choix des termes. Les normes les plus récentes donnent plus de détails en ce qui concerne le choix des termes, par exemple pour l’emploi des qualificatifs (la norme ANSI/NISO en présente huit cas) ou pour les notes d’application (notions d’historique ou de note réciproque pour BS et ANSI/NISO).

15

Types de concepts. Les notions de types (ou catégories) de concepts tels que les choses et leurs parties physiques, les matériaux, les activités ou processus, les événements, propriétés, disciplines, unités de mesure et noms propres sont bien développées dans les normes BS et ANSI/NISO (sept types de concepts).

16

Singulier ou pluriel. Le choix du singulier ou du pluriel pour les descripteurs varie d’une norme à l’autre, essentiellement en fonction de la langue concernée.

17

D’après la norme AFNOR, le choix est simple : tous les descripteurs doivent être au singulier sauf les mots qui sont naturellement au pluriel dans la langue.

18

Dans la norme ISO apparaît ce qui sera développé dans les normes plus récentes : la distinction entre ce que l’on peut dénombrer (how many ?), qui amène le pluriel, et ce qui ne peut pas l’être (how much ?), qui amène le singulier, avec de nombreux cas particuliers. Un exemple intéressant est fourni par le traitement des parties du corps. L’ISO prescrit d’écrire le descripteur au pluriel s’il concerne celles qui existent en double, comme les oreilles, les mains, les poumons, etc., mais au singulier s’il s’agit de parties uniques comme le nez, la tête, le cœur, etc. Ce choix a été modifié dans les normes récentes. Ainsi, dans la norme ANSI/NISO, toutes les parties du corps s’écrivent au singulier, y compris pour les organes en double (LUNG et EAR).

19

Une subtilité, pas toujours aisée à mettre en œuvre, fait une distinction entre les descripteurs relevant d’une classe, qui sont au pluriel (par exemple, PLASTICS), et ceux relevant d’une discipline, qui sont au singulier (par exemple, PHYSIQUE).

20

Les objets de musée s’écrivent au singulier, ce qui peut surprendre.

21

Dans la norme BS, le choix de l’emploi du singulier et du pluriel est identique à celui de la norme ANSI/NISO.

Liste des normes en vigueur et des organismes de normalisation émetteurs
22

Noms propres. Il est intéressant de remarquer que le traitement des noms propres, absent ou en listes annexes dans les normes anciennes, est de plus en plus détaillé dans les récentes révisions. Les normes BS et ANSI/NISO les considèrent comme un type de concept. La norme américaine souligne l’importance de leur contrôle.

23

Dans la même norme ANSI/NISO, de nombreux exemples sont proposés pour les unique entities.

24

Elle fait évidemment référence aux règles de catalogage anglo-américaines et aux publications américaines sur les noms géographiques.

25

D’une manière générale, la norme ANSI/NISO cherche à mieux se situer dans une réalité de terrain, à être plus pragmatique, à mieux prendre en compte les utilisateurs. Son domaine d’application est plus étendu (utilisation du mot terme à la place du mot descripteur), et elle donne beaucoup d’exemples.

4 - Précoordination et postcoordination : meilleur raisonnement du choix du degré de précoordination des termes

26

Ce choix se fait en fonction de la structuration des termes, de leur accessibilité pour la recherche et de l’interopérabilité des systèmes.

27

Toutes les normes existantes en matière de recommandations pour l’élaboration de thésaurus ou de vocabulaires contrôlés soulignent la difficulté du choix des termes composés, encore appelés termes précoordonnés. Cette difficulté réside à la fois dans la détermination du degré de précoordination, dans la cohérence des choix et dans l’établissement de règles objectives et faciles à formuler pour la « construction » des termes.

28

Principes et usages. Les termes d’un thésaurus doivent représenter des notions simples correspondant à un seul concept, que celui-ci soit traduit par un ou par plusieurs mots. Les notions complexes sont, quant à elles, exprimées par une combinaison de termes simples. L’ISO parle de système postcoordonné et d’entrées d’index précoordonné. La norme ANSI/NISO lie, elle aussi, ces notions à la recherche en parlant de recherche postcoordonnée et de recherche précoordonnée.

29

C’est la norme ANSI/NISO sur les vocabulaires contrôlés qui apporte le développement le plus important à ces questions de pré et de postcoordination [4][4] Cette même norme ANSI/NISO précise que les règles deconstruction.... Par combinaison de termes simples avec des opérateurs booléens, la postcoordination est utile pour la recherche dans des grandes bases de données complexes, et elle permet par ailleurs de conserver au vocabulaire une taille gérable. La précoordination, qui combine les termes en vedettes et sous-vedettes, est utilisée à l’indexation et à la recherche pour la fouille de données et pour la navigation, en particulier par les utilisateurs qui ne sont pas totalement familiers avec le vocabulaire contrôlé ni avec sa structure.

30

Les termes précoordonnés peuvent être utiles :

  • pour localiser une information très spécifique par fouille et navigation, plutôt qu’en utilisant séparément les termes qui les composent ;

  • pour regrouper des termes étroitement associés qui, sinon, risqueraient d’être disséminés dans le vocabulaire ;

  • pour décrire des concepts complexes très fréquemment utilisés dans le domaine (par exemple, AIDS TO FAMILIES WITH DEPENDENT CHILDREN).

Structuration hiérarchique des descripteurs. Pour aider à la définition et à la perception de ce que doit être un descripteur, la norme ANSI/NISO introduit la notion de sa structuration hiérarchique : « un descripteur représente un concept capable d’être organisé dans une relation genre-espèce dans une structure en arbre » (ainsi ENFANT ET TÉLÉVISION ne peut avoir ni TÉLÉVISION ni ENFANT comme terme générique ; il ne serait donc pas possible d’en faire un terme précoordonné).

31

La norme BSI indique que la cohérence dans le choix des termes précoordonnés ne peut pas être absolue, car ces choix sont différents selon que l’on se trouve au cœur du thésaurus ou dans un domaine qui lui est marginal. Cette caractéristique rend aussi difficile la compatibilité avec d’autres thésaurus. Ainsi, l’ANSI/NISO indique que des différences de pratiques ne sont pas sans incidence sur l’interopérabilité des systèmes.

32

Coordonner ou non : quels critères de choix ? Les différentes normes listent les critères et facteurs à prendre en compte pour choisir de précoordonner ou non les termes :

  • le volume du vocabulaire concerné (les termes précoordonnés augmentent son volume) ;

  • le domaine concerné qui peut nécessiter de la précoordination (AFNOR, ISO, ANSI/NISO) ;

  • les règles d’usage ;

  • la cohérence entre indexeurs et entre organismes, et la compatibilité avec d’autres langages ;

  • la logique de structuration (ISO, ANSI/NISO) ;

  • la précision à l’indexation et à la recherche (les termes composés augmentent la précision) (BS et ANSI/NISO) ;

  • la complexité des termes : ne pas combiner des notions avec deux modificateurs (par exemple : décomposer VEHICLE FIRE SAFETY en VEHICLE SAFETY et FIRE SAFETY) (BS) ;

  • les fausses combinaisons possibles…

Exemple de liste hiérarchisée avec affichage d’un terme et de ses relations (norme AFNOR)
33

Décomposition des termes. Les normes ISO, BS et ANSI/NISO complètent la réflexion en exposant des principes généraux de décomposition des termes, à respecter lors de l’élaboration d’un langage. Elles énoncent des principes et des règles fondés sur des éléments linguistiques et sémantiques. Un terme composé est constitué d’un cœur ou tête et d’un modificateur ou distinctif ; si le cœur est une partie ou une propriété du distinctif, le terme est à décomposer (par exemple : pour les termes MOTEUR D’AVION ou ACIDITÉ DES SOLS, il faut les décomposer en MOTEUR et AVION ou en ACIDITÉ et SOL). De même pour les termes comprenant une action transitive (MOULAGE DE L’ACIER à décomposer en MOULAGE et ACIER) ou une action intransitive (MIGRATION D’OISEAUX à décomposer en MIGRATION et OISEAUX).

34

À l’inverse, d’autres principes sont énoncés pour conserver des termes sous leur forme précoordonnée :

  • s’il s’agit du vocabulaire usuel (TRAITEMENT DE DONNÉES) ;

  • si la décomposition entraîne une perte de sens ou une ambiguïté ;

  • si le terme composé est ou contient un nom propre ;

  • si le distinctif a perdu son sens d’origine ou s’il suggère une ressemblance (VANNE PAPILLON, STRUCTURE EN ARBRE) ;

  • si l’adjectif modificateur ne définit pas une sous-classe (par exemple : MEMBRES ARTIFICIELS n’est pas une sous-classe de MEMBRES) ;

  • si le terme principal est un mot vide (THÉORIE).

Modes d’accès. La norme ANSI/NISO apporte un nouvel élément à la réflexion sur la précoordination. En effet, on y voit apparaître la notion d’accès aux termes selon qu’il s’agit d’un thésaurus imprimé ou d’un thésaurus en ligne (informatisé), avec un mode de lecture différent selon le cas. Cette norme prend en compte trois modes d’accès aux vocabulaires :

  • les index imprimés précoordonnés, plus faciles d’accès pour l’utilisateur ;

  • les ressources en ligne permettant la sélection de termes à combiner à la recherche ;

  • et la navigation sur le web avec l’emploi de termes précoordonnés pour mieux guider l’utilisateur dans la hiérarchie.

On voit ici que c’est le l’usage du vocabulaire à la recherche qui doit être la préoccupation essentielle en matière de coordination : il faut que ce vocabulaire soit le plus accessible possible à l’utilisateur pour lui faciliter la recherche d’information.

35

Dans la norme AFNOR, déjà, la difficulté d’uniformiser la précoordination avait été soulignée. En même temps, l’utilisation pratique du thésaurus et le domaine concerné étaient aussi reconnus comme des éléments essentiels de choix.

36

Les notions de pré et de postcoordination impliquent des facteurs multiples, dont la précision et la spécificité des termes, leur plus ou moins grande marginalité dans le domaine concerné, le volume du vocabulaire, le nombre de documents indexés ou la logique retenue pour la structuration des notions lors de l’élaboration du langage. Mais la nouvelle idée directrice, absolument essentielle, qui apparaît dans les normes les plus récentes, est de rendre le vocabulaire efficace à la recherche : il doit être facilement lisible et accessible pour que l’utilisateur soit naturellement guidé dans sa recherche d’information.

5 - Relations : meilleure définition et enrichissement

37

Dans les quatre normes, les « relations classiques » du thésaurus – équivalence, hiérarchie et association – sont décrites de façon analogue, en utilisant les mêmes exemples. Les divergences apparaissent cependant lorsqu’on entre dans le détail des relations explicitées en ce qui concerne leurs définition, étendue et emploi. Plus anciennes, les normes AFNOR et ISO sont centrées sur les relations du thésaurus en tant que tel. Les normes américaine et anglaise sont en revanche plus innovantes et mettent en avant des relations plus larges, influencées par d’autres types de vocabulaires contrôlés. On relève aussi une volonté de mieux définir les relations, plus précisément, et avec plus d’exemples.

38

L’évolution des normes va vers un élargissement des types de relations prises en compte, un enrichissement et une formalisation de celles-ci. Une volonté s’affirme d’ajouter, chaque fois que c’est possible, des précisions terminologiques et des explications plus rigoureuses ; et enfin de prendre en compte les spécificités de chaque domaine d’application d’un langage contrôlé ainsi que les contraintes technologiques incontournables.

39

Relations d’équivalence. Les convergences entre les normes sont fortes, dans ce premier type de relations, avec une identification claire de quatre grandes équivalences : synonymie, variantes lexicales, synonymie proche et renvoi au générique (ou generic posting). Le renvoi au terme générique, décrit à partir de l’ISO, est renforcé dans les deux normes anglaise et américaine. La polyéquivalence n’apparaît que dans la norme AFNOR et l’équivalence historique est mieux prise en compte dans l’ISO et les normes anglaise et américaine.

40

Signalons que, dans une autre partie de la norme ANSI/NISO, est présentée une relation d’un type particulier, appelée synonym ring : il s’agit de décrire une relation d’équivalence entre plusieurs termes sans désigner de terme préférentiel, ce qui peut être très utile en recherche.

41

Relations hiérarchiques. Dans les normes ANSI/NISO et BS, les relations hiérarchiques sont mieux identifiées, enrichies et plus finement définies. Si la relation générique et la polyhiérarchie sont présentes dans toutes les normes, on remarque dans les deux révisions récentes une évolution importante pour les autres types de relations hiérarchiques.

42

Au fur et à mesure de leur évolution, ces normes tentent de mieux faire comprendre la nature de ce type de relation. Les relations hiérarchiques d’instance et partitive, notamment, sont mieux distinguées et définies : identifiées dès la norme ISO, elles sont clairement formalisées dans les normes ANSI/NISO et BS.

43

Autre évolution : la notion de top term (terme de tête, c’est-à-dire le terme situé au plus haut de la hiérarchie) est absente des normes AFNOR et ISO, mais présente dans les deux autres.

44

Relations associatives. Les types de relation associative décrits dans les normes ANSI/NISO et BS sont plus nombreux et leurs caractéristiques sont mieux précisées : action/produit, action/propriété, etc., mais il n’en demeure pas moins qu’il ne s’agit toujours que d’une seule et même relation d’association.

45

La distinction des relations entre termes de « même hiérarchie » ou de « hiérarchies distinctes » est toujours un critère clé de choix. Les relais virtuels, déjà présentés dans le texte de la norme ISO, apparaissent dans la norme ANSI/NISO pour organiser des groupes de termes en relations associatives, comme pour les relations hiérarchiques. Ils sont également présents dans la norme BS au niveau des définitions et dans l’arrangement par facettes, mais n’apparaissent pas dans la partie qui décrit les relations.

46

Un aspect nouveau : des relations « sur mesure ». Les normes ANSI/NISO et BS abordent la possibilité de créer des types de relations autres que celles qui avaient été décrites jusqu’ici, dans le but de mieux répondre à un besoin particulier. Mais elles insistent sur la nécessité de s’assurer préalablement du bien-fondé de cette initiative. De la même façon que la relation hiérarchique peut être subdivisée en générique, partitive ou instance, les relations d’équivalence (BS) et associatives (BS et ANSI/NISO) peuvent être subdivisées en cas de besoin. Par exemple : CAUSE/EFFET pour les relations associatives et DENOMINATION/SIGLE pour les relations d’équivalence.

6 - Présentation des thésaurus : diversification

47

Les thésaurus peuvent se présenter sous des formes variées sur papier ou à l’écran. Toutes les normes prévoient une présentation alphabétique et une présentation graphique, mais leurs prescriptions diffèrent en fait notablement. Ce qui se traduit très nettement dans les éditions papier des thésaurus existants.

48

Les normes américaine et anglaise apportent de nouveaux éléments en introduisant une approche en fonction de l’utilisateur, des précisions sur les aspects formels de la présentation et sur le mode de consultation à l’écran.

49

La nécessité de prévoir différents types de présentation en fonction des types d’utilisateurs constitue un des apports majeurs de la norme américaine. Ainsi, elle prévoit une présentation pour le gestionnaire de langage (version complète avec note historique), une autre pour les indexeurs (version avec notes d’application, instructions d’indexation, informations sur l’histoire des termes pour les spécialistes), et une dernière pour les utilisateurs finals (liste simple de termes avec références et relations).

50

Les aspects formels concernent d’une part la typographie qui est définie précisément afin de permettre de distinguer visuellement la nature des relations en indiquant les graisses à utiliser ; et d’autre part les signes pour indiquer, par exemple, les relais virtuels.

Exemples de présentation thématique structurée avec des codes de classification (référence norme ISO) et de champ sémantique
51

Présentation des relations. Les normes diffèrent assez profondément dans la nature des relations qui doivent être mentionnées dans la liste alphabétique complète.

52

Ainsi, la norme anglaise prévoit de mentionner dans cette liste non seulement les relations d’équivalence, de hiérarchie et d’association et la note d’application, mais également le code de classification, le terme de tête, la définition et la note historique. C’est la seule norme à exposer ces exigences.

53

Pour la liste permutée, la même norme indique qu’elle doit comprendre les descripteurs et les non-descripteurs, alors que la française ne précise rien et que l’américaine indique qu’elle ne doit pas les inclure.

54

Les deux normes récemment révisées précisent que ces points n’ont plus de raison d’être lorsqu’il s’agit de présentation à l’écran.

55

Présentation hiérarchique. Elle peut revêtir des formes très variées : présentation par sujets, par facettes, ou polyhiérachique dans les normes anglaise et américaine. La norme française prévoit un regroupement par domaine d’intérêt. Celle de l’ISO indique que la présentation systématique doit comprendre deux parties : d’une part les catégories arrangées selon leur signification et les relations logiques ; d’autre part un index alphabétique qui renvoie sur la partie systématique, le lien entre les deux étant assuré par un code de classement. L’organisation systématique peut être faite par domaines ou par facettes, ou encore en approche combinée.

56

Présentation graphique. Elle peut se faire sous forme de schémas fléchés (AFNOR, ISO) ou d’arbres (toutes normes). La norme américaine précise que des outils logiciels permettent de réaliser des représentations graphiques qui peuvent être des cartographies statiques, mais que les systèmes en ligne génèrent des clusters en temps réel. Cette dernière norme donne également des indications précises sur la typographie à utiliser ainsi que sur les critères de tri.

57

Présentation à l’écran. Les normes anglaise et américaine distinguent clairement des présentations différentes pour l’impression et pour la consultation sous forme électronique.

58

Comme le montrent les exemples qui illustrent cet article, la présentation à l’écran doit permettre :

  • le déploiement d’un terme pour visualiser son environnement sémantique ;

  • la navigation au sein d’une hiérarchie et entre hiérarchies par l’utilisation de liens hypertextuels ;

  • mais aussi la recherche sur mot ou chaîne de caractères et ainsi l’affichage de la liste des termes qui contiennent ces mots puis, par la mise en place des liens hypertextuels, la navigation au sein du vocabulaire.

Utilisation d’un thésaurus pour la recherche. Les normes BS et ANSI/NISO apportent les éléments relatifs à l’utilisation du thésaurus dans les systèmes de recherche. Elles développent les fonctionnalités nécessaires pour l’utilisation en recherche de termes dans le thésaurus lui-même et pour son usage pour le lancement d’une requête dans une base de données. Sur ce point, la norme anglaise, encore plus récente, apporte plus de précisions.

59

Ainsi, en matière de présentation de thésaurus, les normes récentes prennent en compte les nouvelles possibilités offertes par les technologies et en particulier par l’utilisation de l’hypertexte, qui permet la navigation mais aussi des niveaux de lecture adaptés aux différents types d’utilisateurs. Elles donnent des précisions utiles pour harmoniser la présentation formelle dans le souci de faciliter la lecture. Les divergences profondes qui restent ne sont que le reflet de différences plus fondamentales sur la structure d’un thésaurus.

7 - Comment construire un thésaurus ?

60

Les nouvelles normes n’apportent pas sur ce point de modifications radicales mais des éléments nouveaux. Ce sont essentiellement de nombreuses précisions sur le processus d’élaboration d’un thésaurus, ainsi que des développements sur l’utilisation des outils informatiques dans les phases d’élaboration et de gestion des mises à jour, points qui, compte tenu de leurs dates d’édition, ne pouvaient être développés dans les normes AFNOR et ISO.

61

Les normes divergent rarement mais se complètent beaucoup : on conseillera donc aux chefs de projet thésaurus de les lire toutes les quatre, chacune apportant son lot de précisions utiles pour affiner la méthode de travail. Notons d’ailleurs que la norme AFNOR reste la seule à offrir un schéma de représentation des étapes d’élaboration.

62

D’autres questions pratiques sont développées, telles que la structure des fiches d’enregistrements (records) des descripteurs et non-descripteurs ou les avantages et inconvénients de l’intervention des experts. Toutefois des questions restent encore sans réponse, comme celle-ci, fréquemment posée par les groupes de projet et les étudiants : à quel rythme faut-il mettre à jour un thésaurus ? Ce rythme étant très lié aux caractéristiques du système documentaire et aux spécificités du thésaurus lui-même, les normes n’ont pas à traiter ce point sur lequel l’expérience des professionnels restera déterminante.

Exemple de descripteur avec son environnement sémantique

8 - Interopérabilité des systèmes et des langages contrôlés : un élément nouveau

63

La partie la plus novatrice est, sans doute, dans les deux normes du monde anglo-saxon, celle qui pose un problème occulté dans les normes antérieures : celui de l’interopérabilité qui doit permettre à deux ou plusieurs systèmes d’échanger entre eux des données.

64

Une ouverture récente. Les usages en sont multiples et apportent une aide non négligeable aux utilisateurs : recherche dans des bases de données différentes en utilisant le même langage, fusion de plusieurs bases de données indexées à l’aide de différents langages, fusion de deux ou plusieurs langages pour réunir en un seul tous les concepts et termes contenus dans les vocabulaires d’origine. Sans oublier l’accès aux connaissances dans toutes les langues utilisées dans une multinationale (un thésaurus multilingue tel que décrit dans les normes BS 6723 ou ISO 5964 peut convenir), et la gestion dans un même système d’une indexation et d’une recherche utilisant différents niveaux de langage (par exemple : noms latins des plantes réservés aux spécialistes et noms communément utilisés).

65

Les normes éditées par l’AFNOR et par l’ISO dans les années quatre-vingt ne traitent pas de l’interopérabilité en tant que telle, dans la mesure où, à l’époque, l’environnement technologique imposait plus de limitations que d’ouvertures. Les exemples sont parlants : limitation du nombre de caractères, exclusion des signes diacritiques, majuscules obligatoires pour les descripteurs, ponctuation et caractères spéciaux interdits car sources de problèmes de traitement informatique, pour l’AFNOR ; mais aussi, pour l’ISO, limitation du nombre de caractères pour un terme, jeu de caractères disponibles sur l’imprimante, nombre de niveaux de décalage dans la présentation systématique.

Un exemple de facettes
66

Si les normes récentes se retrouvent sur le besoin d’interopérabilité des systèmes, le problème des formats d’échange et des protocoles n’est pas pour autant résolu. Les formats et les protocoles d’échange ne sont pas abordés par la nouvelle norme ANSI/NISO. Mais la future norme britannique proposera, dans sa cinquième partie en cours de rédaction, un modèle d’échange de données pour les thésaurus, fondé sur un formalisme.

67

Mise en œuvre et maintenance. Sur le plan conceptuel, la norme britannique prescrit des règles pour établir des ponts entre les concepts, termes et relations qui appartiennent à deux vocabulaires différents. Elle décrit en détail les possibilités de combinaison des langages contrôlés envisagées pour couvrir les besoins de la recherche lorsque l’indexation a été effectuée dans un langage A et que la recherche se fait à l’aide d’un langage B, ainsi que les écueils à éviter, comme la perte de précision. Quant à la norme américaine, elle décrit en détail les possibilités de superposition de deux langages contrôlés qui doivent communiquer, mais dans une annexe qui, si elle ne fait pas partie intégrante de la norme proprement dite, donne une bonne représentation des pratiques rencontrées.

68

En ce qui concerne les problématiques de fusion de vocabulaires contrôlés lors de la réunion de bases de données, les principaux problèmes à résoudre seront la restructuration des hiérarchies, l’adaptation de la sémantique et de la forme, la spécificité et l’usabilité du vocabulaire obtenu.

69

Des modèles structurels sont aussi proposés, fondés soit sur une unité structurelle (une structure unique exprimée en plusieurs langues) soit sur une absence d’équivalence. Des liens peuvent être établis deux par deux entre des notions sans forger d’équivalences globales en terme de hiérarchies, ou, autre possibilité, un langage contrôlé peut être une sorte de pivot sur lequel se greffent tous les autres langages. La combinaison de plusieurs scénarios n’est pas non plus à négliger.

70

Les nouvelles normes abordent enfin la question du stockage et de la maintenance des relations. Il n’est d’ailleurs pas exclu d’envisager le stockage du langage dans une base de données terminologique externe au système de gestion documentaire dont il gère les besoins de recherche. Des règles sont énoncées pour la gestion des équivalences entre vocabulaires structurellement différents et pour un thésaurus multilingue.

Perspectives

71

La mise à jour des normes anglaise et américaine a de fortes chances d’aboutir à une évolution de la norme internationale d’établissement et de développement de thésaurus monolingues ISO 2788.

72

En France, il nous semble que le moment est venu de s’interroger sur les pratiques des documentalistes sur le terrain, dans la gestion quotidienne de leurs thésaurus, et de faire le point sur leurs besoins de clarification des méthodes de construction et de mise à jour de leur outil de travail quotidien. Nous étudions l’opportunité et les modalités d’une participation à l’évolution de la norme ISO pour le compte de l’AFNOR.

73

Il nous semble que le potentiel des langages contrôlés n’est pas négligeable dans un monde où la production, les besoins et les flux d’information croissent de plus en plus vite. Une constante s’impose : organiser et présenter une structure du langage qui soit immédiatement compréhensible est un atout dont les documentalistes ne sauraient se dispenser de tirer parti. L’évolution des normes relatives aux thésaurus donne ainsi aux professionnels de l’information-documentation des clés pour faire évoluer leurs pratiques de mise à disposition de l’information.

Notes

[2]

Dans la terminologie propre aux organismes de normalisation, un draft est un document préparatoire à une norme, soumis à discussion entre experts au sein d’un comité ad hoc et qui ne devient une norme qu’après avoir été approuvé par un vote de ce comité.

[3]

Il faut noter que le processus de révision avait été sponsorisé par la fondation Getty, la fondation H. W. Wilson et la National Library of Medicine, et que le groupe de travail comptait vingt membres. Le texte peut en être téléchargé librement à l’adresse : www.niso.org/standards/standard_detail.cfm?std_id=814.

[4]

Cette même norme ANSI/NISO précise que les règles deconstruction des termes d’indexation précoordonnés sont hors duchamp couvert par la norme et elle renvoie vers le Manuel de catalogage de la Bibliothèque du Congrès avec les subjects headings.

Résumé

Français

À la suite de la révision récente de deux normes (américaine et britannique) d’établissement et de développement de thésaurus, un groupe de travail de l’ADBS s’est interrogé sur l’opportunité de réviser la norme française et, au-delà, la norme internationale en vigueur. Dans cette perspective, ce groupe s’est principalement demandé comment les nouvelles normes abordent la problématique actuelle des langages documentaires, comment elles articulent aux thésaurus les taxonomies et les ontologies – en d’autres termes en quoi elles sont novatrices. C’est le résultat d’un examen approfondi de ces nouvelles normes, comparées à leurs versions antérieures et aux normes française et internationale, que présente cet article.

Plan de l'article

  1. 1 - Un peu d’histoire
  2. 2 - Périmètre d’application des normes : élargissement à d’autres langages contrôlés
  3. 3 - Choix des termes : beaucoup d’éléments communs, mais quelques divergences entre les normes
  4. 4 - Précoordination et postcoordination : meilleur raisonnement du choix du degré de précoordination des termes
  5. 5 - Relations : meilleure définition et enrichissement
  6. 6 - Présentation des thésaurus : diversification
  7. 7 - Comment construire un thésaurus ?
  8. 8 - Interopérabilité des systèmes et des langages contrôlés : un élément nouveau
  9. Perspectives

Pour citer cet article

Chichereau Dominique, Contat Odile, Dégez Danièle, Deniau Alina, Lénart Michèle, Masse Claudine, Ménillet Dominique, « Les normes de conception, gestion et maintenance de thésaurus. Évolutions récentes et perspectives », Documentaliste-Sciences de l'Information, 1/2007 (Vol. 44), p. 66-74.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-1-page-66.htm
DOI : 10.3917/docsi.441.0066


Article précédent Pages 66 - 74 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback