Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2003/4 (Vol. 40)

  • Pages : 80
  • DOI : 10.3917/docsi.404.0280
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 280 - 287 Article suivant
1

AU SEIN DE L’ORGANISATION EUROPEENNE POUR LA RECHERCHE NUCLEAIRE (CERN), la section Gestion documentaire du Service de l’information scientifique (CERN-ETT-SI-DM) a pour rôle de diffuser les travaux en physique des hautes énergies des chercheurs du monde entier.

2

La naissance du web, créé au CERN en 1989 par Tim Berners-Lee, puis l’arrivée en 1994 [1][1] ArXiv.org e-Print archive / LANL, Los Alamos National... des serveurs (de publications, de prépublications, de thèses, etc.) ainsi que la nouvelle politique d’acquisition du Service de l’information scientifique (SIS) [2][2] Le CERN Document Server team a mis au point avec le... ont eu pour conséquence une augmentation considérable des données électroniques à traiter [3][3] De 1998 à 2001, le nombre de prépublications et de.... Parallèlement, la recherche de la qualité optimale de celles-ci devint un souci majeur afin de satisfaire au mieux les besoins des chercheurs.

3

Ainsi, depuis quelques années, cette section utilise de plus en plus les nouvelles technologies pour accéder aux très nombreux documents électroniques diffusés par les serveurs et développer ainsi sa politique d’acquisition. Pour éviter d’avoir à procéder manuellement au catalogage des documents, le SIS s’est orienté peu à peu vers l’importation de données bibliographiques issues de laboratoires de tous horizons et provenant donc de bases de données ou de sources diverses accessibles par des sites web [1] [2] [3] [4].

4

La quantité croissante de ces importations (environ mille à mille deux cents documents sont importés chaque semaine dans notre base qui en contient aujourd’hui plus de quatre cent mille) a très vite soulevé le problème aigu de la correction et de la mise à jour des données de catalogage. Effectuer comme auparavant des modifications manuelles, notice par notice, champ par champ, ne pouvait plus être envisagé.

5

Le SIS fit alors appel aux outils proposés par le logiciel Aleph [4][4] Aleph 300, produit par la société Ex Libris, est un... :

  • les filtres [voir fig. 1] servant à vérifier des champs clés comme ceux qui génèrent des liens sur le web (champs relatifs aux références des publications par exemple). Mais cet outil se révéla insuffisant à cause du volume de notices à traiter alors qu’il ne peut fonctionner sur plus de 2.500 notices, et parce qu’il ne peut détecter certains types d’erreurs. Il restait donc un grand nombre de corrections manuelles à effectuer ;

  • les utilitaires [voir fig. 2] permettant d’éditer massivement d’autres champs clés, choisis pour vérification de leur format. Ils sont apparus également inefficaces en raison de l’ampleur des corrections à faire manuellement et du temps nécessaire pour obtenir une base parfaitement fiable lors d’une recherche effectuée par les usagers sur l’interface web du catalogue ;

  • enfin des listes de références, comportant des champs rejetés (hors format) avec leur correspondance avec des champs retenus (conformes) [5][5] Le fonctionnement de cet outil est développé en figure..., ont été créées pour formater automatiquement certains champs.

En complément de ces outils d’Aleph qui ne permettaient pas de faire fonctionner des listes de références et d’assurer une maintenance de tous les champs des notices, il s’imposait de concevoir un programme informatique spécifique [6][6] Parallèlement, d’autres outils ont été développés pour....

1 - Le programme de contrôle automatique chkall

6

Ce programme a été conçu au départ pour mettre à jour la base de données de littérature grise du SIS, la base HEP (High Energy Physic). Il a été appliqué ultérieurement à la base des monographies. Il sert donc aujourd’hui à la mise à jour des deux bases.

Constitution d’un descriptif pour l’élaboration du programme

7

Chaque règle de catalogage dut être énoncée minutieusement pour chaque champ et sous-champ des notices selon la nature des documents : prépublication, rapport, thèse, publication ou tout autre document relevant de la littérature grise.

8

Ce descriptif fut ensuite présenté au service CERN Document Server team, constitué d’informaticiens avec qui collabore le SIS [7][7] Précisons toutefois que cet article n’a pas été écrit..., qui choisit de traduire ce descriptif en langage PERL [8][8] Practical Extraction and Report Language. Ce langage... pour aboutir au programme définitif nommé chkall.

Fonctionnement du programme chkall

9

Appliqué à un ensemble plus ou moins grand de notices stockées dans un fichier, chkall détecte les erreurs de formatage de ces notices.

10

Il faut d’abord extraire de la base un fichier de notices à corriger, par le biais des filtres et des utilitaires [voir fig. 3]. Cette manière de procéder permet de choisir les données à corriger et de les extraire, totalement ou partiellement, soit par année ou par semaine, soit par type de document (prétirage, publication, thèse, etc.), soit par type de champ seulement (on peut se limiter à des corrections ne portant que sur tel champ pour un ensemble de notices ou sur deux ou plus…).

11

Il faut ensuite lancer le programme chkall sur le fichier d’extraction. Cette opération permet non seulement le nettoyage hebdomadaire aisé des nouveaux documents quotidiennement importés, mais aussi le nettoyage rétrospectif de toute la base de littérature grise qui, au cours du temps, avait connu différentes règles de catalogage. En raison de l’impossibilité de mener à bien une telle tâche par une procédure manuelle, son harmonisation n’avait jamais pu être menée. Cela est d’autant plus important que notre base de données globale va prochainement adopter le format MARC 21 [9][9] Format de catalogage pour l’échange des données, MARC..., le format actuel étant un format MARC personnalisé.

1 - Exemple de filtres fonctionnant1
Exemple d’un filtre ne fonctionnant pas
2 - Exemple d’utilitaire (iutil 3/3) permettant l’extraction de tous les documents (1000 notices) importés en semaine 43 dans la base de littérature grise HEP2
3 - Exemple de fichier extrait par un utilitaire3

Résultat

12

Après avoir été appliqué au fichier d’extraction, le programme chkall édite trois fichiers de corrections à traiter différemment, comme le montre la figure 4 (extraits des trois fichiers obtenus à partir d’environ un millier de notices importées au cours de la semaine 43).

13

• Le fichier 1 comprend des messages précis d’erreurs portant sur tous les champs et sous-champs des notices. Les corrections sont à traiter manuellement à partir des numéros de notices donnés.

14

Exemple. En considérant le résultat obtenu à partir d’une seule notice, celle de la figure 3, on constate que le fichier 1 contient un seul message d’erreur à corriger manuellement :

15

E: SYSNO=2320421 PR {p,c} missing for base 13

16

Il indique qu’il manque un sous-champ dans le champ PR (référence de publication). En effet, le sous-champ $$p n’a pas été trouvé car il manque un $. Cette erreur a des incidences importantes sur les liens hypertextes, développés en figure 6.

17

• Le fichier 2 comporte des champs corrigés à importer automatiquement dans la base.

18

Exemple. Le fichier 2, toujours obtenu à partir de la seule notice de la figure 3, contient des champs qui remplaceront automatiquement les champs faux, après versement de ce fichier sur Aleph sous Unix. Rien ne sera donc fait manuellement.

19

CER 2320421 AU L Phillip, R J N

20

CER 2320421 AU L Roy, D P

21

CER 2320421 BASE L 13

22

CER 2320421 IM?L $$pMadison, WI$$n Wisconsin Univ. Dept. Phys. $$d29 Nov 1993$$c9 p

23

CER 2320421 RN L MAD-PH-790

24

Il affiche deux noms d’auteurs dans le but de les conserver (ils seront sinon écrasés par l’ajout du premier auteur (AU2) dans le fichier 3 ci-dessous). Il transforme la base 11 (base des prépublications) en base 13 (base des publications) puisqu’il s’agit là d’un article. Il met à jour le champ IM en le complétant par la ville de l’éditeur et standardise le champ RN (numéro de rapport) par des tirets (conformément aux listes de références des champs RN, IM, évoquées en figure 7).

25

• Le fichier 3 comporte des ajouts d’informations ou de champs à importer automatiquement de la même manière.

26

Exemple. Le fichier 3 contient des informations manquantes (qui seront ajoutées automatiquement dans la base par soumission de ce fichier). Rien ne sera donc, là non plus, fait manuellement.

27

CER 2320421 AU2 L Barger, V

28

CER 2320421 SU L xx

29

L’auteur est déclaré en tant que premier auteur, donc placé dans un champ AU2, et la catégorie manquante (champ SU) est ajoutée (avec le contenu XX) afin d’être précisée ultérieurement. (AU2 sera présent en format MARC 21 dans les champs 100, entrée principale, et 700, fichier d’autorités auteurs).

2 - Les difficultés rencontrées

Rédaction du descriptif et de sa traduction en PERL

30

Les difficultés relèvent principalement de la diversité des documents de littérature grise. De ce fait, la rédaction du descriptif et du programme PERL fut ardue et complexe. Par exemple, la mise au point d’un seul champ ou zone comme IM, relatif à l’édition (ville, éditeur, année d’édition) et à la collation, fut longue et délicate. Chaque éventualité pouvant se présenter dans ce champ devait être envisagée et mentionnée [fig. 5], chaque notion interdépendante des autres devant figurer dans un ordre pertinent pour que le programme fonctionne correctement.

Plusieurs étapes

31

Le programme doit être lancé plusieurs fois sur le même ensemble de notices. En effet, une première série de corrections peut engendrer de nouvelles modifications détectées par chkall. Ainsi, pour une notice relative à un document produit par le CERN, chkall mentionne dans le fichier 1 par exemple l’absence du champ DI (relatif à la division, propre aux documents CERN). Après l’ajout manuel de ce champ, le nouveau lancement de chkall, sur cette même notice, identifiera celle-ci comme appartenant au CERN et mentionnera, dans le fichier 2, le sous-champ spécifique manquant, SW=$$ya2002, servant à extraire la notice pour l’édition du rapport annuel du CERN.

Gestion des fichiers de corrections

32

Le traitement d’un champ répétitif est des plus délicats. Lors de l’extraction par les utilitaires d’un tel champ à partir d’un fichier spécifique, il faut penser à cibler tous les champs multiples (NI=LANL EDS, NI=PROQUEST, etc.) [10][10] NI : note interne indiquant la source de la notice.... et surtout ne pas se contenter du premier champ rencontré (NI=LANL EDS). Sinon, les champs justes d’origine seraient remplacés par les champs corrigés. De même, chkall réaffiche, dans les fichiers créés, les champs multiples justes, pour ne pas les perdre ; c’est pourquoi, dans l’exemple détaillé ci-dessus, les champs AU (auteurs) justes sont affichés dans le fichier 2, comportant les champs corrigés.

4 - Extraits de fichiers hebdomadaires4
5 - Extrait du descriptif pour le champ IM relatif à l’édition (ville, éditeur, année d’édition) et à la collation5
33

D’autre part, un champ non aligné, c’est-à-dire déplacé d’un espace dans un fichier à verser dans la base, peut provoquer de graves perturbations sur le catalogue. D’autres types d’erreurs peuvent bloquer la procédure d’importation d’autres fichiers.

34

Enfin, la gestion des fichiers 2 (fichiers de champs corrigés) et fichiers 3 (fichiers de champs à ajouter), à verser automatiquement dans la base, nécessite une attention particulière. En raison du nombre important de notices importées et traitées chaque jour, la capacité de traitement du système actuel nous impose un nombre limité de corrections à faire dans la base (problème de mise à jour des fichiers d’autorités). De ce fait, nous devons mettre en place et gérer des listes d’attente de fichiers de corrections de plus en plus nombreux en raison de l’accroissement des données importées. Or les notices sont modifiables dans la base de données par tout collègue qui peut être amené entre temps à ajouter ou à changer des informations [11][11] Le catalogage est une fonction ouverte à tous au S.... Aussi les fichiers de corrections seront versés plus tard sur des notices qui ne correspondent plus aux notices d’origine. Cela peut générer une importation d’erreurs (doubles champs, fausse base, etc.) qui nécessite un nouveau lancement de chkall.

3 - Les atouts du programme chkall

Rapidité à détecter toutes les erreurs

35

L’application chkall a besoin d’environ une heure pour traiter un fichier portant sur les notices d’une année entière (environ 60.000 notices), six minutes pour le fichier des notices hebdomadaires et cinq secondes pour une dizaine de notices.

36

D’autre part, chkall traite tous les champs des documents du SIS, soit plus d’une vingtaine, ainsi que leurs sous-champs. Le type d’erreurs sur chaque champ et sous-champ est multiple. Sur le seul champ IM (relatif à l’édition), chkall peut trouver plus d’une quinzaine de types d’erreurs ; par exemple, le nom d’une ville peut être mal orthographié ou inexact, la lettre du sous-champ peut être manquante ou fausse, l’emplacement de ce sous-champ peut être dans un ordre non conforme aux règles, etc. Il aurait bien sûr été impossible de détecter et de traiter manuellement ces erreurs à une échelle aussi importante.

37

Toutefois, bien que complexe dans son élaboration, le lancement seul de chkall est très simple. Il a permis un changement considérable dans la nature de notre travail, devenu ainsi plus spécifique et moins répétitif. Les modifications manuelles après relecture d’une notice ont complètement disparu.

Bonne répartition des tâches

38

Les fichiers 1 de messages d’erreurs peuvent être traités aisément par les nombreux stagiaires que nous accueillons. De cette façon, ces derniers se familiarisent très rapidement avec la base de données et avec les règles de catalogage. Les fichiers à soumettre (ceux des champs corrigés et des champs à ajouter) restent du domaine des initiés à Unix. En effet, une erreur dans leur manipulation peut engendrer des problèmes considérables sur la base de données, comme nous l’avons indiqué précédemment.

Souplesse du programme

39

Ce programme a été écrit en respectant l’ordre de chaque champ des notices. Ce qui rend possibles des ajouts ou des retraits en fonction de l’évolution des règles de catalogage ou des changements décidés. Il nécessite un suivi constant. Il n’est donc pas figé mais permet une mise à jour rapide et rétrospective.

40

D’autre part, ce programme peut être utilisé à la carte, pour tel type de champ par exemple, en réalisant des fichiers d’extraction limités à ce seul champ. Il est d’ailleurs possible, de cette manière, de nettoyer des bases complètement différentes de celles prévues à l’origine par le programme, comme celle, par exemple, des monographies. Trois moyens sont possibles pour y parvenir. On peut réaliser des fichiers d’extraction limités aux champs communs de la base HEP et de celle des monographies. On peut aussi réaliser des fichiers d’extraction de notices complètes mais retirer ensuite, dans les fichiers d’erreurs, les corrections qui ne concernent pas les monographies [12][12] Comme par exemple celles touchant les informations.... Enfin, le programme peut être lancé en ajoutant à la commande une restriction pour certaines options non conformes à la base des monographies.

Valeur ajoutée par le SIS

41

Le programme chkall a permis d’assurer la qualité d’un éventail très large de documents importés, permettant aux lecteurs d’interroger l’interface web de manière optimale, rapide et pertinente.

6 - Création de liens hypertextes6
7 - Extrait de la liste de références des titres de journaux (plus de 2.000 lignes de références), servant à formater le champ PR, relatif à la référence de publication7
Extrait de la liste de références des villes et éditeurs (plus de 1800 lignes de références), servant à formater le champ IM
Extrait de la liste de références des numéros de rapports, servant à formater le champ RN
42

Les corrections et ajouts d’informations dans les notices enrichissent les données et permettent de faciliter l’accès à l’information sur le catalogue.

43

Une référence de publication formatée par chkall selon la norme ISO 4 (norme d’abréviation de mots de titres) permettra la préparation d’un lien dynamique sur l’interface web [13][13] Une fois structuré, le champ de référence d’une publication.... Le lecteur pourra ainsi accéder directement à l’article publié dans le journal, si la bibliothèque est abonnée à ce journal électronique [voir fig. 6].

44

Le programme chkall est rattaché d’ailleurs à des listes de références [voir fig. 7], comme évoqué en début d’article, pour formater et standardiser automatiquement les champs correspondant par exemple aux titres des journaux, aux villes et éditeurs ou encore aux numéros de rapports. À partir d’une information non conforme aux fichiers d’autorités, le programme renvoie aux listes de références et permet d’obtenir la forme retenue des informations spécifiques à ces listes.

4 - Un programme utilisable dans d’autres services de documentation

45

Il a fallu deux années de travail pour parvenir à la mise au point complète de ce programme. Elle s’est traduite par des élaborations très précises, des tests, des transformations constantes et de nombreuses mises à niveau dans le catalogage.

46

Cet outil a répondu aux objectifs fixés et les a même dépassés. En effet, il permet d’une part la mise à jour des notices importées quotidiennement, de plus en plus nombreuses. Il a de plus rendu possibles l’harmonisation et l’uniformisation rétrospective de tout le catalogue de la littérature grise ainsi que de la base des monographies. Ce qui permettra ainsi la conversion cohérente des données au format MARC 21, prévue prochainement, et la constitution du nouveau catalogue [14][14] http:// cdsweb. cern. ch. De ce fait nous poursuivons non seulement notre travail d’équipe pour la maintenance de ce programme mais nous lui apportons déjà quelques modifications pour qu’il puisse fonctionner dans sa nouvelle version sous MARC 21. Vu le succès qu’il a remporté dans notre service, les autres sections du SIS commencent à prendre modèle sur cette technique performante (pourtant déjà expérimentée auparavant en d’autres circonstances [5] [6]) et à mettre en place elles aussi de tels programmes.

47

Dans sa nouvelle version, chkall pourrait aussi être facilement utilisable et ajustable par d’autres services de documentation utilisant le format MARC 21.

48

NOVEMBRE 2002, Texte mis à jour en juillet 2003


Références

Notes

[1]

ArXiv.org e-Print archive / LANL, Los Alamos National Laboratory (Los Alamos, NM), avec plus de 170.000 prépublications et communications scientifiques produites depuis 1991, permet à tout scientifique de diffuser ses travaux électroniquement. La section CERN Document Server team a réalisé au CERN en 1994 un premier programme informatique d’importation spécifique de ces données. D’autre part, elle a créé par la suite un serveur propre au CERN (http:// cds. cern. ch/ ).

[2]

Le CERN Document Server team a mis au point avec le SIS un deuxième programme informatique d’importation de données provenant de divers instituts, nommé Uploader. Ce travail a été présenté dans un article publié en 2001 dans cette revue [4].

[3]

De 1998 à 2001, le nombre de prépublications et de rapports importés par le service CERN-ETT-SI-DM est passé de 32.027 à 46.318.

[4]

Aleph 300, produit par la société Ex Libris, est un logiciel documentaire israélien. Système intégré modulaire, il propose des modules de catalogage, gestion des localisations, gestion des périodiques, maintenance et autorité, circulation, acquisition web serveur et client, opac, prêt entre bibliothèques.

[5]

Le fonctionnement de cet outil est développé en figure 7.

[6]

Parallèlement, d’autres outils ont été développés pour détecter des doublons, des erreurs dans les noms d’auteurs, etc.

[7]

Précisons toutefois que cet article n’a pas été écrit en collaboration avec ce service mais rédigé uniquement par des bibliothécaires.

[8]

Practical Extraction and Report Language. Ce langage de programmation, créé en 1986 par Larry Wall, peut interpréter des fichiers textes pour en extraire des données. Il est bien adapté aux procédures liées à la gestion de système.

[9]

Format de catalogage pour l’échange des données, MARC 21 est le nom donné au résultat de la fusion, opérée en 1994, entre les formats US MARC et CAN/MARC. Il propose cinq formats : données bibliographiques, fichiers d’autorités, fonds, classification et renseignements communautaires. La bibliothèque du Congrès et la bibliothèque nationale du Canada en éditent les versions officielles anglaise et française.

[10]

NI : note interne indiquant la source de la notice. NI=LANL EDS indique que la notice provient (sous autorisation) de ArXiv.org e-Print archive de LANL, Los Alamos. NI=PROQUEST indique que la notice provient de US, North American Univ.

[11]

Le catalogage est une fonction ouverte à tous au SIS.

[12]

Comme par exemple celles touchant les informations de conférences ou comptes rendus, ainsi que celles touchant la collation pour les monographies disponibles sur Internet.

[13]

Une fois structuré, le champ de référence d’une publication est utilisé par un programme (adopté par l’American Physical Society pour ses journaux électroniques) pour calculer l’algorithme de l’URL de la page de l’article. Cela évite d’avoir à ajouter des DOI abstraits à la notice.

Résumé

Français

Cette étude présente une méthode de contrôle automatique des références des documents importés dans des bases de données. Conçu initialement pour la mise à jour de la base de littérature grise du Service de l’information scientifique du CERN, puis étendu à sa base de monographies, le programme chkall (« check all ») propose différentes applications pour contrôler les données de catalogage relatives aux documents (électroniques ou non) et pour en assurer la modification semi-automatique. Devant l’augmentation massive des données et la nécessité de les contrôler, ce programme, transposable à d’autres contextes, permet d’enrichir un catalogue et d’en augmenter la précision et la cohérence.

Plan de l'article

  1. 1 - Le programme de contrôle automatique chkall
    1. Constitution d’un descriptif pour l’élaboration du programme
    2. Fonctionnement du programme chkall
    3. Résultat
  2. 2 - Les difficultés rencontrées
    1. Rédaction du descriptif et de sa traduction en PERL
    2. Plusieurs étapes
    3. Gestion des fichiers de corrections
  3. 3 - Les atouts du programme chkall
    1. Rapidité à détecter toutes les erreurs
    2. Bonne répartition des tâches
    3. Souplesse du programme
    4. Valeur ajoutée par le SIS
  4. 4 - Un programme utilisable dans d’autres services de documentation

Pour citer cet article

Cart Catherine, Geretschläger Ingrid, « Méthode de contrôle automatique des données bibliographiques dans les bases de données du CERN », Documentaliste-Sciences de l'Information 4/2003 (Vol. 40) , p. 280-287
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2003-4-page-280.htm.
DOI : 10.3917/docsi.404.0280.


Article précédent Pages 280 - 287 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback