Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2001/1 (Vol. 38)

  • Pages : 60
  • DOI : 10.3917/docsi.381.0024
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 24 - 34 Article suivant
1

Depuis plus de quarante ans, le Service de l’information scientifique (SIS) de l’Organisation européenne pour la recherche nucléaire (CERN [1][1] A ses débuts, en 1954, le CERN était le « Conseil européen...) [1] collabore avec des instituts de recherche et des universités [2][2] Par exemple GANIL (Grand accélérateur national des... du monde entier à la diffusion des travaux effectués par les scientifiques.

2

Ainsi, la bibliothèque du CERN reçoit régulièrement, via des listes de diffusion, les documents écrits par les chercheurs de ces laboratoires et universités. Les documents, sous forme papier, sont ensuite numérisés afin de fournir aux utilisateurs un accès, sur le Web, à ces travaux de recherche.

3

Aujourd’hui, cette pratique tend à s’affaiblir ou tout au moins à se transformer. En effet, la littérature grise en sciences, et plus particulièrement en physique, circule de plus en plus sous forme électronique. Après avoir assuré pendant plusieurs années la diffusion des documents sur les deux supports, certains instituts font aujourd’hui le choix de l’électronique qui présente des avantages indéniables par rapport au papier : économie des coûts, diffusion facilitée, consultation du texte intégral des documents à distance, possibilité d’enrichir le catalogue et l’accès en ligne aux documents à moindre coût, etc. Maurice B. Line souligne encore d’autres attraits du document électronique : « Les principaux critères d’efficacité sont la rapidité de la fourniture du document, la fiabilité (la probabilité d’obtenir un document à partir de la ou des sources approchantes) et la facilité d’utilisation. » [2]

1 - Contexte : du papier à l’électronique

4

A l’ère de la « bibliothèque virtuelle », les documents papier se font donc de plus en plus rares et les auteurs préfèrent généralement soumettre directement leurs travaux sous forme électronique.

5

En outre, la plupart des laboratoires ont aujourd’hui accès à Internet et beaucoup ont cessé la diffusion de leurs documents papier (Fermilab [3][3] Les sigles et abréviations utilisés dans ce document... aux États-Unis, Nordita au Danemark, etc.) et invitent les bibliothèques scientifiques et les chercheurs à consulter leurs pages web ou leurs banques de données.

6

Face à cette évolution, les politiques d’acquisition doivent être reconsidérées et s’adapter aux nouvelles normes de circulation de l’information scientifique [3]. Dans cette optique, le Service de l’information scientifique du CERN, et plus particulièrement la section Document Management (Gestion documentaire), oriente progressivement ses choix vers le traitement informatisé des ressources électroniques. Depuis quelques années, des travaux d’étude et de recherche sont régulièrement engagés sur ce sujet au sein du SIS [4] [5] [6] [7] [8].

7

Dans ce contexte nouveau, le problème qui se pose est celui de la consultation multiple des banques de données : pour trouver un document, un chercheur devra nécessairement consulter plusieurs sources, ce qui est un travail long et fastidieux. Pour faciliter la recherche et offrir aux scientifiques une seule interface d’interrogation et de visualisation, le SIS a choisi de rapatrier le maximum de documents électroniques dans sa banque de données [9].

8

Ainsi, le support informatique de la bibliothèque du CERN a mis au point, il y a une année, un programme baptisé Uploader, permettant d’importer de façon automatique des notices bibliographiques provenant de diverses sources [10].

9

L’intérêt de cet outil est triple puisqu’il devait permettre :

  • de pallier la diminution des listes de diffusion que les instituts de recherche se font de plus en plus rares à envoyer sous forme papier, en recueillant directement sur leurs sites les travaux des chercheurs ;

  • d’élargir le nombre de documents obtenus précédemment sous forme papier dans ces différents laboratoires et universités ;

  • mais aussi d’explorer de nouvelles banques de données proposant des documents très intéressants pour les physiciens du CERN et d’enrichir ainsi le catalogue de la bibliothèque.

2 - L’importation automatique de notices électroniques

Le fonctionnement de l’Uploader

10

À partir d’un fichier de données provenant de n’importe quelle banque de données ou page web, le programme Uploader formate les notices pour les adapter au catalogage de la bibliothèque du CERN (voir page suivante).

11

Pour chaque nouvelle source importée, des fichiers de configuration sont créés afin de permettre la mise en forme des champs des notices d’origine au format MARC [4][4] Machine Readable Cataloguing utilisé par la base du CERN. Chaque « configuration » est caractérisée par trois fichiers principaux. Deux d’entre eux permettent de définir la structure des champs de la notice d’origine, en vue de leur extraction. Un troisième fichier sert à créer la nouvelle notice, avec les champs adéquats : à partir des données d’origine, différentes commandes sont mises en œuvre pour adapter ces informations aux exigences du formatage utilisé dans le catalogue du CERN.

12

Ce programme propose également d’autres fonctionnalités, comme la mise à jour de notices existantes, la recherche dans le catalogue pour repérer les notices déjà présentes avant l’importation, etc.

Le choix des sources

13

Le choix des catalogues à explorer s’est effectué selon plusieurs critères. Le premier a consisté à consulter les sites web de tous les instituts pour lesquels le CERN reçoit encore les travaux des chercheurs sous forme papier et de voir si ces sites proposaient en ligne ces mêmes documents.

14

Cette analyse a révélé que la quasi-totalité des instituts avaient franchi le pas de la mise en ligne de leurs documents, mais de façon plus ou moins approfondie. Cette étude a également montré que le CERN ne recevait en moyenne, via les listes de diffusion, qu’un tiers des travaux produits dans ces instituts. Deux explications peuvent être avancées : il est probable que, pour des raisons de coût, les laboratoires effectuent une sélection des documents avant de les envoyer aux instituts partenaires ; de plus, les listes de diffusion ne sont pas toujours tenues à jour et le CERN reçoit donc de moins en moins de documents par ce biais.

15

L’utilité d’importer les documents de façon automatique depuis les sites web de ces laboratoires était donc indéniable, mais cela nous confrontait à d’autres problèmes, d’ordre technique, que nous commenterons plus loin.

16

D’autres sources ont été envisagées dans des domaines où la banque de données de la bibliothèque est encore peu développée. C’est le cas notamment de disciplines comme les mathématiques (avec Math-Doc à Grenoble ou mp_arc à Austin), ou encore pour des types de documents comme les thèses (avec par exemple Proquest [5][5] Proquest Digital Disserations est une version gratuite,..., base hébergée par DataStar).

Deux méthodes pour traiter les données localisées sur Internet

17

Les différentes sources observées appartiennent à deux grandes catégories : les pages web et les banques de données en ligne. Leur mode de fonctionnement est totalement différent et leur traitement via l’Uploader diffère sensiblement.

18

Les pages web des instituts de recherche. Les laboratoires et instituts de taille moyenne, qui ne disposent pas d’une base de données en ligne, proposent généralement sur leur site des pages web présentant les travaux de leurs chercheurs (le plus souvent les thèses) [11]. Les fonctionnalités offertes sont très sommaires puisque ces sites n’offrent pas de possibilité de recherche. Généralement, les notices sont triées par type de document (thèses, preprints, etc.) et parfois par année. Avec ce système, leur nombre reste souvent limité. C’est pourquoi il n’a pas paru intéressant, dans la plupart des cas, de créer une configuration pour chacune de ces sources, une soumission manuelle des notices et du texte intégral étant tout aussi rapide. Le second argument, que nous développerons plus loin, est que le manque de stabilité des pages web est un obstacle à la mise en place de configurations pour l’importation automatique des documents.

Un exemple d’importation : la base de données de l’institut KEK
Les services d’alerte et la pose de veilles

Les services d’alerte

Certains sites analysés proposent des services d’alerte. Leur fonctionnement est simple : régulièrement (généralement chaque semaine) les nouvelles notices entrées dans la base sont envoyées, par courrier électronique, aux personnes qui se sont inscrites à ce service. IOP offre cette possibilité sur son site Physics Web pour les annonces de conférences. De même, les Mathematical Physics Archives (mp_arc), gérées par l’université d’Austin (Texas) proposent ce service.

Cette forme de liste de diffusion peut également se combiner à un autre service proposé par la base de données : il s’agit du dépôt d’un « profil » sous la forme d’une équation de recherche (par mots clés, type de documents, périodes). L’équation de recherche s’effectue en principe de façon automatique tous les jours et les résultats sont envoyés par courrier électronique à chaque fois que des notices correspondant au profil sont ajoutées dans la base. Le courrier électronique affiche les notices de façon structurée avec un lien vers leur fichier texte (il est généralement possible de définir le format des notices recherchées). Nous les traitons à l’aide d’une configuration dans l’Uploader. Ce type de service est notamment utilisé par le SIS pour des banques de données comme FIZ ou Inspec.

Pour les pages n’offrant pas de service d’alerte tel que décrit ci-dessus (à savoir pour la majorité des sites observés), des veilles ont été posées sur toutes les pages jugées intéressantes et susceptibles d’évoluer. Par « veille », nous entendons l’observation automatique de pages web par un robot. Nous avons choisi de poser ces veilles via le site web Mind-It* qui propose ce service gratuitement. Cet outil parcourt régulièrement les adresses URL (uniform ressource locator) et détecte tout changement et toute intervention sur ces pages : modification (ajout, correction, suppression de données), migration d’adresse, disparition de la page. Tout changement est signalé par une icône ; de plus, les modifications intervenues sur la page sont mises en surbrillance, ce qui permet de les repérer rapidement. Grâce à Mind-It, il est possible de créer plusieurs veilles, de les regrouper dans des dossiers, de leur donner des titres, et surtout de définir la fréquence de l’alerte, et son mode (alerte par courriel, ou à l’aide d’une icône sur la page même du site, etc.).

Cette forme de veille nécessite le lancement régulier (par exemple chaque mois) de Mind-It. Nous soumettons ensuite toutes les nouvelles notices une à une au serveur CERN EDS. Cette procédure demande autant de travail qu’une saisie directe dans la base, mais présente l’avantage de transférer et de stocker le fichier de texte dans ce serveur. Le serveur étant stable, le fichier est accessible et conservé.

Ainsi, à défaut de pouvoir créer un système d’importation automatique depuis ces sites, la pose d’une veille permet de suivre l’évolution de ces pages et de l’apparition de nouveaux documents.

Exemple de veilles posées via le site Mind-It

Observation automatique de pages web par un robot pour détecter tout changement, toute modification, tout mouvement.

(*) MindIt / NetMind : http:// mindit. netmind. com/

19

La question principale concerne le suivi de ces pages : comment être averti d’une modification, voire de l’arrivée d’une nouvelle notice ? Les services d’alerte sur ces sites sont encore rares et seules deux des sources analysées proposent ce service : TipTop [6][6] TipTop, a Unified Physics Resource est le résultat... (IOP, à Bristol) pour les annonces de conférences et mp_arc, déjà cité, pour les preprints en mathématiques. Une autre solution consiste à poser une veille sur ces pages et à être ainsi informé de leur évolution. Environ quatre-vingts veilles ont été posées pour couvrir la production d’une trentaine d’instituts (voir page 27).

20

Les banques de données en ligne offrent souvent la possibilité de mener des recherches multicritères. Mais à l’inverse des pages web décrites ci-dessus, il est généralement impossible de poser une veille sur la page des résultats générée par la recherche. Il est donc difficile d’importer de façon très régulière (toutes les semaines par exemple) les notices nouvellement entrées dans ces bases, sauf pour celles qui proposent un service d’alerte.

21

La méthode définie pour l’importation depuis ces bases consiste donc à faire des recherches annuelles pour obtenir l’ensemble des notices de l’année écoulée. L’inconvénient de cette recherche effectuée une fois l’an est que l’on obtient des notices bibliographiques avec plusieurs mois de retard.

22

Un autre obstacle fréquemment rencontré lors de l’étude de ces banques de données concerne la mise en forme de la page de résultats. La plupart du temps, les résultats s’affichent sous forme de liste ; pour davantage d’informations sur l’une des entrées, l’utilisateur doit cliquer sur le lien hypertexte qui le mène à la notice détaillée. Fréquemment, la page de résultats ne fournit pas suffisamment d’informations sur chacune des entrées. Il est courant par exemple (voir page 29) que seul le premier auteur d’un document soit donné (exemple : DOE, Department of Energy) ou que le titre soit tronqué (exemple : banque de données CITHER). Dans ces cas-là, une importation peut se révéler difficile, voire impossible.

23

En outre, le catalogage étant spécifique à chaque sorte de document, avec des différences plus ou moins marquées, plusieurs configurations sont parfois nécessaires pour une même banque de données proposant divers types de documents.

24

Ainsi, de juillet à octobre 2000, quatorze configurations ont été créées pour neuf banques de données.

3 - Les problèmes rencontrés

L’instabilité des pages Web

25

Les pages sur le Web sont marquées par une certaine instabilité qui revêt plusieurs formes.

26

Instabilité dans le temps tout d’abord, puisque les pages peuvent à tout moment disparaître, ce qui pose notamment problème lorsque l’on importe, en plus de la notice, le lien vers le texte intégral des documents stockés sur le site du laboratoire concerné.

27

Instabilité des pages dans leur structure, ensuite. En effet, pour plusieurs configurations, les balises HTML présentes dans le fichier source des pages web permettent de délimiter facilement les champs constitutifs d’une notice. Cependant, ces balises ne sont pas toujours régulières ni stables d’une page à l’autre, voire sur une même page. En effet, la plupart du temps, les pages se présentent sous forme de texte libre, et les champs n’ont pas toujours de structure commune (espaces, tabulateurs, interlignes, etc.). Les contraintes codées imposées par les banques de données sont donc inexistantes ; or la mise en page libre ne se prête guère à l’élaboration d’une configuration.

28

Instabilité dans la présentation des notices et des champs, enfin. La raison de cette instabilité est certainement que les pages de ces laboratoires de recherche sont souvent créées et mises à jour par des secrétariats ou des personnes non professionnelles de la documentation, ce qui provoque une hétérogénéité dans les champs, plus fréquente – et plus gênante – pour le champ des auteurs (dans la base mp_arc, Austin, par exemple. Voir page 30).

29

Certaines bases offrent même la possibilité à des personnes extérieures de saisir de nouvelles notices (par exemple TipTop pour les annonces de conférences, ou encore Los Alamos [7][7] ArXiv.org e-Print archive / LANL, Los Alamos National... qui laisse aux auteurs le soin de soumettre leurs travaux), ce qui provoque de grandes irrégularités et un manque d’homogénéité dans la présentation des documents.

Exemples de problèmes rencontrés dans les sources pour la mise en place d’une configuration
Résultat d’une recherche dans la base de DOE

Seul le premier auteur est indiqué ; pour obtenir les autres auteurs et plus de détails sur cette entrée, il faut cliquer sur le lien hypertexte du document.

Résultat d’une recherche dans la base CITHER

Le titre est tronqué (pour l’obtenir en entier, il faut cliquer sur le lien hypertexte de la notice). L’importation de ces notices est impossible.

Le travail manuel de vérification reste nécessaire

30

Cette instabilité dans les pages Web est peu compatible avec la structure très rigide exigée par le catalogage de bibliothèque. C’est pourquoi, l’un des soucis premiers du Service de l’information scientifique étant d’offrir aux utilisateurs une base propre et homogène, tout le travail manuel de vérification et de validation des notices importées est conservé.

31

Il est indéniable que l’utilisation de ce programme offre un gain de temps considérable par rapport aux soumissions manuelles et élargit le nombre de documents rendus disponibles (voir les statistiques pour l’année 2000 page 32).

32

Toutefois, ces procédures nécessitent de consacrer du travail à la mise en place des configurations, à la sélection des banques de données, à la recherche des notices présentant un intérêt pour notre catalogue et enfin à l’importation, la validation et la correction de ces données avant leur intégration dans le catalogue. La mise en œuvre de ce procédé d’importation est donc essentiellement intéressante pour des banques de données importantes.

33

De plus, l’instabilité des pages web, évoquée plus haut, impose un suivi régulier des sources et la mise à jour des fichiers de configuration. Nous pouvons donc en conclure que, avec ce type d’outil, le travail des bibliothécaires persiste mais change, et s’oriente davantage vers la correction des notices importées que vers la création manuelle de nouvelles entrées.

34

Cette évolution dans l’activité du SIS du CERN se traduit également par le souci constant d’offrir de la valeur ajoutée, c’est-à-dire l’addition d’informations (dans les notices) ou de services aux utilisateurs (via l’interface web du catalogue), ce qui rend ainsi les données plus riches et l’accès à l’information plus facile.

4 - La valeur ajoutée par le SIS du CERN

35

La « valeur ajoutée » fournie par la bibliothèque concerne aussi bien des corrections sur les données importées que des mises à jour de certains champs ou encore la mise en place de liens hypertextuels entre différentes informations (voir ci-contre).

Liens entre les notices de la base

36

Les contributions à une conférence sont, sur la version web de la banque de données du CERN, liées entre elles ainsi qu’au compte rendu de la conférence. Ainsi, d’un clic, un usager peut, à partir de la notice d’un article, avoir accès aux informations concernant la conférence, à son compte rendu, ou encore aux autres papiers soumis au même événement. Ce champ est dynamique dans la mesure où une modification faite dans la seule notice du compte rendu s’affiche sur le Web pour toutes les contributions soumises à cette conférence.

37

De même, la notice d’un article publié peut être liée à celle d’un reprint et/ou d’un compte rendu et/ou d’une revue. Plusieurs renvois sont possibles pour un seul article, mais leur gestion est délicate, car la moindre erreur empêche le lien de fonctionner.

Plusieurs « champs » extraits de notices provenant de mp_arc
La valeur ajoutée : exemple de l’importation d’une notice depuis un serveur
Preprint soumis par les auteurs au serveur de LANL Los Alamos

Dans cette notice, un seul nom d’auteur a été mentionné et les informations sur la conférence d’où est issu le document sont très sommaires.

La même notice dans le catalogue CERN SIS avec les valeurs ajoutées

Outre les noms de tous les auteurs, cette notice comprend des informations sur la conférence, un lien vers la notice de cette conférence et une précision sur l’expérience présentée.

Uniformisation et standardisation

38

Un travail important concerne l’uniformisation et la standardisation de champs comme celui des auteurs par l’adoption d’une translittération, notamment pour les noms russes ou nordiques [8][8] Par exemple, les terminaisons russes -ii, -ij, -y sont.... L’objectif est de faciliter aux usagers la recherche de noms en uniformisant leur orthographe.

39

La standardisation concerne également les références de publication : l’abréviation des noms de revues répond à des normes (ISO 4). Grâce à un fichier de correspondances, les différentes formes orthographiques connues des revues sont automatiquement modifiées pour afficher la forme désirée. L’objectif de cette standardisation est d’assurer, pour la version web de la base, le lien vers ces revues électroniques lorsque la bibliothèque en possède la licence.

Ajout d’informations

40

Certaines banques de données ne proposent qu’un nombre limité d’auteurs (par exemple une trentaine pour les preprints en provenance de la base de Los Alamos). Le SIS se charge donc d’ajouter, lorsque c’est le cas, les auteurs non mentionnés dans la notice en extrayant les données à partir du ficher texte attaché à la notice bibliographique. Ceci est notamment très intéressant pour les grandes expériences qui affichent souvent plus de cinq cents auteurs dans les prétirages.

41

Pour certaines notices, des informations non contenues dans les données d’origine, mais facilement déductibles, sont ajoutées. C’est le cas par exemple pour des documents concernant des expériences du CERN : des champs comme l’affiliation, la division et le nom de l’accélérateur liés à cette expérience sont créés.

5 - Quelle légitimité pour ce type de procédé ?

42

Jusqu’à aujourd’hui, l’expérimentation de cette nouvelle forme d’acquisition des ressources électroniques ne s’est déroulée que sous forme de tests. Il convenait en effet dans un premier temps de s’assurer que ces importations étaient techniquement possibles et surtout qu’elles présentaient un intérêt réel en terme de gain de temps et d’enrichissement du catalogue.

43

Dorénavant se pose la question de la légitimité de ce type de procédure. En effet, ces importations ne peuvent se dérouler dans l’ombre, sans qu’en soient avertis les laboratoires directement concernés. C’est pourquoi, si la période de tests se révèle positive, le SIS a décidé d’informer officiellement tous ces instituts et de leur demander l’autorisation d’importer une partie de leurs notices bibliographiques, ainsi que le texte intégral des documents – lorsqu’ils le proposent – dans la base du CERN.

44

Cette démarche a déjà été engagée pour certains instituts l’année dernière et s’est révélée encourageante : des universités comme celle de Cornell, des laboratoires comme Fermilab, des banques de données comme Inspec [9][9] Inspec, banque de données bibliographiques produite... ou encore des diffuseurs de banques de données comme FIZ [10][10] Le FIZ (Fachinformationzentrum) de Karlsruhe produit... ont donné leur accord pour que la bibliothèque du CERN procède à des importations automatiques depuis leurs catalogues.

Statistiques : pourcentage de notices entrées manuellement et électroniquement dans la base du CERN de janvier à novembre 2000 Base de données de littérature grise : articles, preprints, thèses, rapports
45

En contrepartie, le SIS propose d’insérer dans les notices un lien vers le site d’où sont extraites les données, afin que l’importation soit transparente et non dissimulée aux usagers. Ce lien renvoie vers la page d’accueil de la base ou bien vers le texte intégral du document s’il est disponible.

6 - Recherche d’exhaustivité, qualité, valeur ajoutée…

46

Cet outil informatique permettant l’importation de ressources électroniques répond à la volonté du SIS d’offrir aux utilisateurs un catalogue le plus exhaustif possible dans les domaines de recherche traités au CERN. Ainsi, l’usager sait qu’il peut trouver dans la base de données non seulement les papiers des travaux effectués au CERN, mais également ceux d’instituts comme Dapnia, KEK, SLAC, etc. qui mènent des recherches complémentaires.

47

En outre, notre souci est d’offrir une base de données « propre », d’où le travail de vérification et de modification des notices importées, la quantité ne devant pas se substituer à la qualité, ce qui peut être un risque dans ce type de politique d’acquisition.

48

La « valeur ajoutée » fournie par les bibliothécaires du SIS est donc primordiale et cette nouvelle forme d’acquisition des données ne se résume pas à de simples rapatriements de notices bibliographiques et de documents à l’aide d’un programme informatique. Au Service de l’information scientifique du CERN, près de dix personnes [11][11] Cette équipe est composée de bibliothécaires, apprentis,... travaillent à l’importation automatique ou semi-automatique de ressources électroniques.

Sigles et abréviations
Le projet open archives initiative

L’OAI est un projet de service universel permettant aux auteurs de publications scientifiques d’en assurer eux-mêmes l’archivage.

Le projet Open Archives Intiative répond à un appel lancé en juillet 1999 par Paul Ginsparg (initiateur de la base de preprints e-Print archive à Los Alamos), Rick Luce (LANL, Bibliothèque) et Herbert Van de Sompel (LANL, Bibliothèque). Leur volonté est de mobiliser un groupe de chercheurs et bibliothécaires européens dans l’optique d’établir un service universel destiné à l’auto-archivage de publications scientifiques par leurs auteurs.

L’Open Archives Intiative a déjà donné lieu à des rencontres et des réalisations concrètes : la réunion de Santa Fe (Nouveau Mexique) les 21 et 22 octobre 1999, qui a donné naissance à la « convention de Santa Fe », le rassemblement du 3 juin 2000 à San Antonio au Texas et celui des 18-20 septembre 2000 à Lisbonne. La prochaine rencontre de l’OAI devait avoir lieu du 22 au 24 mars 2001 au CERN [12].

La convention de Santa Fe [13] a établi un certain nombre de principes de base, et notamment des recommandations précises pour l’implémentation d’interfaces permettant la récupération de métadonnées de chaque archive.

De plus, un site a été créé (http:// www. openarchives. org), et un logiciel permettant l’auto-archivage de manière interopérable a été développé par le département d’informatique de l’université de Southampton en Angleterre.

L’objectif de l’OAI, à terme, est que de multiples bibliothèques, par l’adoption de normes communes et d’un modèle de notice minimale, ouvrent l’accès de leurs catalogues et s’échangent leurs données respectives sans modifications locales lourdes.

49

Aujourd’hui, plus de 90 % des notices créées dans le catalogue [12][12] Ces statistiques concernent la banque de littérature... du CERN le sont de façon électronique. Parmi elles, les soumissions sur le serveur du CERN par des chercheurs ou leurs secrétariats ne représentent que 3 %, le reste étant le fruit d’importations automatiques, telles que décrites dans cet article (voir page 32).

50

Sur un plan plus général, cette nouvelle forme de politique d’acquisition adoptée par le SIS du CERN depuis quelques années est un moyen de pallier le manque de mise en application des discours utopiques sur la constitution d’un catalogue collectif en littérature grise. En effet, depuis une trentaine d’années, l’idée de créer une banque de données commune incluant tous les catalogues des grandes bibliothèques est régulièrement discutée. Aujourd’hui, l’un de ces projets se développe activement ; il s’agit de l’Open Archives Initiative, auquel le SIS va sans doute prendre part (voir ci-contre).

51

Malheureusement, ces projets se trouvent la plupart du temps confrontés à divers obstacles dès leur lancement : des problèmes techniques (il est nécessaire d’adopter des normes communes, etc.), auxquels s’ajoutent souvent la lenteur et le manque de volonté politique à concrétiser ces propositions. C’est pourquoi, aujourd’hui, certaines bibliothèques scientifiques comme celle du CERN sont amenées à se constituer, par leurs propres moyens, un catalogue suffisamment étoffé pour satisfaire leurs usagers.

52

Novembre 2000


Références

Notes

[1]

A ses débuts, en 1954, le CERN était le « Conseil européen de la recherche nucléaire ». Il est très vite devenu le « Centre européen de la recherche nucléaire ». Dans les années 80, il changea de nom et devint le « Laboratoire européen de la recherche des particules ». En 2000, le nouveau directeur général L. Maiani a souhaité revenir à l’ancien nom sous la forme « Organisation européenne pour la recherche nucléaire ».

[2]

Par exemple GANIL (Grand accélérateur national des ions lourds, Caen), DESY (Deutsches Elektronen Synchrotron, Hambourg), LAPP (Laboratoire d’Annecy-le-Vieux de la physique des particules, Annecy), MPI (Max Planck Institut, Garching), GSI (Geschellschaft für Schwerionenforschung, Darmstadt), RAL (Rutherford Appleton Laboratory, Chilton), DAPNIA (Département d’astrophysique, de physique des particules, de physique nucléaire et de l’instrumentation associée, Saclay), SFB (Sonderforschungsbereich, Technische Universität Berlin), Budker Institute for Nuclear Physics (Novosibirsk), Meisei University (Tokyo), etc.

[3]

Les sigles et abréviations utilisés dans ce document sont développés page 33.

[4]

Machine Readable Cataloguing

[5]

Proquest Digital Disserations est une version gratuite, mais limitée, de Dissertation Abstracts International (UMI). Elle contient des notices de thèses soutenues dans les universités d’Amérique du Nord et dans deux cents autres universités du monde entier. La période couverte comprend l’année en cours et l’année précédente.

[6]

TipTop, a Unified Physics Resource est le résultat d’une initiative privée entre TipTop (Kenneth Holmlund, Mikko Karttunen et Günther Nowotny) et la banque de données PhysicsWeb / IOP (Institute of Physics Publishing, Bristol). TipTop est maintenu depuis 1998 par IOP et s’adresse à la communauté de recherche en physique.

[7]

ArXiv.org e-Print archive / LANL, Los Alamos National Laboratory (Los Alamos, NM) contient depuis 1991 plus de 170.000 prétirages et communications scientifiques en physique, mathématiques et informatique avant leur publication et offre le texte intégral des documents.

[8]

Par exemple, les terminaisons russes -ii, -ij, -y sont uniformisées en -y; les formes en ö, oe, o, Ø sont systématiquement orthographiées Ø, etc.

[9]

Inspec, banque de données bibliographiques produite par l’Institution of Electrical Engineers, contient presque sept millions de notices depuis 1969. Cette base dépouille la plupart des revues et comptes rendus des conférences anglophones en sciences.

[10]

Le FIZ (Fachinformationzentrum) de Karlsruhe produit et diffuse des banques données en sciences exactes.

[11]

Cette équipe est composée de bibliothécaires, apprentis, étudiants, stagiaires ou encore de physiciens et d’informaticiens. Chacun y contribue partiellement. Toutefois, le travail total fourni correspond environ à 3,8 personnes à plein-temps.

[12]

Ces statistiques concernent la banque de littérature grise qui comprend les preprints, les articles, les rapports et les thèses.

Résumé

Français

Cette étude présente une méthode automatique d’importation de données mise en œuvre au Service de l’information scientifique du CERN : le programme Uploader permet d’importer dans le catalogue de la bibliothèque du CERN des notices bibliographiques et le texte intégral de documents provenant de diverses sources sur Internet et concernant la littérature grise en physique et dans les disciplines voisines. Cette politique d’acquisition soulève quelques réflexions sur l’augmentation du nombre de documents collectés et sur l’élargissement des domaines traités. Le souci constant d’enrichir ces données et d’en faciliter l’accès aux usagers conduit à une évolution des métiers de la gestion documentaire.

Plan de l'article

  1. 1 - Contexte : du papier à l’électronique
  2. 2 - L’importation automatique de notices électroniques
    1. Le fonctionnement de l’Uploader
    2. Le choix des sources
    3. Deux méthodes pour traiter les données localisées sur Internet
  3. 3 - Les problèmes rencontrés
    1. L’instabilité des pages Web
    2. Le travail manuel de vérification reste nécessaire
  4. 4 - La valeur ajoutée par le SIS du CERN
    1. Liens entre les notices de la base
    2. Uniformisation et standardisation
    3. Ajout d’informations
  5. 5 - Quelle légitimité pour ce type de procédé ?
  6. 6 - Recherche d’exhaustivité, qualité, valeur ajoutée…

Pour citer cet article

Pignard Nathalie, Geretschläger Ingrid, Jerdelet Jocelyne, « Le traitement informatisé de ressources électroniques au CERN », Documentaliste-Sciences de l'Information, 1/2001 (Vol. 38), p. 24-34.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2001-1-page-24.htm
DOI : 10.3917/docsi.381.0024


Article précédent Pages 24 - 34 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback