Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2008/4 (Vol. 45)

  • Pages : 78
  • DOI : 10.3917/docsi.454.0012
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 12 - 20 Article suivant

Les archives de l’Internet : un nouveau service de la BnF

1

Sites web. Depuis avril 2008, la Bibliothèque nationale de France propose un accès expérimental aux sites internet français archivés au titre du dépôt légal.

2

Internet a pris une place importante dans le monde de l’édition. Des publications en ligne apparaissent et disparaissent tous les jours. Des publications imprimées disparaissent pour passer en ligne ou sont complétées par des documents en ligne. Il est devenu indispensable de garder la mémoire de ce nouveau support. Comme elle le fait depuis cinq cents ans pour tous les supports d’édition, la Bibliothèque nationale de France s’est organisée pour collecter, conserver et donner accès à ces publications qui ont la particularité d’être indépendantes de leur support, liées par une architecture complexe, pléthoriques et volatiles. Le titre IV de la loi sur le droit d’auteur et les droits voisins dans la société de l’information (DADVSI), loi n°2006-961 du 1er août 2006, étend le champ d’application du dépôt légal à Internet.

De nouvelles collections

3

Si tout l’Internet mondial peut être consulté par un internaute français, il est techniquement et juridiquement impossible d’archiver tous les sites internet. La BnF est chargée d’archiver les sites du « domaine français », c’est-à-dire les sites dont les noms de domaines ont une extension.fr et ceux dont les auteurs sont domiciliés en France ou dont les contenus sont produits en France.

4

Bien qu’on parle de « dépôt » légal, les contenus des sites internet ne sont pas « déposés » par les producteurs, ils sont collectés à l’aide de logiciels dits robots de collecte. Ces robots fonctionnent de la même manière que les robots indexeurs des moteurs de recherche : ils parcourent le web de lien hypertexte en lien hypertexte, de page en page et de site en site et, lors de leur passage, copient pages, images, enregistrements audio et vidéo, animations.

5

Compte tenu de la masse d’informations à collecter (il y a aujourd’hui environ 1,2 million de sites déposés sous le seul.fr), de la diversité des formats et des techniques de publication utilisés par les éditeurs, tous les sites internet du domaine français ne peuvent être archivés en intégralité : la BnF constitue donc des échantillons représentatifs en combinant deux modes d’entrée : les collectes larges et les collectes ciblées.

6

Les collectes larges permettent d’effectuer une fois par an une photographie de l’Internet français en collectant aléatoirement quelques centaines de fichiers par site sur plusieurs centaines de milliers de sites. En novembre 2007, la collecte large a permis de rassembler 337 millions de fichiers à partir de 2,9 millions d’adresses. Les collectes larges ont l’avantage d’être fidèles à la tradition de dépôt légal : le robot capture sans discrimination des contenus à caractère scientifique, commercial, pornographique, etc., des contenus qui ne sont pas nécessairement reliés par des liens hypertextes ni connus des internautes. Mais les archives constituées par ce biais sont très superficielles, elles ne permettent pas de trouver les contenus accessibles par le jeu des liens hypertextes, pas plus que de garder la trace des évolutions d’un même site.

7

C’est pour cette raison que les collectes larges sont complétées par des collectes ciblées qui offrent des archives plus complètes et plus fréquentes d’un nombre limité de sites repérés par des bibliothécaires de la BnF spécialisés dans une discipline (par exemple, la littérature française), un type d’événement (les élections présidentielle et législatives de 2007) ou un projet (le web social et militant). Le choix des sites est le reflet des orientations d’une politique documentaire en cours d’élaboration à la BnF, leur repérage est parfois réalisé en collaboration avec d’autres bibliothèques ou des centres de recherche.

8

Les archives de l’Internet de la BnF contiennent 13 milliards de fichiers. Les documents les plus anciens, qui remontent à 1996, ont été acquis auprès d’Internet Archive, fondation américaine pionnière dans le domaine de l’archivage du web. On trouve ainsi, pêle-mêle, dans ce fonds particulièrement hétéroclite, les incunables du web, des archives très complètes des sites du parti des Verts et de Revues.org, quelques pages de la boutique Pixmania, etc.

De nouveaux services d’accès

9

Donner accès à ces archives ne se résume pas à donner aux utilisateurs les moyens de localiser physiquement des documents. Les sites collectés ne sont pas catalogués : les volumes sont tels que la tâche est irréalisable et il est impossible d’en établir une liste exhaustive, de connaître leur nom et leur contenu. Une fois collectés, les sites sont indexés par des processus automatiques : chaque fichier est daté et décrit a minima pour conserver des informations sur sa collecte, sa localisation d’origine (son adresse URL), son format, sa taille et sa localisation dans les archives. Cette indexation permet ensuite de restituer les sites archivés dans leur contexte de publication original et donc de naviguer dans les archives comme sur l’Internet en cliquant de lien en lien.

10

Toutes les archives constituées par la BnF peuvent être consultées dans les salles de lecture de la Bibliothèque de recherche [voir l’encadré sur les conditions d’accès et le circuit du lecteur]. La BnF est la première bibliothèque nationale à offrir ce service en Europe et, à cette échelle, dans le monde.

Repères

Conditions d’accès et circuit du lecteur

Conformément aux dispositions prévues par la loi, afin de respecter le droit d’auteur et la protection des données personnelles, les archives sont accessibles uniquement dans les salles de lecture de la Bibliothèque de recherche (niveau rez-de-jardin du site François-Mitterrand, salles de lecture des sites Richelieu, Arsenal et Opéra).

Obtenir un titre d’accès à la Bibliothèque de recherche. Toutes les personnes justifiant du besoin de recourir à ces collections pour des raisons d’études universitaires, professionnelles ou personnelles peuvent obtenir un titre d’accès correspondant au temps nécessaire à leur recherche (3 jours, 15 jours, un an). Ce titre peut être obtenu auprès du Service d’orientation des lecteurs après un entretien personnalisé avec un bibliothécaire.

Utiliser un poste de consultation. Les archives de l’Internet sont consultables depuis les postes d’accès aux ressources numériques sur lesquels on peut également consulter les fonds numérisés, les périodiques électroniques, les cédéroms et les bases en ligne. Toutes les salles de lecture ne sont pas encore équipées, elles le seront au printemps 2009. Les postes sont en libre accès, mais il est nécessaire de réserver une place.

11

Pour naviguer dans les archives, trois outils sont proposés : la recherche par adresse URL, la recherche par mots clés et des parcours guidés destinés à favoriser la découverte des collections. L’ensemble est intégré dans une application claire et simple d’accès.

12

La recherche par adresse URL permet de retrouver l’archive d’un site, d’une page ou d’un fichier en indiquant son adresse internet exacte. Par exemple, en saisissant http:// www. lemonde. fr, on peut voir l’évolution du site du journal Le Monde, comparer les différentes versions de la page d’accueil… Cette recherche, qu’on peut comparer à une recherche par cote, n’est pas simple à utiliser, car elle suppose de connaître l’adresse du site ou du document que l’on recherche ou d’être capable de la retrouver (signets, webliographie, recherche par moteur ou annuaire, etc.). La recherche par adresse URL est la seule aujourd’hui qui porte sur la totalité des archives. Des options de recherche avancée permettent de limiter l’investigation à une année, un mois, un jour ou une période d’archivage. On peut ainsi retrouver le discours de Lionel Jospin le soir du 21 avril 2002 publié sur son site campagne ou encore les sorties de films annoncées sur le site Allociné entre le 15 mars et le 15 mai 2001.

13

La recherche par mots clés fonctionne comme un moteur classique : elle permet de retrouver les documents archivés contenant le ou les mots saisis. Des options de recherche avancée permettent également de demander une expression ou de limiter la recherche à un site particulier. Cette recherche est encore expérimentale et ne porte que sur environ 5 % des archives. Indexer des milliards de documents hétérogènes en essayant de conserver l’unité temporelle qui les relie représente un véritable défi que plusieurs projets internationaux tentent de relever. Mais les logiciels qui indexent des archives de sites en plein texte aujourd’hui en sont encore à leurs débuts.

14

Pour pallier l’opacité du fonds et l’insuffisance actuelle des outils d’accès, qui sont toujours en cours de finalisation, mais aussi pour mettre en valeur certaines collections particulièrement riches, la BnF a élaboré des parcours guidés qui donnent des idées, stimulent la recherche et permettent de découvrir certains contenus des archives sur des thèmes choisis. Le premier dossier s’intitule Cliquer, voter : l’Internet électoral. Il propose une sélection illustrée et commentée des sites des acteurs, observateurs et témoins des campagnes électorales de 2002, 2004 et 2007 (élections présidentielles et législatives en 2002 et 2007, régionales et européennes en 2004). Autres exemples de thèmes traités : la Net-politique à la loupe, la caricature politique, les boîtes à outils pour les militants, le 21 avril 2002, l’écologie, les campagnes de Nicolas Sarkozy et Ségolène Royal à l’élection présidentielle de 2007, etc. Le prochain parcours guidé portera sur les journaux personnels et littéraires en ligne.

De nouveaux publics ?

15

Début avril 2008, à peine les outils installés et la signalétique posée, un étudiant en master de sciences politiques demande à consulter les archives : il prépare un mémoire sur l’utilisation d’Internet lors de la campagne présidentielle de 2007. La collection électorale constitue un produit phare de l’ouverture du service : valorisée à travers le premier parcours guidé et plus visible du public par le biais d’articles de presse, elle est aujourd’hui la plus consultée. Les caricatures pendant les élections présidentielles de 2002 et 2007, la critique du traitement télévisuel de l’insécurité pendant la campagne électorale de 2002, la parole des femmes candidates aux élections sont quelques exemples de sujets de recherche apportés par des étudiants en thèse ou en master de sciences politiques, sociologie ou linguistique qui travaillent sur ces collections.

16

« Avez-vous le site de la maison de Jallier, musée de la faïence à Moustiers ? Il n’existe plus. » « Avez-vous archivé mon site personnel ? Il contient toutes mes publications scientifiques, mes chroniques et un magazine sur la politique intérieure, la géopolitique, les questions financières et environnementales, ainsi que des textes historiques et culturels. » Voilà deux exemples de questions posées dans les salles de lecture, révélatrices des préoccupations ou des buts visés par les premiers lecteurs, loin d’une démarche simplement universitaire.

17

On compte actuellement entre dix et vingt consultations par mois. Ce nombre peut sembler faible mais les archives de l’Internet sont un nouveau support de recherche et leurs utilisateurs potentiels ne fréquentent pas forcément la BnF. Lors de l’ouverture, la Bibliothèque a fait le choix d’une communication ciblée auprès des lecteurs déjà inscrits et des communautés susceptibles d’être intéressées par ce service, en particulier des communautés associées à des projets de collecte (des chercheurs du Centre d’histoire sociale de Paris I et de France Telecom R&D pour la collecte des sites du web militant et web social, l’Association pour l’autobiographie et le patrimoine autobiographique pour la collecte des blogs et des journaux intimes, etc.). Le bouche à oreille au sein et hors de ces communautés, l’extension d’ici mars 2009 de l’accès aux archives sur tous les postes informatiques de la Bibliothèque de recherche et la finalisation des outils de consultation devraient permettre d’accroître progressivement le nombre de visiteurs.

18

Les archives de l’Internet constituent un fonds peu ordinaire pour une bibliothèque habituée à conserver des documents entiers. Elles sont très riches mais aussi lacunaires. Face à l’importance de l’Internet dans les pratiques des utilisateurs et dans la diffusion des savoirs et de la connaissance, cette nouvelle forme de patrimoine était devenue indispensable. Et les lacunes du fonds, pleinement assumées pour des raisons techniques et de politique documentaire, ne sauraient constituer un obstacle pour un chercheur face à un corpus unique dans son fond comme dans sa forme. •

19

Sara Aubry

Services d’information. La bibliothèque numérique de l’ENSSIB

20

L’Enssib propose une bibliothèque numérique qui rassemble des ressources, essentiellement francophones, dans les domaines des sciences de l’information et des bibliothèques.

21

Riche déjà de plus de 1 200 documents en texte intégral, la bibliothèque numérique de l’Enssib (École nationale supérieure des sciences de l’information et des bibliothèques) propose actuellement, sous une interface unique, des travaux de recherche (mémoires d’étudiants, actes de colloques, articles professionnels), des rapports institutionnels (rapports parlementaires, rapports de jury de concours, rapports de l’Inspection générale des bibliothèques) ou encore, pour la première fois, un corpus d’études et enquêtes menées dans les établissements français, à commencer par des études de publics dès lors visibles et plus aisément accessibles, chaque document disposant d’une adresse pérenne.

22

L’accès aux documents se voit simplifié par la multiplicité des modes de recherche et de navigation : recherche sur le texte intégral d’un document en utilisant le moteur propre, requête sur une métadonnée spécifique, filtrage sur une collection précise, feuilletage du contenu par collections, index alphabétique et thématique. Une classification thématique a été élaborée afin d’indexer les documents au plus près des besoins de l’école et des professionnels.

23

Parallèlement, la bibliothèque numérique propose un certain nombre d’alertes par flux RSS ou courrier électronique avertissant du dépôt de nouveaux documents dans chaque collection et dans chaque thème. Un abonnement à l’ensemble des nouveaux dépôts est possible à partir de la page d’accueil de la base. Enfin, l’usager peut s’abonner aux résultats d’une requête afin d’être prévenu automatiquement de dépôts futurs répondant à sa recherche initiale.

24

La richesse de la bibliothèque numérique de l’Enssib vient également de l’origine des documents qu’elle propose. En effet, chaque internaute peut se créer un compte et proposer en auto-dépôt une ressource qu’il jugerait intéressante pour l’ensemble de la profession, document qui se verra attribuer une icône « Label archives ouvertes » pour en affirmer la provenance. D’autres labels ont été prévus : « Édités par l’Enssib » met en valeur les documents produits par l’école tandis que « Palmes de l’Enssib » récompense les meilleurs travaux des élèves.

Numérisation de corpus et documents scientifiques

25

Afin de développer sa bibliothèque numérique et d’offrir des matériaux pour la recherche sur les bibliothèques, l’Enssib a mis en œuvre la numérisation de corpus de textes fondamentaux pour le monde professionnel de la documentation. Avec le soutien de la BnF, un premier corpus consiste en la numérisation du Bulletin de l’ABF sur une période de 1981 à 2001. L’ensemble de ces numéros, ainsi que d’autres revues en sciences de l’information et des bibliothèques, seront disponibles au sein de la bibliothèque numérique, comme le sera aussi le Bulletin des bibliothèques de France déjà accessible en ligne, depuis l’origine, sur son propre site. Un second corpus portera sur des ouvrages « classiques » en bibliothéconomie et histoire des bibliothèques (par exemple, À propos des bibliothèques populaires. Discours de M. Sainte-Beuve, prononcé dans la séance du Sénat le 25 juin 1867, ou Cours élémentaires de bibliographie ou la science du bibliothécaire de Claude-François Achard, 1806).

26

Enfin, parallèlement, l’école va développer un moissonneur OAI afin de retrouver les documents scientifiques et de recherche déposés par ses cher- cheurs dans le répertoire d’archives ouvertes HAL, où une collection Enssib vient d’être créée, ainsi que dans d’autres répertoires de données spécialisés.

27

L’Enssib souhaite ainsi, avec la bibliothèque numérique, participer à l’élaboration et à la diffusion des connaissances et des savoirs dans le monde professionnel des bibliothèques. •

28

Thomas Chaimbault

Construire un portail ! Oui, mais comment ?

29

Journée d’étude. Évolutif et complexe, entre concept et application technique, le portail documentaire se prête mal à la définition. C’est donc un état de l’art introduit par deux exposés de cadrage et appuyé sur plusieurs exemples de réalisations que l’ADBS et l’INTD ont récemment proposé.

30

Un projet de portail vise plusieurs objectifs : fédérer dans un système d’information unique des ressources internes ou externes préalablement sélectionnées ; unifier et simplifier l’accès à des ressources diverses, composées de documents structurés ou non, et proposer de façon intégrée des outils de traitement de contenus ; personnaliser l’offre d’informations et les modes d’accès d’un groupe d’usagers, voire d’un individu. Mais la diversité des contextes professionnels induit des réponses hétérogènes à ces attentes : brique fonctionnelle du portail de l’entreprise, le portail documentaire peut s’adresser à son personnel, à ses clients, à ses partenaires ou à un plus large public. L’authentification est donc toujours à privilégier car elle permet d’individualiser l’offre d’information.

Des fonctionnalités diverses

31

Les fonctions de recherche et d’accès à l’information offrent désormais une large gamme de choix : les sources peuvent être regroupées en « bouquets de services ». La recherche fédérée permet de faire cohabiter des recherches structurées par formulaires, des requêtes sur texte intégral, la navigation par arborescence et l’utilisation d’outils linguistiques. Les fonctions d’exploitation et de retraitement du résultat de recherche sont aussi diversifiées : les éditeurs de portails peuvent proposer des outils de tri, de catégorisation automatique, de datamining, de mise en panier d’édition ou de diffusion, ainsi que des outils de travail collaboratif. Le portail facilite la création de multiples formes de services documentaires : catalogues, sitothèques, newsletters bénéficient des fonctions de gestion de contenus, tandis que les fils RSS optimisent la DSI. Enfin, les applications de portail disposent de fonctions d’administration des contenus et des utilisateurs.

Repères

Cette journée d’étude organisée par l’ADBS et l’Institut national des techniques de la documentation (INTD) a eu lieu à Paris, au CNAM, le 21 octobre 2008. Le programme détaillé, ainsi qu’une version plus développée de ce compte rendu, sont en ligne sur le site de l’ADBS : www. adbs. fr, rubrique « Se former et s’informer ».

Deux familles de produits

32

Les portails pour bibliothèques et centres de documentation sont apparus en Amérique du Nord il y a trois ou quatre ans. Très orientés vers la publication de contenus (CMS), ils intègrent des outils de recherche fédérée permettant de traduire dynamiquement les termes d’une requête dans le langage d’interrogation de sources diverses, puis de restituer les résultats sous une forme plus ou moins homogène. Plus récent, l’Opac de « nouvelle génération [1][1] Voir notre numéro 3/2008 pages 16-17. » effectue périodiquement un « moissonnage » de sources diverses, en recopiant les métadonnées des catalogues externes dans un « entrepôt de données » unique. Ce travail préparatoire permet une exploitation par l’usager plus rapide que pour la recherche fédérée puisque la requête ne s’exécute que sur une base locale ; mais le moissonnage ne peut s’appliquer de façon standard qu’à des sources compatibles avec le protocole OAI-PMH.

33

Les normes sont au cœur de ces deux processus. Il reste cependant un important travail à livrer pour unifier les structures des données concernant l’usager. Essentielles puisqu’elles gèrent non seulement les droits et les états de prêt mais aussi l’accès à un espace de travail individualisé, au panier de sélection, à un choix de sources ainsi que les autorisations d’accès aux applications ou aux sources électroniques payantes, ces données doivent circuler sans entrave entre la base des utilisateurs du portail, celle des lecteurs de la bibliothèque et l’annuaire centralisé de l’entreprise.

Une grande variété de réalisations

34

Les phases essentielles du projet Déclic, le portail intranet d’accès aux ressources documentaires internes et externes du CIRAD [2][2] Portail réalisé avec Qwam E-Content Server et AMI Software..., sont la consultation des usagers en amont et la rédaction du storyboard avec les chercheurs. Mais l’accompagnement des utilisateurs n’est pas négligé : des actions de formation, la réalisation de documents d’aide et de promotion ou de vidéos prolongent les présentations aux usagers.

35

Au Cemagref, on préconise d’adapter le choix technique au contexte professionnel et de se limiter à ce que les outils font le mieux. Ce souci d’efficacité a conduit dans un premier temps à renoncer à l’implémentation d’un moteur fédéré dans le cadre du projet Cemadoc [3][3] http:// cemadoc. cemagref. fr et à se concentrer sur la clarté et l’organisation de l’offre de sources internes à l’aide du CMS Zone Plone.

36

Dans l’application de la médiathèque de la Cité de la musique [4][4] http:// mediathe­que. cite-musique. fr, l’écoute des concerts enregistrés est proposée via une interface web. Mais ce portail n’est que la face visible d’un processus complexe associant la négociation des droits de diffusion, le transcodage et le montage des fichiers son et leur association avec des sources complémentaires. Les droits d’accès sont détectés automatiquement et l’utilisateur peut écouter et consulter les dossiers et partitions d’un « simple clic ».

37

La cohérence et la légitimité des fonds sont au cœur du projet Rhéa. La phase d’étude [5][5] Étude menée par le cabinet Ourouk. a confirmé que les fonds numérisés de plusieurs établissements de recherche et organismes publics [6][6] Ministère de l’Agriculture et de la Pêche, Cemagref,... justifient la création d’une bibliothèque numérique consacrée aux sciences agronomiques et à l’environnement. Source de référence pour les chercheurs, enseignants, élèves et étudiants, ce portail doit rendre visible à l’international un pôle d’excellence scientifique français.

38

Le portail de veille de l’Agence d’urbanisme de la région grenobloise [7][7] www. netvibes. com/ aurg#Accueil démontre que les outils du web 2.0 permettent aux petites structures de tirer leur épingle du jeu rapidement et à peu de frais. Réalisé (sans budget) à l’aide de l’agrégateur de flux RSS Newsgator et du portail Netvibes, il se positionne comme outil de suivi de l’actualité sur le web en complément des sources papier traditionnellement exploitées. L’élément central n’est pas le projet informatique, mais la sélection quotidienne des informations les plus pertinentes : 85 à 90 % de celles collectées automatiquement sont en effet rejetées manuellement par les documentalistes.

39

Les technologies se diversifient mais l’approche méthodologique demeure inchangée. Trois recommandations restent éternellement valables : s’enquérir des besoins, repérer les contraintes et orientations de son organisme et analyser les pratiques des utilisateurs. Car, si innovants soient-ils, les portails devront sans cesse évoluer pour suivre les usages. •

40

Claire Scopsi

La chronique de Dominique Cotte. Culture informationnelle et pensée magique

41

Utilisateurs et acteurs des systèmes d’information recourent couramment à des expressions qui ont longtemps été propres aux spécialistes. Y aurait-il là une forme de « pensée magique » ?

42

Il est frappant de constater, au contact des instances de pilotage des « projets » dans les entreprises (comités de projet, de pilotage, groupes d’utilisateurs, etc.) à quel point un vocabulaire jusque-là réservé aux spécialistes de la gestion de l’information et aux consultants est devenu prégnant. Lorsque les utilisateurs ou les acteurs du système d’information sont interrogés sur leurs besoins, il n’est pas rare qu’ils se prononcent en même temps sur des solutions, à partir de connaissances acquises le plus souvent sur le tas (par leur pratique des outils, y compris dans leur utilisation extra-professionnelle). « Créer un lien hypertexte », « proposer un nuage de tags », « offrir un accès par profil », « rechercher sur l’ensemble des supports de stockage » sont des requêtes exprimées non seulement comme expressions de besoins, mais aussi comme évidences techniques.

43

Il s’instaure ainsi, apparemment, une forme de communauté de pensée entre professionnels de l’information et usagers, ces derniers pouvant même parfois disposer de connaissances pratiques ou développer des usages plus pointus que les premiers. Mais derrière cet apparent « progrès » dans la compréhension mutuelle des enjeux, ne se cache-t-il pas une nouvelle forme de pensée magique ?

44

À partir de l’observation empirique des effets obtenus par le maniement des outils de gestion de l’information, les usagers expriment le souhait d’une reproduction à l’identique de ces effets dans leur contexte de travail. Il leur apparaît ainsi évident, par exemple, que le moteur de recherche de l’intranet doive se comporter comme Google, alors même que l’organisation documentaire sous-jacente, le contenu des documents, leur structuration, les besoins de recherche sont fondamentalement différents entre le web et un intranet spécifique. Ou encore, à partir de la facilité apparente d’affichage dynamique des données et documents, sont souhaitées des fonctionnalités qui méconnaissent totalement la complexité sous-jacente de l’organisation des systèmes.

45

Il ne s’agit pas ici, bien sûr, de reprocher à des personnes dont ce n’est pas le métier de ne pas maîtriser ces savoirs techniques. Mais force est de constater qu’il existe un décalage entre le visible – ce que tout un chacun manipule à partir des logiciels et interfaces de travail et de consultation, notamment sur le web –, et l’invisible – l’organisation interne des supports techniques, des données et des outils de recherche. Dans cet écart on peut voir émerger une forme de pensée magique, entendant par là celle qui confie à la technologie tous les espoirs en termes d’usages, sans prendre en compte les réalités complexes ni les contraintes de la mise en œuvre.

46

On ne saurait, à notre sens, parler de culture informationnelle sans intégrer ces aspects de connaissance technique, permettant a minima d’appréhender le fonctionnement des outils et systèmes, en intégrant également leurs limites. Expliquer, former, convaincre, et ceci sans relâche, restent des tâches indispensables pour que s’opère, dans le long terme, une connaissance accomplie de ces sujets. •

47

Dominique Cotte

PURL et URN : localisation et identification pérennes

48

Nous poursuivons notre découverte des moyens d’accès aux ressources du web via des URL. Dans ce troisième article, nous aborderons un dispositif, le PURL ou Permanent URL, qui tend à répondre au problème de l’absence de permanence des URL

49

Dès 1994 [1], Tim Berners-Lee précisait la relation entre l’URI (Universal Resource Identifier, devenu depuis Uniform Resource Identifiers ou identificateurs de ressource uniformes) et deux types particuliers de ceux-ci : les URL et les URN [2]. Une URN diffère d’une URL en proposant avant tout un nom univoque et permanent pour une ressource [8][8] « A URN differs from a URL in that it’s primary purpose... ; ce qui signifie un identifiant indépendant du nom de domaine et donc de sa localisation. Mais, si cette URN est permanente, elle ne donne pas un accès immédiat à la ressource comme le font les URL via le protocole http. Un résolveur de noms est alors nécessaire [9][9] Nous avons déjà vu le principe des résolveurs et des.... En dix ans, les URL, malgré leurs problèmes d’obsolescence, se sont fortement développées ; plus délicats à mettre en œuvre, les URN se mettent lentement en place.

Principe fonctionnel des PURL

50

En 1996, pour répondre au problème de « liens cassés » sur le web, l’OCLC propose un système simple, non propriétaire et gratuit : les PURL (Permanent URL) ou URL permanentes [10][10] À ne pas confondre avec Personalized URL ou PURL qui... [3]. Ce système, fonctionnant en architecture distribuée, permet d’associer un nom de type PURL à l’URL d’une ressource existante et de retourner cette URL au client. Il s’agit de la redirection d’une URL existante et donc modifiable vers une URL virtuelle construite par le système et qui se veut durable. Ce système s’appuie sur un résolveur de liens, qui gère une table de correspondance entre des URL et des PURL.

51

La structure de cette URL virtuelle suit le schéma classique d’une URI : un protocole (ici http), un espace de nom [11][11] Un espace de noms est un réservoir abstrait apportant... (ici le nom de domaine du résolveur proposé par l’OCLC : purl.org) et un segment attribué par l’utilisateur à la ressource. Exemple : http:// purl. org/ net/ francio = hhttp:// esperanto-panorama.net/francio

52

Le nom donné au segment permet donc de distinguer localisation et identification des ressources. L’adresse PURL peut ainsi être très différente de son URL associée.

53

Même si la ressource est physiquement déplacée sur le réseau, elle conserve ainsi son identification. Il faudra toutefois veiller à modifier la table de correspondance si vous êtes administrateur ou à notifier le résolveur de liens de ce changement, la mise à jour n’étant pas automatique. Dans ce dispositif, l’administration de la table de correspondance revêt une importance capitale. En revanche, la PURL elle-même ne peut être modifiée. Elle est préservée et historisée. Ainsi est-il toujours possible de consulter l’historique des modifications d’une PURL.

54

L’OCLC propose un service en ligne. Il vous suffit de créer un compte pour pouvoir produire très rapidement une PURL. Dans cette configuration, vous bénéficiez d’un nom de domaine mutualisé /Net/, avec la possibilité de créer des sous-domaines personnalisés. Mais il est également possible de demander un domaine dit supérieur à la place du domaine NET, voire d’exploiter les applications mises à la disposition d’OCLC pour mettre en place vous-même un résolveur de liens [12][12] Voir le dispositif mis en place par le gouvernement....

Des PURL pour quelles ressources ?

55

Un juste milieu doit être trouvé entre le coût d’administration de cette table de correspondance de liens et l’intérêt de fournir un accès durable quelle que soit la vie de la ressource. Des ressources durables et fréquemment citées comme des périodiques électroniques, des articles, des contributions, des rapports et, bien sûr, des documents de référence sont des bons candidats à une PURL. Par exemple, l’espace de nom du Dublin Core possède une PURL qui pourrait être plus fréquemment utilisée [13][13] http:// dublincore. org/ 2008/ 01/ 14/ dcterms. rdf.... La page principale d’un portail de ressources documentaires ou, de façon générale, les ressources au sommet d’une hiérarchie, sont également de bons candidats ; les objets de niveau inférieur n’ont pas besoin de PURL si leur organisation repose sur des bases pérennes. Mais le choix des ressources pour lesquelles cette mécanique sera mise en œuvre reste à étudier dans votre contexte.

Quels usages des PURL aujourd’hui ?

56

L’étude des chiffres fournis sur le site de l’OCLC en 2008 comparés à ceux de 2002 [4] montrent une évolution relativement faible des PURL avec 29 % d’augmentation entre ces deux dates, soit 162 000 PURL nouvelles en six ans, ce qui paraît dérisoire face au volume du web dans son ensemble ! Par contre, le nombre de « Client Unique » (+ 1 461 %) et surtout celui des PURL traduites (+ 524 %) a considérablement augmenté. Peu de PURL, donc, mais des PURL bien exploitées.

57

On peut également citer le service POI [14][14] www. ukoln. ac. uk/ distributed-systems/ poi (PURL-based Object Identifier), qui exploite le mécanisme des PURL conjointement avec le protocole OAI-PMH. En effet ce dernier a son propre système d’identifiant, non exploitable directement sur le web puisqu’il n’intègre pas de protocole normalisé connu par celui-ci. Le service POI permet d’exploiter l’identifiant d’une ressource d’un entrepôt OAI en l’intégrant dans une adresse Purl [5].

58

Depuis dix ans, le dispositif des PURL nous a permis de nous familiariser avec le principe des identifiants pérennes et des résolveurs de liens. Les promoteurs de ce système avaient bien indiqué à l’époque, tout en travaillant au sein du dispositif des URN, que celui des PURL se mettait en place en attendant que le fonctionne- ment des URN soit rodé.

Déployer des URN

59

Nous pouvons constater aujourd’hui l’existence de schémas d’URI (a) ou de sous-espaces au sein de l’espace des URN (b) [15][15] Site portail des Recommandations pour l’Internet :.... Ceux-ci ne résolvent pas la question de l’accès à la ressource, mais celle de la pérennité des identifiants. Nous ne citerons que deux exemples.

60

(a) Un schéma d’adresses appelé URI info est proposé depuis 2006 afin d’identifier des ressources d’information qui possèdent des identificateurs dans des systèmes d’enregistrement publics existants. Par exemple, une adresse URI pour les numéros de contrôle de la bibliothèque du Congrès LCCN : info:lccn/2002022641, ou pour la classification décimale Dewey : info:ddc/22/eng//004.678 [6].

61

(b) Parlant d’identifiant pérenne, on songe immédiatement aux numéros ISBN, ISAN ou autres. L’URN possède effectivement des espaces de noms spécifiques pour l’ISBN ou l’ISSN depuis 2001 ou pour l’ISAN depuis 2006 : urn:isbn:0-395-36341-1 ; urn:issn: 0012-4508 ; urn:isan:0123-1230-3210-2310-1

62

Il est possible d’initier d’autres espaces de nom et ainsi de démarrer l’attribution d’URN à des ressources, comme l’a fait la Bibliothèque nationale suisse (urn:nbn:ch) en utilisant la recommandation 3187 du RFC [16][16] Using International Standard Book Numbers as Uniform... et en se dotant de politiques d’attribution clairement énoncées [17][17] Rubrique d’information sur les URN sur le site de la....

Bonnes pratiques de production d’URL

63

L’étude de la production documentaire autour des URI et des différentes recommandations ou notes rédigées par le W3C montre que celui-ci souhaite voir se déployer de bonnes pratiques autour des URI plutôt que des systèmes de nommage particuliers qui, certes, remplissent un besoin mais qui apparaissent aussi comme des artifices et fragilisent d’autant l’architecture du web : le problème des liens cassés est reporté vers les (très nombreux) résolveurs de liens et systèmes d’enregistrement.

64

Pour revenir aux PURL, notons que celles-ci ne sont pas des URN (leur syntaxe ne suit pas la syntaxe normalisée des URN et leur finalité est bien la localisation), mais bien des URL. Elles ne sont donc pérennes que dans la mesure où le nom de domaine est maintenu et où l’information est administrée. Ce sont des URL accessibles indirectement via un résolveur d’URL.

65

Mais alors pourquoi ne pas écrire dès le départ une adresse pérenne ? C’est avec ce souci que le W3C fournit des recommandations de bonnes pratiques pour la préservation des URL dans le temps : ce sont les « URL sympas » de Tim Berners-Lee [7]. Parmi ces conseils :

  • ne pas intégrer des données reflétant le mode de gestion informatisée (GCI ou autre extension de programme). Il est même recommandé de supprimer les extensions ;

  • ne pas confondre l’URI et l’emplacement physique du fichier dans un répertoire sur un serveur, ces serveurs proposant de nombreux outils pour autoriser une plus grande souplesse dans cette relation. N’oublions pas que l’espace URI est un espace abstrait ;

  • constituer l’organisation plutôt comme un index avec une structuration qui s’appuie, par exemple, sur l’année de production des ressources : cette année-là ne changera pas.

Des remarques de bon sens qui n’auront pas échappé aux professionnels de l’info-doc. En effet, un débat du même ordre ne se pose-t-il pas quand nous devons mettre en place des systèmes de classement ou de numérotation ? Si nous intégrons à notre modèle beaucoup d’informations codées : support, sujet ou éléments d’un organigramme, nombre d’entre elles risquent de s’avérer obsolètes dans un temps parfois très court.

66

En attendant la généralisation des bonnes pratiques qu’évoque Tim Berners-Lee concernant les URL et qui consistent à préserver la simplicité de désignation de vos URL, il est encore possible de s’appuyer sur le dispositif PURL, certes transitoire, mais simple et accessible. Et, pour répondre au principe de distinction entre le système de localisation de celui de la pérennisation des ressources, lançons-nous rapidement dans le monde des URN ! •

67

Sylvie Dalbin,

68

Odile Giraud,

Où se cachent les métadonnées ?

69

FAN. Dans le cadre du Forum des acteurs du numérique, l’ADBS proposait le 7 octobre une demi-journée d’étude intitulée « Où se cachent les métadonnées ? Manuelles, automatiques ; pour l’humain, pour la machine… Comment les maîtriser ? »

70

Les métadonnées présentent des facettes multiples : informations inhérentes au contenu et à l’identification intellectuelle d’un document, données produites par le système d’information lui-même, éléments du cycle de vie du document… Leur exploitation n’est pas un processus isolé mais le moyen par lequel la gestion documentaire s’intègre à l’ensemble du système d’information et aux différents référentiels de l’entreprise.

71

De leur côté, les moteurs de recherche sont capables d’exploiter les concepts extraits des textes bruts et les données de gestion. L’intérêt sera alors de gérer ces métadonnées générées automatiquement lors de la création ou de la modification de documents pour optimiser la recherche.

Les métadonnées dans le texte

72

L’environnement PDF, outre ses fonctions de reproduction d’un document à l’identique, permet la recherche « plein texte » dans le document lui-même et sur plusieurs documents à la fois. Les métadonnées générées peuvent alors servir au référencement, à l’extraction et au stockage. Ces métadonnées au format XMP, basé sur le RDF, permettent d’envisager la réexploitation des informations dans d’autres systèmes.

73

Un document PDF créé à partir d’un document Word intégrera les métadonnées créées automatiquement par ce logiciel. On pourra ensuite ajouter manuellement d’autres métadonnées (celle du Dublin Core, par exemple). Pour faciliter l’accès à l’information, les solutions Adobe Acrobat permettent de créer des portfolios et proposent ainsi un premier niveau de structuration de l’information pour un ensemble de documents et une solution de GED à la portée des PME.

Repères

Pour en savoir plus : voir le programme de cette journée et un compte rendu plus complet à l’adresse www. adbs. fr, rubrique « Se former et s’informer »

Pour en savoir encore plus : voir l’ouvrage édité par l’ADBS à l’occasion du récent séminaire INRIA : Métadonnées : mutations et perspectives. Séminaire Inria, Dijon, 29 septembre - 3 octobre 2008. Ouvrage coordonné par Lisette Calderan, Bernard Hidoine et Jacques Millet. ADBS Éditions, 2008. 282 pages. 26 €. Détails sur www. adbs. fr, rubrique « Accéder à la documentation professionnelle »

74

Les métadonnées du document sont distinctes de celles du système documentaire. Les premières servent à l’édition d’un document, à sa transformation vers d’autres formats et à leur réutilisation. L’outil IsIword, complémentaire à Word, permet de créer une fiche d’identité du document avec des métadonnées accessibles en dehors de l’application elle-même. Avec Word 2007, l’intégration de fichiers docx (format XML) permet de gérer un ensemble de documents de façon comparable à ce qui se passe dans l’environnement Adobe.

75

On voit ainsi que les outils bureautiques s’enrichissent de fonctionnalités offrant la possibilité de créer les métadonnées au moment de la production du document. Ils constituent des briques de base dans la constitution de systèmes d’information documentaire.

Les métadonnées dans l’image

76

Les images aussi sont accompagnées de métadonnées ou, de plus en plus, elles les intègrent directement. Externes, elles peuvent soit se trouver dans une base de données soit dans un « sidecar file ». Elles peuvent aussi être embarquées dans la ressource. Dans ce cas et si leur nombre est important, leur duplication dans une base de données est indispensable.

77

Les principaux formats de métadonnées internes sont exif (EXchangeable Image File) et iptc/iim (International Press and Telecommunication Council). Aujourd’hui, c’est le modèle XMP qui se développe. Il repose sur RDF et sur le Dublin Core. Âgé de sept ans, il peut être considéré comme un standard, même s’il n’est pas normalisé. Lancé par Adobe en septembre 2001, fondé sur les standards du W3C, il est extensible et couvre les métadonnées métier. C’est grâce aux métadonnées que l’on voit se développer toutes les applications de type web 2.0, comme Flickr et beaucoup d’autres.

78

L’image animée fait l’objet d’un processus de production assez complexe. Des métadonnées sont générées à chaque étape. Alors que les normes de codage se sont multipliées au cours de ces dernières années, l’arrivée de métadonnées au format XMP se confirme pour la vidéo. À travers l’outil Premiere Pro d’Adobe (CS4) se dessinent de nouvelles perspectives d’usage des métadonnées (notamment en post-production) : analyse du contenu, facilitation du montage, diffusion multi-canal, etc. •

79

Loïc Lebigre,

80

Claudine Masse,


Références

Notes

[1]

Voir notre numéro 3/2008 pages 16-17.

[2]

Portail réalisé avec Qwam E-Content Server et AMI Software Intelligence.

[5]

Étude menée par le cabinet Ourouk.

[6]

Ministère de l’Agriculture et de la Pêche, Cemagref, IRD, INRA, CIRAD.

[8]

« A URN differs from a URL in that it’s primary purpose is persistent labeling of a resource with an identifier », 1997.

[9]

Nous avons déjà vu le principe des résolveurs et des serveurs de noms avec l’OpenURL : cf. notre numéro 2/2008, p. 12-13.

[10]

À ne pas confondre avec Personalized URL ou PURL qui à une page personnalisée associe une URL elle-même personnalisée. Voir : www. abc-netmarketing. com/ Les-URL-personnalisees-ou-PURL. html

[11]

Un espace de noms est un réservoir abstrait apportant un contexte précis aux éléments qu’il contient et désambiguïsant ainsi des éléments possédant le même identifiant.

[12]

Voir le dispositif mis en place par le gouvernement australien : http:// purl. nla. gov. au

[15]

Site portail des Recommandations pour l’Internet : www. faqs. org/ rfcs

[16]

Using International Standard Book Numbers as Uniform Resource Names.

[17]

Rubrique d’information sur les URN sur le site de la BNS : www. nb. admin. ch/ slb/ slb_professionnel/ 01693/ 01695/ 01706/ index. html? lang= fr

Plan de l'article

  1. Les archives de l’Internet : un nouveau service de la BnF
    1. De nouvelles collections
    2. De nouveaux services d’accès
    3. De nouveaux publics ?
  2. Services d’information. La bibliothèque numérique de l’ENSSIB
    1. Numérisation de corpus et documents scientifiques
  3. Construire un portail ! Oui, mais comment ?
    1. Des fonctionnalités diverses
    2. Deux familles de produits
    3. Une grande variété de réalisations
  4. La chronique de Dominique Cotte. Culture informationnelle et pensée magique
  5. PURL et URN : localisation et identification pérennes
    1. Principe fonctionnel des PURL
    2. Des PURL pour quelles ressources ?
    3. Quels usages des PURL aujourd’hui ?
    4. Déployer des URN
    5. Bonnes pratiques de production d’URL
  6. Où se cachent les métadonnées ?
    1. Les métadonnées dans le texte
    2. Les métadonnées dans l’image

Pour citer cet article

Aubry Sara, Chaimbault Thomas, Scopsi Claire, Cotte Dominique, Dalbin Sylvie, Giraud Odile, Lebigre Loïc, Masse Claudine, « Méthodes techniques et outils », Documentaliste-Sciences de l'Information, 4/2008 (Vol. 45), p. 12-20.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2008-4-page-12.htm
DOI : 10.3917/docsi.454.0012


Article précédent Pages 12 - 20 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback