Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2012/2 (Vol. 49)

  • Pages : 78
  • DOI : 10.3917/docsi.492.0008
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 8 - 15 Article suivant

L’open cloud : garder la maîtrise de son système d’information [1][1] Ce texte a été rédigé à partir d’un article publié...

1

Prospective. L’open cloud, alliance du cloud et de l’open source, permet de conserver une liberté, notamment d’innovation, et d’assurer une meilleure sécurité de ses données. Quels sont les concepts à retenir ? Comment procéder ? Des pistes pour un cloud libre, ouvert et loyal.

2

L’informatique « en nuage » (cloud computing) est désormais une option incontournable [2][2] Selon le cabinet Forrester, le marché devrait atteindre... pour toutes les entreprises, notamment pour les plus petites d’entre elles, pour des raisons de compétitivité. Par ailleurs, l’open source a fait progresser l’industrie informatique tant pour la relation client-fournisseur que pour la liberté d’innovation. S’il y a une tendance à promouvoir, c’est l’adoption de pratiques propices au développement d’une informatique en nuage qui n’emprisonne pas ses utilisateurs, reste loyale et respectueuse de tous.

3

L’open cloud répond à cette exigence et se présente en alternative crédible. Reposant sur les principes de l’open source et ses licences transparentes, il offre à l’utilisateur une liberté qui lui garantit la maîtrise de son système d’information (SI). L’ouverture du code et des formats de données utilisés, la reproductibilité des services offerts, l’interopérabilité entre les données et les applications, la transparence des contrats de services et du prestataire sont quelques-unes des caractéristiques de l’open cloud.

4

Mais ces conditions ne suffisent pas. Le développement des usages de l’Internet et la montée en charge de l’informatique en nuage augmenteront les besoins de débit de l’Internet et inciteront les opérateurs à privilégier certains services en échange d’une rémunération. Cet aspect est étroitement lié à la défense de la neutralité du Net.

Le logiciel libre

Le logiciel libre, défini par la Free Software Foundation (FSF) [3][3] Free Software Foundation : http://www.fsf.org, impose quatre libertés [4][4] Wikipédia : http://fr.wikipedia.org/wiki/Logiciel_... :

  1. La liberté d’exécuter le programme, quels que soient les usages ;

  2. La liberté d’étudier le fonctionnement du programme et de l’adapter à ses besoins ;

  3. La liberté de redistribuer des copies du programme en donnant ou en vendant des copies ;

  4. La liberté d’améliorer le programme et de distribuer les versions amendées au public.

L’accès au code source est une condition d’exercice des libertés 1 et 3. L’open source, définie par l’Open Source Initiative (OSI), s’appuie sur une définition en dix points [5][5] Open source initiative http://www.opensource.org retenant les mêmes principes sur les aspects pragmatiques de l’ouverture du code.

Le moteur du nuage : le logiciel libre et l’open source

5

Le nuage n’aurait probablement pas connu sa formidable croissance sans l’existence d’une famille de logiciels aux licences particulières : les logiciels libres et l’open source.

6

Cette ouverture implique que les services du cloud soient conçus et pensés dans leur contrat de service comme des logiciels open source afin de permettre à l’utilisateur de maîtriser ses données. C’est ce que propose l’open cloud.

Ouvrir le nuage

7

Offrir à l’utilisateur la maîtrise de ses données conduit également à lui offrir la maîtrise des programmes qui les exploitent. Le nuage ouvert, ou open cloud, repose sur le principe de l’ouverture et de la transparence, que l’on doit retrouver au niveau des données et des programmes.

8

Les données, souvent stratégiques pour l’entreprise, sont la base de toute application. Les confier à un tiers extérieur ne doit pas se faire à la légère. Il convient donc de s’intéresser de près aux possibilités d’export des données proposées par le prestataire du service. Les formats proposés par l’open cloud, s’appuyant en général sur des standards établis par des organisations telles l’ISO [6][6] ISO : http://www.iso.org/iso/fr/home.htm ou le W3C [7][7] World Wide Web Consortium (W3C) : http://www.w3.or, sont ouverts et documentés. Ils assurent de pouvoir toujours accéder à ses données.

9

En offrant la possibilité de consulter le code source du programme, l’open cloud permet de le contrôler et de s’assurer que les traitements effectués sur les données sont conformes aux attentes. Il est aussi possible d’obtenir une copie du programme et de l’utiliser comme on l’entend. Cette faculté favorise une concurrence libre entre opérateurs, fondée sur la qualité des services et non sur le programme mis à disposition des clients.

10

Liberté des données et liberté des programmes offrent, lorsqu’elles sont combinées, un nouveau degré de liberté pour les entreprises utilisatrices de l’open cloud : celle de ne plus dépendre d’un fournisseur unique, d’en changer ou de « réinternaliser » le service si l’évolution de son activité l’exige.

Open cloud et contrats de service

11

En voulant récupérer ses données, se pose le problème de la sortie du service ou réversibilité. Il s’agit de définir la capacité d’assurer, en cas de rupture ou de fin de contrat, le transfert des éléments constitutifs du service vers un autre prestataire ou de le ré-internaliser. Or, l’intégration de cette clause, indispensable dans le contrat de service, est rarement proposée.

12

Qu’implique la réversibilité ? Sous quel angle étudier les contrats de service et, surtout, quelles sont les bonnes pratiques garantissant tous les avantages du nuage sans souffrir de ses inconvénients ? Une réponse est donnée par le Total Information Outsourcing (TIO) ou TIO8, solution d’externalisation de l’information présentée par la Foundation for a Free Information Infrastructure. Le TIO définit, pour divers niveaux de service proposés dans les contrats, trois degrés de liberté pour l’utilisateur.

  • TIO ouvert. Un service est ouvert si le contrat de service offre une « liberté des données » qui permet de migrer toutes les données de l’utilisateur, y compris les historiques de connexion, vers une infrastructure gérée par un opérateur tiers. Pour ceci, elles doivent être fournies dans un format qui doit être spécifié, correctement documenté, pouvant être utilisé avec des logiciels standards.

  • TIO libre. Un tel service garantit aux clients qu’ils peuvent changer à tout moment de fournisseur de service ou le devenir eux-mêmes. Une solution d’externalisation de l’information est libre si le contrat de service assure une « liberté des données », identique au TIO ouvert, une « liberté du logiciel », qui permet au client de quitter la plateforme et de profiter du même service sur une infrastructure personnalisée, et une « liberté de la concurrence », sans aucun verrou légal empêchant des concurrents de fournir le même service.

  • TIO loyal. La loyauté suppose de fournir un cadre ayant le même niveau de secret commercial et de transparence qu’avec son propre personnel. Une solution d’externalisation de l’information est loyale si le contrat de service offre :

    • un droit d’accès pour tous, sans aucune discrimination ;

    • une protection de la vie privée où aucune donnée en relation avec l’usage du service par le client n’est fournie à un tiers sans l’autorisation explicite du client ;

    • un droit de notification où le client est avisé de tout incident ou changement qui pourrait causer ou avoir causé une faille de sécurité dans le service ou qui modifierait le service ;

    • un droit de divulgation où le fournisseur prend toutes les mesures nécessaires pour faire respecter les termes du service par ses employés ou fournisseurs et permettre aux clients, sur simple demande, d’en prendre connaissance.

Ces définitions donnent lieu à un guide de bonnes pratiques répondant aux trois grandes questions fondées sur la définition du TIO et la lecture du contrat ou Service Level Agreement (SLA) : le service est-il ouvert, libre et loyal ?

De l’importance du réseau

13

L’un des points clés est l’infrastructure réseau nécessaire pour accéder au service. Le seul lien, en effet, qui vous relie désormais à tout ou partie de votre SI, est votre accès à Internet. Une panne, une faiblesse… et c’est votre capacité à produire qui se trouve mise à mal ! Par ailleurs, les besoins en bande passante liée au nuage vont augmenter rapidement, sollicitant davantage les réseaux des opérateurs pour des coûts en augmentation qu’ils risquent de répercuter sur leurs clients.

14

Il est donc important de disposer de connexions Internet donnant un accès égal à tous les fournisseurs de service en nuage, sans privilégier certains au détriment des autres ! Sans cela, c’est votre liberté de choix qui se trouve remise en question, l’applicabilité des conditions du TIO qui est menacée et, au final, la maîtrise de votre SI qui est hypothéquée. Défendre la neutralité du Net s’impose donc !

Et la décentralisation ?

15

Le TIO favorise la libre circulation des données et des programmes, permettant de disposer d’une offre variée de fournisseurs de services. Cette diversité doit tendre vers une approche décentralisée de l’externalisation de votre SI. La capacité de le répartir, de le rendre redondant sur plusieurs fournisseurs ou plusieurs de vos sites de façon transparente mène à une informatique en nuage à l’avantage des utilisateurs. Nous en sommes encore loin. Les technologies existent pourtant, attendant qu’on les utilise pour créer l’innovation de demain.

16

Il est important que les utilisateurs s’engagent et exigent de leur fournisseur un niveau d’ouverture le plus élevé possible et, à défaut, privilégient l’offre la plus ouverte. Aujourd’hui, bon nombre de risques sont masqués par la forte croissance du marché. Demain, votre fournisseur en nuage, pourtant bien financé hier, peut disparaître ou modifier en profondeur ses services en verrouillant vos données. Ce jour-là, il sera trop tard pour se tourner vers l’open cloud !

17

Philippe Scoffoni

18

Emilie Ogez

19

Ludovic Dubost

L’offre de logiciels pour les bibliothèques numériques

20

Étude. Synthèse de l’ouvrage publié par l’ADBS sur des aspects certes très techniques pour le développement des bibliothèques numériques, mais qui peuvent se traduire en termes de nouveaux usages, de services innovants et de conquête de nouveaux publics…

21

Une requête « bibliothèque numérique » sur Google donne 1 330 000 réponses. Puisque plus de 80 % des internautes ne consultent que les trois premières pages fournies par le moteur de recherche, votre bibliothèque numérique a peu de chances d’exister sur le Web si elle n’apparaît pas sur l’une de ces pages.

22

Ce premier constat souligne les enjeux du choix du logiciel et d’une stratégie de référencement qui permettront à une bibliothèque numérique de trouver son public sur la durée. Le logiciel doit notamment disposer de fonctions garantissant une bonne lisibilité du recueil de documents numériques, d’outils de valorisation de la collection numérique, et de données statistiques qualifiant les usages et cernant le profil des usagers et qui aideront ainsi à orienter les actions de communication.

23

Plusieurs gestionnaires de bibliothèque numérique sont aujourd’hui disponibles. Relativement dense et variée, cette offre de logiciels peut paraître difficile à cerner. L’étude de dix solutions jugées représentatives de la diversité des logiciels présents sur le marché français met toutefois en relief des points de convergence et des spécificités marquées.

Les logiciels étudiés

24

Conduite au cours de l’année 2011, l’étude a porté sur les offres suivantes :

25

Yoolib, logiciel proposé par Amanager, SARL bordelaise détenue par le fabricant de scanner I2S et le fondateur de la société Foudyl Zaouia. Yoolib est le résultat du projet Polinum, un consortium de partenaires privés et publics, bénéficiant de financements européens.

26

Invenio, logiciel open source développé depuis 1993 par le CERN, organisation européenne pour la recherche nucléaire installée en Suisse, qui le met à la disposition de la communauté depuis 2002.

27

ORI-OAI, suite de logiciels libres proposés depuis 2006 par un consortium national de l’Université de Valenciennes et du Hainaut Cambrésis.

28

DSPace, logiciel libre issu de la collaboration entre le MIT et les laboratoires HP à Cambridge aux États-Unis, développé par DuraSpac, société américaine à but non lucratif résultant de la fusion de la DSpace Foundation et de Fedora Commons.

29

DigiTool, logiciel développé par Ex Libris, une société internationale dont une filiale française est située en Ile-de-France.

30

Mnesys, développé par Naoned Systèmes, SARL nantaise créée en avril 2007.

31

Content DM, logiciel développé par l’Online Computer Library Center (OCLC), société internationale de droit étranger.

32

EPrints, logiciel open source proposé depuis 2000 par la School of Electronics and Computer Science de l’Université de Southampton au Royaume-Uni.

33

Greenstone, logiciel open source développé par le Department of Computer Science de l’Université de Waikato en Nouvelle Zélande et soutenu par l’UNESCO.

34

Omeka, logiciel libre développé par le Roy Rosenzweig Center for History and New Media, Department of History and Art History à l’Université George Mason aux États-Unis.

Couverture fonctionnelle

35

Pour disposer d’une vision globale du positionnement de chacun des produits, il est intéressant d’examiner leurs principales fonctions (voir tableau ci-contre). Outre les fonctions de base du gestionnaire de bibliothèque numérique (acquérir, stocker, décrire et communiquer une collection numérique), il est intéressant d’examiner si le produit intègre un serveur OAI, un client OAI, un serveur d’échange d’information bibliographique, un résolveur de liens, un module de recherche fédérée, un CMS (système de gestion de contenu), un système de gestion d’archives ou d’archivage pérenne, tout ou partie des fonctions d’un système de gestion de bibliothèque ou un module ERM [8][8] La définition de ces termes est consultable en ligne....

36

Les produits étudiés sont d’origine française pour trois d’entre eux, les autres venant du monde anglo-saxon (États-Unis, Royaume-Uni, Nouvelle-Zélande) ou de Suisse. Le nombre important de logiciels open source est le reflet de l’origine de ces produits : des universités dont la plupart ont adopté l’architecture OAI afin de favoriser la mise à disposition de prépublications en réaction à l’évolution jugée désavantageuse de l’édition scientifique.

Couverture fonctionnelle des gestionnaires de bibliothèque numérique

Points de convergence de l’offre

37

Tous les logiciels étudiés font l’objet d’une distribution directe et d’une diffusion internationale plus ou moins vaste. Leurs éditeurs ont donc choisi d’assurer eux-mêmes leur commercialisation et de proposer les services d’assistance nécessaires au déploiement de leurs produits. Cette approche peut contribuer à la qualité des prestations - l’éditeur connaissant bien son produit - mais elle peut compliquer les interventions sur des projets français lorsqu’il faut solliciter des équipes situées dans un pays plus éloigné. Le caractère international de la diffusion est probablement le reflet de la dimension du Web : les particularités locales s’effacent et chacun a besoin de la même batterie de fonctions pour faire exister sa bibliothèque sur Internet.

38

La conception générale des logiciels présente également d‘importants points de convergence, notamment dans leur capacité à intégrer des produits tiers, que ce soit pour le suivi de la consultation (avec l’emploi de Google Analytics, Piwik, AWStats, etc.), l’appui sur un annuaire LDAP ou la visualisation des documents numériques (avec l’emploi d’un visualiseur tiers).

39

Les outils présentent aussi à peu près les mêmes fonctions de base pour la consultation des métadonnées : une recherche « à la Google », sollicitation de l’ensemble des métadonnées, sollicitation des zones textuelles des documents, consultation des index, auto-complétion lors de la saisie d’une requête, etc.

Principales spécificités

40

Reflétant la conception initiale du produit, tournée vers l’hébergement d’une base de prépublication ou de collections patrimoniales, les logiciels disposent de capacités inégales pour le traitement des documents imprimés de grande taille. La même diversité s’observe quant à leur capacité à communiquer des images animées, des dessins techniques ou des objets graphiques. Mais, curieusement, tous les outils n’intègrent pas une véritable gestion de la base des usagers.

41

Reflétant là encore leurs origines, les logiciels étudiés présentent d’inégales possibilités en matière de traitement des métadonnées juridiques, techniques et de structure. Un constat similaire sera fait pour les métadonnées métier : si tous les logiciels supportent intégralement le Dublin Core et assez fréquemment les formats Marc, ils sont moins nombreux à supporter l’EAD (Encoded Archival Description, pour les archives), le modèle LOM (Learning Object Metadata, pour l’enseignement), le modèle RDF (Resource Description Framework, pour le web sémantique) et moins encore à traiter les spécificités des métadonnées de la photographie, du journalisme ou de l’audiovisuel.

42

Les services d’alerte (être informé du versement d’un document numérique propre à un profil déterminé), l’indexation collaborative (attribuer un tag à un document) ou le commentaire des documents par les usagers sont proposés par moins de la moitié des produits. L’absence de ces fonctions est à rapprocher des faiblesses du référencement des usagers : elle se traduit par une même impossibilité à inciter l’usager à s’identifier et prive ainsi l’éditeur de la bibliothèque numérique d’une information permettant de qualifier les usages ; il lui sera de ce fait plus difficile de piloter les évolutions de sa bibliothèque numérique et de la réorienter efficacement si elle ne rencontre pas le succès espéré.

Une offre de qualité

43

Malgré ces différences et ces faiblesses, notre sentiment est que l’offre des logiciels étudiés présente une relative maturité. Les spécificités relevées déterminent le domaine d’emploi de chacun des produits ; elles sont le reflet de la conception générale du logiciel et de l’origine de son créateur.

44

Deux grandes familles de produits se dessinent avec d’un côté les logiciels destinés à la mise en ligne de documents patrimoniaux et de l’autre les logiciels visant plutôt la communication de documents contemporains. Tout responsable d’un projet de bibliothèque numérique doit pouvoir aujourd’hui trouver sur le marché le logiciel adapté à ses besoins.

45

Marc Maisonneuve

46

avec la collaboration de Mathieu Andro et d’Emmanuelle Asselin

Le tagging sémantique du corpus Histoire des arts : à la croisée du 2.0 et du 3.0

47

Prospective. Depuis la fin des années 2000, les avancées technologiques du Web sémantique commencent à porter leurs fruits. Les premières applications, même si elles ne sont pas encore connues du grand public, ouvrent des perspectives intéressantes. Voici une expérimentation de tagging sémantique qui met en perspective Web 2.0 et Web 3.0 sous l’angle des pratiques d’indexation et de l’économie documentaire.

48

En 2009, dans un numéro de Documentaliste consacré au Web 2.0 [9][9] Web 2. 0 et information-documentation : évolution ou..., Bernard Vatant présentait la convergence entre le Web 2.0 et les technologies dites sémantiques en citant DBpedia comme l’une des applications émergentes les plus prometteuses. Cette plate-forme a pour finalité d’extraire les contenus de Wikipédia pour les restituer sous la forme de données structurées aux normes du Web sémantique, notamment RDF. Cette initiative, initiée en 2007, est menée par l’Université de Leipzig, l’Université libre de Berlin et OpenLink Software. Trois ans plus tard, en voici une application concrète par la présentation de la première étape d’un projet de tagging sémantique fondé sur Wikipédia, via DBpedia (sa version RDF).

49

Ce projet est le fruit d’une collaboration entre le département des Programmes numériques (DPN) du ministère de la Culture et de la Communication et l’Institut de recherche et d’innovation (IRI) (encadré). Il consiste à expérimenter l’application de tags sémantiques aux données du site Histoirdesarts.culture.fr.

Équipes projet

Pour le DPN : Bertrand Sajus, chef de projet utilisateur ; Marion Martin Laprade et Cécile Riottot, responsables éditoriales. Pour l’IRI : Yves-Marie Haussonne, architecture back-office et coordination technique ; Alexandre Monnin, coordination scientifique ; Thibaut Cavalié, outils de sémantisation ; Raphaël Velt, interfaces de visualisation et d’annotation.

Point de départ : Histoiredesarts.culture.fr

50

Un programme d’enseignement d’histoire des arts couvrant tous les niveaux scolaires a été mis en place par l’Éducation nationale à la rentrée des classes 2009. Le soutien apporté par le ministère de la Culture et de la Communication à la mise en œuvre de ce programme s’est concrétisé par la réalisation d’Histoiredesarts.culture.fr [10][10] http://histoiredesarts.culture.fr. Ce site propose un corpus d’environ 5 000 ressources en ligne sur les arts, produites par un réseau de 350 institutions culturelles.

51

Histoiredesarts forme une sorte de répertoire-anthologie organisé selon un plan de classement qui n’est autre que la structure en trois axes du programme de l’Éducation nationale : chronologie, domaines artistiques et thèmes. Une recherche par mots clés libres permet d’interroger l’ensemble du contenu de la base de données. Elle s’appuie sur les champs Titre, Description et Tags. Les tags, qui n’ont pas d’autre vocation que d’enrichir la recherche en texte intégral, sont traités comme de simples chaînes de caractères.

52

À l’origine du projet il n’était pas envisageable de mettre en œuvre une indexation documentaire classique, fondée sur un thésaurus, pour des raisons qui tiennent à la nature même du corpus. Le programme d’enseignement d’histoire des arts concerne, en effet, tous les arts, pas seulement les arts visuels. Il s’étend de la préhistoire au XXIe siècle, sans limite géographique. En outre, il relie les œuvres d’art à de nombreuses thématiques. Aucun thésaurus du ministère de la Culture n’est suffisamment riche pour couvrir un spectre conceptuel aussi large.

53

Mais, depuis 2009, l’idée du tagging sémantique a fait son chemin. Faute de référentiel, pourquoi ne pas utiliser Wikipédia avec ses 1 230 000 articles, disponibles en version RDF via DBpedia pour reproduire certaines fonctions-types du thésaurus ?

54

En effet, le corpus se prête parfaitement à un test de faisabilité et de pertinence en raison de l’extrême diversité des sujets (tous les arts, périodes, pays, thèmes, etc.) imposée par le programme scolaire, qui en fait ainsi un excellent échantillon pour tester la richesse conceptuelle du Wikipédia francophone. Mais aussi parce que la diversité des éditeurs intellectuels des ressources (environ 350 institutions) permet d’évaluer la capacité de l’encyclopédie à servir de référentiel interdisciplinaire et interinstitutionnel… problème crucial des thesauri !

Outils et processus de réindexation du corpus

55

Sur la base de spécifications fonctionnelles fournies par le ministère de la Culture, l’Institut de recherche et d’innovation a développé trois outils :

  • un module d’aide à la reprise de l’existant (HDABO 1), destiné à l’équipe éditoriale d’Histoiredesarts ;

  • un mini-site (HDA-Lab [11][11] http://hdalab.iri-research.org), preuve de concept, destiné à exemplifier l’intérêt des tags sémantiques pour l’utilisateur final ;

  • un module de production (HDABO 2) qui sera intégré dans le futur back-office d’Histoiredesarts et dont le chantier a été lancé par le ministère de la Culture. Dès l’automne 2012, il permettra aux 350 contributeurs institutionnels d’éditer eux-mêmes leurs tags sémantiques.

HDABO 1, le module de reprise des données, a permis de mettre en œuvre un processus en trois temps.

56

La première étape consistait à apparier automatiquement des tags initiaux avec les entrées de Wikipédia. Elle a été suivie par un retraitement manuel de l’index ainsi produit. Cette opération a permis de relier à Wikipédia des mots-clés qui n’ont pas pu être traités automatiquement, notamment à cause de variantes orthographiques ou de fautes de frappe. Elle a également permis de désambiguïser les cas simples, sans avoir à analyser chaque occurrence du tag dans le contexte des notices. Par exemple, « Nu » a été globalement remplacé dans l’index par « Nu (thème artistique) » ou encore « Palette » par « Palette (peinture) ». À noter que la fonctionnalité utilisée pour ces substitutions n’est autre que la liste de complétion de Wikipédia, intégrée dans l’interface du module de reprise d’existant. Cette opération (menée par Domingos Ruiz-Leporez dans le cadre d’un stage de l’INTD), a permis de retraiter 16 000 tags en huit semaines.

57

La dernière étape, menée par l’équipe éditoriale d’Histoiredesarts, est en cours de finalisation aujourd’hui. Elle est beaucoup plus longue car elle consiste à désambiguïser les tags dans le contexte de chaque ressource, soit 70 000 occurrences réparties dans 5 000 notices (ex. « Réalisme » > « Réalisme (peinture) » / « Réalisme (littérature) »). À cette opération s’ajoute un classement manuel des tags par ordre de pertinence décroissant, notice par notice (voir ci-dessous).

58

Les principales métadonnées produites et stockées via le module HDABO 1 sont :

L’ajout d’un indice de pertinence au schéma de métadonnées vise à garantir la réutilisabilité maximale des tags. Ce point est généralement négligé dans les dispositifs de tagging. Il est pourtant essentiel car, dans le contexte Web 2.0 - a fortiori Web 3.0 -, c’est sur les tags que repose l’essentiel des fonctionnalités de recherche. Et, faute d’un indice de pertinence, les listes de résultats sont souvent décevantes. C’est là toute la différence avec le modèle de recherche en texte intégral, fondé sur l’analyse algorithmique de l’intégralité du document.

59

Dans le module HDABO, l’accent mis sur le classement s’inscrit parfaitement dans l’esprit du Web 2.0 puisqu’il permet au tagueur non seulement de choisir ses mots-clés mais également de signifier l’importance relative qu’il leur accorde par rapport à la ressource qu’il tague. En d’autres termes, cette fonctionnalité offre une plus grande liberté au tagueur en augmentant l’expressivité du tagging. C’est un avantage pour l’utilisateur final qui, pour autant que cet indice soit traité par algorithmes, bénéficie in fine d’un classement par pertinence beaucoup plus cohérent, ainsi que d’autres facilités liées à la visualisation des données.

60

La particularité de HDABO est d’interconnecter deux fonctionnalités du tagging :

  • le liage des tags à un référentiel sémantique via une liste de complétion ;

  • le classement par pertinence en mode glisser-déposer : le tagueur monte ou descend ses tags dans sa liste selon qu’il leur accorde plus ou moins d’importance.

L’un des principaux paris du projet est l’acceptation de ces deux « contraintes » par les tagueurs. L’enjeu est une très forte augmentation de la valeur des métadonnées ainsi produites.

Interface HDABO : exemple des tags de la notice "Un enterrement à Ornans"

Premier retour d’expérience documentaire

61

L’ouverture de la plate-forme HDABO 2 à un réseau de 350 contributeurs n’aura lieu qu’à l’automne 2012. C’est à ce stade que la validité de la démarche sera pleinement évaluée. Mais la reprise de l’existant arrive aujourd’hui dans sa phase finale. Après plusieurs mois d’utilisation intensive de la plate-forme HDABO 1 par l’équipe Histoiredesarts, que constate-t-on ?

62

Sur le plan pratique et ergonomique, tout d’abord, l’interface de liage et de classement des tags n’a posé aucune difficulté pour la reprise de l’existant. Quant au choix de Wikipédia comme référentiel d’indexation, il se révèle prometteur. L’opération de liage n’est pas encore achevée, mais 77,2 % des tags ont pu être déjà liés à l’encyclopédie. Si l’on ne tient compte que des tags qui ont été utilisés plus d’une fois par les visiteurs du site Histoiredesarts au cours des 6 derniers mois (le site dispose de statistiques sur l’usage des mots-clés utilisés par les visiteurs), le chiffre s’élève à 83 %. Ces statistiques sont d’autant plus intéressantes que l’index initial des mots-clés procède d’un tagging spontané, aucunement bridé par une liste d’autorité ou des règles contraignantes d’indexation.

63

Le graphe RDF de DBpedia, qui reprend les liens entre les différentes versions linguistiques des articles de Wikipédia (ex. « Corps humain » / « Human body »), a permis de générer automatiquement une version anglaise des mots-clés - disponible dans HDALab - avec une couverture d’environ 80 %. Il est d’ailleurs prévu d’implémenter d’autres langues.

64

Les « infobox » (ou encadrés) des articles décrivant des lieux géographiques sont suffisamment fiables pour que leur version RDF, livrée par DBpedia, permette d’utiliser les relations de type Pays > Région > Département > Ville (relation hiérarchique TG/TS). Dans HDA-Lab, « Italie », par exemple, renvoie non seulement les notices contenant ce tag mais aussi « Vénétie » et « Venise ».

65

Les nombreuses redirections internes de Wikipédia peuvent être utilisées en guise de relations d’équivalence (EP/EM). HDA-Lab disposera bientôt d’une liste de complétion qui fusionnera les entrées « canoniques » et leurs équivalents. Un utilisateur pourra donc retrouver le nom « Nadar » par « Félix Tournachon ». De plus, cette liste de complétion intègrera la définition des mots-clés ainsi qu’une illustration, si elle est disponible dans Wikipédia.

66

Le réseau des catégories de Wikipédia (les mots-clés que les « Wikipédiens » ajoutent en fin d’articles pour les catégoriser) sera utilisé pour faciliter la navigation conceptuelle, comme une relation de type « Voir aussi » (VA), notamment sous la forme d’une carte heuristique.

67

Enfin, l’utilisation des URIs [13][13] URI ou Uniform Resource Identifier, http://fr.wiki... comme identifiants des concepts facilite l’interopérabilité sémantique de l’indexation. N’importe quelle institution ou communauté utilisant la même méthode de tagging peut produire des données sémantiquement compatibles, de facto, sans avoir à contribuer à un projet commun.

Recherche par facettes sur HDA-Lab (http://hdalab.iri-research.org)

Perspectives documentaires

68

Les premières observations du chantier HDABO/HDA-Lab sont suffisamment positives pour ouvrir, déjà, quelques perspectives.

69

Perspectives pratiques tout d’abord. Si la reprise de l’existant, par nature coûteuse, n’est envisageable que dans des cas limités, la démarche HDABO/HDA-Lab est applicable à d’autres projets, par exemple par une institution culturelle dépourvue de référentiel d’indexation qui souhaiterait impliquer une communauté dans le tagging de ses ressources numériques6.

70

Un autre usage sera le liage d’un thésaurus existant à Wikipédia. Le corpus originellement indexé avec le thésaurus deviendra alors compatible avec tout autre corpus, de diverses institutions, également lié à Wikipédia (interopérabilité sémantique). De plus, ce liage enrichira la base avec des métadonnées extraites de Wikipédia (photos, définitions, etc.), mais surtout offrira une version multilingue du thésaurus (interopérabilité interlinguistique). Une telle opération est relativement peu coûteuse. Doit-on rappeler qu’il n’a fallu que 8 semaines pour lier les 16 000 tags de l’index initial d’Histoiredesarts ? Si la désambiguïsation des tags dans le contexte des notices est de loin l’étape la plus coûteuse, ce problème ne se pose pas dans le cas d’un corpus originellement indexé avec un thésaurus.

71

L’expérience HDABO/HDA-Lab laisse aussi entrevoir une évolution sensible de l’économie documentaire. La vague du web 3.0, qui ne fait que commencer, aura entre autres effets de favoriser la mutualisation des référentiels terminologiques. Si, par exemple, 75 % du vocabulaire nécessaire à un projet documentaire est disponible dans un référentiel ouvert du Web de données, il est beaucoup plus avantageux d’y contribuer pour le compléter et l’améliorer que de se limiter au seul usage d’un thésaurus « maison ». Ce dernier peut garder toute sa pertinence en tant qu’ontologie locale, mais un référentiel tel que Wikipédia offre l’immense avantage de désenclaver sémantiquement le corpus indexé, en l’insérant dans un cadre interlinguistique et interculturel.

72

On peut donc prévoir, sur le modèle ouvert des licences Creative Commons, l’essor d’une économie de « pollinisation croisée » impliquant des documentalistes à la fois utilisateurs et contributeurs de référentiels libres. Quant à la pratique du tagging, elle peut d’ores et déjà être pensée comme une forme d’indexation augmentée (au sens de réalité augmentée). Sur le plan technique, il faudra évidemment enrichir la gamme des outils de liage et mettre au point des méthodes de gestion documentaire adaptées à ce nouveau contexte.

73

Ainsi, l’essor du Web 3.0, loin de marginaliser les pratiques du 2.0, leur conférera une fécondité insoupçonnée. Le tagueur et la fée sémantique feront-ils bon ménage ? Ce premier retour d’expérience laisse espérer un beau mariage d’amour… mais pas sans raison !

74

Bertrand Sajus

La chronique de Marc Maisonneuve. Services en ligne : jouez la carte de la mobilité !

75

Pourquoi ne pas reconquérir la tranche des 15-35 ans, peu représentée parmi les usagers des bibliothèques, en s’appuyant sur une offre accessible depuis un smartphone ?

76

En 2011, la France comptait 19 millions de « mobinautes » [14][14] Selon l’enquête Médiamétrie 2011. http://www.media..., soit 3,5 millions de plus qu’en 2010. Les femmes sont mieux représentées et, surtout, un mobinaute sur deux a moins de 35 ans.

77

Dans l’enquête menée par Library Journal sur les attentes des usagers des bibliothèques pour les applications pour smartphone [15][15] http://www.thedigitalshift. com/2012/02/mobile/the... figure, en tête de liste, la consultation du catalogue, suivie par la prolongation des prêts, la consultation de listes de nouveautés et de recommandations de lecture, la réservation de documents ou de ressources de la bibliothèque. Sont cités ensuite l’accès et la gestion du compte de l’usager, la consultation de critiques de livres, des actualités de la bibliothèque, l’enregistrement d’un emprunt par lecture du code barres de l’exemplaire et l’accès à des lectures correspondant à son profil.

78

L’accès à des documents numériques ne dépasse jamais 50 % des réponses exprimées : le téléchargement de livres lus est cité par 48,5 % des personnes interrogées à égalité avec la lecture de ressources numériques et la consultation de bases de données. Il est vrai que le smartphone n’est pas le terminal idéal pour lire Guerre et Paix !

79

En juin 2009, les résultats d’une enquête québécoise [16][16] http://www.banq.qc.ca/documents/a_propos_banq/comm... sur les attentes des usagers des bibliothèques pour les services en ligne présentaient un classement proche : consulter le catalogue, prolonger un prêt, emprunter un livre numérique directement à domicile et télécharger une vidéo sur le site de la bibliothèque, réserver un document et se le faire déposer à proximité de chez soi, être averti des nouvelles acquisitions liées à ses centres d’intérêt, être averti par SMS de la mise à disposition d’une réservation, d’un retard, etc. et, en fin de liste, consulter son compte et le catalogue à partir d’un smartphone.

80

Les deux études aboutissent à des constats convergents sauf dans la priorité donnée à l’emprunt de livres numériques, jugé moins important par les mobinautes, probablement conscients des limites de l’écran de leur portable. Ces études soulignent une relative maturité des usagers, exprimant des attentes tout à fait réfléchies. Sauf à supposer que les Français diffèrent radicalement dans leurs attentes, elles dégagent des pistes d’action intéressantes.

81

La reconquête des publics impose de rendre l’offre de la bibliothèque accessible là où se trouve l’usager et au moment qu’il choisira. Les moins de 35 ans sont particulièrement attentifs au caractère pratique de ce genre de services et à la liberté qu’ils leur donnent.

82

Alors n’hésitez pas, foncez ! Dotez la bibliothèque d’une déclinaison pour smartphone de ses services en ligne. Et si vous avez les moyens de développer des applications, par pitié ne renforcez pas les monopoles existants. Jouez la carte de la diversité avec des applications pour Android aux côtés de celles pour iPhone et pour BlackBerry !

Notes

[1]

Ce texte a été rédigé à partir d’un article publié initialement dans le n° 164, 2012 de la revue Télécom

[2]

Selon le cabinet Forrester, le marché devrait atteindre d’ici 2020 les 240 milliards de dollars.

[3]

Free Software Foundation : http://www.fsf.org

[5]

Open source initiative http://www.opensource.org

[7]

World Wide Web Consortium (W3C) : http://www.w3.org

[8]

La définition de ces termes est consultable en ligne http://www.toscaconsultants.fr/logiciel.htm#typologie

[9]

Web 2. 0 et information-documentation : évolution ou révolution ? Dossier : coordonné par Bertrand Sajus, Documentaliste-Sciences de l’information, 2009, n° 1

[12]

Pour le lien avec DBpedia, voir l’article « HDA-Lab : expérimenter le tagging sémantique », B. Sajus et A. Monnin, C/Blog, 13/03/2012, http://cblog.culture.fr/2012/03/13/hda-lab%C2%A0-experimenter-le-tagging-semantique

Plan de l'article

  1. L’open cloud : garder la maîtrise de son système d’information
    1. Le moteur du nuage : le logiciel libre et l’open source
    2. Ouvrir le nuage
    3. Open cloud et contrats de service
    4. De l’importance du réseau
    5. Et la décentralisation ?
  2. L’offre de logiciels pour les bibliothèques numériques
    1. Les logiciels étudiés
    2. Couverture fonctionnelle
    3. Points de convergence de l’offre
    4. Principales spécificités
    5. Une offre de qualité
  3. Le tagging sémantique du corpus Histoire des arts : à la croisée du 2.0 et du 3.0
    1. Point de départ : Histoiredesarts.culture.fr
    2. Outils et processus de réindexation du corpus
    3. Premier retour d’expérience documentaire
    4. Perspectives documentaires
  4. La chronique de Marc Maisonneuve. Services en ligne : jouez la carte de la mobilité !

Pour citer cet article

Scoffoni Philippe, Ogez Emilie, Dubost Ludovic, Maisonneuve Marc,   Andro Mathieu, Asselin Emmanuelle, Sajus Bertrand, « Méthodes, techniques et outils », Documentaliste-Sciences de l'Information 2/2012 (Vol. 49) , p. 8-15
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2012-2-page-8.htm.
DOI : 10.3917/docsi.492.0008.


Article précédent Pages 8 - 15 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback