Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2008/3 (Vol. 45)

  • Pages : 94
  • DOI : 10.3917/docsi.453.0068
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 68 - 82 Article suivant

La qualité s’impose sur le web

1

Analyse. En l’espace d’une quinzaine d’années, la production de services en ligne est passée du stade artisanal au stade industriel. Très vite, les outils se sont affûtés, les métiers se sont spécialisés, les besoins se sont révélés. Aujourd’hui, une approche qualité, fondée notamment sur la transversalité des compétences, la standardisation des outils et l’accessibilité des contenus, représente un enjeu majeur.

2

Le web est jeune : il a tout au plus quinze ans. Si la vision initiale consistait simplement à diffuser de l’information et à y accéder, de nouveaux enjeux sont progressivement apparus : capacité à produire de l’information en masse, possibilité donnée aux utilisateurs d’interagir et d’enrichir l’information, montée de l’impact des services en ligne dans les processus des organisations, etc.

3

Pendant ces quinze années de développement tous azimuts, les usages et les pratiques ont évolué à une vitesse faramineuse. Pourtant, au fur et à mesure que se développaient ces nouveaux usages, outils et métiers, d’autres besoins apparaissaient. D’une activité artisanale dédiée à la production de sites web par une poignée de personnes, les administrateurs de sites ont dû s’atteler à la production de services en ligne de grande ampleur. Ils ont dû apprendre à encadrer la production de contenus par des centaines, sinon des milliers d’utilisateurs, pas toujours identifiés. Dans ce cadre, l’harmonisation des pratiques, l’optimisation des processus et des outils et la recherche de l’efficacité sont devenues des enjeux majeurs, voire vitaux. Et c’est dans ce contexte que prennent place les démarches qualité, standardisation et accessibilité.

Une approche transversale

4

Pour le responsable de projet web, la maîtrise absolue de toutes les activités est de plus en plus utopique. S’il veut faire son travail sérieusement, il doit maîtriser des aspects liés à la communication (référencement, positionnement, marketing, production et maintenance de contenus, documentation), à la technique (bases de données, compatibilité, accessibilité, sécurité), aux services (logistique, e-commerce, etc.), ou encore à l’ergonomie (design d’interface et d’interactions, architecture de l’information, design graphique, etc.). Autant dire que la tâche est ardue et que la réunion de ces différentes compétences n’est pas triviale.

5

L’approche qualité web, qui pose la question du projet web sous l’angle de son efficacité vis-à-vis des usagers et de l’efficience des développements du point de vue des créateurs de services en ligne, est sans doute appelée à jouer un rôle décisif dans la suite de l’industrialisation en cours.

6

Dans tous les secteurs industriels, l’approche qualité, qui est transversale par essence, fait partie intégrante des processus et des modes de travail. Ce n’est pas encore le cas sur le web, mais cela le deviendra dans un avenir proche.

L’exigence des standards

7

Jusqu’à présent, nous n’avons évoqué l’industrialisation que sous l’angle des producteurs de sites et des usagers. Il se trouve que cette question s’est également posée à bien d’autres égards.

8

Par exemple, le marché des navigateurs, stratégique s’il en est, a eu un développement pour le moins complexe. En 1999, il se résumait à un quasi-monopole tenu par Microsoft avec Internet Explorer. En l’espace de quelques années, de nouveaux navigateurs sont apparus, avec notamment l’émergence de Firefox, proposé par la fondation Mozilla.

9

Dans le même temps, les modes d’accès aux contenus web se sont multipliés, avec l’apparition de la syndication de contenus (flux RSS) et de la navigation dans des contextes mobiles, ou encore celle des nouvelles technologies d’enrichissement des interfaces grâce à Javascript et Ajax. Alors qu’il était possible de développer un site ou un CMS pour une seule plateforme, dans un seul contexte d’utilisation, les administrateurs ont dû développer peu à peu des sites et des contenus compatibles dans de multiples contextes d’utilisation et de mutualisation.

10

C’est dans ce cadre que s’est imposée la nécessité de déterminer des protocoles communs et des standards pour l’interopérabilité des contenus. Cette vision liée au respect des standards, en fait proposée dès l’origine par le W3C (World Wide Web Consortium), a commencé à se développer à la marge dans la deuxième partie des années quatre-vingt-dix, pour se propager ensuite au plus grand nombre et notamment depuis quelque temps aux grands producteurs de contenus.

11

Il est de plus en plus manifeste que les standards techniques du W3C doivent être respectés dans le cadre du développement de services en ligne. C’est la raison pour laquelle ce type d’exigences apparaît de plus en plus fréquemment dans les cahiers des charges de création ou de refonte de sites. Ce n’est pourtant pas le seul type de standards mobilisés [voir page suivante].

Le levier de l’accessibilité

12

Les standards techniques ne font pas tout. Avec la syndication, la traduction automatique de contenus, leur nécessaire indexation ainsi que l’accès à ces contenus par des machines utilisées par des personnes handicapées, un nouveau besoin s’est développé : disposer de contenus web qui soient à même d’être manipulés par une grande diversité de machines. Ce sont ces enjeux fondamentaux qui se cachent derrière le déploiement des standards d’accessibilité aux personnes handicapées.

13

Au départ, le respect de ces standards (WCAG, Web Content Accessibility Guidelines) proposés par le W3C repose sur une démarche ergonomique, éditoriale et technique qui permet de restituer des contenus dans n’importe quel contexte. Indirectement, cette démarche concourt à un meilleur contrôle des processus de production, pérennise l’information et favorise son exploitation bien au-delà des seuls outils spécifiques aux personnes handicapées.

14

La démarche d’amélioration de l’accessibilité des contenus, en premier lieu, donne à leurs responsables une plus grande maîtrise de leurs conditions de production. L’accessibilité fixe en effet des exigences techniques à l’égard du code, du graphisme, de la navigabilité, qui sont autant d’aides à la décision lors des choix de formats, de design ou d’architecture de l’information. Elle peut également donner un éclairage en matière de guides éditoriaux, car elle ne se résume pas aux seuls aspects techniques des contenus : leur rédaction en est un aspect majeur.

15

En second lieu, des contenus rendus accessibles seront, dans une certaine mesure, des contenus pérennisés. L’accessibilité impose en effet l’indépendance des contenus proprement dits envers leurs surcouches de présentation. De même, elle favorise l’indépendance envers les formats en exigeant la présence systématique d’une solution alternative in fine dans un format textuel et normalisé tel que le HTML.

16

Cette démarche assure enfin au client une part d’autonomie dans l’accès à l’information, en rendant celle-ci indépendante de choix techniques tels que le Javascript et de conditions matérielles telles que les périphériques de sortie (écran, synthèses vocales, impression) ou d’interaction (clavier, souris, commandes vocales) : des contenus accessibles ont de fortes chances d’être également des contenus compatibles avec de nouvelles technologies d’accès.

17

Enfin, des contenus accessibles seront plus facilement exploitables par la machine au sens le plus large. En faisant en sorte de rendre l’information la plus explicite possible pour les outils d’aide logicielle et matérielle utilisés par les personnes handicapées (synthèses vocales, agrandisseur, navigateurs adaptés), elle apporte un gain d’interopérabilité bien plus important. Ce qu’un lecteur d’écran peut parcourir et restituer de manière pertinente en synthèse vocale sera aussi plus aisément indexable par un moteur de recherche. Ce contenu sera plus riche de métadonnées et de structures signifiantes (titrage, éléments de listes, éléments spécifiques explicitement balisés comme les sigles, les citations et leurs sources). Il sera également plus aisé à traduire automatiquement, grâce aux mentions des changements de langue en cours de contenu, nécessaires aussi pour les synthèses vocales, ou encore grâce aux alternatives textuelles qui donnent prise aux traducteurs ou autres robots sur l’information graphique.

RGAA : LE FACILITATEUR D’ACCESSIBILITE POUR LES SITES PUBLICS FRANÇAIS

Dans de nombreux pays, dont le nôtre, la mise en accessibilité des contenus publics est une obligation légale. En France, la loi de février 2005 sur l’égalité des chances, la citoyenneté et la participation des personnes handicapées indique dans son article 47 que les services en ligne de communication publique de l’État et des établissements qui en dépendent doivent être accessibles au personnes handicapées. Pour un créateur de site, l’accessibilité de l’ensemble de ses contenus peut sembler un défi difficile à atteindre dans son intégralité. C’est la raison pour laquelle nombreux sont ceux qui, certains de ne pas pouvoir rendre tous leurs contenus accessibles sur tous leurs sites, renoncent à travailler au jour le jour sur ce sujet.

Forte de ce constat, la DGME (Direction générale de la modernisation de l’État) a demandé aux sociétés Temesis et Tektonika de produire un référentiel national, le RGAA (Référentiel général d’accessibilité pour les administrations), qui permet aux administrateurs de sites de déployer l’accessibilité de manière progressive, en commençant par les critères les plus faciles et les plus rapides à traiter. L’objectif de ce référentiel est de faire en sorte que les créateurs de sites, même peu formés ou peu dotés en moyens, puissent quand même se lancer sur le chemin de l’accessibilité. Ce référentiel reprend strictement les directives internationales (WCAG 1.0) et les décline sous forme de tests unitaires. Son déploiement sur les sites français ne pourra cependant véritablement décoller qu’à la publication du décret d’application de l’article 47 de la loi de 2005. En attendant, un grand nombre d’administrations et d’acteurs privés ont commencé à s’approprier ce référentiel en le déployant sur des parcs de sites.

http:// rgaa. dgme. fr

18

Un contenu accessible sera un contenu organisé en sections logiques et hiérarchisées, chacune étant titrée ; ses mots clés auront de fortes chances d’avoir été signalés par un balisage d’emphase : de quoi faciliter la synthèse de l’information, l’extraction de tables des matières ou la constitution d’index.

19

Finalement, le déploiement de l’accessibilité n’est pas seulement une démarche ergonomique et technique : c’est également une démarche managériale qui améliore le mode de production des services en ligne et qui favorise une plus grande maîtrise des processus par les administrateurs.

Formaliser et normaliser

20

Au stade de développement où en est le web, les créateurs de sites sont clairement en demande de référentiels. Certains d’entre eux commencent à se répandre, comme les standards d’accessibilité ou les standards techniques du W3C. Dans la mesure où les métiers du web nécessitent la mise en œuvre de compétences multiples et très diverses, il semble probable que vont se développer des référentiels transversaux, intégrant à la fois la communication, le référencement, l’accessibilité, les aspects techniques, commerciaux ou logistiques et, bien sûr, la production de contenus. Le projet Opquast, référentiel public de bonnes pratiques pour la qualité des sites Internet, créé en 2004 par les auteurs de cet article, est un exemple de ces « méta-référentiels », mais il en existera certainement de plus en plus et d’autres initiatives de ce type verront assurément le jour.

21

Dans le même temps, alors que les standards actuels privilégient essentiellement l’atteinte de résultats, d’autres référentiels, plus axés sur les moyens à mettre en œuvre autour du projet web, pourront aussi voir le jour. Ces référentiels n’auront pour objectif que de formaliser et normaliser des processus qui sont en train de se déployer et de s’affiner au jour le jour dans les agences web et chez les producteurs de contenus.

22

Il y a encore une grande distance entre le secteur du web et d’autres secteurs industriels qui bénéficient d’une expérience bien plus grande. Il reste encore beaucoup de pas et d’apprentissages à franchir, et ces évolutions du monde artisanal vers le monde industriel sont inéluctables. Lorsque l’on a pris conscience de cette évolution, il est préférable de devancer l’appel et de travailler dès aujourd’hui d’une part sur la qualité et l’accessibilité des projets web et, d’autre part, sur le degré de maturité des processus qui permettent de les développer de façon efficace.

Quelques standards essentiels

• Conformité technique

HTML 4.01 Strict et transitionnel, XHTML 1.0 Strict et transitionnel, XML, CSS. Voir : www. w3. org

• Standards en cours de développement

HTML 5, CSS 3. Voir : www. w3. org

• Standards d’accessibilité

WCAG (Web Content Accessibility Guidelines)

ATAG (Authoring Tools Accessibility Guidelines)

UAAG (User Agent Accessibility Guidelines)

Voir : www. w3. org/ wai

RGAA (Référentiel général d’accessibilité pour les administrations). Voir : http:// rgaa. dgme. fr

23

Laurent Denis

24

Élie Sloïm

Dans la jungle des formats : le défi de l’interopérabilité

25

Analyse. L’interopérabilité… Derrière ce terme un peu ésotérique se cachent de grands enjeux en termes de mémoire numérique et de migration de contenus existants. Pour connaître les éléments à prendre en compte et garantir une réelle interopérabilité des contenus des CMS, Thierry Stœhr passe en revue leurs différents composants en s’interrogeant sur la question de l’ouverture de leurs formats, véritable clé numérique.

26

Point final : tel est le titre du dernier article publié le 30 septembre 2007 sur le site BlogOKat [1][1] Site BlogOKat, documentation, technologie de l’information,.... Fin de vie pour ce blog au contenu riche et qui était encore en ligne début juin 2008. Mais que vont devenir ces articles encore disponibles ? L’hébergeur ou l’auteure peuvent décider de supprimer le contenu rédigé pendant deux ans. Un autre site peut souhaiter reprendre les articles (ou du moins une partie).

27

Cet exemple, qui n’est pas exceptionnel, met en évidence deux sujets : l’archivage et la mémoire des contenus numériques, et la migration et la reprise d’un existant numérique. Dans les deux cas, la problématique capitale et omniprésente est celle des formats. Avec cette question : ces formats sont-ils fermés ou ouverts ?

Au commencement, le CMS

28

Qu’il soit simple ou très évolué, le système d’information d’une structure produit des documents. Il est possible de créer ces documents numériques depuis un système de gestion de contenu dédié, un CMS (content management system) [2][2] Articles de l’encyclopédie Wikipédia. Liste de systèmes.... De plus en plus répandus et utilisés, les CMS proposent généralement deux familles d’outils intégrés : les uns destinés à la création des contenus (articles avec textes, photos, vidéos, sons, commentaires, liens hypertextes, etc.) et les autres gérant ces contenus (stockage, extraction, recherche, affichage, fils RSS, etc.). Que ce soit pour archiver le contenu d’un CMS ou pour en changer, la question des formats se pose pour les différents éléments qui le composent.

29

Partons de la partie visible. Un CMS propose différents types de ressources : textes, images, éléments audio et vidéo, fichiers en téléchargement (plans, formulaires, etc.).

30

Dans les coulisses techniques des CMS, on rencontre deux grandes catégories : les CMS sans et avec base de données. Dans le premier cas, de moins en moins fréquent, les informations sont contenues dans un fichier principal d’où elles sont traitées. Dans le second, les données sont stockées dans une base de données gérant les informations de manière dynamique.

31

Enfin, la définition des utilisateurs et leur rôle dans le système méritent une attention particulière. Plus ou moins nombreux et avec des attributions variables, ils ont des droits précis concernant les actions possibles au sein du CMS : rédaction et publication, administration générale, relecture seule, etc.

Quel format pour quel élément ?

32

Avant d’évoquer les différents formats, trois points méritent d’être développés.

33

Tout d’abord la nature du logiciel de CMS utilisé : s’agit-il d’un logiciel libre ou non ? Dotclear, Drupal, Plone et Spip sont libres. Un tel logiciel peut se définir par le fait que ses coulisses techniques (le code source) sont ouvertes, c’est-à-dire disponibles et régies par une licence qui est elle aussi ouverte (comme les licences BSD, Apache, GPL, Mozilla ou CeCILL).

34

Ensuite, les licences juridiques, qui concernent le logiciel mais aussi les contenus proposés. Ce point est essentiel pour fixer les règles d’utilisation des informations fournies : là aussi se pose la question de la nature du format (ouvert ou non). Qu’est-il possible de faire avec le contenu disponible ? Parmi les licences possibles de contenus, les six différents types de Creative Commons [3][3] Creative Commons, http:// fr. creativecommons. org sont très souvent utilisés. Ce volet juridique est capital pour définir une partie de la vie du CMS.

35

Enfin, il est important de préciser ce qu’est un format ouvert. Une définition possible est celle apportée en France par la LCEN, loi sur la confiance dans l’économie numérique. L’article 4 de la loi n° 2004-575 du 21 juin 2004 précise : « On entend par standard ouvert tout protocole de communication, d’interconnexion ou d’échange et tout format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre. »

36

Des formats ou des protocoles appelés « standard » ne peuvent pas être qualifiés d’ouverts au sens de la définition s’ils nécessitent paiement pour se fournir les informations techniques (les spécifications).

37

Selon cette définition, les formats ouverts possibles sont :

  • texte : HTML (HyperText Markup Language), texte brut, RTF (Rich Text Format), LaTeX, Docbook, ODF (Open Document Format), PDF (Portable Document Format) ;

  • image fixe (photo, graphique) : PNG (Portable Network Graphics), DNG (Digital NeGative) ;

  • son (enregistrement, musique) : Ogg Vorbis ;

  • vidéo : Ogg Theora ;

  • page web : HTML, XHTML avec CSS (Cascading Style Sheet), XForms pour les formulaires, SVG (Scalable Vector Graphics) pour les animations, Atom (fil RSS).

Dans cette liste, certains formats se rangent dans la famille XML : Docbook, ODF, XHTML, XForms, SVG, Atom, auxquels il est possible d’ajouter bien d’autres formats comme EAD (Encoded Archival Description) pour l’archivage ou MarcXML (catalogue de bibliothèques). Le XML est particulièrement d’actualité : il est de plus en plus utilisé et fête ses dix ans en 2008 [4][4] XML10, www. w3. org/ 2008/ xml10. Cependant, un format de type XML n’est pas forcément ouvert. Encore faut-il que son schéma ou sa DTD (document type definition) soit clairement documenté et dispose d’une licence juridique ouverte. Sans ces informations, le format XML utilisé ne peut être qualifié d’ouvert.

38

Enfin le format du fichier principal du CMS et plus encore celui utilisé par sa base de données sont à prendre en compte : si ce format est fermé, propre à une base, il est difficile, voire impossible, de quitter cette base sans perte. De plus, des caractéristiques web 2.0, comme les mots clés (tags) ajoutés aux articles, doivent aussi être à des formats ouverts dans la base.

39

Pour assurer l’évolution et la pérennité des contenus d’un CMS, l’emploi de formats ouverts se révèle le plus pertinent et le plus efficace : ils apportent indépendance vis-à-vis de la plateforme et des éditeurs, maîtrise des contenus et, surtout, ils permettent de garantir l’interopérabilité.

40

L’interopérabilité n’est pas la compatibilité. Cette dernière fonctionne deux à deux, notamment format fermé vers format fermé, et n’est donc pas générale. De plus, la compatibilité ne permet pas de garantir à de futurs nouveaux formats (ou protocoles) de pouvoir interagir. Quant au format (ou standard) de fait, il ne signifie pas format ouvert [voir les trois schémas ci-contre].

La compatibilité, le standard et l’interopérabilité

Les autres strates de l’interopérabilité

41

Pour compléter ce tour d’horizon des formats, voici quatre derniers éléments qui peuvent eux aussi poser problème.

42

Le premier et de plus bas niveau est le support physique des données : disque dur, CD ou DVD gravé, bandes. Tous ces supports ont une durée de vie limitée. Il faut donc en vérifier régulièrement l’intégrité et effectuer des copies avant qu’ils ne se détériorent. Et s’assurer que le format physique est toujours lisible grâce à un appareil de lecture approprié disponible.

43

Deuxième élément, le format du système de fichiers de ce support physique : FAT 16, FAT 32, NTFS, ext2, ext3, HFS, etc. Ils sont nombreux mais sont aussi sources de problèmes en cas de non-prise en compte lors d’un archivage, d’une migration ou d’une évolution.

44

Le troisième élément est double : il s’agit, d’une part, de l’encodage utilisé (Unicode, Iso Latin 1, Ascii 128, etc.) et, d’autre part, des fontes employées pour les caractères (Times, Arial, etc.). Si elles sont trop particulières, voire propres à un système exclusivement, le contenu peut être altéré.

45

Le quatrième et dernier élément concerne l’environnement logiciel du CMS : s’il impose l’utilisation de logiciels tiers fermés, limitant les possibilités de migration, de reprise ou d’évolution, alors l’ouverture n’est pas au rendez-vous.

46

Thierry Stœhr

Métadonnées : décrire pour mieux servir

47

Analyse. Métadonnées et référentiels sont deux concepts clés d’évolution pour le web. Les travaux de normalisation en cours sont les piliers indispensables à la création de véritables services à valeur ajoutée, dans lesquels les contenus seront partageables et échangeables.

48

Comme pour les produits industriels, les contenus numériques sont accompagnés d’un étiquetage (indexation/métadonnées) de plus en plus riche pour permettre de répondre aux exigences de recomposition, distribution et accessibilité. La généralisation des échanges (réutilisations et agrégations des contenus) nécessite d’autre part le recours à des référentiels communs ou interopérables permettant aux systèmes d’interpréter les informations échangées.

L’indexation des contenus : une exigence croissante

49

Indexer sert tout d’abord à faciliter l’accès aux informations par les utilisateurs humains. Ce qui suppose de gérer des moyens de sélection, de filtrage, de navigation des contenus publiés : plans de classement, recherche à facettes, recherche plein texte, liens de navigation contextuelle, suggestions automatisées, etc. L’indexation doit permettre aux systèmes de filtrage et de recherche d’identifier précisément les contenus sur les différents axes de recherche (par exemple : « Trouver tous les contenus images, libres de droit, montrant M. X et publiés après 2007 »).

50

L’indexation concourt également aux échanges d’information entre les machines, en plein essor. Réalisés par l’intermédiaire des services web, ces échanges nécessitent tout à la fois une bonne description des contenus et l’utilisation de référentiels communs ou interopérables.

51

Enfin, l’indexation est indispensable aux éditeurs juridiques et scientifiques, portails de chaînes de télévision ou d’agences de tourisme et sites collaboratifs pour réutiliser les contenus et les agréger afin de construire de nouveaux produits éditoriaux. De plus en plus automatisée, cette agrégation s’appuie sur les données d’indexation thématique, sur les personnes et organisations citées, sur l’appréciation du contenu par les utilisateurs, sur les sources, les droits d’utilisation, les dates de validité, etc.

Quelles métadonnées pour les contenus ?

52

On rencontre plusieurs types de métadonnées :

  • métadonnées administratives : nom du document, date de création, type de document, auteur, éditeur ;

  • métadonnées de connaissance sur le sujet traité dans le document : thématiques abordées, localisation géographique et localisation temporelle du sujet traité, noms de personnes, d’organisations, d’événements, d’objets, de produits ;

  • métadonnées techniques : type de fichier, format, taille ;

  • métadonnées de droits de propriété : type de licence d’utilisation, propriétaire des droits, prix du contenu ;

  • métadonnées pour le travail collaboratif : notation du document, statistiques d’utilisation, proposition d’annotations complémentaires.

Le choix des métadonnées (schéma de métadonnées RDF [1]) varie en fonction des types de contenu et d’industrie. Des efforts constants de normalisation permettent aujourd’hui de disposer d’une série de schémas spécialisés : RDF DC [2] [3] pour les bibliothèques, NEWS ML pour les médias, par exemple. L’utilisation de schémas standardisés dans chaque filière se généralise rapidement, pour des raisons de productivité et de fiabilité des échanges de contenus principalement (articles de presse, catalogues de bibliothèques, données médicales, catalogues produits, etc.).

La nécessité de référentiels partagés

53

Pour assurer les fonctions d’échange, d’agrégation et d’accès efficace aux contenus, il ne suffit pas de disposer de formats d’indexation communs (ou au moins interopérables), il faut aussi utiliser des référentiels partagés comme base d’indexation des contenus. Quand le contenu d’un dossier patient doit être échangé avec un autre hôpital, agrégé automatiquement avec les données venant d’un centre de radiologie, puis envoyé automatiquement au centre de sécurité sociale, l’utilisation de référentiels communs ou interopérables s’avère indispensable.

54

Les travaux menés dans le cadre de l’initiative « Web sémantique » du W3C permettent aujourd’hui de disposer d’un ensemble de normes pour la gestion de référentiels adaptés aux besoins du web et des intranets. La norme sur les URI [4] concerne la normalisation d’identifiants de métadonnées au sein d’une communauté. La norme OWL [5] s’occupe des échanges et du partage de modélisations de référentiels. Enfin, la norme SKOS [6] permet l’échange et le partage de référentiels, terminologies, thésaurus, taxonomies.

55

On assiste également dans les entreprises et les administrations à la création de référentiels métiers s’appuyant sur des thésaurus, terminologies, etc., préexistants (Gemet [7], Insee [8]), ou plus adaptés à de nouveaux usages (par exemple DBpedia fondé sur les sujets traités dans Wikipédia).

56

De nouveaux outils permettent en outre de créer et maintenir des référentiels en utilisant des outils de text mining pour puiser directement dans les contenus. Sans compter de nombreux travaux de mise en correspondance de référentiels pour favoriser l’interopérabilité.

Des contenus réutilisables aux données réutilisables

57

La réutilisation des données issues de contenus non structurés est un autre chantier qui répond à plusieurs objectifs : éviter la coûteuse ressaisie des informations, échanger directement des données entre applications, connecter des informations externes (l’adresse du restaurant indiquée dans la critique gastronomique me permet d’un clic d’alimenter mon carnet d’adresses, d’accéder à une carte Google et à une fiche dans Trip-Advisor.com). Les normes Microformats [9] et RDF-A répondent à ces besoins en permettant une annotation des données à l’intérieur même du contenu, annotation invisible au lecteur mais interprétable par les logiciels.

Références

[1] RDF Schema : www. w3. org/ TR/ rdf-schema RDF Primer - W3C Recommendation, 10 February 2004 : www. w3. org/ TR/ rdf-primer

[2] Expressing Dublin Core metadata using the Resource Description Framework (RDF) ; http:// dublincore. org/ documents/ dc-rdf

[3] Domains and Ranges for DCMI Properties ; http:// dublincore. org/ documents/ 2007/ 07/ 02/ domain-range

[4] RFC 3986 : Uniform Resource Identifier (URI), Berners-Lee and al., 2005 ; http:// tools. ietf. org/ html/ rfc3986

[5] Web Ontology Language (OWL) ; www. w3. org/ TR/ rdf-schema

[6] Simple Knowledge Organisation System (SKOS) ; www. w3. org/ 2004/ 02/ skos

[7] GEMET Thesaurus en SKOS ; www. eionet. europa. eu/ gemet/ rdf

[8] Publication de données géographiques au format RDF, INSEE, 2006 ; http:// rdf. insee. fr/ geo

[9] Microformats ; http:// microformats. org

[10] Linking Open Data ; http:// linkeddata. org

[11] RDF Primer - W3C Recommendation 10 February 2004 ; www. w3. org/ TR/ rdf-primer

L’apparition des ontologies

58

Le terme d’« ontologie » a été introduit ces dernières années pour décrire des référentiels formellement organisés. Une ontologie peut avoir des degrés de formalisme plus ou moins élevés allant de la reprise de thésaurus existants à la constitution de représentations formelles des connaissances supportant des raisonnements et de l’inférence. En tout état de cause, le fait d’utiliser les technologies du web sémantique et des ontologies assure a minima la portabilité et la normalisation des référentiels.

La mise en œuvre du web sémantique

59

La normalisation des schémas de métadonnées et des référentiels, leur mise à disposition via le web, la mise en œuvre de services web, l’utilisation d’identifiants normalisés (URI) et l’annotation des données permettent aujourd’hui de mettre en œuvre les idées fondatrices du web sémantique : disposer de ressources autonomes, complémentaires, normalisées, fondées sur des référentiels interopérables pour construire des services à valeur ajoutée. Le projet Linking Open Data [10] qui regroupe de grandes administrations, des ONG, des sites collaboratifs et des initiatives privées préfigure bien cette rupture technologique en cours.

60

Jean Delahousse

Les nouveaux atours du contenu 2.0

61

Analyse. Quelles sont les perspectives ouvertes par le phénomène web 2.0 du point de vue du professionnel de l’information ? Sans être la révolution parfois annoncée, la vague 2.0 a toutefois rebattu les cartes et proposé de nouvelles règles du jeu : élargissement de la notion même de « contenu », nouvelles utilisations des sources, approches différentes en matière de description et de structuration du document… Des changements et des innovations qui ne manquent pas de revisiter les pratiques documentaires.

62

Les éditeurs d’informations numériques sont aujourd’hui confrontés à un double bouleversement documentaire. D’un côté, les internautes s’invitent dans le processus de publication en postant eux-mêmes des contenus (textes, documents audio et vidéo, etc.), en les commentant, les modifiant parfois et les recommandant souvent. L’effet de masse des millions d’internautes, l’apparition de nouveaux services rapides et faciles pour collaborer et échanger (on doit s’inscrire en une minute, sans procédures compliquées) et de connexions ininterrompues grâce au haut débit ont donné naissance au concept de « user generated content », le contenu généré par les utilisateurs. D’un autre côté, le document publié en ligne se recompose, s’actualise éventuellement en temps réel et gagne en granularité pour diffuser ou mettre à disposition son information.

La sélection et la mise en valeur de ressources devient un service à part entière, comme sur Docvibes, dédié aux « gestionnaires de l’information »

L’avènement de la conversation

63

C’est avec le blog que le commentaire fait véritablement son entrée dans le champ documentaire de l’internet. Jusqu’alors, on recensait bien quelques expériences collaboratives (récits, projets, etc.), mais elles nécessitaient soit l’envoi de la contribution par messagerie avant son intégration dans la page, soit le recours à un forum, forme spécifique de conversation. Avec le blog, le commentaire devient partie intégrante (bien que formellement séparée) de l’article. Il vient parfois compléter, voire corriger le propos exprimé dans l’article ; on peut dire ainsi que, dans le meilleur des cas, le commentaire participe du processus éditorial. C’est particulièrement parlant dans le cas du quotidien Rue89.com qui met parfois en avant « la sélection de Rue89 », avant de laisser la possibilité de consulter tous les autres commentaires. Plus généralement, en terme de référencement, on accède désormais à certains articles par des occurrences contenues uniquement dans les commentaires. Hervé Le Crosnier, maître de conférences à l’Université de Caen, résume à sa manière ce phénomène : « Nous sommes passés d’un web de duplication à un web de conversation[5][5] Journée d’étude ADBS « La documentation web 2.0 : mettre.... »

64

Dans le cas d’un wiki, tout utilisateur (enregistré ou non) peut même venir modifier le contenu de l’article. Avec un peu de recul, on peut dire que cette forme maximaliste d’écriture collaborative n’a pas percé au point où l’on pouvait l’envisager il y a quelques années, à l’exception du célèbrissime Wikipédia et d’expériences de gestion de projets du ressort de communautés professionnelles ou spécialisées.

La valeur ajoutée de la sélection

65

Cet essor du commentaire acquiert encore une nouvelle dimension avec Ginger, la dernière version de Netvibes ouverte au printemps dernier. Ce service d’agrégation de flux RSS (Really Simple Syndication), jusque là réservé à un usage privé et personnel, permet désormais d’ouvrir une vitrine publique, son « univers », dans lequel l’utilisateur expose les différents fils d’actualité qu’il a sélectionnés puis organisés en onglets. La simple sélection de ressources mérite en soi d’être publiée en ligne, un constat déjà observé avec les sites de bookmarking social (Del.icio.us, Blogmarks, par exemple) qui proposent de suivre les favoris d’autres internautes partageant les mêmes centres d’intérêt.

66

Mais la logique Netvibes va plus loin en permettant de réagir sur les différentes actualités contenues dans les fils sélectionnés. Un peu comme le ferait un documentaliste spécialisé au travers d’une bibliographie commentée, l’internaute expose sa valeur ajoutée en donnant son point de vue sur des actualités qu’il a lui-même sélectionnées.

LES ORIGINES DU MOMENT 2.0

Plus que quelque « révolution », maintes fois annoncée sur les réseaux, la vague « web 2.0 [*] » doit se concevoir comme un « moment ». Trois années où la convergence d’un certain nombre de phénomènes a permis de dépasser un seuil qualitatif en termes de technologies et d’usages.

C’est particulièrement vrai sur le plan technique : l’utilisation dynamique d’informations extraites de référentiels XML (eXtended Markup Language), grâce à une combinaison de HTML (HyperText Markup Language) pour la structure, de CSS (Cascading Style Sheets) pour la mise en forme et de Javascript pour les interactions avec l’internaute a été vulgarisée et répandue sous l’appellation plus compacte d’Ajax (Asynchronous JavaScript And XML). En outre, la généralisation du haut débit, particulièrement en Europe, a complètement banalisé la consultation en ligne (streaming) de la musique, des documents sonores et des reportages en vidéo. Notons que ce dernier point avait cruellement manqué aux premières start-up de la fin des années quatre-vingt-dix, qui pour beaucoup étaient « parties trop tôt ».

En terme d’ergonomie, de nouvelles applications, comme les agrégateurs, par exemple, se sont efforcées de rapprocher « l’expérience web » de celle d’un poste de travail, en ayant recours à des pratiques déjà éprouvées sur le bureau, comme le drag and drop (glisser-déposer), mais encore peu fréquentes dans le navigateur. L’utilisateur accomplit de plus en plus de tâches sans quitter son navigateur – retour assez cocasse au cas Windows 98, à propos duquel Microsoft avait été accusé de vouloir renforcer sa position monopolistique en enfouissant son navigateur Internet Explorer au cœur de son nouveau système d’application.

Enfin, le volet social et relationnel du web 2.0 était annoncé depuis plusieurs années par l’essor du peer-to-peer, une technologie qui place clients et serveurs sur un même plan, et par les premières tentatives de mises en relation inaugurées par le schéma FOAF (friend of a friend). Il s’agit désor?mais d’exister sur le réseau en tant que producteur et relais de contenu, et non plus comme simple lecteur. L’internaute senior objectera avec raison que ce leitmotiv était présent dès les premières conférences autour du World Wide Web…

[*]

Tim O’Reilly, directeur de la maison d’édition éponyme, a opéré la cristallisation au travers d’un article célèbre : « What is Web 2.0: Design Patterns and Business Models for the Next Generation of Software » (septembre 2005). www. oreilly. com/ pub/ a/ oreilly/ tim/ news/ 2005/ 09/ 30/ what-is-web-20. html

Rue89.com est né sur le web, ce qui lui donne une certaine avance quant à la gestion des commentaires des internautes ; ceux-ci font l’objet d’une sélection éditoriale propre

Le coup de génie du web 2.0

67

Les éditeurs les plus commerciaux ont vite compris l’intérêt de susciter la participation des internautes. Canalisés, les commentaires font vivre l’information primaire à moindre coût, en engendrant parfois des processus de recommandation plus crédibles car n’émanant pas de la source officielle. Cette découverte a même mené à la création de faux blogs pour accompagner le lancement de produits. Certains sites emblématiques du web 2.0, tels que Dailymotion, ne sont que des plateformes techniques recueillant les contributions des internautes. La valeur ajoutée éditoriale en provenance du site est généralement faible. Et le modèle économique est simple : ouvrir grand les vannes à la contribution extérieure, ce qui permet d’engendrer sans frais de multiples contenus ; installer des emplacements publicitaires sur ces contenus puis autoriser des mécanismes relationnels (« envoyer à un ami », « ajouter comme ami », « créer un groupe », etc.) afin d’inciter les internautes, qu’ils soient contributeurs ou non, à revenir quotidiennement.

68

Et c’est là qu’intervient le coup de génie du web 2.0 : ouvrir à tout à chacun l’éden de la « rémunération symbolique » jusque là réservée aux auteurs et à leurs éditeurs. Affirmer son opinion est une chose, mais en mesurer la portée en est une autre. Il faut donc fournir des statistiques de consultation pour que le contributeur puisse juger de la réception de ses œuvres. Mieux, il convient de donner un statut virtuel à ce dernier, à base de notes d’internautes et de points d’expérience. Chaque profil dans chaque site collaboratif vient ajouter une facette à l’identité numérique du contributeur. Avec la perspective sous-jacente que ces mécanismes virtuels fassent émerger de réels experts alternatifs, pas forcément reconnus par leur employeur mais appréciés de leur communauté. Les profils personnels des réseaux sociaux tendent alors à s’apparenter à des documents vivants, dans lesquels les connexions font office de citations et explicitent les relations entre individus.

Des « graines informationnelles » semées à tous vents

69

Dans le même temps, l’information diffusée sur la toile ne se cantonne plus aux silos traditionnels que constituent les sites web.

70

Pour ce qui concerne l’actualité, les fils ou flux RSS permettent d’agréger sur un même service ou logiciel (Netvibes, Webwag, iGoogle, etc.) des blocs de titres en provenance de sites différents. Un éditeur tiers a également la possibilité d’enrichir son offre en intégrant plusieurs flux depuis ses propres pages. Si l’information primaire demeure consultable sur le site de l’éditeur source, sa signalisation est déportée. C’est une forme simplifiée de la syndication pratiquée par les portails depuis de nombreuses années.

71

Certains éditeurs, comme La Documentation française [6][6] www. netvibes. com/ ladoc, rassemblent désormais l’intégralité de leurs fils RSS dans un portail spécifique, proposant ainsi un nouveau produit issu d’une stricte recomposition de leur offre éditoriale existante.

La face visible de l’iceberg des web services

72

Tout service se revendiquant de la génération 2.0 se doit également de proposer des widgets. Ces petits modules permettent, selon le joli mot de Loïc Hay [7][7] www. slideshare. net/ loichay/ les-widgets-des-out..., de l’Artesi Île-de-France, de pratiquer le « jardinage informationnel », à savoir la culture de « graines informationnelles ». Un service de vidéo tel que Dailymotion propose ainsi d’afficher les derniers items mis en ligne ou sélectionnés depuis n’importe quelle page externe. Avec Librarything, la bibliothèque universelle en ligne, ce sont les derniers livres ajoutés, ou même un module de recherche directe dans votre bibliothèque, qu’il est possible de proposer très simplement depuis son blog.

73

Les widgets intéressent directement les éditeurs spécialisés dans la gestion de contenu. L’éditeur open source Alfresco a annoncé à la fin de l’année dernière le développement d’une nouvelle solution, Social computing platform, destinée à intégrer des fonctions de gestion de contenu à des applications telles que des agrégateurs RSS, des blogs ou des wikis. Quelques semaines plus tôt, le même éditeur avait annoncé un module spécifique à Facebook, le réseau social qui a tant fait parler de lui en 2007.

74

Un site égale un widget : on comprend vite la logique verticale qui conduit à juxtaposer sur une même page de multiples blocs d’information. L’avenir est donc à la création de widgets de widgets, à savoir des services tiers de second niveau qui agrègent de l’information en provenance de plusieurs sites. C’est le cas de Vodpod.com, par exemple, qui propose de créer une vidéothèque intégrée à partir de métarecherches depuis plusieurs sites très importants de partage de vidéos.

75

Autre terme 2.0, les mashups (applications composites) prolongent l’intégration informationnelle, en permettant de construire des sites qui s’appuient sur plusieurs services distincts pour recomposer une information propre. Les applications les plus symptomatiques utilisent, par exemple, le service de cartographie de Google pour géolocaliser immédiatement leurs données. C’est le cas de l’annuaire de l’administration de Service-public.fr, qui fournit en regard de chaque adresse d’organisme le plan Google correspondant [8][8] http:// lesservices. service-public. fr.

76

Tous ces gadgets ne représentent que la face visible de l’iceberg des « web services » en cours de développement depuis plusieurs années. Autant l’idée est simple, autant sa mise en place est ardue : savoir exploiter conjointement ou séquentiellement des données issues de référentiels hétérogènes, afin de constituer des processus transactionnels complètement intégrés. On en voit un exemple avec Sncf.com qui ne propose plus seulement, loin de là, des billets de train, mais également de l’hébergement, de la location de véhicules…

L’univers de La Documentation française, quand le nouveau service n’est que l’agrégation d’informations existant par ailleurs

Vers une granularité de la page web

77

Représentante emblématique du contenu en ligne, la page HTML n’est pas sans évoluer elle-même. Grâce à l’objet XMLHttpRequest, proposé en 2001 par Microsoft mais standardisé plus récemment, un créateur de pages peut programmer en Javascript des rafraîchissements ponctuels de blocs d’information. On quitte le modèle originel d’une page monolithique, que l’on doit actualiser dans sa globalité, pour celui plus économe et granulaire d’un document composite dont des fragments peuvent s’actualiser de manière autonome et éventuellement asynchrone. Les premières concrétisations s’attardent aujourd’hui à reproduire le comportement de logiciels que nous avons déjà installés sur nos postes, comme la messagerie, le tableur ou le traitement de texte. Mais nous pouvons dès à présent imaginer des documents vivants au sens où, conservant leur intégrité apparente et sans rechargement, ils pourront présenter des informations différentes selon les lectures et les interactions entreprises.

LA NOUVELLE VERSION DE VIE-PUBLIQUE.FR, OU COMMENT UN ÉDITEUR PUBLIC INTÈGRE LES DÉVELOPPEMENTS DU WEB 2.0

En cette rentrée 2008, le site Vie-publique.fr opère sa première mue depuis son lancement en 2002 avec une nouvelle version graphiquement et ergonomiquement rénovée. Sur le fond, les équipes de La Documentation française ont également procédé à une vaste réflexion, à partir d’un audit de l’existant, des remontées d’enquêtes auprès d’utilisateurs et d’une veille sur les mécanismes éditoriaux et collaboratifs proposés par certains sites étiquetés 2.0.

Des contenus « portables ». Par le biais de partenariats de rediffusion et de proposition de formats de syndication standardisés (RSS), le portail entend mieux s’adresser à des publics cœurs de cibles (étudiants, associatifs, documentalistes, etc.) en permettant une signalisation plus facile de ses contenus.

Interactivité entre les lecteurs et les rédacteurs. Un blog distinct instaure le dialogue entre ces deux « communautés » quant à la production éditoriale des contenus.

Une plateforme personnalisée. À terme, le portail de l’information citoyenne proposera l’ouverture d’un compte gratuit afin de personnaliser son utilisation, constituer des dossiers et les proposer éventuellement aux autres internautes.

Pour les mois qui viennent, ce portail est donc engagé dans une démarche d’enrichissement du processus informationnel descendant d’un éditeur classique : en introduisant des flux ascendants (l’internaute réagit à la politique éditoriale) et transversaux (les internautes interagissent par son biais), Vie-publique poursuit sa mission d’information citoyenne.

www. vie-publique. fr

Autre exemple d’éditeur traditionnel confronté au web 2.0, Larousse tente depuis le printemps dernier d’opérer la synthèse entre fonds d’autorité et information collaborative
78

Ironie suprême, cette dilution des sources d’information, ces bouleversements du document ouvrent le champ à de nouveaux services investissant sur la valeur ajoutée du… papier ! Feedjournal.com permet, après abonnement immédiat et gratuit, de constituer son propre journal PDF, prêt à imprimer, à partir des différents flux RSS souscrits.

Des nuages annonciateurs du web sémantique

79

Ironique encore cette efflorescence de tags pour décrire les contenus, que ce soit du fait des éditeurs ou des internautes. Alors que tout documentaliste connaît la difficulté d’élaboration puis de diffusion d’un thésaurus, avec son vocabulaire contrôlé parfois malaisé à assimiler, les mots clés du Net se répandent en regard de chaque contenu disponible. Ces descripteurs sont libres, immédiatement pris en compte (pas d’histoire de candidat) et ne jouent leur légitimité que sur l’effet de masse. Évidemment, tous ces avantages contiennent en germe les inconvénients de la méthode : fautes d’orthographe, pas de gestion du multilinguisme (des îlots francophones noyés dans un océan anglophone), polysémies fréquentes. Ajoutons à ces dangers documentaires d’autres périls plus démocratiques liés à ce que l’on pourrait appeler le « tag activisme » : interventions de lobbies, mise en cause de personnalités, spams, etc.

80

Mais qu’ils sont pourtant jolis ces nuages de tags que l’on croise tout au long de nos explorations de contenus ! Jouant sur la taille, la couleur, la graisse, ils donnent le sentiment grisant (et trompeur) d’appréhender de gigantesques masses de contenus en un coup d’œil. Ces petits tags s’avèrent un des moyens les plus indolores et efficaces pour sensibiliser les masses d’internautes aux vertus des pratiques documentaires et aux promesses du web sémantique.

Encore des obstacles avant le web 3.0

81

Toutes ces évolutions ne sont évidemment pas sans représenter certains dangers pour la production de contenus en ligne.

82

Le plus évident de prime abord étant certainement les conflits potentiels entre l’autorité informative (l’éditeur) et l’information collaborative (la communauté d’internautes). Comment parvenir à maintenir un haut niveau de qualité de l’information sans être pollué par des commentaires approximatifs, quand ils ne sont pas faux ou volontairement diffamatoires ? Comment, face aux multiples interactions désormais permises, ne pas déboussoler l’internaute dans sa navigation ? L’effort ergonomique doit être décuplé afin de clairement distinguer l’information validée de celle qui ne l’est pas.

83

Sur un plan plus technique, certaines limites sont aujourd’hui identifiées, en attendant qu’elles soient dépassées. Les multiples mécanismes d’interaction sont autant d’occasions, de la part de sites mal-veillants, d’attaquer les bases de données du côté serveur ou les informations stockées sur chaque client. Il ne faut pas céder à la paranoïa, mais ce risque est logique et quelques cas sont venus le rappeler.

Comme d’autres sites de génération 2.0, Librarything permet très facilement de créer ses widgets pour les ajouter à son blog ; ici la création d’un patchwork de couvertures issues de sa bibliothèque
84

Les riches interfaces développées en Ajax peuvent également poser problème en termes d’accessibilité, et donc de référencement par les moteurs. Pour un internaute disposant d’un dispositif de lecture autre que le traditionnel écran (téléphone mobile, plage Braille, etc.), il peut s’avérer très difficile de lire un contenu moins linéaire et figé qu’une page statique. Idem pour un moteur de recherche qui verra le fruit de son indexation remis en cause presque à la minute où il aura quitté un site dynamique. Enfin, si les applications de traitement de l’information se multiplient en ligne (bureautique, infographie, création de sites, etc.), les dispositifs de synchronisation en temps réel sur un disque dur, ce que l’on appelle le « web offline », ne sont pas encore au point.

Vodpod propose de créer sa propre vidéothèque à partir de métarecherches effectuées depuis plusieurs sites très importants de partage de vidéos. Il est ensuite possible d’en rediffuser une sélection sur son propre blog ou site grâce à un widget dédié
85

Perçue au départ comme un phénomène marketing visant uniquement le grand public, la vague du web 2.0 représente donc un formidable moment de relance pour le développement des contenus en ligne. L’arbre marketing ne doit pas cacher la forêt documentaire. Même s’ils ne sont pas toujours impliqués dans la production de contenus, les professionnels de l’information, doivent être particulièrement vigilants quant au traitement de l’information en provenance de ces sites et conscients des opportunités et des risques. Ne serait-ce que pour anticiper la prochaine vague.

86

Olivier Roumieux

En route vers l’hypermonde

87

Repères. L’hypertexte que nous pratiquons sur le web est encore assez limité. D’autres modèles existent. Imad Saleh dresse ici l’inventaire des pistes d’avenir susceptibles de s’appliquer avec profit à la gestion de contenu.

88

Encore révolutionnaire aux yeux du grand public il y a une quinzaine d’années, l’idée d’hypertexte apparaît dès 1945 avec Vanevar Bush. Elle s’impose vingt ans après quand Ted Nelson propose les mots « hypertexte » et « hypermédia » au sein du système plus global Xanadu. Nelson définit l’hypertexte comme étant « l’association d’un langage naturel avec les possibilités de l’ordinateur d’établir des liaisons interactives et des affichages dynamiques d’un texte non linéaire [5] ». Il est certain qu’il a inspiré en partie les créateurs du web.

Concepts et modèles

89

Sur un plan théorique, un système hypertexte intègre :

  • des noeuds : unités élémentaires associées à des fragments d’information d’un ou de plusieurs types (texte, image, son, etc.) ;

  • des liens qui définissent une connexion entre deux nœuds ;

  • des ancres pour pointer un « endroit » d’un texte.

Les systèmes hypertextes peuvent adopter plusieurs modèles technologiques :

  • un modèle minimal général sans aucun arrière-plan conceptuel, à base de chaînes de caractères : c’est le cas de la plupart des moteurs de recherche actuels ;

  • un modèle conceptuel à base d’ontologies : c’est la solution appliquée dans certains moteurs de recherche comme NorthOnlight. Un tel modèle est applicable sur un domaine spécifique ;

  • un modèle adaptatif mais dont l’adaptabilité ne peut plus dépendre du niveau conceptuel implémenté par le réalisateur de l’hypertexte puisque, dans ce cas, il n’y a pas un réalisateur mais une infinité mouvante de réalisateurs. L’utilisateur définit lui-même ce qui doit être le niveau conceptuel. Un module construit des parcours en fonction de ce modèle particulier ;

  • dans le cas du web, il y a absence totale de modèle : chaque concepteur définit les liens qu’il veut vers les objets d’information qui l’intéressent (adresses). Dans ce cas, le désordre est complet et se posent des problèmes de pointeurs périmés, d’adresses inactives et d’informations peu adéquates.

À la recherche d’une navigation idéale

90

L’hypertexte idéal étant celui qui, dans un espace informationnel ouvert, répond de façon spécifique à chaque utilisateur particulier, sa technologie doit tendre vers la disparition des graphes préétablis : plus de liens préalables mais une autoconstitution dynamique des liens. Tout ceci se complique avec le web du fait que l’on se trouve dans des univers d’information à la fois multimodaux et multilingues.

91

À chaque fois que nous parlons de la navigation dans des systèmes hypertextes, deux problèmes sont toujours évoqués : la désorientation et la surcharge cognitive. L’utilisateur se trouve parfois perdu dans l’hyperespace puisqu’il ne sait pas comment l’information est organisée, comment trouver l’information qu’il cherche, ni si cette information est fiable [4] [7]. La surcharge cognitive représente un autre problème important : l’utilisateur est confronté à un flux d’informations mais il n’arrive pas à en extraire des éléments pertinents et cohérents [6] [7].

92

La navigation idéale (peut-être inaccessible) serait de concevoir un hypertexte qui allie possibilité (liberté de choisir entre plusieurs chemins différents) et nécessité (détermination d’un seul chemin en fonction d’un contexte donné). En somme, il s’agirait de garantir une multiplicité de choix dont aucun ne serait fait par hasard, c’est-à-dire de rendre le plus clair possible le sens de chaque lien, et le contenu du nœud où il conduit [7].

Des pistes de recherche

93

Gérer et naviguer dans une structure comme le web exige que l’utilisateur dispose d’outils d’aide à la navigation et le gestionnaire d’outils d’organisation de l’information [3].

Détecter les profils et les besoins des utilisateurs

94

Les utilisateurs ne se ressemblent pas. Le système idéal devrait être capable de détecter les profils et les besoins de chaque utilisateur ou groupe d’utilisateurs de façon interactive, en tirant parti de profils constamment dynamiques. Ce système pourrait avoir les fonctions suivantes [2] :

  • détecter et enregistrer le parcours et les actions de l’utilisateur dans un document hypermédia ;

  • classifier les liens en groupes en considérant les connaissances, les intérêts et les objectifs de l’utilisateur ;

  • montrer, cacher, surligner ou souligner quelques fragments du document lors de sa visualisation.

Représenter le contenu sémantique des liens hypertextes

95

Les liens proposés avec HTML et URL/URI ne permettent pas d’exprimer toute la sémantique représentée par des liens. XML et ses extensions comme XLink, un « langage de description de liens », conduisent à une description plus fine de la structure du web, avec un typage des liens et des techniques d’adressage plus complets. XLink utilise XPointer pour référencer avec une meilleure granularité des parties de documents. XPointer utilise le langage XPath pour décrire des accès internes du document XML.

Régler automatiquement les mises à jour des pages et des liens

96

Les modifications de contenu de documents et de liens sont sources de confusion dans la navigation, et notamment la présence de liens obsolètes. La mise à jour manuelle sur un grand réseau hypertextuel étant impossible, il convient donc d’automatiser cette tâche sans mettre en cause la cohésion de la structure de l’hypertexte.

Veiller à l’optimisation de la structure hypertexte

97

Afin de préserver le caractère explorateur de la démarche de l’utilisateur, il est nécessaire de définir des procédures automatiques pour fixer un compromis entre ces approches, en optimisant le nombre de liens ou la structure du réseau qu’ils forment [3].

Gérer des versions

98

La mise à jour perpétuelle de l’hypertexte pose un problème concret : doit-on seulement garder l’image la plus récente de l’information qu’il représente ou au contraire conserver en mémoire les modifications successives de cette information ?

Références

[1] Jean-Pierre BALPE. « De l’hypertexte à l’hypermonde ». In : Imad Saleh et al. (dir.). Collaborer, échanger, inventer : expériences de réseaux, conférence H2PTM’07, Hammamet, Tunisie, 29-31 octobre 2007. Paris : Hermès : Lavoisier, 2007

[2] Paul DE BRA, Peter BRUSILOVSKY, Geert-Jan HOUBEN. « Adaptive hypermedia: from systems to framework ». ACM Computing Surveys, vol. 31, n° 4, December 1999. http:// surveys. acm. org/ #access

[3] Hervé GILSON. « Bibliothèques électroniques : vers l’intelligence documentaire et l’intelligence artificielle documentaire ». Document numérique, 1998, vol. 2, n° 3-4

[4] Susan MICHALAK, Mary CONEY. « Hypertext and the author/reader dialogue » In : Proceedings of the fifth ACM conference on Hypertext, November 14-18, 1993, Seattle. Association for Computing Machinery, December 1993. P. 174-182.

[5] T. H. NELSON. « Getting it out of our system ». In : G. Schecter (Ed.). Information retrieval: a critical review. Washington : Thompson, 1967. P. 191-210

[6] Jakob NIELSON. Navigating through large information spaces, hypertext and Hypermedia. Paris : Academic Press, 1990

[7] Imad SALEH, Fabrice PAPY. « Navigation et recherche dans un système hypertexte ». In : Madjid Ihadjadene (dir.). Méthodes avancées pour les systèmes de recherche d’information. Paris : Hermès, 2003. P. 19-33

Personnaliser l’information

99

Les utilisateurs doivent pouvoir personnaliser l’espace visité en modifiant le parcours de navigation, renommer les liens entre les documents, annoter des documents et ajouter des mots clés et des descripteurs sémantiques.

De l’hypertexte à l’hypermonde

100

Les concepts de l’hypertexte et de l’hypermédia sont au centre de tous les développements technologiques modernes (information, création artistique, jeux vidéo, etc.), ce que Jean-Pierre Balpe appelle un hypermonde, « c’est-à-dire un monde de convergence technologique où toute information provenant de n’importe quel instrument producteur, transformateur ou conservateur peut être instantanément mise en relation avec n’importe quelle autre. Un monde où, des téléphones portables aux caméras de vidéosurveillance, toute donnée, qu’elle soit textuelle, sonore ou visuelle, est en interaction permanente avec l’ensemble des autres. Un monde d’inscription généralisée, quelque chose comme un immense hyperréseau mondialisé dont tous les points formeraient autant de nœuds d’information possible. [1] »

101

Imad Saleh

La gestion de contenu en 2038 (ou à peu près)

102

Extrapolation. L’ensemble du patrimoine écrit planétaire étant désormais numérisé, les supports physiques ont été dématérialisés. Bob Toile, matricule Z3950, né le 5 septembre 2008, prend ses nouvelles fonctions chez Amazoog France.

103

2038. Paris. Il est neuf heures quand Bob Toile franchit les portes de l’entreprise Amazoog France. Il vient d’être nommé BuMPS : Business Manager of Participatory Streams. Son poste consiste à coordonner la diffusion de l’ensemble des flux de données entrants et sortants de l’entreprise. Et pas n’importe quelle entreprise. Amazoog possède l’ensemble des infrastructures du second réseau : Networld2. L’internet de première génération est mort.

104

Comme tous les BuMPS, Robert commence par apposer sa main sur l’interdesk : une table de travail interfacée et interactive. Grâce à la reconnaissance biométrique implantée dans l’interdesk et à ses datapuces sous-cutanées, Bob voit instantanément s’afficher ses trois lifestreams, les trois brins de son ADN numérique. Laissant de côté son personal stream (PES) et son public stream (PUS), il ouvre son business stream. L’interdesk recompose alors instantanément l’ensemble de ses données professionnelles : coordonnées, messages, agenda, tâches, projets, mais aussi toutes ses interopdocs en cours (INTERactions OPératoires DOCumentées).

105

Son bureau est juste au-dessus de l’archithèque [9][9] Mes excuses à Jean-Michel Salaün à qui j’emprunte –... intégrée d’Amazoog France. Sept cents téra-octects transitent ici chaque jour. Ils sont une centaine comme lui à coordonner l’ensemble. Entre eux ils se baptisent les « aiguilleurs ». Grâce à la gigantesque infrastructure dont dispose Amazoog, chaque information, chaque donnée, chaque échange, chaque interaction est stockée en permanence. Bob et ses collègues s’occupent de l’aiguillage des échanges et des interactions. Les anciens « documents » n’existent plus. Entièrement dissous dans la colossale mémoire de Networld2, ils ne sont plus qu’un flux de données en mouvement perpétuel. Mais grâce au travail de Bob ils peuvent être « instanciés », recomposés, reconfigurés à chaque instant, pour être basculés en affichage personnalisé dans l’interdesk du profil qui en fait la demande.

106

À 13 heures, Bob descend dans l’archithèque. Chaque succursale d’Amazoog en possède une, de taille variable (bien que toujours colossale). La température y est artificiellement maintenue à 7 degrés pour éviter toute surchauffe. Les murs de ce gigantesque local sont en effet constitués d’un seul et unique interdesk. L’archithèque d’Amazoog France est spécialisée dans la gestion des flux historiques et littéraires. L’ensemble du patrimoine écrit planétaire étant désormais numérisé, les supports physiques ont été dématérialisés. Networld2 les contient tous et peut, sur simple demande, les traduire dans toutes les langues parlées sur la planète.

107

Parmi l’ensemble des supports physiques, seuls les livres sont encore systématiquement conservés par enfouissement. À l’échelle de la planète, les réserves d’enfouissement représentent l’équivalent d’un continent comme l’Amérique du Sud : à cent mètres sous terre, d’immenses entrepôts de titanium affichant un degré d’hygrométrie adapté à la conservation du papier. Les anciennes bibliothèques ont été remplacées par des guichets individuels de visionnage répartis dans toutes les rues des grandes villes, pour les gens ne pouvant pas s’offrir d’interdesk personnel.

108

Ces guichets permettent d’adresser une demande d’accès aux différentes archithèques : Bob et les aiguilleurs récupèrent la demande, l’apparient au personal stream du profil qui l’envoie et retournent un flux composite avec les éléments nécessaires. Une zone de l’archithèque est réservée aux versionneurs. À l’inverse des BuMPS, ils n’ont pas la possibilité d’interférer sur la circulation des flux. Leur travail consiste à maintenir des flux stabilisés et en nombre suffisant pour satisfaire aux requêtes les plus courantes adressées à l’interdesk central.

109

Vers 18 heures, en sortant du travail, Bob jette un œil distrait au fronton du bâtiment d’Amazoog où scintille la devise de la firme : « Your Lifes. Our Memory. » Vos vies. Notre mémoire.

110

Olivier Ertzscheid

Notes

[1]

Site BlogOKat, documentation, technologie de l’information, Internet, etc. http:// blogokat. canalblog. com

[2]

Articles de l’encyclopédie Wikipédia. Liste de systèmes de gestion de contenu : http:// fr. wikipedia. org/ wiki/ Liste_de_syst%C3%A8mes_de_gestion_de_contenu et Système de gestion de contenu : http:// fr. wikipedia. org/ wiki/ Content_management_system

[5]

Journée d’étude ADBS « La documentation web 2.0 : mettre l’usager au cœur des services » (6 juillet 2007).

[9]

Mes excuses à Jean-Michel Salaün à qui j’emprunte – pour le détourner – le concept d’archithèque. http:// blogues. ebsi. umontreal. ca/ jms/ index. php/ 2006/ 09/ 04/ 70-reves-d-architheque.

Résumé

English

In 15 years, on-line service has gone from small-scale to big business, along with more refined tools, specialized professions and new requirements. Today, a quality approach must have a solid cross-disciplinary basis, standardized tools and foster content accessibility.
Hidden behind the notion of interoperability are major issues around electronic memory and content migration. The author presents their different components and features that must be taken into account to ensure true interoperability among CMS contents.
Metadata and reference data are two key concepts that foster change on the web. On-going work on standards is indispensible to creating real value-added service in which content can be shared and exchanged.
For an information professional, what are the perspectives opened by the web 2.0 phenomenon? The 2.0 wave reshuffled the cards and changed the rules of the game, broadening the scope of “content”, proposing new ways of using sources and offering different approaches to document description and structure.

Español

Durante quince años, la producción de los servicios en linea pasó de la fase artesanal a la fase industrial. Rápidamente, las herramientas se afilaron, los oficios se especializaron, las necesidades se revelaron. Hoy en día, un enfoque calidad, fundado particularmente sobre la transversalidad de las competencias, la estandarización de las herramientas y de la accesibilidad de los contenidos, es una apuesta mayor.
Trás la noción de interoperabilidad se esconden grandes apuestas en términos de memoria digital y de migración de contenidos existentes. Una presentación de sus diferentes componentes, para conocer los elementos que hay que tomar en cuenta y garantizar una real interoperabilidad de los contenidos de los CMS.
Metadatos y referenciales son dos conceptos clave de la evolución para la web. Los trabajos de normalización en fase de desarrollo son los pilares imprescindibles para la creación de auténticos servicios con valor añadido, entre los cuales los contenidos se compartirán y se intercambiarán.
Cuáles son las perspectivas abiertas para el fenómeno web 2.0 desde el punto de vista del profesional de la información ? La ola 2.0 barajó de nuevo y propuso nuevas reglas de juego : ampliación de la noción de « contenido », nuevos usos de los recursos, enfoques diferentes en la descripción y en la estructuración del documento...

Deutsch

In den letzten fünfzehn Jahren hat sich die Produktion von Onlinediensten von Einzelanwendungen in Handarbeit zu industriellen Anwendungen entwickelt. Sehr schnell haben sich die Tools verfeinert, die Berufe spezialisiert, und die Anforderungen sind gestiegen. Heute ist der qualitative Ansatz (basierend insbesondere auf der Transversalität der Kompetenzen, der Standardisierung der Tools und der Zugänglichkeit der Inhalte) eine wichtige Herausforderung.
Hinter dem Begriff der Interoperabilität verstecken sich große Herausforderungen im Hinblick auf digitale Erinnerung und die Migration bestehender Inhalte. Dieser Beitrag stellt ihre verschiedenen Komponenten vor, um die wichtigsten Elemente darzustellen und eine echte Interoperabilität der CMS-Inhalte zu gewährleisten.
Metadaten und Referenzdatenbanken sind zwei Schlüsselkonzepte in der Entwicklung des Web. Die derzeitigen Arbeiten zur Standardisierung sind unentbehrliche Bausteine zur Entwicklung von echten Mehrwertdiensten, bei denen die Inhalte teilbar und austauschbar sind.
Welche Perspektiven hat das Phänomen des Web 2.0 aus Sicht der Information Professionals eröffnet? Die 2.0-Welle hat die Karten neu verteilt und neue Spielregeln ausgegeben: Erweitreung des Begriffs des „Inhaltes“, neue Nutzung von Quellen, andere Ansätze in der Technik der Beschreibung und der Strukturierung von Dokumenten...

Plan de l'article

  1. La qualité s’impose sur le web
    1. Une approche transversale
    2. L’exigence des standards
    3. Le levier de l’accessibilité
    4. Formaliser et normaliser
  2. Dans la jungle des formats : le défi de l’interopérabilité
    1. Au commencement, le CMS
    2. Quel format pour quel élément ?
    3. Les autres strates de l’interopérabilité
  3. Métadonnées : décrire pour mieux servir
    1. L’indexation des contenus : une exigence croissante
    2. Quelles métadonnées pour les contenus ?
    3. La nécessité de référentiels partagés
    4. Des contenus réutilisables aux données réutilisables
    5. L’apparition des ontologies
    6. La mise en œuvre du web sémantique
  4. Les nouveaux atours du contenu 2.0
    1. L’avènement de la conversation
      1. La valeur ajoutée de la sélection
      2. Le coup de génie du web 2.0
    2. Des « graines informationnelles » semées à tous vents
      1. La face visible de l’iceberg des web services
    3. Vers une granularité de la page web
    4. Des nuages annonciateurs du web sémantique
    5. Encore des obstacles avant le web 3.0
  5. En route vers l’hypermonde
    1. Concepts et modèles
    2. À la recherche d’une navigation idéale
    3. Des pistes de recherche
      1. Détecter les profils et les besoins des utilisateurs
      2. Représenter le contenu sémantique des liens hypertextes
      3. Régler automatiquement les mises à jour des pages et des liens
      4. Veiller à l’optimisation de la structure hypertexte
      5. Gérer des versions
      6. Personnaliser l’information
    4. De l’hypertexte à l’hypermonde
  6. La gestion de contenu en 2038 (ou à peu près)

Pour citer cet article

Denis Laurent, Sloïm Élie, Stœhr Thierry, Delahousse Jean, Roumieux Olivier, Saleh Imad, Ertzscheid Olivier, « Enjeux, perspectives et prospective », Documentaliste-Sciences de l'Information 3/2008 (Vol. 45) , p. 68-82
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2008-3-page-68.htm.
DOI : 10.3917/docsi.453.0068.


Article précédent Pages 68 - 82 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback