Document numérique
Lavoisier

I.S.B.N.sans
180 pages

p. 13 à 28
doi: en cours

Veille sur la revue
Veille sur l'auteur
Vous consultez

Volume 6 2002/1-2

2002 Document numérique

Epaisseur documentaire et numérisation : le cas des dossiers d’actualité dans la documentation de presse

Dominique Cotte Sciences de l’Information et de la Communication UFR IdistUniversité de Lille-3, BP 149F-59065 Villeneuve d’Ascq cedex
Dans la documentation de presse, le dossier manuel remplit une fonction d’organisation de l’information qui n’est pas facilement substituable par la logique informatique. Du moins lorsque celle-ci est basée sur la simple logique du texte intégral. Répondant à un besoin particulier d’organiser l’information par thèmes plus que par mots-clés, la logique documentaire pourrait rencontrer la logique d’évolution des outils informatiques, lesquels s’orientent, aussi bien sur le plan du traitement que sur celui de la représentation graphique, vers une simulation de l’univers matériel des dossiers.Mots-clés : dossier documentaire, presse, sémiologie, informatique documentaire. In press libraries, the paper file allows a kind of organization of information that is not so easily recreated in a computerized environment. At least when this computerization is simply based on full-text technology. Both thematic classification and visual representation tend to imitate the material representation of the press clipping file on the screen.Keywords : press cutting, file, press, library, computer science.
 
1. Introduction
 
 
Le thème du dossier numérique, quoique peu exploré jusqu’à présent sur le plan théorique est néanmoins riche de pistes de réflexions. Nous souhaiterions l’aborder ici sous deux aspects.
1. La question du passage d’un corpus papier, ancré dans la forme d’un support donné (ici le dossier), à un corpus électronique renvoie au rôle de la technique dans la structuration de l’information. Il s’agira d’ailleurs ici plus de la question de la déstructuration d’un ensemble donné, dans le contexte du passage à de nouveaux outils, dans la mesure où le rapport de l’information à son support matériel n’est pas simplement une question de stockage, mais soulève la question de l’organisation même de l’information. Nous nous appuierons dans cette partie sur une forme d’utilisation particulière des dossiers dits « de presse » dans le cadre de la documentation de presse.
2. A travers cette problématique de structuration/déstructuration d’un ensemble destiné à la fois à contenir, à organiser et à diffuser de l’information, nous nous interrogerons sur la prégnance des modèles ainsi obtenus et leur rôle dans la représentation que se font les professionnels de ce type d’outil. Nous aborderons brièvement cette représentation par le biais d’une analyse sémiotique de quelques icônes représentant l’objet dossier dans des applications documentaires, ou des sites web.
En conclusion, nous évoquerons quelques pistes liées à l’évolution des solutions logicielles, envisagées moins sous l’angle technique que sous celui des modes d’organisation de l’information et de ses représentations.
 
2. La notion de dossier en documentation
 
 
Sans doute n’est-il pas exagéré de dire que le dossier documentaire marque historiquement une étape importante de la constitution de la documentation comme discipline spécifique. Par rapport à l’unité de volume représenté par le livre traité en bibliothèque [1], le dossier documentaire « est le résultat du découpage régulier d’un choix de revues et de journaux, de la collecte de différentes pièces détachées et brochures, ainsi que de dessins, photographies, cartes, etc. » [FAY 00]. Encore plus que l’attribution d’une cote à un ouvrage, le choix de la destination d’un composant du dossier relève d’une activité signifiante : la réunion de différentes pièces documentaires dans un seul volume permet de prendre connaissance globalement de leur sens intrinsèque, mais se révèle également productrice d’un sens nouveau, dans la mesure où la collection de ces documents produit de l’information par le truchement de leur seule mise en regard.
La forme des objets documentaires est loin d’être anecdotique, et l’analyse des transformations morphologiques de ces objets relève de la « culture triviale » évoquée par Yves Jeanneret [JEA 94].
Ces objets de « l’infra-ordinaire » comme disait Georges Perec, nous sont devenus transparents parce que trop utiles et trop connus. Leur matérialité nous paraît naturelle, alors qu’en tant qu’artefacts ils recouvrent à la fois une logique d’organisation et une pratique. Retrouver leur originalité n’est pas facile car cela suppose de s’abstraire du geste quotidien. Qu’il s’agisse ou non de documentation, n’importe qui aujourd’hui est habitué à ouvrir les portes d’une armoire et à en extraire un dossier dit suspendu pour consulter les différentes pièces dont il est composé. Pourtant ce geste ne va pas de soi, et la meilleure méthode anthropologique par rapport à ce genre de problématique est de se demander systématiquement comment on faisait « avant ».
Selon Joanne Yates [YAT 82] (voir aussi Morton [MOR 95]), l’invention des dossiers suspendus a été accueillie « comme une grande innovation au moment de leur apparition à la fin du dix-neuvième siècle (…) Les dossiers suspendus se présentaient comme un système de conservation où les documents de toute origine pouvaient se regrouper et se disposer par sujet, par région ou tout autre catégorie. »
Il ne fait pas de doute que c’est cette dimension de l’organisation de l’information en un volume, physiquement palpable et disponible de manière ramassée, qui confère à l’unité dossier toute sa richesse documentaire.
Dans le contexte de l’entreprise, qui est celui étudié par Joanne Yates, le dossier suspendu a l’avantage, sur le registre relié, de rapprocher physiquement différentes pièces se référant à une même affaire (courrier émis et courrier reçu par exemple). L’unité thématique transcende ici la forme du document.
Notons que, à la suite des analyses de Chandler [CHA 88] sur le développement de la firme capitaliste à compter de la seconde moitié du 19e siècle, Yates identifie cette transformation comme une réponse à l’explosion quantitative des échanges écrits dans les entreprises : courriers, notes, rapports, etc. Dans ces conditions, c’est bien le problème de la gestion du volume qui engendre l’innovation technologique. Dans l’exemple que nous avons choisi d’étudier, la question du volume est également importante puisque les flux quotidiens d’entrée dans les grands centres de documentation de presse en France vont de 4 à 800 coupures [2] par jour, en mode papier ou en numérique.
Dans l’application à la documentation de presse, nous retiendrons essentiellement le fait que le dossier réunisse des éléments auparavant disjoints au sein de publications différentes, dans une même unité thématique documentaire. En revanche, ces documents sont relativement homogènes en ce sens qu’ils proviennent tous de journaux préalablement découpés, ce qui n’est pas forcément le cas dans d’autres applications documentaries [3].
Les documentalistes distinguent en général entre le dossier-outil et le dossier-produit. On appellera dossier-outil le système physique de rangement dans des chemises des documents, en ce qui nous concerne ici, des coupures de presse. Outil, car il s’agit du fonds documentaire, du stock, donc de la matière première utilisée pour faire des recherches. La plupart du temps [4], en mode manuel, le résultat d’une de ces recherches est la reproduction d’un certain nombre de documents rencontrés dans un ou plusieurs, dossiers, puis recomposés à l’intérieur d’un dossier documentaire appelé ici dossier-produit.
La grande force de l’outil documentaire papier est que, dans ce contexte, pour contredire la formule célèbre, la carte EST le territoire. En effet, un ensemble de dossiers structurés par l’intermédiaire d’un plan de classement constitue à la fois un corpus organisé et la représentation de ce corpus. Autrement dit, il n’y a pas besoin de description intermédiaire comme des fiches documentaires par exemple. Cet aspect est particulièrement bien souligné dans l’ouvrage collectif sur le dossier documentaire : « Indexer sur des fiches intermédiaires, c’est nier l’accès direct à l’information. S’il y a obligation de passer par ces fiches, c’est alors nier l’avantage essentiel des dossiers par rapport à d’autres outils documentaires. » [COU 94, p. 65].
La notion d’accès direct à l’information mérite quand même qu’on s’y arrête un instant. Dans cet ouvrage, écrit par et pour des professionnels de l’information, la notion d’accès direct s’applique évidemment à la personne qui connaît à la fois les règles du système et le mode d’organisation des contenus. Il s’agit donc d’un accès à travers une connaissance intériorisée, tacite [NON 95] ; mais cet accès ne sera pas forcément « direct » pour tout le monde. Joëlle le Marec [MAR 89] a montré il y a déjà quelques années, à propos de la Bibliothèque publique d’information de Beaubourg que la lecture par le grand public de dispositifs de classement physique de type CDU n’étaient pas donnée d’emblée. L’accès n’est pas si direct qu’il en a l’air : subsiste le filtre de la nomenclature, du plan de classement, même si celui-ci n’est pas médiatisé par une cote comme dans le cas des bibliothèques ; même un plan de classement purement alphabétique ne laisse pas forcément transparaître aussi facilement sa logique d’organisation. Toute classification possède sa part de subjectivité, qui nuit partiellement à la notion d’accès direct évoqué ci-dessus.
Cette réflexion n’est pas à négliger car dans bien des cas, les projets d’informatisation se sont articulés autour d’une volonté plus ou moins affichée de fournir un accès plus facile ou « transparent » aux ressources documentaires pour l’utilisateur final. La problématique de l’accès direct n’est donc pas si neutre que cela.
 
3. L’utilisation du dossier en documentation de presse
 
 
Dans le domaine de la presse écrite, nous retiendrons deux acceptions principales du terme « dossier » [5]. La première désigne à travers ce terme un type d’article ou une unité éditoriale particulière. Il s’agit ici de regrouper sous une même en-tête différents articles ayant trait à un même événement ou permettant d’apporter des éclairages complémentaires à un article d’actualité (citons comme exemple les pages « Evénement » qui ouvrent le journal Libération ou encore les cover stories des magazines d’actualité, cela peut même désigner une publication à part entière comme les « Dossiers et documents » publiés par Le Monde).
Dans tous ces différents cas, la notion de dossier est basée sur la logique d’un rapprochement physique dans un même ensemble de pages, d’une série d’articles ou d’illustrations (cartes, photos, schémas) reliés entre eux selon une logique thématique. Parfois une partie des unités composant le tout peut être aussi bien comprise dans cet ensemble que lue séparément. C’est le cas notamment des encadrés, qui, comme leur nom l’indiquent sont physiquement séparés des autres articles, et servent la plupart du temps à développer un angle en particulier ou à expliquer un point précis, nécessaire à l’éclairage du tout, mais qui peut garder sa valeur documentaire propre lorsqu’il en est séparé. Par exemple dans un dossier sur le conflit en Afghanistan, un encadré parlera des medressas, les écoles coraniques dans lesquelles se sont formés les talibans au Pakistan. En tant que tel, l’encadré peut être lu sans référence à l’ensemble, tout en faisant partie du même dossier.
Dans ce cas, l’unité documentaire peut être comprise à deux niveaux : le dossier comme ensemble global, ou ses composantes, chacun de ces éléments pouvant faire l’objet d’un classement spécifique.
On notera que la publication des journaux sous forme électronique, notamment dans les sites web, renouvelle le genre du dossier rédactionnel, puisque les différentes parties d’un même document d’actualité peuvent être consultables sous forme de liens clicables dans la page, comme on peut le voir dans l’exemple ci-dessous.
Figure 1
Un « dossier » d’actualité sur le site web du Figaro (capture du 25/11/01)
IMGIMGUn « dossier » d’actualité sur le site web du Figa...IMGIMF
Dans la deuxième acception du terme, nous désignons par dossier de presse la collection dans une même chemise d’articles provenant de sources différentes.
La documentation de presse traditionnelle (utilisant des outils papier) est basée sur l’utilisation de ces dossiers thématiques, adressés par des descripteurs, ou par des cotes alphanumériques recensés dans des plans de classement inspirés des grands systèmes de classification comme la Dewey ou la CDU. Ces systèmes sont particulièrement efficaces, même si leur utilisation ne procède pas forcément d’une réflexion théorique sur ce qu’est l’objet-dossier, sa finalité, son mode de consultation.
L’informatisation de ces corpus documentaires a posé problème dans la mesure où la notion de dossier numérique ou dossier virtuel ne pouvait pas s’incarner dans un outil de gestion automatique qui faisait au contraire la part belle au traitement de l’unité documentaire (l’article de journal), mais au prix de la déstructuration du volume physique représenté par le dossier papier.
Nous avons souligné à plusieurs reprises [COT 91], [COT 98] que l’information de presse était particulièrement volatile. Le traitement de l’actualité est complexe et oscille toujours entre deux écueils : la redondance et l’oubli. L’actualité étant ce qu’elle est, la valeur incrémentale de l’information nouvelle chaque jour est relativement faible ; pourtant il faut produire un volume identique de pages, et si possible restituer l’information nouvelle dans son contexte, c’est-à-dire vis-à-vis de l’information d’hier ou d’avant-hier. Il est difficile dans ces conditions d’éviter la redondance. Celle-ci ne frappe pas forcément le lecteur car chaque nouvel article est écrit chaque jour ou chaque semaine, dans la perspective d’une lecture renouvelée, sans autre contexte que celui de la mémoire du lecteur. En revanche, dans le dossier comme objet de réunion physique des documents, la redondance éclate : redondance synchronique, celle qui réunit les articles quasiment identiques parus dans des journaux différents, et redondance diachronique, celle qui ramène dans un même espace des commentaires ou des faits réédités à distance de plusieurs intervalles de temps.
L’oubli est la deuxième menace qui frappe le fait d’actualité. La solution de continuité est quasiment la règle en matière d’actualité. Elle fonctionne d’autant mieux que la presse moderne obéit de plus en plus à des impératifs commerciaux et exige le renouvellement des problématiques, le parler-bref, pour susciter l’intérêt du lecteur et le renouveler en permanence. On focalisera donc pendant quelques jours sur un événement, poussant l’effet de redondance au maximum, quitte à laisser totalement tomber la couverture quelques jours après, laissant en suspens les questions que peut se poser tel ou tel lecteur sur la suite de l’événement. Le dossier, se nourrissant d’une telle matière mettra également cruellement à nu cet effet du dispositif de production d’information, car la superposition des documents permettra de toucher du doigt la coupure avec netteté : entre telle date et telle date, le fil de l’histoire s’interrompt brusquement, si toutefois même il reprend.
Le dossier documentaire est donc un outil indispensable, mais imparfait. Il oscille en permanence entre son statut de dossier-outil où le documentaliste est tenté de conserver le maximum d’informations « au cas où », et celui de dossier-produit, qui exigerait une reconstruction totale du discours informatif sous la forme d’un discours documentaire. Cependant, très peu de documentalistes de presse pratiquent le nécessaire « désherbage » capable de produire cette forme synthétique, le plus souvent faute de temps.
Néanmoins, les avantages du dossier manuel se lisent essentiellement dans l’activité de recherche d’information : pour des raisons peu souvent étudiées, et qui relèvent de l’activité cognitive associant le mouvement de la main, de l’œil et l’activité du cerveau, la sélection d’une poignée d’articles pertinents dans un dossier volumineux se fait beaucoup plus rapidement et avec plus de sûreté et d’efficacité que la consultation à l’écran d’une liste de références, sous forme par exemples de titres fournis par une interrogation dans une banque de données ou par l’intermédiaire d’un moteur de recherche.
Sur ce plan, l’avantage technologique de la numérisation, en ce qui concerne le gain de place, la conservation sur le long terme [6], et la transversalité de la recherche, se trouve contredit par la relative lenteur de l’exploitation de l’information à travers la lecture sur écran.
 
4. Informatisation et nouvelle structuration de l’information
 
 
Nous avons vu qu’une des caractéristiques du dossier en tant que construction physique était de donner un sens particulier à l’information grâce à la réunion de documents de sources diverses. Par cette mise en regard, le dossier est instrument de la construction d’un discours, spécifique, qui se superpose aux discours singuliers inscrits dans les documents eux-mêmes.
Dans quelle mesure l’informatisation a-t-elle détruit cette organisation ?
La numérisation, en matière de presse et de documentation de presse, peut être envisagée à deux niveaux :
  • le niveau de l’informatisation de la publication elle-même,
  • le niveau de l’informatisation des sources extérieures.
En ce qui concerne le premier point, l’évolution des techniques de fabrication à partir des années 1960 (photocomposition, puis PAO) a abouti à fournir un équivalent du numéro du journal sous forme de fichier. Cependant, la technologie employée pour stocker ces textes dans les grands serveurs de bases de données, celle du texte intégral, va totalement à l’encontre de la notion de dossier documentaire. Au contraire, elle éclate même en des unités distinctes les différentes parties d’un même dossier rédactionnel tel qu’il peut être mis en page dans un quotidien ou un magazine.
La plupart des logiciels utilisés pour le stockage des articles de presse ne savent pas gérer par exemple la relation du texte-père avec un encadré. La plupart du temps, la solution retenue est de basculer le texte de l’encadré dans le fichier-père et de livrer le tout à la recherche et à la consultation.
Les générations ultérieures d’outils, en permettant, soit l’exportation globale de l’image de la page en format PDF par exemple, soit sa reconstitution à la volée à partir d’un balisage XML permettent au moins de restituer l’information dans son contexte visuel et hiérarchique [7].
En revanche, en ce qui concerne les sources acquises à l’extérieur, la difficulté est plus grande, et le passage du manuel au numérique a la plupart du temps contribué à déstructurer totalement l’idée de dossier.
Soit la chaîne de numérisation classique de la GED [8]. La séquence des opérations est la suivante :
IMGIMGIMGIMF
Sur le plan purement informatique, les images sont stockées dans le serveur dans l’ordre de leur acquisition par le système, il n’existe pas d’organisation spécifique des données. La question a pu se poser dans les toutes premières générations, lorsque le stockage se faisait sur des disques optiques numériques, accessibles via des jukeboxes. Dans le but d’optimiser les temps de réponse, la répartition des documents par disque (par exemple un disque pour telle thématique ou telles entrées d’un plan de classement) pouvait s’avérer nécessaire. La remontée en puissance du support magnétique vis-à-vis du support optique et l’accroissement considérable des capacités de stockage, allié aux progrès en matière de compression des données, ont rendu ce problème négligeable. On ne s’occupe donc plus en entrée de la question du regroupement physique des documents numériques. De toutes les façons, il s’agissait là d’un problème concernant le gestionnaire du système et non pas l’utilisateur pour lequel ce stockage par regroupement est de toutes les façons invisible et impalpable.
Par conséquent, la seule manière de simuler une logique de dossier au sens d’un regroupement de coupures de presse traitant du même sujet est l’indexation. Le descripteur joue donc ici le rôle de terme unifiant pour simuler la réunion de documents différents sous une même thématique. Le problème principal ici est que la manière de nommer un dossier dans un système documentaire manuel diffère grandement des logiques d’indexation à l’œuvre dans les systèmes informatisés. Le nommage d’un dossier s’apparente plus à l’attribution d’un titre qu’à l’application d’un descripteur, d’où la grande souplesse de traitement de ces outils. Les noms de dossier peuvent s’écarter des canons de la logique documentaire mais coller au plus près de l’actualité en reprenant par exemple la locution sous laquelle un événement se fait connaître et reconnaître à la fois par la communauté des producteurs de l’information, les journalistes et celle du public. On pourrait avancer ici la notion de « mot-titre » pour désigner l’expression servant à nommer un dossier. Ceci vaut notamment pour les « affaires » ou les faits divers, mais aussi pour les grandes questions internationales. « L’affaire des diamants », « L’affaire Gregory », « Le sommet de Kyoto », « Le terrorisme islamique », etc. sont à la fois des thématiques de l’actualité et des noms de dossiers qui ont l’avantage non seulement de retranscrire parfaitement le contenu même de l’événement, mais également d’exprimer celui-ci dans sa singularité [9]. En revanche l’application de descripteurs comme « corruption », « meurtre d’enfant », « pollution/sommet international », « terrorisme/religion/islam » renvoient chacun de ces événements à une universalité qui nuit à leur qualification documentaire. Dans les années 1980, la question du « foulard islamique » dans les écoles françaises pouvait difficilement être qualifiée par les descripteurs « école » et « accessoire du vêtement » tels qu’on pourrait les trouver dans un thesaurus ! Or, relevant essentiellement d’une logique analytique, les procédures d’indexation informatisées sont venues contredire l’efficacité de la logique du traitement en dossiers.
La logique du texte intégral
Tant que l’image de l’article n’est pas concernée (dans les banques de données Ascii de première génération par exemple), le traitement des documents entrés s’effectue selon la logique du texte intégral : tout terme de l’article, sauf les mots-vides est indexé. Du même coup, pour un feuillet [10] comprenant environ 215 mots, on aura approximativement 150 clés d’indexation possibles. Si l’on raisonne en termes de dossiers virtuels, cela signifie que cet article peut être virtuellement classé à 150 endroits différents. On voit donc d’une part que la notion de dossier est soumise ici à un véritable éclatement, d’autre part que le risque de bruit est démultiplié. D’où le plus souvent, dans les banques de données documentaires de presse, comme celle du Monde par exemple, la combinaison de l’indexation en texte intégral et de l’attribution de descripteurs à l’article [11].
La logique du thesaurus
L’époque de l’informatisation des centres de documentation de presse voit le passage d’un outil de type classification thématique (plan de classement, nomenclature) à la logique plus analytique des thesaurii. La norme d’usage de ces outils veut que l’on utilise principalement des unitermes [AIT 92]. Même si, notamment à travers la reconnaissance des synapsies, les thesaurii autorisent la présence de termes précoordonnés, ils vont rarement jusqu’à accepter des phrases entières ou des locutions qui permettraient de retrouver l’élément titre utilisé pour la dénomination d’un dossier documentaire. Dans son étude sur les pratiques documentaires d’indexation, Muriel Amar [AMA 00] relève la surreprésentation des noms propres (noms de personnes ou noms géographiques) comme descripteurs. La notion de mot-titre que nous avons avancée plus haut pour caractériser la désignation d’un dossier documentaire s’applique parfaitement à cette pratique. Il s’agit, dans un souci fonctionnel « d’économie intellectuelle » de s’assurer d’une entrée simple, univoque, sur l’information [12].
La logique du traitement automatique de l’information
Les outils dits de traitement du langage naturel permettent soit d’automatiser partiellement les tâches d’indexation (c’est le cas à Libération par exemple), soit de procéder à de la fouille de textes, avec ou sans médiation d’un langage documentaire contrôlé de type thesaurus, afin de rassembler « à la volée » tous les textes parlant d’un même thème. Dans ces conditions (tout comme dans la logique du texte intégral, mais avec un traitement statistico-linguistique en plus), il n’y a plus de dossier-outil, mais seulement des dossiers-produits. Dans la figure ci-dessous, on voit comment le moteur de recherches Northernlight simule le regroupement de sites web sous la forme de dossiers.
Cependant on distinguera ici deux logiques, l’une qui relève de l’extraction et de la réorganisation a posteriori des contenus dans des ensembles thématiques plus ou moins cohérents (par exemple Exalead), et l’autre qui s’articule sur des outils d’indexation intellectuels élaborés a priori, thesaurus, dictionnaires etc. (application de la société Kalima au journal Libération par exemple).
On n’oubliera cependant pas que classifier, quel que soit l’outil, c’est avant tout faire prévaloir une vision du monde et que l’automaticité du traitement n’a de valeur que si elle s’appuie sur une structuration préalable du champ sémantique au moyen d’outils de description de la réalité. Ainsi, dans l’application citée ci-dessus pour le journal Libération, le thesaurus préexistant est utilisé comme pivot, autour duquel on a rajouté un certain nombre d’unités textuelles, expressions que l’on peut rencontrer dans des articles, qui servent de déclencheurs pour l’attribution automatique des descripteurs contenus dans le thesaurus.
Figure 2
Résultats d’une recherche dans le moteur Northernlight. A gauche l’organisation des résultats en dossiers
IMGIMGRésultats d’une recherche dans le moteur Northernl...IMGIMF
 
5. L’image du dossier dans la représentation documentaire
 
 
La notion de dossier structure la représentation que le documentaliste se fait de son fonds documentaire. Même en utilisant un outil informatique de type logiciel documentaire ou système de gestion de bases de données, nombreuses sont les astuces qui visent à recréer une unité plus large que la simple coupure de presse, afin de redonner un effet de profondeur à la recherche ou la consultation documentaire. Par exemple, telle équipe utilise un système de « sur-titre » pour pouvoir réunir plusieurs documents différents dans un même ensemble artificiel. Telle autre équipe regrette, à l’occasion du passage à un nouvel outil logiciel, la fonction « d’épinglage » qui existait dans une version antérieure et qui permettait, en créant une seule fiche descriptive, d’y « attacher » autant d’articles que souhaité.
Figure 3
Icônes simulant un dossier ou la « caramallette » du service de courrier électronique caramail.com
IMGIMGIcônes simulant un dossier ou la « caramallette » ...IMGIMF
Figure 4
Capture d’écran du site iht.com, montrant la possibilité de créer son propre dossier de consultation
IMGIMGCapture d’écran du site iht.com, montrant la possi...IMGIMF
Cette représentation ne concerne pas seulement la pratique de rattachement d’articles, mais elle s’inscrit également dans une dimension visuelle, iconique. Les interfaces graphiques ont généralisé les représentations matérielles de la boîte, du dossier, qui simulent les accessoires de rangement sur le « bureau » de l’ordinateur.
Les médias informatisés [JEA 00] sont sans épaisseur autre que celles simulées par les arborescences informatiques. Il est donc normal qu’ils cherchent à recréer symboliquement la marque de la profondeur des objets destinés au classement : boîtes, dossiers, chemises, etc. Depuis l’arrivée des interfaces graphiques (Xerox, puis Mac, puis Windows), on ne peut qu’être frappé par l’usage d’icônes qui manifestent la résurgence de l’univers du papier dans les technologies de l’information et de la communication. Déjà, dans les années 1980, le logiciel Hypercard, ancêtre des logiciels hypertextes sur MacIntosh multipliait les allusions graphiques à la page, au cahier, au bloc-notes, au carnet à spirales, à la fiche de bibliothèque, au tiroir de rangement, comme si, dès lors qu’elle était capable de traduire en images son dispositif abstrait de classement, l’informatique n’avait pas d’autre solution que d’emprunter au monde non virtuel l’épaisseur rassurante de ses objets en les transformant en icônes. Cet aspect, qui constitue par ailleurs un de nos champs de recherche, mériterait à lui tout seul de plus amples développements. A titre d’exemple, on peut observer la métaphore du dossier employée sur le site de l’International Herald Tribune [13].
La pratique visée ici est celle qui consiste à mettre « de côté » des articles, sous la forme de coupures (clippings), réunies dans un dossier virtuel. Ce type d’offre sur un site de presse s’inscrit dans une pratique, constatée par ailleurs [14], de lecture différée sur internet. La consultation s’avère la plupart du temps être un temps de repérage, de thesaurisation d’éléments qui seront ensuite « lus à tête reposée ». En proposant ce type de services, l’Herald Tribune s’inscrit parfaitement dans ce genre de pratiques.
 
6. Conclusion
 
 
Quelles pistes évoquer, au-delà du constat fait ci-dessus, selon lequel la numérisation dans la presse n’a pas vraiment fait émerger de notion de dossier numérique, mais a plutôt contribué à déstructurer l’unité traditionnelle des fonds documentaires de presse ?
Pour une part, cet effet est lié à la logique de l’outil technique principalement employé à partir des années 1980 et jusqu’aux années 2000 : le logiciel documentaire basé sur la technologie du texte intégral. En passant d’une logique de mot-titre à une logique de mot-clé, les entrées d’index sont démultipliées au détriment de la logique de collection qui régit le dossier documentaire. Or, cette génération de logiciels est bousculée de plusieurs côtés. Sur le plan des logiques d’indexation (voir le numéro de Document numérique consacré à l’indexation [15]), la recherche dite en langage naturel propose éventuellement le regroupement d’articles de même teneur dans des unités plus ou moins cohérentes identifiées comme des dossiers (voir par exemple ci-dessus la pratique du moteur de recherche Northernlight [16]). Sur un autre plan, l’organisation de l’information propre au web (internet et intranet) rejaillit sur les outils documentaires, qui se présentent désormais plus comme des portails d’accès à l’information quel que soit son type (voir par exemple l’évolution récente du logiciel Doris de chez Ever Team vers le produit Dportal). Dans cette logique, la navigation hypertextuelle ou tout simplement l’organisation arborescente de l’information reviennent en force [17], tout en se combinant avec la logique des moteurs de recherche évoquée plus haut. Dans ces conditions, on devrait voir prochainement arriver des outils capables de représenter l’information à deux niveaux : sur le plan analytique par une recherche de plus en plus pointue dans les texte mêmes, autorisant toutes les transversalités que le dossier documentaire papier méconnaît ; sur le plan synthétique en autorisant le regroupement d’articles par thèmes, sous-thèmes, etc. désignés par des mots-titres et permettant un accès rapide à une collection d’informations thématiques regroupées dans un dossier numérique digne de ce nom. Il reste qu’à cet outil, il manquera encore, en l’état actuel des technologies, la facilité de manipulation liée au feuilletage manuel des coupures.
 
BIBLIOGRAPHIE
 
·  [AIT 92] Aitchison Jean, Gilchrist Alan, Construire un thesaurus, Adbs, 1992.
·  [AMA 00] Amar Muriel, Les fondements théoriques de l’indexation, une approche linguistique, Adbs Editions, 2000.
·  [BOD 92] Bodin Bruno, Roux-Fouillet Jean-Paul, La gestion électronique de documents, Dunod, 1992.
·  [CHA 88] Chaumier Jacques, Travail et méthodes du/de la documentaliste, Esf, 1988.
·  [CHA 88] Chandler Alfred, La main visible des managers, Economica, 1988.
·  [COT 91] Cotte Dominique, Stratégie documentaire dans la presse, ESF, 1991.
·  [COT 98] Cotte Dominique, La production et la diffusion de l’écrit journalistique à l’ère d’internet, XVIIIe congrès mondial de l’Union Catholique Internationale de la Presse, http ://ffpc.cef.fr/textes/980912frg.html
·  [COU 94] Couzinet Viviane, Huvillier Patricia, Pomart Paul-Dominique, Velten Dominique, Le dossier documentaire, ADBS éditions, 1994.
·  [FAY 00] Fayet-Scribe Sylvie, Histoire de la documentation en France, CNRS Editions, 2000.
·  [JEA 94] Jeanneret Yves, Ecrire la science, Puf, 1994.
·  [JEA 00] Jeanneret Yves, Y a-t-il (vraiment) des technologies de l’information ?Septentrion, 2000.
·  [MAR 89] Le Marec Joëlle, Dialogue ou labyrinthe, La consultation des catalogues informatisés par les usagers, BPI/Centre Pompidou, 1989.
·  [MOR 95] Morton S. Scott, L’entreprise compétitive au futur, Les Editions d’organisation, 1995.
·  [NON 95] Nonaka Ikujiro, Takeuchi Hirotaka, The knowledge-creating company, Oxford University Press, 1995.
·  [YAT 82] Yates Joanne, From Press Book and Pigeonhole to vertical filing : revolution in storage and access systmes for correspondance, Journal of business communication 19 (Eté) : 5-26, 1982.
 
NOTES
 
[1]Sylvie Fayet-Scribe [FAY 00] fixe à la fin du XIXe siècle la naissance de ce nouvel outil documentaire.
[2]On estime en général qu’il faut multiplier d’un facteur 1,5 à 2 pour obtenir le nombre de feuilles.
[3]Cette prégnance de la source journalistique dans les documentations de presse, au détriment des sources « premières » ou originales (rapports officiels, communiqués de presse, dossiers de presse au sens de la communication), étonne bien souvent l’observateur.
[4]Certaines recherches ponctuelles trouvent plus facilement leur aboutissement dans la consultation d’usuels.
[5]Plus généralement, dans le vocabulaire de la communication, le dossier de presse est le produit, destiné aux journalistes, réalisé par des professionnels de la communication (attachés de presse, services de communication), pour présenter une opération financière, un film, un nouveau produit. Généralement, ces dossiers ne font pas l’objet d’un archivage systématique en documentation, du moins dans la presse généraliste. C’est pourquoi nous n’insisterons pas sur cet aspect dans le cadre de cet article, même si on peut noter que depuis déjà plusieurs années la pratique d’adresser ce type de document sur un support numérique (disquette, cédérom) ou via le courrier électronique, est allée croissant.
[6]Encore faut-il relativiser ce dernier point : si le papier, notamment le papier journal, s’abîme, les supports de lecture numérique sont victimes d’une obsolescence technologique qui rend tout aussi problématique leur exploitation sur le long terme.
[7]A titre d’exemple, et sans qu’il s’agisse d’une solution exclusive, on pourra consulter les archives de presse britanniques (en collaboration avec la British Library), après traitement par le logiciel ActivePaper de la société Olive Software, à l’adresse suivante : www. uk. olivesoftware. com
[8]Gestion électronique de document, voir [BOD 92]. Ce type d’organisation est celui des centres de documentation de Radio-France, du groupe Hachette, de la banque Paribas, etc.
[9]Encore conviendrait-il ici, dans une perspective opérationnelle, de distinguer entre l’actualité de flux, qui s’incrémente de manière irrégulière mais continue (par exemple « le trou de la sécurité sociale », d’une actualité événementielle dont on peut plus ou moins distinguer le début et la fin (fortement dans le cas d’événements récurrents comme les manifestations sportives les festivals, certaines manifestations politiques, plus difficilement dans le cas de faits divers, de conflits, etc.).
[10]Le feuillet est l’unité-type de l’écrit journalistique. Il est calibré à 1 500 signes, soit environ 215 mots, si l’on prend en compte une moyenne de 7 caractères par mots dans la langue française.
[11]Il est important de noter ici que cette combinaison, et la précision qu’elle fournit pour la recherche reste le plus souvent un outil interne, la recherche sur les descripteurs ne pouvant pas se faire dans les services commerciaux des serveurs tels que l’Européenne de Données ou Questel.
[12]Dans le fonds documentaire de L’Express par exemple, on trouvera l’intégralité du dossier sur « La mémoire de l’eau » dans le dossier biographique du chercheur Benveniste, alors que, sur le plan thématique, les articles sont dispersés sous plusieurs autres entrées.
[13]www. iht. com
[14]Notamment dans une recherche en cours par un groupe pluridisciplinaire pour le compte de la BPI, dont les résultats paraîtront au printemps 2002.
[15]Document numérique, vol. 4, n° 1-2, 2000.
[16]www. northernlight. com
[17]On peut noter également un effet intéressant produit par la convergence des outils documentaires destinés à la gestion de l’image et ceux destinés à la gestion du texte. Le système qui équipe le journal Libération par exemple, a d’abord été développé par IBM Italie pour la photothèque de La repubblica. Or, dans le traitement de l’image photographique, la notion de dossier numérique est particulièrement vivace, car le traitement de la photographie se fait au double niveau du reportage, comme unité documentaire, et de la photo. Par conséquent, le reportage est en tant que tel le dossier (la seule différence, mais elle est importante, entre ce dossier et le dossier d’actualité, est que, une fois fait, le reportage est clos, tandis que le dossier d’actualité peut être sans cesse incrémenté). Sachant organiser l’information selon cette logique, les logiciels documentaires n’ont aucun mal à utiliser ce type de structure pour gérer des images de texte, comme des coupures de presse numérisées ou des fichiers PDF par exemple.
© Cairn 2007 Vie privée | Conditions d’utilisation | Conditions générales de vente
À propos | Éditeurs | Bibliothèques | Aide à la navigation | Plan du site | Raccourcis
[1]
Sylvie Fayet-Scribe [FAY 00] fixe à la fin du XIXe siècle l...
[suite] Suite de la note...
[2]
On estime en général qu’il faut multiplier d’un facteur 1,5...
[suite] Suite de la note...
[3]
Cette prégnance de la source journalistique dans les docume...
[suite] Suite de la note...
[4]
Certaines recherches ponctuelles trouvent plus facilement l...
[suite] Suite de la note...
[5]
Plus généralement, dans le vocabulaire de la communication,...
[suite] Suite de la note...
[6]
Encore faut-il relativiser ce dernier point : si le papier,...
[suite] Suite de la note...
[7]
A titre d’exemple, et sans qu’il s’agisse d’une solution ex...
[suite] Suite de la note...
[8]
Gestion électronique de document, voir [BOD 92]. Ce type d’...
[suite] Suite de la note...
[9]
Encore conviendrait-il ici, dans une perspective opérationn...
[suite] Suite de la note...
[10]
Le feuillet est l’unité-type de l’écrit journalistique. Il ...
[suite] Suite de la note...
[11]
Il est important de noter ici que cette combinaison, et la ...
[suite] Suite de la note...
[12]
Dans le fonds documentaire de L’Express par exemple, on tro...
[suite] Suite de la note...
[13]
www. iht. com Suite de la note...
[14]
Notamment dans une recherche en cours par un groupe pluridi...
[suite] Suite de la note...
[15]
Document numérique, vol. 4, n° 1-2, 2000. Suite de la note...
[16]
www. northernlight. com Suite de la note...
[17]
On peut noter également un effet intéressant produit par la...
[suite] Suite de la note...
Un « dossier » d’actualité sur le site web du Figaro (capture du 25/11/01)
Résultats d’une recherche dans le moteur Northernlight. A gauche l’organisation des résultats en do...
[suite]
Icônes simulant un dossier ou la « caramallette » du service de courrier électronique caramail.com
Capture d’écran du site iht.com, montrant la possibilité de créer son propre dossier de consultation