Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2013/3 (Vol. 50)

  • Pages : 78
  • DOI : 10.3917/docsi.503.0042
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 42 - 59 Article suivant

L’inflation des données et les évolutions professionnelles

1

Enjeux. S’il est un domaine où la technique a contribué fortement à la mutation des métiers, c’est bien celui de la gestion de l’information. Depuis une trentaine d’années, les professionnels de l’information ont vu certaines de leurs compétences traditionnelles prises en charge par les outils informatiques et leur fonction de médiation remise en question par l’appropriation des technologies liées à Internet par le grand public. L’avènement du Big data va encore faire bouger le monde de l’information mais devrait offrir aussi de belles opportunités. Les contributions qui composent ce pôle viennent illustrer, entre fonctions classiques et postures novatrices, la façon dont les métiers ont été affectés - ou non - par ce nouveau contexte numérique et esquisser le possible devenir des métiers de l’information.

2

De nombreux facteurs concourent à l’évolution, à l’apparition ou la disparition, à la transformation des métiers et des professions. Au-delà des innovations sociales, du développement des besoins et des usages comme éléments moteurs de la mutation des métiers, il est évident que l’évolution technologique est aussi un ressort très important de ces changements. A fortiori lorsque l’on travaille dans un champ professionnel où la technique joue un rôle majeur dans le façonnage et la métamorphose des matériaux travaillés (entendus ici aussi bien au sens physique qu’intellectuel). Aujourd’hui, c’est le cas des professions de l’information - au sens large -, mais il n’en a pas toujours été ainsi. Au regard de l’ancienneté des techniques de la trace (graphisme, écriture), le fait de se faire aider par la machine pour traiter l’information (non chiffrée) est relativement récent si on considère, par exemple, les premiers travaux de mécanographie des années soixante. La mise en fiches, les opérations de rangement [1][1] On doit à l’historienne et sociologue Delphine Gardey... sont considérées comme secondaires [2][2] Ce qui se traduit aussi socialement par une hiérarchie... par rapport au travail intellectuel, scientifique qui consiste à décrire intellectuellement la matière informationnelle contenue dans les documents analysés ou conservés.

Un mouvement de professionnalisation

3

Les professions de l’information dans leur ensemble se sont aujourd’hui fortement technicisées, et ce, dans toutes les étapes de la chaîne du traitement de l’information qui va de sa détection à sa consultation sur des supports médiatiques et documentaires. A minima, écran oblige, il faut savoir user d’interfaces, de systèmes de commandes, d’outils de visualisation dont on a pu montrer qu’ils étaient rarement aussi « intuitifs » et « transparents » que les promoteurs de la technique voulaient bien nous le dire (et les vendre) [3][3] Cécile TARDY, Yves JEANNERET. L’écriture des médias....

4

A minima également, une culture informationnelle est nécessaire pour décrypter, comprendre, analyser la façon dont les documents et les informations ont été structurées, balisées, mises en forme pour leur « lecture » par les machines et les humains. A maxima, il faut soi-même « faire » : baliser, programmer, spécifier, développer, etc. Ce sont autant de savoirs techniques - ou de savoirs sur la technique - qu’il convient de mobiliser.

5

Entre les deux, des savoirs ou compétences spontanés se développent, par exemple chez les « digital natives », qui créent de nouveaux comportements d’accès, de consultation, de navigation dans les corpus informationnels. Ceci bien sûr du point de vue des usagers mais aussi des professionnels, avant qu’une profession ou qu’une spécialité ne se structure et se stabilise. Par exemple, il y a encore quelques années, la « profession » de community manager était surtout composée de celles et ceux qui, spontanément et par appétence, étaient devenus dans leur vie personnelle les champions du réseau social. On observe un peu le même phénomène pour les blogueurs.

6

Dans ce mouvement de professionnalisation, des questions récurrentes se posent : s’agit-il vraiment de nouveaux métiers ou de déclinaisons de métiers existants, d’avatars de professions anciennes, à l’instar de certains blogueurs qui cherchent à s’assimiler à la profession de journaliste en demandant la carte de presse ?

Les professions de l’information : des bouleversements en profondeur

7

Depuis une trentaine d’années, plusieurs phénomènes ont concouru à faire évoluer les professions de l’information et à brouiller les frontières entre les spécialités qui les composent mais dont il serait trop long et compliqué de retracer ici l’histoire.

8

Le premier phénomène notable est l’application à la sphère du travail intellectuel et, singulièrement ici, à celle du traitement humain de l’information de procédés « machiniques » qui étaient jusqu’à présent réservés au travail manuel, à la sphère du travail prolétarien. Là où la machine remplaçait en premier lieu la main, elle s’empare, sinon du cerveau, du moins de certaines opérations intellectuelles qui échappent du coup au jugement et à la maîtrise de l’individu. Les outils d’annotation, d’enrichissement, d’aide à l’indexation se substituent partiel lement à l’activité de description et d’indexation ; à l’autre extrémité du spectre, les moteurs de recherche, les outils de découverte, dans leurs versions les plus modernes avec des fonctionnalités telles que l’autocomplétion ou la navigation par facettes, « automatisent » la recherche d’information.

9

Le deuxième phénomène a trait à la numérisation croissante des sources et ressources. Les trois professions « classiques » de la gestion de l’information - archivistes, bibliothécaires, documentalistes - œuvraient en dehors de la chaîne de fabrication des documents, sur un matériau achevé dont les traitements répondaient à des impératifs différents : conservation patrimoniale, mémoire historique et culturelle, offre culturelle, analyse informationnelle, etc. Aujourd’hui, les applications documentaires peuvent se « brancher » directement sur les flux émis par les éditeurs, quel que soit le support envisagé (livres, journaux, disques, etc.). Les apports documentaires sont alors situés aussi bien en amont (métadonnées fournies par l’éditeur) qu’en aval de la chaîne (ajout de métadonnées spécifiques liées à la localisation ou à l’exemplarisation notamment). Dans le cas de l’archivage électronique, c’est dès la conception que le records manager ou l’archiviste doit intervenir à la fois sur les métadonnées de contenu et sur les éléments de process qui préciseront les données liées au cycle de vie du document.

10

Un troisième phénomène important est la concurrence apportée de l’extérieur par ce que l’on pourrait appeler les « savoirs profanes » de la gestion de l’information. La banalisation des technologies de l’information (TIC), l’explosion de l’offre à partir des médias informatisés, la multiplication des outils destinés au grand public ont créé toute une activité de recherche, de consultation, de qualification de l’information qui concurrence d’une certaine manière l’activité des professionnels et brouille les cartes. Par exemple, sur le terrain des organisations, l’usager intervient sur la base de ses représentations (vraies ou fausses, peu nous importe ici) et transpose ses pratiques personnelles dans la part de son activité professionnelle dédiée à la manipulation et à la gestion de l’information.

11

Le quatrième phénomène se situe dans le strict prolongement des précédents. Il s’agit de l’énorme prolifération des données provoquée, d’une part, par la documentarisation croissante des activités et, d’autre part, par l’accélération d’une production de données totalement automatique [4][4] Cf. Roger T. PÉDAUQUE. Le document à la lumière du....

Vers la représentation visuelle des données

12

Il fut un temps, pas si lointain, où se promener, prendre le métro, acheter un livre, avoir une conversation téléphonique familiale, ouvrir le réfrigérateur pour constater qu’on avait encore oublié d’acheter de la bière, converser entre amis à la terrasse d’un café ne produisait ni donnée ni information. Aujourd’hui - et nous en revenons à la technique -, c’est parce qu’il est appareillé (de son smartphone, de sa carte de transport, de sa carte de paiement, etc.) et cerné d’objets communicants (une « box », un compteur Linky, un ordinateur ou une tablette, demain « l’internet des objets » et un réfrigérateur connecté…) que l’individu devient - avec ou sans son assentiment - un pourvoyeur constant de données, dont l’analyse peut contribuer à fournir des informations utiles (et en tous les cas chèrement revendues).

13

La multiplication des instruments de mesure capables de prélever automatiquement plusieurs millions d’indications en temps réel sur n’importe quel phénomène physique (et désormais aussi social) concourt à gonfler cette masse colossale de données qui forme ce qu’on appelle le « Big data ». La différence, ici quantitative, appelle néanmoins des changements dans la manière de présenter l’information et, notamment, de produire des représentations visuelles par rapport à des masses telles qu’elles ne peuvent être appréhendées par la lecture. La « visualisation des données » suggère de nouvelles scénarisations et le travail conjoint d’analystes de l’information (statisticiens, data managers), de graphistes et de spécialistes du Web.

Avatars des métiers

14

Toute phase de transformation technologique possède ses pionniers, ses « bousculés », ses transfuges mais aussi, malheureusement, ses laissés pour-compte. À la manière des « sociostyles », un temps à la mode dans les années quatre-vingt, nous identifierons ici trois profils possibles.

15

? Les « classiques ». Il s’agit des métiers pour lesquels tout le mouvement actuel autour de la « donnée » se situe dans le prolongement de leurs activités antérieures et suit des évolutions « normales », inhérentes à leur pratique, et le plus souvent liées à l’évolution des outils ; statisticiens et informaticiens disposent ainsi de plus grandes puissances de calcul, de paradigmes de traitements différents, de nouvelles méthodes de travail tout en continuant à pratiquer le même métier. Ici, les dénominations restent classiques et les fonctions sociales et professionnelles stables.

16

? Les mutants. Pour d’autres professions, les mutations ne sont pas seulement en continuité avec les situations existantes ; elles contribuent à déplacer le cadre d’activité et à modifier notablement les façons de faire et les objectifs de l’action. Du point de vue du geste « technique », indexer un document ou taguer une page XML ne représente pas de différences fondamentales ; mais l’usage qui va ensuite être fait de ces actions peut varier du tout au tout et exige de la part de l’indexeur ou du catalogueur, une posture radicalement différente. Se projeter dans les usages de l’open data, par exemple, suppose de développer une vue « ensembliste », de réfléchir aux liens, aux relations, là où la posture traditionnelle demandait, au contraire, un traitement unitaire et une décomposition de l’information.

17

Plus qu’une mutation radicale, nous avons affaire ici à des déplacements, des changements de perspective. Dessiner une ontologie n’est pas fondamentalement innovant par rapport à la construction d’un modèle de données, mais cela participe d’une autre vision de l’information, de ses produits et de ses usages. Ici, le tâtonnement des représentations, le relatif brouillage des fonctions, le souci de coller à la modernité amènent souvent à changer ou à faire évoluer les noms de métiers (data manager).

18

Surtout, des métiers dont le cœur de l’activité n’était pas le « geste documentaire » adoptent les outils et techniques de la gestion de l’information et s’y adaptent. Que l’on songe à la police, par exemple, dont une partie des effectifs scrute en permanence le Web, lui-même devenu le terrain de nouvelles formes de criminalité.

19

? Les novateurs. Comme dans tout changement technique, les promesses d’innovation doivent être passées au filtre de la critique et il convient de faire la part des choses entre les discours promotionnels et l’intention marketing qu’ils recèlent, surtout de la part des éditeurs d’outils et des promoteurs de méthodes nouvelles. Il n’empêche que de nouvelles fonctions surgissent et appellent de nouvelles compétences ; il peut s’agir de recycler et de faire évoluer des profils déjà connus (c’est le cas des mutants) ou d’élaborer de tous nouveaux modes de fonctionnement. Il s’agit surtout d’explorer de nouveaux territoires d’activité, en dehors des filières traditionnelles.

Changement de perspectives

20

En définitive, tous les professionnels de l’information, dans leurs profils les plus classiques - archivistes, bibliothécaires, documentalistes - se trouvent confrontés à ces défis et changements de perspective. Ni plus ni moins que depuis les premières informatisations des catalogues et des fonds documentaires, dira-t-on. Oui et non. Une chronique de l’innovation dans ce secteur d’activité sortirait évidemment du cadre de ce dossier, mais la liste des ruptures serait nombreuse et donc, oui, on pourrait montrer que cette histoire est faite d’adaptations permanentes à de nouveaux outils, à de nouvelles méthodes, à de nouvelles techniques dont la logique de la « donnée » ne serait qu’un nouvel avatar. Mais également non, parce que ces évolutions amènent à « sortir du cadre » et à appliquer des compétences globales concernant le traitement de la donnée et de l’information dans des contextes économiques et sociaux relevant de paradigmes très différents et relativement nouveaux.

21

Dominique Cotte

« Les bibliothèques publiques entre stock et flux, objets et données »

22

Evolution. Mais que viennent donc faire les bibliothèques publiques dans le flux de données ? On les voit accaparées encore par leur stock matériel ; on voit bien des ordinateurs mais qui servent le plus souvent à une libre navigation sur Internet ; le numérique prend place dans quelques offres noyées dans des pratiques de masse qui semblent se rire des intermèdes traditionnels. Alors, les données… Cela fait pourtant beau temps que les bibliothécaires les formalisent, les manipulent, les créent, les échangent. On se doute que cette discipline-là évolue avec son temps. Le bibliothécaire de données, c’est le bibliothécaire catalogueur. Voilà toute l’affaire… Vraiment ? Pas si sûr. Cela mérite quelques détours.

23

Tapez le mot « bibliothèque » sur la recherche d’image de votre moteur de recherche habituel : vous croulez sous les rayonnages surchargés de livres, avec une domination des reliures en cuir pleine peau. Voilà pour l’image d’Épinal. Modifiez la requête de quelques lettres et choisissez « médiathèque » : vous voici d’un coup dans la modernité. Locaux spacieux, attrayants, mélange des supports. C’est tout l’effet, diablement efficace, du changement de mot qui a eu pour effet de briser une image traditionnelle, vieillie et intimidante.

Le flux n’est pas forcément celui que l’on croit

24

Mais avec l’arrivée du numérique, ces nouveautés ont pris un coup de vieux : ce ne sont que des documents physiques. Du stock ? C’est ainsi qu’on le conçoit généralement. On parle de « collections », mot chargé de fortes connotations conservatrices, et on fait comme si elles devaient grossir sans cesse : on parle de « plan de développement des collections », « d’accroissement des collections ». Et pourtant…

25

Hormis les fonds patrimoniaux, rares, précieux ou spécialisés pour lesquels une mission locale de conservation est assumée, une « collection » n’est qu’un ensemble d’objets en sursis, composante d’une offre sans cesse renouvelée si on la veut attrayante, actualisée, de plain-pied avec les attentes de la population : bref, vivante. Et l’on sait, depuis que la Bibliothèque publique d’information l’a théorisé, que toute entrée d’un ouvrage doit s’équilibrer par la sortie d’un autre. Quelques réserves sont bien utiles ici et là [5][5] Comme la réserve centrale des bibliothèques de la ville... pour servir des demandes précises mais, en accès libre, il faut du frais. Du contenu frais, mais aussi de l’apparence fraîche : des classiques, oui, mais en édition récente.

26

À l’inverse, on peut considérer comme un stock ce qui est en permanence disponible sur Internet, soit par tous gratuitement, par péage ou par chapardage (ou partage non marchand, si l’on préfère), et par l’intermédiaire des bibliothèques notamment.

Du stock au service numérique

27

La question de l’accès au stock numérique se révèle, pour les bibliothèques publiques, assez redoutable. Beaucoup s’y mettent, même si c’est encore une minorité. Une partie d’entre elles peuvent afficher un certain succès auprès de segments de publics, mais le contraste est saisissant avec l’usage de masse numérique pratiqué par de larges tranches de populations.

28

La plupart du temps, la bibliothèque ne possède rien. Elle ne fait que fournir des accès, qu’elle se doit de sécuriser, à des documents accessibles en streaming ou téléchargement, la source demeurant sur les serveurs des fournisseurs. Les usages sont encore de niche et les modèles économiques balbutiants. L’offre commerciale qui pourrait passer par les bibliothèques est fragmentée : un peu de vidéo et de musique, de l’autoformation, de la presse. Le livre numérique va son pas de sénateur mais une initiative semble prometteuse à échéance 2014. Elle réunit éditeurs et libraires autour de Dilicom, l’organisme interprofessionnel gestionnaire du ficher exhaustif du livre, sous l’inadéquate appellation de « prêt numérique en bibliothèque » [6][6] https://dilicom-prod.centprod.com/documents/307-PN....

29

Inadéquate car l’utilisation des mots du physique pour désigner le numérique brouille les pistes plutôt que de faire sens. La bibliothèque ne possède plus, elle donne accès, souvent en donnant la main au portail du fournisseur. Elle repère, commente, éditorialise en ligne et permet même à ses usagers d’intervenir, de noter. Cela peut d’ailleurs concerner toutes les ressources, y compris et d’abord celles qui sont physiques.

Un changement de paradigme ?

30

En définitive, le métier de bibliothécaire de lecture publique est en train de glisser doucement de la gestion prioritaire des objets amassés localement à la médiation et à la facilitation d’accès à des ressources existant ailleurs et de plus en plus souvent choisies par les utilisateurs eux-mêmes.

31

Tout doucement, pour deux raisons. D’abord, les usages s’accumulent plus qu’ils ne se substituent : le physique est encore massif et ce serait ne pas servir le public que de le négliger. Ensuite parce que la posture professionnelle s’était installée dans la gestion d’un prétendu stock, choisi localement et que le public devait s’estimer heureux de découvrir ainsi sélectionné. Il lui faut s’adapter, ce qui prendra des années, à un nouvel écosystème où l’usager prend la main et entend se servir à loisir.

32

Dès lors, le « passage au numérique » signifie moins une extension des supports qu’un changement total de paradigme. La bibliothèque publique devient une source d’approvisionnement parmi d’autres, ce qui était déjà le cas dans le monde physique mais s’exacerbe avec le numérique. Le devoir d’encyclopédisme, qu’on avait cru, de la plus petite à la plus grande échelle, assurer localement, n’a de sens que du point de vue de l’usager. Et le premier devoir numérique est de rendre des services, sur place et à distance ; comme fait la banque ou la boutique.

33

Chacune des quelque 1 500 bibliothèques publiques françaises ne va pas se transformer en centre de traitement des données. Il va plutôt s’agir d’accompagnement souvent personnalisé, allant jusqu’à des services questions-réponse comme le coopératif Sésame ou le lyonnais Guichet du savoir.

Des catalogues aux métadonnées au web de données

34

Le catalogue aura probablement été une grande affaire pour les bibliothèques publiques, mobilisant temps et argent : l’argent des logiciels et matériels pour le gérer, celui des données elles-mêmes quand elles sont acquises auprès d’un fournisseur. Le temps passé était traditionnellement important. Cela se comprenant quand il s’agissait de taper une par une des fiches. Mais, malgré les formats d’échanges standardisés et des sources nationales et privées à disposition, l’artisanat local du catalogage a souvent subsisté, d’abord au mépris des possibilités de récupération de données, puis en procédant après récupération à des rectifications locales.

35

Finalement, les catalogues ont été pensés localement, même si des produits importés servaient à leur fabrication. Ils étaient comme le double de la « collection » ; on voit à quel point ce n’est plus de saison.

36

Les données bibliographiques, qui sont des métadonnées parmi d’autres, pourraient être considérées comme des biens communs. Elles constituent en tout cas des références communes renvoyant les spécificités locales maintenues à grands frais au rayon des accessoires obsolètes.

37

Avec le livre numérique, les métadonnées peuvent certes accompagner la ressource elle-même. Mais il y a déjà plus de 20 ans que les bibliothèques peuvent acquérir des documents sonores ou vidéo avec leurs notices bibliographiques chez le même fournisseur tandis que la BnF et plusieurs fournisseurs privés proposent tout ce dont on peut rêver pour les livres imprimés.

38

Là encore, le numérique exacerbe une réalité déjà là qui demande au fond, pour la plupart des équipes de bibliothèques, de faire le deuil de la production ou de la correction locales de métadonnées.

39

Quand le grand public tape sur un moteur de recherche les coordonnées d’un livre, il tombe généralement sur ceux qui sont devenus les diffuseurs de masse des données bibliographiques : les librairies en ligne et Google pour son service Googlebooks. C’est une sorte de défaite de la profession qui ne sera pas relevée seulement par une contribution collective, mais surtout par la contribution des grands établissements et réseaux au web de données. Ce dernier pourrait enfin donner sa pleine puissance à la notion tellement « bibliothécaire » d’« autorité ». Ces accès contrôlés, façon univoque d’exprimer une personne physique ou morale, un sujet, un lieu, combien de bibliothécaires se sont épuisés à en maintenir la cohérence locale quand la question n’a plus de sens qu’à l’échelle globale ?

La médiation au centre des préoccupations

40

Si les bibliothécaires de lecture publique, en dehors des niches qu’il est légitime de s’attribuer localement, ont quelque chose à voir avec un traitement original et local de la donnée, c’est pour participer au mouvement d’Open data en libérant les informations qu’ils produisent eux-mêmes, à commencer par celles, non nominatives, sur leur activité : les statistiques !

41

Pour le reste, ils gagneront à disposer d’une véritable culture documentaire, j’allais dire de documentaliste, et non cet extrait qu’on a appelé la bibliothéconomie, pour aider leurs usagers à s’orienter dans l’univers numérique dans lequel désormais tout baigne et pour développer les services numériques sur place et à distance qui vont sans doute avoir plus d’importance que la simple fourniture d’œuvres, au demeurant souvent disponibles par ailleurs.

42

Et ceci sans négliger de mettre au premier plan, dans le cadre de ce qu’on appelle désormais le « troisième lieu » mais qu’on peut définir comme la fonction d’espace public de la bibliothèque, les plus essentielles et les plus complexes des données : les usages, les demandes, les interactions des utilisateurs eux-mêmes, en somme des personnes humaines !

43

Dominique Lahary

Le CDS : des données au service de la communauté scientifique

44

Valeur ajoutée. La capacité croissante des appareillages scientifiques se traduit par une inflation colossale des données de la recherche et, par voie de conséquence, par une autre façon de faire de la recherche. L’exploitation ou la ré-exploitation de ces gigantesques stocks de données offre un champ d’activités documentaires au sens large du terme. Dans un environnement aussi complexe et pointu que celui de l’astronomie et de ses disciplines, l’expérience montre toute la valeur ajoutée que peut offrir la mobilisation des documentalistes dans ces tâches, en association étroite avec les chercheurs et les

45

Le Centre de données astronomiques de Strasbourg (CDS) [7][7] Le CDS est une infrastructure de recherche labellisée... est probablement un point singulier dans le paysage national des données scientifiques : il a été créé en 1972, il y a plus de quarante ans, pour prendre en charge des données astronomiques sous forme électronique – une feuille de route bien en avance sur l’époque ! Cette mission était réellement visionnaire si l’on se réfère à l’un des débats abordés dans ce numéro : il s’agissait de collecter de l’information « utile » sur les objets astronomiques, d’améliorer ces données par des évaluations critiques et des comparaisons, de distribuer les données à la communauté astronomique internationale et de conduire des recherches utilisant ces données. Cette charte guide encore son action puisque ses mots d’ordre, « service à la communauté scientifique internationale », « pertinence » (par rapport aux besoins de cette communauté), « qualité » et « valeur ajoutée », sont toujours d’actualité. On est bien loin, et ce depuis le début de l’aventure, d’un simple silo de stockage et de conservation de données, mais au cœur des problématiques très actuelles de partage et de réutilisation des données scientifiques.

Une discipline pionnière

46

L’astronomie a été une discipline pionnière dans ce domaine, et plusieurs types de services de données sont à la disposition des chercheurs. Les agences qui financent les grands télescopes sol et spatiaux mettent les données d’observation à disposition de tous dans leurs archives, en général après une période « propriétaire » qui dure le plus souvent un an. Durant cette période, les chercheurs qui ont obtenu du temps d’observation sur appel d’offre - une compétition souvent extrêmement relevée - sont les seuls à avoir accès aux données et peuvent donc les exploiter en avant-première. Une base de données bibliographiques financée par la Nasa, l’Astrophysics Data System (ADS), couvre l’ensemble des publications de la discipline et fournit des liens vers les journaux électroniques, mais aussi vers des données « liées aux articles », par exemple les observations utilisées dans l’article qui sont disponibles dans les archives d’observatoires ou, comme nous le verrons plus loin, des données mises à disposition par le CDS. Des bases de données à valeur ajoutée, comme celles que développe le CDS, figurent aussi parmi les ressources majeures à la disposition de la communauté. De plus en plus, des services fournissant des données de modélisation complètent le dispositif. Ces services en ligne sont utilisés quotidiennement par les astronomes du monde entier dans leur travail de recherche.

47

Dès 1995, il a été démontré que l’utilisation des données de l’archive du satellite International Ultraviolet Explorer (1978-1996) avait produit cinq fois plus de publications scientifiques que l’exploitation initiale des données par les équipes qui avaient obtenu du temps d’observation. Ce genre de statistique montre que le partage des données augmente fortement leur impact. Plus généralement, la disponibilité des données modifie de façon très significative la manière dont on fait de la science au jour le jour. Le CDS a été l’un des acteurs de ce changement de paradigme pour la discipline, et ses services reçoivent près d’un million de requêtes par jour en moyenne.

Le succès d’une équipe « intégrée »

48

La qualité des services et leur pertinence par rapport aux besoins des utilisateurs sont des facteurs clé de la pérennité du CDS. Les activités nécessaires à la construction et à la maintenance des services ont plusieurs aspects : construction du contenu des bases de données, développement des systèmes de bases de données et des interfaces utilisateurs, opérations des services. Le succès du CDS sur le long terme repose pour beaucoup sur le fait qu’il s’appuie depuis l’origine sur une équipe « intégrée » qui rassemble plusieurs profils : des chercheurs, des documentalistes et des informaticiens. Les chercheurs connaissent l’astronomie et son évolution et les besoins des utilisateurs. Les documentalistes sont en charge de la création du contenu des bases de données. Les informaticiens créent les systèmes et les interfaces utilisateurs. À l’heure actuelle, environ 30 personnes travaillent au CDS, à peu près un tiers dans chacun des profils.

49

Le contexte dans lequel travaille le CDS est en perpétuelle évolution. L’astronomie s’enrichit continûment de nouvelles connaissances qu’il faut prendre en compte. Par exemple, la découverte de la première planète extérieure au système solaire a conduit à ajouter un type d’objet « exoplanètes » à la liste des types d’objets astronomiques répertoriés. Il faut aussi faire évoluer les services pour faciliter l’exploitation scientifique des nouveaux télescopes et des nouveaux instruments. Par exemple, quand un nouveau satellite observant une certaine gamme de longueurs d’ondes va être lancé, il est souhaitable de revisiter les données présentes au CDS dans ces longueurs d’ondes pour aider le mieux possible à l’interprétation des nouvelles données.

50

La technologie, qui joue un rôle essentiel dans ce type d’activités, change aussi sans cesse. Certaines nouveautés ont un impact majeur - l’irruption du Web vers 1993 a profondément modifié les méthodes d’accès aux services du CDS - mais d’autres ne sont que des feux de paille. Il faut savoir identifier celles qui seront utiles et suffisamment pérennes pour être incorporées dans les services, et donc mener des activités de R&D pour évaluer les technologies émergentes potentiellement intéressantes. Il faut aussi être capable de les mettre en œuvre assez rapidement, les utilisateurs s’attendant à retrouver dans leur environnement de travail des outils qu’ils utilisent couramment dans la vie quotidienne. Enfin, le volume d’information à incorporer dans les bases de données augmente constamment, et il faut améliorer les procédures pour rendre l’ingestion des données la plus efficace possible, sans jamais bien sûr sacrifier la qualité à l’efficacité. La définition de la stratégie du CDS pour faire face à ces évolutions et en tirer parti demande de rassembler les points de vue correspondant aux différents profils des membres du Centre de données.

Le rôle des documentalistes

51

Quel est plus précisément le travail des documentalistes ? Ils sont responsables de l’ingestion des données dans les 2 bases de données du CDS : Simbad, base de données de référence pour la nomenclature et la bibliographie des objets astronomiques et VizieR, base de référence pour les catalogues astronomiques et les tables publiées dans les journaux académiques de la discipline (voir encadré). Il faut ainsi lire chacun des articles publiés dans les revues, identifier les objets cités et leurs noms, chercher si l’objet est déjà répertorié dans Simbad et, sinon, demander sa création dans le Dictionnaire de nomenclature des objets astronomiques hors système solaire, maintenu également par le CDS. On peut aussi avoir à ajouter ou corriger des données, par exemple la position des objets ou leur éclat. Pour VizieR, l’ingestion des catalogues repose sur la création d’une description standardisée des lignes et des colonnes de tables, qui combine une information générale sur le catalogue avec une description détaillée de l’organisation et du contenu de la table, le type de chaque quantité ou information qui figure dans la table devant être identifié et décrit (la colonne N contient tel élément de la position de l’objet, la colonne NN contient l’erreur sur la mesure de la vitesse, etc.). Cette description standardisée, dont la définition a été proposée par le CDS, est partagée avec les journaux de la discipline.

Les ressources en ligne du CDS

Le site du CDS (http://cdsweb.unistra.fr) donne accès en particulier aux services Simbad et VizieR, ainsi qu’au Dictionnaire de Nomenclature des objets astronomiques hors système solaire.

Simbad, base de données de référence pour la nomenclature et la bibliographie des objets astronomiques, compte début juillet 2013 7 200 000 objets. Elle répertorie en particulier tous les noms des objets ainsi que les références des articles dans lesquels ces objets ont été cités, et compte à la même date 18 millions de noms d’objets et 9 800 000 citations de 280 000 références.

VizieR, base de référence pour les catalogues astronomiques et les tables publiées dans les journaux académiques de la discipline, compte plus de 11 000 catalogues.

Astrophysics Data System (ADS)

http://adsabs.harvard.edu/ ou http://cdsads.u-strasbg.fr/ (copie miroir)

ADS est la base de données bibliographique de référence en astronomie. Elle est pilotée par le Smithsonian Astronomical Observatory avec le soutien de la NASA.

Des compétences très pointues

52

On voit que ce travail exige une spécialisation très pointue en astronomie, en particulier pour tout ce qui concerne la nomenclature des objets et les types de données qui peuvent figurer dans les tables. Il faut aussi pouvoir évaluer si deux objets trouvés dans deux listes différentes (par exemple observés par des instruments différents) sont, ou ne sont pas, le même objet. Le point de départ pour acquérir ces connaissances n’est pas de connaître déjà l’astronomie, mais plutôt d’être à l’aise avec les données. Il faut évidemment aussi apprendre beaucoup de choses en astronomie, et entretenir ces connaissances pour se tenir au courant de l’évolution de la discipline. Le métier de documentaliste au CDS est d’ailleurs un excellent poste d’observation pour détecter les nouveaux thèmes de recherche, puisque qu’on examine l’ensemble des publications ! L’acquisition et la mise à jour des connaissances se font en particulier par des échanges entre les documentalistes et entre ceux-ci et les astronomes de l’équipe. On peut aussi suivre des cours de base en astronomie. Les contacts entre documentalistes et astronomes sont constants, avec des réunions et aussi des échanges sur les cas complexes, avec des astronomes « référents » qui répondent plus spécifiquement aux questions de l’un des documentalistes. Le CDS étant un centre de données généraliste couvrant tous les thèmes de l’astronomie hors du système solaire, chaque astronome a sa propre spécialité scientifique et est amené à intervenir dans le domaine qu’il connaît le mieux.

Un impératif : des procédures communes

53

Dans une équipe où plusieurs personnes participent à l’ingestion des données, la définition de procédures partagées par tous est un impératif pour assurer les meilleures homogénéité et qualité possibles. La documentation des règles à suivre et des procédures à employer est développée par l’équipe de documentalistes elle-même, celle sur les outils utilisés par les informaticiens qui en sont responsables, et celle concernant l’astronomie par les chercheurs. Elles sont partagées sur un site Twiki collaboratif [8][8] TWiki est un logiciel programmé en Perl qui utilise.... Cela va de la description des logiciels utilisés pour la mise à jour à des textes décrivant des questions d’astronomie en référence au contenu des bases, en passant par une liste d’objets dont les noms trouvés dans la littérature peuvent prêter à confusion, ou une liste de « trucs et astuces ». Des réunions sont aussi organisées pour discuter des pratiques de chacun.

54

L’une des difficultés majeures, en plus de celles liées à la complexité du sujet lui-même, est l’accroissement continu du volume de données à traiter. Le nombre d’articles publiés dans les journaux académiques augmente fortement, et le traitement informatisé des données produit de nombreuses listes d’objets ou de mesures. Il faut donc chercher constamment à améliorer l’efficacité du traitement des données, mais aussi veiller à préserver le plus haut niveau de qualité. L’une des pistes est de tirer parti des évolutions technologiques. Il y a encore 20 ans par exemple, les documentalistes saisissaient la liste des articles publiés dans les journaux, référence de publication, liste des auteurs et titre de l’article. Des accords avec les journaux ont permis de récupérer les tables de matières sous forme électronique. Ce sont elles qui servent maintenant à ingérer les références dans la base, ce qui a non seulement permis un gain de temps mais aussi une amélioration de la qualité en évitant les éventuelles fautes de frappe.

55

Nous développons aussi des outils pour faciliter certains aspects du travail, et permettre aux documentalistes de consacrer autant de temps que possible aux aspects où leur expertise est mieux mise en œuvre. Nous avons par exemple développé un programme, DJIN (Detection in Journals of Identifiers and Names), qui parcourt les textes des articles et réalise une première identification des possibles noms d’objets et des objets de Simbad qui pourraient correspondre aux noms identifiés. Les documentalistes vérifient les informations proposées, les valident, les complètent ou les corrigent.

Les métadonnées : un précieux apport documentaire

56

La longue histoire du CDS permet de voir la naissance d’un des métiers d’avenir pour les documentalistes qui travaillent dans un environnement scientifique : la prise en compte de données scientifiques avec une forte valeur ajoutée. Il s’agit d’identifier, de sélectionner, de vérifier, d’homogénéiser les données, et de créer des métadonnées permettant qu’elles soient réutilisées. C’est un métier qui a un très fort impact sur la recherche : la possibilité d’accéder à des données bien décrites, sous forme numérique, permet de les exploiter facilement. La disponibilité en ligne de tout un éventail de données, de celles observées par les télescopes jusqu’aux résultats publiés, en passant par des données de modélisation, a effectivement révolutionné les méthodes de travail des chercheurs de la discipline.

57

Le travail du CDS améliore également la qualité des données publiées : la description standardisée des tables publiées dans les journaux académiques permet de détecter des erreurs dans celles-ci et de proposer aux auteurs de les corriger. Ces vérifications du contenu, rendues possibles par le fait que l’information est numérisée et décrite, sont complémentaires de celles du referee de l’article.

58

C’est un métier en émergence mais qui devrait être appelé à se développer rapidement. De nombreuses agences de financement de la recherche, y compris la Commission européenne, adoptent comme principe de base que les données obtenues sur financement public doivent en règle générale être rendues publiques. Les documentalistes ont un rôle important à jouer dans le processus de partage des données, pour la mise en forme de celles-ci et la création des métadonnées. L’expérience du CDS, et plus généralement de l’astronomie, montre que cette prise en charge par des centres aux compétences disciplinaires utilisant des standards partagés permet une documentation, et donc une réutilisation, optimale des données.

59

Françoise Genova

Questions à Fabien Gandon, chercheur en informatique à l’Inria

60

Perspectives. L’avenir numérique appartient au web sémantique et au web de données. Fabien Gandon en esquisse ici les lignes directrices porteuses d’opportunités pour les professionnels de l’information.

61

• Selon vous, l’évolution actuelle du Web vers le « web de données » et le « web sémantique » est-elle un aboutissement des « promesses » de l’informatique ou le début de quelque chose d’entièrement nouveau ?

62

Les deux. C’est l’aboutissement de promesses passées : celles de la fin des années 90 où les architectes du Web ont commencé à étendre ses principes à d’autres ressources que les documents, celles des bases de données qui apportent des années d’expérience et de résultats sur la gestion et l’utilisation de gros volumes de données, celles enfin des systèmes à base de connaissances qui apportent méthodes et outils pour la représentations de connaissances notamment à base de graphes, de logiques et d’ontologies, etc.

63

C’est aussi le début de nouvelles problématiques et perspectives : comment gérer ces volumes de données encore jamais atteints en termes de taille, de distribution, d’hétérogénéité, de croissance, de dynamique ? Comment permettre à tout utilisateur d’interagir, contribuer et bénéficier pleinement de ces données ? Comment gérer la fiabilité, la sécurité, la confidentialité et l’authenticité et permettre la confiance ? etc.

64

Il me semble important de souligner que non seulement le web de données ou le web sémantique sont indissociables des autres facettes du Web, mais aussi que le Web est un artefact dont la complexité en fait un objet de recherche pluridisciplinaire. Comme beaucoup d’innovations, il s’agit à la fois d’un point de cristallisation dans l’état des connaissances et d’un point de vue nouveau pour des perspectives.

65

• Quelles sont les conditions pour un vrai décollage du web sémantique ? Aujourd’hui reviennent souvent les mêmes exemples et ne risque-t-on pas d’assister à une « massification des ressources » avec une omniprésence de certaines applications comme DBpédia par exemple ?

66

La centralité de DBpédia est essentiellement due au fait qu’elle fournit un formidable référentiel d’une grande couverture thématique permettant à de multiples autres sources de s’y référer et, à travers elle, de s’entre-lier. Notons par ailleurs qu’une fois liées à DBpédia – ou même sans passer par ce site -, elles peuvent établir des liens directs avec d’autres sources et ainsi décentraliser le nuage des données liées. Mais votre question pose un problème plus général. Lorsque j’ai fait mon premier cours sur le Web en 1995, l’un de mes co-promotionnaires m’avait posé une question qui revenait beaucoup à l’époque : « Le Web ne va-t-il pas tuer les langues comme le français au profit d’une suprématie de l’anglais ? » Je ne m’étais pas alors risqué à faire une prédiction mais, en suivant les évolutions du Web les années suivantes, je guettais des éléments de réponse. Je peux dire aujourd’hui que non seulement le français n’a pas été enterré et a créé de formidables corpus en ligne mais que des cultures minoritaires et souffrant de l’éparpillement de leurs membres se sont saisies de cet outil pour se fédérer et se redynamiser en ligne (par exemple la culture celtique). Ce que je retiens de cette anecdote, c’est que le Web est un espace nativement non centralisé et non censuré dans lequel se font et se défont rapidement des géants. Il suffit que quelqu’un propose une meilleure interface, une meilleure donnée ou un meilleur service pour que les vents du Web tournent. Qui se souvient aujourd’hui d’Altavista par exemple ? Je pense que les facettes du web de données et du web sémantique n’échappent pas à cette règle. Si demain une encyclopédie innove avec une nouvelle interface pour interroger vocalement et vocaliser les réponses sur mobile, ou si Freebase s’impose par sa qualité de données ou si un « Schemapedia » émerge, alors le Web tournera la page de leurs prédécesseurs. La prochaine base de données massive sur le Web viendra peut-être de Chine…

67

Ceci dit, cette possibilité ne doit pas masquer la nécessaire vigilance quant à la neutralité du Web, notamment par sa décentralisation. Je conclus souvent mes interventions en disant : « Demain, celui qui contrôlera les métadonnées contrôlera le Web » et le corollaire est qu’il nous faut activement maintenir différents sources de données et schémas indépendants pour éviter de centraliser ce pouvoir dans une seule main.

68

• Le web sémantique (WS) est pour vous un objet de recherche et un sujet scientifique et vous contribuez à la dissémination et à la vulgarisation sur ces sujets. Mais, au-delà de ces aspects, est-ce que le WS influence et transforme votre propre activité de chercheur ? Y a-t-il une nouvelle manière de faire de la recherche, de communiquer entre chercheurs, de partager les connaissances ?

69

Oui car certains outils sont maintenant suffisamment matures pour être mis en production dans nos propres processus de travail. Par exemple, le traitement des données de notre domaine est en train d’évoluer par le fait que DBLP [9][9] Digital Bibliography & Library Project est disponible dans les langages du web de données. À l’image du site SemanticWebDogFood qui fait référence à l’expression américaine « Eat your own dog food » nous enjoignant à nous appliquer à nous-mêmes les principes que l’on défend, les données des conférences sont disponibles dans les formats du web sémantique et nous permettent ainsi de les interroger pour construire des vues à la demande des domaines, sous-domaines, tendances, chercheurs, organisations, etc. D’autre part, l’habitude de publier, en même temps que nos articles, les données et les schémas produits ou utilisés par les travaux présentés, doit permettre aux chercheurs suivants de les réutiliser et de les étendre. En plus d’encourager l’interopérabilité, cette pratique trouve un second écho dans les méthodologies de recherche puisqu’elle facilite la reproductibilité des travaux, donc leur vérification et la comparaison en fournissant des jeux de données d’évaluation (benchmark) dans des formats standards.

70

• Pouvez-vous donner un exemple concret de la façon dont vous travaillez aujourd’hui, avec ces outils, par rapport à ce qui se passait hier ?

71

J’ai récemment eu à défendre la proposition de création de mon équipe de recherche Wimmics à l’Inria. Au cours de ce processus rigoureux, de nombreuses questions nous ont été posées sur nos méthodes, nos résultats, nos perspectives, notre équipe, etc. L’une d’entre elles concernait les coopérations effectives entre les membres de l’équipe. Parce que mon collègue et ami Olivier Corby maintient la bibliographie de notre équipe dans les formats du web de données, un élément de réponse fort a été obtenu grâce à une requête structurée dessinant instantanément le graphe des coopérations dans l’équipe. À cet exemple un peu spécifique s’ajoutent tous les cas mentionnés avant et que nous pratiquons au quotidien, notamment la publication et la réutilisation de schémas et données.

72

• En matière de recherche, le rôle des professionnels de l’IST a toujours été important pour la mise à jour des connaissances. Cependant, le modèle de la bibliothèque scientifique a été fortement impacté par le numérique, le Web, les moteurs de recherche. Pour ces professionnels, le WS constitue-t-il une opportunité ou une menace ?

73

À mon humble avis, les deux. Je donne ici une opinion personnelle et peut-être naïve. C’est une menace si les professionnels du domaine se coupent du WS et c’est une opportunité s’ils l’intègrent comme une évolution de leur fiche de poste. Je m’explique. S’il est vrai que le Web a énormément modifié les demandes et moyens d’accès aux documents, il a aussi créé de nouveaux usages non seulement d’un point de vue documentaire (par exemple aide à la veille, aide à l’édition et la publication en ligne, besoin de certification, etc.) mais aussi en étendant ces problématiques à d’autres ressources numériques. Prenons le cas de la donnée. Certains articles dans mon domaine sont très cités, notamment parce qu’ils sont accompagnés de la publication d’un jeu de données ou d’un schéma. Chaque article qui les réutilise ensuite doit citer l’article ayant introduit cette ressource. Se pose alors la question de la gestion de ces données et schémas, de leur maintenance, leur recherche, leur veille, leur indexation, leur certification, etc. Il y a un cycle de vie de la donnée comme il y a un cycle de vie documentaire. En élargissant la notion de publication à tout le domaine des ressources numériques, on étend la gestion du cycle de vie à l’ensemble des ressources numériques publiées sur le Web. Et les professionnels de l’IST me semblent bien placés pour maîtriser les méthodes et outils d’un tel cycle.

74

• Et du côté des informaticiens, ces innovations ont-elles un impact sur leur rôle, leur métier, leur façon de se former ?

75

Oui, ne serait-ce que parce que le web sémantique et le web de données deviennent une spécialité de certaines filières. Mais aussi parce que la donnée, aux côtés des algorithmes, est l’un des deux piliers de l’informatique et que le web sémantique et le web de données modifient son accessibilité. Là où il nous fallait trouver des moyens d’acquérir et de maintenir la donnée (obtenir tous les aéroports pour une application de réservation de vols, par exemple), nous pouvons maintenant interroger le Web à la volée. Les problématiques sont alors l’authentification de sources, la certification de leur qualité, leur fédération pour propager les mises à jour, etc. En universalisant l’architecture de publication et d’accès à la donnée et à ses schémas, le Web peut potentiellement impacter tous les domaines informatiques puisque, à ma connaissance, tous sont susceptibles de vouloir un jour consommer ou contribuer à ces données, qu’elles soient ouvertes ou exploitables à travers des accès contrôlés.

76

Propos recueillis par Dominique Cotte

77

Fabien Gandon

L’analyse des données par la cartographie

78

Visualisation. Les outils cartographiques, qui ne cessent d’évoluer, permettent d’appréhender des corpus de données volumineux. Associés au design interactif, ils donnent des résultats étonnants. Entretien avec deux spécialistes de la veille.

79

• Votre activité s’inscrit dans le domaine de la veille et, à ce titre, vous êtes habitués à effectuer une collecte partiellement automatisée de données et d’informations. Pouvez-vous définir en quelques phrases les grandes évolutions que vous observez dans cette activité ?

80

Dans le sillage du web 2.0 et de l’utilisation des réseaux sociaux dans un contexte professionnel, nous avons vu apparaître de nombreux services pour faire face à la masse sans cesse croissante d’information disponible en ligne. En parallèle à cet outillage, des changements plus profonds se généralisent : l’ouverture des jeux de données publiques et privées avec des normes et des standards qui simplifient leur traitement ; un accès facilité aux services tiers grâce aux interfaces de programmation (API) ; l’enrichissement sémantique des contenus, par le biais des métadonnées, qui permet d’effectuer des requêtes plus précises ; un recours croissant aux méthodes algorithmiques telles que le traitement automatique des langues, la catégorisation automatique, l’analyse des réseaux, la théorie des graphes, etc.

81

• L’un des points importants aujourd’hui pour mettre en valeur les données est lié à la visualisation (data visualization). Pourtant, le logiciel Tropes que vous utilisez permet depuis longtemps la cartographie de l’information. Là encore, voyez-vous une dimension nouvelle, en termes d’outils, d’usages, de pratiques, aussi bien du côté du veilleur que de son client ?

82

Les changements évoqués précédemment impactent la façon d’extraire, de traiter, de stocker et de restituer l’information. Aujourd’hui, une partie de notre activité consiste à faire de l’analyse de contenu, par le biais de la fouille de textes et de la cartographie d’informations. Les nouveaux outils vont chercher à proposer des interfaces plus travaillées, centrées sur l’utilisateur, qui tiennent compte des nouvelles possibilités offertes par les technologies actuelles. C’est dans cette optique que nous avons développé, en partenariat avec la société Bakasable [10][10] http://www.bakasable.fr, la « Bakamap », une application cartographique en ligne (voir ci-contre) qui permet de naviguer de manière interactive dans des corpus, traités dans un premier temps avec les logiciels Tropes (pour l’analyse de contenu) [11][11] http://www.semantic-knowledge.com et Gephi (pour la spatialisation) [12][12] https://gephi.org.

83

• Vous évoquez le fait que l’aspect design, présentation de l’information, devient primordial et qu’il faut travailler avec les professionnels du design interactif. C’est la rencontre avec les professionnels du Web. Comment se fait ce travail en commun ? Qu’apporte-t-il aux professionnels de l’information ? Et à l’inverse, qu’exige-t-il d’eux ?

84

La mise en scène de l’information, et plus précisément l’analyse de celle-ci, deviennent un enjeu majeur dans un environnement économique complexe et difficile. Pour cela, il nous paraît important de s’associer avec des personnes ayant des compétences dans le domaine du design interactif. En tant que professionnels de l’information, nous nous préoccupons de notre côté du contenu et de sa qualité ; la société Bakasable prend en charge sa mise en forme et sa mise en scène. Le travail issu de cette collaboration permet d’arpenter rapidement et, surtout, de façon plus intuitive que sous forme de listes ou d’agrégats, de vastes champs de données ou de connaissances.

85

• Le veilleur ou l’analyste va devoir, de plus en plus, jongler avec plusieurs applications : pour la collecte, pour le traitement et stockage en base de données, pour la transformation des données et leur publication dans des formats ouverts. Cela signifie-t-il une technicisation accrue du métier ? Comment les professionnels de l’information doivent-ils se former à ces nouvelles pratiques ?

L’application bakamap

Les 3 captures d’écran montrent le résultat de l’analyse d’un corpus avec les logiciels Tropes et Gephi. Le corpus est issu de 60 sources de la presse spécialisée dans le domaine des TIC, sur une période donnée. L’utilisateur a la possibilité de générer des cartes (Ecran 1) sur une période d’un ou plusieurs mois consécutifs (ici d’octobre 2012 à juin 2013). Il est ainsi possible de naviguer dans des cartes mois par mois.

Chaque nœud correspond à un terme défini dans le logiciel Tropes pour l’analyse du corpus (Ecran 2). La taille des nœuds reflète le nombre d’occurrences de la technologie ou de la classe sémantique sur la période sélectionnée. L’emplacement des nœuds sur la carte est calculé à l’aide de l’algorithme « Force Atlas 2 » que l’on retrouve dans le logiciel Gephi.

Des graphiques (Ecran 3) permettent notamment de voir l’évolution d’une technologie sur la période traitée.

Ecran 1Ecran 1
Ecran 2Ecran 2
Ecran 3Ecran 3
86

Sans chercher à devenir un expert, il est bon de comprendre les mécanismes de base qui tournent autour du Web et des données.

87

On peut se former dans un premier temps à tout ce qui touche au stockage, à la structure et à la manipulation de données : bases de données et langages de requête, technologies XML, API et architecture REST, technologies du web sémantique, etc. Pour compléter, on peut ensuite appréhender les langages de script tels que Bash (interpréteur en ligne de commande sous Linux), Javascript, Python ou VBA (Excel). Ces langages permettent de mettre en place des chaînes de traitement en combinant les fonctionnalités de différents outils. Pour aller encore plus loin, on pourra enfin s’intéresser aux méthodes liées aux traitements algorithmiques : analyse des réseaux, traitement automatique des langues, statistiques, apprentissage automatique, etc. Avoir des connaissances de base dans ces différents domaines peut suffire pour mettre en place soi-même des solutions complètes qui fonctionnent avec des solutions libres ou des services gratuits, voire à faibles coûts.

88

En ce qui concerne la formation, on trouve une multitude de ressources en ligne ; encore plus aujourd’hui avec l’arrivée des cours en ligne ouverts et massifs.

89

• Comment les techniques de représentation par les graphes, le web sémantique, renouvellent-ils la notion classique en veille de « signaux faibles » ?

90

L’analyse de contenu se caractérise par la possibilité de traiter des corpus de tailles importantes, afin d’y déceler l’information primordiale ou d’identifier les relations qui font sens entre des documents ou des entités. La reconnaissance d’entités nommées au sein d’un corpus permet l’extraction des concepts clés qui peuvent ainsi être visualisés ou requêtés. Nous sommes dans une approche exploratoire. Pour détecter l’émergence d’un élément ou un changement d’état, on peut procéder de manière purement algorithmique, auquel cas la représentation n’est pas primordiale (« Montre-moi uniquement les informations dont j’ai besoin ») mais, le plus souvent, une intervention humaine est nécessaire pour identifier les signaux faibles.

91

La représentation visuelle facilite notamment le suivi temporel d’une activité. La détection des éléments qui se démarquent (« outliers ») va pouvoir se faire sur leur position dans l’espace, leur couleur (teinte distincte par exemple) ou leur forme. On a recours à des algorithmes de partitionnement qui, une fois achevés, laissent apparaître des grappes de nœuds où se rassemblent les éléments qui partagent des similarités. On peut être autant intéressé par l’analyse de ces regroupements que par celle des nœuds isolés ou ceux situés à l’écart ou au croisement de grappes.

92

Le recours au stockage en bases de données orientées graphes ou dans des triplestores (pour le web sémantique) peut s’avérer très utile pour l’analyse, car cela permet d’effectuer des requêtes beaucoup plus précises.

93

• En tant qu’organisme consulaire, travaillant en étroite liaison avec les entreprises de votre région, vous êtes bien placés pour voir les évolutions des besoins des entreprises. Est-ce que les perspectives du web de données et du web sémantique leur sont familières ou est-ce que ce sont des thèmes qui concernent plus les données de la culture, de la science ?

94

Nous sommes encore très loin de ces préoccupations pour nos entreprises. Néanmoins, leurs besoins évoluent. Nous n’en sommes qu’au début et nous les engageons vers cette voie. Aujourd’hui, nous nous efforçons de démontrer, au-delà de la capitalisation des informations, l’intérêt d’analyser celles-ci et de représenter cette analyse par des technologies ou moyens innovants. Tout ceci dans l’objectif de mieux les accompagner dans leur prise de décision, et de faire de l’information un levier de compétitivité et de différenciation.

95

• Que provoque l’intégration de nouvelles sources ou flux d’information comme Twitter, les données de géolocalisation, etc. ? Les mouvements de l’usager lui-même deviennent une ressource, peut-on dire que le brassage de ces flots de données fournit une information de type nouveau ?

96

La plupart du temps, un internaute ou une entreprise qui utilise des services du web 2.0 laisse des traces consultables par d’autres. Ainsi, surveiller les nouvelles mises en relation d’un compte ou le changement de statut sur des services tels que LinkedIn, Viadeo ou Twitter peut s’avérer utile pour un veilleur. Les informations publiées en ligne sont de plus en plus souvent accompagnées de métadonnées, même si nous n’en sommes pas conscients. Dans bien des cas, elles peuvent être récupérées par le biais d’API : données de géolocalisation des tweets sur Twitter, données « analytics » sur Youtube, etc.

97

On peut également s’intéresser aux données à un niveau global, comme le propose Google Trends [13][13] http://www.google.com/trends qui permet de comparer l’évolution des tendances de recherche de termes sur Google sur une période donnée.

98

Le mouvement autour des données (open data, web de données, informatique dans les nuages, Internet des objets) contribue à cette mise à disposition de jeux de données massifs. Pour donner un exemple, le projet Common Crawl [14][14] http://commoncrawl.org a pour but de mettre à disposition en libre accès une archive du Web (plus de cinq milliards de pages) dont on peut se servir à des fins d’analyse. C’est ce jeu de données qu’a utilisé la société Data Publica, en 2012, pour réaliser une cartographie des acteurs francophones de l’open data[15][15] http://fr.slideshare.net/datapublica/mapping-frenc....

99

Propos recueillis par Dominique Cotte

100

Jean Dufour

101

Christophe Willaert

« Fournir une vision agrégée et cohérente de l’information »

102

Industrie. Depuis quelques années, une approche par le produit (product life cycle management) se manifeste dans les grands secteurs industriels comme l’aéronautique, l’automobile ou la défense. Les « données produits » sont une des trois composantes des données identifiées dans l’activité de master data management (MDM ou GDR pour gestion des données de référence), les deux autres étant les données « clients/fournisseurs » et les données financières.

103

Dans le monde industriel, le concours de nombreux métiers et spécialités est primordial, ce qui pose plusieurs problèmes sur le plan de la gestion et de la communication de l’information.

104

En premier lieu, chaque métier dispose de ses outils, correspondant le plus souvent à l’une des phases du process général de la fabrication des produits : conception, tests, fabrication, mise en production, commercialisation. Cela implique que chacun ait une vision particulière à partir de sa position dans la chaîne et que les mêmes éléments étudiés soient vus différemment selon l’angle de vue où l’on se place.

105

En deuxième lieu, et ceci est une autre facette du même phénomène, la façon de décrire les informations et les objets à chaque moment du process peut être différente puisqu’elle peut faire appel à des vocabulaires ou des référentiels distincts. On évoque donc parfois des choses différentes, et parfois on évoque les mêmes choses en en parlant différemment. De ce point de vue, la gestion des données produit rejoint d’autres aspects de la gestion de l’information que l’on peut voir dans d’autres secteurs, comme le recours à la création d’ontologies pour modéliser des connaissances métier.

106

En effet, tout le monde sera d’accord pour dire qu’une entreprise possède des clients et des fournisseurs, mais la façon de décrire ce client et ce fournisseur ne sera pas toujours la même entre, par exemple, les équipes chargées de la production et celles chargées de la facturation. Pour les premières, les données concernant les fonctionnalités du produit fourni, son prix d’achat, sa garantie, son obsolescence sont primordiales alors que, pour les secondes, des données plus macro sur l’entreprise fournisseur, son groupement, son appartenance à telle ou telle société auront plus d’importance sans aucun doute.

Une chaîne d’outils pour concourir à la rigueur de l’information

107

Les grandes entreprises industrielles sont conscientes de ce phénomène et leur souci de rationalisation les a amenées à chercher, parmi les outils proposés par les éditeurs de logiciels, ceux qui étaient le plus susceptibles de « lisser » cette représentation des données et de fournir une vision agrégée et cohérente de l’information, selon les acteurs et selon les moments. C’est un peu la promesse des logiciels d’ERP (Enterprise Resource Planning) [16][16] En français PGI pour progiciel de gestion intégrée dont l’un des plus connus est SAP. Mais la quantité, la complexité et l’hétérogénéité des données à mobiliser peuvent-être telles qu’il est ensuite très difficile d’exploiter les données consolidées dans l’ERP. Par ailleurs, SAP est un outil complexe dont le paramétrage et l’exploitation nécessitent des compétences informatiques assez aigues.

108

C’est pourquoi il convient d’intervenir en amont de l’ERP, à l’aide d’outils de master data management. Le rôle du product data analyst (PDA) concerne les aspects « données produits » de la gestion des données de référence et s’inscrit dans la logique de cycle de vie du produit. Les données sont d’abord créées dans un outil de product life cycle management (PLM), qui va concentrer les données techniques, les nomenclatures, etc. Cette base de données est l’un des instruments qui va servir à alimenter l’ERP, avec pour enjeux de garantir l’unicité des données, leur qualité, leurs règles de mise à jour.

Data manager, un métier d’administration

109

En définitive, le travail du data manager dans l’industrie s’apparente beaucoup à celui d’un administrateur de bases de données. Il s’agit notamment de définir qui est propriétaire de la donnée, de concevoir et d’implémenter des modèles de données répondant de manière précise aux différents besoins des acteurs de l’entreprise, de gérer des droits d’accès et des rôles, etc.

110

Dans le cas présent, son rôle a été de rédiger des spécifications pour la création d’une requête multimétiers. Ceci implique de travailler à une véritable expression de besoins de la part de chaque métier, de faire valider des éléments de requête puis de les transmettre à l’administrateur de l’ERP qui, de son côté, vérifie la faisabilité de la requête et propose des modèles de présentation des extractions de la base ou des résultats des requêtes. Ceci implique également un contrôle jusqu’à la mise en production, à l’intention des utilisateurs, dans la base à laquelle ils ont accès : vérification du fonctionnement des requêtes, communication sur la disponibilité du service, production de la documentation associée pour aider l’utilisateur à formuler ses interrogations et utiliser l’outil.

111

L’expérience a montré que nous avions tout intérêt à éclater la requête en plusieurs requêtes métier.

112

Par exemple, pour le service responsable des stocks et les relations fournisseurs, nous allons gérer les données via le « métier » MRP (Material Requirement Planning) et, plus particulièrement, le planned delivery time (PDT) qui est calculé par grande famille de produit. Cette information permet de faire une alerte de réapprovisionnement automatique d’un produit manquant en incluant tous les temps de traitement internes et externes. Pour le service responsable de la logistique et des douanes, nous allons gérer les données des codes douaniers, des catégories d’exportation (liés aux droits de douanes), etc.

113

Ce faisant, on renforce au passage la sensibilisation et la formation des usagers à ce besoin crucial d’harmoniser le traitement des données et des vocabulaires. L’objectif est que ce traitement des données dans un même et unique outil permette ensuite de les réintégrer, en conservant leur intégrité, dans les outils métier tout au long du processus. Ainsi, cette référence à une donnée unique est comprise par tous, même lorsque les applications « d’aval » ne partagent pas le même modèle de référence. Du coup, le traitement de la donnée devient un processus en soi qu’il faut manager, ce qui passe par la mise au point et l’utilisation d’indicateurs clés de performance.

Un métier de gestion de l’information

114

Bien que s’appliquant ici à une réalité industrielle et à une logique de produits, les règles de gestion de l’information répondent aux exigences de tout traitement de données, quelles qu’elles soient. Les données doivent nécessairement être contrôlées au moyen de référentiels qu’il faut concevoir, faire vivre et partager. Elles doivent elles-mêmes être décrites (par des métadonnées, terme pour une fois utilisé selon son sens véritable : données sur les données) selon leur genre, leur nature, leur historique, leur auteur. L’administration des données suppose effectivement une approche réflexive afin de comprendre pourquoi tel ou tel choix a été fait à une époque, quelle est l’origine de la donnée, quelle est sa vocation originale, etc.

115

Une notion importante dans ce contexte est celle des data guidelines (lignes directrices) qui assurent la conformité du système avec les règles générales, les standards, l’horizon d’application et la stratégie définie autour du système. Par exemple, ce sont les lignes directrices qui définissent la « propriété » de l’information, notion importante car elle indique quelle vue métier doit prévaloir. Ainsi, on dira que les données financières n’appartiennent qu’au département Finances, qui en est le référent. Ces règles sont implémentées dans l’outil en définissant des règles logiques qui sont exécutées par des routines (par exemple, définir des champs obligatoires et prévoir des messages d’erreurs s’ils ne sont pas remplis, requérir une validation par un responsable avant de sauvegarder les données).

Un métier de communication

116

Mais, dans ce monde industriel où l’information a une valeur fortement opérationnelle, la donnée n’est pas seulement là pour informer, elle sert aussi de support à des actions, à des déclenchements d’étapes dans les processus et les workflows. Par conséquent, on peut lui donner un caractère encore plus opérationnel, intimement lié au cycle de vie du produit dès lors qu’on lie la phase de récupération des données dans les différentes bases de données Product master management, en la rendant obligatoire pour obtenir l’aval du passage à la phase supérieure de développement. Par exemple, on ne déclarera un produit à l’état vendable que si on dispose de son prix de vente.

117

Ce pilotage - au sens fort - par la donnée n’a pas été accepté facilement par les équipes. Plus généralement, il s’agit de « tirer l’amélioration » en recourant à une vision basée sur la complétude des données et leur activation au moment voulu à travers le workflow associé. C’est un rôle charnière, au confluent de plusieurs activités et métiers, qui suppose un travail de médiation constant. Il convient d’être en permanence en liaison avec les différents acteurs, par le biais de réunions, afin d’identifier l’évolution des données associées aux process, de dresser la liste des actions à mener, d’évaluer en retour les effets des décisions prises, de documenter et communiquer sur les « how to handbooks », de tester, de valider les requêtes, etc.

118

Dans ce travail constant d’ajustement, l’« enrôlement » de l’utilisateur est primordial ; il s’agit d’impliquer de manière grandissante les utilisateurs opérationnels dans la conception et la structuration des systèmes d’information, dans une perspective de meilleure adaptation aux besoins et d’adéquation à la stratégie du métier, voire de l’entreprise.

119

Témoignage recueilli par Dominique Cotte

120

Diane Sciandra

« Data journalisme : nouvelles pratiques et imaginaire des acteurs »

121

Média. Pour certains journalistes, le data journalisme représente « l’avenir en marche »[17][17] Éric METTOUT. « Pourquoi le data-journalisme, c’est.... Pourtant, aucune rédaction française n’a mis sur pied de structure dédiée. Comment expliquer cet écart ? Le data journalisme est-il vraiment compatible avec les représentations qu’ont les journalistes professionnels de leur métier ?

122

Le 20 juin dernier se tenait à Paris la seconde édition des « Data JournalismAwards », signe que le data journalisme s’institutionnalise à l’échelle internationale… et française. Seuls deux travaux français - par ailleurs primés - étaient en lice : « Le marché de l’art pour les nuls » [18][18] http://quoi.info/actualite-culture/2013/04/05/data... par quoi.info (rédaction web) et « Le Pariteur » [19][19] http://appli-parite.nouvelles-ecritures.francetv.f par We Do Data (start-up de visualisation de données). Tandis que la BBC, La Nación (Argentine) ou Reuters étaient récompensés, les grands médias nationaux français semblent rester à quai.

123

Comment expliquer ce décalage entre médias français et internationaux ? Plusieurs arguments, que cet article tentera d’évaluer, peuvent être avancés :

  • Le data journalisme est porté par des acteurs non journalistes, entraînant de facto une défiance de ces derniers.

  • Via le maniement de données « brutes », ses promoteurs prétendent à une objectivité supérieure, niée et moquée par les journalistes.

  • Les pratiques et réalisations du data journalisme remettent en cause certains acquis du journalisme professionnel.

Un mouvement porté par des entrepreneurs du Web

124

Aux États-Unis [20][20] Maël INIZAN. « Chicago : de la prohibition au datajournalisme »...., le data journalisme s’est développé grâce à l’investissement du champ journalistique par certains acteurs issus du logiciel libre. Sous l’impulsion de figures emblématiques [21][21] En particulier Adrian Holovaty, qui rédige en 2005..., les grands titres constituent des équipes dédiées et les intègrent au sein des rédactions. En France, le schéma diffère. Le data journalisme y est porté par des entrepreneurs du Web, intéressés par le journalisme : Nicolas Kayser-Brill (ex OWNI, fondateur de Journalism++), Caroline Goulard (fondatrice de Dataveyes), Nicolas Vambremeersh (ex-blogueur politique, fondateur de Spintank), Karen Bastien (ex-Libération, fondatrice de We do Data).

125

Après une hésitation entre différentes terminologies, « databasejournalism », « data-drivenjournalism », « journalisme de données », « data journalisme », c’est la dernière qui l’emporte, intégrant le terme « data » dans une expression francisée. L’universitaire Sarah Labelle explique que ce terme est alors « réquisitionné » [22][22] Sarah LABELLE. « “La société de l’information” : formule,... : l’expression s’impose dans l’espace public sans que l’on puisse précisément le définir (comme « société de l’information » ou « développement durable »). Ce phénomène de « réquisition » a au moins deux conséquences.

Le premier argument exposé plus haut est donc très recevable : l’initiative, portée par des acteurs non journalistes et ne se déroulant pas au sein du champ journalistique, est plus éloignée de la corporation journalistique qu’aux États-Unis par exemple. Pour autant, rien n’empêcherait les journalistes, séduits par les pratiques et réalisations de data journalisme, de s’en emparer. L’explication est peut être à trouver ailleurs.

La figure centrale du médiateur ou l’impossible critique objectiviste

126

Certains promoteurs n’hésitent pas à vanter une plus grande objectivité : la mission Étalab, mission gouvernementale en charge de l’open data, justifie le data journalisme par « l’exigence d’une information incontestable, qui s’appuie sur des éléments objectifs » [27][27] http://www.data.gouv.fr/Articles/Datajournalisme-D....

127

L’affirmation n’est pas isolée. Elle repose sur l’idée qu’il existe des « données brutes, neutres » [28][28] Entretien avec Pierre Romera (co-fondateur de Jour..., qui permettraient de limiter la subjectivité. Aussi, certains journalistes n’hésitent pas à dénoncer « une tendance à vouloir objectiver à outrance la réalité » [29][29] Jean-Christophe FÉRAUD. « Le “data journalism” contre....

128

Pourtant, plus qu’une foi aveugle dans les données « brutes », ces discours sont à comprendre comme une volonté de se tenir à l’écart d’un « journalisme français qui est dans le commentaire permanent, dans l’opinion » [30][30] Entretien avec Caroline Goulard.

129

Lorsque les acteurs parlent de « données brutes », ils ne nient pas le système de donation de la donnée - catégorisation, production, visualisation - mais militent pour des données traçables et documentées, qui facilitent le travail d’analyse. Car c’est là le principal rôle que se donnent les data journalistes : « Chercher l’information dans les bases de données et la restituer de manière compréhensible au grand public » [31][31] Ibid., se plaçant dans un rôle de médiateur.

130

Pour cette raison, certains journalistes professionnels ont vu d’un assez bon œil les perspectives ouvertes par le data journalisme : en remettant la médiation experte au cœur du travail journalistique, elles battaient en brèche les promesses du « tous journalistes » longtemps à l’œuvre sur le Web [32][32] Franck REBILLARD. Le web 2.0 en perspective. L’Harmattan,.... D’autant que beaucoup de réalisations ont renouvelé la figure du journaliste d’investigation, en mettant la lumière sur des zones d’ombre du pouvoir [33][33] Par exemple aux États-Unis, ce travail de Mickael Berens....

131

Aussi, la critique objectiviste n’est certainement pas la plus à même d’expliquer le décalage pointé en introduction. Elle a cependant le mérite de soulever une question importante : qui est le plus légitime pour exercer cette médiation experte ?

Des éléments clivants : le métier de journaliste et ses représentations

132

Si les promoteurs du data journalisme rejoignent les journalistes professionnels sur la nécessité d’une médiation experte, ils s’en distinguent sur au moins deux aspects.

  • Une remise en cause du monopole de la médiation des journalistes professionnels. Persuadés qu’il n’y a pas besoin d’être journaliste pour remplir ce rôle, ces acteurs voient même d’un assez mauvais œil ce qu’ils perçoivent comme une « conscience de différenciation » [34][34] Entretien avec Caroline Goulard des journalistes, élite auto-déclarée légitime.

  • Un vœu de décloisonnement et collaboration. C’est une critique récurrente : le journaliste professionnel serait « isolé » [35][35] Corentin VALENÇOT. « Hack the press #2 relance le data-journalisme..., travaillerait « dans son coin » [36][36] Etalab. Atelier de travail du 13 Octobre 2011 : Datajournalisme.... tandis que le data journaliste collabore avec d’autres professions : journalistes, statisticiens, développeurs, infographistes, etc. Sans tomber dans la caricature d’un « journaliste shiva », il serait capable de parler à tous, revêtant ainsi l’habit d’un chef de projet.

Certaines réalisations remettent même en cause les « mythes fondateurs » [37][37] Erik NEVEU. « News without ournalists : real threat... du journalisme professionnel :

  • un outil d’aide à la décision rationnelle. Beaucoup de projets de data journalisme cartographient les données et proposent une entrée individuelle à l’internaute (par exemple « UK police » qui représente les statistiques du crime à partir d’un code postal). L’objectif n’y est pas tant de servir de « bouclier de la démocratie » [38][38] Ibid. que de donner les moyens au citoyen, devenu consommateur, de choisir rationnellement le meilleur quartier pour se loger, quitte à renforcer des problèmes sociaux (ghettoïsation, gentrification, etc.) ;

  • une transparence « nue ».Les projets qui vont le plus loin dans la cartographie, comme Everyblock (carte représentant diverses statistiques au niveau hyper-local), permettent parfois une identification des personnes par recoupement.

Le postulat ici est que la qualité d’un travail dépend de son niveau de granularité : plus la transparence est poussée, meilleur sera le projet. La protection de la vie privée est alors secondaire, loin des précautions habituelles des journalistes professionnels.

133

Le rapport de la corporation journalistique au data journalisme est donc ambivalent : d’un côté, un satisfecit de voir une pratique web qui revendique une expertise de médiation (versus le « tous journalistes ») et, de l’autre, une distance par rapport à des acteurs qui chamboulent la position sociale et les imaginaires d’une profession bien installée.

134

Il conviendrait d’amender cette conclusion à deux niveaux. Premièrement, ces réserves sont contextualisées : elles ne touchent qu’une partie des projets, d’autres entrant pleinement dans la tradition journalistique la plus « pure ». Deuxièmement, ces éléments d’explication ne sont pas exhaustifs. D’autres, non traités ici, sont au moins aussi pertinents : la tradition littéraire du journalisme français ou le coût de ces projets dans une période difficile pour la presse.

135

Alexis Chailloux

Data journaliste documentaliste ?

136

Les rédactions de la presse écrite (la situation est différente dans l’audiovisuel) auront vu en vingt ans les effectifs des services de documentation se réduire à la portion congrue. Au-delà du marasme économique général du secteur (les coupes n’ont épargné ni les journalistes, ni les fabricants, ni les correcteurs), les documentalistes de presse ont vu leur activité grignotée par les technologies des deux côtés de la chaîne documentaire : la recherche d’informations en amont, et le traitement de la production écrite en aval.

137

Dans le premier cas, c’est évidemment le Web et singulièrement Google qui ont permis au journaliste d’être indépendant dans ses recherches, même si le recours à la mémoire et au professionnalisme des documentalistes n’est pas toujours remplaçable. Dans le deuxième cas, le passage direct des systèmes éditoriaux aux flux documentaires [39][39] Dominique COTTE. « Les archives de presse ». Document..., avec application d’outils d’annotation sémantique ou d’indexation semi-automatique, a minimisé considérablement les traitements appliqués à la matière écrite. Il s’agit d’ailleurs d’une boucle où chacun des phénomènes renforce l’autre, car l’utilisation de techniques d’annotation ou de text mining aux corpus de presse améliore à son tour les résultats de la recherche et ainsi de suite.

138

Aujourd’hui, toujours poussés par la recherche d’une rentabilité dans un secteur fortement déstabilisé, les groupes de presse (notamment professionnelle) cherchent à donner une nouvelle vie à leurs contenus, par exemple en rapprochant des éléments parus dans différents titres, segmentés selon des publics spécifiques, afin de rendre disponibles sur leurs sites web et plates-formes mobiles de nouveaux produits monnayables. Il s’agit de fabriquer des contenus à partir de la quantité considérable de données présentes et accumulées dans les différentes publications en mobilisant les techniques du linked data pour ce qui est des contenus internes, et la disponibilité de l’open data pour ce qui est des contenus externes. Ainsi peut-on « documenter » en temps réel l’actualité, en contextualisant les informations citées (éléments biographiques, fiches historiques ou géographiques, données chiffrées, etc.) et en mobilisant des contenus internes par nature différents de ce que l’on trouvera dans les sources désormais incontournables comme DBPédia.

139

Or, une telle activité ne peut bien fonctionner que si elle se base sur des référentiels, des ressources linguistiques adéquates et une intelligence générale des contenus qui sont autant de compétences qu’ont en main les documentalistes de presse. Ce qui impliquerait que les documentalistes ne se situent plus ni avant (dans la recherche), ni après (dans le traitement) la production de l’information, mais au cœur même de celle-ci, dans une forme de compagnonnage avec les auteurs qui donnerait une signification (et peut-être une réalité) nouvelle au concept de data journalisme.

140

Dominique Cotte

Notes

[1]

On doit à l’historienne et sociologue Delphine Gardey un travail très intéressant sur le rôle des outils de rangement et de classement dans le monde des bureaux d’avant l’informatique. Cf. Delphine GARDEY. Écrire, calculer, classer. La Découverte, 2008. Voir aussi Dominique COTTE (dir.). Mettre en visibilité le travail numérique, EME Éditions, 2012

[2]

Ce qui se traduit aussi socialement par une hiérarchie très précise, par exemple dans le monde des bibliothèques entre magasiniers, sous-bibliothécaires, bibliothécaires, conservateurs, etc.

[3]

Cécile TARDY, Yves JEANNERET. L’écriture des médias informatisés. Hermès-Lavoisier, 2007

[4]

Cf. Roger T. PÉDAUQUE. Le document à la lumière du numérique. C&F Éditions, 2006

[5]

Comme la réserve centrale des bibliothèques de la ville de Paris ou la réserve départementale de prêt du Val d’Oise.

[7]

Le CDS est une infrastructure de recherche labellisée par le ministère de l’Enseignement supérieur et de la Recherche, sous la responsabilité de l’Institut national des sciences de l’univers du CNRS, en accord avec l’Université de Strasbourg.

[8]

TWiki est un logiciel programmé en Perl qui utilise le principe du wiki pour fournir une plate-forme de travail collaboratif. Source : Wikipédia, http://fr.wikipedia.org/wiki/TWiki

[9]

Digital Bibliography & Library Project

[16]

En français PGI pour progiciel de gestion intégrée

[17]

Éric METTOUT. « Pourquoi le data-journalisme, c’est l’avenir en marche. ». Lexpress.fr, 7 avril 2010

[20]

Maël INIZAN. « Chicago : de la prohibition au datajournalisme ». Entretien avec Sylvain Parisie. SiliconManiacs, 24/03/2011, http://www.siliconmaniacs.org/chicago-de-laprohibition-au-data-journalisme

[21]

En particulier Adrian Holovaty, qui rédige en 2005 ce qui est considéré comme le « manifeste du data journalisme », http://www.holovaty.com/writing/fundamentalchange

[22]

Sarah LABELLE. « “La société de l’information” : formule, récit et réquisition », in : Mises en récit de la technique. Marianne CHOUTEAU et Céline NGUYEN (dir.). Éditions des Archives contemporaines, 2011, pp. 33-44

[23]

Selon Caroline Goulard, « data n’est pas uniquement la version française de données ».

[24]

Entretien avec Caroline Goulard

[25]

Nicolas VANBREMEERSCH. « Pour un journalisme de données ». Slate.fr, 30/07/2009, http://www.slate.fr/story/8643/pour-un-journalisme-de-faits

[26]

Julie BOUCHARD. Comment le retard vient aux Français ? Analyse d’un discours sur la recherche, l’innovation et la compétitivité. 1940-1970. Presse universitaires du Septentrion, 2008

[28]

Entretien avec Pierre Romera (co-fondateur de Journalism++)

[29]

Jean-Christophe FÉRAUD. « Le “data journalism” contre Albert Londres ». Sur mon écran radar, 9 février 2010. http://monecranradar.blogspot.fr/2010/02/le-data-journalism-contrealbert.html

[30]

Entretien avec Caroline Goulard

[31]

Ibid.

[32]

Franck REBILLARD. Le web 2.0 en perspective. L’Harmattan, 2007

[33]

Par exemple aux États-Unis, ce travail de Mickael Berens et Ken Armstrong récompensé d’un prix Pulltzer, sur l’administration de méthadone aux populations les plus démunies. http://seattletimes.com/html/localnews/2016987143_silenthow.html

[34]

Entretien avec Caroline Goulard

[35]

Corentin VALENÇOT. « Hack the press #2 relance le data-journalisme en France ». Horizons médiatiques, 13 janvier 2012,

http://corentinvalencot.tumblr.com/post/15774554853/hack-the-press-2-relance-le-data-journalisme-en-france

[37]

Erik NEVEU. « News without ournalists : real threat or horror show », Brazilian Journalism Research, 2010, vol. 6/1

[38]

Ibid.

[39]

Dominique COTTE. « Les archives de presse ». Document numérique, 2000, vol. 4, n°3-4

Résumé

English

Professions, between traditions and modernityOver the last thirty years, information professionals have seen a number of their traditional skills overtaken by electronic tools, their function as information mediators called into question. Big Data is going to shake the profession up even further but should also offer some exciting opportunities. Our contributors show us, through classic functions and novel postures, how these professions have (or have not) been affected by this new digital context, and they sketch out some possible future roles for the information professional.

Español

Los oficios, entre tradiciones y modernidadTras treinta años, los profesionales de la información han visto cómo algunas de sus competencias tradicionales eran asumidas por las herramientas informáticas y su función de mediación puesta en duda.
El futuro de “big data" continuará trastocando el mundo de la información, pero debería ofrecer también buenas oportunidades.
Las aportaciones que componen este polo vienen a ilustrar, entre funciones clásicas y posturas innovadoras, la forma en que se ven afectados los oficios, o no, por este nuevo contexto numérico y a esbozar el posible futuro de los oficios de la información.

Deutsch

Die berufe, zwischen tradition und moderneSeit rund dreissig Jahren sind einige der traditionellen Kompetenzen der Information Professionals von Informatik-Tools übernommen worden, und ihre Vermittlerrolle wurde in Frage gestellt. Das Aufkommen der Big Data wird die Informationswelt weiter in Bewegung bringen, aber auch gute Gelegenheiten anbieten. Die Beiträge dieses Abschnitts veranschaulichen, zwischen klassischen Funktionen und neuen Stellungen, in wiefern die Berufe von diesem neuen digitalen Umfeld verändert wurden (oder auch nicht), und skizzieren die mögliche Zukunft der Informationsberufe.

Plan de l'article

  1. L’inflation des données et les évolutions professionnelles
    1. Un mouvement de professionnalisation
    2. Les professions de l’information : des bouleversements en profondeur
    3. Vers la représentation visuelle des données
    4. Avatars des métiers
    5. Changement de perspectives
  2. « Les bibliothèques publiques entre stock et flux, objets et données »
    1. Le flux n’est pas forcément celui que l’on croit
    2. Du stock au service numérique
    3. Un changement de paradigme ?
    4. Des catalogues aux métadonnées au web de données
    5. La médiation au centre des préoccupations
  3. Le CDS : des données au service de la communauté scientifique
    1. Une discipline pionnière
    2. Le succès d’une équipe « intégrée »
    3. Le rôle des documentalistes
    4. Des compétences très pointues
    5. Un impératif : des procédures communes
    6. Les métadonnées : un précieux apport documentaire
  4. Questions à Fabien Gandon, chercheur en informatique à l’Inria
  5. L’analyse des données par la cartographie
  6. « Fournir une vision agrégée et cohérente de l’information »
    1. Une chaîne d’outils pour concourir à la rigueur de l’information
    2. Data manager, un métier d’administration
    3. Un métier de gestion de l’information
    4. Un métier de communication
  7. « Data journalisme : nouvelles pratiques et imaginaire des acteurs »
    1. Un mouvement porté par des entrepreneurs du Web
    2. La figure centrale du médiateur ou l’impossible critique objectiviste
    3. Des éléments clivants : le métier de journaliste et ses représentations
  8. Data journaliste documentaliste ?

Pour citer cet article

Cotte Dominique, Lahary Dominique, Genova Françoise, Gandon Fabien, Dufour Jean, Willaert Christophe, Sciandra Diane, Chailloux Alexis, Aubry Christophe, Huot Charles, « Les métiers, entre traditions et modernité », Documentaliste-Sciences de l'Information 3/2013 (Vol. 50) , p. 42-59
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2013-3-page-42.htm.
DOI : 10.3917/docsi.503.0042.


Article précédent Pages 42 - 59 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback