Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2007/4 (Vol. 44)

  • Pages : 60
  • DOI : 10.3917/docsi.444.0312
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 312 - 321 Article suivant

Éco-système 2.0 : le Web social pour la veille, la recherche, la classification et la diffusion de l’information

1

Joël Ronez [1][1] Les titres des communications présentées lors de ces... a proposé un regard différent de celui des professionnels de l’IST pour analyser l’« Éco-système 2.0 ». Dans une intervention dynamique, il a présenté le « Web social » – l’état d’esprit dans lequel s’inscrit ce média et les usages que l’on peut en faire pour créer un lien social professionnel.

Le rapport au temps

2

En 2007, le Web n’est plus un outil informatique mais un vecteur de communication de contenus. La frontière entre correspondance et publication a disparu. La correspondance est devenue ouverte, la confidentialité est à réinventer. Ce qui a changé avec Internet, c’est le rapport à l’espace et au temps. L’espace est triple : privé, partagé et public. Le passage à l’immédiateté introduit une forte exigence de mise à jour. La notion de périodicité devient caduque ; c’est à présent celle de flux qui prime. Avec les flux RSS (agrégation ou syndication d’actualités), par exemple, il devient inutile de passer par la messagerie pour s’abonner à une lettre d’information ou à toutes sortes de médias. La mise à jour d’un site se fait automatiquement. On peut aussi, grâce à des alertes, être informé des dernières nouvelles publiées sur un site.

3

Ce n’est plus l’utilisateur qui va chercher l’information, mais l’information qui vient à lui. On peut ensuite réutiliser cette information en la partageant sur un blog ou un wiki. Le mode d’indexation a aussi évolué, avec les tags et la « populonomie » ou classification ouverte, établie selon la bonne volonté du rédacteur. Les nuages de tags cartographient l’information et deviennent le pivot de la navigation. Le rapport à l’information a donc changé. Cette indexation « sauvage » se retrouve sur les sites de partage de signets comme del.icio.ous [2][2] Les adresses des sites et organismes cités dans ce..., de photos ou de vidéos comme flickr ou dailymotion, ou d’information comme Netvibes.

4

Il faut également insister sur l’identité numérique : qui est-on sur le Web ? Cette identité se compose de données formelles et informelles (expressions, publications, avatars, avis, réputation, certificats, violons d’Ingres, audience, etc.). Il y a non seulement ce que l’on est et ce que l’on fait (profession, publication), mais aussi ce que l’on partage, comme on vient de le voir, et ce que l’on sait (bases de données, moteurs de recherche, encyclopédies participatives comme Wikipédia).

Le programme des Rencontres

La cinquième édition des Rencontres des professionnels de l’IST, dans l’esprit des précédentes, développe son ouverture à d’autres organismes. Le comité en charge de l’élaboration du programme compte désormais, outre l’INIST qui est l’instigateur de cette manifestation, l’INRA, l’INSERM, le CIRAD, le CEMAGREF, l’INRIA, l’IRD, le CEA, l’ADEME, l’INERIS, l’IFREMER, l’Institut Pasteur, les universités et l’ADBS. Les réseaux documentaires du CNRS (DOC-ST2I, ARPIST, GO !DOC, ISIDORA, DEMOCRITE, DDOC’PL@ NET,PIST’LR, REDOVIE, ISORE), ainsi que le Réseau national des bibliothèques de mathématiques (RNBM) et le réseau ADBS, secteur Recherche, apportent leur vision de « terrain » dans la mise en place du programme de ces journées, dont le détail peut être consulté sur le site de l’INIST : http:// rpist. inist. fr

• Allocutions de Raymond Duval, directeur de l’INIST-CNRS, et de Martine Comberousse, de la Direction générale de la recherche et de l’innovation au ministère délégué à l’Enseignement supérieur et à la Recherche [voir page XXX la présentation des orientations du ministère]

• Introduction des Rencontres 2007 par Ghislaine Chartron, professeur au Conservatoire national des arts et métiers (CNAM), chaire d’ingénierie documentaire, directrice de l’INTD

• Autour du Web 2.0

- Éco-système 2.0 : le web social pour la veille, la recherche, la classification et la diffusion de l’information, par Joël Ronez, consultant [voir le blog consacré aux interventions en séminaire de J. Ronez : http:// ronez. typepad. com/ seminaire]

- Le TGE Adonis : infrastructure numérique en SHS et implication des chercheurs, par Yannick Maignien, directeur d’Adonis

• Autour du protocole d’accord national des Archives Ouvertes

- Texte fondateur et présentation du COSTRAO, par Françoise Thibault

- Présentation du COST, par Christine Berthaud, ISH-Lyon

- Les systèmes d’alimentation de l’archive ouverte, par Daniel Charnay, directeur du Centre pour la communication scientifique directe (CCSD-CNRS)

- DRIVER, par Anne-Marie Badolato, INIST-CNRS

• Autour de l’évaluation scientifique et des indicateurs

– Les indicateurs de production scientifique, par Ghislaine Filliatreau, directrice de l’Observatoire des sciences et des techniques (OST)

- Peut-on classer les universités ? Réflexions sur Shanghai et autres exercices, par Michel Zitt, chercheur à l’INRA, chargé de mission à l’OST

- Le libellé des adresses françaises dans la base Web of Science de Thomson Scientific, par Suzy Ramanana, statisticienne chargée de la base WOS à l’OST

- Les indicateurs de la production scientifique - le point de vue d’un chercheur, par Philippe Robert, directeur de recherche à l’INRIA, président du comité des projets de l’unité de recherche de l’INRIA Rocquencourt, responsable scientifique du projet Réseaux Algorithmes Probabilités (RAP)

• Autour des nouvelles applications de la terminologie

- La terminologie pour les applications du traitement automatique des langues, par Christian Fluhr, directeur de recherche au CEA/LIST, Laboratoire d’ingénierie de la connaissance multimédia multilingues (LIC2M), Fontenay aux Roses

- L’apport des techniques de traitement automatique de la langue pour la construction d’index, la recherche d’information, la fouille de texte, l’aide à la classification et à la construction d’ontologies, par Didier Bourigault, chercheur à l’Université de Toulouse

- TermSciences, outil de gestion collaborative de la terminologie et d’aide à l’indexation, par Majid Khayari, INIST-CNRS

- Recherche d’information spécialisée, l’enjeu de l’automatisation, par Emmanuel Benoit, Jouve, et Claire Nedellec, INRA

Le Web 2.0

5

On connecte des micros, des contenus et des personnes. Le Web 2.0 présente deux principaux aspects : des interfaces riches, en interaction avec les applications, et la participation des individus qui fournissent le contenu. La création de profils est simple. Les caractéristiques sont l’auto-indexation et la validation par la communauté, qui modère a posteriori.

6

Le wiki est un site web dynamique, qui permet la modification de pages et la création de pages à la volée. Le blog est le « maillon manquant dans la chaîne de communication sur le Web ». C’est un site composé d’articles, classés par dates et par catégories, et de billets (posts). Ergonomique, il permet de publier très facilement sur un ou simultanément sur plusieurs blogs. Le « permalien » est un lien permanent, avec une adresse unique. Le contenu d’un blog est donc vivant, disponible, accessible et structuré.

Qu’est-ce que le Web aujourd’hui ?

7

Le Web, c’est un outil multimédia, hypertextuel et structuré, orienté vers l’intérieur et vers l’extérieur (ressources externes et Web profond). Il faut renseigner ses liens, normer les contenus et organiser académiquement le savoir. Les contenus sont fluides, ils évoluent en permanence.

8

Prenons donc le parti de l’« infobésité ». Il faut laisser le public rationaliser le contenu, s’inscrire dans la chronologie, renoncer au workflow, agréger les contenus, identifier sa communauté élargie et mélanger les usages. Le Web 2.0 n’est pas réservé à une élite intellectuelle, aux experts, aux professionnels de l’information : il fait appel aussi bien à des connaissances et à des techniques bien établies qu’à des savoirs et des pratiques populaires.

Le TGE Adonis, infrastructure numérique en SHS : l’implication des chercheurs

9

Ce projet de grande envergure fait partie des très grands équipements (TGE) portés par le CNRS. Confié à Yannick Maignien, spécialiste des bibliothèques numériques détaché du ministère de la Culture au CNRS, il a été officiellement lancé fin mars 2007.

10

Cette cyberinfrastructure a pour vocation d’offrir un accès unifié aux données et documents numériques en sciences humaines et sociales (SHS). Elle vise à maîtriser la multiplicité des données produites, directement ou non, par les chercheurs ; à prendre en compte la dispersion et la forte hétérogénéité de leurs communautés ; à favoriser la réactivité des échanges et des pratiques, au travers notamment d’un ensemble d’outils et services proposés (logiciels d’édition et d’organisation de colloques ; outils collaboratifs comme des wikis et des blogs, etc.). Adonis se doit enfin de répondre à deux enjeux majeurs pour l’avenir de la recherche française en SHS : le décloisonnement des recherches et l’intensification des échanges interdisciplinaires ; et le renforcement de leur visibilité qui s’inscrit dans une mise en concurrence internationale largement portée par Internet.

11

Le TGE Adonis repose en grande partie sur l’implication des acteurs eux-mêmes : producteurs de la science, les chercheurs sont en effet au cœur même du cycle de vie de l’information scientifique et technique (production des données, traitement, validation, évaluation, etc.). Adonis devra s’adapter à leurs besoins, leur faciliter l’accès aux ressources et données, mais il devra également compter sur ces utilisateurs pour élargir son offre numérique. Des partenaires issus du secteur public comme du secteur privé sont très largement invités à en faire partie (ministères de la recherche et de la culture, universités, réseaux des maisons des sciences de l’homme, INIST, unités de recherche, entreprises d’ingénierie informatique ou documentaire, etc.).

12

La plate-forme fédérera des données variées et complexes (métadonnées, données textuelles, audiovisuelles, statistiques, patrimoniales, culturelles ou 3D, etc.) produites par les différents acteurs et dans le cadre d’initiatives existant à un niveau national et international : Gallica (bibliothèque numérique de la BnF), programme Numes (inventaire des fonds numérisés de l’enseignement supérieur), HAL-SHS (archive ouverte du CCSD-CNRS), programme ESFRI (European Strategy Forum on Research Infrastructures), offres éditoriales numériques courantes et rétrospectives (Persée, Revues.org, CAIRN, Erudit, etc.).

13

Dans ce paysage riche et fortement hétérogène, l’ossature et les composantes techniques de ce métaportail devront permettre une interconnexion des ressources, des acteurs et des services, ainsi qu’une interface de recherche s’appuyant sur des critères complexes adaptés au domaine. Une réflexion est à mener sur les modèles économiques et juridiques à mettre en place (notamment autour de la confidentialité des données) et sur les questions de conservation pérenne et d’interopérabilité. Accompagner la transformation des usages est également une des composantes clés du dispositif : création d’un observatoire des usages numériques, soutien par la formation, élaboration de nouvelles formes d’évaluation des connaissances (comme la bibliométrie).

14

Le TGE Adonis constitue un véritable pari pour l’avenir, une occasion pour les sciences humaines et sociales d’afficher leur originalité sur la scène internationale et de devenir un acteur majeur de la société numérique.

Les Archives Ouvertes en France et en Europe

15

Un ensemble de quatre communications pour faire le point sur la situation des archives ouvertes en France, un an après la signature du protocole d’accord inter-établissements qui reconnaît HAL (Hyper article en ligne) comme une plate-forme commune d’archives ouvertes.

Le texte fondateur des AO en France

16

Dans une première intervention, Françoise Thibault, avant de présenter le COSTRAO (Comité stratégique des archives ouvertes), a voulu établir les termes du débat sur les archives ouvertes aujourd’hui en France.

17

Le protocole d’accord inter-établissements, signé en juillet 2006 autour de HAL, a permis la mise en place en France d’une véritable politique nationale fondée sur un dispositif original : reconnaissance d’une plate-forme commune chargée d’établir les relations au niveau international ; partage d’un outil qui doit évoluer grâce à une démarche de mutualisation accompagnée ; pilotage du projet par deux comités, un comité stratégique (COSTRAO) et un comité scientifique et technique (COST) ; et un site web (http:// archives-ouvertes. fr).

18

Un an après, on peut noter de vraies réussites, comme la hausse constante du nombre de dépôts dans HAL ou la capacité d’innovation de cette plate-forme pour s’adapter aux besoins des chercheurs.

19

Le débat se focalise aujourd’hui sur l’articulation entre HAL, les archives ouvertes, les archives institutionnelles et les différents systèmes locaux : une archive ouverte (HAL) regroupe des articles scientifiques mais pas toute la production d’une institution ; - une archive institutionnelle est une extraction de la production d’une institution qui se trouve dans l’archive ouverte ; l’archive de l’institution regroupe, dans un système local, toute la production de l’institution, documents scientifiques ou autres.

20

De nombreuses questions se posent également à propos du pilotage politique (outil d’évaluation, indicateurs) et de la visibilité interne et externe des institutions et de leurs activités.

21

Les comités – le COSTRAO au niveau stratégique et politique et le COST au niveau scientifique et technique – travaillent sur ces interactions archives ouvertes / archives institutionnelles, HAL / système locaux. Ils tentent de définir des schémas de procédures et des règles pour les systèmes locaux, tout en améliorant la souplesse de HAL (métadonnées).

Présentation du COST comité scientifique et technique

22

Le COST, présenté par Christine Berthaud, est « chargé de la mise en place et de la réalisation des actions selon un plan de travail défini par le comité stratégique ». Il est composé de vingt-quatre membres nommés par le COSTRAO et représentant les organismes signataires : neuf chercheurs, cinq informaticiens, dix professionnels de l’IST. Cinq groupes de travail ont été créés.

23

Le premier groupe est chargé de la sensibilisation des chercheurs et il communique principalement par le site web http:// archives-ouvertes. fr.

24

Le second groupe de travail, « Types de publications, mots-clés, classifications », est divisé en deux sous-groupes. Le sous-groupe « Métadonnées » travaille sur la validation des métadonnées actuelles de HAL, sur l’interaction entre systèmes locaux et HAL, sur le schéma de métadonnées AO.fr et sur les modèles d’interopérabilité. Le sous-groupe « Glossaire » a pour objectif de faire parler la même langue à l’ensemble des partenaires. Il collecte les glossaires déjà existants et diffuse sur le site web archives-ouvertes.fr.

25

Un troisième groupe recense les bases d’archives ouvertes étrangères auxquelles la plate-forme partagée devrait s’interconnecter (identification des bases via OAIster, 714 bases).

26

Un autre groupe réfléchit aux problèmes liés à la pérennité de l’archivage : norme de réplications à distance de la base sur deux sites, redéfinition de la politique du format tous les deux ans (choix du PDF).

27

Le dernier groupe a pour objectif de produire un document de cadrage sur la problématique « Système institutionnel - Archives ouvertes ». Plusieurs modèles sont possibles, entre le « tout HAL » – l’entrée se fait par ce portail où la publication est directement déposée, aucune information n’est stockée en local – et le modèle « partenaire » – le système d’information local est interconnecté avec HAL avec une entrée par ce système local.

Les systèmes d’alimentation de l’archive ouverte

28

Daniel Charnay a présenté les nouvelles fonctionnalités de HAL au niveau de l’utilisateur : recherche en texte intégral sur toute la base, détection de doublons en temps réel lors d’un dépôt, collections automatiques étendues à des critères scientifiques, base des revues intégrant un accès direct à la présentation de la politique de la revue en matière d’Archives Ouvertes, possibilité de transfert de propriété des dépôts, etc.

29

L’archive elle-même a également beaucoup évolué. Une connexion a été établie avec PubMed Central, et le lien entre les deux bases permet une aide à la saisie des métadonnées. En collaboration avec le CINES (Centre informatique national de l’enseignement supérieur), les premiers travaux sur l’archivage à long terme ont commencé (réplication des données, étude des formats des documents). La mise en place d’une validation scientifique par domaines scientifiques sera faite prochainement (chercheurs référents). De nouveaux portails et collections se créent : Hal-Insu, Hal-sde, Hal-cirad, Hal-ird, Hal-pasteur, Hal-cea (à l’étude), Hal-ssa (à l’étude). Hal dialogue de plus en plus avec d’autres systèmes : systèmes documentaires comme Flora ou Cadic, bibliographique comme Refworks et bientôt avec le système universitaire des espaces numériques de travail (ENT).

30

La question principale reste le système d’alimentation de l’archive ouverte, c’est-à-dire l’interconnexion entre HAL, plate-forme partagée d’archives ouvertes, et les systèmes institutionnels locaux. Si une institution souhaite s’occuper seulement des publications scientifiques, HAL peut servir de « base locale ». Mais, si on veut insérer des documents plus particuliers (rapport, annuaire, etc.), il faudra absolument développer un système local propre.

31

Dans le premier cas, l’institution construit dans HAL une interface personnalisée avec des métadonnées propres et les typologies de la plate-forme, et celle-ci propose un portail institutionnel, ou le portail générique, à partir duquel le contributeur va déposer.

32

Dans le second cas, l’institution dispose de son propre système : soit le contributeur dépose directement dans le système local qui se connecte à HAL et effectue ce dépôt, soit le contributeur dépose dans HAL que le système local vient moissonner. Pour que la connexion avec HAL puisse se faire, le système local devra se conformer au format AO.fr.

Les orientations du ministère de la Recherche

Martine Comberousse, du Bureau de l’information scientifique et technique, a évoqué les grands axes de la politique engagée par le ministère de la Recherche :

  • améliorer la visibilité de la production scientifique française par le développement des archives ouvertes (signature du protocole de la plateforme HAL) et des éditions électroniques, par la production d’indicateurs bibliométriques et l’amélioration des adresses dans les publications des chercheurs français (travail de l’OST) ;

  • faciliter l’accès à l’IST par les chercheurs en proposant des services d’information adaptés à leur besoin (développement d’analyses d’usage et évaluation des systèmes d’information) et en réalisant des structures mutualisées d’acquisition de ressources avec une politique concertée ;

  • favoriser le processus d’innovation en développant des outils et des pratiques de veille.

Pour ces différents chantiers, le ministère souhaite associer tous les acteurs de la recherche : documentalistes, chercheurs et informaticiens. Le ministère souhaite structurer l’IST en France, notamment en réorganisant les activités du CINES (Centre informatique national de l’enseignement supérieur) qui devra remplir trois fonctions : orientation de l’IST (avec la LOLF), programmation de l’IST (comme l’ANR pour la recherche), être un opérateur de l’IST en collaboration avec les partenaires actuels qui pourraient être amenés à un repositionnement. Ces propositions et orientations sont en cours de discussion.

Le projet européen DRIVER, une infrastructure pour la recherche européenne

33

Le projet DRIVER (Digital Repository Infrastructure Vision for European Research), présenté par Anne-Marie Badolato, a pour objectif de développer une infrastructure européenne de réservoirs numériques ou, plus exactement, de développer un prototype pour interconnecter les archives ouvertes et/ou institutionnelles au niveau européen. Les partenaires de ce projet sont l’Université d’Athènes (Grèce), les universités de Bielefeld et de Göttingen (Allemagne), le Conseil national de recherches (Italie), la Fondation SURF (Pays-Bas), les universités de Nottingham et de Bath (Royaume-Uni), le Centre national de la recherche scientifique (France), l’Université de Varsovie (Pologne) et celle de Gand (Belgique).

34

Des recommandations destinées aux fournisseurs de contenu prescrivent l’application du protocole OAI pour assurer une stabilité des archives ouvertes et, pour éviter l’hétérogénéité de ces archives, des métadonnées fondées sur le Dublin Core simplifié (www. driversupport. eu/ documents/ DRIVER_guidelines_and_annexes_1_0. pdf).

35

Des études ont été menées pour connaître l’environnement des archives ouvertes en Europe. De l’interrogation de deux cents archives, il ressort qu’une part importante est faite à la littérature scientifique et que les références bibliographiques représentent plus de la moitié du contenu. On rencontre une grande variété de politiques documentaires et les priorités sont au développement à venir de services comme des moteurs de recherche thématiques et des index de citations. (Voir www. driver-support. eu/ documents/ DRIVER%20Inventory%20study%202007. pdf)

36

DRIVER participe au travail d’information et de sensibilisation au libre accès à destination des différents acteurs impliqués dans la communication des résultats de la recherche. Les axes de développement du projet sont la création d’une véritable fédération des archives européennes, la prise en compte d’autres types de ressources et l’extension géographique.

L’évaluation scientifique et les indicateurs de la recherche

Les indicateurs de production scientifique

37

Ghislaine Filliatreau a présenté les missions de l’Observatoire des sciences et des techniques puis décrit quelques indicateurs bibliographiques calculés par cet OST ainsi que leurs objectifs.

38

L’OST est un groupement d’intérêt public créé en 1990. Il a pour mission de concevoir et de produire des indicateurs quantitatifs sur la R&D pour contribuer au positionnement stratégique de la France en Europe et dans le monde. Ses actions s’articulent autour de trois axes : la production d’indicateurs standards, de tableaux de bord et d’un rapport biennal ; des travaux de recherche et développement sur les indicateurs, les méthodologies d’évaluation stratégique et les outils de pilotage ; et enfin la réalisation d’études portant sur des domaines de recherche, des secteurs technologiques, l’activité de R&D d’institutions, de pays, de régions… La majorité de ces études est réalisée dans le cadre de contrats avec les membres de l’OST, à leur demande.

39

Les indicateurs de pilotage scientifique permettent à un opérateur de recherche de mesurer son positionnement, d’analyser son activité scientifique, d’établir des stratégies, notamment dans le cadre de la LOLF (loi organique relative aux lois de finances). Ils renseignent sur la manière dont l’acteur évolue dans son milieu et lui permettent de caractériser les points forts sur lesquels il souhaite obtenir des résultats. Par exemple, l’indicateur de spécialisation lui permet de déterminer son rôle dans une discipline en France, en Europe et dans le monde. La part des citations qu’il reçoit lui permet de mesurer son impact. La France se situe au cinquième rang mondial en terme de citations.

40

Les indicateurs de performance ont pour objectif de mesurer la progression de l’acteur par rapport à une valeur cible. On étudie, par exemple, sa performance grâce aux indicateurs de part de publications, de part de citations ou encore de co-publications par rapport à une référence France, Europe ou monde.

41

Élaborés à partir de références validées par l’organisme client, les indicateurs sont faciles à comparer entre eux. Toutefois, il est nécessaire de les manipuler avec prudence car les biais sont nombreux. L’un d’eux tient, par exemple, aux grandes différences entre disciplines et sous-disciplines et un autre au poids de publications exceptionnelles.

Peut-on classer les universités ? Réflexions sur Shanghai et autres exercices

42

Depuis plus de vingt ans déjà, l’on cherche à observer et évaluer les laboratoires de recherche, a rappelé Michel Zitt. Le classement de Shanghai a pour objectif de repérer l’excellence universitaire afin de positionner les universités chinoises dans le monde académique et de leur permettre, par ailleurs, de nouer des partenariats. Il n’en demeure pas moins que le mauvais positionnement des universités françaises a suscité de fortes réactions dans notre pays.

43

Ce classement comporte forces et faiblesses. Les principaux critères du classement annuel des deux mille universités concernées sont les suivants : prix Nobel et médailles Fields, articles parus dans les revues Science et Nature, articles indexés dans le Science Citation Index, productivité par rapport à la taille de l’établissement. Si certains sont incontestablement mesurables, d’autres, comme les prix reçus par les anciens élèves et la mesure de la productivité, sont plus délicats.

44

Michel Zitt présente alors une analyse de la pertinence des critères utilisés. L’indicateur présente une robustesse apparente avec une corrélation élevée entre les différents critères de mesure. Toutefois, il n’est pas dépourvu de limites techniques : la faible standardisation des noms d’institutions, les biais disciplinaires liés à Nature et Science, la médiocre couverture des SHS, les nouveaux prix comme le prix Abel qui ne sont pas pris en compte, la qualité de l’enseignement qui est mesurée par l’excellence du personnel, la pondération du critère de taille qui est discutable alors que les indicateurs sont presque tous liés à la taille de l’acteur. Ces points sont-ils des choix ou des biais de la part des concepteurs du classement ?

45

D’autres classements, comme celui du Times, rendent mieux compte de la réalité. En effet, le Times accorde un coefficient important à l’évaluation et mesure la qualité de l’enseignement par le niveau d’encadrement ou d’internationalisation. Le calcul bibliométrique ne compte que pour 20 % de l’évaluation. En revanche, l’avis des pairs est peu transparent et plus difficile à interpréter.

46

Le CWTS (Centre for Science and Technology Studies) de l’Université de Leiden repose, quant à lui, sur des analyses exclusivement bibliométriques. Les indicateurs produits sont classiques mais les concepteurs veillent à la normalisation des sources. Leur approche est plus transparente.

47

Les difficultés de repérage, de standardisation, de périmètre, de couverture produisent des indicateurs qui ne rendent pas une image correcte de la réalité. Les classements effectués sur cette base sont d’autant moins fiables. Par son impact et malgré ses biais, le classement de Shanghai a poussé les acteurs français à réagir et à initier un processus d’auto-amélioration.

Le libellé des adresses françaises dans la base Web of Science de Thomson Scientific

48

Suzy Ramanana a mis en évidence les incohérences des libellés des adresses institutionnelles françaises dans la base Web of Science de Thomson Scientific, base bibliométrique de référence utilisée par l’OST pour élaborer ses indicateurs. L’absence de forme normalisée de l’intitulé des institutions, d’une part, et les difficultés de recensement des structures à tutelles multiples, d’autre part, limitent l’identification des publications de la recherche.

49

L’OST a souligné, dans le cadre du projet en cours NormAdresses, consultable sur son site web, la nécessité d’une définition rigoureuse des affiliations institutionnelles afin d’améliorer la visibilité de la recherche française.

Les indicateurs de la production scientifique : le point de vue d’un chercheur

50

Philippe Robert a présenté d’une part le point de vue d’un chercheur quant à l’utilisation des indicateurs d’évaluation de la recherche, et d’autre part celui d’un expert responsable de l’évaluation de chercheurs.

51

Les publications scientifiques des chercheurs ne représentent qu’un aspect de leur activité, qui comprend aussi l’expertise, l’enseignement, la communication vers le public.

52

Lorsqu’un chercheur propose un article à une revue scientifique, celui-ci est évalué par le comité éditorial ou par un ensemble de rapporteurs anonymes (comité de pairs), experts du domaine. Pour choisir une revue de publication, on prend en considération un ensemble de critères, notamment le comité éditorial, le prestige de la revue, son référencement dans le domaine, sa thématique, son historique, le lectorat, le taux de rejet des articles soumis, etc.

53

Le choix ne dépend que faiblement des critères d’évaluation chiffrés comme l’IF (impact factor) diffusé par l’ISI-Thomson Scientific. L’IF est calculé à partir du nombre de citations bibliographiques de la revue concernée, identifiées par l’ISI durant les deux années précédentes, rapporté au nombre d’articles publiés par la revue durant la même période de temps. L’IF met en évidence l’impact immédiat de la publication, mais cette échelle de temps est trop courte pour représenter l’impact sur le long terme.

54

L’alpha et l’oméga de l’évaluation scientifique reste l’évaluation par les pairs. La qualité des publications importe plus que la quantité ; seuls les experts de la thématique peuvent déterminer l’originalité et l’impact de la production scientifique d’un chercheur ou d’une équipe.

55

Pour le responsable scientifique dont l’objectif est d’évaluer de manière réaliste la qualité de la recherche, les indicateurs chiffrés sont utiles pour établir des classements. En tant que mesure agrégée, ils permettent de dégager une vision globale de l’impact de la recherche. Parmi les indicateurs chiffrés utilisés couramment on trouve le nombre de publications rapporté au nombre de chercheurs, l’IF des revues des publications, le nombre de citations des publications dans Web of Science, CiteSeer, Scopus, Google Scholar (dont la pertinence est discutée), etc. Ces indicateurs doivent être pondérés dans le temps et selon le domaine spécifique de recherche, pour apprécier de manière réaliste la qualité des publications et l’importance des contributions.

56

Ainsi, en s’appuyant sur les indicateurs bibliométriques chiffrés, les comités d’experts (visiting committees) peuvent distinguer l’originalité et la visibilité des travaux d’une équipe, d’un centre ou d’un organisme.

Nouvelles applications de la terminologie

Quelle terminologie pour le traitement automatique des langues ?

57

Pour un usage humain, la terminologie est utilisée pour bien spécifier les concepts d’un domaine, pour les représenter de manière unique, non ambiguë d’un point de vue sémantique, et pour disposer de correspondances de représentations de ces concepts dans les différentes langues. Pour un usage de traitement automatique des langues, le cadre reste le même avec une finalité quelque peu différente : il s’agit d’interpréter n’importe quel document, comme ceux du Web, quelle que soit la manière dont les concepts y sont exprimés. Il faut alors en distinguer le sens et aussi les retrouver dans une autre langue. Les applications sont diverses puisqu’elles touchent aussi bien un système d’indexation/recherche d’information textuelle qu’un système de questions/réponses. Les dictionnaires sont alors des ressources terminologiques nécessaires auxquelles s’ajoutent des outils - dictionnaires de reformulation mono et multilingues comme des thésaurus – servant à diminuer l’écart entre l’expression du besoin de l’utilisateur et la formulation des réponses se trouvant dans les documents. On utilise plusieurs niveaux et types de dictionnaires : dictionnaires de langue générale – fournis en général avec le logiciel –, de spécialité et du « jargon » de l’entreprise ou de l’application ; auxquels s’ajoutent des dictionnaires de la langue pour l’analyse des textes et des requêtes, ainsi que des dictionnaires de synonymes, pour la reformulation, des dictionnaires bilingues pour l’interrogation interlingue.

58

Le terminologue doit lever toute ambiguïté sémantique. Il lui faut alors trouver les différentes représentations d’un même concept (reformulations, synonymie) ; prendre en compte les termes accentués ; identifier le genre des termes, les groupes nominaux, les verbes ; associer à un terme des termes les plus co-occurrents. De plus, pour certains types de traitements comme la reconnaissance des entités nommées – noms de personnes, noms de lieux, unités de mesure, éléments de date –, il doit disposer d’informations plus précises du point de vue sémantique. Pour la terminologie bilingue, dans le cas d’une traduction ou d’une interrogation dans une autre langue, on dispose de dictionnaires bilingues. Il faut donc traduire des mots simples mais aussi des expressions qui ne peuvent se traduire que globalement ou encore des expressions très courantes dans le domaine, même si elles peuvent être traduites mot à mot.

59

Les bases terminologiques construites pour un usage humain peuvent être utilisées pour le traitement automatique. Cependant les très nombreuses bases de données terminologiques, distribuées par l’Agence pour l’évaluation et la distribution des ressources linguistiques (ELDA), ne se vendent pas, alors que les autres ressources (dictionnaires généraux, corpus de texte et de parole) sont bien distribuées. On trouve aussi des ressources gratuites qui peuvent être utiles pour compléter les dictionnaires existants. Il y a toutefois le problème de cohérence entre les ressources ainsi que celui des différences de codage comme les catégories grammaticales ou les domaines. Il vaut mieux reconstituer ces ressources lexicales, bien les adapter, plutôt que de les acheter, d’autant plus que ne se pose pas alors le problème de propriété.

60

Ainsi, conclut Christian Fluhr, on peut utiliser des ressources terminologiques existantes et les modifier. C’est assurément coûteux, long et laborieux, mais c’est utile. Une solution possible est de faire appel à des prestataires pour fournir ce service : c’est ce que propose Didier Bourigault dans la communication suivante.

Outils de traitement automatique des langues (TAL) pour la construction de ressources terminologiques à partir de textes

61

Une ressource terminologique est une description du vocabulaire et des concepts utilisés par une communauté d’individus dans le cadre d’une pratique ; elle est exploitée dans une application de traitement de l’information. Les ressources sont construites à partir d’outils de traitement automatique des langues pour un domaine, une application et un usage précis. Elles sont répertoriées en fonction de l’application que l’on en fait. Les applications classiques – ressources utilisées par des humains – peuvent être des dictionnaires spécialisés pour ingénieur ou étudiant, des lexiques pour les traducteurs spécialisés, des thésaurus pour les bases documentaires. Les applications informatiques – ressources exploitées par des systèmes informatiques – sont des thésaurus électroniques, des lexiques sémantiques, des bases de connaissances pour système expert, de l’ontologie formelle pour le Web sémantique. Les éléments de ces ressources sont constitués de termes simples ou complexes et de relations hiérarchiques, sémantiques. Aujourd’hui, on peut disposer de méthodes et d’outils matures élaborés par un groupe de spécialistes en traitement automatique des langues, en ingénierie des connaissances, en linguistique, en sciences de l’information et de la documentation.

62

Une fois l’application et l’usage bien définis, il est possible de construire une ressource terminologique à partir de textes comprenant le vocabulaire du domaine, en interaction avec les utilisateurs, avec des experts, des ressources terminologiques existantes. La finalité est d’élaborer un corpus, ensemble de textes que le terminologue rassemble pour élaborer la ressource terminologique. Le terminologue, le documentaliste par exemple, est au centre de ce cadre méthodologique.

63

Il ne s’agit pas de construction automatique de ressources : les outils de traitement automatique de la langue apportent une aide à l’acquisition terminologique. Ils permettent d’extraire des relations et des termes candidats, mots ou séquences de mots extraits d’un corpus, susceptibles d’être retenus par un terminologue qui construit une ressource terminologique. Il existe différentes méthodes d’extraction : par patrons morphosyntaxiques et par analyse syntaxique (SYNTEX). Ce dernier outil est diffusé gratuitement dans le secteur de la recherche universitaire.

64

Après de nombreux retours d’expériences dans le cadre de projets de Recherche & Développement, les outils linguistiques pour la construction et la mise à jour de terminologies sont donc opérationnels. Ceci a permis de construire des interfaces et des éléments méthodologiques – ressources adaptées à un domaine, à une application, à un usage.

TermSciences, outil de gestion collaborative des contenus

65

TermSciences est un portail terminologique multidisciplinaire pour la communauté scientifique développé par l’Inist en partenariat avec le LORIA (Laboratoire lorrain de recherche en informatique et ses applications), l’ATILF (laboratoire Analyse et traitement informatique de la langue française), l’INRA, l’INSERM, la BDSP et le Cemagref. Ouvert en octobre 2005, il a pour objectif de valoriser et de mutualiser les ressources terminologiques (lexiques, dictionnaires, thésaurus) des organismes publics de recherche et d’enseignement supérieur pour aboutir à la constitution d’un référentiel terminologique commun. Chaque partenaire du projet dispose d’un sous-site où sont exclusivement affichées ses propres données.

66

TermSciences a reçu cette année le prix i-expo, mention organisme public, un prix qui récompense un service d’information ou un logiciel, développé par un organisme public, répondant de façon innovante à un besoin du marché. Le jury, composé de professionnels de l’information, a voulu distinguer ce « projet collaboratif innovant qui propose un service d’information terminologique scientifique unique en son genre ».

• Utilisation de TermSciences pour la recherche

67

La recherche d’information représente le principal usage de la base terminologique en ce sens qu’elle permettra à l’utilisateur de mieux tirer profit des bases de données bibliographiques ou du Web en reformulant sa requête – souvent un simple terme – en une multitude de variantes, de synonymes ou encore de traductions, ce qui lui permettra de récupérer des documents pertinents et dans lesquels le terme recherché n’est pas toujours présent. La navigation dans la base terminologique lui offrira aussi la possibilité d’exploiter le réseau de relations hiérarchiques ou associatives pour étendre ou restreindre sa requête initiale.

68

TermSciences est un outil destiné aux chercheurs et aux professionnels de l’information des organismes de recherche et d’enseignement supérieur, ainsi qu’aux entreprises impliquées dans le traitement du langage et de l’information où l’utilisation de vocabulaires spécifiques s’avère cruciale. Une ressource également pertinente pour les traducteurs scientifiques et les rédacteurs techniques qui ont besoin de trouver des équivalents fiables (communication multilingue) à des notions qui ne leur sont pas familières.

69

Plus généralement, la mise à disposition en accès libre de données terminologiques assorties de définition (dictionnaires de l’INRA, par exemple) devrait aussi éclairer les non-spécialistes sur le sens du vocabulaire utilisé par les scientifiques.

• Utilisation pour l’indexation

70

Le développement de TermSciences est fondé sur la mise en place de partenariats pour la constitution et la gestion du contenu terminologique. La participation est ouverte à l’ensemble des organismes de recherche et d’enseignement supérieur qui souhaitent mutualiser leurs ressources terminologiques et bénéficier d’un environnement et d’outils dont la finalité est de travailler de manière interactive à la gestion et à l’enrichissement des contenus.

71

Un comité éditorial, constitué de représentants des différents partenaires associés au projet, veillera à la cohérence de ces contenus et supervisera la validation scientifique des propositions de mises à jour qui pourront émaner des utilisateurs du portail terminologique.

72

Des fonctionnalités dédiées à la gestion collaborative seront accessibles aux utilisateurs identifiés (comme contributeurs), la consultation est librement accessible à tous.

73

La création de ce portail terminologique, a fait remarquer Majid Khayari en conclusion, coïncide avec la volonté des organismes de recherche et d’enseignement supérieur de s’orienter vers la création commune d’archives institutionnelles rassemblant l’ensemble des publications scientifiques et des données produites en leur sein. Dans ce cadre, TermSciences facilitera la communication entre les membres des communautés scientifiques en proposant des « passerelles » entre les différentes terminologies.

Recherche et diffusion d’information spécialisée, l’enjeu de l’automatisation

74

Comment utiliser les ressources pour optimiser l’indexation des documents et les processus éditoriaux chez les grands éditeurs ? Pour les éditeurs, le développement de services connexes aux moteurs de recherche (traducteur automatique, e-book, audio-book) et la réduction des coûts de diffusion des contenus sont des enjeux primordiaux.

75

Emmanuel Benoit a présenté le projet Quaero qui a pour objectif l’indexation automatique des contenus multimédias (texte, son, image, vidéo) et le traitement automatique des documents (circulation et stockage des contenus, technologies de recherche et de représentation multimédia). Claire Nedellec a démontré qu’avec une même requête on obtient des résultats différents en fonction des moteurs de recherche et des modes d’indexation (mots du texte, thésaurus, listes matières, schémas de classification) utilisés.

76

L’observation des pratiques, notamment des modes d’accès à l’information mis en place sur certains sites Internet grand public ou spécialisés, montre une grande diversité de systèmes où différentes modalités sont utilisables, au choix des utilisateurs ou, mieux, en complémentarité. Pour guider cette observation, on considérera, de façon peut-être simplificatrice, trois modalités d’accès pouvant coexister sur un même site : l’accès par requête sur le texte intégral, l’accès à travers un schéma de classification, et l’accès grâce à la médiation d’un langage documentaire et à l’élaboration de notices comportant un champ « sujet ».

77

La recherche d’information spécialisée requiert le développement d’applications spécifiques. Les méthodes automatiques d’indexation sémantique des documents et d’acquisition de thésaurus sont applicables aujourd’hui à des coûts réduits mais leur extension nécessite que les besoins documentaires soient clairement identifiés. Les professionnels de l’IST ont à jouer un rôle essentiel dans la formalisation des démarches et des connaissances métier à l’interface des utilisateurs et des informaticiens.

Conclusion des Rencontres 2007

78

Il revenait à Ghislaine Chartron, qui avait animé ces trois jours, de conclure ces Rencontres.

79

Le travail collaboratif n’est pas nouveau pour les documentalistes, les réseaux existent depuis longtemps. Ce qui est nouveau, c’est l’amplification du phénomène due au numérique. La réalisation de standards devient alors indispensable pour assurer l’interopérabilité (métadonnées de Hal, par exemple). La transversalité est devenue elle aussi indispensable, et l’on constate que les acteurs commencent à dépasser le clivage des institutions.

80

Ces rencontres ont montré que les compétences de nos métiers se renouvellent et se diversifient sur plusieurs points : la culture technique (informatique documentaire, Web), le management de projet et le travail intellectuel sur le contenu. Les documentalistes sont de plus en plus proches des projets de recherche et produisent de nouveaux objets documentaires (lettres d’information, méta-analyses, etc.).

Notes

[1]

Les titres des communications présentées lors de ces Rencontres et les affiliations des intervenants figurent en hors texte pages 314-315.

[2]

Les adresses des sites et organismes cités dans ce compte rendu sont regroupées en hors texte pages 319-320.

Résumé

Français

Organisées par l’Institut de l’information scientifique et technique (INIST-CNRS), les cinquièmes rencontres 2007 des professionnels de l’IST se sont déroulées du 18 au 20 juin à Nancy où se sont retrouvées plus de quatre cents personnes exerçant dans le monde de la recherche et de l’enseignement supérieur. Le fil conducteur de ces rencontres, qui d’année en année s’ouvrent à de nouveaux organismes et réseaux, était « Transversalité et travail collaboratif ». Une problématique envisagée suivant quatre thèmes : le Web 2.0, les archives ouvertes, l’évaluation scientifique et les nouvelles applications de la terminologie.

Plan de l'article

  1. Éco-système 2.0 : le Web social pour la veille, la recherche, la classification et la diffusion de l’information
    1. Le rapport au temps
    2. Le Web 2.0
    3. Qu’est-ce que le Web aujourd’hui ?
  2. Le TGE Adonis, infrastructure numérique en SHS : l’implication des chercheurs
  3. Les Archives Ouvertes en France et en Europe
    1. Le texte fondateur des AO en France
    2. Présentation du COST comité scientifique et technique
    3. Les systèmes d’alimentation de l’archive ouverte
    4. Le projet européen DRIVER, une infrastructure pour la recherche européenne
  4. L’évaluation scientifique et les indicateurs de la recherche
    1. Les indicateurs de production scientifique
    2. Peut-on classer les universités ? Réflexions sur Shanghai et autres exercices
    3. Le libellé des adresses françaises dans la base Web of Science de Thomson Scientific
    4. Les indicateurs de la production scientifique : le point de vue d’un chercheur
  5. Nouvelles applications de la terminologie
    1. Quelle terminologie pour le traitement automatique des langues ?
    2. Outils de traitement automatique des langues (TAL) pour la construction de ressources terminologiques à partir de textes
    3. TermSciences, outil de gestion collaborative des contenus
      1. • Utilisation de TermSciences pour la recherche
      2. • Utilisation pour l’indexation
    4. Recherche et diffusion d’information spécialisée, l’enjeu de l’automatisation
  6. Conclusion des Rencontres 2007

Pour citer cet article

Bonneville Anne, Bretin Marie-Laure, Contat Odile, Courtial Francine, Damoiseaux Magali, Dassa Michèle, Frapart Isabelle, Gaultier-Voituriez Odile, « Les rencontres 2007 des professionnels de l'IST. Transversalité et travail collaboratif », Documentaliste-Sciences de l'Information 4/2007 (Vol. 44) , p. 312-321
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-4-page-312.htm.
DOI : 10.3917/docsi.444.0312.


Article précédent Pages 312 - 321 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback