2003
Revue internationale des sciences sociales
Des données plus solides pour des politiques mieux informées
Améliorer la disponibilité des ressources de données qualitatives : services et besoins infrastructurels
Louise Corti
Louise Corti est directrice associée de la uk Data Archive à l’Université de l’Essex au Royaume-Uni, où elle dirige le service des données qualitatives, des prestations aux groupes mal desservis et de la formation. Elle a enseigné la sociologie et les méthodes de recherche dans le domaine social, et travaillé pendant six ans à la création, la mise en place et l’analyse du British Household Panel Study à l’Université de l’Essex. Elle s’intéresse à la fois à l’aspect quantitatif et à l’aspect qualitatif de la recherche dans le domaine social.
Le présent article donne une vue générale des possibilités qui se présentent et des problèmes qui se posent à un prestataire national de services de données qualitatives, et plus particulièrement de la manière dont ces possibilités et problèmes sont liés à l’accroissement des impératifs en matière d’infrastructure, en se basant essentiellement sur le cas du Royaume-Uni. En retraçant l’histoire du service des données anglais Qualidata depuis 1994, il est possible de déterminer comment les obstacles culturels et financiers majeurs ont été surmontés, et comment de nouvelles perspectives lui ont permis de prendre un nouveau départ. La deuxième partie présente sommairement le nouveau uk Economic and Social Data Service (service des données économiques et sociales du Royaume-Uni) qui est doté d’une composante particulière de données qualitatives intégrée. Elle explique les nouvelles orientations dudit service et ses prestations annoncées, et propose quelques innovations-clés dans l’infrastructure nationale qui contribueraient largement à sa réussite. Deux éléments sont particulièrement importants, à savoir la mise en place par les bailleurs de fonds de la recherche de politiques mieux coordonnées et plus directives en matière de jeux de données en sciences sociales et une stratégie de formation aux méthodes de recherche avec une coordination au plan national qui reconnaît la valeur de l’analyse secondaire des données qualitatives. Enfin, cet article nous donne des informations précises sur un projet pilote du Royaume-Uni visant à permettre la consultation en ligne de données de recherche qualitative sur l’Angleterre du roi Édouard VII.
Le présent article a pour objet de donner une vue générale des possibilités qui se présentent et des problèmes qui se posent à un prestataire national de service des données qualitatives, et plus particulièrement de la manière dont ces possibilités et ces problèmes sont liés à l’accroissement des impératifs en matière d’infrastructure.
Dans la première partie, je dresse le panorama de la production passée et présente de données qualitatives en me référant largement à la situation au Royaume-Uni. J’examine ensuite les nouvelles orientations de la production de données et des services d’assistance connexes. En retraçant l’histoire du service des données anglais Qualidata depuis 1994, nous pouvons déterminer comment les obstacles culturels et financiers majeurs ont été surmontés et comment de nouvelles perspectives lui ont permis de prendre un nouveau départ.
Dans la deuxième partie, je présente sommairement le nouveau uk Economic and Social Data Service doté d’une composante particulière de données qualitatives intégrée. J’explique les nouvelles orientations et les prestations annoncées dudit service et je montre comment certaines innovations-clés de l’infrastructure nationale contribueront largement à sa réussite. Les deux points en question sont la mise en place par les bailleurs de fonds de la recherche de politiques mieux coordonnées et plus directives en matière de jeux de données en sciences sociales et une stratégie de formation aux méthodes de recherche, avec une coordination nationale, qui reconnaît la valeur de l’analyse secondaire des données qualitatives. Je mets ensuite ces questions en lumière en m’appuyant sur l’exemple d’un projet pilote visant à permettre la consultation en ligne de données qualitatives de recherche sur l’Angleterre du roi Édouard VII.
Jusqu’à une date récente, aucune infrastructure n’existait au Royaume-Uni pour l’archivage systématique et la diffusion des données qualitatives provenant de la re-cherche en sciences sociales. Dès 1967, l’Economic and Social Research Council (esrc) avait déjà reconnu l’utilité de conserver les données lisibles par ordinateur les plus importantes provenant de la recherche empirique qu’il finançait en mettant sur pied des archives de données. Depuis les années 1970, les archives de données en sciences sociales du monde entier ont acquis en général un nombre important de données relatives à la société d’hier et d’aujourd’hui puisées à des sources telles que les enquêtes, les recensements, les registres et les statistiques agrégées. De leur côté, ces centres d’expertise ont mis en place des réseaux de services des données pour les sciences sociales qui favorisent la coopération concernant les stratégies, les modalités et les technologies-clés d’archivage.
Les données d’enquête essentielles peuvent ainsi être à nouveau analysées par d’autres chercheurs et l’argent dépensé pour la recherche est devenu non seulement une mise de fonds immédiate, mais aussi un investissement pour l’avenir. Cette politique avait néanmoins une grave lacune en ce sens que les données qualitatives étaient rarement acquises, même si un grand nombre de données était créé par informatique. Les années 1990 connurent une hausse de la demande d’accès aux textes et aux images numériques, et au matériel audiovisuel. Quand une petite étude pilote fut réalisée par Paul Thompson en 1991 (Thompson, 1991) à la demande de l’esrc, celle-ci révéla que 90 % des données de recherche qualitative étaient soit déjà perdues, soit en péril au domicile ou dans les bureaux des chercheurs. On a constaté par ailleurs que les 10 % « archivés » ne répondaient pas aux normes de base des archives comme la sécurité physique, l’accès au public, le catalogage rationnel, avec des informations enregistrées ou un équipement pour écouter celles-ci. On a calculé par la suite que cela coûterait au moins vingt millions de livres pour créer une source à la mesure des données en péril. Pour les documents anglais de sociologie plus anciens néanmoins, le danger était grand et la nécessité d’agir particulièrement urgente. Ce qu’allait confirmer par la suite la destruction des données de recherche provenant des études classiques sur les communautés anglaises de Banbury (Stacey, 1974) et de Sparkbrook (Rex et Moore, 1967) et de l’étude longitudinale sur la façon d’élever les enfants au Royaume-Uni de John et Elizabeth Newson (1976).
En 1994, le premier projet d’archivage des données qualitatives à l’échelon national fut mis en place au Royaume-Uni avec le soutien de l’esrc. Installé dans les locaux du département de Sociologie de l’université de l’Essex, ce projet avait pour mission de faciliter l’archivage des données qualitatives provenant de la recherche en apportant des documents à l’appui, tout en attirant l’attention des communautés de chercheurs sur l’existence et les perspectives de celui-ci. La première tâche des participants à ce projet fut une opération de sauvetage afin de rechercher les éléments créés par la recherche dans les années passées les plus marquants. Leur deuxième tâche fut de travailler avec l’esrc pour mettre en œuvre une politique en matière de jeux de données (esrc, 2002a), en veillant à ce que pour ce projet et pour les projets à venir, le gâchis inutile du passé ne se réitère pas. Qualidata n’a pas été institué comme un centre d’archives en lui-même, mais comme un bureau de centralisation des informations et une unité d’action, avec pour rôle celui de localiser et d’évaluer les données provenant de la recherche, de les cataloguer, d’organiser leur transfert vers des archives appropriées à travers le Royaume-Uni, de faire connaître son existence aux chercheurs et d’encourager la réutilisation des collections (Corti, Foster et Thompson, 1995 ; Thompson et Corti, 1998).
Qualidata a établi des méthodes pour trier, traiter et inventorier les données brutes comme les documents les accompagnant (métadonnées) ; pour faire systématiquement le descriptif des études pour les systèmes de communication de ressources sur le web ; pour mettre en place des mécanismes adaptés à la consultation ; pour favoriser la réutilisation des données qualitatives et assurer la formation dans ce domaine (Corti, 2000). En 2002, Qualidata avait acquis, traité et catalogué quelque cent quarante jeux de données et catalogué cent cinquante autres jeux de données se trouvant dans les archives de tout le Royaume-Uni. Des données d’« études classiques » provenant de chercheurs de premier plan qui subsistaient furent également sauvées, notamment des projets anglais individuels connus tels que The Affluent Worker de Goldthorpe et de son équipe (1962), Folk Devils and Moral Panics de Stan Cohen (1967) et le travail de toute une vie de chercheurs anglais précurseurs comme Peter Townsend (Family Life of Old People (1955), The Last Refuge (1962) et Poverty in the UK (1979)) et comme Paul Thompson (The Edwardians (1975) et Families, Social Mobility and Ageing. An Intergenerational Approach (1993)), deux enquêtes d’histoires de vie.
Il existe également aux États-Unis un centre qui s’est occupé de rassembler de manière systématique des données de recherche qualitative pour en permettre l’accès aux autres chercheurs en sciences sociales. Fondé en 1976, le Murray Research Centre : A Center for the Study of Lives est le dépositaire national des données en sciences sociales et behavioristes sur le développement humain et l’évolution sociale, et en particulier sur la vie des femmes américaines (James et Sorenson, 2000). Ces archives contiennent plus de deux cent soixante-dix jeux de données avec un large éventail de sujets, d’échantillons et de modèles. Un grand nombre de ces études comporte des entrevues en profondeur, ou tout du moins des questions pour des enquêtes à réponse libre. Dans un recueil majeur d’études longitudinales sur la santé mentale figurent Crime Causation Study de Glueck et Glueck (1968), Intergenerational Studies de l’Institute of Human Development et Life Cycle Study of Children of High Ability de Terman (1954). Dans le domaine de la diversité raciale et ethnique se trouve l’importante étude de Brunswick, Harlem Longitudinal Study (1994).
Enfin, un certain nombre d’autres initiatives a eu lieu de par le monde ces quelques dernières années pour tenter de mettre en place des projets nationaux d’archivage des données de recherche qualitative. À l’heure où je rédige cet article, les Archives tchèques de données qualitatives et de documents, une structure de petite dimension, viennent d’être créées à la faculté d’Études sociales de l’université Masaryk ; l’Allemagne et la Suisse préparent actuellement des projets pour la création de centres de formation et de documentation pour la recherche qualitative. D’autres, avec en tête les Archives nationales de données en sciences sociales (issues d’enquêtes) de Finlande, des Pays-Bas, du Danemark et du Canada sont en train de mener des études de faisabilité.
Une ère nouvelle pour la production de données qualitatives
À partir de 2001, Qualidata a commencé une nouvelle existence comme unité spécialisée de l’uk Data Archive (ukda) de l’université de l’Essex, avec comme principale orientation l’acquisition et la distribution des données numériques. Au nombre des éléments moteurs à l’origine du fusionnement des services des données figuraient le désir de créer une source unique de données en sciences sociales autour d’une seule plaque tournante donnant à l’Essex un portfolio de compétence en matière de données et d’anticipation technologique unique en son genre ; le besoin de renforcer les alliances pour répondre à l’appel à la concurrence qui a suivi l’analyse stratégique faite par l’esrc de ses propres services d’archivage et de diffusion des données ; le désir de rationaliser et de simplifier la procédure de dépôt des données pour les déposants de l’esrc ; et un besoin croissant de réduire la délimitation entre données qualitatives et données quantitatives. Il est vrai également que sans ce fusionnement, le service Qualidata, qui avait subi une réduction notable de ses moyens financiers et la perte des principaux membres de son personnel entre 1999 et 2001, au moment de son évaluation périodique, n’aurait probablement pas survécu.
La première phase du processus d’intégration s’est achevée en octobre 2001, avec la mise en place d’un grand nombre de modalités stratégiques et opérationnelles d’acquisition et de traitement des données, de création et de diffusion des métadonnées. Par ailleurs, la totalité du personnel a été intégrée au sein de l’infrastructure d’ukda. Jusqu’en décembre 2002, d’autres tentatives ont été faites pour harmoniser les méthodes de travail. À commencer par la mise en place d’un programme de formation interdivisionnaire visant à élargir les compétences du personnel d’ukda en matière de traitement des données, afin de couvrir un plus large éventail de types de données, dont les jeux de données concernant les méthodes mixtes. Vient ensuite le transfert aux serveurs d’ukda du site web et du catalogage en ligne de Qualidata. Et enfin la présentation d’un programme de travail de Qualidata visant à la création de guides de l’utilisateur pouvant être consultés gratuitement en ligne pour toutes ses collections majeures.
Nouvelles orientations
Il existe une tradition bien établie en sciences sociales concernant l’analyse secondaire des données quantitatives, et il n’y a logiquement et intellectuellement aucune raison qu’il en soit autrement pour les données qualitatives. La pratique dans le domaine de la recherche de la réutilisation des données qualitatives d’autrui est relativement récente, et c’est pour cela que la quantité de « preuves » publiées concernant les avantages et les limites de la méthode est réduite. L’accroissement des stocks de ressources en données qualitatives a suscité un intérêt pour l’analyse secondaire, mais il est clair que les modes de réutilisation des données dont Qualidata a pu être témoin depuis les débuts en 1995 dépendent grandement de la nature des données disponibles. À mesure que le stock de données augmente, le potentiel de l’utilisateur augmente lui aussi et les résultats des analyses secondaires trouvent leur application dans le domaine universitaire. Cela dit, la demande concernant la réutilisation des données est en partie le résultat des efforts investis dans le reconditionnement et la promotion des collections de données selon les vœux formulés par les chercheurs ou les apprenants, et de l’assistance spécialisée à l’utilisateur qui a suivi.
Conscient de la nécessité d’obtenir le concours et de retenir l’attention de nouveaux utilisateurs de ressources en données qualitatives, l’esrc a entrepris de lancer un appel d’offres pour un service national de données qualitatives ayant la caractéristique d’un service spécialisé « à valeur ajoutée » du service des données économiques de l’esrc/jics à plus grande échelle. Les objectifs premiers de la création d’un service intégré de données économiques et sociales étaient d’assurer l’élaboration et la maintenance d’une méthode d’archivage et de diffusion des données plus intégrée, et de permettre un accès plus continu et plus facile à un éventail de ressources disparates en données en sciences sociales pour l’enseignement supérieur et tertiaire non universitaire.
Le groupe Qualidata a donc une nouvelle priorité : fournir l’accès – avec une assistance – à toutes sortes de jeux de données qualitatives accessibles et faciles d’emploi. Ce travail repose sur la compétence et la réputation internationale dans ce domaine qu’il a acquise au cours des huit dernières années.
Au cœur du nouveau service se trouvent plusieurs objectifs clés : la création d’un certain nombre de stratégies pour le « renforcement des données » ; un programme de travail pour améliorer l’accès aux données et à la documentation, par exemple via le web ; et enfin faciliter leur utilisation secondaire au moyen d’une assistance proactive à l’utilisateur et d’activités de formation. Une stratégie de renforcement des données en six points a été proposée :
- création d’échantillonnages sur le web pour présenter les « points essentiels établis » du matériel qualitatif clé destinés à mettre en lumière le potentiel de la collection dans le domaine de la recherche et de l’enseignement ;
- création de ressources thématiques au moyen desquelles des entretiens portant sur un thème particulier et sur une période particulière seront regroupés en une seule source, par exemple la criminalité et l’ordre social à la fin du xxe siècle ;
-
traitement à valeur ajoutée garantissant l’ anonymat total des données relatives aux entretiens, leur formatage numérique approprié, l’attribution des citations des intervenants et le renforcement des aides au niveau de la recherche avec des guides de l’utilisateur en ligne spécialisés, des pages web associées ;
-
transmission web de données primaires ayant fait l’objet d’un marquage, telles que transcriptions d’entretiens, utilisant les normes et les outils xml pour permettre une extraction plus rapide et plus souple des informations ;
-
renforcement de l’accès aux collections de données qualitatives clés se trouvant ailleurs, en association avec les archives hébergeant ces collections, en vue d’en faciliter l’utilisation dans le domaine de la recherche et de l’enseignement ;
-
un appareil de démonstration pour archives vidéo pour faire une étude sur l’utilisation des méthodes vidéo, en se concentrant sur les questions méthodologiques, éthiques, techniques et analytiques.
Doté de ses nouvelles attributions, Qualidata a franchi un premier pas en direction de l’accès aux données en ligne avec la mise en place du projet « Edwardians Online » (les Anglais de l’époque du roi Édouard VII en ligne) (Barker, 2002), dont je parlerai ci-après, une source en ligne fournissant un accès qui privilégie le contenu avec une table des matières à une collection d’entretiens historiques avec des personnes ayant vécu dans l’Angleterre du roi Édouard VII. Cette source multimédia comporte le matériel primaire et secondaire existant afférent aux entretiens, tel que transcriptions de textes originaux, extraits numériques de bandes audio originales, matériel de référence concernant les travaux de recherche originaux et détails de publications faites à partir d’ études secondaires sur des textes d’entretiens. Cette source a fourni un modèle pour la numérisation et la production interactive en ligne de « collections classiques » basée sur des données qualitatives pour les sources du domaine de la recherche et de l’enseignement.
La publication de sources de données qualitatives renforcées au sein de systèmes sur le web sera complétée par le montage de toutes les données qualitatives centrales nouvellement acquises sur le service de téléchargement direct sur le web d’ukda. Les données électroniques acquises antérieurement seront montées sur le service de téléchargement conformément à la demande des utilisateurs et les données seront offertes généralement sous forme de texte informatique et de texte ordinaire, et non pas au format caqdas (Computer Assisted Qualitative Data Analysis Software) [logiciel d’analyse de données qualitatives assistées par ordinateur], mais le service répondra à toute demande significative de format particulier de logiciel. L’une des priorités du service est de définir et d’encourager l’utilisation d’un format de données indépendant des logiciels à des fins de préservation à long terme ainsi que pour le transport de données codées entre logiciels caqdas.
Le nouveau service met principalement l’accent sur l’assistance à l’utilisateur, avec un service d’assistance spécialisé, des événements et des jours de formation, ainsi que des ateliers de « comparaison des données » pour améliorer la compréhension méthodologique et de fond ainsi que le potentiel des sources de données qualitatives archivées en matière d’analyse secondaire. Comme par le passé, les créateurs et les déposants de données qualitatives recevront également conseil et assistance.
La nécessité d’un nouveau service dynamique au niveau de l’infrastructure
Pour permettre la production, le partage et la réutilisation des données qualitatives comme le souhaitent et le demandent aujourd’hui les utilisateurs, il y a six points fondamentaux en rapport direct avec l’infrastructure nationale. Le mieux est probablement de les considérer non pas comme des nécessités souhaitables, mais des nécessités indispensables :
- un centre de recherche national en sciences sociales de premier ordre ;
- une infrastructure pour l’archivage et la diffusion des données avec des ressources financières suffisantes gérées avec prévoyance ;
- des règles obligatoires de mise en commun des données ;
- un accès à des réseaux spécialisés dans le domaine de la recherche et de la technologie ;
- un accès à un groupe d’utilisateurs « avertis » et compétents ;
- des centres d’expertise jouissant d’une bonne réputation et qui innovent.
Un support national pour la recherche en sciences sociales
Avec un budget annuel de plus de soixante dix-huit millions de livres, l’esrc est la première agence du Royaume-Uni pour le financement de la recherche et de la formation pour les questions économiques et sociales. Il est connu dans le monde entier pour ses prestations de qualité en matière de recherche sur des aspects importants de l’activité économique, du secteur public et du gouvernement et pour son attachement à pratiquer l’excellence. L’esrc a pour mandat :
- de promouvoir et de soutenir, par n’importe quel moyen, la recherche fondamentale, stratégique et appliquée de haut niveau et la formation correspondante de troisième cycle en sciences sociales ;
- de faire avancer la connaissance et de produire des spécialistes en sciences sociales qualifiés répondant aux besoins des utilisateurs et des ayants droits, contribuant ainsi à la compétitivité économique du Royaume-Uni, à l’efficacité des services publics et de leur politique, et à la qualité de vie ;
- de donner des conseils en sciences sociales, de faire connaître celles-ci et de mieux les faire comprendre au public.
Ses objectifs stratégiques centraux sont :
- axer la recherche en sciences sociales sur les priorités scientifiques et nationales ;
- renforcer la capacité de la recherche en sciences sociales à atteindre le niveau le plus élevé ;
- augmenter l’impact de sa recherche sur les politiques et les usages ;
- d’exercer ses activités de manière efficace et efficiente.
Par chance pour les communautés de chercheurs du Royaume-Uni, l’esrc est conscient de l’importance de la préservation, de la mise en commun et de la réutilisation des données en sciences sociales. Il est déjà reconnu que les ressources du domaine de la recherche sous forme de données créées grâce à la recherche sont des actifs à long terme ; que la recherche doit être de haut niveau et avoir comme moteur non pas telle ou telle méthode particulière, mais les problèmes ; que le cas échéant, elle devrait être de caractère interdisciplinaire et international. Je parlerai ensuite de la politique de mise en commun des données au Royaume-Uni pour mettre en évidence le rôle vital qu’elle joue dans la constitution d’un stock national de ressources en données qualitatives.
Infrastructure nationale de l’archivage et de la diffusion des données
Outre les bailleurs de fonds clés de la recherche nationale qui proclament leur soutien à la production de ressources du domaine de la recherche et à la pratique de la mise en commun des données et de leur utilisation secondaire, une infrastructure nationale doit être mise en place afin de joindre la parole aux actes. Pour bien faire, cette infrastructure devrait accueillir :
- des centres d’expertise ;
- des responsables compétents et un personnel hautement qualifié ;
- des activités en interne de traitement et de préservation des données, pour lesquelles les dépenses sont déterminées de manière appropriée ;
- des équipement répondant au besoin d’innovations techniques ;
- des activités d’assistance et de formation aussi bien du point de vue réactif que proactif ;
- un programme de recherche pour entreprendre à la fois un travail à valeur ajoutée et un travail méthodologique sur les données.
Le Royaume-Uni a eu de la chance, par rapport à d’autres pays, de voir les ressources étendues du réseau de l’esrc se transformer en archives nationales des données depuis 1967 et des sommes d’argent, plus limitées, s’investir depuis 1994 dans un service des données qualitatives. Avec un financement assuré jusqu’en 2007 qui couvre une grande partie des éléments énumérés ci-dessus, on peut prévoir que cette réussite va se poursuivre. Cela dit, la solidité de ces centres est tributaire dans une certaine mesure de la politique systématisée de mise en commun des données que défend et soutient l’esrc depuis quelques années. Dans la partie suivante, je donne une vue d’ensemble de la politique de l’esrc en matière de jeux de données car, pour Qualidata assurément, elle constitue l’élément central à bien des égards. Pour Qualidata effectivement, sa stratégie d’acquisition de données est largement tributaire de l’afflux de données résultant de l’obligation pour les chercheurs d’adhérer à ladite politique.
Des règles obligatoires concernant la mise en commun des données
Il y a un certain nombre d’éléments moteurs clés pour l’instauration de politiques de mise en commun des données. À la base se trouve le sentiment grandissant que les « données » sont la pierre angulaire de la science. Deuxièmement, les dispositions juridiques et les arguments du financement public sont des éléments convaincants pour les bailleurs de fonds de la recherche de mettre en place des mécanismes permettant d’accéder aux données. Troisièmement, la demande formulée par les communautés de chercheurs pour avoir accès aux données coûteuses déjà collectées et leur volonté de mettre en commun leurs propres données contribuent à inscrire cette question à l’ordre du jour. Enfin, les avancées spectaculaires faites dans la recherche scientifique qui collecte des quantités considérables de données, lesquelles bien souvent sont distribuées et nécessitent un équipement de stockage et d’analyse coûteux, justifient la mise en place d’infrastructures appropriées. Face à ces éléments moteurs se trouvent des obstacles qui peuvent compliquer l’instauration des mesures de mise en commun des données – ceux des droits de propriétés et de la vie privée des gens – mais ni l’un ni l’autre ne sont insurmontables.
Le fait de permettre d’accéder de manière efficace à des données scientifiques fiables a le mérite de soulever le problème de la préservation, de l’archivage et de la mise en commun de ces données. Bon nombre de bailleurs de fonds admettent aujourd’hui qu’il y a plusieurs bonnes raisons d’investir dans la mise en commun des données. Le National Institute of Health (nih) résume la question de manière concise : « la mise en commun des données élargit le champ de la recherche scientifique, elle encourage la diversité de l’analyse et de l’opinion, elle favorise de nouvelles recherches, rend possible la vérification d’hypothèses et de méthodes d’analyses nouvelles ou alternatives, elle sert de support aux études sur les méthodes de collecte de données et à leur évaluation, facilite la formation de nouveaux chercheurs, donne le moyen d’explorer des sujets que les premiers investigateurs n’avaient pas imaginés et permet la création de nouveaux jeux de données lorsque des données de sources multiples sont combinées. En évitant le double emploi dans les activités coûteuses de collecte de données, le nih est capable d’apporter son soutien à un plus grand nombre d’investigateurs qu’il ne pourrait le faire si des données similaires devaient être une nouvelle fois collectées à partir de zéro par chaque demandeur… ».
Jusqu’à présent, néanmoins, les investissements dans la mise en commun des données varient d’une discipline à l’autre. Les sciences sociales et les lettres ont été les premières à mettre en œuvre et à promouvoir des politiques en matière de données, se targuant parfois de faire des investissements depuis trente ans. On le voit bien en examinant les politiques menées par les bailleurs de fonds. Si au Royaume-Uni, bon nombre de ceux qui financent la recherche conduisent effectivement une politique de mise en commun des données, c’est en sciences sociales et en lettres que les orientations de cette politique sont les plus manifestes. Dans le domaine des sciences naturelles, seul le nerc a une politique officielle en matière de données. Ces politiques se différencient par leur caractère d’obligation plus ou moins marqué ; par le degré d’implication des organisations bénéficiaires dans l’évaluation des applications de la recherche et des plans de gestion des données associés ; par la part qui, dans un budget, devrait être affectée à la préparation des données et à la documentation pour l’archivage ; par les modalités autorisant les chercheurs à mettre l’embargo sur des données.
La politique de l’esrc en matière de jeux de données qui a été instaurée dans les années 1990 renforce et met en évidence sa détermination concernant l’acquisition et l’utilisation des jeux de données, dont la nécessité constitue le facteur déterminant de son financement de la recherche. L’esrc demande à tous ceux qui bénéficient de subventions d’offrir en dépôt des copies de données qualitatives, qu’elles soient lisibles par machine ou non, dans les trois mois précédant l’arrivée à terme de leurs subventions. Cela concerne non seulement les jeux de données provenant de collectes de données primaires, mais aussi sur les jeux de données dérivés résultant de travaux financés par l’esrc.
Pour mener sa politique en matière de jeux de donnés, l’esrc subventionne deux centres de documentation chargés du catalogage et de l’archivage des données. L’ukda est chargé de l’acquisition, la documentation, la diffusion et la préservation des données numériques créées dans le cadre des subventions d’aide à la recherche de l’esrc. Qualidata est chargé plus spécialement des données qualitatives sous forme numérique et non numérique. L’ukda et Qualidata ont une stratégie coordonnée d’acquisition des données quantitatives/qualitatives qui favorise le flux de données qualitatives destinées à l’archivage. Les deux centres qui possèdent une longue expérience de l’acquisition et de la gestion de collections de données sous tous leurs aspects, notamment les contrats de licence, le travail avec les boursiers de l’enseignement supérieur lors du dépôt des données et la mise en relation avec d’autres producteurs de données tels que les autres bailleurs de fonds de la recherche, sont bien placés pour conduire cette politique.
Ladite politique exige que les jeux de données soient déposés à un central qui permette l’utilisation des données par une tierce partie, notamment la mise à disposition de la documentation utile. Il est conseillé aux déposants de contacter les deux centres de documentation dans les plus brefs délais au cas où la nature des données rendrait leur dépôt difficile. Plus tôt auront lieu ces discussions dans le déroulement de la recherche, plus les chercheurs auront de chance de créer des jeux de données solidement documentés, sans caractère confidentiel ni contrainte de licence, et utilisables pour une analyse secondaire. Le soutien aux bénéficiaires d’une subvention et aux déposants potentiels se présente généralement sous forme de recommandations et de remarques en ligne sur la préparation des données en vue de leur dépôt. Elle va même jusqu’à adopter un rôle plus proactif en s’efforçant de souligner l’importance de mettre en commun et de préserver les données au sein des sciences sociales et en éveillant activement l’attention des personnes bénéficiant d’une subvention sur leurs obligations.
Le droit d’auteur pour les données déposées à l’ukda revient au/aux titulaire(s) du droit d’auteur avec qui les conditions d’accès ont été convenues. Les dépôts doivent s’accompagner d’une attestation de licence. L’utilisation des données est également subordonnée à l’acceptation par l’utilisateur d’un contrat d’accès en bonne et due forme respectant les conditions de dépôt.
Une étroite collaboration entre spécialistes, créateurs et utilisateurs de données est primordiale pour élaborer des normes, des outils et des infrastructures de mise en commun des données, notamment pour les questions concernant :
- les métadonnées et les normes associées ;
- le statut du dépositaire des données et le cadre de gestion des droits ;
- l’autorisation de réutiliser les données dans le futur ;
- la garantie de qualité des données ;
- les normes et outils de préservation ;
- les critères de hiérarchisation des ressources pour l’investissement dans la préservation et la mise en commun.
L’ukda et Qualidata ont participé à l’ébauche et la mise en place de la politique de l’esrc en matière de jeux de données, et forts de l’expérience qu’ils ont eue de la « mise en service » de celle-ci au cours des dix dernières années, ont proposé récemment une série d’ajustements pour les modes de fonctionnement qui pourraient conduire à une politique plus énergique, plus systématique et plus responsable. L’une des préoccupations centrales de la politique actuelle est que l’amélioration des voies de communication à triple sens entre l’esrc, les bénéficiaires d’une subvention et les services d’archivage et de diffusion des données serait nettement avantageuse pour les centres de documentation. La première suggestion a été d’impliquer les services d’archivage et de diffusion d’un bout à l’autre du cycle de production des données, ce qui permettrait notamment la participation du centre de documentation au niveau de la sélection des demandes de subventions pour encourager le dépôt de données de haute qualité et la documentation. Deuxièmement, pour mettre en place la première proposition, l’esrc a besoin de fixer une stratégie interne qui soit entièrement coordonnée, avec un personnel spécialisé, pour assurer une bonne conduite et un bilan positif de la politique. Un exemple pour les centres d’archivage du Royaume-Uni : recevoir en temps utile la mise à jour des nouvelles subventions et des nouvelles activités de création de données, ce qui n’est pas le cas pour eux à l’heure actuelle.
Troisièmement, à l’image des principes du nerc énoncés ci-dessus, la politique en matière de jeux de données bénéficie du fait que les créateurs de données sont tenus de produire un plan de gestion des données en bonne et due forme au stade de la demande et de la présélection, en particulier pour les programmes de recherche coûteux ; d’avoir une idée plus rigoureuse du délai autorisé pour la mise en place de l’embargo sur les données demandé par les investigateurs et sur l’application des sanctions à l’encontre des chercheurs « réfractaires ». La politique de l’esrc en matière de jeux de données fait actuellement l’objet d’une révision, mais une synthèse de la politique récente figure à la section 17 du Guide to Research Funding (Guide du financement de la recherche) de l’esrc (esrc, 2002a).
Enfin, cela serait tout à fait bénéfique pour les services des données si quatre autres volets d’activité liée à la recherche étaient incorporés à la politique de mise en commun des données et associée à un examen collégial des demandes de subventions à la recherche :
- les arbitres scientifiques devraient formuler des avis sur la valeur à long terme des données du domaine de la recherche et la communauté, à une plus grande échelle, devrait considérer les données de première qualité comme un produit de la recherche de grande valeur ;
- un programme d’éducation est nécessaire pour modifier les attitudes à l’égard du choix raisonné, de la confidentialité et du droit d’auteur des données et pour que les participants, les investigateurs, les bailleurs de fonds (universitaires et non-universitaires), les comités d’éthique de la recherche, les responsables politiques et les législateurs leur octroient une durée de vie plus longue ;
- les programmes de recherche devraient avoir une vision plus supplétive et plus systémique de leurs activités de production et de documentation de données faisant partie intégrante du projet ;
- il devrait y avoir des subventions de recherche pour l’analyse secondaire des données archivées.
L’accès aux compétences en matière de recherche et de technologie pour la création de sources de données
La production de sources de données en ligne peut nécessiter un nombre considérable d’activités de recherche et de conception qui sont onéreuses et qui demandent une évaluation concertée, des tests d’application et des délais de production. De la même manière, même en empruntant des solutions techniques à d’autres domaines de la conception, l’adaptation du produit aux besoins techniques propres de l’organisation peut être décourageant et prendre du temps. L’ukda qui, d’une manière générale, n’a reçu aucun soutien de ses principaux bailleurs pour la recherche-développement et les innovations techniques quelles qu’elles soient, a misé sur l’octroi de subventions en provenance d’autres sources financières. Le nesstar (Networking Social Science Tools and Resources [Outils et sources en réseau des Sciences sociales]) par exemple, qui était un projet multinational, a reçu quelque deux millions de livres de la Commission européenne au titre des quatrième et cinquième Programmes cadres pour la technologie de l’information pour produire une suite d’outils de navigation et d’exploration pour la prospection des données en ligne. Basé à l’ukda, le projet limber (Language Independant Metadata Browsing of European Resources [Navigation dans les métadonnées indépendantes en linguistique des sources européennes]) a également reçu des fonds de la Commission européenne pour créer un interface utilisateur multilingue pour les données stockées dans les archives des sciences sociales de toute l’Europe.
Le maintien d’une communauté de données dynamique par le biais par exemple du Council of European Social Science Data Archives (cessda) (Conseil des archives européennes de données en sciences sociales), l’International Federation of Data Organisations for the Social Sciences (ifdo) (Fédération internationale des organisations de services des données pour les sciences sociales) et l’International Association for Social Science Information Service and Technology (iassist) (Association internationale pour les services et technologies de l’information en sciences sociales) est indispensable pour permettre à ces partenariats axés sur les projets de voir le jour. Le uk Joint Information System Committee (Comité commun des systèmes de l’information du Royaume-Uni) qui cofinance le nouveau National Economic and Social Data Service (service national des données économiques et sociales) reçoit souvent lui aussi des demandes pour des projets pilotes ou de démonstration de technologie de l’information qui peuvent souvent trouver des applications en sciences sociales.
Notre expérience au Royaume-Uni nous montre qu’il est très utile d’établir des liens avec les bailleurs de fonds des technologies de l’information et de la communication et avec les concepteurs qui demandent des subventions dans des disciplines autres que les sciences sociales. C’est ainsi par exemple que l’ukda a un service interne des données historiques branché sur des programmes qui exploitent les sources numérisées du domaine des lettres.
En dernier lieu, afin de nous assurer que nos efforts vont dans la bonne direction, nous nous devons de consulter nos communautés d’utilisateurs réels et d’utilisateurs potentiels sur ce qu’ils veulent et comment ils le veulent. Ils doivent être impliqués dans toutes les phases du travail de recherche et de conception, qu’il s’agisse de la consultation, de l’expérimentation ou de l’évaluation.
Accès à une base d’utilisateurs compétents
Si l’analyse secondaire de données qualitatives doit devenir une méthode courante et reconnue pour les sciences sociales, nous aurons alors besoin d’une notice d’emploi concernant les méthodes et d’études de cas ayant fait l’objet d’une publication, considérées comme exemplaires. Il nous faut avant tout développer et élever une nouvelle « race » d’utilisateurs compétents à laquelle nous devons d’abord « incorporer » du matériel d’apprentissage rassurant et facile à digérer qui démontre l’utilité des stratégies méthodologiques et analytiques.
Un certain nombre de ressources ou d’activités, qui peuvent sembler un peu idéalistes, peut contribuer à faciliter l’analyse secondaire des données archivées par les chercheurs débutants comme par les chercheurs expérimentés :
- outils efficaces de découverte des ressources et métadonnées utiles ;
- sites web d’information à l’usage des utilisateurs avec des conseils, du matériel téléchargeable, des études de cas, une « foire aux questions » (faq), etc. ;
- publications axées sur l’analyse secondaire de données qualitatives reconnues dans la littérature informatique ;
- programme de formation à long terme à la réutilisation des données ;
- accès à un programme national de formation aux techniques de recherche de plus grande envergure (objet de la recherche, collecte de données, analyse et compte-rendu) ;
- communautés d’utilisateurs actifs dans les domaines de la recherche, de l’enseignement et de la formation qui sont à la fois exploitées et financièrement indépendantes ;
- relations de travail interdisciplinaires et internationales et partenariats.
J’insiste ici sur les besoins en matière de formation car, à bien des égards, ce sont eux qui incitent à procéder à l’analyse secondaire de manière appropriée.
À l’écoute des communautés d’apprenants et d’enseignants
Les données qualitatives archivées constituent une source abondante d’informations pour la recherche dans le domaine de l’enseignement et de la formation, qui est unique en son genre mais qui est souvent inexploitée. Si la mise en commun et la réutilisation des données sont devenues des pratiques plus largement acceptées au Royaume-Uni, et ce grâce à Qualidata pour une bonne part, des enquêtes semblent indiquer que les moyens de formation spécifiques à la réutilisation des données sont recherchés et seraient les bienvenus. Il est donc regrettable qu’ils n’aient pas été mis à la disposition de ces communautés par Qualidata pour qui cette prestation a été explicitement exclue de ses attributions par ses bailleurs de fonds. Malgré cela, le personnel de Qualidata chargé de l’assistance à l’utilisateur a toujours été réceptif aux demandes informelles des utilisateurs en quête de données à fonction pédagogique et a préparé des séries spécialisées d’entretiens à fonction pédagogique portant sur diverses matières : initiation aux logiciels caqdas, tradition orale, analyse du discours et méthodes générales de recherche.
Qualidata héberge des pages web sur l’utilisation des données dans l’enseignement et l’apprentissage. Si les publications peuvent aider les étudiants à comparer des données, ces derniers sont des utilisateurs exigeants. Nombre des points d’interrogation repérés à la fois par Qualidata et par l’ukda pourraient être à forte intensité de ressources en termes d’heures de travail du personnel si une réponse complète était donnée. Par exemple, de nombreux étudiants de l’enseignement supérieur posent des questions très précises, souvent en rapport avec l’intitulé de leur thèse, comme « à quelles analyses devrais-je procéder pour mesurer les inégalités entre les sexes en matière de santé ? ». Dans le meilleur des cas, le bureau d’assistance à l’utilisateur pourra les diriger vers les sources de données appropriées et préconiser des types de stratégies analytiques, mais en fait, ils ont pour instructions de renvoyer les étudiants demandeurs vers leur directeur d’études ou de leur conseiller de s’inscrire à une formation.
Le nouveau Qualidata Data Service qui accordera une place importante à l’assistance à l’utilisateur mettra en place un service d’assistance spécialisée. Des guides sur mesure de l’utilisateur, des pages web classées par thème et des foires aux questions seront produits. Des événements et des jours de formation seront organisés en ligne à l’intention des utilisateurs dont les besoins auront été identifiés. Des ateliers auront lieu avec des sessions généralistes d’initiation ainsi que des réunions axées davantage sur des points de détail concernant l’intérêt et la méthodologie de la recherche. À cela viendront s’ajouter des ateliers de « comparaison des données » pour une meilleure approche méthodologique et technique et de plus grandes possibilités d’analyse secondaire des sources de données qualitatives archivées.
L’idée force ici sera de donner aux étudiants la possibilité d’aborder de nombreux aspects fondamentaux de la recherche qualitative, en plus de la possibilité d’acquérir une expérience directe de l’analyse en second lieu, de la comparaison et de la critique de données puisées à diverses sources. En fait, le concept de réutilisation des données devient tangible une fois que l’on passe du temps à examiner des collections de données. On pourra également se faire une meilleure idée des méthodes de recherche utilisées dans les « études classiques » en examinant les éléments contextuels concernant le sujet étudié, tels que les guides thématiques, les notes de terrain, les comptes-rendus analytiques et les rapports publiés ou non qui en résultent. Le fait d’apprendre des choses sur le travail des chercheurs qui a eu un impact considérable dans leur domaine permet aux jeunes chercheurs de tirer les meilleurs éléments pratiques de ce travail et de les développer plus avant dans leur propre travail de recherche. De plus, en mettant en lumière l’importance de planifier la collecte et la gestion des données avec l’idée de les réutiliser par la suite, ils seront peut-être plus enclins à archiver et à mettre en commun leurs données plus en aval et aussi à imaginer la façon de réutiliser leurs propres données.
Créer et distribuer des ressources électroniques en ligne clés en mains plus visibles est un moyen de faciliter à la fois l’utilisation des données et la formation aux techniques de la méthodologie chez les étudiants. Pour être d’une utilité optimale, ces produits doivent s’accompagner d’un commentaire technique et méthodologique sur le projet et les données, et d’exercices pratiques ; de la possibilité d’une formation en face-à-face ; enfin d’une assistance individuelle jusqu’à la finalisation. Pour réunir les compétences et optimiser l’utilisation des ressources disponibles, les meilleurs résultats obtenus proviennent des initiatives menées en collaboration. L’ukda, qui a déjà de l’expérience dans ce domaine en rapport à la fois avec le Training Ressources and Materials for the Social Sciences (tramss) (ressources et matériels de formation pour les sciences sociales) et avec le Resource Discovery Network (rdn) (réseau de communication des ressources), s’efforce de construire des liens plus étroits avec d’autres initiatives dans le domaine de la formation en sciences sociales comme le récent Research Methods Programme (programme sur les méthodes de recherche) de l’esrc (voir ci-après). Des événements sont aussi prévus en commun avec d’autres prestataires de services nationaux et d’autres initiatives dans le domaine de la formation comme le projet de coopération en réseau caqdas dans le Surrey.
En 1996, Qualidata a préparé une mallette d’enseignement basée sur les données de l’ouvrage de Thompson intitulé The Edwardians (1975) qui fait la description des méthodes de la tradition orale et propose des moyens de réutiliser cette collection de données. Le produit a été bien accueilli et largement utilisé dans le milieu des enseignants. La nouvelle source « Edwardians Online » sera construite suivant le même concept et comportera des exercices de formation associés d’accès gratuit orientés vers un plus large éventail de niveaux d’instruction.
En bref, le soutien réactif comme le soutien proactif à l’acquisition des connaissances de l’étudiant est indispensable pour maintenir le nombre des utilisateurs. En termes de stratégies de promotion et d’assistance susceptibles de contribuer à faciliter l’utilisation des données dans ces domaines, je recommanderais :
- de cibler les départements clés/forums de discussion pertinents avec des matériels promotionnels et de formation ;
- de proposer/accepter de discuter avec les étudiants de l’enseignement supérieur au niveau local et dans d’autres départements clés des sciences sociales à travers le pays ;
- d’être en contact avec les organisations locales et nationales travaillant dans le domaine de l’apprentissage et de l’enseignement ;
- de faire paraître des publications sur le marché de l’enseignement et de l’université du troisième cycle ;
- de chercher des subventions spéciales pour produire des matériels d’enseignement et de formation ;
- d’encourager les professeurs à s’investir dans l’évaluation des ressources du domaine de la formation.
La nécessité d’une formation plus large aux méthodes de recherche
Comme de nombreux autres pays où il y a une communauté florissante de chercheurs en sciences sociales, le Royaume-Uni a souffert du manque de stratégie commune concernant la formation aux méthodes de recherche et d’analyse des données. Il a même été impossible d’identifier, de manière cohérente, les programmes de formation existants à la disposition des chercheurs, des étudiants et des professionnels.
Néanmoins, un grand nombre d’initiatives stratégiques nouvelles a commencé à combler ce déficit majeur. Il s’agit du Research Methods Programme de l’esrc (esrc, 2002b), le nouveau Post-Graduate Training Guidelines (recommandations en matière de formation dans le troisième cycle) (esrc, 2002c) et la nouvelle Research Ressources Board Strategy (stratégie de la commission des ressources de la recherche) (esrc, 2002d).
La phase I du Research Methods Programme, pour lequel des bourses d’études ont été attribuées au printemps 2002, se compose de projets axés sur la méthodologie de relativement peu d’envergure, mais la phase II à venir doit normalement être centrée sur le soutien national à la formation dans le domaine de la recherche quantitative et qualitative. Une récente réunion de consultation sur la formation hébergée par le Programme a conclu que : « La formation a besoin d’être permanente pour les chercheurs à tous les niveaux – des étudiants du troisième cycle aux chercheurs confirmés. L’accent a été mis sur le fait que les innovations dans les méthodes nécessitent une actualisation constante. Il est important que les formateurs reçoivent une formation pour s’assurer que les techniques les plus récentes soient transmises aux étudiants – même si cela peut être malaisé… [et que] La formation a besoin d’être étroitement liée aux questions de recherche technique et de se faire généralement par discipline. La formation interdisciplinaire est très utile mais elle doit se baser sur les différentes disciplines et techniques, et couvrir celles-ci, et non pas adopter une méthode purement générique. » (Dale A., 2002).
Le sentiment qui a prédominé dans la réunion était qu’une stratégie commune était indispensable pour aider les futures générations de chercheurs qualifiés et d’analystes de données compétents à trouver des solutions.
En 2001-2002, l’esrc a également commandé une étude de son Post-Graduate Training Guidelines, avec la participation clé de toutes les disciplines des sciences sociales. La consultation a eu pour résultat la formulation d’une stratégie nationale visant à assurer une formation pertinente de première qualité aux méthodes et aux techniques analytiques pour les étudiants du troisième cycle subventionnés par l’esrc. De nouveaux ouvrages avec des lignes directrices ont été produits « pour indiquer les techniques et les compétences que devraient avoir acquis les étudiants en recherche du troisième cycle au moment où ils ont passé leur diplôme, s’ils veulent être acceptés comme chercheurs dotés d’une formation professionnelle dans leur domaine ; […] pour présenter dans les grandes lignes le contexte général, les objectifs et le contenu de la formation que les étudiants doivent avoir reçue au moment où ils ont passé leur diplôme ; […] pour fournir à l’esrc des critères d’évaluation en matière de financement de l’année de maîtrise et de doctorat. S’ils remplissent ces critères, les candidats sont reconnus par l’esrc comme ayant droit à une bourse d’études de l’esrc. » (esrc, 2002c).
Enfin, le Research Resources Board (commission des ressources de la recherche) de l’esrc, grâce à laquelle sont financés l’esds et Qualidata, a révisé sa stratégie à long terme pour se charger de produire des ressources de première qualité pour les chercheurs et de pourvoir à leurs besoins en matière de formation. L’objectif de ce Resources Board est de « soutenir l’esrc dans ses orientations en produisant des ressources pour la recherche en sciences sociales et de l’informer sur les moyens nécessaires pour garantir la vitalité et l’utilité à long terme des sciences sociales ainsi que la bonne qualité de la recherche. Pour être plus précis, les ressources de la recherche financées par l’esrc peuvent comporter des documents de base comme les données qualitatives, quantitatives et spatiales au niveau local, national et international ; l’hébergement, la maintenance et la mise à disposition de l’accès à cette information dans les centres d’archives et de documentation ; les fonds de bibliothèques ; les logiciels ; les technologies de la communication et autre matériel informatique. Pour exploiter ces ressources, le Resources Board veillera à ce que la recherche fonctionne bien, mais aussi qu’elle progresse pour répondre aux besoins des utilisateurs et des parties prenantes à la fois ; que la nouvelle génération de chercheurs ait une formation mais que les chercheurs expérimentés aient aussi la possibilité de s’informer sur les récentes évolutions. L’essentiel pour parvenir à ce résultat est d’acquérir de nouvelles techniques et de renforcer les compétences des personnes en charge de la formation là où cela est nécessaire. » (esrc, 2002d).
Formation internationale et perspectives de mobilité
Les programmes de formation transnationaux ayant pour objectif la formation à l’analyse secondaire sont très peu nombreux et plus rares encore sont ceux qui se rapportent à la tradition de la recherche qualitative. Il y a des exceptions : les diverses écoles d’été, comme celles sur l’analyse des données en sciences sociales de l’Essex et de la Suisse qui apportent réellement un soutien à la formation aux méthodes de recherche qualitative. Dans le cadre de l’European Union Large-Scale Facilities Activity, le European Centre for Analysis in the Social Sciences (ecass), le centre de recherche interdisciplinaire de l’université de l’Essex, fournit également aux chercheurs les services de soutien, généralement sous forme de séjours de courte durée pour qu’ils soient sur place pour travailler sur des données archivées.
Par ailleurs, les fonds à la disposition des chercheurs souhaitant se rendre dans un autre pays européen pour entreprendre une recherche à petite échelle, laquelle pourrait, le cas échéant, inclure un projet se servant de données qualitatives archivées, sont limités. On citera l’exemple pour l’Union européenne des Bourses Marie Curie finançant des séjours de courte durée pour les doctorants) et les modestes bourses de l’European Consortium of Sociological Research (ecsr) (consortium européen de la recherche sociologique) pour l’échange d’étudiants de doctorat et de chercheurs titulaires d’un doctorat). Cela serait bien pour les communautés de chercheurs que les bailleurs de fonds subventionnent un nombre plus grand et un éventail plus large d’activités de ce type.
Centres d’expertise : renommée et innovation
La réussite d’un service des données qualitatives vient aussi du fait qu’il a prouvé ses capacités dans le rôle de chef de file, dans la gestion et l’anticipation. Ce qui implique :
- d’être respecté au sein de la communauté universitaire nationale de la recherche qualitative ;
- un statut et un soutien institutionnels au niveau local ;
- de disposer d’un excellent cadre de gouvernance ;
- d’entretenir de bonnes relations avec la communauté technologique orientée vers les ressources en données ;
- d’être productif avec les communautés enseignante et étudiante ;
- d’être reconnu à plus grande échelle par la communauté internationale d’archivage des données.
J’aimerais parler plus particulièrement de la nécessité d’avoir une équipe d’assistance à l’utilisateur de première qualité et d’un programme de travail d’assistance réunis par une orientation cohérente et novatrice et par une gestion qui a une longueur d’avance sur les besoins des utilisateurs. Qu’elles soient réactives ou proactives, les activités d’assistance font mieux connaître une organisation orientée vers les ressources du domaine de la recherche. L’assistance de haut niveau est payante en ce sens qu’elle confère une bonne réputation ; une solide base de financement ; une pratique renforcée de la mise en commun et de la réutilisation des données qualitatives ; qu’elle permet la production de données et d’une documentation pour la saisie de première qualité ; et le financement indirect de nouveaux produits et de nouvelles initiatives transnationales.
L’ukda et Qualidata sont, à bien des égards, souvent salués comme des pionniers. Je crois néanmoins que le modèle de « centre de compétences » tel qu’il est proposé actuellement en Suisse et en Allemagne pour la recherche et les données qualitatives est peut-être la solution d’avenir pour l’analyse secondaire des données qualitatives. Ce modèle combine production et assistance pour les données archivées avec un programme actif de recherche interne et une assistance individuelle sur mesure pour les chercheurs et il offre probablement les meilleures possibilités pour les utilisateurs. Avec le financement, la structure, l’orientation et la gestion, et la composante du personnel qui convient, et avec des partenariats avec des secteurs connexes de la recherche nationale spécialisée, on peut espérer que ces centres se révèleront être exemplaires pour ce qui concerne la réutilisation des données qualitatives.
Pour élargir l’accès aux données qualitatives : les ressources numériques en ligne
La question de savoir comment permettre l’accès de ces sources de données aux utilisateurs est la principale préoccupation de Qualidata, qui est constamment à la recherche de moyens pour répondre aux besoins des utilisateurs. Les résultats du travail accompli précédemment dans ce secteur se voient dans le centre de communication des ressources de Qualidata, où les utilisateurs peuvent chercher et localiser les collections de données qualitatives accessibles de tout le Royaume-Uni grâce au catalogage en ligne, Qualicat. Ce service a commencé à s’orienter davantage vers le dépôt des données numériques à l’ukda en interne et vers la numérisation des « collections classiques » pour les ressources du domaine de la recherche et de l’enseignement. L’accès aux données qualitatives a été facilité par le raccordement au système de téléchargement instantané sur le web de l’ukda. En faisant appel à ce genre de service, les utilisateurs inscrits peuvent acquérir des collections de données numériques par un simple clic de souris au lieu d’aller consulter telle ou telle collection et passer du temps à chercher dans des fichiers de copies de documents.
Les premières initiatives qui allaient dans ce sens en privilégiant le contenu, pour répondre à la demande des utilisateurs, mettaient l’accent sur l’élaboration des données, dans le but de fournir aux utilisateurs un accès direct au contenu et à la structure des collections numérisées au moyen d’un dispositif en ligne. Cela peut être considéré comme un pas en avant important qui allait au-delà du téléchargement de fichier, en ce sens que l’utilisateur peut télécharger une série de transcriptions d’entretiens et les importer dans un logiciel de gestion des données. Lorsque nous parlons de contenu et de structure dans le cadre de ce travail d’élaboration, nous portons surtout notre attention sur des points tels que les citations des intervenants, les données codées et la jonction avec le matériel contextuel (matériel audio, notes de terrain, photos, annotations analytiques, etc.).
La collection de données en ligne « Edwardians Online »
Basée sur une série d’entretiens historiques, la collection « Edwardians Online » a été sélectionnée parce qu’elle était jugée appropriée pour la mise en place du premier grand projet de numérisation de Qualidata sur le web.
Les entretiens en question, qui datent du début des années 1970, ont eu lieu dans le cadre de l’étude du professeur Paul Thompson sur la société anglaise de l’époque du roi Édouard VII et constituent la base de son ouvrage intitulé The Edwardians. The Remaking of British Society (1975). Les quatre cent quarante-quatre entretiens tirés d’un échantillon transnational de personnes nées en Grande-Bretagne avant 1918 ont été enregistrés à l’origine sur des bandes audio et transcrits par la suite en tant que documents sur papier dactylographiés. Les matériaux originaux de l’étude ont été archivés, catalogués et diffusés par Qualidata.
L’importance de cette collection pour l’utilisation secondaire réside dans la diversité et le champ étendu du contenu des entretiens et le volume de la collection. Bien que le format des entretiens ne soit pas numérique, le document papier s’est trouvé présenter un intérêt certain pour la réutilisation. La collection a effectivement fait l’objet d’un nombre élevé de consultations en raison de l’intérêt varié qu’elle présente pour la recherche et a une valeur certaine en tant que source pédagogique. Les utilisateurs ont demandé à accéder aussi bien aux transcriptions intégrales des entretiens qu’à des informations plus spécifiques ou des extraits de document. Vu la longueur des entretiens, l’utilisation de la collection peut prendre du temps – un entretien transcrit type peut faire quatre vingts pages dactylographiées, un enregistrement sonore peut durer jusqu’à quatre heures. De surcroît, les données se trouvent dans différents formats et en différents endroits : enregistrements originaux sur cassette audio ; transcriptions sous forme de document dactylographié ; extraits de texte codés et insérés en document papier au cours de l’analyse thématique du contenu ; sources justificatives telles qu’essais et lettres. Enfin, ces données sont représentatives d’une grande classe de données qualitatives en matière d’entretiens.
En juin 2002, Qualidata a sorti « Edwardians Online », un matériel didactique numérique multimédia pilote sur le web. L’objectif de cet ouvrage est de créer un cadre standard et un appareil de démonstration permettant l’accès en ligne au contenu des collections de données qualitatives numérisées. La source pilote intègre une quantité d’informations primaires et secondaires existantes provenant de l’étude de la tradition orale. Une base de données des résumés des entretiens et un échantillon des transcriptions intégrales de textes peut être consultée en utilisant un texte isolé ou un thème précis – dans le second cas, la recherche s’effectue suivant le schéma de codage existant utilisé initialement pour classer et analyser les données. En liaison avec ces informations primaires se trouvent des extraits d’entretiens provenant d’enregistrements sonores, des images et des photographies contemporaines. Se trouvent également d’autres informations de base en rapport avec le travail de recherche initial tels que comptes rendus de presse et détails de publications basées sur des études secondaires de textes d’entretiens. La seconde phase du projet prévoit une extension de ces éléments, comme la liaison à d’autres sources clés telles que les cartes et les données de recensement de l’époque.
Phase I du projet
L’un des principaux objectifs de ce projet est de produire un prototype de méthodologie pouvant évoluer par la suite vers une application plus générale pour d’autres exemples de jeux de données en sciences sociales. En travaillant à cette collection, les chercheurs se sont concentrés jusqu’à présent sur les questions clés suivantes :
- le problème d’élaboration d’un format électronique ne faisant pas l’objet d’un droit de propriété pour préserver le contenu de jeux de données qualitatives ;
- la création d’outils pour faciliter l’encodage des données dans ce format ;
- la question des méthodes d’accès et des installations pour explorer les données qualitatives en ligne.
Un enseignement important au départ pour le projet a été la nécessité de regarder en dehors des communautés d’archivage des données et des communautés des sciences sociales, où le travail d’élaboration dans cet esprit est simplement inexistant. Le personnel du projet s’est appuyé sur l’expérience des universitaires en lettres en matière de création de ressources textes et de ressources numériques sur le web (pour lesquelles ils ont reçu des subventions colossales) ; sur celle des informaticiens pour le stockage et la manipulation des données en format xml et les outils de présentation sur le web ; sur les compétences des chercheurs en linguistique computationnelle concernant le traitement du langage naturel et l’extraction des informations.
Un cadre standard pour l’archivage des ressources en données qualitatives numériques ?
La solution à ces problèmes passe par une application globale interchangeable qui permettra une recherche en ligne élaborée et le retrait d’informations en provenance de textes encodés. Pour bien faire, cette application devrait remplir un certain nombre d’objectifs précis :
- favoriser l’encodage du contenu de différents types de documents informatisés primaires produits en recherche qualitative ;
- favoriser l’encodage de documentation contextuelle et de métadonnées en liaison avec les sources primaires ;
- être capable de fournir des liens formalisés entre les textes et les matériels audio et vidéo associés, en vue de produire à long terme des ressources multimédia intégrées ;
- être capable de représenter le contenu des jeux de données, comme le schéma analytique initial du chercheur, les annotations et les citations des intervenants.
Un format uniforme pour l’encodage du contenu des jeux de données est utile tant pour les producteurs que pour les utilisateurs de données en ce sens qu’il garantit la compatibilité entre les jeux de données, qu’il favorise l’élaboration d’outils courants d’édition et de recherche ; et qu’il facilite l’échange de données et la comparaison des jeux de données.
Élaboration d’une application xml pour les données qualitatives
Pour trouver un cadre qui permettra ces fonctions, nous sommes amenés à nous pencher sur les normes et les technologies xml. Les outils xml et connexes servant à la création et au traitement des documents au format xml ont été rapidement adoptés par les communautés d’utilisateurs pour lesquelles l’étiquetage sémantique pour leurs propres champs d’application est indispensable. Parmi les exemples où les jeux d’étiquette xml sont spécialement adaptés pour permettre le marquage des types d’informations particulières à la communauté des utilisateurs figurent la Data Documentation Initiative (ddi) pour les sciences sociales et la Text Encoding Initiative (tei).
La ddi fournit un cadre xml pour les études descriptives des jeux de données en sciences sociales mais elle ne peut représenter le contenu des données qualitatives comme elle peut le faire pour les données d’enquête (par exemple les fréquences variables de navigation en ligne).
Avec la reconnaissance croissante des avantages du format xml pour la création d’applications interplateformes et non exclusives, la création d’un langage de marquage xml des données qualitatives a suscité un vif intérêt et de nombreuses demandes de la part des membres de la communauté des chercheurs en sciences sociales qui souhaitent vivement encourager la réutilisation des données en sciences sociales.
L’élaboration d’un schéma commun pour le marquage du contenu des jeux de données qualitatives nécessite le soutien et la contribution de divers membres de la communauté des sciences sociales : les créateurs de données ; les concepteurs de logiciels de données qualitatives ; les producteurs de données et les utilisateurs finals. Des accords doivent être passés concernant notamment :
- les types de documents et de structures destinés au marquage ;
- la définition formelle d’un vocabulaire xml commun et la Document Type Definition (dtd) pour décrire ces structures ;
- les caractéristiques techniques des outils d’édition et d’analyse ;
- les applications expérimentales avec des jeux de données « réelles ».
« Edwardians Online » avait pour objectif d’établir les bases pour une initiative plus large et jusqu’à présent, la recherche a envisagé deux possibilités. La première est de créer une application sur mesure du format xml dans le but précis de marquer le contenu d’entretiens et autres types d’informations qualitatives. La seconde possibilité est d’adapter les normes existantes telles que la tei et la ddi, avec la perspective d’utiliser les outils existants et à venir de traitement de textes xml, et qui plus est, l’avantage d’utiliser une référence, comme la documentation détaillée, ainsi que la compétence et l’expérience de la précédente communauté des utilisateurs.
Phase II
Ces idées seront explorées de manière plus approfondie dans la Phase II du Projet, qui sera également axée sur la création d’une fonctionnalité supplémentaire de recherche et de retrait et sur l’encodage d’éléments supplémentaires dans les textes d’entretiens. La présentation d’une dtd pour une application xml généralisée concernant les jeux de données qualitatives est une étape clé dans ce programme. On commencera à travailler à l’adaptation et à l’intégration de la tei et de la ddi dans le courant de l’année prochaine, afin de produire un prototype de dtd pour les données qualitatives. Il faut espérer que cela devienne une norme de facto qui pourrait être utilisée par d’autres créateurs et éditeurs de données pour encoder une classe étendue de données qualitatives.
Grâce à une stratégie nationale à moyen terme, Qualidata a un nouvel avenir, avec une nouvelle orientation vers l’accès aux données faciles d’emploi et des services d’assistance complémentaire. La stratégie quinquennale du Royaume-Uni se présente sous la forme d’une nouvelle collaboration entre deux grands organismes de financement : l’esrc et le jisc. Il y a trois ans, les deux bailleurs de fonds n’auraient peut-être pas envisagé de financer conjointement un service national des données pour les sciences sociales. Les premiers jours de négociation des contrats ont déjà mis en lumière la disparité et parfois la divergence des idées, des aspirations et des besoins au niveau des services des deux bailleurs de fond. Le fait que le nouvel Economic and Social Data Service ait donné le coup d’envoi d’une manière relativement douce donne à penser que la collaboration fonctionne, ce que l’on peut attribuer en grande partie aux atouts complémentaires des organismes partenaires et à la synergie qui s’est établie entre eux à de nombreux niveaux, notamment au niveau des orientations, des effectifs et de l’activité.
J’aimerais conclure en résumant ce que je considère comme les éléments infrastructurels clés pour réussir à faire fonctionner un service national des données qualitatives. Premièrement, à côté des produits intellectuels traditionnels de la recherche, pour laquelle les investissements sont planifiés conformément à une politique en matière de données établie en bonne et due forme, il faut une reconnaissance nationale de la valeur à long terme des sources de données. Deuxièmement, une politique en matière de jeux de données doit respecter l’ensemble des types et formats de données créées dans le cadre de la recherche économique et sociale, et mettre en place une structure juridique et éthique appropriée qui permettra un accès élargi aux données sensibles. Troisièmement, on doit défendre les besoins des utilisateurs et les analyser, et renvoyer les connaissances acquises par le personnel d’assistance vers la documentation d’études et l’information liée au thème/analyse d’une manière itérative. Quatrièmement, les programmes de prestations aux groupes mal desservis et de formation doivent être conçus pour tenir compte du niveau de compétences des utilisateurs et pour répondre à leurs exigences, et faire preuve d’une motivation plus grande en coopérant avec d’autres dispensateurs de formation pour aider à combler le déficit en compétences dans le domaine des projets et des travaux de recherche et dans le domaine de l’analyse des données.
Enfin, la fourniture d’accès aux données qualitatives est en partie tributaire des nouvelles technologies. Les récentes innovations dans le domaine des normes xml et des outils de stockage et de retrait des données, qui nous permettent de construire des ressources comme « Edwardians Online » n’existaient pas il y a dix ans. Sans doute verrons-nous de la même manière bon nombre des tâches de préparation des données pour les données qualitatives à aussi forte intensité de main-d’œuvre (comme l’indexation manuelle du matériel audio ou l’anonymisation systématique des données) s’effectuer désormais par un simple « clic de bouton » grâce à un logiciel caché et très intelligent. C’est peut-être un rêve, mais un rêve qui deviendra sûrement réalité et à cet égard, Qualidata doit chercher à former des associations interdisciplinaires avec des chercheurs extérieurs à son propre domaine, et plus particulièrement avec les spécialistes et les techniciens du traitement du langage.
Traduit de l’anglais
·
Corti, L. ; Foster, J. ; Thompson, P. 1995. « Archiving qualitative research data », Social Research Update, p. 10.
·
Corti, L. ; Thompson, P. 2000. Annual Report of Qualidata to the esrc, University of Essex.
·
Dale, A. 2002. « Research methods programme consultation meeting on training : a summary of key points », 29 novembre 2002, Document à consulter sur le site Internet : http://www.ccsr.ac;uk/methods/archive/consultationmeeting/keypoints.shtml.
·
esrc (Economic and Social Research Council), 2002a. esrc Datasets Policy, Swindon : esrc.
·
– 2002b. esrc Research Methods Programme, Swindon, esrc (à consulter sur le site Internet http://www.ccsr.ac.uk/methods:)
·
– 2002c. Postgraduate Training Guidelines 2001, Swindon, esrc (à consulter sur le site Internet bhttp://www.esrc.ac.uk/esrccontent/postgradfunding/postgraduate_training_guidelines_2001.asp).
·
– 2002d. The esrc Research Ressources Board’s Strategy for Supporting Research in the Social Sciences (à consulter
·
sur le site Internet http://www.esrc.ac.uk/esrccontent/aboutesrc/rrbstrat.asp).
·
Glueck, S. ; Glueck, E. 1968. Delinquents and Nondelinquents in Perspective, Cambridge, MA, Harvard University Press.
·
James, J.-B. ; Sorensen, A. 2000. « Archiving longitudinal data for future research. Why qualitative data add to a study’s usefulness », Forum Qualitative Social Research, 1 (3), (à consulter sur le site Internet http://www.qualitative-research.net/fqs-texte/3-00/3-00jamessorensen-e.htm).
·
Newson, J. ; Newson, E. 1976. Seven Years Old in the Home Environment, Londres, Allen & Urwin.
·
Rex, J. ; Moore, R. 1967. Race, Community and Conflict, Oxford, Oxford University Press.
·
Stacey, M. 1974. « The myth of community studies », dans Bell C. ; Newby, H., The Sociology of Community, London, Frank Cass.
·
Terman, L. M. 1954. « Scientists and nonscientists in a group of 800 gifted men », Psychological Monographs : General and Applied, 68 (7), p. 1-44.
·
Thompson, P. 1975.
·
The Edwardians.
·
The Remaking of British Society, London, Granada.
·
– 1991. Pilot Study of Archiving Qualitative Data : Report to esrc, Department of Sociology, Université de l’Essex.
·
Thompson, P. ; Corti, L. 1998. « Are you sitting on your qualitative data ? Qualidata’s mission », Social Research Methodology : Theory and Practice, 1(1), p. 85-90.