2003
Revue internationale des sciences sociales
Des données plus solides pour des politiques mieux informées
Les services de données en sciences sociales : historique et perspectives
Erwin K. Scheuch †
Le professeur Erwin K. Scheuch, décédé en octobre 2003, était directeur émérite du Séminaire de sociologie et de l’Institut de Recherche appliquée en sciences sociales de l’Université de Cologne. Ancien président de l’Institut international de sociologie, il a fait de nombreuses contributions à la recherche comparative en sciences sociales, axées surtout sur les méthodes quantitatives. Au nombre des ses publications les plus récentes : Quantitative Social Research in Germany and in Japan (recueil édité collaboration avec Chikio Hayashi, 1996) ainsi que Societies, Corporations and the Nation State (Annales de l’Institut international de sociologie, n° 34, recueil édité conjointement avec David Sciully, 2000).
L’historique de la constitution des services de données en sciences sociales qui fait l’objet de cet article n’a pas simplement pour but d’évoquer le passé mais de faire ressortir les choix stratégiques qui sont à l’origine de la situation actuelle. Pour déterminer les perspectives d’avenir, il est important de connaître ces choix. Il faut en particulier prendre conscience du fait que les archives numériques, qui constituent l’élément central de cette évolution, étaient considérées comme un simple élément de la banque de données, qui était le pilier de la recherche en sciences sociales empiriques. La consolidation de ces banques de données n’a pour ambition, ni dans le passé ni maintenant, de fournir aux sciences sociales la totalité des informations qu’elles requièrent. Ce qui compte c’est de déterminer, pays par pays, les lacunes qu’il convient de combler dans la fourniture des données et, d’une manière générale, dans les infrastructures à l’usage des sciences sociales empiriques. Il faut en outre assurer de pair l’accès à l’information et la formation aux technologies nécessaires pour l’utilisation efficace et rigoureuse de ces infrastructures. À mesure que le nombre des usagers se développe et que la technologie évolue, on peut craindre que ne se produise un certain retard dans les aptitudes des chercheurs, surtout s’agissant de l’utilisation des méthodes statistiques.
La présente description de la constitution des services de données dans le domaine des sciences sociales n’est pas un simple rappel du passé, même si cette tâche n’est pas superflue au regard de certaines erreurs factuelles : elle vise surtout à dessiner certaines perspectives. Le but essentiel de cette contribution est de faire apparaître cette évolution comme résultant d’une série de choix, de choix stratégiques qui plus est, qui sont à l’origine de la situation actuelle. Il est important de connaître ces choix en vue de préparer l’avenir. Il faut d’abord prendre conscience du fait que les archives numériques, qui sont l’institution au centre de cette évolution, étaient considérées comme un élément des banques de données, celles-ci constituant à leur tour l’infrastructure requise pour le déroulement de la recherche en sciences sociales empiriques.
Le renforcement de ces infrastructures, dans le passé comme dans le présent, n’a pas pour ambition de fournir aux sciences sociales la totalité des informations dont elles ont besoin. On trouve dans de nombreux pays des services statistiques efficaces, et dans de tels cas, il n’est pas nécessaire de réinventer la roue
[1]. Ce qu’il faut, c’est déterminer, pays par pays, dans quels domaines de la fourniture des données, et plus généralement des infrastructures à l’usage des sciences sociales empiriques, il y a des lacunes à combler.
La constitution d’archives numériques dans le domaine des sciences sociales a été préconisée dans des lieux divers et sous l’influence de divers chercheurs, sans coordination et avec des objectifs différents. Pendant plusieurs années on ne savait pas trop la forme que prendraient ces dépôts d’archives. Le stade suivant de développement n’a été possible que parce qu’un certain nombre de chercheurs particulièrement intéressés par les comparaisons inter-culturelles sont parvenus à sensibiliser le Conseil international des sciences sociales (ciss) à la nécessité de créer une infrastructure pour le type de recherches quantitatives qu’ils menaient dans le domaine des sciences sociales empiriques. La recherche comparative coûtait cher et le comparatisme ne pouvait se hisser au rang des sciences sociales empiriques sans l’existence d’une infrastructure. La date cruciale consacrant l’aboutissement de ces tentatives a été l’année 1962, où le ciss a organisé à La Napoule une conférence où étaient invités ceux qui travaillaient dans ce domaine.
Auparavant avaient eu lieu trois initiatives qui méritent qu’on s’y arrête, car elles montrent combien ces approches restaient confidentielles avant qu’un cercle plus large de chercheurs en sciences sociales ne s’y intéresse. L’initiative la plus ancienne revient à Elmo Roper, un des fondateurs de la recherche sur les sondages. Selon une tradition universitaire établie, il a remis en 1945 des documents importants à une bibliothèque universitaire. Les cartons dont il faisait don contenaient les fiches perforées ibm des enquêtes qu’il avait effectuées depuis le milieu des années trente. Il avait choisi pour effectuer ce legs une petite institution universitaire élitiste et peu connue, Williams College, l’établissement où son fils avait fait ses études avant de mourir au combat. Elmo Roper était bien conscient du fait que, dans le cadre du travail quotidien d’un institut de sondage, les données accumulées sont sous-utilisées alors qu’elles ont par ailleurs une grande valeur sur le plan historique. Armé de cette conviction il a encouragé ses collègues, et notamment George Gallup, à poursuivre ses travaux (Scheuch, 1990). En 1947 le fonds est devenu une entité indépendante au sein de la bibliothèque du Williams College. La responsabilité de cette importante collection de données a été confiée à Philip Hastings, qui avait fait sa thèse avec un des pionniers de la méthodologie des sondages, Hadley Cantini. Ce n’est qu’en 1957 que le public a été admis au Roper Center, nom que ce dépôt porte désormais.
À cette époque j’ai eu la chance de visiter les centres de recherches américains en qualité de boursier de la Fondation Rockefeller et, au milieu d’un certain nombre de visites souvent sans intérêt, s’est trouvé le jeune Roper Center. Cette visite a revêtu pour moi une grande importance, pour deux raisons. J’ai compris la ressource extraordinaire que constituait l’archivage numérique des données de sondages et je me suis rendu compte également de l’inadéquation de la structure du centre à ses tâches. Les données étaient considérées à la Roper Library comme des documents liés à une publication, par conséquent l’unité de conservation était « l’étude » : pour un chercheur qui procédait à une analyse secondaire, « l’étude » était un ensemble de variables, et il effectuait ses analyses en sélectionnant les variables qui l’intéressaient. Pour déterminer ces variables, l’important pour le chercheur n’était pas de connaître le titre d’un ouvrage, mais les entrées figurant dans le descriptif du livre, c’est-à-dire les variables du sondage lui-même. Pour que les données archivées des variables utilisées dans les sondages puissent être utilisées de manière efficace, il faut absolument un système de recherche très différent de celui qui a cours dans les bibliothèques. Depuis les choses ont beaucoup changé au Roper Center. En 1977 il a déménagé, quittant Williamstown, Massachusetts, pour s’installer à Storrs, au sein de l’université de Connecticut.
Au moment où je visitais Williams College, Sein Rokkan publiait ce qui, selon moi, est le premier article universitaire consacré au concept d’archives de données de sondages (Lucci, Rokkan et Meyerhoff, 1957). Il estimait que seul un chercheur très expérimenté pourrait être capable d’utiliser ce genre d’archives. Tel est en effet le cas si les « études » sont conservées sous la forme où elles ont été déposées par l’institut ou le chercheur qui les confient aux archives. Il faut préciser qu’à l’heure actuelle les données issues des sondages sont retraitées avant d’être mises à la disposition des utilisateurs.
En 1960 nous avons fondé, Günther Schmölders et moi, un institut dans le cadre de l’université de Cologne, le Zentralarchiv für Empirische Sozialforschung (
za). L’idée de base de cette initiative était de permettre une utilisation plus efficace des collections de données, avec un système de classification permettant à un étudiant avancé de s’y retrouver. Au départ le
za avait à sa disposition peu de sujets d’étude, aussi nous sommes-nous concentrés sur la mise au point d’outils destinés à ce nouveau service, notamment le traitement des données déposées à l’institut et les systèmes de recherche de données. À la différence du Roper Center, le
za avait été fondé par des universitaires et, au début, les instituts commerciaux étaient très peu enclins à se défaire de leurs archives. En fait nous avons découvert que leur réticence initiale provenait surtout de la conscience qu’ils avaient des imperfections de leurs collections de données. Cela a pris du temps, sans compter de bonnes relations personnelles, pour convaincre les fournisseurs de données que nous traiterions sous le sceau de la confidentialité les informations que nous obtiendrions en traitant les données brutes. À l’époque nous ne savions pas que, par suite de la concurrence que se livraient les différents instituts de sondage à l’affût de contrats, ceux-ci avaient adopté comme critère de qualité d’une interview
[2] le fait de comporter le taux le plus faible possible de réponses : « sans opinion ». Nous avons finalement réussi à convaincre les instituts de sondage que leur critère n’était pas fondé. Tout en mettant au point des collections de données, nous avons lancé un inventaire annuel de l’état des recherches qui devait être un autre élément dans la constitution des services de données en sciences sociales.
Développement de la coopération avec le ciss
L’histoire de la constitution des archives numériques telles que nous les concevons maintenant commence en fait avec la première Conférence sur les Archives numériques en sciences sociales qui s’est tenue en 1963 à La Napoule. Organisée par le Conseil international des sciences sociales, cette conférence nous a permis de faire connaissance, Stein Rokkan et moi, et d’entamer une fructueuse collaboration. Nous avons été rejoints par la suite par Warren Miller et Sandor Szalai pour constituer le « quatuor » qui a piloté une bonne partie du mouvement depuis les années soixante jusqu’au début des années quatre-vingt. Le ciss a fourni jusque vers 1977 le cadre organisationnel du projet. À cette date les promoteurs des archives numériques avaient réussi à mettre au point leurs propres structures organisationnelles en vue de la coopération internationale.
La Conférence de La Napoule a été suivie en 1963 par deux conférences internationales aux États-Unis. Sans avoir été organisées par le ciss, on y trouvait un certain nombre de chercheurs qui avaient assisté à la première réunion en France. À la suite de vifs débats qui engageaient l’avenir, des positions communes ont malgré tout émergé.
La première de ces conférences était organisée à Lake George par l’Association mondiale de recherches sur l’opinion publique (
amrop). Un des problèmes principaux consistait à mettre en œuvre le vœu d’Elmo Roper qui souhaitait constituer un fonds d’archives mondiales. Les participants européens, ainsi que Warren Miller pour les États-Unis, ont adopté une attitude critique à l’égard de ce projet. Une institution si ambitieuse ne disposerait pas des informations nécessaires pour juger des conditions dans lesquelles étaient saisies les données dans chaque pays : constitution des échantillons, taux de réponse et de substitution en cas de réponse manquante, composition des équipes d’interviewers et leur formation, règles utilisées pour effectuer un appel téléphonique puis pour relancer la personne, enfin évolution interne propre à chaque pays
[3] étaient autant de points litigieux. Il y a eu même un affrontement entre deux « cultures » s’agissant du financement des banques de données. En Europe occidentale les promoteurs du projet pouvaient compter sur un budget reconductible pour les infrastructures de recherche, dans la mesure où en Europe les universités d’État assurent gratuitement le service de l’enseignement. Aux États-Unis, en revanche, on estime normal qu’un service se finance sur ressources propres. La discussion s’est même envenimée lorsque Sandor Szalai (Hongrie), qui est depuis cette réunion une des figures dominantes en matière de développement des services de données, a accusé certains participants américains de pratiquer un « impérialisme des données », en menant des « recherches genre safari », consistant à se rendre à l’étranger, à payer les « indigènes » pour qu’ils effectuent des sondages puis à ramener leurs données chez eux (Szalai et Petrella, 199, p. 69). On ne peut pas dire qu’il s’agissait là d’une manière correcte de définir la collaboration des chercheurs de pays différents, mais c’était une façon de faire comprendre qu’en cas de constitution d’un centre d’archives mondiales, les chercheurs appartenant à des pays autres que les États-Unis ne pourraient plus accéder directement à leurs propres données.
Cette même année 1963, l’unesco a organisé une conférence sur les recherches interculturelles et en série à New Haven (Rokkan, 1968). Des débats animés se sont déroulés à propos des grandes banques de données :
-
The Human Relations Area File (Murdock, 1949) ;
-
The Cross Polity Survey (Banks et Textor, 1963) ;
-
The World Handbook of Political and Social Indicators (Russett et al., 1964).
Les débats ont également porté sur une troisième collection de données, gigantesque, réalisé par l’Office of Public Opinion Research de Princeton (Cantril, 1951). Toutes les données avaient été réunies pour analyse interne. En fin de compte la majorité des participants a conclu que les collections de données réalisées en interne ne pouvaient se substituer à des archives numériques.
Dès 1937 l’Institute of Human Relations de Yale University a commencé à rassembler des matériaux sur les sociétés humaines, pour arriver à un total de cent cinquante entités. Le « Cross-Cultural Survey » collectait des informations géographiques, sociales et culturelles sur les sociétés passées et contemporaines. En 1941 Peter Murdock a extrait de cette source des données sur la parenté, la famille et le comportement sexuel de quatre-vingt-cinq sociétés. Il se proposait de déterminer des corrélations entre ces divers domaines. Néanmoins, comme il l’a souligné dans son introduction, le corpus était insuffisant par rapport au nombre de cas « nécessaires pour un traitement statistique fiable » (Murdock, 1949, p. viii). C’est pourquoi il a ajouté des données concernant cent soixante-cinq sociétés supplémentaires, même si ce matériau était « inférieur tant sur le plan de la quantité que de la qualité » (ibid.) Son dossier Human Relations Area File a porté de ce fait sur un total de deux cent cinquante sociétés. Murdock affirme qu’il est en mesure de prouver l’universalité de la famille, et, au sein de la diversité des formes qu’elle revêt, l’universalité d’une unité centrale, la famille nucléaire. Il conclut également au caractère universel de la combinaison des quatre fonctions assumées par la famille nucléaire, à savoir, les fonctions sexuelles, économique, reproductive et éducative. Qui plus est, le tabou de l’inceste est à peu près universel. En revanche la corrélation entre le système économique et les systèmes de parenté se révèle étonnamment faible ou même inexistante. Au cours de débats prolongés, les principales critiques ont porté moins sur la qualité des données que sur la légitimité de ce type de comparaisons interculturelles. Même si l’auteur avait été en mesure de réunir les données concernant mille « cultures », il n’aurait pas dû traiter les unités d’analyse comme si elles étaient en relation aléatoire. L’application de statistiques fondées sur la théorie de la probabilité telle qu’elle a été pratiquée ici est probablement à l’origine d’une « découverte » sensationnelle : « Notre enquête montre que les sociétés qui appartiennent à une même communauté linguistique diffèrent dans leur organisation sociale autant que celles qui n’ont aucun lien linguistique. » (Murdock, 1949, p. 195).
Les comparaisons interculturelles se multiplient. Tout en étant hautement souhaitables, elles exigent autre chose qu’une facilité accrue d’accès aux données. Tout en procédant à des progrès dans ce domaine, il faut aussi améliorer la conception même de la recherche et la logique de ses conclusions. Dans le Cross Polity Survey, les données provenant de sources publiques concernant cent quinze unités politiques, l’ensemble des États indépendants en 1962, ont été traitées pour constituer une seule banque de données (Banks et Textor, 1963). Analysées à l’aide de l’ordinateur ibm 7090, le plus puissant à l’époque, toutes les variables ont été croisées entre elles. Pour réaliser cette « partie de pêche », il a été fait appel, pour obtenir des corrélations significatives sur le plan statistique, à une « technique de recherche des patterns et de traduction de tableaux » utilisant la logique de l’ « analyse par arborescence » qui consiste à sélectionner les corrélations les plus fortes et les plus faibles en supprimant les valeurs intermédiaires. Par exemple les pays anciennement placés sous domination britannique ont en généralement un taux d’alphabétisation supérieur à 10 %, tandis que les pays placés auparavant sous domination française ont en général un taux d’alphabétisation inférieur à 10 % (Banks et Textor, 1963). Les auteurs s’intéressaient particulièrement à l’impact de la situation coloniale antérieure sur la situation présente. Sur la base de leur analyse, la domination britannique était à l’origine du règne de la loi, de l’ordre intérieur et des libertés démocratiques, et leur exemple principal était le Nigeria, ce qui paraît quelque peu incongru à la lumière des événements ultérieurs. Ce fait montre combien ces « parties de pêche » à la recherche de corrélations significatives étaient tributaires de l’actualité. Sans compter que les données de la Cross Polity Survey étaient peu fiables, du moins celles qui se trouvaient dans les archives numériques de l’époque.
La tentative la plus ambitieuse d’utiliser des compilations systématiques de données complètes par États, a été, jusqu’en 1963, le Yale Political Data Programme (Russett et al., 1964) qui utilisait essentiellement les Annuaires (Yearbooks) publiés à partir de 1948 par le Bureau des statistiques des Nations Unies, et qui, au début, portaient sur trente-neuf pays. À l’époque de la conférence de Yale, cent sept pays étaient visés dans ces rapports qui comportaient surtout des statistiques du revenu national. Ce programme a été entrepris par Karl Deutsch et Harold Lasswell, qui ont envisagé à un moment donné de constituer une seule banque de données. Néanmoins la réunion de Yale a plaidé en faveur de versions papier de ces matériaux. Les participants s’inquiétaient également de la qualité des données, dans la mesure où c’étaient les pays concernés qui communiquaient les chiffres dont on disposait (Ohlin, 1968). C’est ainsi qu’on estimait que les données concernant le revenu provenant d’Union soviétique et de Chine, s’écartaient à 100 % des mêmes valeurs calculées selon les normes utilisées à l’époque par les États-Unis. Un autre point encore plus discutable de cette approche basée sur des données mondiales était celui des différences régionales que l’on constatait dans la relation entre un même groupe de variables. Étant donné que les participants à cette conférence consacrée à l’évaluation du programme de données politiques de Yale étaient tous d’un haut niveau en matière statistique, ils ont été en mesure de déterminer empiriquement les propriétés de divers domaines. Il va de soi que l’argent n’a pas la même signification dans une économie incomplètement monétarisée et dans une économique de marché moderne. En comparant la relation entre les indicateurs des différences de revenus et ceux des niveaux de violence, on a observé une corrélation négative dans les pays développés entre hauts niveaux de revenus et niveau de violence, tandis que l’inverse était vrai pour les pays sous-développés (Alker, 1968, p. 149).
Une collection qui n’a pas fait l’objet de débats officiels à la conférence de Yale, mais dont il a été question, est le Handbook [Manuel] publié par l’Office of Public Opinion Research de Princeton (Cantril, 1951) qui était à l’époque la plus grande collection de résultats d’enquêtes. Elle couvrait 16 pays sur la période 1935-1946. Vingt-trois instituts de sondage avaient remis les résultats de leurs recherches, la plupart d’entre eux étant affiliés aux instituts de George Gallup, Elmo Roper et Helen Crossley. Les éléments marginaux fournis par cette masse de documents avaient un intérêt historique certain, surtout pour attester du degré de nervosité avec lequel les opinions publiques réagissent devant les vicissitudes de la vie quotidienne, toutefois pour la recherche universitaire ces collections ne peuvent évidemment remplacer les archives numériques.
En septembre 1964 le ciss a organisé à Paris une deuxième Conférence sur les Archives numériques au cours de laquelle le « quatuor » Miller-Rokkan-Scheuch-Szalai a réussi à obtenir du ciss un appui pour un projet de fédération de dépôts d’archives de données de sondages (Rokkan et Szczerba-Likiernik, 1968, p. 10). On a rappelé la nécessité d’adopter un certain nombre de règles méthodologiques, le problème du contrôle de la qualité des données étant un argument solide à l’encontre du système des collections mondiales ; celles-ci couraient le risque de se heurter à la mauvaise qualité des données tant à l’entrée qu’à la sortie. Bien que Stein Rokkan ait été, quant à lui, partisan des archives de données agrégées, le « quatuor » a estimé que, en l’occurrence, l’accent devait être mis sur les données d’enquêtes. De simples collections de résultats ne pouvaient satisfaire la recherche universitaire, étant donné que la même question (ou variable) pouvait remplir des fonctions différentes selon les variables auxquelles on l’associait. « C’est ainsi que la question : “Combien de fois avez-vous discuté des dernières élections avec vos voisins ?” peut servir d’indicateur de l’intérêt de la personne pour la politique mais aussi de sa bonne intégration dans son quartier » (Scheuch, 1964). La stratégie visant à faire entrer le plus de pays possibles dans des études comparatives internationales a été critiquée et considérée comme une application erronée de la théorie des échantillons. On peut estimer que cette deuxième conférence sur les archives numériques a été le point d’orgue des débats qui avaient commencé à La Napoule en 1962.
La troisième Conférence sur les archives numériques en sciences sociales qui s’est tenue en avril 1966 à Londres a pu enfin se pencher sur les problèmes techniques liés au fonctionnement concret des archives de données de sondages. L’étude de problèmes tels que le nettoyage des données, leur formatage, le traitement des données manquantes, les systèmes de recherche et les règles d’accès, s’est faite en soulignant la nécessité de veiller à la compatibilité technique pour les échanges de données entre centres d’archives (Scheuch, 1966).
Ces débats ont fait apparaître une évidence : à côté de l’élaboration de l’infrastructure matérielle nécessaire à la recherche comparée, le « hardware » des études comparatives, pour utiliser un terme informatique, les sciences sociales devaient également réaliser des « logiciels » pour la recherche. C’est au cours des dix ans qui vont de la fin des années soixante à la fin des années soixante-dix qu’ont été prises les décisions fondamentales pour le fonctionnement des archives de données de sondages.
Cette période est aussi celle où le support des données a changé. Vers le milieu des années soixante la carte perforée a cédé la place à d’autres médias, ce qui a fait que les savoir-faire techniques se trouvaient dépassés ou même nuisibles, comme le fait de charger sur une seule carte le maximum de perforations. Pendant plusieurs années les archives de données de sondages utilisaient côte à côte trois supports différents : la carte perforée, le ruban magnétique et le disque. L’apparition de l’ordinateur individuel dans la deuxième moitié des années soixante-dix a entraîné la disparition de tous les supports à l’exception du disque
[4].
L’abandon de la carte perforée signifiait aussi la fin de ces chevaux de labour qu’étaient la trieuse et l’appareil ibm Statistics 101. Ici aussi des savoir-faire très recherchés sont devenus obsolètes, comme la capacité à faire passer dans la trieuse des cartes aussi trouées qu’une tranche de gruyère ou de programmer une ibm 101 en langage lisible par machine. Cela signifiait aussi le passage à des ordinateurs capables d’être programmés en langages de programmation, c’est-à-dire, pour les spécialistes de sciences sociales, le Fortran IV et le Cobol. Pour les chercheurs qui ne se spécialisaient pas dans les recherches quantitatives avancées, le progrès peut-être le plus important qu’ont entraîné ces changements, a été la mise au point de progiciels de statistiques conçus pour l’analyse des données. Le passage en deux étapes depuis la programmation en langage lisible par machine jusqu’à la rédaction de programmes en langage formel, puis à partir de là, jusqu’à la conception de progiciels, a permis à ceux des chercheurs en sciences sociales qui avaient des connaissances minimes de programmation d’utiliser les techniques statistiques simplement en entrant quelques mots clefs.
Nous avons essayé, dans l’équipe à laquelle j’appartenais à Harvard, et qui comprenait notamment Philip J. Stone, de mettre au point nos propres progiciels dans le cadre du
General Inquirer System (Scheuch et Stone, 1964), mais dans les années soixante-dix, c’est le
spss qui, grâce à une meilleure commercialisation, est devenu le numéro un en sciences sociales. C’est regrettable au moins sur un point, à savoir que le
spss est un programme très contraignant sur le plan du format des données d’entrée (pas de double réponse, pas de réponse manquante), or de nombreux ensembles de données confiées aux dépôts de données ne répondaient pas à ces normes
[5]. Les archives numériques européennes ont été en mesure de fournir à leurs usagers des services
spss à partir de 1972 ; aux États-Unis ce système avait déjà été appliqué antérieurement par certaines archives.
Pour le fonctionnement des archives numériques un choix crucial était celui du logiciel le plus approprié, ceux-ci ayant commencé à apparaître au début des années soixante-dix. Au début on a pensé que le système idoine serait un système hiérarchisé comme le sir, et au début on a organisé des ensembles de données au sein des archives selon cette technique (par exemple l’enquête sur la manière d’utiliser le temps). Mais assez rapidement ce sont les logiciels relationnels qui ont pris le dessus, plusieurs systèmes restant en concurrence. À l’heure actuelle, les deux systèmes ds2 d’ibm et Ingres ont cédé la place à oracle. Grâce à une coopération étroite, surtout entre l’icpr de l’université du Michigan, le Zentralarchiv, la Steinmetz Stichtung, l’uk Data Archive de Colchester et le Christian Michelsens Institute, on a pris des décisions difficiles qui allaient dans le même sens.
Toute aussi importante était la formation adéquate des utilisateurs potentiels des services de données. On a commencé par organiser des Écoles d’été pour la formation à la recherche comparative. Le premier de ces programmes a eu lieu en 1964 à Cologne sous l’égide du ciss. En 1970, grâce à l’intervention du « quatuor », le ciss avait reçu une subvention de la Fondation Volkswagen pour l’organisation d’Écoles d’été sur une durée de cinq ans. À côté de la formation générale en matière de méthodologie de la recherche comparative et de séries temporelles, on procédait à des analyses secondaires en se concentrant chaque fois sur un ensemble spécifique de données provenant des archives existant à l’époque.
En 1963 le
ciss avait fondé le Centre européen de recherche et de documentation en sciences sociales à Vienne, en abrégé le Centre de Vienne. Le premier objectif du centre était de faciliter les contacts intellectuels par-dessus la barrière du rideau de fer. Une des conséquences de cette coopération a été l’entrée du Hongrois Szandor Szalai dans le trio Miller-Rokkan-Scheuch pour constituer le quatuor qui a déterminé un grand nombre des directions qu’allait prendre le mouvement des services de données. Szalai a proposé par la suite l’analyse rétrospective de projets interculturels importants en association avec le Centre de Vienne. On espérait ainsi tirer des applications méthodologiques à partir de matériaux « vivants » plutôt que de manuels. Cette initiative entrait dans le cadre des premières analyses rétrospectives consacrées à des événements majeurs survenus en Amérique, recherches qui ont suscité des controverses méthodologiques, avec la collection
Continuities in Social Research
[6].
Par la suite on ajouta deux études « américaines » à trois projets « européens », ce qui aboutit à un ensemble de cinq projets comparatifs interculturels (Szalai et Petrella, 1977) :
-
The Multinational Comparative Time-Budget Research Study ;
-
The European Comparative Research Project on Juvenile Delinquency and Economic Development ;
-
Images of the World in the Year 2000 ;
-
International Study of Values in Politics ;
-
Cross-National Project on Political Participation.
À la différence de la collection Continuities in Social Research, issue de la conférence précédente, la conférence de juillet 1972 n’a pas entraîné de grandes percées en matière de méthodologie, mais a eu un aspect positif en matière de sociologie de la recherche comparative multinationale. Ce type de recherches se fait naturellement en équipe, mais dans la plupart des cas étudiés les principaux chercheurs n’arrivaient pas à utiliser les réseaux internationaux de personnes déjà existants. Dans plusieurs cas les chercheurs devaient apprendre sur le tas la technologie de leur recherche. On peut définir cette expérience par une citation tirée de l’ouvrage plein d’ironie de Sidney Verba Universal Generalizations About Design et que Sandor Szalai a choisi comme exergue pour son compte rendu de la conférence : « On ne fait jamais de la recherche comme le disent les livres et comme l’expliquent ceux qui vous disent comment la faire » (Szalai, 1977, p. 49).
Un des objectifs de cette fièvre de réunions dans le cadre du ciss et au-delà était d’établir des réseaux de chercheurs pour la recherche comparative. Notre conviction était que la recherche comparative ne pourrait devenir un élément commun aux sciences sociales empiriques que si les chercheurs intéressés à la réalisation de tels projets n’avaient pas à se préoccuper de la manière d’identifier ceux qui travaillaient comme eux dans le domaine comparatif. Le cadre institutionnel à l’appui de cette volonté constante d’internationaliser les sciences sociales empiriques a été fourni par la création au sein du ciss de deux commissions permanentes. Ce fut la Commission permanente sur la recherche comparative (présidée par Erwin K. Scheuch) en 1965, puis la Commission permanente sur les Archives numériques en sciences sociales (présidée par Stein Rokkan) en 1966.
À ce stade le mouvement visant à la création de nouvelles archives des données tirées des enquêtes avait pris son élan. Le premier de ces nouveaux centre d’archives a été le Steinmetz Stichting de l’université d’Amsterdam, fondée en 1964. Cette fondation complétait son activité de centre d’archives numériques en publiant pendant plusieurs années des collections internationales de résultats dans sa revue trimestrielle intitulée Polls. En 1967 Stein Rokkan a proposé avec succès au Christian Michelsens Institute de l’université de Bergen de créer un centre d’archives sous forme de section autonome. Le centre d’archives suivant a été installé dans une nouvelle université anglaise, l’université d’Essex à Colchester, sous le nom de uk Data Archives. La commission permanente a prêté son concours à la création d’autres archives numériques en proposant le transfert de savoirs techniques et en offrant parfois des logiciels. Au moins aussi important, a été le travail de missionnaire consistant à faire savoir que tout nouveau centre d’archives de données pouvait compter sur la synergie avec les autres centres. Tout en se concentrant sur les ressources locales, les nouveaux centres d’archives pouvaient proposer à leurs utilisateurs l’accès à tous les autres centres existants.
En 1966 a été créé en Belgique le centre d’archives bass, en 1971 l’accès aux archives numériques utilisées pour les enquêtes du Christian Michelsen Institute de Norvège a été ouvert aux chercheurs universitaires, en 1973 l’Indian Council of Social Science Research Data Archives (icssr) s’est joint au réseau des archives numériques en cours de constitution. Du fait de la prolifération des archives numériques qui évoluaient peu à peu vers la constitution de réseaux de services, la nécessité s’est fait sentir de constituer explicitement des règles communes de procédures et de conception, au moins pour l’Europe de l’Ouest. Les réunions au sein de la commission permanente du issc ont permis de mettre au point des normes pour l’échange de données entre institutions et on a élaboré des principes communs pour le traitement des données. La discussion a porté sur les systèmes de recherche documentaire et sur les règles d’accès aux documents. L’accord le plus important a porté sur le « principe de non-ingérence », au nom duquel il était convenu qu’un seul centre d’archives serait compétent par pays. Cette décision a été prise pour deux raisons, la première était d’empêcher que l’accès aux données provenant d’une même source fasse l’objet de demandes concurrentes, la seconde était d’éviter d’irriter les donateurs de données par des demandes provenant de plusieurs sources. En confiant à un seul centre d’archives la responsabilité de répertorier la recherche dans un pays donné, on pouvait espérer qu’il y aurait moins de raisons d’oublier des études importantes.
La réunion de 1976 de la Commission permanente du ciss sur les Archives numériques en sciences sociales a eu un effet capital pour la reconnaissance de l’importance de l’accès aux données pour les sciences sociales empiriques. Philip Hastings du Roper Center a annoncé son intention de créer un centre d’archives mondial en recommandant aux responsables américains des principaux groupes à la tête d’instituts de sondage de demander à leurs partenaires étrangers de remettre leurs donnée à Williamstown. Les instituts européens et l’icpsr ont émis des objections au nom de la conception de la mise en réseaux et du principe de non-ingérence. Les données européennes étaient communiquées à Hastings à titre gracieux, comme à tout autre utilisateur. C’était précisément là que résidait le problème aux yeux de Hastings. Pourquoi quelqu’un voudrait-il lui acheter des données s’il pouvait les obtenir sans rien débourser en s’adressant aux centres d’archives du réseau ? Les avantages et les inconvénients sur le plan conceptuel étaient bien connus. Ce qui était nouveau, en revanche, c’est que les Européens risquaient de ne plus pouvoir accéder gratuitement aux données recueillies en Europe. Il n’était pas exclu que les responsables américains aient un poids financier qui leur permettrait d’obtenir le retrait d’Europe de ces données. Les responsables des réseaux se déclarèrent persuadés que, dans un tel cas, l’affaire prendrait un tour politique et que les institutions européennes prendraient position contre la « fuite des données ». À la fin de cette réunion conflictuelle, et de manière à ramener la sérénité dans les débats, il a été décidé de fonder le Council of European Social Science Data Archives (cessda).
La fondation du cessda a ouvert la voie à de nouvelles initiatives en vue d’une coopération mondiale. La Commission permanente du ciss sur les Archives numériques en sciences sociales a organisé une réunion à Louvain-la-Neuve en mai 1977. L’invitation a été acceptée par tous les centres européens et les grands centres américains d’archives à l’exception d’un. Il a été décidé de donner un statut à la coopération en créant la Fédération internationale des organisations de services des données en sciences sociales (ifdo). Ce nouveau conglomérat structuré qui a été aussitôt admis au ciss en tant que membre associé, assumait la plupart des fonctions qui avaient été du ressort de la Commission permanente. Il était entendu que l’ifdo serait aussi chargé de la politique de coopération entre les banques de données, tandis que le cessda se concentrerait désormais sur les problèmes de fonds liés au fonctionnement même des archives numériques.
Par la suite, le personnel des organismes en charge des données aux États-Unis s’est lui-même doté d’une organisation du nom d’assist qui, à la différence du cessda et de l’ifdo, qui sont des fédérations d’institutions, ne compte que des membres individuels. Son objectif principal est la professionnalisation du personnel des organismes de traitement des données.
L’année 1977 a été un tournant dans les relations entre organismes de traitement de données aux États-Unis et en Europe. À la suite de son déménagement, qui lui avait fait quitter le Williams College au Massachusetts pour gagner l’université de Connecticut à Storrs, le Roper Center s’est affilié à l’ifdo et les difficultés de coopération avec les autres centres d’archives n’ont plus été qu’un souvenir du passé.
En 1972 le ciss a connu une profonde modification. Jusque là son assemblée générale était une sorte de Sénat où prenaient place les organismes représentant les diverses disciplines des sciences sociales, suivant la classification de l’unesco. Sa fonction primordiale était de répartir les fonds figurant dans le budget de l’unesco pour l’appui institutionnel des organismes disciplinaires qui les reversaient aux diverses associations internationales. Les critiques du système estimaient que l’influence de l’unesco était écrasante, pour des raisons structurelles. À partir de 1972, le ciss est devenu une fédération des divers conseils nationaux de la recherche en sciences sociales, modification qui a quelque peu renforcé l’assise financière de cet organisme. En 1973 Stein Rokkan est devenu le président d’un Conseil international des sciences sociales rénové, fonction qu’il a assumé jusqu’en 1977.
Les années 1973 à 1977 sont donc une période décisive de restructuration de la coopération internationale dans le domaine des services des données et de la recherche comparative. À la fin de la présidence de Rokkan, les modes de coopération et les structures institutionnelles étaient devenues assez fortes pour se développer d’une manière autonome sans la tutelle du ciss. Au même moment le ciss modifiait à son tour ses priorités. Ces changements ont été facilités par la mort inattendue de Stein Rokkan en 1979, suivie par celle de Sandor Szalai en 1983. Entre 1982 et 1992, le ciss a donné l’impression qu’il se désintéressait de la promotion des services de données, de la méthodologie comparative internationale et de la formation dans ces deux domaines. Désormais les priorités politiques de l’unesco et de l’onu étaient au centre des préoccupations, l’accent étant mis sur les problèmes normatifs plutôt qu’empiriques.
Évolution en matière de formation et de création de données
Le concept d’analyse secondaire a longtemps été peu prisé par les chercheurs en sciences sociales empiriques. La caractéristique des sciences sociales empiriques, en particulier de l’ethnologie et de la sociologie, est que, dès l’origine, elles travaillent sur leurs propres données. À contrario l’analyse secondaire a été longtemps méprisée car on lui reprochait de travailler sur des données dépassées et sans avoir la maîtrise de leur origine. Pour encourager les travaux d’analyse secondaire dont l’intérêt était certain dans plusieurs domaines, il fallait donc faire une campagne d’information et préciser pour les chercheurs ce que l’on pouvait faire à partir des collections de données existantes. C’est dans cet esprit que quatre « manuels » ont été commandés par le Zentralarchiv de Cologne, sous couvert de l’issc. Chacun d’entre eux traitait d’un domaine de fond :
- Andrex Harvey et al. : Comparative Time Budgets (1984) ;
- Herbert Asher et al. : Comparative Political Participation (1984) ;
- Thomas Herz : Comparative Occupational Mobility (1986) ;
- Stein Rokkan et al. : Center-Periphery Structures in Western Europe (1987).
Les quatre « manuels » se composaient d’une présentation du projet (histoire, objectif, financement, personnel pour la recherche), de la description détaillée des données, d’exemples d’analyses déjà réalisées et de suggestions de nouvelles analyses. Lorsque les centres d’archives ont commencé à établir des « guides de codification lisibles par la machine » nous avons estimé que la production de nouveaux « manuels » ne s’imposait plus.
Dès le début de la formation des archives de sondages, les « schémas descriptifs des sujets d’étude » ont suscité un grand intérêt. La Steinmetz Stichting a mis au point un document qui combinait la description des caractéristiques du sondage avec des schémas de codification appliqués à des questions particulières. En ce qui concerne le Zentralarchiv, le schéma qu’il a mis au point mettait surtout l’accent sur les caractéristiques méthodologiques des enquêtes par sondage. La norme préconisée par le seac (Social and Economic Archives Committee) en vue d’un inventaire des enquêtes par sondage au Royaume-Uni adoptait une approche différente, consistant en descriptions de « sujets d’études » étroitement reliées mais distinctes à l’intention de ceux qui envisageaient de procéder à des analyses secondaires. Ces divers projets ont été présentés pour la première fois en 1967 par Marten Brouwer (Amsterdam) et Hans Dieter Klingemann (Cologne) dans une conférence organisée par le American Council of Social Science Data Archives. À la suite de cette discussion les outils ont été affinés dans un esprit de coopération dans le cadre de la Commission permanente puis de l’ifdo, pour aboutir enfin à un schéma unifié.
À côté de ce travail de description des matériaux archivés sur le plan collectif, il fallait également mettre au point un outil donnant aux chercheurs des informations sur les variables individuelles. Après tout, lorsque nous avions critiqué le Roper Center à ses débuts, n’avions-nous pas insisté sur le fait que les analyses secondaires de matériaux issus de sondages devraient se faire au niveau des variables ? La fédération constituée à l’université du Michigan sous le nom de icpr (devenue depuis icpsr) s’est imposée avec la mise au point d’un document conduisant à ce que nous avons appelé par la suite « guide de codification lisible par la machine ». Ces répertoires étaient essentiellement sous forme de tirages sur papier des questions, des catégories de réponse, ainsi que des éléments marginaux en nombres absolus et en pourcentage. On y trouve des observations complémentaires comme par exemple sur l’implication de certaines des catégories (Mochmann, 1974-1975). Ces éléments donnent aux chercheurs la possibilité de planifier leurs analyses en prenant en considération le nombre des cas et la forme de la distribution.
Les « guides de codification lisibles par la machine » sont de vrais livres et, en raison des difficultés de réalisation que cela implique, ils ne peuvent être conçus que pour une partie des collections d’archives de données de sondages. Ces répertoires sont malgré tout devenus monnaie courante pour les grandes études comparées et pour les données de séries temporelles. Il arrive aussi que les centres d’archives créent eux-mêmes des ensembles de données. Depuis 1973 la Communauté européenne commande régulièrement, plusieurs fois par an, des enquêtes constituées du même jeu de questions dans tous les États membres, les Eurobaromètres. En regroupant tous ces ensembles de données recueillies pour chaque pays pour en faire un seul ensemble international qui est présenté sous forme de répertoire lisible par la machine, le Zentralarchiv « crée » un ensemble de données comparatives qui pourra faire par la suite l’objet d’analyses. On étudie actuellement la possibilité d’élargir la conception de l’Eurobaromètre à d’autres régions, avec éventuellement comme objectif de constituer un réseau mondial de baromètres régionaux (Mochmann, 2002).
On trouve avec le projet icore (International Committee for Research into Elections and Representative Democracy) un cas de « création » d’une série temporelle ex-nihilo. Les données concernant toutes les élections nationales ont été réunies en remontant à 1989 pour plusieurs pays européens et à 1949 pour l’Allemagne. Ces données a été regroupées en un seul ensemble de données et se présentent sous la forme d’un répertoire unique lisible par la machine (Mochmann et al., 1998). Cette ressource étant devenue accessible à partir de 1998, elle a donné lieu à un élargissement du corpus à plus de cinquante États démocratiques, sous la forme du projet cses (Comparative Study of Electoral Systems). Cette collection de données se caractérise par une innovation : la combinaison de données micropolitiques et macropolitiques. La réalisation de l’ensemble consolidé de données de l’icore a été confiée au za, tandis que l’ensemble unifié des données du cses sera réalisé par l’American National Election Study.
En 1983 la Social and Community Planning Research (scpr) de Londres a proposé une collaboration au zuma ainsi qu’au za (Allemagne), au norc (États-Unis ) et à l’anu (Australie) portant sur leurs enquêtes démographiques annuelles respectives. Il a été convenu de proposer un ensemble de questions comparables d’une durée de quinze minutes sous forme de supplément au module général et d’accroître considérablement les variables portant sur un environnement commun. Il était entendu que le Zentralarchiv fusionnerait les ensembles de données nationales pour en tirer une collection internationale. Chacun des organismes participant financerait ses propres activités. Cette entreprise commune aurait non seulement pour but de constituer une ressource pour des analyses internationales, elle permettrait aussi de procéder à des comparaisons dans le temps. À cette fin les principaux thèmes devraient être renouvelés tous les cinq ans. C’est sur cette base qu’est né l’International Survey Programme (issp) qui regroupe actuellement les données de trente-huit pays.
Le premier thème concernait en 1985 le « rôle des autorités publiques ». Au cours des années suivantes, les thèmes principaux ont été les suivants : les réseaux sociaux, l’inégalité sociale, la famille et la modification des rôles masculin et féminin, la religion, les choix de travail et l’environnement. Tous les ans les représentants des organismes participants désignent une sous-commission pour déterminer le thème retenu. Les organismes qui souhaitent rejoindre l’issp doivent accepter de se plier aux règles établies, comme l’emploi d’échantillons aléatoires, l’utilisation des pages de titre standard de l’issp, l’assurance du financement nécessaire à la continuité des opérations et la communication des données pour intégration dans un ensemble de données internationales. Le siège du secrétariat change régulièrement. À l’heure actuelle le secrétariat est assuré par le norc de Chicago.
En 1981 a été créé à l’initiative de Jan Kerkhofs et de Ruud de Moor l’European Values System Study Group (evssg) qui collecte des données dans dix pays d’Europe de l’Ouest (Ester et al., 1993). En 1984 l’organisme comptait quatorze pays de plus et le caractère de l’étude s’élargissait au-delà de l’Europe pour devenir le World Values Survey. Une deuxième vague s’est déroulée de 1989 à 1993 et une troisième est actuellement en cours depuis 1999. Une collaboration s’est établie entre l’université de Tilburg, le Steinmetz Stichting et le Zentralarchiv en vue de préparer les ensembles de données pour la partie européenne de l’étude.
La caractéristique commune de ces activités de recherche internationale est qu’elles proviennent du monde de la recherche. Les groupes concernés sont apparus de manière spontanée et se sont étoffés sous l’effet de la réputation et des affinités. Un fait intéressant est que le financement n’est jamais provenu d’une seule source, même pour des tâches qui dépassaient le mandat de chacune des unités de recherche prises individuellement, et la solution dans tous ces cas a consisté à adopter les vieux principes de la rotation des responsables, les décisions de fond étant prises par consensus entre les partenaires. En ce sens ces activités fournissent des exemples encourageants en matière d’autonomie des chercheurs en matière d’organisation. L’ifdo offrait un cadre très peu contraignant, mais le point focal était dans tous les cas le centre d’archives de données. On n’avait pas prévu, au début du mouvement de promotion des données, que les centres d’archives assumeraient une fonction de promotion de la recherche comparative.
Les enquêtes sur la victimisation se sont propagées dans de nombreux pays, ce qui a conduit à la création spontanée du groupe de l’International Crime Victim Survey (icvs). Étant donné que ces enquêtes sur la victimisation ont démarré de manière indépendante, il convenait de faire le point sur les différences de méthodologie. Entre 1992 et 1997, l’icvs a procédé par trois fois à une collecte internationale d’ensembles de données. Une quatrième campagne est actuellement prévue.
Beliefs in Government est le premier projet comparatif international de grande ampleur effectués à partir d’enquêtes effectuées uniquement sous forme d’analyses secondaires de données archivées
[7]. Un groupe composé de seize pays a décidé en 1986 qu’il devrait être possible de réaliser une étude des changements dans les attitudes des populations envers les gouvernements d’Europe de l’Ouest sur la base des documents conservés dans les dépôts d’archives numériques. Les experts ont considéré qu’il était préférable de recourir à des analyses secondaires plutôt que d’entreprendre une nouvelle enquête internationale, car les comparaisons seraient meilleures sur le plan diachronique. Le matériau disponible couvrait une période qui incluait deux périodes de turbulences majeures en politique, la révolte « postmatérialiste » entre 1965 et 1970 et l’effondrement des systèmes communistes. Les travaux ont commencé en 1989 et ont abouti au bout de six ans. La période couverte par les analyses secondaires laissait présager des résultats alarmants. Or les responsables du projet sont arrivés à la conclusion suivante : « Les démocraties peuvent supporter des tensions internes et externes considérables tout en s’ajustant à des situations en pleine mutation. » (Kaase et Newton, 1995, p. 16).
Les archives numériques offrent la possibilité d’enseigner de manière différente les méthodes et les contenus des sciences sociales empiriques. On sait que les étudiants en peinture apprennent leur art en copiant les œuvres des grands maîtres de la peinture. Par analogie nous avons institué ce que nous avons appelé « des séminaires de confrontation de données ». Nous avons à la Zentralarchiv les ensembles de données qui ont servi à la rédaction d’ouvrages significatifs. Par exemple les tables de prédiction des mariages d’Ernest Burgess (Burgess et Cottrell, 1939), le Teacher Apprehension Study de Paul Lazarsfeld (Lazarsfeld et Thielens, 1958) et l’étude sur le syndicat de l’imprimerie de Seymour Martin Lipset (Lipset et al., 1956). On fournit aux étudiants les ensembles de données et les répertoires, et on leur demande de suivre pas à pas la méthode utilisée par les auteurs pour parvenir à leurs conclusions. Mais ce procédé a été abandonné car on s’est aperçu qu’on ne pouvait mettre sur le même pied « une grande peinture » et « un grand livre ». Sans doute l’analogie serait-elle plus exacte si on prenait un « grand article de recherche ». Au moment où cette idée nous est apparue, nous avons été pris par d’autres activités, laissant de côté les problèmes de formation. En conséquence, si quelqu’un s’y intéresse, l’idée de confrontation avec des données reste ouverte.
Pour l’avenir de la recherche en sciences sociales quantitatives, il est un fait qui a eu une importance encore plus grande, c’est le renforcement et l’augmentation du nombre des centres d’archives de données. En Allemagne, outre le Zentralarchiv, deux autres centres ont élargi l’éventail des services offerts aux chercheurs en sciences empiriques. En premier lieu, le Informationszentrum für Sozialwissenschaften (iz) de Bonn, puis, à partir de 1970, le Zentrum für Umfragen und Analysen (zuma) de Mannheim. L’iz a été créée dans le cadre du Zentralarchiv en tant que service d’information sur les recherches en cours et plus particulièrement sur les recherches portant sur des sondages. Puis le Arbeitsgemeinschaft Sozialwissenschafltlicher Institute (asi : Institut des associations de chercheurs en sciences sociales) s’est offert à reprendre la section du Zentralarchiv sur les recherches en cours en lui donnant le statut d’institut de service indépendant qui serait également chargé de rédiger des abstraits pour la littérature courante. Actuellement on peut accéder à tous les services de l’iz sur papier et en ligne. De même le zuma a été créé en tant qu’institut de service pour la recherche quantitative, là aussi l’accent étant mis sur les recherches portant sur des sondages. Sa fonction majeure consiste à fournir des consultations aux chercheurs spécialisés dans un domaine thématique, en leur donnant des explications sur les questions méthodologiques liées à l’exécution et à l’analyse de projets financés sur fonds publics. Il propose notamment l’organisation de tests préalables de connaissances. Il organise une formation sur les méthodes quantitatives, apporte sa contribution à l’amélioration des outils de recherches et fournit même des micro-données provenant de sources statistiques officielles. Le centre zuma est chargé de la version allemande de l’enquête sociale générale, allbus, réalisée dans le cadre de l’issp.
Le 12 décembre 1986 ces trois instituts allemands se sont fédérés sous le nom de gesis, organisme au sein duquel chacune des entités conserve son identité opérationnelle et conceptuelle. Tout comme gesis, chacun de ces instituts dispose d’un budget régulier provenant de trois ministères. Avec un budget d’environ quatorze millions de dollars des États-Unis, ces instituts fournissent tout l’éventail des services nécessaires pour la recherche quantitative en sciences sociales.
Aux États-Unis l’évolution a été quelque peu différente. Étant donné la taille du pays et le nombre des chercheurs, il n’était pas raisonnable de songer à un dépôt central d’archives. Surtout, depuis une vingtaine d’années les instituts fournissant des données se sont multipliés, s’ajoutant aux structures déjà en place. On peut dire néanmoins qu’il y a deux grands centres : le Roper Center et le icpsr. Le Roper Center a en dépôt la plus vaste collection de sondages au monde et il dispose, depuis son installation à l’université de Connecticut, de possibilités de recherches de données appropriées. Quant au icpsr (Inter-University Consortium for Political and Social Research), il s’agit à la fois d’une unité au sein de l’Université de Michigan et d’une association forte d’environ cinq cents membres provenant tant des États-Unis que d’au-delà. Les données sont communiquées aux membres et la plupart des données qui figurent dans un grand nombre de centres d’archives des États-Unis proviennent des ressources de l’icpsr.
Au cours des vingt dernières années le nombre des centres d’archives de données s’est rapidement accru. Dans les années quatre-vingt des archives centrales ont été constituées en France, Australie, Hongrie et Autriche. La croissance a été encore plus spectaculaire dans les années quatre-vingt-dix, notamment dans les pays de l’ancien Pacte de Varsovie. En Europe de l’Ouest il y a actuellement dix-neuf dépôts « centraux » d’archives de données et en Amérique du Nord il y a quatorze services de données en tout genre. Six nouveaux centres de services de données viennent d’être créés en Australie, Israël, Amérique du Sud, Uruguay, Nouvelle Zélande et au Japon.
Conclusion : le nouveau monde des services de données
Lorsque le mouvement de promotion des services de données a commencé il y a quarante ans, la préoccupation première a été de traiter la pénurie de données, surtout s’agissant de données concernant les personnes physiques. Nous sommes maintenant au seuil de l’abondance. Ces changements sont à l’origine de problèmes nouveaux, mais offrent également d’importantes possibilités pour le développement de services nouveaux.
Du fait de la prolifération des centres de fournitures des données, la nécessité se fait fortement sentir d’une harmonisation des normes, sans quoi les échanges de données et l’intégration de collections de données dans des ressources de séries internationales et temporelles risquent d’être freinés. L’ifdo pourrait être le principal moteur de cette action, mais jusqu’à présent les centres d’archives ont très bien réussi à s’entendre entre eux grâce à leurs relations directes. Dans la mesure où ces centres d’archives ont coopéré au moment de leur fondation et où les personnels d’archives ont des motivations très similaires, il s’est créé des réseaux personnels efficaces qui fonctionnent mieux que ne le pourrait un organisme central. En outre, il y a un nombre suffisant d’activités communes, comme au sein de l’issp, sans compter les conférences internationales, pour entretenir ces relations personnelles.
Il n’en reste pas moins que les souhaits des utilisateurs commencent à diverger. Les étudiants et les chercheurs qui travaillent sur de petits projets recherchent toujours des ensembles de variables tirés d’enquêtes précises et pour ce type de demande on n’a besoin que de données concernant le pays où se trouve le centre de données. Quant aux chercheurs confirmés, ils sont de plus en plus intéressés par des ensembles de données complexes permettant l’analyse comparative. Sur le plan méthodologique, il s’agit là d’une utilisation bien plus adéquate de données d’enquêtes. Les analyses classiques portant sur une seul sondage avec leurs tableaux à deux ou à trois dimensions et leurs tests de signification sont, dans la logique de leur conception, des expériences faites a posteriori ; en revanche lorsque l’on traite des ensembles de données complexes, l’approche consiste à les considérer comme des observations réalisées dans des contextes différents. Déjà John Stuart Mill affirmait que les sciences sociales doivent se fonder essentiellement sur des données observées. Néanmoins, lorsqu’on travaille avec des collections de données qui dépassent les vingt mille unités, comme c’est le cas pour l’issp, il faut certes une excellente documentation en matière de données, mais aussi des capacités développées en matière de traitement des données. Si dans l’avenir les collections de données de l’icore sont complétées par des informations supplémentaires sur le contexte, cela exigera des compétences en analyse croisée, ce qui ne fait par partie des connaissances méthodologiques utilisées en sciences sociales. Le niveau de compétence exigé des chercheurs travaillant sur des ensembles de données hautement complexes apparaît de manière évidente dans la description qui est faite des problèmes rencontrés lors du projet Beliefs in Government (Kaase et Newton, 1995). C’est pourquoi le développement d’ensembles de données complexes, par exemple de documents tirés des mass médias ou de recherches sociales historiques, doit aller de pair avec un renforcement de la formation méthodologique.
Cette formation est d’ailleurs déjà bien engagée. L’université d’Essex à Colchester et le Zentralarchiv de Cologne organisent des séminaires de formation d’une durée d’un mois, avec une équipe internationale de professeurs encore que les stagiaires soient surtout européens. Aux États-Unis le icpsr propose des stages du même type. Au nombre des méthodes de pointe étudiées dans ces « Écoles d’été » ou « Séminaires de printemps », figurent des techniques comme celle de « l’analyse des correspondances » qui ne fait pas encore partie, sauf en France, du bagage méthodologique standard des chercheurs, bien qu’elle soit particulièrement adaptée à la recherche comparée sur des ensembles de données complexes issues de l’analyse d’enquêtes (Blasius, 2001 ; Greenacre et Blasius, 1994). Ces ensembles de logiciels deviendront de plus en plus une ressource importante, dans la mesure où les centres d’archives de données ne se considèrent plus comme des dépositaires passifs des données qu’on leur confie, mais revendiquent un rôle de « créateurs » de données du fait des diverses procédures de traitement et de fusion de ces ensembles de données.
Dans son quatrième Programme cadre pour le développement de la science, la Communauté européenne a ouvert la possibilité pour les sciences sociales de participer à un projet de « services à grande échelle ». L’ecass et le Zentralarchiv qui avaient proposé leurs services ont été choisis pour assurer une formation de haut niveau dans le cadre de ce projet tri-annuel. Intitulé « za-Eurolab », ce programme offre à des chercheurs la possibilité de venir avec leurs propres données et de voir sur place s’ils peuvent les intégrer dans des ensembles figurant dans le dépôt d’archives. On a aussi organisé des stages de formation sur le traitement et l’archivage des données à l’intention des chercheurs d’Europe de l’Est. De ce fait l’ecass et le Zentralarchiv recevaient environ trois cents chercheurs pour des périodes d’un mois, ce qui avait pour effet non seulement de diffuser des connaissances techniques et méthodologiques, mais aussi de renforcer les réseaux établis à titre personnel entre fournisseurs de données.
La Commission européenne a élargi le champ des services de données qu’elle est prête à financer. Dans le cadre du « Network of Economic and Social Science Infrastructures », quatre instituts (l’ecass, le za, le ceps au Luxembourg et le centre d’archives norvégien nsd) coopèrent pour surmonter la barrière des frontières nationales en vue de réaliser des études comparées. Le nessie soutiendra pendant quatre ans des flux intensifs d’échanges de données ainsi que des séminaires et des ateliers. L’aspect novateur de nessie est l’accent mis sur la liaison entre les données des sondages et les jeux de données microéconomiques provenant notamment des bureaux de statistiques. Dans ce dernier cas l’origine des données et le degré de professionnalisme avec lequel elles ont été recueillies à l’intention des chercheurs, sont très différents de ceux que l’on trouve dans les données provenant des sondages, mais cela n’interdit pas de tenter de réaliser des liaisons entre ces deux types de données.
Cette initiative rejoint celle du Ministre fédéral de la recherche en Allemagne visant à améliorer l’accès aux données microéconomiques et sociales. Une commission a proposé de créer des « Centres de données pour la recherche » où les chercheurs pourraient avoir accès à des données sensibles, par exemple les informations personnelles recueillies lors du recensement national. Comme le montre Gustave Goldmann, l’Office des statistiques du Canada joue un rôle de pionnier dans la création de ces Centres de données pour la recherche. Toutes ces initiatives prouvent que les centres traditionnels d’archives de données se fédèrent peu à peu dans un réseau d’institutions de conservation de données qui, étant donné les différences de structures administratives des divers pays, remplissent en gros des fonctions similaires tout en gardant leur spécificité nationale.
Des modifications se produisent au sein même des centres d’archives au sens traditionnel de l’expression. C’est ainsi que le centre danois d’archives s’est associé avec l’ecass et le nsd pour constituer le projet nesstar (Networked Social Science Tools and Resources) qui vise à mettre au point un logiciel qui permettrait aux chercheurs d’obtenir des données d’archives par l’Internet. Depuis son bureau, le chercheur pourrait obtenir simultanément des données de plusieurs centres d’archives et effectuer ses analyses. Pour Richard Rockwell du Roper Center cette initiative aurait pour résultat la création d’ « un centre virtuel d’archives mondiales ». Si ce projet devait prendre corps il faudrait l’accueillir avec un mélange de joie et d’horreur. La joie proviendrait du fait que les chercheurs très expérimentés seraient délivrés d’une grande partie des tâches ancillaires de la recherche empirique. Quant à l’horreur elle serait provoquée par le fait que les deux cauchemars du début des années soixante referaient surface : d’une part le risque d’oublier en raison de leur abondance, la nature des données traitées ; d’autre part le danger de voir s’accroître de manière exponentielle l’utilisation d’algorithmes statistiques d’une complexité sans rapport avec la réalité des unités d’analyse.
Dans les enquêtes électorales effectuées dans les pays développés, on ne saisit par les réponses sous la forme où on les a reçues. Les correctifs apportés sont souvent considérés comme relevant de procédures confidentielles. De même est considéré comme confidentiel la manière dont on traite les réponses « sans opinion », dont le taux est toujours important, alors que normalement on devrait pouvoir retrouver ces réponses dans les archives numériques. Pour prendre un autre exemple, à partir de 1990, les résultats des enquêtes en Allemagne étaient affectés d’un coefficient de 2 000 pour l’Ouest et 1 000 pour l’Est de l’Allemagne, bien que le rapport démographique ait été de 3,25 pour 1. Par ailleurs on tend à maintenir secret, au moins dans les instituts commerciaux de sondage, le remplacement des interviewers dans le cas d’échantillons aléatoires, et à un degré encore plus grand le remplacement d’analystes lors de l’étude de l’échantillon. Enfin le traitement des informations sur la page de titre est très différent suivant les institutions et surtout suivant les pays. C’est pourquoi il serait prudent, dans le cas de données fusionnées, d’obtenir de l’organisme qui a effectué la fusion la communication des ensembles de données de base.
Le spss fournit, sans même qu’on le lui demande, des algorithmes statistiques développés, comme le test tau de Kendell ou le test de Cramer, ou encore le test exact de Fisher. Certes on peut outrepasser dans une certaine mesure les recommandations introduites dans l’algorithme, telles que « données non-paramétriques uniquement », ou « mesure ordinale uniquement », mais non pas au point qui est souvent pratiqué dans la recherche comparative. À mesure que le volume des données s’accroît, on risque de sombrer dans l’abus des statistiques mathématiques. Il n’est pas interdit de penser que des stages de formations sous l’égide de la ifdo et des publications judicieuses pourraient se montrer utiles en la matière.
Traduit de l’anglais
·
Alker, H.R. 1968. « Research possibilities using aggregate political and social data », dans Rokkan (1968), p. 143-162.
·
Asher, H. et al. 1984. Political Participation, Frankfurt, Campus Verlag.
·
Banks, A.S. ; Textor, R.B. 1963. A Cross Polity Survey, Cambridge, Mass, mit Press.
·
Blasius, J. 2001. Korrespondenzanalyse, München, Wien, Oldenbourg, Brüning-Leverkus, Iris.
·
Brüning-Leverkus, I. 1966. Die Meinungslosen, Berlin, Duncker und Humbold.
·
Burgess, E.W. ; Cottrell, L.S. 1939. Predicting Success or Failure in Marriage, New York, Prentice Hall.
·
Cantril, H. (avec Strunk M.) 1951. Public Opinion 1935-1946, Princeton, Princeton University Press.
·
Christie, R. ; Jahoda, M. (eds) 1954. Continuities in Social Research : Studies in the Scope and Method of « The Authoritarian Personality », Glencoe, Ill, Free Press.
·
Cochran, W.G. et al. 1954. Statistical Problems of the Kinsey Report on Sexual Behaviour in the Human Male. A Report of the American Statistical Association Committee to Advise the National Research Council Committee for Research in Problems of Sex, Washington, dc, American Statistical Association.
·
Ester, P. et al. (dir.) 1993. The Individualizing Society. Value Change in Europe and North America, Tilburg, Tilburg University Press.
·
Greenacre, M.J. ; Blasius, J. 1994. « Preface », dans Greenacre, M. J. and Blasius, J. (dir.), Correspondence Analysis in the Social Sciences. Recent Developments and Applications, London, Academic Press, p. vii-xv.
·
Harvey, A.S. et al. (eds) 1984. Time Budget Research, Frankfurt, Campus Verlag.
·
Herz, T. A. 1986. Social Mobility. An ISSC Workbook in Comparative Analysis, Frankfurt, Campus Verlag.
·
Himelhoch, J. ; Fava, S. (eds) 1955. Sexual Behavior in American Society : An Appraisal of the Two First Kinsey Reports, New York, W.W. Norton.
·
Kaase, M. ; Newton, K. 1995. Beliefs in Government, Oxford, Oxford University Press.
·
Lazarsfeld, P.F. ; Thielens, W. 1958. The Academic Mind. Social Scientists in a Time of Crisis, Glencoe, Ill, Free Press.
·
Lipset, S.M. et al. 1956. Union Democracy, Glencoe, Ill, Free Press.
·
Lucci, Y., Rokkan, S. ; Meyerhoff, E. 1957. A Library Center of Survey Research Data. A Report of an Inquiry and a Proposal, New York.
·
Merton, R.K. ; Lazarsfeld, P.F. 1950. Studies in the Scope and Method of « The American Soldier », Glencoe, Ill, Free Press.
·
Mitchell, R.E. 1968. « Survey materials collected in the developing countries: obstacles to comparisons », dans Rokkan (1968), p. 210-239.
·
Mochmann, E. 1974-1975. « Information access at the data item level. Approaches to indicator retrieval from survey archive data bases », sigsoc Bulletin, vol. 6, n° 283.
·
– 2002. International Social Science Data Services. Scope and Accessibility. Report for the International Social Science Council (issc), Cologne, ciss.
·
Mochmann, E. et al. 1998. Inventory of National Election Studies in Europe 1945-1995, Bergisch-Gladbach, Ferger Verlag.
·
Mosteller, F. et al. 1949. The Pre-Election Polls of 1948. Report of the Committee on Analysis of Pre-Election Polls and Forecasts, New York, Social Science Research Council.
·
Murdock, G.P. 1949. Outline of World Cultures, New York, Human Relations Area Files.
·
Ohlin, G. 1968, « Aggregate comparisons : problems and prospects of quantitative analysis based on national accounts », dans Rokkan (1968), p. 163-170.
·
Rokkan, S. (ed.) 1968. Comparative Research Across Cultures and Nations, Paris, Mouton de Gruyter.
·
Rokkan, S. ; Szczerba-Likiernik, K. 1968. « Introduction », dans Rokkan (1968), p. 1-13.
·
Rokkan, S. et al. 1987. Center-Periphery Structures in Europe, Frankfurt, Campus Verlag.
·
Russett, B.M. et al. 1964. World Handbook of Political and Social Indicators, New Haven, Conn., Yale University Press.
·
Scheuch, E.K. 1964. A New Tool of Social Research : Archives for Survey Data. Report Submitted to the International Social Science Council, Paris, ciss.
·
– 1966. New Developments in Data Archives for the Social Sciences. Report to the International Social Science Council, Paris, ciss.
·
– 1968. « The cross-cultural use of sample surveys: problems of comparability », dans Rokkan (1968), p. 176-209.
·
– 1990. « D’un service d’archives de données à une infrastructure de recherche en sciences sociales », Revue internationale des sciences sociales, 123, p. 103-120.
·
Scheuch, E.K. ; Stone, P. J. 1964. « The general inquirer approach to an international retrieval system for survey archives », American Behavioral Scientist, 8(10), p. 23-28.
·
Szalai, S. 1977. « The organization and execution of cross-national survey research projects », dans Szalai et Petrella (1977), p. 49-77.
·
Szalai, S. ; Petrella, R. (en collaboration avec Stein Rokkan et Erwin K. Scheuch) 1977. Cross-National Comparative Survey Research. Theory and Practice, Oxford, Oxford University Press.
·
Young, P. V. 1939. Scientific Social Surveys and Research, New York, Prentice Hall.
[1]
Du fait de l’indigence des services officiels de statistiques à la fin du
xixe siècle aux États-Unis, les spécialistes de sciences sociales ont été amenés à effectuer des recherches systématiques en sciences sociales pour combler les lacunes (cf. Young, 1939).
[2]
L’existence même de ce nouveau centre de données a failli être mise en cause lorsque l’un des chercheurs du
za a procédé à l’analyse des réponses « sans opinion ». À partir des données provenant des instituts de sondage commerciaux, il a été démontré que l’éventail des réponses « sans opinion » était corrélé à la situation démographique des personnes interrogées et au type de questions posées (Brüning-Leverkus,1966).
[3]
Ainsi les effets que des modifications dans la composition ethnique d’une équipe d’interviewers peuvent produire sur les résultats d’un sondage répété dans le temps apparaissent dans une enquête faite aux États-Unis sur des questions liées à la race. L’utilisation de Noirs américains en tant qu’interviewers a conduit à des changements remarquables dans les éléments marginaux. On peut en déduire que les valeurs antérieures sur les relations raciales étaient en grande partie des constructions dues aux chercheurs eux-mêmes.
[4]
Le disque n’est absolument pas le média idéal pour la conservation des données.Son défaut majeur est la rapidité avec laquelle les informations disparaissent. Dans les banques de données il faut réenregistrer les données environ tous les dix ans.
[5]
Le défaut majeur de cette configuration destinée à faciliter le travail des utilisateurs était qu’un simple étudiant pouvait mettre en œuvre une règle statistique complexe par le simple recours à un mot clef, sans avoir la moindre idée de l’algorithme sous-jacent. Il en est très fréquemment résulté une utilisation erronée de programmes de statistiques mathématiques.
[6]
Depuis environ 1948 jusqu’au milieu des années cinquante, les principales controverses méthodologiques de la sociologie américaine ont été réévaluées par des commissions ou autres groupes de chercheurs en sciences sociales. Le principaux sujets de controverses et les critiques portaient sur les erreurs dans la prédiction des résultats de l’élection présidentielle de 1948 par les instituts de sondage (Mosteller
et al., 1949), le gros rapport final du groupe de chercheurs en sciences sociales sur l’armée américaine pendant la Seconde Guerre mondiale. (Merton et Lazarsfeld, 1950), l’ouvrage
The Authoritarian Personality (Christie & Jahoda, 1954) critiqué tant sur le plan conceptuel que sur le plan empirique, et les deux volumes du « Rapport Kinsey » sur le comportement sexuel des Américains (Cochran
et al., 1954 ; Himelhoch et Fava, 1955).
[7]
Les résultats de ce projet ont été publiés en cinq volumes. On trouvera dans le volume 5 une présentation instructive de ce travail (Kaase et Newton, 1995).