CAIRN.INFO : Matières à réflexion

Introduction

1 La disponibilité de nouveaux jeux de données de grandes tailles (big data) combinée à l’apparition de nouvelles méthodes d’analyse (machine learning) constituent, dans de nombreux domaines, une réelle révolution. Sans tomber dans l’hubris du big data, les avancées scientifiques en ce qui concerne la conduite autonome, la reconnaissance d’images ou bien encore l’étude des génomes sont déjà tangibles. Les progrès réalisés depuis quelques années dans ces domaines sont d’ailleurs spectaculaires. Mais qu’en est-il en ce qui concerne la recherche en économie ? Doit-on parler d’une « révolution big data » ou bien d’une simple évolution ?

Le big data, un nouveau tournant empirique

2 La « révolution des données » en économie se place dans un horizon plus long et dans un mouvement plus global que celui du mouvement big data des dix dernières années. Comme documenté par Hamermesh (2013), la science économique a déjà connu un grand virage empirique à partir du début des années 1990. Dans les meilleures revues en économie  [1], le pourcentage d’articles purement théoriques a été divisé par deux sur les trente dernières années. Dans le même temps, le pourcentage d’articles empiriques utilisant de nouvelles données a fortement augmenté, passant de 2,4 % en 1983 à 34 % en 2011. Cette évolution est le signe d’un changement de mentalité, mais aussi, et plus simplement, d’un accès plus large et moins coûteux à de nouvelles données. Ce mouvement, qui a débuté avec l’émergence d’Internet dans les années 1990, ne fait donc que s’amplifier avec l’apparition du big data.

3 Le volume, la variété et la vélocité des données accessibles aux chercheurs en économie ont totalement explosé depuis une dizaine d’années. Sans être exhaustif sur les milliers d’applications potentielles, il est désormais possible d’utiliser : (1) des données satellitaires pour prévoir la croissance de la construction, (2) des données de cartes bleues pour analyser l’évolution de la consommation, (3) des données textuelles sur les réseaux sociaux pour mesurer la confiance des ménages, (4) des données de prix sur les sites marchands pour mesurer l’inflation, (5) des données de recherches sur Google pour prévoir le chômage… Dans un monde digitalisé, toutes les actions des individus deviennent des « données » et les empreintes numériques des agents peuvent désormais servir de base à de nouveaux indicateurs économiques. Au lieu d’analyser des phénomènes à partir de données agrégées (macro), il est donc désormais possible dans de nombreux cas d’analyser des phénomènes à partir de données désagrégées (micro). À cet égard, pour les chercheurs en sciences sociales, le big data peut s’apparenter à l’apparition du microscope pour les microbiologistes (King, 2011). La grande question est désormais de savoir si ces observations « microscopiques » permettent d’apporter des contributions à la science économique par rapport aux observations « macroscopiques » traditionnelles. Les données sont en effet plus nombreuses et détaillées que les données traditionnellement utilisées par les économistes, mais elles sont aussi bien souvent beaucoup plus bruitées (imparfaites) et moins structurées (organisées), ce qui rend leur analyse difficile.

La promesse de nouveaux indicateurs

4 Le semble spécialement prometteur en macroéconomie en ce qui concerne deux aspects : la « prévision du présent » et la création d’indicateurs dans les pays où les données officielles ne sont pas fiables, voire truquées par le gouvernement. Concernant le premier point, de nombreux articles ont tenté, depuis les travaux de Choi et Varian (2012), d’analyser les requêtes réalisées sur Google pour prévoir la croissance, le chômage ou encore l’évolution des marchés financiers. L’idée est assez simple : par exemple, si le nombre de recherches sur Google sur la requête « pôle emploi » ou « assurance chômage » augmente lors d’une période, alors il y a de fortes chances que le taux de chômage augmente durant cette même période — les personnes venant de perdre leur emploi ou étant proche de le perdre se renseignant sur Google afin de connaître les démarches à suivre ou le niveau des indemnités. L’objectif n’est pas de mieux prévoir la croissance à long-terme, ni de mettre en avant des liens de causalités, mais simplement d’avoir, en temps réel, une meilleure vision de la situation économique actuelle. Les indicateurs macro-économiques sont publiés mensuellement ou trimestriellement, avec un retard de quelques jours à quelques semaines après la fin de la période. En période de crise, être capable d’identifier un retournement de cycle seulement quelques jours ou semaines avant la publication des chiffres officiels peut constituer une réelle avancée et permettre aux décideurs politiques de réagir plus rapidement et plus efficacement. Les grandes institutions se sont d’ailleurs largement emparées de ce sujet depuis quelques années comme le montre l’augmentation des conférences organisées par la Banque d’Angleterre ou la Commission européenne  [2]. Pour le moment, la majorité des travaux présentés restent cependant des projets de recherche ; malgré des résultats prometteurs, ces nouveaux indicateurs ne sont pas officiellement utilisés par les institutions dans leurs modèles de prévision.

5 Un autre avantage important des données big data est leur disponibilité dans des pays en voie de développement ou émergents où les statistiques officielles n’existent pas (ou sont de faible précision), ou bien où les chiffres officiels sont truqués par le gouvernement. L’un des projets les plus célèbres dans ce domaine est le « Billion Price Project » lancé par des chercheurs du MIT et d’Harvard. L’idée de base est ici encore assez simple : calculer un indicateur d’inflation au jour le jour en extrayant de manière automatisée les prix de plusieurs centaines de milliers de produits vendus sur les principaux sites marchands. En comparant l’évolution des prix « en ligne » sur les sites des principaux supermarchés en Argentine avec le chiffre officiel publié par le gouvernement argentin, Cavallo (2013) a ainsi démontré que l’inflation en Argentine était en réalité trois fois supérieure au chiffre officiel publié par le gouvernement. Ce projet a donc confirmé la « déclaration de censure » du Fonds monétaire international (FMI) envers l’Argentine, accusé d’avoir falsifié les chiffres d’inflation et de croissance sous la présidence de Cristina Kirchner  [3].

6 Dans les pays en voie de développement, les images satellites constituent aussi une nouvelle source de données très prometteuse pour mesurer la pauvreté dans les zones reculées, à partir de l’analyse de la taille des bâtiments, du nombre de voitures, du type de terrain ou encore de l’état des cultures (Engstrom et al., 2017). Les progrès réalisés en informatique dans le domaine de la reconnaissance d’image trouvent ici une application directe à l’économie. Les chercheurs en économie utilisent d’ailleurs de plus en plus de méthodes issues de recherches en science informatique : par exemple le traitement automatique du langage naturel pour convertir des textes en variables quantitatives, ou le pour mieux prendre en compte certaines non-linéarités dans les modèles. Le développement de langages et de logiciels informatiques performants et gratuits facilite grandement le travail des chercheurs en économie. Historiquement, les économistes ont eu l’habitude de travailler avec des données qui tenaient dans une feuille de calcul Excel (Varian, 2014). De plus en plus, les économistes travaillent avec des données massives et de nouvelles méthodes de traitement des données (base de données NoSQL, package de machine learning, logiciels open-source…). Dans de nombreuses facultés, les étudiants en économie ont désormais accès à des cours de programmation en Python ou en R dans leur cursus traditionnel. Une petite révolution tout de même...

Vers la fin des grandes questions économiques ?

7 En dehors de ces projets ayant comme objectif l’amélioration de la qualité ou du timing des indicateurs macroéconomiques (inflation, chômage, croissance…), les données big data peuvent permettre d’apporter de nouvelles contributions à certains « puzzles » économiques. Récemment, de nombreux papiers du National Bureau of Economic Research ont par exemple analysé plusieurs millions de « courses » de chauffeurs Uber afin d’offrir de nouvelles preuves empiriques en ce qui concerne l’écart de salaire hommes-femmes, la réduction de l’aléa moral  [4], ou bien encore l’impact de la flexibilité du travail... Plus globalement, les partenariats entre chercheurs et plateformes privées (Ebay, Amazon, Google, Facebook…) sont de plus en plus nombreux. Les chercheurs en économie ont ainsi accès à de nouvelles données granulaires permettant bien souvent des publications dans de très bonnes revues (prime à l’innovation). En contrepartie, les plateformes privées revendent les données ou bénéficient d’une visibilité auprès du monde académique et des médias  [5]. Ces collaborations, bien que prometteuses, peuvent cependant poser de nombreuses questions en ce qui concerne l’indépendance des chercheurs. De plus, pour les jeunes chercheurs, il est souvent très difficile d’avoir accès aux données des grandes plateformes, par manque de financement ou de réseau. Cela constitue une barrière à l’entrée importante, encore plus forte pour les chercheurs ne faisant pas partie des grandes institutions américaines.

8 Sans remettre en cause le fort potentiel du big data en économie, les limites liées à l’utilisation de ces nouvelles données restent nombreuses. Premièrement, les données ne sont souvent disponibles que depuis quelques années, ou quelques dizaines d’années au maximum. Par exemple, les données en provenance de Google Trends ne sont disponibles que depuis 2004. Les données Twitter depuis 2007. Les données du « Billion Price Project » depuis 2008. Deuxièmement, et comme décrit par Lazer et al. (2014), les données provenant des plateformes privées peuvent être sujettes à de nombreux biais et ne sont pas stables dans le temps. Par exemple, le changement du nombre maximum de caractères sur Twitter (de 140 à 280 caractères) a pu avoir un impact non négligeable sur la manière dont les utilisateurs s’expriment et donc, indirectement, sur tous les indicateurs de sentiment calculés à partir du contenu généré sur les réseaux sociaux. De plus, ces données peuvent être plus facilement truquées. Il est en effet beaucoup plus facile de manipuler le sentiment des agents sur les réseaux sociaux, en créant des robots ou des faux comptes par exemple, que de manipuler l’indicateur de confiance des ménages de l’INSEE basé sur des sondages. Troisièmement, la représentativité des individus sur Internet ou utilisant les nouvelles technologies est loin d’être parfaite — les personnes âgées étant par exemple sous-représentées — et la composition de l’échantillon n’est bien souvent connue que très partiellement. Enfin, les données provenant des plateformes ont souvent un aspect « boîte noire » : par exemple l’ajustement (standardisation, dé-saisonnalisation…) sur les données de requêtes Google Trends n’est pas connu et peut être modifié à tout moment, ce qui implique une instabilité des indicateurs et pose des problèmes de reproductibilité et de transparence.

9 L’analyse via l’utilisation du n’est donc pas un substitut au bon sens, à l’utilisation des théories traditionnelles, ou à la nécessité de construire soigneusement un cadre de recherche (Einav et Levin, 2014). Mais, et sans en sous-estimer les pièges et les défis, ces nouvelles données et méthodes représentent tout de même de nombreuses opportunités pour le monde académique. Aux chercheurs maintenant de trouver les données pertinentes à analyser, de constituer des bases de données transparentes, d’assurer la reproductibilité des différents travaux, et de veiller à utiliser ces nouveaux outils dans le respect de la protection de la vie privée. Pour que l’évolution de la dernière décennie devienne une réelle révolution.

Notes

  • [1]
    American Economic Review (AER), Journal of Political Economy (JPE), Quarterly Journal of Economics (QJE).
  • [2]
    Voir les conférences « Modelling with Big data and Machine Learning » (Banque d'Angleterre, 2018) et « New Techniques and Technologies for Statistics » (Commission européenne, 2019).
  • [3]
    Récemment, les chercheurs du “Billion Price Project” ont lancé une nouvelle initiative pour mesurer l’inflation au Vénézuela, où aucun chiffre officiel n’existe depuis 2015…
  • [4]
    Aléa moral : probabilité qu’un individu assuré augmente sa prise de risque, par rapport à la situation où il supporterait entièrement les conséquences négatives de ces risques.
  • [5]
    Les chercheurs académiques « valorisant » en quelque sorte les données des entreprises privées qui externalisent une partie de la recherche (à coût zéro).
Français

Le volume, la variété et la vélocité des données accessibles aux chercheurs en économie ont totalement explosé depuis une dizaine d’années. Les données massives permettent l’amélioration de la qualité ou du timing des indicateurs macroéconomiques et peuvent en outre apporter de nouvelles contributions à certaines grandes questions économiques. Cependant, au-delà des nouveaux horizons ouverts par les données massives, de nouveaux biais et limites apparaissent, ne permettant aux chercheurs de faire l’économie des théories et outils traditionnels.

Bibliographie

  • En ligne Cavallo A. (2013), « Online and official price indexes: Measuring Argentina’s inflation », Journal of Monetary Economics, 60(2), 152-165.
  • En ligne Choi H. & Varian H. (2012), « Predicting the present with Google Trends », Economic Record, 88, 2-9.
  • En ligne Einav L. & Levin J. (2014), « Economics in the age of big data », , 346(6210), 1243089.
  • En ligne Engstrom R., Hersh, J. & Newhouse D. (2017), Poverty from space: using high-resolution satellite imagery for estimating economic well-being.
  • En ligne Hamermesh D. S. (2013), « Six decades of top economics publishing: Who and how? », Journal of Economic Literature, 51(1), 162-72.
  • King G. (2011), « Ensuring the data-rich future of the social sciences », 331(6018), 719-721.
  • En ligne Lazer D., Kennedy R., King G. & Vespignani A. (2014), The parable of Google Flu: traps in big data analysis, Science, 343(6176), 1203-1205.
  • En ligne Varian H. R. (2014), « Big data: New tricks for econometrics », Journal of Economic Perspectives, 28(2), 3-28.
Thomas Renault
Maître de conférences à l’Université Paris 1 Panthéon-Sorbonne, assistant d’enseignement à l’IESEG School of Management, professeur à l’ENSAE ParisTech.
Mis en ligne sur Cairn.info le 17/06/2019
https://doi.org/10.3917/rce.023.0032
Pour citer cet article
Distribution électronique Cairn.info pour La Découverte © La Découverte. Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou totalement le présent article, de le stocker dans une banque de données ou de le communiquer au public sous quelque forme et de quelque manière que ce soit.
keyboard_arrow_up
Chargement
Chargement en cours.
Veuillez patienter...