Informations sociales
CNAF

I.S.B.N.sans
186 pages

p. 56 à 67
doi: INSO.150.0056

Veille sur la revue
Veille sur l'auteur
Vous consultez

Partie 1 : Nouvelles approches, nouvelles méthodes

n° 150 2008/6

2008 Informations sociales Partie 1 : Nouvelles approches, nouvelles méthodes

L’apport des expérimentations dans l’évaluation de l’impact des dispositifs publics

Bruno Crépon Administrateur Insee, il est chef du département de la recherche de l’Insee et professeur associé à l’École polytechnique et à l’Ensae. Auteur de plusieurs contributions sur l’évaluation des politiques publiques, il est membre des équipes conduisant aujourd’hui les premières évaluations par expérimentation en France.
Les expérimentations constituent un outil performant pour mesurer les effets des dispositifs publics. Trois exemples types de schémas possibles de mise en Å“uvre d’évaluation par expérimentation sont ici présentés. La rigueur du tirage aléatoire pour sélectionner la population, le suivi de la situation des individus intégrés dans le programme et la puissance de l’expérimentation (c’est-à-dire sa capacité à mesurer les plus petits effets) sont autant d’étapes nécessaires à sa réussite.
La méthode d’évaluation par expérimentation, qui se développe en France, est réputée plus fiable, précise et transparente que ne peuvent l’être d’autres outils évaluatifs. La présentation qui est faite dans cet article des principes de base et des étapes de cette démarche étaye cette appréciation.
Pour répondre à l’important besoin d’évaluation des dispositifs publics, de nombreux programmes ont été développés, notamment dans le domaine de l’emploi et de l’insertion. Ils représentent aujourd’hui des budgets considérables. Néanmoins, on ne dispose pas de véritable connaissance de l’effet de ces dispositifs et de leurs performances comparées. Cette méconnaissance a de nombreux inconvénients : d’une part, elle nuit à l’orientation des fonds vers les dispositifs les plus efficaces et, d’autre part, l’incertitude sur l’efficacité des politiques engagées réduit vraisemblablement les fonds qui y sont investis.
Ainsi, il apparaît important de développer aujourd’hui les outils permettant d’avoir une appréciation claire de l’effet des politiques et des programmes, de telle sorte que la nature des actions à conduire soit mieux connue. Ces outils existent. La question de l’évaluation de l’impact d’un programme a fait l’objet de recherches actives au cours des dernières décennies (Heckman et al., 1998 ; Heckman et Vytlacil, 2006 ; Angrist et Kruger, 1999 ; Imbens et Wooldridge, 2008). Les expérimentations occupent une place privilégiée parmi ces outils. Elles sont en effet susceptibles, lorsqu’elles sont appliquées correctement, de conduire de façon transparente et intelligible à des résultats rigoureux sur lesquels peut s’appuyer le débat public.
Les méthodes d’évaluation par expérimentation ont été utilisées dans des domaines très variés. Les premières utilisations ont eu lieu aux États-Unis et au Canada et portaient sur des programmes destinés à favoriser le retour à l’emploi. D’autres expérimentations ont cherché à évaluer l’effet des dépenses dites « passives » en examinant l’incidence d’une augmentation des allocations chômage sur le retour à l’emploi. Certains programmes s’a parentant au revenu de solidarité active (RSA) ont également été évalués par le biais d’expérimentations, notamment au Canada. Enfin, les politiques d’éducation – questions relatives à la taille des classes, à la mixité sociale et géographique – ont été analysées dans ce cadre (programme Star en particulier).
De nombreux programmes de lutte contre la pauvreté ont aussi été évalués dans les pays en voie de développement par le biais d’expérimentations : dispositifs de microcrédit, mécanismes d’incitation à l’adoption de nouvelles technologies ou encore programmes dans le domaine de l’éducation et de la santé. En matière d’éducation, ces travaux sont d’ores et déjà assez nombreux pour qu’on puisse tirer des enseignements généraux sur les programmes de soutien à l’éducation dans les pays en développement (Kremer, 2003).
En France, l’utilisation de ces méthodes ne fait que débuter. Plusieurs programmes de retour à l’emploi sont actuellement évalués dans un cadre expérimental – programme d’accompagnement vers l’emploi des RMIstes, programmes d’accompagnement de l’Unédic et de l’ANPE adressés aux chômeurs présentant des risques de chômage de longue durée. Récemment, le Haut Commissariat aux solidarités actives a lancé un appel d’offres, inédit dans notre pays, destiné à favoriser simultanément l’émergence de programmes d’insertion et leur évaluation par ce type de méthode ; plusieurs projets en sont issus.
Le but de cette contribution est de présenter l’objectif et les grandes caractéristiques de ces évaluations par expérimentation et de souligner comment leur mise en Å“uvre peut s’inscrire souplement dans le contexte de développement opérationnel d’un programme.
 
Evaluer l’impact d’un programme
 
 
Par évaluation, on comprend souvent évaluer le processus de mise en Å“uvre d’un programme généralement destiné à une population spécifique. Les analyses s’apparentent alors à un audit : compter le nombre de bénéficiaires effectifs, déterminer le taux d’entrée dans le programme, vérifier que les services prévus ont bien été offerts, qu’ils étaient de bonne qualité, etc. Alors que les programmes ont aussi pour finalité d’atteindre un objectif, par exemple remettre les individus dans l’emploi, les évaluations de processus ne donnent aucune information sur ce point qui est soit ignoré, soit considéré comme acquis. Il est pourtant crucial de vérifier que les objectifs assignés aux programmes sont atteints et que ces programmes apportent une réelle plus-value. C’est l’objet des évaluations dites « d’impact ».
La formalisation de ce que peut être l’impact d’un dispositif, au niveau individuel ou collectif, et la façon dont on peut le mesurer ont été l’objet de recherches importantes (Angrist et Krueger, 1999 ; Heckman et Vytlacil, 2006). L’effet causal de la participation à un programme sur une variable donnée (par exemple la sortie du chômage vers l’emploi) est défini comme la comparaison entre la situation d’un individu bénéficiaire et ce qu’aurait été sa situation s’il n’avait pas participé au programme. On compare donc une situation réelle et observée, celle de l’individu bénéficiaire, avec une situation virtuelle et inobservée. L’effet causal a une caractéristique centrale : il est inobservé. On n’observe pour chaque individu qu’une seule des deux situations : avec et sans participation au programme. Il y a nécessairement une des deux informations qui est manquante.
 
Les problèmes liés à la sélection et aux méthodes d’évaluation
 
 
Pour mesurer l’impact d’un programme, il est nécessaire de reconstruire cette situation inobservée. L’idée centrale est de s’appuyer sur la situation observée pour des individus n’ayant pas participé au programme. On est alors amené à confronter la situation moyenne observée pour un groupe de participants et la situation moyenne observée pour un groupe de non-participants – un groupe de contrôle. La question est alors celle du choix de ce groupe de contrôle. Le problème principal est que les deux populations de participants et de non-participants ne sont pas identiques, en l’absence même du programme. De ce fait, la comparaison de la situation moyenne des deux populations de bénéficiaires et de non bénéficiaires mêle deux effets indiscernables. Le premier est l’impact du programme. C’est ce que l’on cherche à mesurer. Le deuxième est « l’effet population ». Il résulte de différences préexistantes entre les deux populations. Cet effet vient contaminer la mesure à laquelle on s’intéresse et biaise l’appréciation que l’on a de l’impact de la participation au programme. Il s’agit là d’un problème fondamental de l’évaluation : « le biais de sélection ». Il existe un large éventail de méthodes pour corriger les comparaisons que l’on effectue entre bénéficiaires et non-bénéficiaires de ce biais de sélectivité. Celles-ci reposent sur des hypothèses spécifiques qui ont un impact considérable sur les résultats. L’une des méthodes couramment employée pour l’évaluation est la méthode dite de « l’appariement » (Imbens, 2004 ; Caliendo et Kopeinig, 2005). Pour chaque individu bénéficiant du programme, il s’agit de trouver un individu n’ayant pas bénéficié du programme et ayant des caractéristiques observables [1] similaires – sexe, âge, diplôme, historique sur le marché du travail, etc. – et de comparer leurs situations respectives. Cette méthode réduit les erreurs que l’on peut commettre en faisant une comparaison grossière, mais un biais subsiste. On ne corrige avec cette méthode que la sélection dite « sur observables ». Il reste la sélection dite « sur inobservables ». Par exemple, dans une population de chômeurs, il y a des demandeurs d’emploi prêts à faire tous les efforts pour retrouver rapidement un emploi. D’autres, au contraire, sont moins motivés et peuvent éprouver une forme de découragement. Aucun fichier statistique ne contient ces informations « inobservables ». Elles sont pourtant très importantes car elles conditionnent à la fois l’entrée dans un programme et la capacité à sortir spontanément du chômage vers l’emploi. Elles vont donc fortement contribuer à un effet population substantiel venant biaiser les comparaisons entre participants et non-participants. Il ne s’agit pas là d’un problème de second ordre que l’on pourrait négliger en première approximation. Heckman, Ichimura et Todd (1998) montrent que les biais résiduels avec la méthode de l’« appariement » sont en général de l’ordre de grandeur de l’effet du programme lui-même. En outre, les résultats obtenus sont sensibles au choix des variables sur lesquels on apparie les individus, et on se trouve alors face à une multiplicité de résultats. Même si la méthode de l’« appariement » est une très bonne méthode, là ou l’on a besoin d’évidence forte, son apport est limité.
 
Les évaluations par expérimentation
 
 
Les évaluations dites « par expérimentation » ne présentent pas cet inconvénient. Dans leur version standard, ces évaluations consistent à partager de façon aléatoire la population éligible en deux. Une seule des deux populations, le groupe test, est affectée au programme. L’intérêt de cette démarche est qu’elle permet d’obtenir deux populations statistiquement identiques : même proportion de moins de trente ans, de femmes, de diplômés, mais aussi même proportion de personnes motivées pour améliorer leur situation ou, au contraire, découragées. Au terme d’un échantillonnage aléatoire, n’importe quelle caractéristique est identiquement représentée entre les deux groupe. Une fois le programme mis en Å“uvre, la seule différence entre le groupe test et le groupe de contrôle ne peut provenir que du programme lui même. L’idée reste donc la même que dans les études par « appariement », à la différence notable que l’on construit au préalable deux populations statistiquement identiques et qu’elles sont exposées différemment au programme. On n’a donc pas à reconstruire ex post ces deux populations, qui ne seront statistiquement identiques que sur un nombre choisi et donné de caractéristiques.
Cette idée d’évaluation par expérimentation peut paraître complexe et peu opérationnelle. Pourtant, il faut plutôt la considérer comme un principe général qu’il est possible d’insérer, le plus souvent de façon assez souple, dans le processus de mise en Å“uvre d’un programme [2]. Par exemple, il n’est pas nécessaire de tirer au hasard les individus mais plutôt des groupes d’individus comme des écoles au sein desquelles on développe un programme. Duflo et al. (2008) tirent ainsi au sort 60 classes parmi un groupe de 120 pour examiner l’impact de la constitution de classes de niveaux sur les résultats des élèves. Le tirage au sort peut aussi s’opérer de différentes façons. Nous présentons trois exemples types de schémas possibles de mise en Å“uvre d’évaluations par expérimentation.
• Le cas des loteries
Les postulants sont tirés au sort et répartis aléatoirement en deux populations. C’est fréquemment de cette façon que les grandes évaluations menées aux États-Unis sont menées, comme celle du programme Job-Corp, destiné aux jeunes rencontrant de grandes difficultés d’insertion. Ce tirage aléatoire direct peut paraître injuste. Pourtant, dans de nombreuses situations, le nombre de places disponibles dans le programme est limité et largement inférieur à la population éligible. Ainsi, pour l’évaluation du programme d’accompagnement des demandeurs d’emploi proposé par l’Unédic et l’ANPE en 2007, 80 000 places étaient disponibles pour un public éligible évalué à plus de 350 000 (Behaghel et al., 2008).
• Le cas des programmes développés progressivement
Des programmes sont mis en Å“uvre progressivement car on ne pourrait mobiliser les moyens nécessaires à leur développement immédiat dans toutes les zones concernées. Ce type de contraintes opérationnelles se prête très bien à la mise en place d’un protocole expérimental. Dans ce cas, il est en effet possible de découper l’ensemble du territoire concerné par le programme en un grand nombre de périmètres homogènes. On tire alors au sort l’ordre selon lequel les périmètres entreront dans le programme. Tant qu’ils n’y sont pas entrés, les derniers périmètres constituent des groupes de contrôle adaptés pour les périmètres entrant les premiers. Miguel et Kremer (2004) ont ainsi pu évaluer l’effet d’une campagne de traitement vermifuge sur la participation scolaire au Kenya. Le programme prévoyait de développer sur trois ans une campagne de traitement dans 75 écoles. Trois groupes de 25 écoles ont été formés aléatoirement. Le groupe 1 a été traité dès la première année, le groupe 2 la deuxième année et le groupe 3 la troisième. L’effet du traitement la première année a pu être évalué en utilisant comme groupe de contrôle les écoles traitées les années deux et trois. L’effet au bout de deux ans a pu être évalué en utilisant comme groupe de contrôle les écoles traitées l’année trois.
• Le cas des encouragements
Il s’agit de procéder à un tirage aléatoire en amont du processus d’entrée dans le programme : on tire deux populations au hasard dans la population éligible et on ne propose l’entrée qu’à l’une des deux, l’autre étant exclue du programme. Les individus auxquels on a proposé le programme sont libres d’entrer ou non dans le programme. On compare la situation moyenne de l’ensemble des deux populations, celle à laquelle a été proposé le programme (en incluant tous les individus, qu’ils aient acceptés ou non de participer) et celle à laquelle on n’a pas proposé de participation. La différence entre les situations moyennes est simplement rééchelonnée en divisant par la proportion d’individus entrant dans le programme dans la population à laquelle on a proposé le programme. C’est ainsi qu’a été conduite l’évaluation du programme d’accompagnement vers l’emploi proposé par l’Unédic et l’ANPE.
Le cas des encouragements peut même être encore plus souple puisqu’il est compatible avec une entrée partielle des individus appartenant au groupe de contrôle. Dans ce cas, le design de l’expérimentation consiste à constituer deux groupes au hasard et à proposer avec plus d’intensité l’entrée à l’un des deux groupes. Ce qui importe est d’avoir des taux de participation différents dans les deux groupes. L’évaluation est alors faite en comparant la situation moyenne des deux groupes et en la rééchelonnant par la différence des taux d’entrée dans le programme dans les deux populations. À titre d’exemple, un programme d’accompagnement des RMIstes a été mis en place dans les Hauts-de-Seine. Les 14 000 individus éligibles pour ce programme ont été partagés aléatoirement en deux groupes : l’un de 10 500 individus et l’autre de 3 500, constituant le groupe de contrôle. Une importante campagne publicitaire pour le programme, par le biais d’affiches publiques ou des travailleurs sociaux, a été faite. Les individus de la première liste ont été directement contactés par courrier et par téléphone. Il en a résulté une adhésion de 18 % dans ce groupe. Dans l’autre groupe, destiné à être le groupe de contrôle, la publicité générale faite pour le programme a attiré 6 % du public, qui sont entrés dans le programme. Le point important est que la différence des taux de participation, soit 12 %, est différente de zéro. Ce cadre permet alors de conduire l’évaluation et d’apprécier de façon rigoureuse l’effet du programme sur les versements du RMI et sur le retour à l’emploi.
Le cadre des encouragements permet aussi de donner de la robustesse aux évaluations par expérimentation. Il leur est en effet fréquemment reproché d’être des cadres trop contraignants et de ne proposer des résultats que lorsque le protocole a été scrupuleusement réglé. Dès lors que l’on s’écarterait un tant soit peu du protocole, on ne serait plus dans une situation permettant de tirer des conclusions de l’expérimentation. En particulier, il se pourrait que, dans le cas d’une loterie, des individus affectés au groupe de contrôle veuillent absolument rentrer dans le programme. On pourrait penser que ce type d’événement compromet de façon rédhibitoire la validité des résultats (programme Star). En fait non, ces écarts par rapport au protocole expérimental initial entrant dans le cadre des encouragements, et on peut donc continuer à apprendre de façon fiable et rigoureuse sur l’efficacité du programme (Angrist et Krueger, 1999). L’affectation aléatoire initiale partage la population en deux sous-populations identiques et qui le resteront indépendamment de toute déviation du protocole expérimental. On a, comme dans le cas précédent, des entrées dans le dispositif sur la liste dite « traitement » et aussi des entrées dans la liste contrôle. Ce qui importe est que l’on part de deux populations identiques et que la mise en Å“uvre du programme conduit à des taux d’entrée dans le programme différents entre les deux listes.
 
Les étapes incontournables
 
 
Les évaluations par expérimentations ne sont pas pour autant la solution miracle capable de régler tous les problèmes. Il reste des impératifs liés à la conduite de ce type d’évaluation. Mais, au fond, bon nombre de ces impératifs s’imposent à n’importe quelle méthode d’évaluation.
L’attribution du programme doit suivre un protocole expérimental clairement spécifié et respecté. Les populations sur lesquelles le programme est évalué doivent être représentatives de la population éligible. Il est également nécessaire que le « tirage aléatoire » distinguant deux populations exposées différemment au programme soit effectué avec une grande rigueur. Les protocoles peuvent être souples, ils peuvent autoriser que les individus du groupe de contrôle entrent dans le programme et que les individus du groupe de traitement n’y entrent pas, mais ils ne peuvent se passer du fait que les deux populations soient rigoureusement tirées au hasard.
Le suivi de la situation des individus impliqués dans le programme doit être effectué avec précision et rigueur. La qualité du suivi d’une population s’apprécie suivant deux critères : la richesse des informations (le degré de détail et l’étendue des thèmes) et le taux de réponse. Dans le cadre des enquêtes, on se concentre sur la richesse des informations et on prête souvent moins d’attention à ce que le taux de réponse soit élevé. Ici, ce pourrait être l’inverse. On se préoccupe avant tout du taux de réponse et ensuite de la richesse des informations. L’intérêt central des évaluations par expérimentation est d’apporter une appréciation sur les effets du dispositif reposant sur le moins d’hypothèses possible. Comment traiter alors les individus pour lesquels on n’a pas d’information ? Doit-on les ignorer ? Doit-on imputer une valeur ? La rigueur et la validité du protocole expérimental et du recueil des informations de suivi sont deux éléments complémentaires. On ne saurait mettre l’accent sur l’un et négliger l’autre. Ceci nécessite parfois des efforts qui peuvent être importants. Dans le cadre de l’évaluation des programmes d’accompagnement de l’ANPE et de l’Unédic, Behaghel et al., 2008 utilisent les données administratives, fichiers de l’ANPE ou de l’Unédic, fichiers de la CAF, pour mesurer la situation en emploi et en chômage. Pour pallier le problème important des sorties inconnues, ils couplent à ces informations une enquête concernant une fraction des individus sortant du chômage, sans renseigner la nature de leur sortie. Il n’en demeure pas moins que les informations délivrées par les fichiers sont souvent frustres et ne donnent pas une appréciation très riche de l’impact du programme. C’est pourquoi il est fréquent de recueillir des informations à l’aide d’enquêtes. Ces opérations sont coûteuses en raison de l’exigence d’un taux de réponse élevé. C’est en général le poste budgétaire le plus important dans le coût de ces évaluations. Un exemple emblématique d’évaluation avec un suivi par enquête est l’expérience Moving To Opportunity menée aux Etats-Unis, et qui offrait la possibilité à certains habitants de quartiers défavorisés de déménager vers de meilleurs quartiers. La diversité de la nature des informations que l’on cherche à recueillir est dans ce cas très importante, puisque l’on cherche à appréhender non seulement l’impact sur des variables économiques comme la situation en emploi et le salaire, mais aussi sur bien d’autres variables, de nature comportementale, psychologique ou médicale (Kling et al., 2007).
L’expérimentation doit en outre être informative. La question à laquelle on s’intéresse est de savoir s’il existe un effet de la politique. L’expérimentation doit permettre d’apporter une réponse à cette question. Elle doit permettre de détecter l’existence d’un effet du programme et ce, même quand il est faible. Les expérimentations sont en fait des instruments de mesure plus ou moins précis et capables de détecter des effets plus ou moins petits. La mesure que l’on effectue est une estimation et de ce fait caractérisée par son degré de précision. Si cette précision est grande, l’expérience sera capable de détecter l’existence d’effet, même de petite taille. Si en revanche la précision est faible, on conclura souvent à la non existence d’un effet, même si celui existe et même s’il est important. Cette précision de l’expérimentation dépend de nombreux facteurs, mais particulièrement de la taille des échantillons : combien de personnes se trouveront dans le groupe de contrôle et combien dans le groupe de traitement ? Un ordre de grandeur pour mener une expérimentation suffisamment informative est d’avoir environ 400 individus dans le groupe de traitement et le groupe de contrôle. Dans le cas des encouragements, la précision dépend de paramètres additionnels. En particulier, elle dépend crucialement du taux d’entrée dans le dispositif. À titre d’exemple, si ce taux d’entrée est de l’ordre de 50 %, la taille des échantillons est beaucoup plus élevée. Il faut en effet alors des échantillons de l’ordre de 1 500 individus.
 
BIBLIOGRAPHIE
 
·  Angrist J., Krueger A., 1999, « Empirical Strategies in Labor Economics », Handbook of Labor Economics, vol. 3, n° 1, p. 1277-1366.
·  Behaghel L., Crépon B., Guitard J., Gurgand M., 2008, « Counseling unemployed : ANPE and Unedic Programs », rapport intermédiaire.
·  Caliendo M., Kopeinig S., 2005, « Some Practical Guidance for the Implementation of Propensity Score Matching », Journal of Economic Surveys, vol. 22, n° 1, p. 31-72.
·  Duflo E., Glennerster R., Kremer M., 2006, Using Randomization in Development Economics Research : A Toolkit, NBER, December.
·  Duflo E., Dupas P., Kremer M., 2008, Peer Effects and the Impact of Tracking: Evidence from a Randomized Evaluation in Kenya, Mimeo.
·  Heckman J., Lalonde R., Smith J., 1999, « The Economics and Econometrics of Active Labor Market Programs », Handbook of Labor Economics, vol. 3, Ashenfelter A. et Card D., (eds.), Amsterdam, Elsevier Science.
·  Heckman J., Ichimura H., Todd P., 1998, « Matching as an Econometric Evaluation Estimator », Review of Economic Studies, vol. 65, n° 2, p. 261-94.
·  Heckman J., Vytlacil E.J., 2006, « Econometric Evaluation of Social Programs », Handbook of Econometrics, vol. 6, Amsterdam : North Holland, James Heckman and E. Leamer, eds.
·  Imbens G., 2004, « Nonparametric Estimation of Average Treatment Effects under Exogeneity : A Review », Review of Economics and Statistics, vol. 86, n° 1, p. 4-29.
·  Imbens G., Wooldridge J. M., 2008, « Recent Developments in the Econometrics of Program Evaluation », IZA working paper, n° 3640.
·  Kling J., Liebman J., Katz L., 2007, « Experimental Analysis of Neighborhood Effects », Econometrica, vol. 75, n° 1, p. 83-119.
·  Kremer M., 2003, « Randomized Evaluations of Educational Programs in Developing Countries : Some Lessons », American Economic Review, vol. 93, n° 2, p. 102-106.
·  Miguel E., Kremer M., 2004, « Worms : Identifying Impacts on Education and Health in the Presence of Treatment Externalities », Econometrica, vol. 72, n° 1, p. 159-217.
 
NOTES
 
[1]C’est-à-dire présentes dans les fichiers statistiques.
[2]Esther Duflo et al. (2006) détaillent les grandes caractéristiques de la conduite de ce type d’évaluation.
© Cairn.info 2009 Vie privée | Conditions d’utilisation | Conditions générales de vente
Cairn.info | Éditeurs | Bibliothèques | Aide à la navigation | Plan du site | Raccourcis
[1]
C’est-à-dire présentes dans les fichiers statistiques. Suite de la note...
[2]
Esther Duflo et al. (2006) détaillent les grandes caractéri...
[suite] Suite de la note...