2005
Revue d’économie du développement
Évaluer l’impact des programmes d’aide au développement : le rôle des évaluations par assignation aléatoire. Commentaires
Hans-Rimbert Hemmer
Université de Giessen et Kreditanstalt fuer Wiederaufbau (KfW), Francfort
Dans la pratique de la coopération du développement, on peut observer une forte tendance au changement pour éloigner de plus en plus l’aide de projets isolés vers des programmes sectoriels. En conséquence, l’évaluation de programme plutôt que l’évaluation de projet est nécessaire pour découvrir à quel point ces programmes sont réussis. La méthodologie pour évaluer ces programmes sectoriels n’a cependant pas encore atteint le même niveau qualitatif que celui qu’a atteint la méthodologie d’évaluation de projet. La situation est telle qu’il est important de diriger plus d’activités de recherche vers le domaine de la méthodologie d’évaluation sectorielle. L’article d’Esther Duflo est, dans ce contexte, une contribution hautement bienvenue à la méthodologie d’évaluation de programmes sectoriels.
Le principe de base de l’évaluation est la comparaison « avec et sans ». Mais qu’est-ce que le « cas sans » ? Dans la pratique du développement, nous dépendons ici largement de la spéculation. La question se pose du degré auquel le caractère spéculatif du « scénario sans » pris comme référence peut être réduit et l’objectivité de l’évaluation peut être accrue. L’article de Duflo est une remarquable (et, comme je tiens à l’ajouter dès le tout début de mes commentaires, réussie) tentative de contribution à une meilleure identification de ce qui peut être pris comme un « scénario sans » adéquat. Elle prouve sa compétence élevée en matière de méthodologie d’évaluation ainsi que sa connaissance profonde de l’état de l’art en matière d’évaluation. Sa présentation du concept d’évaluations par assignation aléatoire prospectives et sa comparaison avec les méthodes « concurrentes » d’appariement par score de propension, des techniques de différences dans les différences et du concept de discontinuité des régressions est convaincante, semble logique et est un réel plaisir à lire. À ce niveau-là, Esther, merci beaucoup !
D’après ma propre connaissance et compréhension, les deux problèmes les plus importants inhérents à la méthodologie d’évaluations par assignation aléatoire prospectives qu’Esther préfère sont :
- L’assignation d’un groupe de comparaison crédible dont le développement peut être considéré comme étant le « développement dans le scénario sans », et
- L’identification de la fonction objective sous-jacente à la mesure de l’impact.
En ce qui concerne l’assignation d’un groupe de comparaison crédible, Esther montre les étapes qui doivent être empruntées afin de trouver un résultat valide. Toutes les remarques qu’elle fait sont correctes et nécessaires à la fois. Mais néanmoins, un aspect ne peut pas isolé avec sa méthodologie : plus le programme est important, plus la probabilité est forte que le groupe de comparaison le connaisse déjà. Dans un tel cas, il ne peut pas être exclu que la simple connaissance de l’existence d’un tel programme (et peut-être également de quelques-unes de ses pierres angulaires) influence déjà le comportement du groupe de comparaison de manière à ce que le processus de développement du groupe de comparaison reflète également dans une certaine mesure le programme lui-même. Si le programme est valorisé positivement par les membres du groupe de comparaison, ils pourraient être tentés d’influencer le résultat de l’évaluation positivement - ce qui signifie de manière à ce que l’évaluation montre l’impact bénéfique du programme - avec l’attente implicite que le programme sera étendu à d’autres groupes (et, on peut l’espérer, également au groupe de comparaison). À l’opposé, si le programme est valorisé négativement, il pourrait y avoir la tentation de « prouver » un impact seulement marginal du programme afin de le faire stopper et/ou d’en empêcher l’extension au groupe de comparaison. Plus un programme est conçu en grand et mieux il est connu, plus le danger est grand d’un « biais d’impact » dans l’évaluation en comparant les conséquences pour le groupe cible avec un groupe de contrôle - indépendamment de la façon dont ce groupe de contrôle a été sélectionné. Plus un programme est petit, moins ce danger est important - mais alors, le programme peut plus se rapprocher d’un projet unique.
Permettez-moi d’ajouter une autre question relative à ces remarques : comment devrions-nous prendre en compte les interventions de politique provoquées par le programme (que ce soit une précondition pour le programme lui-même ou que ce soit une réaction à certains résultats du programme) qui ont un impact sur les autres personnes en dehors du groupe cible du programme ? Cela signifie-t-il que nous ne pouvons pas du tout trouver un véritable « scénario sans » ? Ou cela limite-t-il fortement la possibilité d’application de la méthodologie proposée par Esther à d’autres programmes que ceux qui nous sont présentés comme exemples ?
Je ne suis pas capable de résoudre ces problèmes ici mais je voulais au moins les mentionner.
Le second problème auquel je veux toucher est celui de l’identification de la fonction objective sous-jacente à la mesure de l’impact. Esther est en faveur de techniques de régression pour trouver l’impact - une approche pour laquelle je ressens beaucoup de sympathie. Mais l’analyse de régressions est liée à des effets qui peuvent être régressés ! D’après ma propre expérience en tant qu’évaluateur de projet, je connais les immenses insuffisances auxquelles les évaluateurs sont normalement confrontés s’ils essaient de trouver la véritable fonction objective sous-jacente au programme. Dans de nombreux cas, seulement quelques objectifs sont montrés en détail et les objectifs qualitatifs jouent très souvent un rôle crucial, pour ne mentionner que deux aspects. Dans les deux cas, l’impact du programme ne peut pas être mesuré du tout. Cela commence avec l’incapacité d’identifier combien de réalisations d’objectif ont été atteintes, continue avec l’incapacité de discriminer entre les effets du programme et les effets autonomes (du fait des insuffisances de la comparaison avec un groupe de contrôle) et, enfin, dans le cas d’une fonction objective complexe avec une subdivision entre les objectifs généraux et les cibles du programme sectoriel (qui sont supposées contribuer positivement aux objectifs généraux), il peut y avoir des impacts partiels conflictuels qui ne peuvent pas être compensés.
En plus de cela, il ne peut pas être exclu que les objectifs du programme peuvent être acceptables pour le groupe cible mais pas pour le groupe de comparaison, une fois encore avec pour conséquence des différences de comportement induites par les objectifs.
Néanmoins, les remarques que j’ai soulevées ici sont marginales comparées à l’analyse substantielle et solide qu’Esther nous a livrée. J’ai beaucoup appris et je suis certain que je bénéficierai de son expérience dans mon propre travail. Par conséquent, une fois de plus : Merci beaucoup, Esther !