Introduction aux Évaluations

PDF version

L’évaluation aléatoire est un type d’évaluation d'impact qui utilise l'assignation aléatoire pour déterminer le groupe qui recevra le programme, ou la politique à évaluer, afin de pouvoir le comparer avec un groupe n'y participant pas. Comme toute évaluation d’impact, l’évaluation aléatoire vise avant tout à déterminer si un programme a un impact, et, plus précisément, à quantifier cet impact. Les évaluations d’impact mesurent l’efficacité des programmes en comparant les résultats de ceux qui en ont bénéficié (personnes, communautés, établissements de formation, etc.) à ceux des non-participants à ce programme. Pour ce faire, de nombreuses méthodespeuvent être appliquées, mais on considère généralement que les évaluations aléatoires sont les plus rigoureuses et, toutes choses égales par ailleurs, produisent les résultats les plus précis (c’est-à-dire non biaisés).
La section méthode couvre les quoi, pourquoi, qui, quand et comment des évaluations aléatoires.

Pour plus d’informations sur les évaluations aléatoires, vous pouvez consulter les documents suivants :

L'évaluation?     

Le mot « évaluation » renvoie à un large éventail de sens, il est donc compris de différentes manières selon les individus et les organisations. Par exemple, les ingénieurs évaluent, ou testent la qualité de la conception d’un produit, la durabilité d’un matériau, l’efficacité d’un processus de production ou encore la sûreté d’un pont. Les critiques littéraires évaluent ou établissent la qualité d’un livre et les pédopsychiatres évaluent ou apprécient le processus de prise de décision des enfants.

Les chercheurs affiliés à J-PAL évaluent les politiques et programmes sociaux visant à améliorer les conditions de vie des personnes pauvres partout dans le monde. C’est ce que l’on appelle les évaluations de programme.

Les évaluations de programmes doivent répondre à la question : « Quelle est l’efficacité de notre programme, de notre politique ? ». Selon l’identité de la personne qui pose la question et celle du destinataire, les implications peuvent varier. Par exemple, si une donatrice demande au directeur de l’ONG qu’elle finance « Quelle est l’efficacité de notre programme ? », elle peut vouloir dire « Est-ce que vous gaspillez notre argent ? », ce qui n’est pas dénué de suspicion. Si un homme politique demande à ses concitoyens « Quelle est l’efficacité de notre programme ? », il peut vouloir dire « Notre action répond-elle à vos besoins ? À votre avis, comment pourrions-nous l’améliorer ? ». Les évaluations de programme peuvent donc être associées à des sentiments positifs comme négatifs, en fonction de ce qui les motive : une demande de reddition de comptes ou un désir de connaissance ?

J-PAL travaille en collaboration avec des gouvernements, ONG, donateurs et autres partenaires désireux de connaître la réponse à la question : « Quelle est l’efficacité de notre programme ? ». Il est possible d’y répondre par une évaluation d’impact. Bien que nombre de méthodes puissent être appliquées dans la mise en œuvre des évaluations d’impact, J-PAL a fait le choix de l’évaluation aléatoire.

Les évaluations aléatoires peuvent répondre à la question : « Le programme a-t-il été efficace ? » Mais si elles sont conçues et mises en oeuvre, elles peuvent également donner d'autres indications : « Dans quelle mesure le programme était-il efficace ? » S’est-il accompagné d’effets secondaires involontaires ? Qui en a le plus tiré profit ? Qui en a souffert ? Pourquoi a-t-il fonctionné, ou dysfonctionné ? Quelles sont les résultats pouvant être appliqués à d’autres contextes ? Que se passerait-il si le champ d’action du programme était élargi ? Quel a été le rapport coût/efficacité du programme ? Comment se situe-t-il par rapport à d’autres programmes ayant des objectifs comparables ? Ces dernières questions sont tout aussi intéressantes, si ce n'est plus ! Pour y répondre, l’évaluation d’impact doit faire partie d’un ensemble d’évaluations et d’analyses qui, d’après le cadre des évaluations globales proposé par Peter Rossi, Howard Freeman et Mark Lipsey, s’articule de la façon suivante :

  1. Estimation des besoins
  2. Estimation du cadre logique du programme (théorie du programme)
  3. Évaluation de processus
  4. Évaluation d’impact
  5. Analyses coût/bénéfices, coût/efficacité et analyse comparative des coûts
  6. Objectifs, résultats et mesures

L'estimation des besoins et la théorie du programme déterminent les besoins que le programme ou la politique cherchent à combler, et les étapes nécessaires pour atteindre ces objectifs. Dans l’idéal, les personnes qui mettent en place le programme doivent expressément fixer ces étapes avant de lancer l’évaluation d’impact.

Les chefs de projet se servent des évaluations de processus pour déterminer si les étapes clé et les objectifs respectent le calendrier. De nombreuses organisations établissent des systèmes de suivi des processus, souvent intitulés Suivi et Evaluation (S&E).

Les évaluations d’impact sont conçues pour examiner si les programmes ou politiques remplissent leurs objectifs.

Enfin, les analyses coût/bénéfices et coût/efficacité trouvent leur utilité en ce qui concerne les implications politiques plus larges du programme. Les premières déterminent si les bénéfices apportés par le programme sont supérieurs à son coût. Les secondes comparent les effets de ce programme à ceux d’autres programmes présentant des objectifs similaires.

Quelque soit l'estimation, l'évaluation ou l'analyse auxquelles on veut procéder, il est indispensable de réfléchir à la manière dont le changement peut être mesuré. Pour apprécier les indicateurs de changement, il faut s’appuyer sur une réflexion solide - et garder à l’esprit les objectifs du programme et les résultats attendus- ainsi que sur un système de collecte des données bien conçu. 

Estimation des besoins

Les politiques publique et les programmes de lutte contre la pauvreté sont lancés pour répondre à un besoin spécifique. Prenons l’exemple d’une communauté où le taux d’incidence de la diarrhée est particulièrement élevé : cela peut être dû à une contamination de la nourriture ou de l’eau, à une mauvaise hygiène ou encore à beaucoup d’autres explications tout aussi plausibles. L'estimation des besoins peut nous aider à identifier la cause du problème et les personnes qui en sont le plus affectées.

Pour revenir à notre exemple, le problème de diarrhée peut être dû à l’écoulement d’engrais organiques polluant l’eau potable bue par la communauté.

Cette approche systématique permet de déterminer la nature et la portée d’un problème social, de définir la population cible et de mettre en œuvre l’intervention la plus pertinente.

L’estimation des besoins est essentielle parce qu’un programme se révèle inefficace si l’intervention n’est pas correctement conçue pour répondre au besoin ou si le besoin n’existe pas vraiment. Toujours pour suivre notre exemple, si la contamination est d’origine agricole, investir dans des infrastructures sanitaires comme des toilettes ou des systèmes d’épuration risque de ne pas résoudre le problème. Cette phase d’estimation des besoins peut être conduite en utilisant des indicateurs sociaux publiquement disponibles, des données d’enquête et de recensement, des entretiens, etc.

Estimation du cadre logique du programme (théorie du programme)

Les politiques et les programmes sociaux sont lancés pour répondre à un besoin spécifique. Pour ce faire, il ne suffit pas de presser un simple bouton magique ou d’avaler un comprimé miracle, cela exige généralement une réflexion plus approfondie. Les responsables politiques doivent identifier les causes des problèmes (voir Estimation des besoins) et choisir une stratégie parmi un large éventail d’options pour tenter d‘obtenir des résultats d’une grande diversité.

Par exemple, pour lutter contre la consommation d’eau insalubre, on peut concevoir un programme qui permet d’éviter la contamination des eaux en améliorant les infrastructures sanitaires, ou un autre qui utilise le chlore pour traiter les eaux contaminées. La première intervention ciblerait plutôt les responsables de la pollution, tandis que l’autre concentrerait ses efforts sur les consommateurs de cette eau. On pourrait alors adopter diverses stratégies qui reposeraient sur différentes hypothèses : les individus ne savent pas que leur eau est insalubre ; ils en ont conscience mais n’ont pas accès au chlore ; même s’ils le savent et y ont accès, ils choisissent de ne pas ajouter de chlore à leur eau pour d’autres raisons (désinformation, goût, coût etc.). Ces programmes doivent intégrer à la fois les contraintes financières, humaines et institutionnelles, et le contexte politique. C’est en concevant une réponse appropriée que les responsables politiques décident implicitement de ce qu’est la meilleure approche et pourquoi. Après avoir structuré ce travail et réuni suffisamment de documents sur le sujet, les responsables politiques peuvent mener ce qu’on appelle une évaluation de la théorie du programme ou évaluation de conception.

L’évaluation de la théorie du programme permet d’élaborer un modèle théorique, véritable pilier du programme, en présentant un plan plausible et réalisable pour améliorer les conditions de vie de la population cible. Si les objectifs et les hypothèses de départ ne sont pas raisonnables, alors il est peu probable que le programme soit efficace. Pour évaluer la théorie du programme, on commence d’abord par en définir les bases, puis on estime dans quelle mesure elle répond aux besoins de la population que l’on cible. Parmi les différentes méthodes d’évaluation de la théorie du programme, on peut citer l’estimation du cadre logique du programme et la Théorie du Changement.

Évaluation de processus

Avant  même son lancement, un programme existe sous forme de concept : celle d’une ébauche, d’une description ou encore d’un plan (voir Théorie du programme). Cependant, une fois mis en œuvre, il est confronté aux réalités concrètes du terrain. L’organisation dispose-t-elle d’effectifs formés et en nombre suffisant ? Les responsabilités sont-elles correctement assignées ? Les échéances des tâches intermédiaires sont-elles respectées ? Si le programme a pour but de fournir des pastilles de chlore aux ménages afin de leur permettre de purifier leur eau, la bonne quantité peut-elle parvenir aux centres de distribution en temps voulu ?

L’évaluation de processus, aussi appelée évaluation de la mise en place ou estimation du processus du programme, analyse l’efficacité des interventions, de la mise en place d’un programme et  du système de distribution. Lorsqu’une évaluation de processus est en cours, on parle de suivi du programme, souvent effectué par des systèmes de suivi des processus appelés S&E (Suivi et Évaluation). De telles évaluations peuvent par exemple nous aider à déterminer :

• si les services et les objectifs correspondent bien,
• si les services sont fournis comme prévu aux destinataires appropriés,
• si les prestations de service sont bien organisées,
• si la gestion du programme est efficace,
• si la gestion des ressources du programme est efficace.

Les évaluations de processus servent souvent de référence aux responsables pour mesurer le succès d’un programme, comme par exemple l’affirmation suivante : chaque semaine, les pastilles de chlore ont bien été distribuées à 80 % des bénéficiaires désignés. De tels critères peuvent être fixés par les responsables du programme, et parfois par les organismes de financement. Dans la plupart des grandes organisations, le processus de suivi est assuré par des services internes de Suivi & Évaluation (S&E). Pour déterminer si ces critères sont respectés, il faut mettre en place des mécanismes de collecte de données.

Évaluation d’impact

Les programmes et les politiques publiques sont conçus pour réaliser un objectif (ou un ensemble d’objectifs) bien précis. Prenons par exemple le cas d’un programme de distribution de chlore mis en place spécifiquement pour combattre la très forte incidence des maladies transmises par l’eau dans une région. Pour savoir si un programme est en passe d’atteindre son objectif, il n’est en aucun cas question de demander : « Est-ce que le chlore élimine bien les bactéries ? » ou encore « La consommation de chlore est-elle dangereuse pour la santé ? » car il faut un véritable laboratoire pour répondre à ces questions. Pour que le programme puisse atteindre son but et enrayer la progression des maladies, il faut allouer des fonds, acquérir des comprimés de chlore, mettre en place des systèmes de distribution, s’assurer que les ménages reçoivent les pastilles, qu’ils les utilisent bien et qu’ils ne consomment pas d’eau non traitée. Évaluer le programme permet de s’assurer que toutes ces conditions sont remplies et de voir si l’objectif sera effectivement bien atteint comme prévu.

Dans le cadre de certaines opérations, comme la comptabilité de base, on obtient quelques données, par exemple le nombre de boîtes de comprimés de chlores expédiées. On peut utiliser ce type d’informations dans une évaluation de processus. Cependant, cela ne nous dit pas si nous avons réduit l’incidence des cas de diarrhée. Pour mesurer l’impact, il faut se servir d’indicateurs plus directs, comme par exemple le nombre d’individus qui ont déclaré avoir souffert de diarrhées ces deux derniers mois.

Les évaluations d’impact analysent le succès d’un programme, que l’objectif soit atteint largement ou seulement de justesse. Elles nous permettent d’éliminer les interventions les moins efficaces pour ne garder que les meilleures et nous aident à améliorer les programmes existants.

Le but principal d’une évaluation d’impact est de déterminer si un programme a bien un impact (sur quelques résultats clés) et surtout de quantifier cet impact. Tout d’abord, qu’est-ce qu’un impact ? Si l’on reprend notre exemple avec le chlore, l’impact se mesure par la différence entre l’état de santé des individus qui ont bénéficié du programme et ce qu’aurait été leur état de santé sans ce programme. Ou plus spécifiquement, il s’agit de savoir de combien a été diminuée l’incidence des diarrhées par rapport à ce qu’elle aurait été en l’absence du programme.

Il est plus difficile qu’il n’y paraît d’obtenir le chiffre exact. Il est bien sûr possible de mesurer l’incidence de la diarrhée au sein de la population qui a bénéficié du programme. Cependant, une mesure directe de « ce qui se serait passé sans le programme » est totalement irréalisable, tout comme il est impossible de savoir ce que serait l’économie américaine aujourd’hui si les Nazis avaient gagné la Deuxième Guerre mondiale, ou de déterminer quelle serait la maladie la plus meurtrière de nos jours si Alexander Fleming n’avait pas découvert la pénicilline en 1928 à Londres, dans un vieux laboratoire. L’Allemagne serait peut-être devenue la plus puissante économie du monde, ou alors le régime Nazi serait tombé de lui-même quelques années plus tard. Et peut-être que les petites blessures légères seraient toujours les plus meurtrières, ou alors qu’une substance proche de la pénicilline aurait quand-même été découverte, mais dans un autre laboratoire, à l’autre bout du monde. Si l’on revient à notre exemple du chlore, il est possible que, sans les comprimés, l’état de santé des individus soit resté le même, mais il se peut aussi qu’ils aient commencé à faire bouillir leur eau à la place. Dans ce cas, cela implique que le chlore n’a été qu’un remède substitué à un autre et donc que les individus ne doivent pas vraiment l’amélioration de leur santé directement au chlore.

Les évaluations d’impact analysent l’efficacité d’un programme en comparant les résultats de ceux qui y ont participé (individus, communautés, écoles etc.) à ceux qui sont restés en dehors. Le plus important dans une évaluation d’impact est de trouver un groupe de personnes qui n’ont pas pris part au programme mais qui ressemblent beaucoup aux participants, et plus exactement aux participants s’ils n’avaient pas bénéficié du programme. Leurs résultats sont les plus proches de cet état que nous puissions obtenir. Il existe de nombreuses méthodes  pour créer un tel groupe de comparaison et chacune d’entre elles est dotée de ses propres hypothèses.

Analyses coût/bénéfices, coût/efficacité et analyse comparative des coûts

Deux organisations peuvent parvenir à des stratégies complètement différentes en abordant pourtant le même problème. Si par exemple une communauté consomme de l’eau contaminée et que cela provoque une forte incidence des cas de diarrhée, une ONG pourrait suggérer d’investir dans des réseaux de distribution d’eau et des infrastructures sanitaires plus modernes, avec un système d’épuration, des canalisations etc. Mais une autre pourrait plutôt proposer un système de distribution dans lequel on donnerait aux ménages des comprimés de chlore gratuits afin qu’ils puissent purifier leur eau chez eux. Mais pour peu que ces deux stratégies se révèlent aussi efficaces l’une que l’autre, en réduisant l’incidence des cas de diarrhée de 80 % par exemple, appliquer l’une ou l’autre reviendrait-il au même pour les responsables politiques ? Sans doute pas. Ils devront aussi prendre en compte le coût de chaque stratégie.
Il est très probable que la modernisation des infrastructures d’un village complètement isolé coûterait un prix exorbitant. Dans ce cas, la décision à prendre semble évidente, mais l’alternative n’est pas toujours aussi tranchée. En réalité, dans cet exemple, on se retrouverait plutôt confronté à un choix entre un investissement dans des infrastructures qui permettraient de réduire l’incidence des cas de diarrhée de 80 % et un programme de distribution de chlore qui coûterait cent fois moins cher et réduirait l’incidence des cas de diarrhée de 50 %.

L’analyse coût/bénéfice permet de quantifier les bénéfices et les coûts d’un programme en les mettant dans la même unité. Pour se faire, on se contente généralement de chiffrer les bénéfices. Cette analyse tente de répondre à la question suivante : Les bénéfices apportés par le programme sont-ils supérieurs à son coût ? Ou en d’autres termes, cet investissement a-t-il enrichi ou appauvri la société ? Cela dit, placer une valeur monétaire sur la santé des enfants par exemple peut cependant se révéler extrêmement complexe et subjectif. Et lorsqu’il n’y a pas de large consensus sur la valeur exacte du bénéfice, les résultats de ce type d’analyse peuvent s’avérer plus controversés que réellement instructifs. Cette approche est donc surtout utile lorsque l’on a plusieurs types de bénéfices pour lesquels il est possible de s’accorder sur une unité commune.

L’analyse coût/efficacité consiste à diviser l’impact d’un programme (par exemple le pourcentage de réduction des cas de diarrhée) par son coût. Cela permet d’obtenir un chiffre, ici le nombre de diarrhées évitées par dollar dépensé. Cette approche n’émet aucun jugement sur la valeur de la diminution des cas de diarrhée.

Enfin, l’analyse comparative des coûts consiste à regrouper plusieurs programmes et à les comparer en leur donnant une même unité. Ainsi, les responsables politiques peuvent obtenir la réponse à la question suivante : Pour chaque stratégie, de combien puis-je faire diminuer l’incidence des cas de diarrhée avec un dollar?

Objectifs, résultats et mesures

Il est souvent demandé aux gouvernements et aux ONG menant une évaluation de programme de réduire le compte-rendu de leur mission à une poignée de résultats, qui, bien sûr, seront utilisés pour définir le succès du programme. Pour ne rien simplifier, chaque résultat doit à son tour être ramené à un indicateur, comme par exemple la réponse à l’une des questions d’une enquête ou le résultat d’un test.

Cette tâche redoutable peut sembler impossible et la requête absurde. En effet, cela amène à penser que les évaluateurs se préoccupent uniquement de données et de statistiques, au détriment des réelles conditions de vie des personnes ciblées par le programme.

Pour certains objectifs, les indicateurs correspondants en découlent naturellement. Par exemple, si l’on distribue du chlore dans le but de réduire les maladies transmises par l’eau, le résultat pourrait être une diminution des cas de diarrhée. L’indicateur correspondant, l’incidence des cas de diarrhée, pourrait provenir d’une question dans une enquête destinée aux ménages, où l’on demanderait directement aux participants : « Quelqu’un dans votre foyer a-t-il eu la diarrhée la semaine dernière ? »

Cependant, les résultats peuvent ne pas être aussi probants pour d’autres objectifs tels « l’émancipation des femmes » ou « le développement du sens civique ». Cela ne signifie pas qu’il est impossible de mesurer la plupart des objectifs, mais plutôt qu’il faut faire preuve de plus de réflexion et de créativité pour déterminer leurs indicateurs correspondants. 

Qu'est-ce que l'assignation aléatoire? 

Au sens propre, l’assignation aléatoire correspond à ce qui se passe lorsqu'on joue à pile ou face ou aux dés, ou encore si on pioche un papier au hasard dans un chapeau. Le résultat du lancer de la pièce, du dé ou de la pioche détermine ce qui se passe ensuite. Quand ces méthodes – pièce, dé, loterie – sont utilisées pour prendre des décisions, le résultat est obtenu par le hasard. On dit aussi qu'il est randomisé.

Pourquoi les statisticiens utilisent-ils l’assignation aléatoire ? Lorsque suffisamment de personnes sont aléatoirement choisies – c'est à dire par le hasard - pour participer à une enquête, les caractéristiques de ces individus tirés au sort sont représentatives du groupe entier à l’intérieur duquel ils ont été choisis, ce qui est très commode. En d’autres termes, la probabilité est très élevée pour que ce que l’on constate à leur sujet soit également vrai pour l’ensemble du groupe. Utiliser une loterie pour obtenir un échantillon représentatif est appelé échantillonnage aléatoire ousélection aléatoire.

Quand deux groupes sont aléatoirement sélectionnés dans une même population, tous les deuxreprésentent le groupe entier. Ils ne sont pas seulement statistiquement équivalents à l’ensemble du groupe, ils sont aussi statistiquement équivalents entre eux. La même logique vaut si plus de deux groupes sont sélectionnés aléatoirement. Quand deux groupes ou plus sont constitués de cette manière, on dit que les individus ont été assignés aléatoirement à ces groupes. L’assignation aléatoire est une caractéristique essentielle de l’évaluation aléatoire.
Que se passe-t-il ensuite dans une évaluation aléatoire simple (comprenant deux groupes) ? Un groupe va participer au programme à évaluer et l’autre non. Au départ, les deux groupes sont donc statistiquement équivalents et ainsi doivent avoir une trajectoire équivalente dans le futur. Mais on introduit un élément qui va les rendre différents: par exemple, un groupe va recevoir un programme de purification de l’eau et l’autre non. Au bout de quelque temps, on pourra mesurer l’état de santé relatif des individus dans les deux groupes. Puisqu'ils étaient statistiquement équivalents au début, toutes les différences observées alors peuvent être attribuées au programme de purification de l’eau.

Les évaluations aléatoires peuvent prendre plusieurs noms :

  • Essais contrôlés randomisés
  • Expérimentations sociales
  • Études par assignation aléatoire
  • Essais randomisés de terrain
  • Expérimentations contrôlées randomisées

Les évaluations aléatoires font partie d’un ensemble plus large, l'évaluation d’impact. Les évaluations aléatoires sont souvent considérés comme l’étalon-or de l’évaluation d’impact, parce qu’elles produisent systématiquement les résultats les plus pertinents.

Comme pour toutes les évaluations d’impact, l’objectif principal des évaluations aléatoires est de vérifier si un programme a un impact, et plus précisément, d'en quantifier ses effets. Ces évaluations mesurent l’efficacité des programmes en comparant les résultats de ceux (individus, communautés, écoles, etc.) qui ont participé au programme par rapport à ceux qui n’y ont pas participé. De nombreuses méthodes existent.

Ce qui distingue les évaluations aléatoires des autres évaluations d’impact non-aléatoires est que la participation (et la non participation) est déterminée aléatoirement – avant que le programme ne commence. Ce procédé est le même que celui utilisé, dans les essais cliniques, pour déterminer qui recevra le médicament ou le placebo, afin de tester l’efficacité et les effets secondaires d’un nouveau médicament. Comme dans les essais cliniques, ceux qui ont été assignés aléatoirementau « groupe test » sont ceux qui reçoivent le traitement (i.e. le programme). Et ils sont comparés à ceux qui ont été aléatoirement assignés au « groupe témoin » - ceux qui n’ont pas reçu le programme. Parce que les membres des deux groupes, test et témoin, ne sont pas différents au début de l’expérimentation, toute différence advenant ensuite entre eux peut être attribuée au programme et non à d’autres facteurs.

En comparaison avec les résultats des évaluations non-aléatoires, les résultats des évaluations aléatoires sont :

  • moins sujets à des débats méthodologiques
  • plus faciles à communiquer
  • plus efficaces pour convaincre les décideurs politiques et ceux qui financent les programmes.

Au delà de la mesure des résultats espérés du programme, les évaluations aléatoires peuvent aussi quantifier les effets secondaires (bon ou mauvais) imprévus. Et tout comme les autres méthodes d’évaluation d’impact, les évaluations aléatoires peuvent aussi mettre en lumière les raisons qui ont fait que le programme a eu ou non l'impact désiré.

1. L’assignation aléatoire dans le contexte de l’évaluation

Les évaluations aléatoires évaluent l'impact en utilisant une méthodologie spécifique pour créer un groupe témoin (ou de comparaison), - la méthode de l’assignation aléatoire. Elles visent les objectifs finaux ou les résultats d’un programme. Différents types d’évaluations peuvent également être pertinents, pour mesurer d'autres résultats. (Voir L’évaluation ?)

2. La méthodologie de l’assignation aléatoire

L’objectif d’une évaluation n’est pas toujours clair pour ceux qui ont déjà participé à la gestion d'enquêtes, à la saisie de données, puis à la rédaction de rapports ensuite rapidement enterrés. La seule chose claire dans cette histoire est que l’argent, qui aurait dû être utilisé pour développer le programme, a été englouti dans l’évaluation et donc n’est plus disponible. Ce schéma est fréquent quant l’évaluation a été imposée par d’autres.

En revanche, lorsque les responsables, chargés de prendre des décisions sur la conception des programmes, ou de décider quels programmes mettre en place, ont des questions essentielles, alors les évaluations peuvent les aider à trouver des réponses. Une évaluation est très utile quand les responsables de programmes ou les décideurs politiques débattent de ce qui devrait être évalué. Pour des explications plus approfondies aller dans Pourquoi évaluer ?

Sans doute une évaluation qui pose les mauvaises questions est-elle aussi frustrante que celle qui pose les bonnes questions mais donne des réponses non fiables. Des investissements en argent, en temps, en réflexion et en énergie sont nécessaires pour comprendre quelle est la bonne question. Il n’est donc pas abusif d'attendre des réponses précises. Bien souvent, si la méthode d’évaluation utilisée est mauvaise, même les techniques statistiques les plus créatives ne pourront en corriger les erreurs. Un protocole d'assignation aléatoire peut aider à s’assurer que les réponses seront fiables.

Pourquoi évaluer?

L’objectif d’une évaluation n’est pas toujours clair pour ceux qui ont participé à la gestion d'enquêtes, à la saisie de données, puis à la rédaction de rapports ensuite rapidement enterrés. Cela se produit souvent lorsque l’évaluation est imposée par un commanditaire extérieur.

Cependant, lorsqu’un programme nécessite des actions quotidiennes et que ses responsables se posent des questions fondamentales, une évaluation peut leur apporter les réponses qu’ils cherchent. Prenons l’exemple d’une ONG chargée de distribuer des pastilles de chlore. Elle discute avec ses équipes sur le terrain, apprend que les ménages utilisent les pastilles avec assiduité et constate parfois que leur santé s’améliore. Cependant, à chaque forte pluie, les hôpitaux sont envahis de patients souffrant de maladies diarrhéiques. Alors l’ONG commence à se poser des questions : « Si les gens utilisent bien le chlore pour purifier leur eau, pourquoi tombent-ils malades dès lors qu’il pleut ? Même si l’eau est plus polluée par temps de pluie, le chlore devrait éliminer toutes les bactéries. » Elle se met à douter de l’efficacité des pastilles. Est-ce que les gens utilisent les bonnes doses ? Peut-être que nos équipes sur le terrain ne nous disent pas la vérité. Peut-être que les ménages qui en bénéficient ne les utilisent pas. Peut-être même qu’ils ne les reçoivent pas. Puis, une fois confrontées à ce fait, les équipes de terrain expliquent que, lors de fortes pluies, il est plus difficile d’atteindre les foyers pour distribuer les pastilles. Cependant, les ménages répondent de leur côté qu’ils ont pris grand soin d’utiliser les pastilles lorsqu’il pleuvait et qu’elles leur ont été bien utiles.

C’est en discutant avec les parties intéressées et avec des individus à différents échelons de l’organisation que l’on peut découvrir plusieurs versions d’une même situation. Ces récits peuvent servir de base à l’élaboration de théories. Cependant, une explication plausible n’est en aucun cas une vraie réponse. Les évaluations doivent formuler des hypothèses sur ce qui se passe, avant de les valider ou non par des tests.

Pourquoi tirer au sort?

Qu’est-ce que l’impact ? Si l’on reprend notre exemple avec le chlore, l’impact se mesure par la différence entre l’état de santé des individus qui ont bénéficié du programme et ce qu’aurait été leur état de santé sans le programme. Ou plus spécifiquement, il s’agit de savoir de combien a été diminuée l’incidence des diarrhées par rapport à ce qu’elle aurait été en l’absence du programme.
Il est plus difficile qu’il n’y paraît d’obtenir ce chiffre. Il est bien sûr possible de mesurer l’incidence de la diarrhée au sein de la population qui a bénéficié du programme. Cependant, une mesure directe de « ce qui se serait passé sans le programme » (généralement appelé le contrefactuel) semble impossible et l’on doit se cantonner aux hypothèses.

Établissement d’un groupe de comparaison

Les évaluations d’impact estiment l’efficacité d’un programme en comparant les résultats de ceux qui y ont participé (individus, communautés, écoles etc.) à ceux d’un autre groupe qui est resté en dehors. Le plus important dans une évaluation d’impact est de trouver un ensemble de personnes qui n’ont pas pris part au programme mais qui ressemblent beaucoup aux participants, et plus exactement aux participants s’ils n’avaient pas bénéficié du programme. Les résultats mesurés pour le groupe témoin en sont les plus proches. Ainsi, l’évaluation d’impact est d’autant plus exacte que le groupe de comparaison est équivalent au groupe des participants.

Il existe de nombreuses méthodes pour créer un groupe de comparaison (aussi appelé groupe contrôle), certaines étant plus efficaces que d’autres. Les évaluations aléatoires sont les plus performantes. Elles permettent de générer un groupe de comparaison statistiquement identique et donc de produire les résultats les plus précis et objectifs possible. Ou pour le dire autrement : les autres méthodes fournissent souvent des résultats trompeurs, lesquels entraînent les responsables politiques à prendre des décisions erronées.

Ces autres méthodes ne donnent pas toujours la mauvaise réponse, mais elles reposent plus sur des hypothèses. Lorsque ces hypothèses sont exactes, la réponse élaborée n’est pas biaisée. Cependant, il est généralement impossible et toujours laborieux de s’assurer de leur exactitude. D’ailleurs, la plupart des débats sur la validité d’une évaluation reposent souvent sur des désaccords quant à la validité des hypothèses.

En plus d’échapper aux débats houleux sur les hypothèses, les évaluations aléatoires fournissent des résultats qui sont très faciles à expliquer. 

Qui?

Chaque évaluation aléatoire est le résultat d’un partenariat entre des chercheurs, l'organisation qui met en œuvre le programme à évaluer (gouvernement ou ONG), les bailleurs de fonds qui financent le programme et l’évaluation, les centres de recherches qui emploient l’équipe nécessaire pour chaque évaluation, et les sujets de la recherche qui acceptent d’y participer. Les programmes sociaux évalués sont souvent conçus pour cibler une certaine population, par exemple les personnes pauvres ou défavorisées. Les personnes visées dans ces programmes sont aussi les sujets de recherche participant à l’évaluation

J-PAL, Laboratoire d’action contre la pauvreté, a été fondé en 2003. Il s’agit d’un réseau de chercheurs affiliés, qui mènent des évaluations d’impact en utilisant la méthode de l’évaluation aléatoire, afin de répondre à des questions essentielles pour la lutte contre la pauvreté dans le monde. Les chercheurs affiliés à J-PAL ne sont pas les seuls à utiliser cette méthode puisqu’elle est très prisée par un grand nombre d’individus et d’organisations. Il leur arrive cependant de conduire aussi des évaluations non aléatoires. Pour mieux connaître l’histoire des évaluations aléatoires, des essais cliniques aux programmes sociaux de lutte contre la pauvreté, en passant par les expérimentations agricoles, cliquer ici. Pour un petit historique de J-PAL, cliquer là.

Depuis la création de J-PAL, plus de 200 organisations ont collaboré avec des chercheurs affiliés à J-PAL sur une évaluation aléatoire. Le concept d’évaluation aléatoire a désormais une place à part entière chez les spécialistes du développement et de la lutte contre la pauvreté.

Sur les dix fondations américaines les plus importantes1, six s’intéressent au développement international. Parmi ces six, quatre ont collaboré avec des chercheurs de J-PAL sur une évaluation aléatoire : il s’agit de la Fondation Bill & Melinda Gates, la Fondation Ford, la Fondation William & Flora Hewlett et la Fondation John D. & Catherine T. MacArthur.

Sur les dix organisations internationales les plus importantes3, quatre ont collaboré avec des chercheurs de J-PAL sur une évaluation aléatoire (la Banque Mondiale, l’Asian Development Bank, l’Unicef, et l’Inter-American Development Bank) et six ont envoyé des membres de leur personnel suivre des formations organisées par J-PAL.

Quatre des huit associations humanitaires les plus importantes4, Save the Children, Catholic Relief Services, CARE et Oxfam, ont collaboré avec J-PAL sur une évaluation aléatoire. L’International Rescue Committee en effectue de son côté, et six ont envoyé des membres de leur personnel suivre des formations organisées par J-PAL.

Certains gouvernements ont aussi collaboré avec des chercheurs de J-PAL. Parmi les principaux pays partenaires donateurs, on peut citer les États-Unis (USAID, MCC), la France (Le Ministère de la Jeunesse et des Solidarités Actives), la Suède, et le Royaume-Uni (DFID). Les pays en développement ne sont pas en reste puisqu’ils collaborent à la fois au niveau national (comme par exemple le Ministère de l’éducation kenyan ou encore le Decentralization Secretariat du Gouvernement de Sierra Leone) et à un niveau plus régional (comme par exemple le Gouvernement de l’Andhra Pradesh, le Pollution Control Board de l’État de Gujarat en Inde, et la Police du Rajasthan).

Un certain nombre de centres de recherche ont pu voir le jour grâce au soutien ou sous la tutelle des chercheurs de J-PAL. Ils sont souvent chargés de conduire des évaluations aléatoires en employant le personnel de terrain qui y est associé. On peut citer parmi eux Innovations for Poverty Action (IPA), le Centre for Microfinance, l’Initiative pour le Micro-développement du Center for International Development (CID), le Center of Evaluation for Global Action (CEGA), Ideas42 et le Small Enterprise Finance Center (SEFC).

Certaines entreprises privées mènent aussi des évaluations aléatoires sur des programmes sociaux, comme par exemple la Mathematica Policy Research et Abt Associates.

Qui participe aux évaluations aléatoires?

Cette question est l’une des plus sensibles auxquelles un évaluateur peut être confronté. Pour y répondre, il doit tenir compte de ce qui est éthique et équitable. Il serait, par exemple, contraire à l’éthique de priver un ménage d’une solution de traitement de l’eau pour les besoins d’une expérimentation, dans le cas où il aurait pu y avoir accès en dehors du programme.

1. Les questions éthiques

Comment un évaluateur peut-il donc conduire son expérimentation sans transgresser les normes de l’équité et de l’éthique ?

Les évaluations aléatoires sont souvent appropriées en cas de ressources insuffisantes. Généralement, une organisation ne dispose pas d’un budget assez important pour permettre à tous les membres d’une communauté, d’un quartier ou d’un pays de bénéficier d’un programme. Pour des raisons d’ordre budgétaire, elle doit donc décider de qui pourra profiter ou non dudit programme. Même si elle cible un sous-groupe de personnes qui en ont particulièrement besoin ou ceux qui en tireraient le plus de bénéfices, il est peu probable qu’elle parvienne à faire participer tout le monde, même au sein du sous-groupe cible. Cette situation offre à un évaluateur la possibilité d’effectuer une évaluation aléatoire. Il peut alors utiliser un tirage au sort pour répartir le peu de ressources disponibles entre les membres du sous-groupe cible.

L’évaluateur ne doit pas uniquement s’assurer que son expérimentation est éthique, elle doit aussi être équitable. Lorsqu’il assigne aléatoirement les participants au groupe test ou au groupe témoin, il doit veiller à ce que chacun ait une chance égale de faire partie du groupe test et ainsi de bénéficier du programme. Pour ce faire, il est possible d’effectuer une loterie ou d’articuler le programme en différentes phases, permettant ainsi une rotation des participants afin que chacun puisse en profiter tour à tour. Le processus de sélection doit aussi être transparent et sembler équitable à la communauté.

En général, les évaluateurs sont confrontés au problème de l’attribution d’un programme clairement avantageux, comme la distribution de produits pour le déparasitage ou le traitement des eaux. En d’autres termes, le dilemme éthique surgit à partir du moment où l’on crée un groupe d’individus qui se verront refuser l’accès au programme. Cependant, il se peut parfois que les bénéfices n’aient pas été prouvés, ce qui signifie qu’il est possible que le programme se révèle potentiellement désavantageux pour les participants. Les groupes pharmaceutiques, par exemple, sont souvent confrontés à ce problème lorsqu’ils testent de nouveaux médicaments sur des patients. Dans ce cas, un évaluateur doit s’assurer que les participants du groupe test ne sont pas en danger. S’il existe le moindre risque, alors il est nécessaire d’en informer les participants et d’obtenir leur accord. Même si une expérimentation semble ne pas comporter de risques, chaque participant doit donner son consentement éclairé, que ce soit dans le groupe test ou dans le groupe témoin. Différentes nations et organisations ont développé des protocoles sur les sujets humains, qu’il faut suivre avec attention. 

2.    Sujets de la recherche et Comité d’éthique

Un Comité d’éthique est un groupe indépendant qui a été officiellement désigné par une institution, telle qu’une université ou une association à but non lucratif, afin d’approuver, de surveiller et d’analyser les projets de recherche dont les participants sont des êtres humains. L’objectif d’un tel comité est de s’assurer, dès le lancement d’un projet de recherche mais aussi tout au long du programme, que toutes les mesures sont prises pour garantir les droits et la protection sociale des êtres humains qui en sont les sujets.
Comme les évaluations de J-PAL impliquent des sujets humains, les chercheurs affiliés et leurs assistants doivent s’assurer que leur projet se conforme aux méthodes de recherche éthique. Cela se traduit par :

  • L’approbation nécessaire du Comité d’éthique pour chaque projet avant son commencement,
  • La réalisation d’une formation aux questions éthiques par tout le personnel de recherche,
  • L’adhésion pour toute la durée du projet à un protocole de recherche approuvé par le Comité d’éthique ainsi qu’à ses directives.

Quand?

Pour un bref historique des évaluations aléatoires, voir : “Quand les évaluations aléatoires ont-elles commencé ?”

Pour savoir si une évaluation aléatoire est pertinente, voir : “Quand mener une évaluation aléatoire ?” ou “Quand une évaluation aléatoire est-elle appropriée ou non ?”

Quand les évaluations aléatoires ont-elles commencé?

1.    Essais cliniques

Les notions de groupe test et de groupe témoin ont été introduites en 1747 par James Lind, lors d’une expérimentation scientifique visant à démontrer l’efficacité des agrumes contre le scorbut.1 En raison de son travail, Lind est considéré comme le père des essais cliniques. La méthode d’assignation aléatoire aux groupes test et témoin n’a cependant pas vu le jour avant les années 1920.

2.    Expérimentations agricoles

L’évaluation aléatoire s’est donc développée dans les expériences scientifiques à partir des années 1920, lorsque Neyman et Fisher ont été les premiers à utiliser l’assignation aléatoire en agronomie. Le travail expérimental de Fisher sur le terrain a été parachevé dans son ouvrage le plus marquant, The Design of Experiment, qui peut être tenu en grande partie responsable du développement des évaluations aléatoires.2

3.    Programmes sociaux

Les évaluations aléatoires ont été introduites dans les expérimentations sociales du gouvernement entre 1960 et 1990. Il n’était alors plus question d’expériences à petite échelle sur des plantes ou des animaux. Ces toutes nouvelles expérimentations sociales s’effectuaient à bien plus grande échelle et faisaient des individus les principaux sujets de l’expérience. L’idée de mener des expérimentations des politiques sociales s’est développée après un débat sur les bénéfices d’un système de protection sociale aux États-Unis dans les années 1960. Le modèle a ensuite été appliqué en Europe et en Amérique pour évaluer d’autres programmes comme les tarifications de l’électricité, les programmes pour l’emploi ou encore les allocations au logement. Depuis, les expérimentations sociales ont été utilisées par de nombreuses disciplines, dans différents contextes et à travers le monde entier pour orienter les décisions politiques.3

J-PAL, Laboratoire d’action contre la pauvreté, a été fondé en 2003. Il s’agit d’un réseau mondial de chercheurs affiliés, qui mènent des évaluations aléatoires, afin de répondre à des questions essentielles pour la lutte contre la pauvreté dans le monde.

Quand mener une évaluations aléatoire?

La valeur apportée par l’évaluation rigoureuse d’un programme ou d’une politique varie en fonction du moment au cours duquel on effectue l’évaluation. En effet, celle-ci ne doit pas avoir lieu trop tôt, lorsque le programme est encore en train de prendre forme et que les difficultés commencent à peine à s’aplanir. Mais elle ne doit pas non plus être réalisée trop tard, lorsque tout l’argent a été alloué, que le programme a été lancé et qu’il n’y a donc plus moyen d’introduire un groupe témoin.

Idéalement, il faudrait mener une évaluation durant la phase pilote d’un programme ou avant son lancement à plus grande échelle. En effet, c’est pendant ces phases que l’évaluateur en vient souvent à se poser d’importantes questions, comme par exemple : Quelle est l’efficacité du programme ? Est-il efficace pour toutes les populations ? Est-ce que certains de ses aspects fonctionnent mieux que d’autres, et comment l’améliorer ? Est-il toujours aussi efficace lorsqu’on l’élargit à une plus grande population ?

Pendant la phase pilote, les effets d’un programme sur une population donnée ne sont pas connus. Le programme peut être tout nouveau, mais il se peut aussi qu’il s’agisse d’un projet déjà existant qu’on souhaite étendre à d’autres populations. Dans les deux cas, il est intéressant pour les responsables du projet concerné et la classe politique de mieux comprendre l’efficacité d’un tel programme et la manière de l’améliorer. Par définition, le programme pilote ne s’appliquera qu’à une partie de la population cible, ce qui permet d’effectuer une évaluation aléatoire. Après la phase pilote, s’il se révèle efficace, qu’il bénéficie d’un soutien accru et donc de plus de ressources, le programme peut être reproduit ou lancé à plus grande échelle pour que le reste de la population cible puisse en profiter.

PROGRESA, un programme de transferts monétaires conditionnels lancé en 1997 au Mexique, est un très bon exemple d’une évaluation effectuée au moment opportun.  L’aide était versée en espèces aux mères de famille, à condition que leurs enfants fréquentent avec assiduité l’école et se fassent vacciner. Mais peu après, le parti révolutionnaire institutionnel (PRI), au pouvoir depuis 68 ans, a commencé à craindre une inéluctable défaite aux élections présidentielles à venir. Une défaite électorale entraînerait sans doute l’arrêt des programmes alors en place, dont PROGRESA. Il a donc cherché à rallier un large soutien pour le programme, en démontrant clairement son efficacité sur l’éducation et la santé des enfants.

PROGRESA a tout d’abord été introduit en pilote, dans les zones rurales de sept États. Sur les 506 communautés retenues par le gouvernement mexicain pour participer à la phase pilote du programme, 320 ont été assignées aléatoirement au groupe test et 186 au groupe témoin. Au bout d’un an, on a pu comparer ces deux groupes et constater que le programme améliorait grandement les résultats scolaires des enfants. Et comme le PRI l’avait espéré, sa popularité s’est étendue à tout le pays, et plus seulement à une petite communauté composée des premiers soutiens et bénéficiaires du programme.

Après la défaite très largement attendue du PRI aux élections présidentielles de 2000, le parti d’action nationale (PAN) a pris le pouvoir et a hérité de ce programme immensément populaire. Au lieu de l’arrêter, le PAN l’a rebaptisé OPORTUNIDADES et l’a élargi au pays tout entier.

Ce programme a très vite été reproduit dans d’autres pays comme le Nicaragua, l’Équateur et le Honduras. Ces derniers ont suivi l’exemple du Mexique pour mener des évaluations pilotes afin de tester l’impact de programmes directement inspirés de PROGRESA sur leur population, avant de les lancer à plus grande échelle.

Quand une évaluations aléatoire est-elle approprieé ou non?

Les évaluations aléatoires peuvent ne pas être appropriées :

1.   Lorsqu’il s’agit d’évaluer des politiques macro-économiques.

Aucun évaluateur ne dispose du pouvoir politique nécessaire pour mener une évaluation aléatoire sur différentes politiques monétaires. On ne peut en effet pas se permettre d’assigner aléatoirement un taux de change flottant au Japon et à un groupe de nations, et un taux de change fixe aux États-Unis et à un autre groupe de pays.

2.   Lorsqu’il est contraire à l’éthique ou impossible d’un point de vue politique de refuser à un groupe témoin l’accès à un programme.

Il serait en effet contraire à l’éthique de refuser à des participants, au nom d’une expérimentation, un médicament dont les bienfaits ont déjà été prouvés sur certains patients, si on en dispose en quantité suffisante.

3.   Si le programme change au cours de l’expérimentation.

Si, au beau milieu d’une expérimentation, un programme est modifié et qu’au lieu de fournir uniquement une solution de traitement de l’eau, il fournit en plus des latrines, il sera difficile de déterminer quelle partie du programme tenir responsable des résultats observés.

4.   Si le programme dans des conditions expérimentales diffère radicalement de ce qui se passerait s’il était appliqué dans des conditions normales.

Lors d’une expérimentation, les participants sont plus susceptibles d’utiliser une solution de traitement de l’eau si on les y encourage ou incite. Dans des conditions normales, sans encouragements ni incitations, la plupart des gens ont tendance à ne pas utiliser cette solution de traitement de l’eau, et ce même s’ils la possèdent et savent s’en servir.

Toutefois, ce type d’évaluation peut justement être précieux pour tester la faisabilité d’un programme ou d’une politique. Il s’agirait juste de poser la question suivante : « Est-ce que ce programme ou cette politique peut fonctionner ? », sans attendre des résultats généralisables en retour.

5.  Si une évaluation aléatoire fait perdre trop de temps et d’argent, et possède donc un mauvais rapport coût/efficacité.

Par exemple, en raison d’une politique gouvernementale, une organisation peut ne pas disposer du temps nécessaire pour tester un programme et l’évaluer avant son lancement.

6.   Si des menaces comme l’attrition ou les effets d’externalité sont trop difficiles à contrôler et portent atteinte à l’intégrité de l’expérimentation.

Une organisation peut très bien décider de tester l’impact d’un produit pour le déparasitage sur l’assiduité des élèves dans une école donnée. Mais comme les produits pour le déparasitage ont des effets d’externalité (la santé d’un élève a des répercussions sur celle d’un autre), il sera difficile de mesurer l’impact du produit avec exactitude. Dans ce cas, il vaudrait sous doute mieux effectuer l’évaluation au niveau de l’école, plutôt qu’à celui de l’élève.

7.   Si la taille de l’échantillon n’est pas assez importante.

S’il n’y a pas assez de participants au programme pilote, et même si celui-ci se révèle être un succès, on risque de ne pas disposer de suffisamment d’observations pour statistiquement détecter un impact.

Comment mener une évaluation aléatoire?

Certains considèrent les évaluations aléatoires comme l’étalon-or des évaluations d’impact parce qu’elles sont incontestablement les plus rigoureuses, c'est-à-dire qu’elles demandent très peu d'hypothèses ou efforts d'imagination, pour tirer les conclusions à partir des résultats. Qu’elles soient les plus précises ne signifie cependant pas pour autant qu’elles exigent plus de travail ou coûtent plus cher. En fait, l’assignation aléatoire faite dès le départ pour s’assurer de l’équivalence des groupes (voir Qu’est-ce que l’assignation aléatoire ? et Pourquoi tirer au sort ?) permet réduire le travail statistique qui est nécessaire dans les autres méthodes consistant à reconstruire un groupe comparaison plus tard pendant la phase de l’analyse.

On rencontre bien sûr aussi certaines difficultés en menant une évaluation aléatoire : convaincre ceux qui conçoivent les programmes de tirer au sort, concevoir le protocole d’évaluation le plus approprié, s’assurer que la répartition aléatoire est respectée. Mais la majeure partie  du travail et des coûts est liée d'une part à la taille de l’échantillon, qui doit être suffisamment grand pour détecter un impact (un pré-requis pour toutes les évaluations !) et d'autre part, comprendre pourquoi le programme fonctionne ou non.

Préparer une évaluation

Lorsqu'on envisage de mener une évaluation, il est important d’identifier les questions clé que l’organisme partenaire peut avoir : on pourra répondre à certaines grâce à des évaluations antérieures, ou grâce à une évaluation de processus perfectionnée. S'il reste encore des questions, il faut retenir celles qui sont vraiment prioritaires pour être au centre de notre évaluation d’impact. Nous devons ensuite faire en sorte de répondre à autant de questions que nous le pouvons, en gardant à l’esprit qu’un nombre restreint d’études d’impact de grande qualité vaut mieux qu’un grand nombre de qualité médiocre.

La première étape de l’évaluation est de réexaminer les objectifs du programme et la manière dont nous espérons que ces objectifs seront atteints. Le cadre logique du programme ou le modèle de la théorie du programme peuvent nous y aider (voir Théorie du programme). Afin d'estimer l’objectif et la stratégie du programme, nous devons nous intéresser aux issues clefs, aux chemins envisagés pour réaliser ces objectifs et aux étapes importantes indiquant que nous sommes sur la bonne voie. Bien sur, ces résultats et étapes devront pouvoir être mesurés, et donc traduites en indicateurs, et enfin en données (voir Objectifs, résultats et mesures).

Ce n'est qu'une fois que nous avons une idée précise des objectifs et de leur réalisation, de l’étendue des effets et d'un plan pour mesurer les changements, que nous pouvons réfléchir au protocole de l’évaluation.

Comment concevoir une évaluation?

La conception d’une évaluation nécessite une très grande part de réflexion. Il faut tout d’abord s’interroger sur ses aspects conceptuels : Qu’attend-on de cette évaluation ? Quelles sont les problématiques pertinentes ? Quels sont les résultats attendus ? Comment les mesurer ?

Ensuite, on peut se poser les questions propres au protocole :

  • Quel est le meilleur niveau ou la meilleure unité de tirage?
  • Quelle est la méthode d’évaluation aléatoire la plus appropriée ?
  • En plus des contraintes politiques, administratives et éthiques, quels aspects techniques peuvent porter atteinte à l’intégrité de l’évaluation, et comment peut-on réduire ces menaces lors de l’élaboration du protocole ?
  • Comment mettre en œuvre l’évaluation aléatoire ?
  • Quelle taille d’échantillon est nécessaire pour répondre à nos questions combien d’individus devons-nous inclure dans l’expérimentation en tant que participants, mais aussi en tant que personnes interrogées dans le cadre des enquêtes?)

1. Unité de tirage (ou unité de randomisation)

Lors de la conception de l’évaluation, il est nécessaire de définir à quel niveau nous effectuerons l’assignation aléatoire : Quelle unité en sera l’objet ? Des individus ou des groupes d’individus comme des ménages, des villages, des quartiers, des écoles, des cliniques, des groupes confessionnels, des entreprises ou encore des coopératives de crédit  (d’ailleurs, lorsque l’on tire au sort des groupes d’individus, et même si on s’intéresse de près aux résultats individuels et à leur mesure, on parle d’essai randomisé par grappe) ? Par exemple, si l’on parvient à obtenir assez de comprimés de chlore pour que mille ménages puissent traiter leur eau (sur, disons, dix mille ménages qui utilisent la même source d’eau potable contaminée), devons-nous assigner aléatoirement les ménages au groupe test ou témoin ? Cela signifie que certains ménages recevront les comprimés de chlore mais que d’autres qui se situent pourtant dans leur voisinage immédiat se verront refuser l’accès à ces mêmes comprimés. Est-ce envisageable ? Éthique ?

Pour ce type de programme, il serait certainement impossible d’effectuer une assignation aléatoire à un niveau plus petit que celui du ménage, comme par exemple au niveau de l’individu. Cela signifierait en effet que certains enfants au sein d’un même ménage pourraient bénéficier des comprimés de chlore alors que leurs frères et sœurs n’y auraient pas accès. De plus, si tous les membres d’un ménage boivent de l’eau provenant du même réservoir, il est matériellement impossible d’effectuer une assignation aléatoire au sein-même du ménage, et ce indépendamment de toute considération éthique.

La meilleure unité de randomisation est donc sans doute la communauté. Certaines communautés recevront le traitement, d’autres non, mais tous les ménages (et donc tous leurs voisins) appartenant à une communauté assignée au groupe test pourront bénéficier des comprimés. Cependant, l’éthique et la possibilité matérielle ne sont pas les deux seuls éléments à prendre en compte lorsque l’on cherche à déterminer l’unité la plus appropriée pour l’assignation aléatoire. En voici sept d’entre eux :

  1. Quelle est l’unité ciblée par le programme pour recevoir le traitement ?
  2. Quelle est l’unité d’analyse ?
  3. Le protocole de l’évaluation est-il équitable ?
  4. L’évaluation aléatoire est-elle possible sur le plan politique ?
  5. L’évaluation aléatoire est-elle possible sur le plan logistique ?
  6. Quelles externalités et quels autres effets doit-on s’attendre à prendre en compte ?
  7. Quelle taille et quelle puissance d’échantillon sont nécessaires pour déceler les effets du programme ?

1. Unité ciblée par le programme pour recevoir le traitement: si les comprimés de chlore doivent être dissous dans des réservoirs d’eau et que chaque ménage de la région concernée en possède un, alors on peut sélectionner certains ménages pour recevoir le traitement et d’autres non. Dans ce cas, l’unité d’assignation aléatoire se situe au niveau du ménage. Cependant, si le réservoir d’eau se trouve en extérieur et est utilisé par plusieurs ménages, alors il devient impossible d’assigner aléatoirement certains de ces ménages au groupe témoin, car ils boivent la même eau (traitée) que les ménages du groupe test. Dans ce cas, l’unité d’assignation aléatoire la plus adaptée est le groupe de ménages qui utilisent un réservoir d’eau commun.

2. Unité d’analyse: si l’évaluation concerne les effets d’un programme sur une communauté, alors l’unité d’assignation aléatoire la plus adéquate est certainement la communauté. Par exemple, imaginons que l’on souhaite mesurer l’incidence des hospitalisations dues aux diarrhées. Il se trouve qu’il est plus économique de consulter directement les documents administratifs des cliniques communautaires mais ceux-ci sont anonymes. On ne sera donc pas en mesure de savoir si les personnes hospitalisées appartiennent à des ménages du groupe test ou du groupe témoin. Cependant, si la communauté toute entière est assignée au groupe test, alors on pourra comparer les documents des cliniques des communautés test à ceux des cliniques des communautés témoin.

3. Équité: le programme doit paraître équitable. Si l’on m’a refusé des comprimés de chlore  mais que mes plus proches voisins en ont reçu, je peux être en colère contre mes voisins, en colère contre l’ONG, et je serai certainement moins enclin à remplir des questionnaires sur l’usage du chlore lorsque les enquêteurs se présenteront à ma porte. L’ONG n’a probablement pas envie de contrarier les membres des ses communautés. Cependant, si ma communauté toute entière n’en dispose pas mais qu’une communauté voisine en a reçu, il se peut que je n’entende jamais parler du programme et donc n’ai jamais de quoi me plaindre ; ou encore, je pourrais penser qu’il ne s’agissait que d’un choix effectué à l’échelle de chaque village et que le mien a refusé cet investissement. Évidemment, certaines personnes pourraient continuer à se sentir lésées. Il faudrait alors essayer d’élargir l’unité d’assignation aléatoire ou de réfléchir à d’autres stratégies afin d’atténuer le mécontentement des populations. Bien sûr, le fait que tout le monde ne puisse pas bénéficier d’un programme est injuste (voir Questions éthiques). Mais étant donné qu’il est impossible d’aider une population toute entière (souvent en raison de contraintes financières, humaines, politiques, etc.), et que nous désirons améliorer et évaluer les conditions de vie des individus, la question se pose de savoir comment assigner des populations au programme et créer un groupe témoin équivalent, tout en conservant une impression d’équité.

4. Faisabilité politique: il n’est pas toujours possible sur le plan politique d’effectuer une évaluation aléatoire au niveau des ménages. Par exemple, une communauté peut demander que toutes les personnes dans le besoin reçoivent une assistance, empêchant ainsi une assignation aléatoire des individus ou des ménages. Parfois même, il arrive qu’un responsable exige que tous les membres de sa communauté puissent bénéficier du programme. D’autres fois, il préfère qu’au moins la moitié d’entre eux soient assignés aléatoirement au groupe test (avec certitude), plutôt que de risquer  qu’aucun ne soit traité (si la communauté est assignée au groupe témoin). Dans l’un des cas, il se pliera sans doute à l’évaluation, dans l’autre, il sera plus réticent.

5. Faisabilité logistique: parfois, il est impossible sur le plan logistique de s’assurer que les ménages assignés au groupe témoin restent bien en dehors du programme. Par exemple, s’il est nécessaire d’engager un agent de distribution pour répartir les comprimés de chlore et d’installer un stand où les membres du village participant au programme viendraient chercher leur dû, il ne sera peut-être pas très efficace de demander à l’agent d’écarter les ménages du groupe témoin. Cela alourdirait le poids de la bureaucratie, induirait une perte de temps et dénaturerait le programme tel qu’il devrait être. Et quand bien même l’agent parviendrait à ne donner les comprimés qu’aux ménages du groupe test, rien n’empêche ceux-ci de les partager avec leurs voisins assignés aléatoirement au groupe témoin. Dans ce cas, le groupe témoin serait affecté par le programme et ne constituerait plus un groupe de comparaison valide, censé représenter la population sans l’intervention du programme (voir Évaluation d’impact).  Dans ce cas, il serait plus intéressant d’évaluer aléatoirement les populations à l’échelle des villages et d’engager ensuite des agents uniquement pour les villages du groupe test.

6. Gérer les externalités et autres effets: même lorsqu’il est possible d’effectuer une assignation aléatoire à l’échelle des ménages, c’est-à-dire en fournissant des comprimés de chlore à certains et pas à d’autres, il peut se révéler plus compliqué de contenir l’impact du programme aux seuls ménages traités. Les individus du groupe témoin ne forment plus un groupe de comparaison valide à partir du moment où ils sont affectés par la présence du programme, soit parce qu’ils bénéficient du fait que leurs voisins sont moins malades (effets d’externalités du programme), soit parce qu’ils boivent l’eau traitée de leurs voisins (ils ne respectent plus leur assignation ce qui entraîne un effet de contamination entre les deux groupes). (Voir Qu’est-ce qu’une évaluation d’impact ?) (Pour plus de détails sur les effets d’externalité et de contamination, voir Menaces à prendre en compte lors du protocole)

7. Taille et puissance de l’échantillon: Pour déceler les véritables effets d’un programme, il est nécessaire de disposer d’une taille d’échantillon adéquate. Lorsque la population parmi laquelle on sélectionne des individus est vaste, ces derniers la représentent bien mieux statistiquement (voir Sélection et taille de l’échantillon). Par exemple, si l’on évalue deux mille ménages et qu’on en assigne aléatoirement mille au groupe test et mille au groupe témoin, nous avons bien une taille d’échantillon de deux mille ménages. Mais si l’on effectue une évaluation aléatoire à l’échelle des villages et que chaque village comporte cent ménages, alors nous nous retrouvons avec dix villages dans le groupe test et dix autres dans le groupe témoin. Dans ce cas, on mesure bien l’incidence de la diarrhée à l’échelle des ménages, mais comme ce sont les villages que nous avons assignés aléatoirement au groupe test ou au groupe témoin, on peut se retrouver avec une taille d’échantillon proche de dix, et ce quand bien même on évalue en fait deux mille ménages. En réalité, la taille d’échantillon idéale peut se situer n’importe où entre dix et deux mille, en fonction des similitudes des ménages d’un même village (voir Taille de l’échantillon.) Mais avec une taille d’échantillon de dix, on ne décèlera pas forcément les véritables effets d’un programme. Ces considérations peuvent influencer notre choix lorsque l’on doit décider de l’unité la mieux adaptée à l’évaluation aléatoire.

Lorsque l’on détermine une unité de randomisation, il faut prendre en compte plusieurs aspects. Les évaluateurs ne peuvent pas se permettre de rester assis en face de leur ordinateur, de presser un bouton pour obtenir une liste et d’imposer un protocole d’évaluation à une organisation qui se situe à des milliers de kilomètres de là. Ils doivent se familiariser avec l’organisation en question, le programme ainsi que le contexte, et collaborer avec elle pour déterminer le niveau de randomisation le plus approprié, en fonction des circonstances particulières.

2. Différentes méthodes d’évaluation aléatoire

Si mon organisation peut se procurer mille comprimés de chlore par jour et qu’il est donc possible de traiter mille ménages sur un total de deux mille tous les jours, je peux choisir de traiter toujours les mêmes ménages jusqu’à la fin du programme. Mais je peux aussi choisir d’alterner le traitement et de faire en sorte que, tous les deux jours, chaque ménage puisse boire de l’eau traitée. Mais cette dernière option n’a probablement pas de sens. Si tout le monde boit de l’eau contaminée tous les deux jours, on peut s’attendre à n’avoir aucun impact sur personne. Alors il devient nécessaire de choisir mille ménages qui recevront les comprimés chaque jour. Si je dois tirer au sort, je peux effectuer une simple « loterie » afin de déterminer les mille ménages qui participeront au programme. Dans ce cas, j’écris les deux mille noms sur des petits bouts de papier, je les place dans un panier que je secoue bien, puis je ferme les yeux et je pioche mille morceaux de papier. On parle alors de modèle de la loterie.

Au lieu d’alterner les ménages tous les jours, je peux le faire tous les ans. Il suffit alors de tirer au sort l’ordre de traitement des ménages et ceux qui participent au programme durant la première année, basculent ensuite dans le groupe témoin la deuxième. Si je mesure les résultats à la fin de chaque année, on peut parler de modèle de rotation.

Mettons que je puisse me procurer cinq cents comprimés par jour cette année, mais que je pense sans doute pouvoir en recevoir mille l’année prochaine, puis deux mille l’année suivante. Dans ce cas, je peux tirer au sort cinq cents ménages afin qu’ils puissent bénéficier des comprimés durant la première année, puis cinq cents autres pour la deuxième année. Les mille ménages restants pourront profiter des comprimés la dernière année. On parle alors de modèle de mise en place progressive.

Il existe sept méthodes d’évaluation aléatoire : le modèle de la loterie, le modèle de rotation, le modèle de mise en place progressive, le modèle avec encouragement, le modèle avec traitements multiples et la planification de randomisation à deux étapes. Ces différents protocoles ne sont pas forcément antinomiques. 

3. Menaces à prendre en compte lors du protocole

a) Externalités

Les effets d’externalité (ou effets de contagion) se produisent lorsqu’un programme conçu pour aider les participants a des impacts (positifs ou négatifs) involontaires sur le groupe témoin. Ce dernier est en effet censé représenter les résultats qu’on aurait obtenus si le programme n’avait pas été mis en œuvre (voir Pourquoi tirer au sort). À partir du moment où le groupe témoin est entré en contact avec le programme, il ne correspond plus du tout au contrefactuel, et la mesure correspondante de l’impact est biaisée. Il existe des moyens d’atténuer ces effets de diffusion, en modifiant l’unité de tirage par exemple.

Par exemple, boire de l’eau contaminée peut être source de maladie. Mais je peux aussi tomber malade si je joue avec des enfants du voisinage, qui sont eux-mêmes souffrants. Si je me trouve dans le groupe témoin et que mes voisins reçoivent le traitement et donc ne sont plus malades, cela diminue mes risques d’attraper la maladie. Ainsi, même si je me trouve dans le groupe témoin, j’ai été affecté par le programme dont mes voisins bénéficient. Je ne représente donc plus un groupe de comparaison valable. On parle alors d’externalités, et plus particulièrement d’externalités positives. Afin d’atténuer ces effets, on peut effectuer une évaluation aléatoire à l’échelle des communautés. Ainsi, si notre communauté est assignée au groupe témoin, mes voisins et moi partageront le même traitement. Je suis moins susceptible de m’amuser avec des enfants d’une autre communauté, et donc d’être affecté par le programme. Et si je me trouve assigné au groupe test, il n’y aura pas d’externalités positives sur des enfants du groupe témoin.

Bien sûr, il est nécessaire de bien comprendre d’où viennent ces effets d’externalités et d’adapter le protocole en conséquence. 

b)    Contaminations

Si mon foyer a été assigné au groupe témoin mais que mes voisins font partie du groupe test et que ma mère sait que leur eau est traitée, elle peut m’envoyer chez eux pour boire. En un sens, j’arrive à m’insérer dans le groupe test alors qu’au départ, je faisais partie du groupe témoin. Lorsque les individus ne se conforment pas (volontairement ou involontairement) à leur assignation et que les résultats de l’évaluation en sont affectés, on parle d’effet de contamination. Tout comme dans le cas des externalités, je ne représente plus un groupe de comparaison valable, puisque j’ai clairement été affecté par l’existence du programme. Une fois encore, pour atténuer ces effets, on peut modifier l’unité de tirage.

4. Mise en œuvre de l’évaluation aléatoire

Une fois que l’unité et la méthode d’évaluation aléatoire ont été déterminées, il est temps d’assigner les individus, les ménages, les communautés ou n’importe quelle autre unité, soit au groupe test, soit au groupe témoin.

a)    Loterie

En général, avant de commencer, il nous faut une liste de noms (d’individus, de chefs de famille ou de villages).  Ensuite, il y a plusieurs façons de procéder. On peut écrire tous les noms sur des petits bouts de papier, les placer dans un panier que l’on secoue bien, puis fermer les yeux et piocher mille morceaux de papier. Ceux-ci formeront le groupe test tandis que les autres constitueront le groupe témoin (ou vice versa). Il est aussi possible de le faire dans le cadre d’une loterie publique. De même, on peut parcourir la liste de haut en bas et tirer à pile ou face à chaque nom afin de déterminer la composition des deux groupes. Cependant, il n’est pas obligatoire de séparer la population étudiée en deux parties égales. Il est possible par exemple d’assigner 30 % de la population au groupe test et 70 % au groupe témoin. D’ailleurs, dans le cas où l’évaluation se compose de trois phases, on peut très bien diviser la population cible en trois groupes. De plus, il arrive très souvent que l’on teste plusieurs traitements en même temps, ce qui nécessite un certain nombre de groupes. Dans le cas de telles évaluations, plus sophistiquées, un tirage à pile ou face ne suffit pas.

Généralement, on conçoit un programme informatique qui a pour tâche d’assigner aléatoirement les noms aux groupes.

b)    Assignation aléatoire au cas par cas

On ne dispose cependant pas toujours d’une liste faite par avance. Par exemple, si un individu se présente à l’hôpital avec les symptômes du paludisme, il faut prendre une décision sur le champ : lui administrer le traitement standard DOTS de l’Organisation Mondiale de la Santé ou un autre produit plus efficace. L’infirmière peut décider du traitement en tirant à pile ou face. Mais elle peut aussi très bien ne pas effectuer l’assignation aléatoire si elle estime qu’elle sait quel traitement est le meilleur et quels patients méritent le plus d’en bénéficier. Pour éviter cela, on peut mettre en place un programme d’assignation aléatoire par ordinateur ou téléphone portable.

c)    Stratification

Très souvent, on divise la population cible en sous-groupes avant d’effectuer une évaluation aléatoire. Par exemple, on peut scinder un groupe d’individus en plusieurs petits groupes selon le sexe, l’ethnicité ou l’âge. Il est aussi possible de diviser un village en petites zones géographiques. Lorsque l’on scinde ainsi une population en sous-groupes avant d’effectuer l’évaluation aléatoire, on parle de stratification. Ensuite, l’assignation aléatoire a lieu au sein de chacun de ces sous-groupes (ou strates). Cela permet d’équilibrer la répartition des individus dans les groupes test et témoin. En effet, sans cette précaution et dans le cas d’une taille d’échantillon plus faible, il est possible de se retrouver avec plus de femmes que d’hommes dans le groupe test. La stratification est avant tout un outil statistique et dépend de la taille de l’échantillon. La décision d’effectuer ou non une stratification ne permet pas de savoir si les résultats sont biaisés ou non.

5. Sélection et taille de l’échantillon

Une expérimentation doit être suffisamment précise pour pouvoir déceler les différences entre le groupe test et le groupe témoin. Cette capacité d’un protocole à détecter un résultat se mesure en termes de puissance statistique. Cette dernière dépend autre autres de la taille de l’échantillon, c’est-à-dire du nombre d’unités assignées aléatoirement aux deux groupes et interrogées lors des enquêtes.

Reprenons une fois encore notre exemple des maladies transmises par l’eau au sein d’une communauté. Supposons que nous avons choisi de distribuer des comprimés de chlore aux ménages afin d’évaluer leur impact sur l’incidence des diarrhées. Mettons que notre budget pour la phase de test soit très limité. Nous aimerions donc restreindre le nombre de ménages participant à l’enquête tout en nous assurant que nous avons bien les moyens de savoir de manière sûre si les changements observés sont dus aux comprimés et non au hasard. Combien de ménages doivent recevoir les comprimés ? Combien doit-on interroger ? Est-ce que cinq ménages sont suffisants? Cent ? Deux cents ? Combien de ménages doit-on assigner au groupe témoin? Des tests sur la puissance statistique nous permettent de répondre à toutes ces questions.

Pour plus d’informations sur l’estimation de la taille d’un échantillon, voir :

  •  Duflo, Esther, Glennerster, Rachel et Kremer, Michael, "Using Randomization in Development Economics Research: A Toolkit" (2006). MIT Department of Economics Working Paper No. 06-36.
  •  Bloom, H.S. (1995): "Minimum Detectable Effects: A simple way to report the statistical power of experimental designs," Evaluation Review 19, 547-56.

Comment mettre en oeuvre une évaluation?

Une fois le protocole de l’évaluation finalisé, l’évaluateur doit continuer à s’impliquer dans la collecte de données ainsi que dans la mise en œuvre de l’intervention évaluée. Si des personnes interrogées abandonnent pendant la phase de collecte de données, les résultats peuvent souffrir d’un biais dû à l’attrition, ce qui risque d’affecter leur validité. Le problème de l’attrition est d’ailleurs développé dans cette section. D’autres menaces, tant au niveau de la qualité des mesures que de leur transmission, sont tout aussi importantes mais ne seront pas abordées ici. Pour se familiariser avec les bonnes méthodes de collecte de données, voir :

  • Deaton, A. (1997): The Analysis of Household Surveys. World Bank, International Bank for Reconstruction and Development

Lors de la mise en œuvre de l’intervention, l’intégrité de l’évaluation aléatoire doit rester intacte. À moins que ceux-ci ne soient explicitement incorporés dans le protocole, les effets d’externalité et de contamination doivent être limités au maximum, ou tout du moins, soigneusement documentés.

1.  Risques du rassemblement des données

a)  Attrition

L’attrition a lieu lorsque l’évaluateur ne parvient pas à récolter des données sur un individu sélectionné dans l’échantillon initial. Rappelons que les groupes test et témoin créés par assignation aléatoire sont conçus pour être statistiquement identiques au départ. Le groupe témoin est censé représenter le contrefactuel, c’est-à-dire ce qui se serait produit un sein du groupe test s’il n’y avait pas eu de traitement (voir Pourquoi tirer au sort ?). Si les individus qui quittent le programme sont « identiques » dans le groupe test et le groupe témoin, ce dernier continue de former un contrefactuel valide du groupe test. Tout ceci tend à réduire la taille d’échantillon et donc la part de population cible pour laquelle on souhaiterait généraliser le programme, mais ne remet pas en cause la validité des résultats (tout du moins en ce qui concerne l’échantillon réduit).

Par exemple, supposons que nous décidions d’évaluer une zone rurale dans laquelle plusieurs membres d’un ménage passent une bonne partie de l’année à travailler en ville. Or, nous avons créé notre échantillon et rassemblé les données initiales lorsque tous les membres des ménages étaient chez eux pour les récoltes, et donc disponibles pour notre étude. Si nous récupérons les données finales durant la saison creuse, les membres des familles migrantes seront retournés travailler en ville et ne pourront pas répondre à notre enquête. En supposant qu’il s’agisse des mêmes personnes dans le groupe test et dans le groupe témoin, notre évaluation sera alors restreinte à la population restée en zone rurale. En effet, si la population non-migrante du groupe témoin est bel et bien un contrefactuel de celle du groupe test, nos évaluations d’impact seront parfaitement valides, mais uniquement applicables à la population qui ne part pas travailler en ville.

Cependant, si l’attrition ne revêt pas la même forme dans les deux groupes et que ce qui reste du groupe témoin ne compose plus un contrefactuel valide du groupe test, nos résultats risquent d’être biaisés. Reprenons notre exemple des maladies transmises par l’eau et supposons que dans le groupe témoin, le nombre de femmes et d’enfants malades soit plus élevé. Les jeunes hommes qui d’habitude partent travailler en ville durant la saison creuse resteront alors pour aider leur famille. Ainsi, au moment de récolter les données finales, les ménages du groupe témoin contiendront plus de migrants que ceux du groupe test. La démographie initiale des deux groupes sera différente, alors qu’elle était auparavant équilibrée. Il est aussi très possible que ces migrants en âge de travailler soient généralement en meilleur santé. Ainsi, même si notre traitement a pu améliorer la santé des femmes et des enfants du groupe test, nous nous retrouverons avec en moyenne plus de travailleurs migrants en bonne santé dans le groupe témoin. Au moment de la mesure de l’incidence de la diarrhée, les résultats des migrants en bonne santé du groupe de témoin risqueront de contrebalancer ceux des membres de leur famille malades. Ainsi, lorsque l’on comparera le groupe test au groupe témoin, il se peut que nous ne constations aucun impact et nous conclurons alors que le traitement n’a pas été efficace. Ce résultat serait pourtant faux et trompeur.

Dans cet exemple simplifié, nous pourrions bien sûr rééquilibrer les deux groupes en retirant les migrants de l’échantillon. Cependant, la plupart du temps, les caractéristiques qui nous permettraient d’identifier de manière sûre les déserteurs potentiels ou réels du programme (ceux qui disparaissent) sont soit rarement mesurées, soit difficilement observables. Prédire un taux d’attrition peut se révéler tout aussi difficile que de deviner la participation lors d’évaluations non aléatoires. De même, un biais dû à l’attrition peut se révéler tout aussi dévastateur qu’un biais de sélection lorsque cela provoque une inférence causale.

2.  Externalités et contaminations

Les effets d’externalité (ou effets de contagion) se produisent lorsque des individus assignés au groupe témoin sont affectés par le traitement d’une manière ou d’une autre. Par exemple, mettons que des enfants soient assignés au groupe témoin dans le cadre d’un programme de distribution de chlore mais qu’ils jouent avec des enfants du groupe test. En raison du traitement, ces derniers sont moins susceptibles de tomber malades, et donc leurs amis du groupe témoin ont moins de chances d’attraper une maladie. Dans ce cas, ils subissent indirectement un impact du programme, et ce même s’ils ont été assignés au groupe témoin. Les individus qui causent une contamination entre les deux groupes sont, quant à eux, des personnes du groupe témoin qui parviennent à bénéficier directement du traitement. Par exemple, si la mère d’un ménage assigné au groupe témoin envoie son enfant boire de l’eau dans le réservoir d’un ménage assigné au groupe test, elle parvient à se frayer un chemin jusqu’au groupe test. On utilise l’expression « conformité imparfaite » pour désigner les effets de contamination ainsi que les individus du groupe test qui décident de ne pas participer au programme (par exemple en refusant d’ajouter du chlore dans leur eau).

Lorsqu’une évaluation comporte des effets d’externalité et de contamination, il est possible dans de nombreux cas d’utiliser des techniques statistiques pour obtenir des résultats valides. Mais celles-ci s’accompagnent d’hypothèses que, pour la plupart, nous avions cherché à éviter en choisissant au départ d’effectuer une évaluation aléatoire. Par exemple, il est possible de contrôler les externalités si on arrive à les prévoir grâce aux variables observées. Dans le cas de la conformité imparfaite, si l’on suppose que ceux qui ont refusé le traitement n’ont pas été affectés par le programme et que ceux qui n’ont pas respecté leur assignation ont été affectés de la même manière que les participants du groupe test, alors on peut quand même en déduire l’impact du programme. Cependant, plus on émet d’hypothèses, moins on peut être sûr que les résultats mesurés sont bien causés par l’intervention.

Comment obtenir dex résultats?

À la fin de l’intervention (ou tout du moins à la fin de la période d’évaluation de l’intervention), il est nécessaire de collecter les dernières données afin de mesurer les résultats finaux. En supposant que l’intégrité de l’évaluation aléatoire ait été respectée et que la collecte des données ait été bien gérée, il est à présent temps d’analyser ces informations. Pour ce faire, la méthode la plus simple consiste à comparer les résultats moyens du groupe test à ceux du groupe témoin. La différence entre les deux représente l’impact du programme. Afin de déterminer si l’impact est significatif sur le plan statistique, il est possible d’effectuer le Test t de comparaison des moyennes. L’un des nombreux avantages de l’évaluation aléatoire, c’est qu’il est possible de mesurer l’impact sans avoir à utiliser des techniques statistiques très recherchées. Mais on peut aussi effectuer des analyses plus compliquées. Par exemple, on peut utiliser un modèle de régression linéaire en tenant compte des autres caractéristiques afin d’obtenir plus de précision. Cependant, plus l’analyse est complexe, plus la possibilité de faire des erreurs augmente. Un évaluateur doit donc toujours bien connaître son sujet et être très attentif lorsqu’il effectue de telles analyses.
Il est intéressant de noter que lorsque l’on obtient un résultat, il n’est jamais 100 % exact. Il s’agit d’une estimation qui est proche de la réalité mais qui contient toujours un certain degré de probabilité. Plus la taille de l’échantillon est grande, plus les écarts-types seront réduits et plus nous auront de certitudes. Cependant, il est impossible d’être infaillible à 100 %.

Cela nous amène à considérer deux dangers très courants lors d’une analyse:

1) La multiplicité des résultats: l’évaluation aléatoire ne garantit pas la parfaite exactitude de l’impact mesuré. Celui-ci n’est pas biaisé mais reste une estimation. La variable aléatoire permet de conserver une marge d’erreur par rapport à la réalité. D’ailleurs, la plupart du temps, l’estimation en sera très proche. D’autres fois, elle s’en écartera légèrement. Mais elle ne s’en éloignera complètement que très rarement. En effet, si nous considérons une seule mesure de résultat, il y a certes des chances qu’elle ait complètement divergé de la réalité, mais celles-ci sont infimes. Si, en revanche, nous nous intéressons à un grand nombre de mesures, la plupart en seront proches mais d’autres s’en écarteront. Et plus nous prendrons d’indicateurs en compte, plus nous avons de chances qu’au moins l’un d’entre eux s’éloigne considérablement de la réalité. Reprenons notre exemple des comprimés de chlore distribués dans le cadre d’un programme de traitement de l’eau pour combattre les maladies transmises par l’eau. Supposons que ces comprimés soient inefficaces ou que personne ne les utilise. Si l’on compare une vingtaine de mesures, il est très probable que l’une des comparaisons indiquera une amélioration significative de l’état de santé des individus, tandis qu’une autre décèlera au contraire une détérioration considérable due au programme. Ainsi, si l’on observe suffisamment de mesures, on finit bien par tomber sur une d’entre elles complètement différente entre le groupe test et le groupe témoin. Ce n’est pas un problème en soi. Mais cela en devient un lorsque l’évaluateur extrait trop de données, lorsqu’il fouille parmi les résultats jusqu’à ce qu’il trouve un impact significatif, qu’il reporte cette mesure, mais qu’il omet les autres résultats moins impressionnants qu’il a découverts au cours de sa recherche.

2) L’analyse en sous-groupes: tout comme un évaluateur peut extraire des données en étudiant de nombreuses mesures différentes, il peut aussi dénicher un résultat significatif en observant isolément différents sous-groupes. Par exemple, on peut avoir l’impression que le chlore n’a pas d’impact visible sur la santé d’un ménage dans son ensemble. Il peut donc sembler raisonnable de regarder de plus près afin de voir s’il n’y aurait pas d’impact sur les enfants au sein du ménage, ou sur les filles en particulier. On peut alors être tenté de comparer les garçons et les filles de différentes tranches d’âge, provenant de différentes compositions de ménages, dans différentes combinaisons. On pourrait ainsi découvrir que, dans le groupe test, le sous-groupe composé des garçons de 6 à 8 ans, ayant une sœur, dont l’un des grands-parents vit au sein du ménage et dont le foyer possède un téléviseur et du bétail, est en bien meilleure santé. On pourrait même concocter un scénario très réaliste, expliquant pourquoi ce sous-groupe particulier a été affecté par le traitement, et les autres pas. Cependant, si l’on tombe sur ce seul impact positif, après avoir déniché une ribambelle d’impacts négligeables pour les autres sous-groupes, il est fort probable que cette différence soit en réalité uniquement due au hasard, et pas au programme.

Comment en tirer des implications politiques?

Après avoir effectué une évaluation aléatoire parfaite et une analyse des résultats adéquate, on peut, avec un certain degré de certitude, commencer à tirer des conclusions quant aux impacts du programme sur la population cible. Par exemple : « Notre programme de distribution de chlore a réduit de 20 % l’incidence des diarrhées  chez les enfants de notre population cible. » Cette déclaration possède une légitimité scientifique, ou validité interne. Cependant, la rigueur de notre modèle ne nous permet pas de dire si ce même programme aura un impact semblable ou différent sur une autre population cible ou dans le cas d’un lancement à plus grande échelle. Si une évaluation aléatoire correctement menée peut assurer la validité interne, la validité externe, ou généralisation, est plus compliquée à obtenir. Pour extrapoler la nature des résultats dans un contexte différent, il faut se départir de sa rigueur scientifique et commencer à se baser sur des hypothèses. Celles-ci seront plus ou moins valables en fonction de notre connaissance du contexte de l’évaluation, et des autres contextes que nous devons prendre en compte dans le cas d’un lancement à plus grande échelle.

Toutefois, la méthode que nous avons choisie, celle de l’évaluation aléatoire, n’assure pas la validité interne au prix de la validité externe. Cette dernière relève de la conception du programme, des prestataires de service, des bénéficiaires et de l’environnement dans lequel l’évaluation a été menée. Les résultats de n’importe quelle évaluation de programme sont soumis à ces mêmes réalités contextuelles lorsqu’il s’agit de généraliser des programmes ou des politiques publiques similaires. Ce qu’une évaluation aléatoire nous apporte, c’est d’avoir au moins la certitude de la validité interne de nos résultats.