2004
Population
Notes de recherche
Une approche personnes-périodes pour l’analyse des histoires génésiques
Bruno Schoumaker
[*]
Bruno Schoumaker, Institut de démographie, Université catholique de Louvain, 1/17 Place Montesquieu, B-1348, Louvain-la-Neuve, Belgique, tél : 32 10 474136,
La reconstitution des histoires génésiques - ou histoires de maternité - est une approche largement utilisée pour collecter des données sur la fécondité dans les pays en développement. Depuis les années 1970, avec l’enquête mondiale de fécondité (EMF), et plus encore depuis le milieu des années 1980, avec le programme d’enquêtes démographiques et de santé (EDS), les histoires génésiques sont devenues une source de données indispensable pour l’étude des niveaux, tendances et déterminants de la fécondité. Le principe en est bien connu : il consiste à interroger un échantillon de femmes sur leur vie reproductive, en enregistrant les dates de naissance de chacun de leurs enfants, depuis la première naissance jusqu’au moment de l’enquête. Ces histoires génésiques sont principalement utilisées pour calculer les indicateurs de fécondité classiques, en particulier les taux de fécondité et indices synthétiques de fécondité (ISF), et reconstituer les tendances de la fécondité sur dix à quinze années (Garenne et Joseph, 2002; Potter, 1977). Combinées aux données socio-économiques collectées dans les enquêtes de fécondité, elles servent également à des analyses explicatives des comportements de fécondité (Cleland et Rodriguez, 1988; White et al., 2002). Enfin, bien qu’elles portent le plus souvent sur la fécondité récente, des analyses explicatives exploitant la nature longitudinale de ces données sont également parfois réalisées (Angeles et al., 1998; Raftery et al., 1995).
Les histoires génésiques constituent donc la matière première de la plupart des travaux sur la fécondité dans les pays en développement. Les méthodes d’analyse diffèrent toutefois sensiblement selon le type d’étude (plutôt descriptive ou explicative). Les taux par âge et les ISF présentés dans les rapports d’enquêtes et les estimations des tendances de la fécondité sont calculés selon les méthodes d’analyse démographique classique. Les approches explicatives utilisent quant à elles des méthodes de régression : régression logistique (Angeles et al., 1998), régression de Poisson (Mencarini, 1999) ou méthodes d’analyse biographique (Raftery et al., 1995). Même si le principe en est rarement exposé dans les manuels d’analyse démographique, les méthodes de régression, en particulier la régression de Poisson, peuvent elles aussi être utilisées pour calculer les indices démographiques classiques tels que les taux de fécondité (Powers et Xie, 2000) et les indices synthétiques de fécondité. La régression permet ensuite, et c’est son utilisation habituelle, d’inclure des variables explicatives de la fécondité.
À notre sens, l’utilisation d’une même méthode pour les analyses descriptives et explicatives simplifie non seulement les analyses d’un point de vue technique, mais facilite aussi l’interprétation des coefficients de régression. Le premier objectif de cette note sera précisément de rappeler comment une même méthode - la régression de Poisson - permet à la fois de calculer des indicateurs de fécondité classiques et de tenir compte de variables explicatives dont les effets sont facilement interprétables d’un point de vue démographique. Ce premier objectif est plutôt didactique, dans la mesure où l’utilisation de la régression de Poisson pour l’analyse de données de fécondité a été exposée par divers auteurs (Rodriguez et Cleland, 1988; Trussell et Rodriguez, 1990; Winkelmann et Zimmermann, 1994). Le second objectif cette note, qui en constitue l’originalité, est de montrer comment la réorganisation des données d’une histoire génésique en termes de personnes-périodes et leur traitement à l’aide d’une régression de Poisson offre davantage de flexibilité pour le calcul d’indicateurs de fécondité et la mesure des tendances et déterminants de la fécondité. Elle permet de calculer simplement des ISF tels que ceux présentés dans les rapports d’enquête EDS, de reconstituer les tendances passées de la fécondité, et de réaliser des analyses explicatives incluant notamment des variables qui changent au cours du temps. En résumé, cette note a une portée pratique plutôt que théorique, qui est de proposer une méthode simplifiant, à notre sens, l’analyse de données d’histoires génésiques.
Nous commençons par un bref rappel des deux approches généralement utilisées pour calculer les taux et indices synthétiques de fécondité avec des données d’enquêtes rétrospectives; elles permettent d’introduire deux façons d’utiliser la régression de Poisson pour analyser des données de fécondité. L’approche habituelle consiste à exploiter des observations individuelles; nous l’appliquons aux données de l’EDS 1998-1999 du Burkina Faso pour estimer les taux de fécondité et l’ISF à l’aide d’une régression de Poisson. Nous présentons ensuite la seconde approche, qui repose sur la réorganisation des données en termes de personnes-périodes. Nous l’appliquons d’abord aux données de deux enquêtes EDS (Zimbabwe 1999 et Burkina Faso 1998-1999) pour calculer les taux de fécondité et l’ISF dans ces deux pays. Nous l’utilisons ensuite pour estimer les différences de fécondité selon le niveau de vie au Burkina Faso. Enfin, nous l’appliquons pour reconstituer les tendances de la fécondité au Zimbabwe afin d’illustrer comment l’organisation des données en termes de personnes-périodes permet la prise en compte de variables explicatives qui varient au cours du temps.
I. Calcul des taux de fécondité et indices synthétiques de fécondité
D’une manière générale, les taux de fécondité par groupes d’âges se calculent en rapportant le nombre de naissances survenues chez des femmes d’un groupe d’âges donné au nombre d’années vécues par ces femmes sur la période étudiée (Vandeschrick, 1995). Ces taux peuvent être calculés de deux façons avec des données d’enquêtes rétrospectives. La plus simple (appelée ici méthode 1) consiste à calculer les taux en rapportant la somme des naissances des cinq dernières années déclarées par les femmes d’un groupe d’âges quinquennal, au moment de l’enquête, au nombre d’années vécues par ces femmes au cours des cinq années précédant l’enquête (nombre de femmes multiplié par cinq). En pratique, cela revient à calculer, pour chaque groupe d’âges quinquennal, la moyenne d’une variable individuelle (nombre de naissances au cours des cinq dernières années divisé par le nombre d’années). Ces taux sont sommés et multipliés par cinq pour obtenir l’indice synthétique de fécondité.
Une seconde approche (appelée ici méthode 2), utilisée notamment dans les rapports d’enquêtes EDS, consiste à calculer les taux de fécondité par groupes d’âges en rapportant le total des naissances survenues entre deux âges exacts au nombre total d’années vécues par les femmes au cours de la période. Contrairement à la première approche, les taux calculés de cette manière portent sur des groupes d’âges quinquennaux des femmes au moment de la naissance des enfants et non au moment de l’enquête. La figure 1 illustre ces deux approches sur un diagramme de Lexis. Un avantage de la seconde méthode est que la période sur laquelle les taux de fécondité et l’ISF sont calculés ne doit pas nécessairement être un multiple de cinq
[1]. Elle est en fait souvent de trois ou quatre années dans les rapports d’enquêtes EDS, ce qui limite les biais dans certaines de ces enquêtes
[2]. Les calculs sont toutefois moins directs qu’avec la première méthode, puisqu’ils nécessitent de replacer chaque naissance dans le « bon carré » du diagramme de Lexis, et de répartir pour chaque femme la durée passée dans chaque groupe d’âges. En pratique, notamment dans les programmes fournis par Macro International
[3], on produit habituellement deux tableaux, l’un reprenant le nombre de naissances dans chaque carré du diagramme de Lexis, et le second totalisant le nombre d’années vécues par les femmes dans chaque groupe d’âges. Les taux sont ensuite calculés en rapportant le nombre de naissances à celui des années vécues par les femmes dans chaque groupe d’âges.
Figure 1
Diagramme de Lexis comparant deux approches pour le calcul des taux de fécondité par groupes d’âges quinquennaux
II. Régression de Poisson et calcul des taux de fécondité : méthode 1
La première façon de calculer les taux de fécondité a donc un avantage pratique, puisque les taux sont obtenus en une seule étape en calculant des moyennes par groupes d’âges d’une variable individuelle (le nombre de naissances divisé par la durée de la période). Ces mêmes taux peuvent également être estimés à l’aide d’une régression de Poisson (voir encadré). L’avantage de la régression de Poisson est qu’elle permet de prendre en compte des variables explicatives, dont les effets sont exprimés sous forme de rapports de taux (Powers et Xie, 2000), et dont on peut tester la significativité
[4].
Illustrons avec les données de l’enquête EDS 1998-1999 du Burkina Faso comment estimer les taux de fécondité générale et l’ISF à partir de données individuelles en utilisant une régression de Poisson (tableau 1). La variable dépendante est le nombre de naissances au cours des cinq dernières années précédant l’enquête (variable prédéfinie dans les fichiers EDS); on inclut dans la partie droite du modèle les groupes d’âges quinquennaux (sous forme dichotomique) et on contrôle la durée d’exposition (cinq ans pour chaque femme) par un terme dit
offset. Les taux de fécondité sont alors obtenus en prenant l’exponentielle des coefficients de régression pour chacun des sept groupes d’âges
[5], et l’indice synthétique de fécondité est égal à la somme des taux multipliée par cinq. Le tableau 1 présente les coefficients de régression, les taux de fécondité et l’ISF (6,73 enfants par femme) (colonne 1). Il reprend également les résultats de deux régressions séparées sur les femmes résidant en milieu urbain (colonne 2) et en milieu rural (colonne 3). Les ISF s’élèvent à 4,04 enfants en milieu urbain et 7,23 en milieu rural, soit un ISF 1,79 fois plus élevé en milieu rural.
Tableau 1
Estimation des taux de fécondité et de l’ISF au cours des cinq années précédant l’enquête au Burkina Faso Résultats de régressions de poisson sur données individuelles
Variables explicatives Modèle 1 Modèle 2 Modèle 3 Modèle 4 Ensemble Milieu urbain Milieu rural Ensemble avec milieu de résidence comme variable explicative Coefficients () exp () Coefficients () exp () Coefficients () exp () Coefficients () exp () Groupe d’âges 15-19 ans – 3,066 0,047 – 3,758 0,023 – 2,938 0,053 – 3,543 0,029 20-24 ans – 1,386 0,250 – 1,917 0,147 – 1,288 0,276 – 1,870 0,154 25-29 ans – 1,214 0,297 – 1,596 0,203 – 1,158 0,314 – 1,719 0,179 30-34 ans – 1,290 0,275 – 1,724 0,178 – 1,228 0,293 – 1,796 0,166 35-39 ans – 1,383 0,251 – 1,874 0,153 – 1,325 0,266 – 1,898 0,150 40-44 ans – 1,825 0,161 – 2,573 0,076 – 1,740 0,176 – 2,335 0,097 45-49 ans – 2,741 0,064 – 3,638 0,026 – 2,671 0,069 – 3,267 0,038 Milieu de résidence Urbain – – – – – – 0,000 1,000 Rural – – – – – – 0,575 1,777 ISF urbain 4,04 4,07 ISF rural 7,23 7,23 ISF total 6,73 Source : enquête EDS du Burkina Faso, 1998-1999.
La régression de Poisson
La régression de Poisson est adaptée à l’analyse de variables entières non négatives (données de comptage) telles que le nombre de naissances survenues chez les femmes au cours d’une période donnée. Il s’agit d’un cas particulier du modèle linéaire généralisé, dans lequel la distribution conditionnelle de la variable dépendante suit une loi de Poisson et la fonction de lien est logarithmique (Winkelmann et al., 1994; Trussell et Rodriguez, 1990; Cameron et al., 1998). Elle présente plusieurs avantages pour l’analyse statistique de la fécondité. Elle permet notamment de contrôler les durées d’exposition dans les modèles par l’intermédiaire d’un terme dit offset. Celui-ci est une variable indépendante dont le coefficient est fixé à l’unité (Trussell et Rodriguez, 1990), ce qui revient à supposer que le risque est proportionnel à la durée. On estime ainsi les effets de variables explicatives sur les taux et la forme logarithmique du modèle est telle que les exponentielles des coefficients de régression mesurent les rapports entre les taux de fécondité de différentes catégories de femmes.
Dans le cas de la fécondité, la variable dépendante est le nombre de naissances (yi) survenues parmi les femmes (i) au cours d’une période donnée, et la probabilité que la variable aléatoire Yi soit égale à la valeur yi (nombre de naissances observé) est supposée suivre une loi de Poisson de moyenne μi :
La moyenne μi, nombre moyen de naissances par période, peut se décomposer comme le produit d’un taux de fécondité (λi) et d’une durée d’exposition (ti) :
Le logarithme de la moyenne (μi) est donc égal à la somme des logarithmes de la durée d’exposition (ti) et du taux de fécondité (λi) :
Le logarithme de la durée d’exposition constitue l’offset, et on modélise le logarithme des taux de fécondité (λi) comme une fonction linéaire de k variables explicatives :
D’où:
En prenant l’exponentielle de l’équation [4], on note que les variables explicatives ont des effets multiplicatifs sur les taux (λi), puisque :
L’exponentielle du coefficient de régression (βk) d’une variable explicative (xk) exprime donc le rapport entre le taux de fécondité des femmes pour lesquelles la variable explicative a une valeur donnée et le taux de fécondité des femmes pour lesquelles la variable a cette valeur moins une unité, toutes choses égales par ailleurs. Par exemple, pour une variable dichotomique, l’exponentielle du coefficient de cette variable est égale au rapport entre le taux de fécondité des femmes d’une catégorie et le taux de fécondité des femmes de la catégorie de référence. Les divers exemples repris dans cette note illustrent à plusieurs reprises l’interprétation de ces coefficients de régression.
La régression de Poisson permet aussi d’estimer les effets de variables explicatives sous forme de rapports de taux (pour des applications récentes, voir notamment Gregson et al., 1997 ; White et al., 2002). Plutôt que d’estimer des modèles séparément par milieu de résidence, on peut donc estimer l’effet du milieu de résidence en introduisant cette variable dans la régression. Les résultats sont retracés dans la colonne (4). Le milieu urbain étant pris comme catégorie de référence, l’ISF des femmes vivant en milieu urbain (4,07) est obtenu à partir des coefficients de régression des groupes d’âges. L’exponentielle du coefficient de régression du milieu de résidence mesure le rapport entre le taux de fécondité des femmes rurales et celui des femmes urbaines (1,78). L’effet multiplicatif étant par hypothèse le même aux différents âges (calendrier identique), en multipliant l’ISF des femmes vivant en milieu urbain (4,07) par cette valeur, on obtient donc l’ISF des femmes vivant en milieu rural (7,23). Qu’ils soient estimés séparément ou en prenant en compte le milieu de résidence dans la régression, les ISF sont donc très proches, et l’effet multiplicatif du milieu de résidence mesuré par la régression de Poisson (1,78) est pratiquement identique au rapport de l’ISF rural à l’ISF urbain estimés séparément (1,79). En bref, l’introduction d’une variable explicative dans la régression donne des résultats très similaires à ceux obtenus en estimant des modèles séparés.
III. Régression de Poisson et calcul des taux de fécondité : méthode 2
Avec la méthode 1, rappelons-le, les groupes d’âges sont définis en fonction de l’âge des femmes au moment de l’enquête. Avec la méthode 2, les taux et ISF sont par contre calculés en fonction de l’âge des mères au moment de la naissance des enfants, et une femme peut passer par deux groupes d’âges différents au cours d’une période. Prenons l’exemple d’une femme âgée de 22 ans exacts au moment d’une enquête, qui a eu deux enfants au cours des cinq années précédant l’enquête, l’un à 19 ans et l’autre à 21 ans (figure 2, trait inférieur). Cette femme a passé trois années dans le groupe d’âges 15-19 ans (trait plein) et deux années dans le groupe d’âges 20-24 ans (trait tireté), et il n’est donc pas possible de lui attribuer une valeur unique pour la variable groupe d’âges. Avec des observations individuelles, on ne peut donc calculer selon la méthode 2 des taux de fécondité et des ISF ni comme de simples moyennes, ni en prenant en compte les groupes d’âges dans la régression.
Figure 2
Diagramme de Lexis illustrant le découpage des données en personnes-périodes pour le calcul des taux de fécondité par groupes d’âges quinquennaux
La solution proposée ici consiste à passer d’un fichier d’observations individuelles à un fichier personnes-périodes. Cette approche se révèle très flexible à divers égards : non seulement elle simplifie les programmes de calcul des taux de fécondité et des ISF selon la méthode 2, mais elle permet aussi d’inclure des variables qui changent au cours du temps dans les modèles explicatifs. Le principe est le suivant : il consiste à découper, pour chaque femme, la période sur laquelle les taux doivent être calculés (par exemple cinq ans) en plusieurs sous-périodes (ou segments) au cours desquelles les variables explicatives (les groupes d’âges dans cet exemple) sont constantes. Ainsi, au lieu d’avoir une observation unique pour la femme âgée de 22 ans à l’enquête (figure 2), on distingue deux sous-périodes au cours desquelles le groupe d’âges est constant et, à chacune d’entre elles, on fait correspondre une observation dans le fichier de données. Une première observation couvre donc la période de 17 à 20 ans exacts (figure 2, trait plein inférieur), et l’autre observation la période de 20 à 22 ans exacts (trait tireté). La variable dépendante est le nombre de naissances, soit ici une naissance dans chaque segment. La durée de chaque segment est également reprise dans le fichier, soit trois ans entre 17 et 20 ans et deux ans entre 20 ans et 22 ans. Le tableau 2 illustre l’organisation des données en termes de personnes-périodes pour les deux cas représentés sur la figure 2. La dernière colonne retrace un « taux » individuel de fécondité par sous-période (rij), calculé comme le rapport du nombre de naissances (nij) à la durée de la sous-période (tij).
Tableau 2
Exemple d’organisation des données en termes de personnes-périodes (données illustrées sur la figure 2)
Numéro femme (j) Numéro sous-période (i) Âge exact à l’enquête Groupe d’âges d’appartenance au cours des sous-périodes Naissances au cours des sous-périodes (yij) Durée d’exposition en années (tij) Taux individuel de fécondité par sous-période (rij) 1 1 22,0 ans 15-19 ans 1 3,0 0,33 1 2 22,0 ans 20-24 ans 1 2,0 0,50 2 1 24,5 ans 15-19 ans 0 0,5 0,00 2 2 24,5 ans 20-24 ans 2 4,5 0,44
Le calcul des taux de fécondité par groupe d’âges avec les données personnes-périodes (méthode 2) peut se faire de plusieurs manières. Une première possibilité consiste à calculer pour chaque groupe d’âges la moyenne des taux de fécondité individuels par sous-période (rij) pondérée par les durées des sous-périodes tij). Plutôt que de passer par la production de tableaux séparés, la réorganisation des données en termes de personnes-périodes permet donc d’obtenir des taux de fécondité et des ISF identiques à ceux des rapports EDS grâce à de simples moyennes pondérées. La seconde possibilité consiste à appliquer une régression de Poisson aux données personnes-périodes. La variable dépendante est alors le nombre de naissances au cours de chaque sous-période, les variables indépendantes sont les groupes d’âges quinquennaux (sous forme dichotomique), et la durée de chaque sous-période est contrôlée par le terme dit offset. Par rapport à l’application de la régression de Poisson à des données individuelles, les deux grandes différences sont que les variables indépendantes (les groupes d’âges) varient au cours du temps et que la durée passée dans chaque groupe d’âges est contrôlée par l’offset.
Avant de passer à des exemples, soulignons que l’application de la régression de Poisson à des données réorganisées en termes de personnes-périodes n’est en soi pas nouvelle. C’est le principe des modèles de durée (Blossfeld et Rohwer, 2002; Courgeau et Lelièvre, 1989) et des modèles pour événements répétés utilisés par exemple en épidémiologie (Clayton, 1994). L’originalité de l’approche proposée ici réside donc principalement dans l’application de ce principe au calcul d’indicateurs classiques de fécondité (taux, ISF) et à la mesure des tendances et déterminants de la fécondité à partir d’histoires génésiques. À notre connaissance, cela n’a jamais été présenté, si ce n’est par l’auteur sous une forme différente (Schoumaker, 2001).
Illustrons cette approche par quelques exemples. Le tableau 3 compare les taux et ISF obtenus avec la régression de Poisson sur des données personnes-périodes et les résultats publiés dans les rapports des EDS de 1998-1999 au Burkina Faso (taux calculés sur les cinq dernières années) et de 1999 au Zimbabwe (trois dernières années). Pour chaque pays, la première colonne indique les coefficients de régression estimés pour les sept groupes d’âges et la deuxième colonne retrace l’exponentielle de ces coefficients, c’est-à-dire les taux de fécondité. Les taux de fécondité publiés dans les rapports EDS, repris dans la troisième colonne, sont bien strictement identiques aux taux estimés au moyen de la régression.
Tableau 3
Fécondité par groupe d’âges et ISF au Zimbabwe et au Burkina Faso. Comparaison des résultats des régressions de Poisson sur données personnes-périodes et des résultats publiés dans les rapports d’enquêtes EDS
Groupe d’âges Zimbabwe 1999 (3 dernières années) Burkina Faso 1998-1999 (5 dernières années) Coefficients () exp () Résultats publiés Coefficients () exp () Résultats publiés 15-19 ans – 2,193 0,112 0,112 – 1,940 0,144 0,144 20-24 ans – 1,613 0,199 0,199 – 1,186 0,305 0,305 25-29 ans – 1,717 0,180 0,180 – 1,226 0,293 0,293 30-34 ans – 2,005 0,135 0,135 – 1,332 0,264 0,264 35-39 ans – 2,228 0,108 0,108 – 1,543 0,214 0,214 40-44 ans – 3,088 0,046 0,046 – 2,190 0,112 0,112 45-49 ans – 4,233 0,015 0,015 – 3,563 0,028 0,028 ISF – 3,97 3,97 6,80 6,80 Sources des données publiées : Central Statistical Office (2000) pour le Zimbabwe; INSD (2000) pour le Burkina Faso.
Comme avec la première méthode, des variables explicatives peuvent être prises en compte dans le modèle, et l’on peut tester leur significativité. Le tableau 4 reprend les résultats d’une régression de Poisson appliquée aux données de l’EDS 1998-1999 du Burkina Faso, dans laquelle une variable mesurant le niveau de vie
[6] est prise en compte en plus des groupes d’âges. Pour chacune des cinq catégories de niveau de vie, l’ISF des femmes est obtenu en multipliant l’ISF de la catégorie de référence (les plus pauvres) par l’exponentielle du coefficient de régression. Les astérisques indiquent dans quelle mesure les ISF sont significativement différents de celui de la catégorie de référence. On note ici que la fécondité des femmes très pauvres est légèrement supérieure (différence significative) à celle des plus pauvres, et que la fécondité des femmes les plus aisées est significativement plus faible. Les autres différences ne sont pas significatives. Cette approche constitue donc un moyen rapide de tester la significativité des différences de fécondité pour différentes catégories de femmes.
Tableau 4
Estimation de la relation entre niveau de vie et fécondité au Burkina Faso. Résultats d’une régression de Poisson sur données personnes-périodes pour les cinq années précédant l’enquête
Niveau de vie ISF Le plus bas (Réf.) 6,79 Très bas 7,50** Bas 7,16 Moyen 6,73 Aisé 4,36*** *** p < 0,01; ** p < 0,05; * p < 0,10. Source : enquête EDS du Burkina Faso, 1998-1999.
Soulignons à ce propos que le fait de travailler sur un fichier personnes-périodes ne gonfle pas artificiellement la taille de l’échantillon lorsque les données sont analysées à l’aide d’une régression de Poisson. De la même manière que la régression de Poisson peut être utilisée sur des données groupées ou des données individuelles avec des résultats équivalents (Rodriguez, 2001), le fait d’éclater les observations individuelles en plusieurs données ne modifie pas les résultats (coefficients de régression et écarts types) lorsque les données sont analysées par cette méthode
[7].
IV. La reconstitution des tendances de la fécondité
On l’a déjà souligné, la réorganisation des données en termes de personnes-périodes peut être étendue pour prendre en compte des variables explicatives qui varient dans le temps. La méthode consiste toujours à éclater les observations (lignes du fichier) en plusieurs observations à chaque changement de valeur des variables explicatives. Un exemple simple de variable qui change au cours du temps est la période (année, période quinquennale, etc.), et une des applications possibles de la régression de Poisson à des données personnes-périodes est la reconstitution des tendances de la fécondité à partir d’histoires génésiques. Dans ce cas, les données sont organisées par année de calendrier, que l’on subdivise lorsqu’une femme passe d’un groupe d’âges à l’autre au cours de l’année. Cela permet d’inclure les groupes d’âges et les années comme variables explicatives dans la régression de Poisson et d’estimer les variations annuelles du niveau de la fécondité. Comme dans le cas de variables explicatives fixes, on fait ici l’hypothèse que le calendrier de la fécondité est constant, c’est-à-dire que la répartition proportionnelle des taux aux différents âges est constante. L’exponentielle du coefficient de régression relatif à une année donnée mesure alors le rapport entre la fécondité (ISF) pour cette année et la fécondité de l’année de référence. Connaissant l’ISF pour l’année de référence - calculé à partir des coefficients de régression relatifs aux groupes d’âges quinquennaux - il reste ensuite à le multiplier par l’exponentielle du coefficient de régression de l’année pour obtenir une estimation de l’ISF de cette même année.
Le tableau 5 illustre l’application de cette méthode aux données sur la fécondité au cours des vingt années précédant l’enquête EDS de 1999 du Zimbabwe. L’année de référence est 1998, et l’ISF pour cette année (4,00 enfants par femme) est obtenu à partir des coefficients de régression relatifs aux groupes d’âges quinquennaux. L’ISF de 1997 (4,22) est égal à la fécondité de l’année de référence (4,00) multipliée par l’exponentielle du coefficient de l’année 1997 (1,055), et il en est de même pour les autres années. L’évolution annuelle de la fécondité est représentée sur la figure 3. Les valeurs estimées en appliquant la même méthode aux données des histoires génésiques des enquêtes EDS de 1988 et 1994 sont également reprises sur cette figure, de même que les valeurs publiées dans les rapports EDS à différentes dates. On note que globalement, les niveaux et tendances estimés à partir des trois enquêtes « collent » très bien, et que les estimations rétrospectives sont aussi très proches des valeurs publiées pour différentes dates
[8].
Tableau 5
Fécondité par groupe d’âges en 1998 et reconstitution des tendances de la fécondité au cours des vingt ans précédant l’enquête au Zimbabwe. Résultats d’une régression de Poisson sur des données personnes-périodes
Groupe d’âges Coefficients de régression ( ) exp () Année Coefficients de régression () exp () ISF estimé 15-19 ans – 2,399 0,091 1998 (Réf.) – – 4,00 20-24 ans – 1,704 0,182 1997 0,0524 1,055 4,22 25-29 ans – 1,759 0,172 1996 0,0796 1,082 4,33 30-34 ans – 1,868 0,154 … … … 35-39 ans – 2,098 0,123 1988 0,3075 1,360 5,44 40-44 ans – 2,777 0,062 … … … 45-49 ans – 4,121 0,016 1980 0,4053 1,500 6,03 ISF 1998 (année de référence) 4,00 1979 0,5637 1,757 7,03 Source : enquête EDS du Zimbabwe, 1999.
Figure 3
Reconstitution de l’ISF sur la période 1975-1998 au Zimbabwe. Résultats d’une régression de Poisson sur données personnes-périodes
Source :enquêtes EDS 1988, 1994 et 1999.
Cette méthode a plusieurs avantages par rapport à l’approche classique qui consiste à calculer séparément des ISF pour différentes périodes (voir par exemple Garenne et Joseph, 2002). Premièrement, pour reconstituer les tendances sur quinze ou vingt ans, elle n’implique l’estimation que d’un seul modèle de régression, et elle est donc plus simple à mettre en œuvre. Deuxièmement, les résultats sont interprétables en termes d’indices synthétiques de fécondité entre 15 et 49 ans, alors qu’avec l’approche classique, les ISF sont estimés jusqu’à 35 ou 40 ans
[9]. Un troisième intérêt est qu’elle permet d’intégrer les tendances de la fécondité au sein même du modèle de régression. Plutôt que de prendre en compte les années sous forme de variables dichotomiques, on peut en effet introduire dans la régression une fonction du temps (linéaire, quadratique, spline, etc.). Enfin, cette méthode permet d’inclure des variables explicatives dans le modèle et d’estimer l’effet de ces variables sur le niveau annuel de la fécondité. On peut par exemple évaluer l’effet de changements des caractéristiques socio-économiques de la population sur la fécondité en incluant des variables individuelles fixes dans le temps; de même, des variables individuelles, contextuelles (comme la présence de services de planification familiale dans le village) ou globales (PIB par habitant, etc.) qui changent au cours du temps peuvent être prises en compte pour expliquer l’évolution de la fécondité.
Nous avons présenté comment l’organisation des données d’une histoire génésique en termes de personnes-périodes, auxquelles on applique une régression de Poisson, constitue une approche flexible pour l’analyse des niveaux, tendances et déterminants de la fécondité. Elle permet de calculer (plus) simplement les taux de fécondité par âge et les indices synthétiques de fécondité, mais aussi d’estimer des modèles explicatifs et de reconstituer les tendances de la fécondité. En résumé, elle permet d’effectuer des analyses descriptives et explicatives de la fécondité avec une approche commune, c’est-à-dire avec une même méthode et un même fichier de données.
Les exemples traités dans cette note sont simples et peuvent être complexifiés à divers égards. Il est bien sûr possible d’inclure davantage de variables explicatives dans les modèles, en particulier des variables qui changent au cours du temps. D’autres extensions sont aussi envisageables. Par exemple, le modèle de fécondité légitime de Rodriguez et Cleland (1988) pourrait aisément être estimé sur des données personnes-périodes. Des analyses multiniveaux sur de telles données sont également possibles, les modèles de Poisson multiniveaux pouvant être estimés avec divers logiciels. Enfin, la combinaison des dimensions temporelles et spatiales dans ces modèles pourrait aussi s’avérer utile dans l’étude des processus de diffusion des changements de la fécondité.
·
Allison P., 1999, Logistic Regression Using the SAS System, Cary, SAS Institute Inc.
·
Angeles G., D. Guilkey, T. Mroz, 1998, « Purposive program placement and the estimation of family planning program effects in Tanzania », Journal of the American Statistical Association, 93, p. 884-899.
·
Blossfeld H.-P., G. Rohwer, 2002, Techniques of Event-History Modeling. New Approaches to Causal Analysis, Mahwah (NJ), Lawrence Erlbaum Associates.
·
Cameron A., P. Trivedi, 1998, Regression Analysis of Count Data, Cambridge, Cambridge University Press.
·
Central Statistical Office, Macro International, 2000, Zimbabwe Demographic and Health Survey 1999, Harare/Calverton, Central Statistical Office/Macro International.
·
Clayton D., 1994, « Some approaches to the analyses of recurrent event data », Statistical Methods in Medical Research, 3, p. 244-262.
·
Cleland J., G. Rodriguez, 1988, « The effect of parental education on marital fertility in developing countries », Population Studies, 42(3), p. 419-442.
·
Courgeau D., É. Lelièvre, 1989, Analyse démographique des biographies, Paris, Ined (coll. Manuels), 268 p.
·
Covas F., J. Santos Silva, 2000, « A modified hurdle model for completed fertility », Journal of Population Economics, 13(2), p. 173-188.
·
Garenne M., V. Joseph, 2002, « The timing of the fertility transition in sub-Saharan Africa », World Development, 30(10), p. 1835-1843.
·
Gregson S., T. Zhuwau, R. Anderson, S. Chandiwana, 1997, « HIV and fertility change in rural Zimbabwe », Health Transition Review, 7(suppl. 2), p. 89-112.
·
INSD, Macro International, 2000, Enquête démographique et de santé, Burkina Faso 1998-1999, Calverton, Macro International.
·
King G., 1989, « Variance specification in event count models: from restrictive assumptions to a generalized estimator », American Journal of Political Science, 33(3), p. 762-784.
·
Lee E. S., R. Forthofer, R. Lorimer, 1989, Analyzing Complex Survey Data, Newbury Park, Sage Publications.
·
Marckwardt A., O. Rutstein, 1996, « Accuracy of DHS-II demographic data: gains and losses in comparison with earlier surveys », DHS Working Paper 19, Calverton, Macro International.
·
Mencarini L., 1999, « An analysis of fertility and infant mortality in South Africa based on 1993 LSDS data », in UEPA (éd.), Conférence africaine de population, Durban, UEPA, p. 109-128.
·
Potter J., 1977, « Problems in using birth-history analysis to estimate trends in fertility », Population Studies, 31(2), p. 335-364.
·
Powers D., Y. Xie, 2000, Statistical Methods for Categorical Data Analysis, San Diego, Academic Press.
·
Raftery A., S. Lewis, A. Aghajanian, 1995, « Demand or ideation? Evidence from the Iranian marital fertility decline », Demography, 32(2), p. 159-182.
·
Rodriguez G., 2001, Generalized Linear Models. Lecture Notes, Princeton, Princeton University.
·
Rodriguez G., J. Cleland, 1988, « Modelling marital fertility by age and duration : an empirical appraisal of the Page model », Population Studies, 42(2), p. 241-257.
·
Schoumaker B., 2001, « Une analyse multi-niveaux dynamique de la fécondité légitime au Maroc rural », XXIVe congrès général de l’UIESP, Salvador de Bahia (Brésil).
·
Trussell J., G. Rodriguez, 1990, « Heterogeneity in demographic research », in J. Adams, D. Lam, A. Hermalin, P. Smouse (éd.), Convergent Issues in Genetics and Demography, New York, Oxford University Press, p. 111-132.
·
Vandeschrick C., 1995, Analyse démographique, Louvain-la-Neuve, Academia/L’Harmattan.
·
White M., E. Tagoe, C. Stiff, K. Adazu, D. Smith, 2002, Urbanization and the Fertility Transition in Ghana, Providence, Brown University.
·
Winkelmann R., K. Zimmermann, 1994, « Count data models for demographic data », Mathematical Population Studies, 4(3), p. 205-221.
[*]
Institut de démographie, UCL, Louvain-la-Neuve, Belgique.
[1]
Il n’est bien sûr pas indispensable de calculer les taux sur une période de cinq ans avec la première approche, mais cela conduit alors à centrer les taux sur des âges non conventionnels.
[2]
On observe en effet fréquemment un vieillissement artificiel des enfants dont l’âge se situe à la limite de la plage d’éligibilité pour les modules sur la santé (Marckwardt et Rutstein, 1996). Si ces modules portent sur les enfants de moins de cinq ans, les ISF calculés sur cinq ans seront sous-estimés.
[3]
Voir
http:// www. measuredhs. com/ zip/ frsas. zip pour les programmes SAS fournis par Macro International.
[4]
Les régressions de Poisson peuvent être estimées notamment avec les logiciels SAS et STATA.
[5]
Nous considérons ici que la constante est omise du modèle.
[6]
La variable de niveau de vie est basée sur les biens possédés par le ménage.
[7]
Comme dans toute autre analyse, on pourrait corriger les écarts types, notamment pour tenir compte de l’effet de grappe lié au plan de sondage complexe (Lee
et al., 1989). Il est également possible de corriger les écarts types lorsque l’hypothèse d’équi-dispersion de la régression de Poisson (variance de la variable dépendante égale à sa moyenne) n’est pas vérifiée. La surdispersion (variance supérieure à la moyenne) conduit à sous-estimer les écarts types des coefficients de régression, alors que la sous-dispersion (situation inverse) conduit à surestimer les écarts types (Winkelmann et Zimmermann, 1994). Le modèle binomial négatif est une approche courante pour tenir compte de la surdispersion. Les données de fécondité ont toutefois plutôt tendance à être sous-dispersées (Covas et Santos Silva, 2000 ; Winkelmann et Zimmermann, 1994), et ce modèle ne s’applique pas à cette situation (Winkelmann et Zimmermann, 1994). Les données sous-dispersées peuvent être analysées avec les modèles de comptage généralisés (Winkelmann et Zimmermann, 1994; King, 1989). Des approches plus simples permettent également de corriger les écarts types des coefficients en cas de sous-dispersion ou de surdispersion (Allison, 1999).
[8]
Si le calendrier de la fécondité n’est pas constant, c’est-à-dire si la fécondité baisse proportionnellement davantage à certains âges qu’à d’autres, ce qui est couramment le cas, l’estimation des niveaux et tendances de la fécondité pourra en être affectée. Dans le cas du Zimbabwe, on note par exemple une légère surestimation de la fécondité au cours de la période récente avec notre méthode par rapport à l’ISF publié, ce qui peut s’expliquer par le fait que la fécondité a davantage baissé aux âges avancés. Cela n’a toutefois qu’un léger impact sur l’estimation de la tendance générale.
[9]
Cela tient au fait que les histoires génésiques collectées dans ces enquêtes concernent les femmes âgées de 15 à 49 ans au moment de l’enquête, et ne touchent donc pas certains groupes d’âges pour les périodes anciennes. Il n’ est donc
a priori pas possible de calculer un ISF entre 15 et 49 ans avec les approches classiques lorsque l’on remonte dans le temps, si ce n’est en estimant séparément les taux aux âges élevés pour les périodes anciennes. Avec la régression de Poisson, ces taux sont estimés directement par le modèle, sous l’hypothèse que le calendrier de la fécondité est constant dans le temps.