Accueil Que sais-je ? / Repères Ouvrage Chapitre

La méthode en sociologie

2007 (5e éd.)



Chapitre précédent Pages 45 - 54 Chapitre suivant
1

Sonder, c'est prélever un échantillon à des fins d'analyse. Les critères du prélèvement relèvent d'une décision stratégique et peuvent être très variables. On peut notamment choisir des échantillons contrastés, comme on l'a suggéré pour le test préalable d'un questionnaire ou bien pour sélectionner des « cas » afin d'enregistrer des histoires de vie. La question est de savoir dans quelle mesure l'échantillon peut être tenu pour représentatif, mais il peut s'agir de représenter les contrastes sociaux ou un « ensemble ». C'est pourtant cette dernière conception qui tend à prévaloir en raison des usages statistiques popularisés par les grandes enquêtes nationales (ou internationales) et les sondages d'opinion. Presque toujours associé à l'enquête par questionnaire, le sondage statistique est alors destiné à fonder des extrapolations à partir de résultats ou d'hypothèses issus d'autres méthodes et il implique des échantillons de « taille suffisante ». Parce qu'il est le plus connu, nous commencerons par lui.

2

Qu'est-ce qu'un échantillon de taille suffisante ? On aimerait pouvoir répondre avant de décider de la méthode d'enquête : en temps limité, avec des moyens réduits, pour un mémoire par exemple, il vaut souvent mieux approfondir des méthodes plus exploratoires (observations ou entretiens) que viser une exploitation statistique avec trop peu de questionnaires. L'effectif des grands échantillons des instituts de sondage (généralement autour du millier) sert souvent de référence : mais c'est plus que ne peut espérer un chercheur isolé. C'est pourtant a posteriori seulement qu'on peut mesurer la représentativité statistique de l'échantillon, en fonction de l'effectif certes, mais aussi de la distribution des réponses (cf. représentativité des sondages).

3

À  défaut de pouvoir appliquer une mesure, on peut toutefois tenter d'en anticiper les conclusions par une approximation raisonnée. Il faut se représenter, par exemple, le futur tableau qui croisera les deux variables origine sociale et instruction : pour un tableau croisé de ce type, on considère parfois comme prudent d'avoir des effectifs de case égaux ou supérieurs à 20. Même si on fait l'hypothèse (favorable) de réponses distribuées de façon relativement homogène entre les différents items, on voit vite les limites statistiques d'un échantillon de cent personnes : croiser deux variables ayant chacune trois items (instruction supérieure, secondaire, primaire ; classe supérieure, moyenne, populaire...) détermine neuf cases dont les effectifs seront donc, dans quatre cases au moins, inférieurs à vingt !

Les sondages aléatoires

4

L'échantillon est constitué par tirage au sort à partir d'une « base de sondage », liste précise de la population de référence.

Procédures de sondage aléatoire simple

5

Soit un sondage à taux défini (sondage au 1/10) à opérer sur une base de sondage (une liste d'état civil, un répertoire d'abonnés, une liste d'étudiants inscrits à un même cycle d'études...) de 4 000  personnes. La procédure habituelle est la suivante :

  1. on décide d'un classement ordonnant ces individus : ce peut être l'ordre même des listes ou répertoires ;

  2. le sondage étant au 1/10, on tire au sort un nombre inférieur ou égal à 10 : ce nombre désigne le premier individu à sonder (ce sera, par exemple, le sixième de la liste) ;

  3. à partir de ce nombre, désignant le premier sondé, on choisit les suivants de 10 en 10 (si le premier sondé est le sixième de la liste, les suivants seront les seizième, vingt-sixième, etc.).

6

Au lieu de cette procédure, on peut aussi utiliser des tables préétablies de nombres aléatoires, pratique ancienne un peu tombée en désuétude, ou recourir aux fonctions qui, sur ordinateurs et calculatrices (cf. touche « random » de certaines calculettes), proposent des séries de nombres produits selon une loi uniforme.

Sondages aléatoires en grappe (à un ou n degrés)

7

Quand l'unité statistique tirée au sort est un groupe, on parle de sondage en grappe. Ce groupe peut être une famille, une agglomération, un établissement... Le questionnaire concerne l'ensemble du groupe ; il peut être administré à tous ses membres ou uniquement à quelques-uns qui auront été définis à l'avance (le chef de famille, par exemple) ou le sont dans un deuxième temps. Si, à l'intérieur des premières grappes tirées au sort, on procède à de nouveaux tirages au sort, on parle alors de sondage à plusieurs degrés. Par exemple :

  • 1er degré : tirage au sort des cantons ;

  • 2e degré : tirage au sort des communes dans les cantons ;

  • 3e degré : tirage au sort des ménages dans les communes.

8

Cette procédure est celle des « enquêtes ménages » de l'INSEE. Il y a aussi sondage à deux ou n degrés dans les sondages électoraux opérés « à la sortie des urnes » (1er  degré : tirage au sort des bureaux de vote ; 2e  degré : tirage au sort des électeurs relevant de ces bureaux), dans les enquêtes « passagers » des compagnies de transport, dans les mesures d'audience (Médiamétrie...), etc.

9

Quand l'unité de sondage est une aire, un îlot, on parle de sondage aréolaire.

Sondages aléatoires stratifiés

10

Le sondage stratifié quant à lui est toujours un sondage à tirages multiples (qu'il soit à un degré ou à plusieurs). La population (la base) est divisée en sous-ensembles ou strates (CSP, classes d'âge, sexe...) et on opère un sondage dans chacune : son taux peut y être différent.

11

On opérera, par exemple, un sondage au 1/20 parmi les ouvriers et au 1/10 parmi les cadres, moins nombreux, pour avoir un nombre suffisant de questionnaires de cadres...

12

Si les taux diffèrent, on doit alors, lors de l'exploitation, traiter chaque strate séparément. Si l'on veut un traitement statistique global, on affecte à chacune une pondération inversement proportionnelle à son taux de sondage.

13

Dans l'exemple précédent, les questionnaires d'ouvriers auront une pondération double de celle des questionnaires de cadres ; ils seront comptés deux fois.

14

À  l'échelle de la population française, les sondages aléatoires stratifiés ne sont guère utilisés que par l'INSEE. Après chaque recensement (enquête exhaustive passée auprès de tous les individus de la population), l'INSEE procède aussi à des sondages parmi les questionnaires recueillis (sondages au 1/20, au 1/5...) pour publier les premiers résultats.

Redressement d'échantillon

15

Parce que la distribution des non-réponses n'est pas aléatoire, les  redressements d'échantillon sont, en sociologie, d'un usage relativement limité. La méthode de redressement d'échantillon se propose en effet de rétablir la structure initiale d'un échantillon stratifié lorsqu'elle a été fortement perturbée par des taux de non-retours élevés et inégalement distribués selon les strates.

16

Si la moitié des anciens élèves de la section  A d'un lycée ont répondu au questionnaire qui leur a été envoyé, les deux tiers pour la section  B et 95  % pour la section  C, les questionnaires retournés peuvent alors être comptés deux fois s'ils émanent de A et affectés d'un coefficient multiplicateur égal à 1,5 pour les B et à 100/95 pour les C.

17

Le redressement postule que, au sein de chaque catégorie ou strate, les non-répondants auraient donné le même type de réponses que ceux qui ont répondu. Ce postulat contredit et évacue l'hypothèse de construction sociale des non-retours.

Représentativité et erreur aléatoire

Représentativité

18

Dans un premier sens, la représentativité d'un échantillon, qu'il soit aléatoire ou raisonné, est fonction, nous l'avons vu, de sa taille, de la fiabilité et de la précision de la base de sondage et de la rigueur du protocole de recueil des informations. Mais c'est la représentativité statistique des sondages qu'évoque surtout le mot, représentativité dont la mesure se fonde sur la loi des grands nombres et le calcul des probabilités et suppose donc une procédure de sondage aléatoire.

Seuil de confiance, intervalle de confiance

19

La question à laquelle on peut répondre est la suivante : quelle est la probabilité pour que p, la proportion observée dans l'échantillon, soit due au hasard ? Plus précisément, avec quel risque d'erreur (nommé seuil de confiance) peut-on dire que P, la proportion dans la population, est égale à p, la proportion observée dans l'échantillon, plus ou moins un certain intervalle (dit intervalle de confiance, marge d'erreur ou plus couramment fourchette) ?

La table de la loi normale réduite

20

La valeur du seuil de confiance ou de l'intervalle de confiance peut se calculer à partir de l'une ou l'autre des formules ci-après. Elles se réfèrent à la table des écarts réduits (z ou u).

21

On y lit, par exemple, que, pour z égal à 1,645, alors 0,10, c'est-à-dire 10  % des valeurs, sont supérieures à la valeur x  +  1,645 et inférieures à x  ­  1,645. Il y a dix chances sur cent (seuil de confiance) pour que les valeurs observées soient extérieures à l'intervalle de confiance 8  1,645 ; 90  % de chances qu'elles s'inscrivent entre ses deux bornes extrêmes.

Loi normale réduite : probabilité que l'écart soit dépassé ; épreuve bilatérale

Estimer les seuils et les intervalles

22

La formule la plus complète suppose de connaître (outre p la proportion dans l'échantillon, q la proportion complémentaire et n la taille de l'échantillon) la valeur du taux de sondage  f.

23

La valeur de z se lit dans la table des écarts réduits :

24

Par exemple, au seuil de confiance 0,02, z est égal à 2,326 ; au seuil 0,05, il est égal à 1,96.

25

Si n = 400 et p = 0,25, au seuil de confiance 0,05 l'intervalle de confiance passe de plus ou moins 0,0329 (3,29  %) si la population mère est de mille personnes à 0,0416 (4,16  %) si elle est de cent mille.

26

Une formule approchée ne prend pas en compte le taux de sondage.

27

Dans l'exemple précédent (n = 400, p = 25  %), au seuil de confiance 0,05, selon cette formule l'intervalle de confiance est égal à 8  0,042 (4,2  %).

28

Ne pas prendre en considération le taux de sondage ne change guère le résultat.

29

Une lecture plus rapide de l'intervalle de confiance (ou marge d'erreur notée ici « e ») est présentée dans la table ci-après, fondée sur l'équation :

30

Au seuil de confiance 0,05 (5  %), on lit dans la table que, pour un échantillon de taille n  =  400 et pour p = 25 %, la valeur de l'intervalle de confiance (marge d'erreur) se lit à l'intersection de la ligne n  =  400 et de la colonne p  =  25% : elle est égale à 4,3. P  =  25  % 8 4,3  %.

Marge d'erreur (e) au seuil de confiance 5%

Représentativité et taux de sondage

31

La représentativité d'un échantillon dépend davantage de son effectif que du taux de sondage. Par exemple, selon cette dernière table, au seuil 0,5 et pour p  =  25  %, l'intervalle de confiance passe de 4,3 (n  =  400) à 3 si « n » s'élève à 700 et à 8,6 s'il descend à 100.

32

Il en résulte qu'un échantillon peut avoir une représentativité satisfaisante pour une population mais pas pour telle ou telle de ses composantes (telle classe, telle circonscription...) puisque n y est plus petit.

33

Il en découle aussi qu'il y a très peu de raisons de tenir un échantillon de taille n pour plus représentatif s'il est prélevé sur une population de taille réduite (N  =  2 000...) que si la base de sondage est beaucoup plus large (N  =  2 000 000...).

34

Quel que soit le mode d'estimation, il pose la question de ce qu'on a nommé la signification statistique, question particulièrement importante lorsqu'il s'agit de comparer des proportions issues d'un échantillon (ou de plusieurs). Les écarts entre proportions peuvent en effet être « statistiquement non significatifs » compte tenu du seuil et de l'intervalle de confiance qui leur correspondent.

35

Si, suite à un sondage préélectoral, le candidat A recueille 45  % des intentions de vote et le candidat B 55  %, peut-on sans risque donner ce dernier pour le futur vainqueur ? Au seuil de confiance 0,05, pour l'un et l'autre candidat l'intervalle de confiance est égal à 8  5 : on peut donc dire avec 95  chances sur 100 de ne pas se tromper que le candidat A recueillera entre 40  % et 50  % des votes et le candidat B entre 50  % et 60  %. La victoire n'est pas assurée, un ballottage est possible.

Les sondages raisonnés

36

Sous ce nom, nous regroupons des procédures de sondage visant à assurer la représentativité de l'échantillon en conformant sa structure aux caractéristiques de la population. La représentativité est directement fonction du nombre, de la fiabilité (exactitude), de la précision et de la pertinence (ajustement aux objectifs de la recherche) des informations disponibles sur l'ensemble de la population de référence, que l'on nomme la population mère.

La méthode des quotas

37

C'est la méthode la plus utilisée par les grands organismes français d'études et de sondages (exception faite de l'INSEE). Elle suppose une information fiable, précise et riche sur la population mère. Dans un secteur géographique donné, on décide d'une structure d'échantillon qui soit, selon plusieurs critères, aussi proche que possible de celle de la population de référence (sexe, âge, profession, quartier de résidence...)

38

C'est ensuite l'enquêteur qui, chargé d'interroger un nombre déterminé de personnes dans le secteur désigné à l'avance, doit les choisir de telle sorte que son échantillon présente les caractéristiques structurelles définies au préalable : un nombre prédéfini d'hommes et de femmes, de représentants de chaque classe d'âge et de chaque groupe socioprofessionnel, etc.

Exemple d'une feuille de quotas (14 entretiens)

Les enquêtes de rue

39

Sous ce nom, on regroupe des enquêtes, souvent de commande et d'opinion, enquêtes de faisabilité ou de satisfaction, portant sur un public dont la composition est mal identifiée : les passants de la grand-rue sont-ils satisfaits de la sonorisation installée par la mairie ? Que pensent les usagers du service d'accueil de la préfecture ? Le sociologue, dépourvu de toute base de sondage, peut-il faire mieux qu'aller poser ses questions au milieu de la grand-rue ou du service d'accueil ? Et interroger, comme on dit, « au hasard », mais dans un sens qui n'a rien à voir avec les procédures strictes du sondage aléatoire et signifie au contraire sans procédure ni contrôle ? Contre ce hasard « au petit bonheur la chance », le sociologue raisonne et fait des hypothèses : que ce public n'a pas la même composition selon les heures, selon les jours, ni peut-être à un bout de la grand-rue et à un autre... Ces hypothèses débouchent sur un plan d'observation (paraissent-elles vérifiées ?), sur des entretiens avec des informateurs (les commerçants, le personnel du service d'accueil...) et ensuite sur un plan de sondage. C'est le questionnaire lui-même qui permettra, a posteriori, d'en préciser la validité à condition qu'y soient posées des questions relatives aux hypothèses : qui vient quand ? avec quelle fréquence ? seul ou accompagné ? avec quel objectif ?

40

À  ces conditions, ce qui n'était peut-être, au début, qu'une « étude » avec un échantillonnage mal défini finit par accéder au statut de recherche sociologique.

Les sondages boule de neige

41

Un sondage est dit en boule de neige lorsqu'on demande aux premières personnes interrogées d'en indiquer d'autres qui soient concernées par l'enquête : la même demande leur sera adressée et ainsi de suite. Le sondage en boule de neige a une visée exhaustive sur un territoire donné (il ne s'agit pas de constituer un échantillon) et procède le plus souvent par entretiens semi-directifs. Il suppose que le premier groupe de personnes interrogées ait été sélectionné à partir d'autres critères.

42

La méthode a été souvent utilisée dans les enquêtes sur les « élites ». Le groupe auprès duquel est d'abord passée l'enquête est alors composé de personnes sélectionnées en fonction de la position qu'elles occupent au sommet d'une ou plusieurs hiérarchies institutionnelles (élus politiques, évêques, présidents de chambre de commerce...). On demande à chaque membre de ce groupe d'indiquer quelles sont, dans le domaine qui est le sien, les personnes qui comptent, qui ont du pouvoir, de l'autorité. Sur la base de ces informations, on complète le groupe initial ; on cherche à s'entretenir avec ces nouveaux cités et, au cours de cette deuxième vague d'enquête, on peut leur poser à nouveau la question posée aux premières « élites » : qui compte, à leur avis, dans leur domaine ? On peut tenir l'enquête pour terminée lorsque tous les noms cités (ou presque) correspondent à des personnes déjà rencontrées.

43

La méthode est pertinente s'il s'agit d'étudier des formes de pouvoir et de réseaux (de solidarité, d'amitié, à base professionnelle, sexuelle, ethnique...) et, plus généralement, ce que Pierre Bourdieu [1980] nomme le capital social.

Plan de l'article

  1. Les sondages aléatoires
    1. Procédures de sondage aléatoire simple
    2. Sondages aléatoires en grappe (à un ou n degrés)
    3. Sondages aléatoires stratifiés
    4. Redressement d'échantillon
  2. Représentativité et erreur aléatoire
    1. Représentativité
    2. Seuil de confiance, intervalle de confiance
    3. La table de la loi normale réduite
    4. Estimer les seuils et les intervalles
    5. Représentativité et taux de sondage
  3. Les sondages raisonnés
    1. La méthode des quotas
    2. Les enquêtes de rue
    3. Les sondages boule de neige

Chapitre précédent Pages 45 - 54 Chapitre suivant
© 2010-2017 Cairn.info