Accueil Revues Revue Numéro Article

Humanisme et Entreprise

2010/5 (n° 300)


ALERTES EMAIL - REVUE Humanisme et Entreprise

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 5 - 16 Article suivant
1

Plusieurs recherches dans le domaine du management, des ressources humaines et du marketing développent une large variété de comparaisons entre divers pays ou entre diverses cultures à l’intérieur d’un même pays. Trop souvent les chercheurs sélectionnent un instrument de mesure qui a été développé dans un autre pays, comme les Etats-Unis par exemple, et se contentent de le traduire pour l’appliquer dans un autre pays. Comment s’y prendre pour adapter un instrument de mesure développé dans un pays donné, à l’intérieur d’une culture donnée afin de le transposer à un autre pays ou à une autre culture ? Comment s’assurer qu’il sera compris de la même manière, que les échelles de mesure seront utilisées de manière identique par les répondants et que les qualités initiales de fiabilité et de validité seront maintenues dans une autre culture ?

Comparabilité et équivalence des mesures

2

Il est nécessaire d’examiner l’équivalence de l’échelle transposée avec l’échelle initiale, faute de quoi on s’expose au risque de croire que les différences observées sont factuelles alors qu’elles ne sont que le reflet de l’absence d’équivalence des deux versions de l’échelle. Bauer (1989) propose une distinction entre comparabilité des mesures et équivalence, des mesures, reproduite dans la figure 1.

Figure 1 - Equivalence et comparabilité des mesures en recherches culturelles d’après Bauer 1989Figure 1
3

La première question à se poser concerne la définition des concepts et du thème de recherche. Les construits manipulés fonctionnent-ils de manière identique dans les deux cultures ? En suivant les travaux de Bauer (1989) et de Malohtra (1996), on distingue, dans la phase de définition du problème de recherche, trois aspects de l’équivalence du construit : l’équivalence fonctionnelle ; l’équivalence conceptuelle et l’équivalence catégorielle.

4

On parle d’équivalence fonctionnelle quand on est certain de mesurer le même comportement dans les sociétés différentes. Par exemple Peng et al. (1991) admettent qu’il existe une équivalence fonctionnelle quand des activités similaires ont le même but dans des pays et cultures différentes (Peng et al 1991). Plus spécifiquement, si la même activité se trouve reliée à la solution du même problème, alors cette activité est fonctionnellement équivalente d’un pays ou d’une culture à une autre (Kline 1983).

5

L’équivalence conceptuelle concerne les interprétations portées par les individus sur les objets, les stimuli ou les comportements. On doit considérer que ce qui apparaît comme ayant un sens évident pour une personne donnée d’un pays donné peut dépendre entièrement des normes culturelles. L’équivalence conceptuelle concerne ainsi la question de savoir si les objets, les stimuli ou les comportements existent de la même manière ou bien s’ils sont exprimés de la même manière dans les cultures ou pays différents. Selon Berry (1979) l’équivalence conceptuelle évalue le degré de concordance entre le sens donné au processus et le sens donné au comportement. On peut évaluer l’équivalence conceptuelle en examinant la validité du construit dans les différentes cultures selon les procédures classiques telles que décrites par Babin (1994); Grunert et al. (1993) ou Churchill (1979).

6

Enfin, l’équivalence catégorielle examine les regroupements entre idées et comportements (Mintu et al 1994). Par exemple, les antécédents du comportement d’achat sont-ils classés dans les mêmes catégories d’un pays à un autre.

7

Les méthodes de collecte des données sont-elles comparables ? Les unités de recherche sont-elles identiques et sélectionnées selon le même processus ? La manière dont les répondants réagissent au questionnement conduit-elle à des distorsions similaires ou bien divergent-elle d’une culture à l’autre ? Les échantillons jouissent-il d’un même degré de représentativité d’un pays à l’autre ? La qualité du processus de collecte et de contrôle des données est-elle comparable ? Tous ces aspects nécessitent des contrôles qui relèvent de jugements qualitatifs.

8

En ce qui concerne l’équivalence au niveau de l’échantillon, on distingue (a) l’équivalence de la structure de l’échantillon (par exemple en termes de critères sociodémographiques) et (b) l’équivalence de la taille ou de la représentativité de l’échantillon (par exemple la taille optimale des échantillons afin de satisfaire les critères statistiques). Pour l’équivalence de l’instrument de mesure, on retient l’équivalence de traduction (Brislin, Lonner et Thorndike, 1973, Broderick, 1999 ; Douglas et Craig 1983). Celle-ci peut être subdivisé en (a) équivalence lexicale, (b) équivalence idiomatique et (c) équivalence grammaticale et syntactique. Enfin, l’équivalence au niveau de la procédure de mesure se subdivise en (a) équivalence de la coopération des répondants, (b) équivalence contextuelle, (c) équivalence du style des réponses.

9

Voici quelques exemples en matière de traduction puis de réponses socialement désirables et enfin de styles de réponse culturels qui montrent la nécessité et la difficulté de ces contrôles.

10

La traduction des échelles ne résout pas tous les problèmes. Par exemple Davis, Douglas et Silk (1981) soulignent que l’interprétation d’une échelle de mesure ainsi que les indicateurs de qualité comme la fiabilité sont fortement influencés par les facteurs liés à la culture. En linguistique, de Vecchi (2002, p. 38) souligne que souvent les expressions utilisées sont en réalité des concepts dans un « habillage donné qui change selon la langue ». Une traduction correcte ne peut pas être obtenue de manière directe ou statique, car le résultat risque de véhiculer des sens différents. Ce fait explique d’ailleurs toutes les difficultés de fonctionnement des logiciels de traduction. Une traduction correcte du sens d’une expression doit passer par un niveau plus élevé qui est celui du concept.

Figure 2 - La transposition du concept (adapté d’après de Vecchi, 2002)Figure 2
11

La « traduction directe » des énoncés d’une échelle, d’une langue à l’autre n’est pas suffisante pour conduire une recherche à l’international. La rétro traduction vers la langue d’origine constitue un progrès, mais elle peut réserver des surprises. L’exemple d’Usunier (1999) est éloquent : le mot « hair » se traduit en français par cheveux. Cependant, les cheveux désignent seulement ce qui pousse sur le dessus de la tête et excluent les poils de la barbe et du corps. Les personnes dont le français est la langue maternelle emploient le mot poil avec une connotation masculine, tandis que le mot cheveux est plutôt neutre. Un autre exemple est celui du mot allemand « zufrieden » qui se traduit en français par « satisfait » mais également par « content ». La rétro-traduction de « satisfait » en allemand donne « zufrieden » et suggère ainsi l’équivalence conceptuelle des expressions. Cependant, la rétro-traduction de « content » peut également avoir comme résultat « sich freuen » (se réjouir). Ainsi, le mot « content » est lexicalement équivalent à « zufrieden », mais avec la signification additionnelle de se réjouir. Par conséquent, la traduction et la rétro traduction des énoncés doivent être menées avec beaucoup de soin et pas uniquement lexicalement si l’on veut éviter d’introduire des biais culturels.

12

Il est bien connu que les répondants ne répondent pas toujours en toute vérité mais choisissent la réponse qui les mettra le mieux en valeur. Certaines réponses sont plus socialement désirables que d’autres, mais ce qui est socialement désirable varie d’une culture à une autre. Depuis les travaux de Paulhus (2002), on admet l’existence de deux facettes de cette tendance. Une facette appelée « Egoistic Response Tendency » (ERT) par laquelle certains répondants cherchent à faire valoir leur autonomie, leur influence sur les autres, leur statut, leur indépendance (je suis un super héro) et une facette appelée « Moralistic Response Tendency » (MRT) par laquelle d’autres répondants mettent l’accent sur leur affiliation, leur appartenance, leurs connexions, leur amour du prochain (je suis un saint). Les travaux récents de Steenkamp, De Jong et Baumgartner (2010) portant sur 12424 répondants répartis dans 26 pays et 4 continents montrent que le Royaume-Uni et l’Irlande se situent au niveau le plus bas sur ces deux facettes de la désirabilité sociale tandis que les Chinois sont les champions du MRT et les Hongrois les champions de l’ERT. Les Etats-Unis se situent légèrement au-dessus de la France pour les deux facettes, tandis que l’Allemagne et la Suisse sont proches du Royaume-Uni. L’Espagne et l’Italie ont des scores ERT élevés. La Russie, la Thaïlande, l’Argentine et la Pologne ont des scores MRT élevés. Les travaux de Crowne et Marlowe 1964) montrent qu’il existe une forte association entre MRT et l’échelle individualisme / collectivisme de Hofstede. MRT est plus élevé pour les pays de culture plus collective que pour les pays de culture plus individualiste.

13

Les biais de désirabilité sociale ne sont pas les seuls éléments influencés par la culture. Il convient aussi de prendre en compte les styles de réponse, c’est-à-dire les tendances à répondre indépendamment du contenu de la question posée. Le tableau 1 adapté de Baumgartner et Steenkamp (2001) décrit six styles de réponse.

Tableau 1 - Six styles de réponseTableau 1
14

Les auteurs montrent que parmi 11 pays européens et pour 14 échelles de mesure, les styles de réponse affectent diversement les échelles et les pays. Les deux pays présentant la plus forte contamination des réponses sont la Grèce et le Portugal.

15

En dehors des réponses socialement désirables et des styles de réponse, les répondants peuvent choisir une catégorie de réponse spécifique car elle présente une importance particulière dans leur culture. Par exemple, le chiffre « 3 » est associé à la chance pour les Chinois, alors que le chiffre « 4 » porte malheur. Ces préférences numériques peuvent biaiser les comparaisons interculturelles.

16

Ces quelques exemples montrent qu’il est inutile d’aborder l’équivalence des mesures si l’un des contrôles de comparabilité développés ci-dessus se révèle négatif. En d’autres termes la comparabilité des mesures est la condition « sine qua non » de leur possible équivalence.

17

La deuxième question concerne l’équivalence des mesures. Plusieurs méthodes quantitatives permettent de l’aborder. La première famille de méthode repose sur l’analyse factorielle confirmatoire multigroupes développée par Horn et McArdle, 1992, Jöreskog, 1971 et Sörbom, 1974. Elle a été appliquée en marketing dans les travaux pionniers de Mullen, 1995, Singh 1995, Steenkamp et Baumgartner, 1998 et en ressources humaines par James et Brett, 1994. La seconde famille de méthodes utilise l’analyse des courbes de réponse aux items (Item Response Theory) développée par Rasch (1960), Lord et Novick (1968) et Samejina (1969). La troisième famille de méthode est plus ancienne. Elle remonte à Thurstone 1928 et Thurstone et Chave (1929). Elle repose sur la calibration culturelle préalables des échelles avant leur utilisation et nécessite de recourir à deux échantillons, l’échantillon de calibration et l’échantillon de mesure.

Analyse factorielle confirmatoire multigroupes

18

Cette approche s’applique lorsque la relation entre les énoncés et les concepts latents est construite grâce à une analyse factorielle confirmatoire (CFA), fondée sur une théorie et une sélection d’énoncés effectués dans la culture de départ. La première question qui se pose est la stabilité du modèle de mesure d’une culture à une autre. Pour démontrer cette stabilité, on effectue une série de tests sur des modèles CFA hiérarchiquement emboités, dont on compare la qualité d’ajustement (Delta X2) par rapport à un modèle non contraint.

19

Le premier critère, connu sous le nom d’invariance de configuration (Horn et McArdle 1992), requiert que les mêmes énoncés soient en relation avec les mêmes concepts quels que soient la culture ou le pays. C’est un critère structurel. Il permet que les corrélations entre les énoncés et le concept qu’ils reflètent diffèrent légèrement à condition que l’on ne puisse pas détecter de différences significatives dans la qualité d’ajustement d’un pays à un autre. Par contre, l’invariance de configuration ne permet pas qu’un énoncé attaché au concept A dans la culture de départ se trouve attaché à un concept B dans la culture de transposition. Si la contrainte d’invariance de configuration ne réduit pas de manière significative la qualité du fit par rapport au modèle non contraint, l’invariance de configuration est démontrée, on peut alors passer au test de l’invariance métrique. Par contre, si l’invariance de configuration n’est pas vérifiée, les comparaisons interculturelles sont impossibles puisque les concepts différent substantiellement d’une culture à l’autre

20

L’invariance métrique est un critère d’équivalence plus strict. Il requiert que les corrélations entre les énoncés et les concepts qu’ils reflètent soient identiques d’une culture à une autre. Si l’invariance métrique est démontrée par le test Delta X2 par rapport au modèle d’invariance de configuration alors les échelles de mesure des concepts latents sont identiques d’une culture à l’autre. On lui adjoint souvent le test de l’équivalence des variances des concepts et de test de l’équivalence des corrélations entre les concepts (Jackson et Al.1993).

21

Le critère suivant concerne l’invariance scalaire. Il nécessite que l’ordonnée à l’origine de la relation linéaire entre les énoncés et les concepts qu’ils reflètent soit identique d’une culture à l’autre. En d’autres termes, il s’agit de prouver que les énoncés ont la même « difficulté » d’une culture à l’autre. En pratique, ce dernier critère, extrêmement strict, n’est presque jamais atteint. On se contente alors d’une invariance scalaire partielle (Steenkamp et Baumgartner, 1998 ; Byrne et Al.1989), établissant quels sont les énoncés qui vérifient cette propriété et quels sont les énoncés qui ne la vérifient pas. En conséquence, seule les moyennes des concepts latents pourront être comparées d’une culture à une autre et non pas les notes brutes sur les énoncés.

22

En plus du test de la différence de Chi Deux entre modèles hiérarchiques emboités, on utilise les indices classiques de qualité d’ajustement tels que CFI, TLI et RMSEA. Le type d’invariance requis dépend de l’objectif de l’étude. L’invariance de configuration peut suffire s’il s’agit d’explorer la structure des construits d’une culture à une autre. Par contre, l’invariance métrique est requise pour comparer des modèles structurels (Byrne et al. 1989 ; Steenkamp et Baumgartner 1998). Si l’on désire comparer les moyennes des concepts d’un pays à l’autre, alors l’invariance scalaire est nécessaire.

23

L’analyse factorielle confirmatoire présente plusieurs limites. Le chercheur qui souhaite aboutir à l’invariance scalaire devra examiner un grand nombre de modifications de son modèle de mesure et s’exposera donc à la capitalisation sur la chance (MacCallum, Roznowski et Necowitz, 1992). De plus, les échelles les plus fréquemment utilisées sont des échelles de Likert avec 5 à 7 degrés d’accord. En toute rigueur, ces échelles présentent un niveau de mesure ordinal. Il convient donc de les utiliser non pas avec les estimations classiques par maximum de vraisemblance mais avec des techniques d’estimations appropriées, fondées sur les corrélations polychoriques et non sur les corrélations de Spearman, ce qui complique les comparaisons multigroupes, comme le précisent Lubke et Muthén (2004).

24

Pour toutes ces raisons, les travaux les plus récents, tels ceux de De Jong, Steenkamp et Fox, (2010) mettent en avant la méthode des courbes de réponse aux items (IRT).

Analyse des courbes de réponse aux items

25

Selon cette approche, la réponse à un énoncé dépend de deux facteurs. D’une part la position « b » du répondant sur le continuum du concept mesuré et d’autre part la difficulté « d » de l’item. Par exemple, pour une échelle mesurant l’attitude vis-à-vis de la peine de mort, l’approbation de l’énoncé dépendra de l’attitude plus ou moins opposée à la peine de mort et en même temps de la formulation particulière de l’énoncé, le rendant plus ou moins facile à approuver (ou à désapprouver). Voici, par exemple, deux énoncés utilisés par Thurstone (1932), le premier est beaucoup plus difficile à approuver que le second :

  1. Tout criminel doit être exécuté

  2. Je ne crois pas à la peine de mort quelles que soient les circonstances

A l’origine la méthode a été mise au point par Rasch (1960) pour des énoncés dichotomiques que le répondant peut seulement approuver ou désapprouver. Elle a été étendue aux échelles comportant plusieurs modalités ordonnées de réponse, comme les échelles de Likert, par Samejina (1969). A la différence de la méthode CFA qui postule une relation linéaire entre les énoncés et le concept latent à mesurer, la méthode IRT postule une relation non linéaire, le plus souvent en recourant à une fonction logistique ou bien à la loi normale cumulative.

26

À partir du modèle original, il est facile d’ajouter à la position du répondant et à la difficulté de l’énoncé un facteur culturel qui rende compte des différences dans la réponse aux énoncés. Pour cela, on choisit un pays de référence, le pays dans lequel l’échelle a été développée initialement et on fixe sa moyenne à zéro et sa variance à l’unité comme le propose Reise (1993). On peut ensuite laisser la moyenne varier d’un pays à un autre et estimer la variance pour les autres pays. D’autres auteurs (De Jong, Steenkamp et Fox, 2010) utilisent une approche bayesienne hiérarchique. Il s’agit d’une des rares études permettant de comparer l’analyse factorielle confirmatoire multigroupes avec l’analyse des courbes de réponse. La supériorité de cette dernière méthode est démontrée pour l’échelle de sensibilité aux influences normatives. Les auteurs montrent que, pour les pays d’orientation individualistes tels que les Etats-Unis ou les Pays-Bas, le score sur l’échelle SNI mesuré par la méthode des courbes de réponse est plus bas que pour les pays d’orientation collective comme la Chine ou Taiwan. Par contre, les scores mesurés par la méthode CFA ne font pas apparaitre cet effet attendu.

27

Bien que la méthode des courbes de réponse ait démontré sa supériorité par sa capacité à tenir compte du caractère intrinsèquement ordinal des échelles de mesures, elle souffre d’une limite liée à son incapacité à établir l’unidimensionnalité d’une échelle. Il existe une troisième alternative. Prenant acte de l’existence des différences culturelles qui influencent tous les aspects de la comparabilité et de l’équivalence des mesures, ne convient-il pas de retourner aux méthodes de calibration proposées par Thurstone ?

Calibration culturelle préalable des échelles

28

Thurstone (1927) présente un modèle théorique général « Law of comparative judgment » qui permet l’élaboration d’échelles de mesure à partir de comparaisons empiriques des items selon trois variantes, la méthode des intervalles apparemment égaux, la méthode des intervalles successifs et la méthode de comparaisons par paires (Thurstone, 1954). La démarche commune à ces trois variantes comprend quatre étapes :

  1. Sélection d’un grand nombre d’items couvrant tout le continuum d’attitudes à mesurer.

  2. Evaluation de la position des items sur le continuum par un échantillon de répondants (échantillon de calibration).

  3. Calibration (valeur moyenne ou médiane de l’item) et sélection des items dont les évaluations ont la plus faible variance.

  4. Mesure de l’attitude à partir des items calibrés

À la suite de Myers et Warner (1968) Angelmar et Pras (1978), nous avons proposé que ces quatre étapes soit menées à l’intérieur de chacune des cultures à comparer. La figure 3 illustre trois exemples de calibration d’échelles verbales de la qualité d’une marque, menées dans trois pays, les États-Unis (Myers & Warner, 1968), la France (Angelmar & Pras, 1978) et le Japon (Bartikowski, Kamei and Chandon, 2010).

29

Cette démarche implique qu’un même adjectif obtiendra des calibrations différentes d’un pays à un autre. Par contre, elle n’impose pas la même liste d’adjectif dans chaque culture.

Figure 3 - Echelles verbales calibrées pour mesurer la qualité des produitsFigure 3
30

Dans ce qui suit, nous décrivons brièvement les étapes de développement d’une échelle de Thurstone à intervalles apparemment égaux.

Identification des items dans la culture locale

31

Par exemple, pour mesurer la qualité d’un produit, on peut utiliser des descripteurs verbaux tels que «excellent», «très bon», «bon», etc. Ces items peuvent provenir d’une analyse de la littérature ou d’une analyse qualitative du lexique utilisés par les répondants dans des entretiens semi-directifs, menés séparément dans chacune des cultures.

Calibration de l’échelle dans la culture locale

32

L’objectif du processus de calibration est de sélectionner, parmi les items préalablement identifiés, un sous-ensemble approprié qui s’adapte le mieux au concept qu’on veut mesurer. La calibration permet d’assurer le respect du niveau de mesure d’intervalle, ce qui autorise l’examen des différences entre groupes de répondants ou d’autres analyses statistiques qui requierent des données métriques telles que la régression ou l’analyse des chemins de causalité. Pour appliquer la méthode des intervalles apparemment égaux, on demande à un échantillon de répondants de la culture locale de trier les items candidats dans des catégories hiérarchisées équidistantes (on utilise de 7 à 11 catégories C.f. figure 3). Suivant Thurstone, les items doivent être choisis de manière à couvrir uniformément tout le continuum. Les scores moyen ou médian obtenues par l’échantillon de calibration fournissent des représentations numériques de la position de chaque item sur ce continuum attitudinal. Les écarts types des évaluations indiquent le degré d’ambiguïté de l’item. Au final on ne conserve que les items approximativement équidistants, tout en ayant le plus faible degré d’ambigüité.

Validité de contenu et fiabilité de l’échelle

33

La validité de contenu au niveau de la culture locale est garantie par la démarche suivie qui ne nécessite aucune traduction. La fiabilité des échelles Thurstone peut être testée en utilisant des stratégies de test-retest, ou des techniques de split-half ou biens par comparaison des sous-échantillons. La fiabilité d’une mesure est une condition nécessaire, mais pas une condition suffisante pour conclure qu’une mesure est également valide. Une mesure est valide (validité du construit) lorsque sa mise en œuvre reflète fidèlement le concept que le chercheur tente de mesurer. Selon Cronbach et Meehl (1955), la validité nomologique s’étudie en examinant l’ensemble des relations entre le concept mesuré et les autres concepts auxquels il est théoriquement relié.

Conclusion

34

Après cet examen des risques liés à la transposition culturelle d’un questionnaire et des trois méthodes permettant d’éclairer l’équivalence des mesures, que pouvons nous conseiller aux chercheurs qui souhaitent se lancer dans l’aventure des comparaisons interculturelles ? Si la méthode classique des analyses factorielles multigroupes à l’avantage d’être bien connue et de bénéficier d’une vingtaine d’années d’expérience, elle n’offre pas la même souplesse que l’analyse des courbes de réponse qui présente l’avantage de travailler au niveau des items. Cependant cette méthode suppose l’unidimensionnalité mais ne permet pas de la démontrer comme le permettent les analyses factorielles confirmatoires multigroupes. Seul recours à la calibration culturelle préalable permet de s’affranchir des problèmes de traduction mais au prix d’un travail préliminaire non négligeable auprès d’échantillons de calibration dans chacun des pays étudiés.


Références

  • Angelmar, R. et Pras, B. (1978): Verbal rating scales for multinational research. European Research, 6: 62-66.
  • Babin, L. (1994) Guidelines for State-of-the-Art Scale Development, Proceedings of the Southern Marketing Association Annual Conference: New Orleans, pp.198-201
  • Bartikowski, B., K. Kamei, et Chandon J.L. (2010): «A verbal rating scale to measure Japanese consumers’ perceptions of product quality.» Asia Pacific Journal of Marketing and Logistics 22(2): 179-195.
  • Bauer, Erich (1989), «Übersetzungsprobleme und Übersetzungsmethoden bei einer multinationalen Marketingforschung,» GfK Jahrbuch der Absatz- und Verbrauchsforschung, 2, 174-205.
  • Baumgartner H., Steenkamp, J.B. (2001), Response Styles in Marketing Research: A Cross-National Investigation.. Journal of Marketing Research (JMR), May2001, Vol. 38 Issue 2, p143-156
  • Berry, J.W. (1979), Unobtrusive Measures in Cross-Cultural Research, in L. Sechrest (ed.). Unobtrusive Measurement Today: New Directions for Methodology of Behavioural Sciences. San Francisco: Jossey-Bass.
  • Brislin R.W., Lonner W. et Thorndike R.PM. (1973), Cross-cultural research methods, New York, John Wiley & Sons.
  • Byrne B., Shavelson R.J., Muthén B. (1989), Testing for the equivalence of Factor Covariance and Mean Strcutures: The Issue of Partial Measurement Invariance, Psychological Bulletin, 105, 456-466.
  • Churchill, G.A. (1979) A Paradigm for Developing Better Measures of Marketing Constructs, Journal of Marketing Research, XVI, February, pp.64-73.
  • Cronbach, L. et Meehl, P. (1955): Construct validity in psychological tests. Psychological Bulletin, 52: 281-302.
  • Davis H.L., Douglas S.P., Silk A.J., (1981), Measure Unreliability: A Hidden Threat to Cross-National Marketing Research ?, Journal of Marketing, Spring 1981, p. 98-109.
  • De Jong M.G., Steenkamp J.B., Veldkamp B.P. (2009), A Model for the Construction of Country-Specific Yet Internationally Comparable Short-Form Marketing Scales, Marketing Science, July 2009, Vol. 28 Issue: Number 4 p674-689
  • De Jong M.G., Steenkamp J.B,(2010) Finite Mixture Multilevel Multidimensional Ordinal IRT Models for Large Scale Cross-Cultural Research, Psychometrika, March 2010, Vol. 75 Issue: 1 p3-32
  • De Jong M.G., Steenkamp J.B., Veldkamp B.P., Fox JP, Baumgartner H. (2007), Using Item Response Theory to Measure Extreme Response Style in Marketing Research: A Global Investigation, Journal of Marketing Research, February 2008, Vol. 45 Issue: Number 1 p104-115
  • De Jong M.G., Steenkamp J.B., Veldkamp B.P., Fox JP (2007), Journal of Consumer Research, Aug2007, Vol. 34 Issue 2, p260-278
  • De Vecchi D. M. (2002), Vous avez dit jargon. Paris: Éditions Eyrolles.
  • Douglas S.P., Craig C.S. (1983), International Marketing Research, Englewood Cliffs, NJ, Prentice-Hall.
  • Dyer J.H., Chu W. (2000), The determinants of trust in supplier-automaker relationships in the U.S.,Japan and Korea, Journal of International Business Studies, 31, 2, 259-286
  • A practical and theoretical guide to measurement invariance in aging research, Experimental Aging Research, 18, 117-144
  • Jackson P., Wall T., Martin R. et Davids K. (1993), New measures of job control, cognitive demand and production responsibility, Journal of Applied Psychology, 78, 753-762
  • James L.R. et Brett J.M. (1984) Mediators, Moderators and tests for mediation, Journal of Applied Psychology, 69, 307-321
  • Kline P. (1983), The Cross-Cultural Use of Personality Tests, In Irvine, S.H. and J.W. Berry (eds.) Human Assessment and Cultural Factors: 337-352. New York: Plenum.
  • Lubke G.H., Muthén B. (2004), Applying Multigroup Confirmatory Factor Models for Continuous Outcomes to Likert Scale Data Complicates Meaningful Group Comparisons, Structural Equation Modeling, 11, 514-534.
  • Malhotra N.K., J. Agarwal and M. Peterson (1996), “Methodological Issues in Cross-Cultural Marketing Research - A State-of-the-Art view”, International Marketing Review, 13(5): 7-43.
  • Grunert K.G., Brunsø K., Bisp S. (1993), Food-related life style: Development of a crossculturally valid instrument for market surveillance, MAPP working paper no 12, October 1993
  • Myers, J. H. et Warner, W. G. (1968), Semantic properties of selected evaluation adjectives. Journal of Marketing Research, 5: 409-412.
  • Samejima F. (1969), Estimation of latent ability using a response pattern of graded scores, Psychometrika Monograph Supplement, 17, 1-100.
  • Steenkamp J.B., Baumgartner H. (2010), Assessing Measurement Invariance in Cross-National Consumer Research. Journal of Consumer Research, Jun98, Vol. 25 Issue 1, p78-90
  • Steenkamp JB, Hofstede F., Wedel M., Journal of Marketing, Vol. 63 Issue 2, p55-69
  • Paulhus D. (2002), Socially Desirable Responding: The Evolution of a Construct, in The Role of Constructs in Psychology and Educational Measurement, Braun H.I., Jackson D.N., Wiley D.E. eds. Mahwah, NJ, Laurence Erlbaum Associates, 46-69
  • Peng, T.K., M.F. Peterson and Y.P. Shyi (1991) : Quantitative Methods in Cross-National Management Research: Trends and Equivalence Issues, Journal of Organizational Behaviour 12, p : 87-107
  • Rasch G. (1960), Probabilistic Models for Some Intelligence and Attainment Tests, University of Chicago Press
  • Reise S.P., Widaman K.F., Pugh R.H. (1993), Confirmatory Factor Analysis and Item Response Theory: Two Approaches for Exploring Measurement Invariance, Psychological Bulletin, 114 (3), 552–66.
  • Thurstone, L. L. (1927): Three psychophysical laws. Psychological Review, 34: 424-432.
  • Thurstone L.L. (1928), Attitudes can be measured, The American Journal of Sociology, Vol 26, 249-269
  • Thurstone L.L. et Chave E.J. (1929), The measurement of attitudes, Chicago, University of Chicago Press
  • Thurstone, L. L. (1954): The measurement of values. Psychological Review, 61: 47-58.
  • Usunier J.-C. (1999), The use of language in investigating conceptual equivalence in cross-cultural research, in Seventh Cross-Cultural Consumer and Business Studies Research Conference, M. Scott (ed.), Cancun, Mexico.

Notes

[1]

Professeur des Universités en Marketing - Université Paul Cézanne, IAE d’Aix, Laboratoire CERGAM - jean-louis.chandon@iae-aix.com

[2]

Professeur Associé en Marketing - Euromed Management - boris.bartikowski@euromed-management.com

Résumé

Français

Cet article à vocation pédagogique passe en revue les difficultés liées à la transposition d’un questionnaire d’une culture à une autre. A l’aide de divers exemples, nous montrons dans une première partie que la traduction n’assure pas nécessairement l’équivalence conceptuelle et que la désirabilité sociale des réponses et les styles de réponse varient selon les cultures. Dans la seconde partie nous présentons brièvement trois techniques, l’analyse factorielle confirmatoire multigroupes, l’analyse des courbes de réponse des items et la calibration préalable qui permettent d’évaluer la stabilité des mesures. Nous précisons leurs avantages et inconvénients ainsi que leurs limites.

Mots-clés

  • comparaisons interculturelles
  • analyse factorielle confirmatoire multigroupe
  • analyse des classes latentes
  • questionnaires
  • développement d’échelles de mesure

English

Cross cultural research faces many difficulties in achieving questionnaire cross cultural measurement equivalence. Using various examples, we show first that translation does not necessarily ensure conceptual equivalence and second that measurement results may vary across cultures due to socially desirable responses and responses styles which are linked to cultures. Next we outline three techniques, multi group confirmatory factor analysis item response analysis and preliminary calibration that allow scale equivalence evaluation, pointing out their advantages, disadvantages and limits.

Keywords

  • cross cultural research
  • multi group confirmatory factor analysis
  • latent trait
  • questionnaire
  • scale development

Plan de l'article

  1. Comparabilité et équivalence des mesures
    1. Analyse factorielle confirmatoire multigroupes
    2. Analyse des courbes de réponse aux items
    3. Calibration culturelle préalable des échelles
      1. Identification des items dans la culture locale
      2. Calibration de l’échelle dans la culture locale
      3. Validité de contenu et fiabilité de l’échelle
  2. Conclusion

Pour citer cet article

Chandon Jean-Louis, Bartikowski Boris, « Les risques liés à la transposition culturelle d'un questionnaire », Humanisme et Entreprise 5/2010 (n° 300) , p. 5-16
URL : www.cairn.info/revue-humanisme-et-entreprise-2010-5-page-5.htm.
DOI : 10.3917/hume.300.0005.


Article précédent Pages 5 - 16 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback