Document numérique
Lavoisier

I.S.B.N.sans
240 pages

p. 255 à 284
doi: en cours

Veille sur la revue
Veille sur l'auteur
Vous consultez

Volume 6 2002/3-4

2002 Document numérique

Enjeux de la normalisation internationale de la numérisation des écritures et langue française, appropriation d’Unicode

Sylvie Baste Pilote du groupe « problématique de l’internationalisation » de l’Association des informaticiens de langue française
La langue française a toujours évolué dans des environnements plurilingues, en France et dans le monde. Être en contact avec d’autres langues n’est pas une situation linguistique exceptionnelle mais le français permet à un large ensemble de personnes de procéder à des échanges culturels, économiques et politiques internationaux. De ce fait le français est une langue de réseau. Le standard Unicode et la norme ISO/CEI 10646 sont le fruit d’un consensus sur le codage des caractères graphiques mais leur mise en application est coûteuse et complexe. En général, seul un sous-ensemble est implémenté sur un ordinateur selon les besoins des utilisateurs. Les écritures dont les usagers ont les moyens de développer la numérisation, sont les plus présentes dans les TIC. Il pourrait être profitable d’utiliser l’expérience de la langue française en matière d’échanges multilingues pour élaborer un sous-répertoire d’Unicode qui ne serait pas simplement lié à une situation géolinguistique ou économique mais à une communauté multiculturelle. L’étude du cas particulier des usages d’Unicode en France et dans la francophonie permet de saisir à quel point l’approche culturelle est essentielle à l’appropriation d’Unicode, donc au processus d’informatisation des écritures. Mots-clés : Unicode, ISO/CEI 10646, informatique multilingue, normalisation, langue française, SEM, sous-répertoir francophone, approche multiculturelle. The french language always evolved in multilingual environments, in France and in the world. To be in contact with other languages is not an exceptional linguistic situation but french allows a broad whole of people to carry out cultural, economic and political international exchanges. French is a language of network. The Unicode standard and ISO/IEC 10646 are the fruit of an assent on the coding of the graphic characters but their implementation is expensive and complex. In general, only a subset is implemented on a machine according to the needs of the users.The writings whose users have the means of developing digitalization, are most present in the information technologies. It could be advantageous to use the experiment of the french language in regard to multilingual exchanges to work out a sub-directory of Unicode which would not be simply related to a linguistic or economic situation but at a multi-cultural community. The study of the particular uses of Unicode in France and in the francophonie makes it possible to understand how the cultural approach is essential to master Unicode, so for the process of writings computerization.Keywords : Unicode, ISO/CEI 10646, multilingual data processing, standardization, french language, MES, french-speaking community sub-directory, multi-cultural approach.
 
1. Introduction
 
 
La norme ISO/CEI 10646 et son sous-ensemble Unicode proposent un jeu universel de caractères codés doté des particularités suivantes
  • sauf exception, on attribue un code et un seul à un caractère et différents caractères ne peuvent posséder le même code,
  • on code un caractère et non ses glyphes potentiels [1].
Par conséquent, le codage est assuré sans ambiguïté, ce qui représente un avantage dans la mesure où jusqu’alors aucun système n’a su dispenser la diversité des caractères d’une manière simple donc facilement gérable. Pour la première fois la quasi-totalité des écritures est prise en charge par un principe unique et rationnel applicable à un ensemble de méthodes en vigueur dans le traitement de l’information.
Une analyse des besoins en matière d’écritures fait apparaître que l’informatisation de celles-ci ne peut être réalisée par la simple mise à disposition de caractères. L’écriture existe et est utilisée sous différentes formes. Elle est encore manuscrite, imprimée ou dactylographiée tout en faisant l’objet de transcriptions numériques de plus en plus nombreuses.
À cette diversité de formes graphiques s’ajoute le problème de la diversité de langues écrites que tente de résoudre Unicode et ISO/CEI 10646. Le jeu universel de caractères prend en charge les trois grands groupes de systèmes d’écriture (systèmes idéographique, syllabique et alphabétique) pour différents groupes linguistiques. Rappelons brièvement qu’il faut faire la distinction entre langue et écriture. Évidemment les deux notions sont liées. Sans entrer dans une réflexion sur les liens entre le langage et l’écriture et sur une éventuelle prépondérance de l’un sur l’autre on peut admettre que la structure de la langue induit l’usage d’un système d’écriture que l’environnement culturel où les possibilités d’échange jouent un rôle important, finit d’entériner. Pour éviter des confusions nous parlerons de langue écrite dans cet article qui ne se limite pas au sujet des systèmes d’écriture.
La diversité des langues écrites implique des difficultés en informatique qui ne sont que partiellement résolues par Unicode et ISO/CEI 10646. Ces codes de caractères sont certes la pierre angulaire de l’informatisation des écritures mais il faut pour dispenser le texte et le traiter, respecter des règles d’écriture (sens, disposition des caractères, césure des mots…) qui ne sont pas à ce jour répertoriées d’une manière universelle.
Les écritures sont aussi l’objet de translittération [2] et de transcription [3] qui sont, en partie, aujourd’hui des pratiques uniformisées par des normes. Mais dans la réalité cette uniformisation n’est pas encore en usage. L’hétérogénéité, sur ce point, des notices bibliographiques d’une bibliothèque à l’autre est une réalité [4].
L’élaboration de systèmes d’information locaux et internationaux est en plein essor dans le secteur public autant que privé. En France, même si elle a pris un certain retard à ses débuts, la rapidité de cette évolution n’en est pas moins grande. Le travail de conception en amont tient-il compte de la complexité des problèmes posés par l’informatisation des écritures, problèmes qui ne sont pas seulement informatiques mais enjeux socioculturels, économiques et politiques ?
Dans cet article nous tenterons de mettre en évidence de tels enjeux afin de comprendre comment ils sont appréhendés et d’évaluer si la prise de conscience est suffisante pour une véritable appropriation des écritures numérisées. Le sujet est trop vaste pour l’aborder ici dans son entier. Nous proposons donc de le développer à travers un thème particulier concernant la numérisation des langues écrites : les usages d’Unicode en France et dans la francophonie. Au préalable nous décrirons succinctement quelques aspects de la logique d’organisation des codes de caractères d’écriture supervisée par la normalisation et la standardisation. Puis nous placerons la langue française dans ce contexte. En somme, après avoir fait le lien entre Unicode et les langues écrites en général, nous poserons la question de ses liens avec la langue française.
 
2. Logique(s) de présentation des jeux de caractères graphiques dans Unicode et ISO/CEI 10646
 
 
L’informatique est basée sur un processus de codage qui fait la correspondance entre des impulsions électroniques et deux entités abstraites symbolisées par les chiffres 0 et 1. Le code numérique ainsi établi est organisé de telle manière que les séquences de 0 et 1 représentent des données traitées et restituées par l’ordinateur sous forme d’action ou d’informations accessibles à l’usager. Les premières données correspondaient à des calculs. Lorsque l’information textuelle est apparue, elle n’était disponible qu’en anglais c’est-à-dire en alphabet latin non accentué. Cet alphabet informatisé a été l’objet d’un standard, l’ASCII [5] qui est aussi devenu une norme internationale, ISO 646.
Le domaine du codage des caractères graphiques a vu naître une multiplicité de normes nationales et de standards privés qui ont eu et ont encore une certaine efficacité dans un environnement donné. La volonté des industriels de capter des marchés ainsi que de nombreuses revendications pour que soient présentes les langues écrites nationales dans les codes informatiques sont à l’origine du foisonnement de jeux de caractères spécifiques. En parallèle, les outils et les pratiques informatiques ont rapidement évolué vers l’échange d’informations notamment sur réseaux. Or la restitution de l’écrit subordonne une grande part de leur utilisation. La mondialisation des échanges a entraîné une légitimation de l’informatique multilingue.
Devant l’insuffisance du code ASCII, face aux besoins culturels de disposer de systèmes d’écriture autres que l’alphabet latin non accentué, après quelques tâtonnements et une succession d’anecdotes, un consensus autour d’un jeu universel de caractères s’est imposé comme solution aux problèmes d’interopérabilité et de portabilité entre systèmes. Un caractère dans cette table est représenté par un nom et un numéro hexadécimal (U+ 05DE, par exemple) correspondant tous deux à une séquence de bits. Or pour rendre la multitude de caractères proposés disponible, cela ne suffit pas. Nous proposons d’analyser ici comment cette dernière est proposée.
La naissance des TIC (technologies de l’information et de la communication) a conduit des industriels à abandonner leurs tentatives d’imposer leur codage des caractères au profit du développement de nouveaux outils prometteurs. En outre, dans l’attente d’améliorations favorables des techniques informatiques, celles concernant notamment les capacités de mémoire de stockage des machines et la vitesse de lecture des processeurs, Unicode [UNI 00] et ISO/CEI 10646 [ISO 93] sont nés. Les caractères y sont codés sur plusieurs octets. Jusqu’alors la codification des caractères se faisait sur un octet la plupart du temps ce qui limitait le nombre de caractères disponibles ou obligeait à utiliser des méthodes complexes pour passer d’un jeu de caractères à un autre. Dans les deux cas (norme et standard), le codage est basé sur un système logique comportant des codes de commande. De plus, la convertibilité est un principe de base permettant la compatibilité avec des jeux de caractères existants. Sont associés des formats de sérialisation (UTF-8, UTF-7, UTF-16), sortes d’extensions d’Unicode et ISO/CEI 10646. Pour la première fois toutes les écritures sont prises en charge par un même système de codage numérique clairement défini rendant tous les caractères accessibles électroniquement de la même manière. De ce fait, on parle de jeu universel de caractères ou JUC [6].
En effet, les enjeux liés au traitement du texte sont à tel point cruciaux que la normalisation dans ce domaine n’a pas simplement organisé une production de qualité et encouragé les innovations en fonction de l’offre et de la demande. Des demandes précises de l’ISO et du consortium industriel informatique Unicode ont insufflé pour une grande part les logiques fonctionnelles de la normalisation et standardisation du codage des caractères. Ces dernières n’ont pas joué uniquement un rôle de veilleur et de régulateur mais un rôle d’instigateur vis-à-vis de ce qui n’est qu’un aspect mais est la base de l’informatisation des langues écrites. On peut s’étonner de les voir remplir cet office mais concernant l’écriture le fait est courant. L’histoire de l’écriture du français est jalonnée par ce type d’événements. On peut citer pour exemple la progressive harmonisation de l’orthographe à partir de la Renaissance jusqu’au xixe siècle. Les liens entre normalisation et écriture sont étroits.
Aujourd’hui, il existe une différence notable entre ISO/CEI 10646 et Unicode qui contiennent pourtant exactement les mêmes positions de code. Le consortium développe un travail plus dynamique autour de la publication du standard visant à implémenter Unicode dans toutes sortes de systèmes d’information et à résoudre les problèmes d’écriture en plus de la simple disponibilité des caractères. On peut remarquer par exemple que la première version d’Unicode met en évidence des groupements linguistiques (définis par les systèmes d’écriture qu’ils utilisent) à travers des « allocations Unicode » (voir la figure 1) alors que la norme ne le fait pas [7].
Figure 1
Attributions Unicode (d’après [UNI 00])
IMGIMGAttributions Unicode (d’après [UNI 00])IMGIMF
Unicode 3.0 présente les différentes écritures dans différents chapitres : les écritures alphabétiques européennes, les écritures du Moyen-Orient, de l’Asie du Sud de l’Afrique, les écritures dites supplémentaires. Cette classification qui n’est pas le codage en lui-même mais une représentation de celui-ci est principalement géolinguistique. Un caractère est codé, en principe, indépendamment de la notion de langue mais on se rapporte à la langue pour le « ranger ». Cette tendance n’est pas une simple technique d’ordonnancement. On peut le constater dans ce que l’on peut définir comme étant deux sous-répertoires d’Unicode et du JUC : le CJC et le SEM [8].
Le CJC correspond à un ensemble d’entrées de codes attribués aux idéogrammes unifiés chinois, japonais, coréen. Le CJC est la solution adoptée pour coder un fonds partagé de caractères han. Aujourd’hui on parle de CJCV car ces idéogrammes sont également présents dans le patrimoine scriptural vietnamien. L’emploi d’une même écriture fait ici l’objet d’une reconnaissance qui peut être perçue comme facteur favorable d’échanges et d’intercompréhension entre des pays où on ne parle pas la même langue. Un tel avantage est d’autant plus conséquent que le sous-répertoire unifié est clairement nommé, défini et normalisé. On peut penser qu’il aura des impacts culturels, économiques et politiques dans la région où il va le plus circuler mais aussi dans le monde entier.
Le SEM (sous-ensemble européen minimal) est un sous-répertoire moins connu et reconnu. Tout d’abord, il n’est pas défini dans Unicode ni dans le JUC. Il fait l’objet d’une norme expérimentale [CEN 96] publiée par le Comité européen de normalisation (CEN) et l’Association française de normalisation (AFNOR). Le SEM répond à un manque de spécification cohérente des écritures de l’Europe : alphabets latin, grec, cyrillique, arménien et géorgien. Il fonctionne comme un guide d’implémentation local et doit satisfaire des exigences administratives commerciales, orthographiques (concernant en premier lieu les noms de personnes) des informations traitées dans les équipements informatiques européens.
La diversité linguistique des langues parlées européennes n’est pas du même ordre de grandeur que la diversité des systèmes d’écriture associés à ces langues. Si on se limite aux langues officielles des pays de la communauté européenne et aux pays candidats, seuls l’alphabet grec et l’alphabet latin accentué sont employés. La codification des caractères des langues écrites européennes ne paraît pas insoluble [9] d’autant plus qu’il s’agit d’alphabets donc d’un nombre relativement restreint de signes. Au total le SEM répertorie 926 caractères dans ses jeux partiels européens. Ce répertoire peut être implémenté selon divers niveaux correspondant à des besoins plus ou moins larges en matière d’échange multilingue européen et des possibilités des utilisateurs à rendre leurs postes compatibles :
  • le SEM 1 pour les langues écrites officielles de l’Union européenne, plusieurs langues minoritaires, correspond à l’alphabet latin étendu dans Unicode et ISO/CEI 10646 (333 caractères) ;
  • le SEM 2 pour les autres langues écrites minoritaires sauf le géorgien et l’arménien la bureautique, le traitement de texte correspond aux lettres latines de base, grecques et cyrilliques, signes de ponctuation et symboles ;
  • le SEM 3 pour la translittération, la transcription, l’édition, la recherche en milieu universitaire, l’industrie, le gouvernement, propose les codes de toutes les écritures européennes et l’API.
Le SEM ne jouit pas de la même reconnaissance internationale que le CJC, sans doute parce qu’il n’a pas été très employé. Et rappelons qu’au contraire du CJC, il n’est pas défini dans Unicode ni dans la norme ISO/CEI 10646. Il leur est associé par une norme supplémentaire qui pour l’instant garde un statut expérimental qui n’en a pas moins une valeur normative. Cela signifie que les travaux de normalisation à ce sujet sont en cours ou en dormance.
La notion de sous-ensemble est définie depuis longtemps dans la norme ISO/CEI 10646 et dans le standard Unicode puisque la convertibilité, c’est-à-dire la compatibilité avec d’autres jeux de caractères y est une règle de base. Ainsi, les toutes premières positions de code du jeu universel correspondent à l’ASCII. Un sous-ensemble de caractères d’Unicode adopté en fonction de jeux de caractères existant est dit « limité ». L’élaboration d’une liste de caractères choisis dans Unicode est un sous-ensemble dit « sélectionné ».
La répartition des caractères en liaison avec des groupes d’écritures est visible dans Unicode et le JUC car les positions de codes sont présentées sous forme de table correspondant généralement [10] à des jeux standardisés et normalisés nationaux et internationaux. La liste des répertoires sources est donnée dans la norme ISO/CEI 10646 et le standard Unicode. De plus, l’évolution de ces documents a consisté à ajouter des tables en fonction de demandes linguistiques précises. Par exemple, les dernier et avant-dernier jeux intégrés sont ceux utilisés dans l’écriture en langue mongole et en langue syriaque respectivement. Le tout peut être assimilé à une table unique organisée de telle manière à faciliter l’accès aux caractères selon les besoins des utilisateurs qui peuvent se reporter aux blocs scripturaux qui les intéressent où retrouver un caractère donné dans une liste de noms (définitions) de caractères rangés par ordre alphabétique. Les normes de codage ne sont pas destinées à un usage courant. En général, celui qui cherche un caractère dans ces jeux de caractères, possède une bonne connaissance de l’informatique. La plupart du temps, il doit répondre à une demande émanant d’un utilisateur qui n’aura pas accès, théoriquement, aux tables de code. Pour ce faire, il doit s’assurer que les caractères utilisés dans la langue écrite de l’utilisateur sont bien répertoriés dans le jeu universel. L’intérêt de la table est qu’il n’y a pas de programme particulier à écrire pour passer d’un groupe de caractères à l’autre puisqu’ils appartiennent tous au même système. Il suffit de connaître et intégrer les positions de code pour faire le lien entre les applications ou les différents niveaux d’« apparition » du caractère – un lien avec une table de police, par exemple. La référence numérique du caractère spécifie la position de code de celui-ci. Si on veut intégrer un caractère à une application il faut donc disposer de cette valeur. On peut évidemment à l’inverse vouloir vérifier la correspondance d’une référence avec un caractère.
Il existe plusieurs façons de chercher un caractère dans Unicode. Il est possible de se reporter directement au jeu universel présenté sous forme de sous-tables (plus de 120). Un ensemble de sous-tables correspond à un système d’écriture en général. Les différents ensembles sont appelés blocs. Nous donnons un exemple de cheminement suivi pour accéder à un caractère dans la figure qui suit (page suivante).
La répartition formelle des codes selon la trentaine de systèmes d’écriture existant répond à une logique techno-linguistique. Il s’agit d’un rangement simple (succession de codes) qui n’a pas vraiment de répercussion sur l’utilisation mais peut faciliter les programmations. Une langue écrite est basée sur un système d’écriture, dont les éléments constitutifs (les caractères) sont codés. Aujourd’hui la plupart des écritures bénéficient d’une attribution de codes. Il subsiste quelques controverses (et c’est l’objet de ce numéro), pourtant, on peut convenir que l’évolution du codage des caractères lève une part des obstacles qui entravent le multilinguisme informatique.
La classification des groupes de caractères suit souvent une logique géoinguistique en parallèle de la logique qui lie les caractères aux systèmes d’écriture. Nous l’avons souligné, le standard organise les tables de caractères dans cet esprit plus que la norme ne le fait. On peut en déduire que le travail de la standardisation tente davantage de suivre les réalités économiques et politiques afin de suivre au mieux les tendances du marché.
Figure 2
Repérage de la lettre minuscule o macron (d’après [UNI 00])
IMGIMGRepérage de la lettre minuscule o macron (d’après ...IMGIMF
Outre la nécessité d’organiser la diversité des caractères pour permettre leur utilisation cohérente, il faut admettre que de telles répartitions rendent compte de relations entre groupes linguistiques. Le sujet des langues ne peut ignorer cette composante essentielle de la communication interlinguistique. Il est normal qu’elle apparaisse dans l’élaboration des normes fondatrices de la numérisation des langues écrites (le SEM et le CJC en témoignent) et révèle le rapport entre les langues. Les écritures des pays industrialisés ont été les premières codées, les moins influentes (surtout celles non liées à la culture américaine) ont été incluses en dernier lieu.
Le codage des caractères est un canevas qui rend compte des réalités économiques, politiques et culturelles, en somme de réalités concernant les rôles fonctionnels et sociaux des langues. Ce n’est que le premier maillon d’une chaîne de processus qui va des caractères aux règles d’écriture. Les sous-ensembles sont utiles et intéressants car la norme ne peut être appliquée immédiatement dans son ensemble. Les ressources matérielles et humaines pour y parvenir sont lourdes. Il faut du matériel disposant de mémoires suffisantes, il faut prévoir les coûts de licence, le temps de travail pour le développement, le temps d’apprentissage des méthodes parce que le rendu d’une écriture exige un minimum de programmation destinée à appliquer les règles d’écriture qui sont nombreuses et variées mais le sous-ensemble comporte un risque. Celui de retomber dans la profusion incohérente des jeux de caractères et le morcellement du codage des caractères graphiques.
En ce qui concerne l’Europe on peut espérer toutefois une harmonisation des solutions techniques en passant par les SEM de l’ISO/CEI 10646. Or si la solution des sous-ensembles est intéressante il ne faut pas croire qu’ils feront taire ce qui a souvent ralenti les processus de cohésion en matière de codage des caractères, la difficulté de consensus sans doute parce que les problèmes linguistiques sont fortement liés à des politiques nationales. En République populaire de Chine par exemple, le standard GB 2312 appelé table Guobiao contient les caractères du CJC dans un ordre différent. Une table de correspondance résout facilement ce problème de compatibilité avec Unicode. En revanche, l’absence de nombreux caractères européens dans la table Guobiao conduit à une véritable incompatibilité.
Il serait intéressant de suivre l’évolution des SEM. On peut espérer que la présence d’interlocuteurs de plusieurs nations pourra aboutir à une coopération efficace. La France pourrait tirer parti d’un tel assentiment mais aussi s’y intéresser plus sérieusement. Sur le plan économique il semble essentiel à l’échange de données informatisées. Mais la langue française n’a-t-elle pas d’autres réseaux à explorer ? Nous allons aborder la question dans la section qui suit.
 
3. Langue française et Unicode
 
 
Notre sujet nous conduit à parler de la langue française écrite mais nous ne nous contenterons pas de l’aspect systémique de la langue écrite, c’est-à-dire des caractères graphiques et des règles d’utilisation de ces caractères. Nous considérerons la langue française écrite comme véhicule d’expression, facteur de communication. Dans le processus d’informatisation des langues, il est intéressant de comprendre où elle se situe. Dans cet article nous ne développerons pas le thème particulier de la défense de la langue française, nous essaierons simplement de comprendre, à l’aide de ses particularités ce que les liens qu’elle entretient avec d’autres langues peuvent engendrer comme conséquence et peut enseigner en terme d’appropriation de l’informatique multilingue. Pour procéder à cette analyse il convient d’exposer un état des lieux abordant l’histoire de la langue française, son informatisation et sa place dans Unicode et ISO/CEI 10646.
3.1. Langue française : point commun et diversité
L’histoire, des relations économiques, culturelles et politiques ont fait du français, une langue qui appartient selon différents critères à plusieurs groupes : celui des langues européennes, des langues d’origine latine, des pays industrialisés, de la francophonie, des langues de communication internationale… Il est rare qu’une langue occupe autant de champs. Certains regroupements comme celui de la francophonie et de l’Union latine [11] font état ou sont à l’origine d’une prise de conscience que la donne linguistique est essentielle. Puisque cette dernière est à la base de la communication, les TIC ne peuvent être conçues sans ancrage dans des réalités linguistiques parfois complexes. Si on considère chaque langue écrite isolément on ne dira pas certains aspects des phénomènes linguistiques. Sur ce plan, le cas du français présente l’intérêt d’être en relation avec beaucoup d’autres langues sur le territoire français mais aussi à l’extérieur. Il en résulte une expérience linguistique de la confrontation et du réseau, qu’est amenée à vivre dans le contexte particulier de la mondialisation des technologies de l’information, toute langue informatisée.
Le cas de la langue française ne sera pas uniquement abordé ici sous l’éclairage de la francophonie mais nous y attacherons une attention particulière parce que tout en étant construit sur une logique linguistique et historique [12], le dynamisme de la francophonie s’articule sur plusieurs axes, « un espace politique défini par les relations étroites créées et maintenues entre un certain nombre de ces pays et par l’activité des institutions nationales et internationales qui en ont émané ; un espace économique, dont l’activité est favorisée par le partage d’une même langue comme instrument de communication ; un espace de coopération, surtout culturel et interculturel où la langue française tient le rôle à la fois de vecteur de valeurs culturelles universelles (droits de l’homme et des peuples…) et instrument de diffusion des identités particulières » [DAL 85]. Le monde francophone est un terrain favorable à l’étude de la diversité culturelle. La diversité linguistique en est un des aspects lié à tous les autres. L’ambition culturelle de la francophonie oblige ses acteurs à prendre le recul nécessaire pour entreprendre les projets qui mettent en œuvre la diffusion des savoirs, l’harmonie des relations interculturelles.
L’histoire de la langue française montre qu’elle a su s’adapter aux différences culturelles dans un territoire pour devenir « la langue de la République » [13] qu’elle est aujourd’hui.
Elle émerge de façon institutionnelle avec les Serments des fils de Louis le Pieux (842) dans un contexte de bilinguisme puisqu’elle côtoie la langue germanique. En 1539, l’ordonnance de Villers-Cotterêts édictée par François 1er donne un statut particulier au français [LONG 99] en l’imposant comme langue des actes judiciaires. Après la Révolution française, l’enseignement primaire obligatoire achève de l’établir comme langue maternelle pratiquée par la quasi-totalité des Français [14].
Le français est né dans un contexte plurilingue, de la transformation radicale du latin. Sa base lexicale est gréco-latine et compte quelques emprunts à des langues celtiques. Cette particularité fait de lui une langue riche et vivante et persiste aujourd’hui puisqu’il a connu des événements historiques conduisant à différentes situations sociolinguistiques, selon les pays où il peut être :
  • langue maternelle de la majorité ou d’une minorité importante de la population et officielle ;
  • langue officielle unique en présence d’autres langues maternelles ;
  • langue officielle conjointe ;
  • langue « favorisée » sans statut officiel [15].
Le nombre de locuteurs du français s’élève à 130 millions environ si on ne compte pas les personnes maîtrisant la langue dans un pays où elle n’est ni langue officielle, ni langue maternelle, ni langue d’enseignement [16]. Il est parlé dans 47 pays, sur cinq continents différents et il est la langue officielle de 33 pays et de presque tous les organismes internationaux.
Ces différentes caractéristiques induisent une constante évolution du français. Le phénomène existe aussi en France où la langue est l’objet de changements de générations en générations parce qu’elle cohabite avec d’autres langues parlées (langues régionales, langues locales des anciennes colonies et langues d’origine de populations immigrées) et parce qu’il existe des variantes du français parlé selon les aires géographiques et les divisions sociales. Sa position de langue seconde, langue technique dans certains pays, donne à la langue française un rôle d’outil de travail et d’atout pédagogique dans des situations socio-économiques parfois difficiles.
Mais plus encore, à des niveaux de pratique différents, la langue française suscite un attachement culturel qui a su faire naître l’idée d’une francophonie multilingue et multiculturelle.
Fort d’une expérience presque traditionnelle du plurilinguisme, le français saura-t-il s’adapter au multilinguisme [17] informatique ?
3.2. Ingénierie linguistique et langue française
L’écriture électronique du français ne pose pas de problème en France, pourtant l’échange international de données textuelles numérisées sur les réseaux et entre plates-formes n’est pas toujours satisfaisant. Lorsqu’on envoie un message électronique, il arrive encore souvent que les accents, trémas, cédilles et « œ » ne soient pas restitués. Pourtant, les solutions existent et sont abordables.
Écrire en français à l’aide d’un traitement de texte n’est pas le seul problème posé, mais il est élémentaire pour proposer des solutions en vue du traitement automatique de la langue orale et écrite manuscrite ou numérisée. La numérisation de la langue écrite est un chaînon essentiel de nombreuses technologies : la reconnaissance vocale, la synthèse vocale, la traduction automatique, l’aide à la rédaction et à l’apprentissage des langues, l’aide à la recherche d’information sur internet [18].
Pour respecter le système d’écriture français, il faut disposer de plus de 130 caractères graphiques :
  • les 26 lettres de l’alphabet en majuscules et en minuscules (52 caractères),
  • les signes de ponctuation et symboles (une quarantaine de caractères),
  • les 10 chiffres,
  • les lettres accentuées majuscules et minuscules (14 caractères),
  • et les digrammes collés.
Aujourd’hui, le matériel informatique répond à ces exigences car il assure l’accès à un répertoire (autre que l’ASCII, jeu de caractères latins non accentués) permettant d’écrire la plupart des langues utilisant l’alphabet latin. Il s’agit de l’alphabet latin n°1 ou ISO/CEI 8859-1 [ISO 99-2]. En général, les codages standards basés sur des jeux de caractères à 8 bits remplissent la même fonction. Il subsiste pourtant une lacune dans le répertoire international latin n°1 : il ne contient pas la ligature « œ » [19]. La plupart du temps ce défaut est corrigé par un programme du traitement de texte qui reconstitue la ligature (pour être plus précis, qui remplace les deux caractères par un seul) en fonction de la présence du « oe » dans un mot. Remarquez que dans Word par exemple, les deux lettres écrites séparément ne sont pas liées. En somme, elles ne le sont que dans un mot « reconnu ». La solution est simple et logique puisqu’un « o » suivi d’un « e » n’est pas a priori lié à lui si on considère toutes les langues écrites. Cette solution est utilisable parce que le français ne possède pas d’ambiguïté sur ce plan et elle a l’avantage de permettre d’écrire sur une même page des mots dans une autre langue écrite où les lettres « o » et « e » ne seraient pas systématiquement liées. Cet exemple donne un aperçu de la difficulté que peut représenter la confrontation des langues au cas où deux événements pourraient s’exclure dans deux langues écrites différentes. L’intégration des règles d’écriture sous forme de programmes est une nécessité logique.
Pour ce qui est de la forme des caractères, rappelons qu’il n’existe pas de norme de codage de format de glyphes, mais plutôt des standards privés tels que True Type, OpenType, etc. Les difficultés se situent au niveau des échanges de données lorsqu’on utilise les polices correspondantes. Lors de la construction d’un site diffusé sur internet, il faut s’assurer que la police utilisée pourra être lue et imprimée par le plus grand nombre de visiteurs. Cela signifie que l’on ne peut pas employer une police trop originale. L’utilisation des imprimantes est un autre problème qui soumet le rendu des accents et des caractères particuliers à la diversité des codes sur lesquels fonctionnent les machines. L’utilisation de standards comme PDF et l’envoi de polices avec le document sur internet sont des solutions à ces problèmes.
La limite de jeux tels que l’ISO 8859-1 apparaît clairement dans un contexte multilingue. La présence simultanée du français et du vietnamien écrit en quôc-ngu, par exemple, n’est pas supportée par l’alphabet latin n°1 alors que ces deux écritures utilisent les lettres latines. En fait la norme 8859 se décline en une quinzaine de versions chacune capable de dispenser les caractères nécessaires à l’écriture de plusieurs langues selon des rapprochements linguistiques ou géographiques, voire politiques comme cela a été le cas pour l’alphabet latin n°5 réclamé par la Turquie se sentant proche économiquement de l’Europe occidentale. Le tableau suivant illustre la capacité de codage des différents alphabets latins en fonction des langues. Les caractères nécessaires à l’écriture de la langue française sont intégralement présents dans la table de l’alphabet latin n°9. Les alphabets indiqués entre parenthèses ne couvrent que partiellement cette langue écrite.
Si on utilise un logiciel de messagerie où l’alphabet latin n°1 est table unique de codes de caractères, l’usage de la langue française et de la langue polonaise (par exemple) simultanément peut poser problème. Il faut faire appel à l’alphabet latin n°2 pour disposer de tous les caractères polonais. Or, il faut des techniques informatiques particulières d’extension ou d’échappement parfois compliquées lorsqu’il s’agit d’envoyer dans un même message un texte codé avec deux codages différents.
L’écueil est encore plus grand dans un contexte où on utilise des systèmes d’écriture très différents. Le traitement des problèmes liés à des nuances à l’intérieur d’un alphabet, n’est pas équivalent au traitement des problèmes posés par deux alphabets différents. Entre deux écritures alphabétiques, il peut exister des logiques de fonctionnement complètement opposées comme il en existe entre un alphabet et un système idéographique ou syllabique. Les difficultés en matière d’ingénierie linguistique et typographique multilingues émanent principalement de ces divergences. Les situations de bilinguisme dans lesquels la langue française peut se trouver mettent en évidence un certain nombre d’obstacles. Il suffit d’imaginer quelques exemples simples mettant en présence le français et une autre langue de France ou une langue alliée à la francophonie ou encore une langue européenne :
  • le français et le polonais écrits utilisent tous deux l’alphabet latin mais certains caractères ne sont pas communs aux deux écritures, comme le « Ä‡ » polonais correspondant à la prononciation de « ts » en français ;
  • le français et l’arabe écrits sont basés sur deux alphabets distincts mais là n’est pas le problème qui réside davantage dans des particularités scripturales tels le sens de l’écriture, la nécessité d’une analyse contextuelle pour rendre la forme d’un caractère en arabe, la présence de ligatures en arabe également ;
  • le français et le chinois écrits semblent incomparables car l’écriture idéographique se caractérise par une profusion de caractères qui rendent la saisie problématique ;
  • la présence du français et de certaines langues africaines ne devrait pas être une situation exceptionnelle étant donné que dans beaucoup de pays africains, la langue française est langue seconde mais les codes de caractères ne sont pas encore réellement disponibles dans les normes et standards ainsi que les méthodes d’entrée de ces caractères qui de ce fait s’échangent difficilement.

Tableau 1
Couverture des langues par les alphabets latins normalisés (ISO/CEI 8859 : 1999 Technologie de l’information – Jeux de caractères graphiques codés sur un seul octet – latin-1 à latin-9.)
IMGIMGLangue Couverte(s) par l’alphabet la...IMGIMF
Langue Couverte(s) par l’alphabet latin no Albanais 1, 2, 5, 8, 9 Allemand 1,2,3,4,5,6,8,9 Anglais 1,2,3,4,5,6,7,8,9 Basque 1,5,8,9 Breton 1,5,8,9 Catalan 1,5,8,9 Cornique 1,5,8 Croate 2 Danois 1,4,5,6,8,9 Espagnol 1,5,8,9 Espéranto 3 Estonien 4,6,7,9 Féroïen 1,6,9 Finnois (1),4,(5),6,7,(8),9 Français (1),(3),(5),(8),9 Frison 1,5,9 Gaélique de l’île de Man 1,5,8 Gaélique écossais 1,5,8,9 Gaélique irlandais (ancienne orthographe) 8 Gaélique irlandais (nouvelle orthographe) 1,5,6,8,9 Galicien 1,5,8,9 Gallois 8 Langue Couverte(s) par l’alphabet latin no Groenlandais 1,4,5,8,9 Hongrois 2 Islandais 1,6,9 Italien 1,3,5,8,9 Lapon (same) 4,6 Latin 1,2,3,4,5,6,7,8,9 Letton 4,7 Lithuanien 4,6,7 Luxembourgeois 1,5,8,9 Maltais 3 Néerlandais 1,5,9 Norvégien 1,4,5,6,7,8,9 Polonais 2 Portugais 1,3,5,8,9 Romanche 1,5,8,9 Roumain (2) Slovaque 2 Slovène 2,4,6 Sorbe 2 Suédois 1,4,5,6,8,9 Tchèque 2

La confrontation du français et d’autres langues écrites montre concrètement à quel point les problèmes sont multiples et variés. En nous livrant à cet exercice nous avons décomposé pour partie l’enchevêtrement des composantes du multilinguisme informatique. Les technologies sont opérationnelles en ce qui concerne l’informatisation du français même s’il subsiste quelques lacunes. En revanche, au contact d’autres écritures, les déficiences apparaissent. L’informatisation d’une langue isolée est essentielle pour la langue elle-même mais aussi pour les autres langues. Dans le contexte de mondialisation une écriture qui n’est pas numérisée peut faire naître une situation de manque au niveau de certains échanges conduisant à leur inefficacité.
La complexité de l’informatisation réside principalement dans le fait que l’écriture d’une langue ne fait pas seulement intervenir des caractères graphiques mais un ensemble de phénomènes qui ne sont pas uniquement techniques. Les études en ingénierie linguistique font d’ailleurs la synthèse des aspects techniques certes mais aussi financiers et sociaux. Le multilinguisme coûte cher et il ne peut se réaliser sans le respect de règles linguistiques, donc fonctionnelles mais aussi culturelles. Différentes expertises et expériences concourent au rendu des langues écrites : la typographie, la linguistique descriptive, les conventions de présentation (date, heure, ordre alphabétique …), les conventions d’usage, les règles de traitement (césure des mots…), la terminologie [20]. La communauté électronique francophone existe et est très active également en ce qui concerne la défense du graphisme, de la syntaxe et du bon usage du français [21]. Cette stratégie techno-linguistique est un avantage pour les langues partenaires du français comme pour le français lui-même qui est l’une des langues de communication les plus importantes. Et plus encore l’une des rares à justifier seule l’existence d’un groupe qui n’a pas d’ancrage géographique précis et qui génère une certaine expérience de la diversité culturelle. Or le processus d’informatisation des écritures qui suit des dynamiques économiques et une représentation géolinguistique du monde aurait beaucoup à gagner en s’inscrivant dans une logique multiculturelle qu’entretient déjà depuis de nombreuses années, la francophonie. Il semble essentiel de dépasser certaines catégorisations ou d’en créer d’autres si on veut brasser les langues sur les réseaux.
Les outils technologiques imposent encore des compromis. Mais l’avènement d’Unicode, du JUC et de polices correspondantes devrait résoudre bien des problèmes. Le nombre de produits qui s’y conforment sur le marché ne cesse de croître, ce qui est de bon augure. De plus, l’alphabet latin n°1 trouve sa correspondance dans le codage sur 2 octets. Le passage d’un système à l’autre n’en sera que plus aisé d’autant plus que le format UTF-8 assure le relais.
Grâce à Unicode, le traitement automatique du français et de ses langues partenaires ne subira plus de manque. Mais il faut se rendre à l’évidence, on ne peut utiliser Unicode entièrement d’emblée. Cela demande un travail long et coûteux qui n’est pris actuellement que par morceaux et selon la demande. L’appropriation d’Unicode n’est pas organisée. On peut souligner la tentative que représente la norme expérimentale SEM formalisant des sous-répertoires européens. Sans demander que soit conçu un « Unicode francophone », il serait opportun d’envisager un sous-répertoire pour les usagers francophones qui souhaiteraient notamment traiter des informations textuelles bilingues.
À partir de l’analyse des problèmes rencontrés, une harmonisation pourrait naître par la mise en commun d’expériences possibles et réalisables et envisageables avec Unicode car les cadres sont posés par une sorte de tradition francophone.
Quelle est la réalité de ces usages aujourd’hui ?
 
4. Appropriation d’Unicode en question : usages en France et dans la francophonie
 
 
L’appropriation est un terme que l’on retrouve dans le domaine juridique (en ce qui concerne la propriété), dans des questions socioculturelles (touchant les acquis sociaux, parmi eux l’écriture), dans le domaine de l’art… D’une façon générale le terme correspond à l’action de faire sien quelque chose.
Cette notion est une question essentielle des recherches en information scientifique et technique. Dans le domaine de la science de l’information on s’interroge beaucoup sur la façon dont les TIC entreront dans les usages professionnels et sociaux ou comment elles en créeront d’autres. Normalisation et standardisation proposent une technologie consensuelle de la maîtrise de la numérisation de l’écrit. Elles ont choisi dans ce domaine de prendre en considération les intérêts du plus grand nombre. En s’annonçant dès leur titre, comme universels, Unicode et ISO/CEI 10646 s’engagent, a priori, à n’exclure aucune écriture du codage numérique. En revanche, la question du chemin que chaque individu doit parcourir pour écrire dans la langue de son choix reste entière.
Les concepteurs de la norme et les destinataires de l’objet de cette norme sont deux groupes qu’il faut distinguer. Il est difficile de le faire actuellement parce que, nous l’avons observé dans la dynamique du fonctionnement de la standardisation organisée par le consortium Unicode, les solutions techniques apportées par les informaticiens sont pratiquement élaborées simultanément à la demande émanant souvent de personnes proches des secteurs informatiques. Mais qu’en est-il de la réalité des usages ?
Il semble nécessaire à l’heure de la mise en application de ces codes d’engager des réflexions théoriques afin de conceptualiser au mieux les systèmes d’information multilingues et d’imaginer quels impacts ils auront sur les sociétés. La veille dans ce domaine ne doit pas seulement être technologique mais scientifique.
Dans le paragraphe suivant, nous proposons une brève synthèse des réflexions issues de la mise en place d’un observatoire des usages français et francophones de la norme ISO/CEI 10646 et du standard Unicode sous la forme d’un séminaire de recherche [22] intitulé « Unicode et après ?! ». Nous mettrons ensuite l’accent sur des exemples d’usages satisfaits ou non satisfaits dans des domaines d’activité importants pour la langue française : l’enseignement, la recherche, l’industrie, la gestion du patrimoine, les bibliothèques. Nous terminerons par une analyse de la situation du français dans l’internet.
4.1. Veille scientifique et normalisation du codage des caractères
Il est clair que nul ne peut à la fois connaître toutes les écritures du monde (anciennes et modernes), connaître les codes musicaux, chorégraphiques, mathématiques et comprendre de surcroît les conséquences techniques et informatiques du passage de 1 à 4 octets. Le travail collaboratif autour d’un document normatif abordant tous ces sujets est primordial. Pendant plusieurs années consécutives se sont rencontrés aux réunions du séminaire, non seulement des chercheurs spécialisés dans les domaines déjà cités, mais aussi des informaticiens, des enseignants, des professionnels usagers de l’informatique multilingue, des étudiants, etc.
Nous nous sommes inscrits dans une démarche de veille scientifique permettant d’observer dans le détail et dans son ensemble, l’activité de codification des écritures. Au départ de cette veille, nous nous sommes fixés l’objectif de mobiliser un nombre important d’acteurs dans le but de constituer un réseau où collecter des recherche, l’industrie, la gestion du patrimoine, les bibliothèques. Nous terminerons par une analyse de la situation du français dans l’internet.
On peut être rassuré de constater que le codage au fondement de la numérisation des écritures a fait l’objet d’un accord mais on ferait une erreur en croyant que ce domaine échappe totalement aux différends qu’il a toujours suscités. La norme ISO/CEI 10646 existe aujourd’hui avec la possibilité de fonctionner sur plusieurs octets, pourtant sa mise en application prend du temps à cause de divergences. Le consortium Unicode a investi énormément d’argent et de temps dans la fabrication du standard. Il peut difficilement accepter de prendre le risque d’être à présent dépassé et prévoit déjà de faire fonctionner le codage sur 4 octets en le transformant en un système fonctionnant sur 2 octets.
Chez les producteurs de logiciels libres, on rencontre aussi une forte tendance à préconiser l’adaptation multilingue, puisque l’essence même de ces produits est d’être utilisables par le plus grand nombre, à court et à long terme. Un logiciel de traitement de texte aux multiples fonctionnalités comme Emacs prend en charge le codage Unicode-utf8. Les stations de travail Linux sont également élaborées dans ce sens.
Les efforts d’aménagements de l’informatique comme outil pédagogique ne doivent pas ignorer les possibilités d’écrire dans plusieurs langues, dans des pays comme la France et beaucoup de pays de la francophonie où le plurilinguisme est une réalité. Les bibliothèques, les centres de recherche archéologique et ethnologique, les musées sont aussi concernés. Dans la francophonie, le bilinguisme est un atout à ne pas négliger pour l’éducation et la formation.
Les supports informatiques et le codage qui les accompagne sont les nouveaux supports de l’écriture. Ils apportent des changements et imposent des choix dans les manières d’écrire et d’éditer les textes qu’il faut comprendre et gérer d’une façon universelle.
Préserver la diversité linguistique dans les modes de communication actuels, c’est avoir l’ambition de préserver la diversité culturelle. L’étape historique d’une informatique unilingue est dépassée. Promouvoir l’informatisation des langues évitera la mort de certaines d’entre elles. Unicode et la norme ISO/CEI 10646 sont les outils de cette informatisation. Mais leur existence seule ne suffira pas à réaliser le codage universel des écritures. Une langue écrite ne peut se résumer à une table de caractères aussi complète soit-elle.
L’usage que l’on fera et que l’on fait de ces standard et norme doit faire l’objet d’accords nationaux et internationaux dans des champs disciplinaires différents en matière de méthodes de saisie, de définitions de fontes, conception de traitements de texte multilingues. Une prise de conscience au niveau des États et des grandes institutions sera nécessaire pour contrebalancer les prises de position du consortium Unicode. Le multilinguisme informatique représente un intérêt économique certain qui n’a pas laissé indifférent les grands concepteurs de matériel informatique, systèmes d’exploitation et de logiciels. Plutôt que de laisser progresser une incohérence entre tables de caractères et systèmes de codage conduisant à des incompatibilités gênantes, ils se sont regroupés. L’appartenance à ce groupe permet d’assurer une veille sur ce qui se fait dans le domaine de l’informatisation des écritures. En fait, le consortium Unicode constitue un groupe de pression fort puisqu’il est à la base de la conception du standard et qu’il fabrique les produits qui le supportent.
À quoi servent les applications élaborées par les linguistes et les informaticiens pour rechercher de l’information si cela ne concerne que quelques langues ? Faut-il se priver de ces applications dans l’étude de corpus en langues anciennes et langues minoritaires ?
Des mesures d’ordre technique dans les pays du Nord ont permis, suivant des progressions différentes de se doter des moyens d’accéder à l’information. Le problème est que ce moyen a été construit à partir d’une seule langue. L’anglais étant une langue d’échange économique et scientifique internationale, il a fallu un certain temps pour que l’on pose le problème de l’informatique multilingue.
Grâce à Unicode, on peut espérer que le traitement automatique du français et des langues partenaires ne subira plus de manque. On peut imaginer l’existence simultanée de plusieurs versions linguistiques d’un même texte scientifique numérisé. Ces versions auront la même crédibilité. Les informations scientifiques seront accessibles et brassées par un plus grand nombre de personnes. La communauté scientifique gagnera beaucoup dans ce type d’échange puisque la confrontation des théories et des pratiques est un élément essentiel pour ses avancées.
Parmi les langues partenaires de langue française, il nous a semblé essentiel de poser des pistes de réflexion sur les langues africaines dans la mesure où le thème est peu abordé [23]. Nous avons appris au séminaire que ce type d’absence en ce qui concerne la normalisation est préjudiciable. Même si les besoins en matière de numérisation ne sont pas clairement formalisés, ils existent. Nous les avons repérés au cours de nombreuses conversations avec des chercheurs, des étudiants, des chefs de projet informatique. Les aborder, dès à présent pourrait éviter une perte de temps à l’avenir quand certaines langues réclameront une présence sur les réseaux, par exemple.
La présence d’une norme universelle de codage des caractères a au moins une incidence. Elle oblige les constructeurs à prévoir l’intégration de ces codes dans les nouveaux produits. En revanche, l’existence du standard Unicode doit faire comprendre que la numérisation des langues écrites n’est pas à l’abri des lois des marchés économiques. Le problème se pose parce que le consortium accompagne le standard de publications explicites sur l’utilisation du jeu de caractères. Sans poser des soupçons inconsidérés sur un travail dynamique et une expertise estimable, il est essentiel que des groupes de recherche exercent une veille sur le sujet afin que le préfixe uni de Unicode qui se rapporte à « universel », ne se rapporte pas, tout compte fait, à « uniforme ». Nous avons été frappés lors des séances du séminaire de la diversité des attentes relatives à la numérisation des écritures. L’élaboration des outils du multilinguisme est en cours. À ce stade, une analyse des besoins fine et approfondie tenant compte notamment de la complexité des liens entre différents utilisateurs autant que des particularités de chaque environnement devrait être l’objet d’une grande attention. Elle se situe en amont de l’adéquation aux exigences techniques.
4.2. Unicode est-il présent dans les infrastructures de l’enseignement et de la recherche ?
L’intégration des TIC dans l’enseignement (primaire, secondaire et supérieur) est relativement récente. On se préoccupe aujourd’hui de conceptualiser les outils et de préparer la formation des personnels enseignants. La gestion matérielle et la logistique dans les établissements scolaires et universitaires focalisent les actions. Mais l’émergence des TICE (technologies de l’information et de la communication dans l’enseignement) montre un soucis de gérer et développer les ressources numériques dont pourrait bénéficier les méthodes pédagogiques.
Le caractère multilingue n’apparaît pas encore dans les systèmes informatisés sauf là où il est essentiel, dans les centres de recherche en linguistique, dans des centres de documentation qui gèrent des fonds écrits en plusieurs langues, par exemple.
Durant l’année européenne des langues (2001) beaucoup de discussions ont tourné autour de l’apprentissage des langues et des instruments apportés par les TIC dans ce domaine. L’informatisation des langues est aussi prise en compte comme facteur d’échanges entre les pays européens mais il concerne d’abord chaque pays qui selon les moyens en ressources matérielles et humaines dont il dispose met en place des politiques d’informatisation de la ou des langue(s) en usage sur son territoire.
La situation de la France est très particulière. Le plurilinguisme, nous l’avons déjà souligné, y revêt plusieurs aspects. Le résultat est que beaucoup de langues autres que le français sont enseignées dans les écoles et que l’on dispose d’un potentiel de compétences linguistiques conséquent. Mais ce potentiel ne peut être exploité sans des outils adéquats or aujourd’hui cette adéquation passe par l’informatique à plus ou moins long terme. Cependant, il n’existe pas de logiciel ou de systèmes d’information rendant possible la pratique des écritures numérisées du français, de l’arabe, de l’espagnol, du portugais, du polonais, du chinois, de langues africaines, du khmer (etc.) simultanément, sans opérations compliquées [24]. Par conséquent les programmes scolaires ne peuvent tenir compte de ce type de demande. En plus de l’intérêt concernant l’apprentissage, l’intérêt pédagogique de programmes scolaires intégrant ce type d’usage de l’informatique est évident. Une connaissance minimale de ce qu’est le multilinguisme pourrait déboucher sur une meilleure considération de la diversité culturelle et linguistique dans des milieux où elle est perçue par les élèves comme une source de cloisonnements. La navigation sur internet est un mode d’accès à l’information largement plébiscité dans les écoles. D’ailleurs c’est souvent de cette façon que les TIC sont abordées. Les pages de l’internet écrites en langues étrangères (lorsqu’elles sont lisibles sur écrans « francophones ») offrent une expérience du multilinguisme qu’il est dommage de négliger car elle est accessible à partir du matériel déjà en place. L’implémentation d’Unicode est une solution envisageable.
Hors de France, des programmes éducatifs et de formation utilisent les atouts de l’informatique multilingue pour le développement. La communication étant considérée comme un facteur de ce dernier, les langues le sont aussi. Les efforts de constitution de terminologies s’accompagnent de plus en plus du souci de les mettre à disposition en réseau. Citons pour exemple, les stages de formation proposés par le RIFAL [25] dans le secteur du traitement informatique des langues partenaire de la langue française préconisant l’usage d’Unicode. Une conversion à l’encodage Unicode est utilisée pour résoudre les problèmes de fontes notamment [26].
L’Agence universitaire francophone participe activement au déploiement d’un espace scientifique francophone et se faisant encourage l’élaboration de contenus numérisés multilingues tout en tenant compte du manque de moyen dont peuvent souffrir certains chercheurs et universités francophones.
Ainsi, les organismes gérant des ressources textuelles à fort caractère plurilingue sont impliqués dans la recherche de solutions informatiques multilingues. Mais seuls les plus importants parviennent à être en partie fonctionnels au niveau des échanges. La mise en œuvre de la consultation sur réseaux de textes numérisés dans des langues étrangères implique de disposer de moyens financiers importants.
Il suffit d’un aperçu sur la situation des bibliothèques de recherche pour comprendre que l’application du jeu universel des caractères n’est pas aisée. Une bibliothèque conserve et met à disposition des documents. Elle permet l’accessibilité au fonds qu’elle organise suivant des modalités qui dépendent de son degré de spécialité, de ses missions, de sa dimension. Un bibliothécaire peut être confronté à la présence de données en langues écrites étrangères, pourtant il n’existe pas encore de solution harmonieuse pour les traiter et les proposer à la consultation. Or un chercheur peut souhaiter utiliser ses compétences linguistiques ou plus encore l’accessibilité à des textes écrits en caractères non latins peut constituer un précieux avantage pour ses travaux. Le problème se posera dans quelques temps avec acuité au cours du processus d’élaboration des bibliothèques numériques.
Le catalogue informatisé de la bibliothèque inter-universitaire des langues orientales ne répond pas encore aux attentes des étudiants, des chercheurs et des gestionnaires du fonds auquel il doit donner accès. L’implémentation d’Unicode est admise comme une étape logique dans la conception du système mais il manque le progiciel adapté à cet environnement précis et capable de gérer les autres particularités des écritures. Il lui faudrait prendre en charge la résolution de problèmes posés par l’informatisation des écritures qui ne sont pas seulement liés au codage des caractères mais liés à la possibilité d’organiser les informations multilingues en fonction de conventions qui varient d’une culture à l’autre, d’une région à l’autre ou d’une spécialité à l’autre.
L’informatisation des écritures est également basée sur l’implémentation d’Unicode dans le système d’information de la Bibliothèque nationale de France qui souhaite proposer sous peu dans ses catalogues des notices écrites à l’aide d’autres graphies que l’alphabet latin. La romanisation (transcription d’une langue grâce à l’alphabet latin) a servi de solution intermédiaire dans la réalisation de ces outils d’accès aux documents [27] qui ne sont pas encore disponibles en ligne. Là encore, un logiciel multilingue de rendu des écritures fait défaut. Le problème est qu’aucune société informatique ne souhaite s’impliquer dans un travail laborieux demandant beaucoup d’investissements alors qu’il serait peu rentable pour elle. La BNF a décidé d’effectuer elle-même cette tâche et espère être aidée en cela par les nouvelles performances de Windows et autres standards. Les fiches manuelles translittérées pourront être saisies avec des claviers adaptés. Suivront les possibilités de consultation en ligne et l’implantation de postes multilingues dans les salles de lecture. L’utilisation du format Unimarc avec une approche langue par langue devrait assurer des échanges harmonieux avec d’autres bibliothèques. Inutile de préciser que tout cela exigera beaucoup de temps.
La prise de position des bibliothécaires en faveur d’Unicode est nette mais elle n’est qu’une amorce. Les écritures ne sont pas encore présentes dans les systèmes informatisés des bibliothèques de recherche ce qui pour certaines d’entre elles représente une lacune, voire un paradoxe. Il a fallu un délai assez long pour qu’Unicode soit reconnu. D’autres solutions universelles (donc objet de consensus) sont à prévoir parce que « fonctionner » sur Unicode n’est pas suffisant. L’appropriation de l’informatique multilingue comprend plusieurs facettes.
Il nous reste à aborder un problème d’importance touchant la recherche, celui du manque de publications en français et pour être plus précis, dans d’autres langues que l’anglais qui n’ont ainsi que peu de visibilité. 71 % des publications et 56 % des communications des chercheurs francophones sont en anglais [MOR 99].
L’existence du document numérique offre de nouvelles possibilités en proposant d’autres voies de publication à des coûts moindres. Un chercheur ne peut manquer de se référer au travail d’autres chercheurs. La messagerie électronique, les banques de données numériques, les sites internet sont des outils d’investigations performants. Peut-on accepter que les échanges, le traitement et le stockage des données ne soient possibles qu’en une seule langue ou même deux ou trois ?
Ce n’est pas le manque de qualité de ces productions qui est à mettre en cause mais l’obligation pour un chercheur francophone d’utiliser l’anglais plutôt que sa ou ses langues maternelles s’il veut apparaître au niveau international. L’informatique multilingue pourrait freiner cette tendance en offrant à des chercheurs non anglophones la possibilité de proposer leurs textes dans leur langue.
L’élaboration d’un jeu de caractères francophone sélectionné dans le répertoire Unicode pourrait ouvrir des voies efficaces à la mise en pratique de l’informatique multilingue. Les difficultés de mise en œuvre du multilinguisme sont liées à l’incapacité d’implémenter la norme entièrement tant les besoins en numérisation des écritures sont dépendants du contexte d’origine et sont liés à des aspects particuliers d’un secteur donné. Un sous-ensemble francophone aurait l’avantage au regard de la diversité linguistique et culturelle en réseau qui caractérise la francophonie d’offrir un champ d’expérimentation de l’implémentation de la norme de dimension « raisonnable ». La situation en France et dans la francophonie ne correspond pas à une inertie. Mais le multilinguisme est pour le moment encore l’affaire de milieux spécialisés.
Ceci apparaît clairement dans l’enseignement et la recherche dont on peut craindre qu’ils ne s’appauvrissent si on tarde à proposer réellement l’ouverture que promet la mondialisation des échanges. Une telle ouverture passe par le multilinguisme et devrait éviter que la diffusion des savoirs ne soient monopolisée par un petit nombre de langues.
À partir de l’analyse de ces problèmes (nous n’en avons abordé qu’une faible part) nous pouvons conclure qu’une harmonisation est envisageable à une petite échelle par la mise en commun d’expériences francophones possibles et réalisables car les cadres sont posés. Entre autres choses, la présence du français sur les sites internet est de plus en plus marquée. Les protocoles prévus pour véhiculer l’information textuelle (protocole http utilisant le standard DNS) et les messages (protocole SMTP), au départ, n’acceptaient que les 7 bits du répertoire ASCII. L’utilisation exclusive de l’anglais aux débuts de l’internet n’a pas encouragé le changement.
Aujourd’hui, avec le standard MIME, on peut espérer que l’écriture électronique du français ne posera plus aucun problème. En effet, MIME, opère un étiquetage des informations textuelles qui peuvent être codées dans d’autres jeux que l’ASCII (Unicode par exemple) en plus de la transmission du courrier multimédia. La langue française est la deuxième langue utilisée dans l’espace WWW. Les méthodes de comptage donnent des résultats statistiques approximatifs mais offrent une idée de la présence relative d’une langue d’autant plus indicative qu’elle est pondérée par le nombre de locuteurs de cette langue dans le monde. Les sites écrits en français (langue maternelle, langue de travail ou langue étrangère) n’émanent pas du seul territoire français mais de diverses régions du monde. De plus, il existe des moteurs de recherche en langue française, des annuaires, des sites destinés à la francophonie. La toile francophone est un foyer de développement fondamental de l’information multilingue car il est un moyen de diffusion relativement plus appropriable que l’édition sur support papier. Il ne doit pas faire oublier cependant que beaucoup de systèmes d’information de diverses institutions (publiques et privées) gagneraient à prévoir la gestion de données multilingues : l’enseignement et la recherche, nous l’avons vu, les administrations, le commerce et l’industrie, la gestion du patrimoine… Un travail laborieux de conceptualisation en amont, en fonction des besoins des usagers, est nécessaire. Il devrait s’appuyer sur un réseau d’expertises capable de faire la jonction entre l’informatique et différents métiers en étudiant avec soin la pluralité des tâches à entreprendre.
La normalisation de l’informatisation de la langue écrite française est un bon terrain d’étude des enjeux de la normalisation de la numérisation des écritures du monde.
Les solutions techniques existent et rendent possibles la présence nécessaire d’une diversité de langues dans les TIC, outils de travail, d’apprentissage et d’accès au savoir. La façon dont les tables de caractères sont organisées révèle que l’analyse est d’abord techno-linguistique. Elle met en relation les caractères avec les systèmes d’écriture. Elle est aussi géolinguistique : les caractères se rapportent à des groupes de langues écrites d’une région globalement – écritures du Moyen-Orient, du Sud et Sud-Est asiatique, par exemple. La dernière approche des tables dépasse les usages purement linguistiques. Des groupes ont imaginé une façon d’utiliser le jeu universel des caractères qui leur est propre. Les jeux partiels européens en constituent un exemple normalisé mais on peut imaginer que des usagers particuliers tentent ou ont tenté la même expérience.
La langue française au cours de son histoire a côtoyé une multitude de langues auxquelles elle a réussi à s’allier et avec lesquelles elle entretient des liens de diverses natures. Elle les rassemble aujourd’hui autour d’actions concrètes en faveur de la diversité culturelle, d’échanges économiques et politiques entre les pays du Nord et du Sud, de l’enseignement, etc. Elle a fait naître un attachement particulier chez des locuteurs qui au lieu d’y voir un point commun avec d’autres cultures, auraient pu la considérer comme langue de domination. Il est certes impossible de renier une langue maternelle ou une langue d’enseignement, cependant la langue française est plus qu’un repère historique ou identitaire dans le contexte de la francophonie. Par certains aspects (les aspects politiques plus que les autres) le sujet de la définition de la francophonie a été délicat pourtant la légitimité de son existence ne pose plus question. Ce groupe est un centre de convergence de points de vue, une expérience de la diversité culturelle dont on reconnaît généralement qu’elle est un patrimoine à préserver. Pour ce faire, il ne suffit pas de laisser vivre les cultures. Il faut explorer ce qu’est le multiculturel, le définir. La mondialisation des technologies de l’information nous confronte à la diversité culturelle comme jamais nous ne l’avons été. Elle prône l’universalité par une prise en considération d’un maximum d’exigences techniques assurant la communication. La normalisation des TIC est un miroir de cette démarche. Mais il faut savoir exactement ce que sont les cultures pour espérer que le partage de l’information aura vraiment lieu par ces nouveaux moyens. L’expérience francophone de la diversité est plus qu’une expérience puisqu’elle se donne les moyens de mettre en place des expertises. Nous avons cité dans cet article un grand nombre d’organismes, d’associations, de manifestations francophones… En suggérant une utilisation du jeu universel des caractères basée sur l’existence de la francophonie, nous ne nous appuyons pas sur le fait qu’il serait légitime qu’une telle association possède un jeu de caractère adapté à ses besoins. Notre approche est scientifique. Il n’existe pas d’observatoire des usages d’Unicode et ISO/CEI 10646 or il semblerait essentiel d’en mettre un en place. La francophonie formant déjà un réseau humain [28] bien constitué devrait offrir un cadre approprié pour réaliser le processus d’implémentation d’Unicode qui s’impose logiquement ; une implémentation de « proche en proche », par sous-ensembles. La langue française connaît un nombre important de situation de bilinguisme. Son ingénierie est suffisamment développée pour participer à des réflexions sur l’informatisation des langues écrites. Notre proposition n’élude pas la question du droit de tout groupe à disposer de standard pour l’expression de sa langue d’ailleurs stipulée par les droits linguistiques [29]. On peut penser que les pays de la francophonie ayant le plus de poids politique et économique à l’heure actuelle sauront jouer de leur influence pour que soit prévue l’informatisation de langues minoritaires ou dont les locuteurs ont peu de moyens. Sur ce point il est dommage de constater qu’il n’y a pas de présence française dans les réunions de normalisation européennes et internationales traitant du codage des caractères parce qu’il n’y a pas de commission de normalisation à l’AFNOR sur le sujet [30]. C’est un problème de ressources humaines, il n’y a pas encore d’implication forte dans le domaine. Personne ne s’engage dans la création d’une telle commission. Or la langue française est une des langues officielles de la normalisation [31].
D’ailleurs les usages en France et dans la francophonie témoignent d’une réelle difficulté. La lourdeur prévisible des investissements freine la mise en place de l’informatique multilingue. Il n’y a pas lieu d’être pessimiste mais il faudra encore fournir de nombreux efforts et surtout accompagner les recherches techniques touchant davantage aujourd’hui les programmations de logiciels de rendu des langues écrites que le codage des caractères, d’un travail d’analyse scientifique des besoins. Depuis cinq ans, la prise de conscience a évolué positivement. On prévoit en général l’usage d’Unicode dans les systèmes d’information des établissements où la demande vis à vis du multilinguisme est forte. Ailleurs elle n’est pas une priorité. Pourtant le multilinguisme informatique ne peut pas se faire sans concertation large. Les spécialistes de même domaine doivent être assurés de la cohérence de leurs actions, des passerelles doivent exister entre différents univers, les usages des particuliers être respectés. Dans le prolongement d’Unicode et de l’ISO/CEI 10646, les solutions proposées ne peuvent que conserver un caractère universel qui ne le sera que s’il y a des allers-retours fréquents entre conception théorique et conception technique. Or il faut prévoir l’adaptation de ces solutions à un environnement donné. L’appropriation de la numérisation des écritures ne pourra se faire que si les besoins sont clairement formalisés. Ce n’est pas le rôle des informaticiens et les usagers ont des attentes qu’ils ne peuvent pas toujours formaliser seuls au regard de la technique qui leur est proposée. Il faudrait entre les usagers et les informaticiens un intermédiaire qui établisse la cohésion. Le réseau francophone regorge d’expertises qui pourraient être mises à profit dans une telle dynamique. Il ne s’agit pas de dire qu’il faut un « Unicode francophone », ce serait avouer que le JUC est un leurre. Or, il est trop tôt pour le dire. Il s’agit de proposer une option à l’encontre du morcellement de l’utilisation d’Unicode qui ne suit pas la logique avec laquelle il est construit, puisque son application d’emblée coûte trop cher. La portabilité et l’interopérabilité entre systèmes ne seront pas assurés si chacun en fait un usage limité. Étant donné qu’Unicode est sensé être universel, on peut croire qu’il suffit d’« écrire en Unicode » et de prévoir des conversions. Or la conversion est un code ajouté dont les autres n’auront pas forcément la clé. Un jeu de caractère international répertoriant les caractères nécessaires à l’écriture des langues partenaires de la langue française et de cette dernière pourrait encourager quelques réalisations multilingues. Les codes attribués seraient ceux d’Unicode.
La normalisation a un rôle important à jouer car elle propose des codes complémentaires à ceux-ci, des codes de noms de langues, d’écritures, des normes sur l’internationalisation. On peut voir aussi dans les normes donnant un langage de structuration des documents (XML, TEI…) une possibilité d’ouvrir tous ces codes les uns sur les autres pour accéder à des informations significatives sur un document numérique. Ce type de langage peut être utilisé pour le rendu des écritures.
La place de la normalisation, dans ce que l’on peut considérer comme une nouvelle organisation des savoirs, pose question. La normalisation s’assure de la disponibilité des solutions techniques. Son rôle n’est pas de répondre aux questions culturelles. Cependant en élaborant une norme universelle, elle a pris des responsabilités. La performance de réunir tous les caractères dans une même table doit s’accompagner de la possibilité pour un individu de puiser dans ce fonds commun ce dont il a besoin et de pouvoir le faire sien.
La disponibilité des caractères de toutes les écritures a des répercussions qui ne se limitent pas à une performance technique. Elle intéresse une variété de secteurs qui parfois semblent très éloignés les uns des autres : les préoccupations culturelles et les intérêts des constructeurs, par exemple. Pourtant tout est lié.
Avec des normes comme ISO 10646 on assiste à l’émergence de normes génériques dont les différents acteurs de la normalisation s’accordent à penser qu’elles sont nécessaires au bon déroulement des échanges mondiaux de données. Cela signifie que le concept de normalisation a changé. L’influence des TIC est indéniable. On peut penser qu’à travers la normalisation du codage des caractères, l’universalité des TIC est visée. De plus, la possibilité de développer l’internormativité [BAS 01] grâce aux échanges facilités entre groupes de travail normatif internationaux, n’est pas étrangère au phénomène. Des comparaisons de démarches normatives, leur recoupement sont plus aisés. Ne pas s’impliquer dans un sujet aussi crucial que la numérisation de l’écriture fait prendre le risque de ne pas participer aux définitions construisant les TIC dont l’universalité ne serait alors qu’une illusion.
D’un point de vue culturel, l’accès aux savoirs nécessaires à la survie d’une société (alphabétisation, accès à l’information, aux échanges économiques) dans le contexte géopolitique actuel est un enjeu primordial. Le processus de mondialisation est le fruit de transactions financières et commerciales de plus en plus nombreuses durant ces dernières décennies. Les TIC ont contribué au phénomène en favorisant des échanges planétaires économiques et politiques. On a du mal à imaginer que l’accès à l’information pourrait être limité. Il y aurait même une contradiction dangereuse à faire vivre des systèmes d’information aux ressources apparemment illimitées, fenêtres ouvertes sur un monde déconnecté de la réalité, ignorant complètement une partie de l’humanité.
 
BIBLIOGRAPHIE
 
·  [BAS 01] Baste S. Normalisation universelle de la numérisation des langues écrites et théories de l’écriture. Thèse de doctorat. Conservatoire National des Arts et Métiers. Soutenue le 20 décembre 2001.
·  [CEN 96] ENV 1973 Technologie de l’information - Jeux partiels européens de l’ISO/CEI 10646-1: 1996.
·  [DAL 85] Dalby D., Corbeil J-C., Arnold T. « Les langues et l’espace francophone du français ». Paris : ACCT-CIRELFA. mars 1985. p. 13.
·  [ISO 93] ISO/CEI 10646-1 Technologie de l’information. Jeu universel de caractères codés sur plusieurs octets : 1993.
·  [ISO 98] ISO/CEI TR 11017 : 1998 – Cadre pour l’internationalisation
·  [ISO 99-1] ISO/CEI 15897 : 1999 – Procédures pour l’enregistrement des éléments culturels.
·  [ISO 99-2] ISO/CEI 8859-15 : 1999 Technologie de l’information – Jeux de caractères graphiques codés sur un seul octet– Partie 15 : alphabet latin n°9.
·  [LONG 99] Long M. « La langue française dans le domaine du droit », La langue française à la croisée des chemins. Actes du colloque organisé par la fondation Singer-Polignac, octobre 1998, Paris : l’harmattan. 1999.
·  [MOR 99] Morin J-Y. « Langue française en Amérique du Nord. Enjeux dans le processus de mondialisation ». La langue française à la croisée des chemins. Actes du colloque organisé par la Fondation Singer-Polignac (octobre 1998, Paris). Paris : l’Harmattan.1999.
·  [UNI 00] The Unicode Consortium. « The Unicode Standard Version 3.0 ». Reading (Massachusetts) : Addison-Wesley. 2000. Traduction française à http:// hapax. iquebec. com/
 
NOTES
 
[1]Glyphe : forme visuelle. Pour plus d’information, se reporter aux articles de Jacques André, Olivier Randier et Yannis Haralambous du présent numéro de la revue.
[2]Passage d’un système alphabétique à un autre système alphabétique.
[3]Notation de la prononciation d’une langue donnée au moyen du système de signes d’une langue de conversion.
[4]Voir l’article de Henri Hudrisier dans ce même numéro.
[5]American Standard code for Information Interchange.
[6]UCS en anglais pour universal character set.
[7]Les dernières versions de la norme et du standard se distinguent probablement de la même façon. Malheureusement nous n’avons pas pu le vérifier car la norme ISO/CEI 10646-2 : 2001, n’est pas consultable en ligne, ni à l’AFNOR.
[8]Nous utilisons les abréviations ou sigles français, même si trop souvent on trouve les sigles anglais dans des textes français. Ici donc : CJC pour Chinois Japonais Coréen au lieu de CJK Chien Japanese Korean, JUC pour Jeu Universel de caractères au lieu de UCS Universal Character Set, etc. Voir l’index à la fin de ce numéro.
[9]Malgré tout, certaines langues régionales n’ont pas tous leurs caractères (le CH du breton, par exemple) dans Unicode.
[10]Exceptions : API, les symboles mathématiques, le khmer, le chéroki, la musique occidentale, le mongol, le CJC, etc.
[11]L’Union latine est une institution vouée à la promotion et à la diffusion de l’héritage commun et des identités du monde latin.
[12]Petite chronologie : naissance de la francophonie à la conférence de Niamey en 1969 ; institution : Haut Comité de la langue française en 1966 ; Agence de coopération culturelle et technique, création de l’Alliance française en 1883 ; 1984 création du Haut Conseil de la francophonie ; 1989 Délégation générale à la langue française ; Agence de la francophonie ; 1986 : premier sommet des chefs d’État et de gouvernement ayant en commun l’usage du français, instauration d’un secrétariat d’État chargé de la francophonie.
[13]Révision de l’article 2 de la constitution de 1958 : loi du 2 juin 1992.
[14]Dates récentes importantes pour le français : décret n° 84-171 du 12 mars 1984 instituant un Haut Conseil de la francophonie, réunion de personnalités françaises et étrangères pour définir le rôle de la francophonie.Décret n°89-403 du 2 juin 1989 instituant un Conseil supérieur de la langue française et une Délégation générale à la langue française.Décret n° 94-665 du 4 août 1994 (dite « loi Toubon ») prévoit des sanctions pénales lorsque la langue française n’est pas employée dans les cadres prévus par la loi, par exemple « le fait de ne pas employer la langue française pour toute inscription ou annonce destinée à l’information publique ». Cette loi symbolise une réaction défensive par rapport à la mise en place de l’Europe. La langue de rapport à l’État doit rester le français. Les langues régionales sont enseignées mais ne peuvent faire valoir leur droit sans s’opposer à la constitution.
[15]Classification établie à partir du classement des états selon [DAL 85, p. 14].
[16]Voir l’étude réalisée par l’Agence de la francophonie – Union latine- FUNREDES –octobre 1998 : http// www. funredes. org, http// www. unilat. org, http// www. agence. francophonie. org
[17]La nuance entre multilinguisme et plurilinguisme apparaît selon nous ici dans le fait qu’il s’applique particulièrement à une informatique qui saurait rendre plusieurs langues mais assurerait également les échanges entre ces langues. Le terme plurilinguisme définit une situation où les langues en présence dans un même environnement, un pays, une région, un document. Les définitions des deux termes subissent quelques variations selon les domaines où elles s’appliquent, les points de vue.
[18]Ces enjeux sont répertoriés par la Délégation générale à la langue française : http// www. culture. fr/ culture/ dglf/ rifal/ enjeux. htm
[19]Voir l’article de Jacques André paru dans Cahier GUTenberg définissant ce caractère et expliquant pourquoi il ne figure pas dans l’alphabet latin – 1 : http// www. gutenberg. eu. org/ pub/ GUTenberg/ publicationsPDF/ 25-andre. pdfLe caractère « œ » est présent dans le répertoire latin n° 9. Voir l’article de Jacques André paru dans Document numérique, vol. 2, p. 231-240.
[20]Pour plus de détail, on peut se référer aux documents normatifs sur le sujet : cadre pour l’internationalisation [ISO 93], Procédures pour l’enregistrement des éléments culturels [ISO 99-1].
[21]Nous reviendrons sur ce point dans le paragraphe consacré à l’internet et l’usage du français. Il faut noter l’existence à un niveau national et international d’un grand nombre de regroupements et d’associations de professionnels et de consommateurs en faveur du multilinguisme et de l’internationalisation des logiciels dans le domaine des TIC : AILF (association des informaticiens de langue française), AFUL (association francophone des utilisateurs de Linux et des logiciels libres)…
[22]Depuis 1996, sous la direction de Henri Hudrisier (Université Paris 8, département documentation), de Nadine Lucas (CNRS) et sous l’égide de l’Agence universitaire francophone, et la coordination de Sylvie Baste.
[23]Voir cependant l’article de Andrei Popescu dans ce numéro.