2001
Revue Française de Linguistique Appliquée
Correcteurs orthographiques et grammaticaux
Quel(s) outil(s) pour quel rédacteur ?
Christine Jacquet-Pfau
Collège de France et certal (inalco)11, Place Marcelin BerthelotF-75231 Paris Cedex 05Tél. : 01.44.27.10.30
Cet article se propose de remettre en question l’évaluation des outils dits de "correction", orthographique et syntaxique, par les utilisateurs. Plusieurs critères doivent être pris en compte : le fonctionnement même des correcteurs, qu’ils soient intégrés ou autonomes, la configuration particulière de chacun d’entre eux et enfin les contraintes de correction, qui, on l’oublie trop souvent, doivent être précisément définies en fonction du mode de vérification souhaité par l’utilisateur. Nous montrerons que la notion même d’erreur est, dans ce contexte, à redéfinir. Puis nous examinons les principales caractéristiques des correcticiels et proposons une typologie des utilisateurs. Enfin, nous nous intéressons au rôle de ces outils pour l’apprentissage du français.
This article intends to question the users’ assessment of so-called correction tools, spelling correction and syntactic recovery. Several criteria should be considered, namely : a- how correctors, whether integrated or autonomous, will operate; b- what should be their particular configuration in each case; and c- which correction constraints should precisely be defined in connexion with the users checking process. Our purpose is firstly to show that the use of the word "error" is, in this context, to be settled; secondly to examine the main characteristics of the ’correcticiels’, and thirdly to propose a users’ typology. Finally we will make a few suggestions as to how these tools can be used in the acquisition of the French language.
correcteur : [...] inform. Logiciel destiné à la correction automatique de l’orthographe d’usage des textes. V. vérificateur.
vérificateur [...] Vérificateur orthographique : logiciel permettant, sur traitement de texte, de vérifier l’orthographe des termes employés, par comparaison avec un dictionnaire informatique. V. correcteur.
(Le Petit Robert, 2000)
correcteur 1. Édition. Personne qui corrige les épreuves et en élimine les erreurs, les coquilles. Un correcteur d’imprimerie. Le corrigeur exécute les corrections demandées par le correcteur. […]
corrigeur Édition. Personne qui exécute les corrections indiquées par le correcteur sur les épreuves.
(Dictionnaire de l’Académie, 1994)
L’informatisation des langues et l’accès aux technologies modernes de l’information, et en particulier à Internet, a entraîné le développement d’outils spécialisés (logiciel de traitement de texte, correcteurs orthographiques et grammaticaux, dictionnaires en ligne, outils de recherche d’informations notamment sur le Web, outils d’aide à la traduction, synthèse et reconnaissance de la parole,…). Si ces outils s’imposent comme la condition nécessaire de la survie des langues, ils participent par ailleurs à un nouveau mode d’écriture où il apparaît, entre autres, que la notion de faute ou d’erreur trouve une place en quelque sorte privilégiée. On écrit plus vite, sans véritable contrôle - au moins dans une première étape - de la forme, aussi bien orthographique que stylistique. Certes, nous vivons dans une société où l’urgence fait de plus en plus loi, mais les outils informatiques permettent à la fois de revenir facilement sur ce qui a été écrit, de le corriger, de l’améliorer et en même temps offre des outils d’aide à la rédaction et à la correction qui laissent à penser à l’utilisateur que l’ordinateur fera à sa place ce travail laborieux, le libérant pour d’autres tâches plus attractives.
L’une des fonctions les plus utilisées est celle qui est offerte par les outils d’aide à la correction, également appelés correcteurs ou correcticiels (correcteurs orthographiques et correcteurs grammaticaux). Ces outils, qui permettent d’améliorer la qualité du document réalisé, sont en effet aujourd’hui très accessibles puisque, sous leur forme la plus simple, ils sont dorénavant intégrés dans tous les logiciels de traitement de texte, et, sous leur forme la plus élaborée, présentent de plus en plus souvent une interface avec les logiciels de traitement de texte ou de messagerie électronique les plus courants (Word, Quark Xpress, Adobe PageMaker pour Pro Lexis, Word, WordPerfect, ClarisWorks… pour Antidote, une vingtaine de logiciels pour le Correcteur 101 grâce à la technologie Symbiose Plus, y compris des logiciels liés à Internet tels Eudora, Netscape, Outlook Express…, pour Pro Lexis). Conçus initialement pour des rédacteurs professionnels (en particulier dans le domaine du journalisme et de la bureautique), ils ont été rapidement utilisés par un public de plus en plus diversifié, pour des tâches très différentes, allant de la correction rapide de textes simples à l’analyse fine de documents complexes et à l’utilisation comme ressources pédagogiques en classe scolaire.
Les avis émis par les utilisateurs sur les correcteurs répondent sommairement à deux types de discours opposés : pour certains le correcteur est un outil miracle, auquel ils peuvent confier la correction de leurs écrits sans hésitation et sans contrôle a posteriori
[1]; pour d’autres, plus nombreux, cet outil est incompréhensiblement défectueux.
Alors, qu’en est-il réellement ?
D’une manière très générale, comme tout logiciel en ingénierie des langues conçu pour un large public, un correcteur commercialisé présente inévitablement des inconvénients et des lacunes pour un utilisateur ou un groupe d’utilisateurs restreint. De manière plus précise, nous voudrions montrer dans cet article qu’il n’y a pas de bons ou de mauvais correcteurs, mais une bonne ou mauvaise adéquation entre la demande de l’utilisateur, la connaissance qu’il peut avoir de l’outil qu’il utilise et les caractéristiques du logiciel.
2. Historique et typologie historique des correcteurs
2.1. Historique
Trouver une solution extérieure au rédacteur pour corriger d’éventuelles erreurs orthographiques relève d’une préoccupation ancienne qui date d’avant l’informatique à proprement parler. En 1918, puis en 1922, Odell et Russell avaient déjà proposé des méthodes pour la correction orthographique. Mais c’est à partir de 1957 qu’ont été développés des programmes destinés à corriger des erreurs orthographiques :
- dans des mots isolés, c’est-à-dire des mots figurant sur des listes, par exemple les noms mentionnés sur les listes de passagers des compagnies aériennes (Glantz, 1957),
- dans les mots clefs des bases de données (Blair, 1960 ; Davidson, 1962 ; Damerau, 1964).
Ces premiers programmes ont permis la conception des correcteurs dits de première génération, dont le processus correspond à celui de "correcteurs lexicaux" stricto sensu. Leur base de données est une liste de mots ordonnée alphabétiquement à laquelle est comparée la liste non ordonnée alphabétiquement des mots du texte. La comparaison se fait entre des chaînes de caractères : si le mot du texte n’est pas dans la liste de référence, le correcteur signale une erreur. Ce type de correcteurs est aujourd’hui le fondement de la plupart des correcteurs intégrés aux logiciels de traitement de texte.
Les correcteurs dits de deuxième génération sont des "correcteurs grammaticaux heuristiques". Ils représentent un progrès considérable sur les précédents dans la mesure où ils font intervenir des grammaires locales, qui analysent le contexte immédiat du mot et permettent de déterminer, par exemple, les règles d’accord propres à la langue pour laquelle ils ont été élaborés. Toutefois ces règles ne sont appliquées qu’à des contextes simples et localisés. C’est ce type de correcteur qui est encore utilisé dans les correcteurs grammaticaux intégrés dans les traitements de texte.
Enfin, les correcteurs dits de troisième génération fonctionnent sur une analyse grammaticale complète de phrases complexes. Autonomes, beaucoup plus élaborés, multifonctionnels, ces correcteurs sont maintenant intégrables dans plusieurs logiciels d’aide à la rédaction (traitement de texte, messageries, moteur de recherche, Publication Assistée par Ordinateur (PAO)…) parmi les plus courants prédéfinis par le concepteur du logiciel (Word, Wordperfect, ClarisWorks…). Ils emploient, entre autres, des technologies relevant de l’intelligence artificielle. Mais la complexité même qui en permet les performances est la cause de nombreuses fausses détections (voir ci-dessous). Leur fonctionnement fait appel à des technologies innovatrices en matière d’intelligence artificielle.
2.2. Typologie
Le développement à la fois qualitatif et quantitatif de ce type d’outil doit conduire à remettre en question la notion même de correcteur. Ce terme recouvre en effet des traitements et des outils très différents dont il convient, pour en analyser les ressources, de dresser tout d’abord une typologie, à laquelle ne peut aujourd’hui se substituer le rapide panorama chronologique que nous avons ci-dessus esquissé.
La base de la typologie que nous en proposons ci-après est la distinction entre correcteurs intégrés et correcteurs autonomes. Précisons toutefois que nous ne nous intéresserons ici qu’aux correcteurs "visibles" et non aux correcteurs qui constitueraient les modules de système fermés, tels les logiciels d’OCR (Optical Character Recognition).
L’utilisation croissante des ordinateurs à la fois pour la saisie de documents, manuelle, par scanner ou par saisie vocale, et pour la recherche dans des bases de données (encyclopédies, internet…) a rendu nécessaire l’intégration de modules de correction au minimum orthographique dans ce type de logiciel. Dans certains d’entre eux, notamment les traitements de texte, sont également intégrés des modules de correction grammaticale, minimale pour ne pas trop alourdir le système en termes de mémoire et de temps. Mais, pour certaines tâches de correction plus élaborée et plus complète ont été développés des logiciels de correction autonomes, ces logiciels reposant sur la présence d’une analyse syntaxique mettant toujours en œuvre en amont un module d’analyse lexicale et, en aval, dans certains cas, un module d’analyse ‘stylistique’ plus ou moins développé. Nous reviendrons sur la place de la sémantique dans ces correcteurs.
A l’intérieur de ces deux grandes catégories de correcteurs, il est nécessaire de procéder à des distinctions plus fines :
- Les correcteurs intégrés
- dans des logiciels de traitement de texte
[2]
- dans des logiciels de PAO (Publication Assistée par Ordinateur)
- dans des logiciels de messagerie électronique
- dans des outils de consultation de bases de données allant de l’encyclopédie au Web, le plus souvent très rudimentaires, souvent réduits à une fonction de phonétisation
- dans des logiciels plus spécifiques ou en cours de développement. Nous donnerons l’exemple d’un projet d’un correcteur automatique d’épreuves d’examen, lequel intégrait dans ces données, entre autres "le nombre de fautes d’orthographe commises" :
- A Duke University educational psychology professor says he has written a program that matches a human’s ability to evaluate the quality of English papers, based on weighted measures of traits such as sentence length and structure, spelling accuracy, vocabulary choice, etc. (Atlanta Journal-Constitution, 14 Aug 1995).
- Les correcteurs autonomes
[3]
- outils très complets, liés à une application (en général à un logiciel de traitement de texte), ils associent la correction orthographique, la correction syntaxique, la correction stylistique, mais encore fort peu la correction sémantique.
Cette typologie pourrait guider l’utilisateur dans le choix d’un correcteur approprié aux tâches qu’il souhaite lui confier. Nous pouvons en effet considérer que les moyens mis en œuvre dans chaque catégorie ci-dessus présentée sont en mesure de répondre à des objectifs bien précis et que la connaissance et la maîtrise des outils passent d’abord par la définition des tâches à accomplir. Le temps disponible et la quantité des informations à traiter figurent parmi les premiers critères. Corriger des erreurs d’orthographe dans une liste de mots-clefs ne nécessite pas de mettre en œuvre le correcteur grammatical, et encore moins l’option "style", de même que la correction d’un communiqué de presse rédigé et publié dans l’urgence requiert un temps de correction très rapide.
L’analyse de l’adéquation entre les contraintes imposées par le type de correction et les outils développés dans le correcteur sera appliquée ici essentiellement aux correcteurs orthographiques et grammaticaux intégrés dans des traitements de texte et à des correcteurs autonomes.
3.1. La notion de faute
L’utilisation de l’ordinateur ainsi que l’accélération de la communication de l’information due en grande partie à l’essor des nouvelles technologies, a très vite entraîné des modifications profondes du mode d’écriture. On écrit vite, laissant la priorité au contenu, sachant que toute modification sera facile à faire et que, par ailleurs, on dispose d’outils censés contrôler au fur et à mesure ou a posteriori les fautes d’orthographe. Ajoutons un temps de relecture de plus en plus réduit et l’on comprendra que ce mode d’écriture entretient avec la notion de faute une relation nouvelle : le risque de fautes s’accroît tandis que la correction humaine est en partie relayée par des outils automatiques.
L’élément de base que traite un correcticiel est toujours une chaîne de caractères comprise entre deux espaces (le retour à la ligne étant traité comme une espace). Lorsqu’une chaîne de caractères ne correspond à aucune des formes du lexique interne, une "erreur" est affichée. Au cours du processus de vérification syntaxique, le logiciel ne peut poursuivre l’analyse de la phrase si l’erreur n’est pas corrigée. Pour aider le correcteur humain, le logiciel lui propose habituellement une liste de graphies possibles, susceptibles de remplacer la forme erronée : il s’agit le plus souvent de graphies possibles établies par ressemblance alphabétique combinée à des éléments de ressemblance phonétique (en présence de la graphie *pésible, le correcteur orthographique proposera paisible - par transcription phonétique -, pénible, passable, passible, possible - par ressemblance alphabétique). Mais, dans un nombre de cas non négligeable, aucune proposition ne peut être faite : il s’agit notamment des néologismes dont aucune forme ne peut être suggérée par les calculs mis en œuvre par le correcticiel (c’est précisément le cas de ce dernier terme, entre autres, pour WordPerfect 8).
Le processus de vérification et de proposition de correction repose donc sur une acception bien particulière de la notion de "faute", ou, plus exactement d’erreur. Les performances des outils de traitement automatique des langues sont étroitement liés aux données dont ils disposent. S’ils échouent, s’ils donnent une information insuffisante, incomplète ou erronée, cela est dû à deux raisons essentielles : ou les données à traiter sont inconnues ou les règles de calcul sont incorrectes ou incomplètes. Il est donc préférable de parler de "non-attendu" (Sabah, 1989), dans le sens où l’application ne peut traiter, dans le cas soumis, le mot ou la phrase. Une séquence non-analysable ne peut être obligatoirement associée à une erreur, laquelle se pose par rapport à une norme. La norme d’un système automatique de vérification orthographique ou syntaxique est constitué des lexiques et des règles qui lui sont associés.
3.2. Typologie des erreurs détectées par les correcteurs
Est considéré comme"erreur" tout ce qui n’est pas reconnu par le système :
- les formes graphiques ne correspondant pas à une forme mémorisée dans le lexique du correcticiel ;
- les formes graphiques ne correspondant à aucune des formes générées plus ou moins automatiquement (pour l’essentiel, les formes fléchies) :
- mots mal orthographiés reconnus comme erronés,
- mots justes reconnus comme erronés (flexions incomplètes, mots absents du lexique, mots étrangers, néologismes, termes, etc.) ;
- toute structure phrastique ne correspondant à aucune des règles syntaxiques enregistrées.
Les erreurs d’orthographe relèvent soit du niveau lexical, soit du niveau flexionnel. Les correcteurs orthographiques ne font, en l’état actuel, aucune hypothèse, catégorielle et encore moins sémantique, sur un mot non stocké dans un lexique.
Le niveau lexical concerne toutes les erreurs portant sur l’écriture du mot hors contexte et mettant en jeu :
- une lettre ou un groupe de lettres, une syllabe (erreurs de performance),
- un graphème (lettre ou groupe de lettres correspondant à un graphème),
- un morphème,
- un mot,
- deux mots identiques consécutifs ("doublons"),
- les marques de genre et de nombre qui ne sont pas des morphèmes admis, quel que soit le contexte phrastique (*chevals),
- les marques de flexion verbale qui ne sont pas des morphèmes admis, quel que soit le contexte phrastique (*disez).
La vérification des règles d’accord et de conjugaison intervient au niveau de l’analyse syntaxique et rend nécessaire la mise en œuvre du processus de correction grammaticale.
Cependant, pour être pertinente, cette typologie doit être affinée : à la notion de norme doit être adjointe une typologie de l’erreur prenant en compte le processus qui conduit l’utilisateur à l’erreur. Pour ce faire, nous utiliserons la classification en classes d’erreurs proposée par Sabah (1989). D’après ce spécialiste de l’intelligence artificielle, la distinction introduite par Chomsky entre compétence (manque de connaissances) et performance (inattention), si elle correspond à une distinction contestable, permet d’approcher deux types d’erreurs :
- les erreurs de performance, qui sont liées à l’"emploi effectif de la langue dans des situations concrètes" : erreurs typographiques (erreur de frappe sur le clavier, substitution d’une touche clavier par sa voisine, oubli de majuscule…),
- les erreurs de compétence, qui sont liées à une méconnaissance de la norme (erreurs phono-graphiques, découpage en morphèmes…).
Il n’en reste pas moins que cette typologie ne permet pas de distinguer :
- les erreurs dues au système (non-attendues),
- les erreurs dues à l’utilisateur.
Or, si nous admettons que pour détecter puis corriger l’erreur il est nécessaire de construire une "grammaire des fautes", laquelle, comme l’a écrit J.-M. Zemb (1984, 757), "est en elle-même l’entreprise la plus subtile, la plus sévère et la plus patiente de toutes celles qui sollicitent le linguiste", nous pourrions en proposer la typologie suivante, chaque catégorie sollicitant des stratégies d’analyse différentes :
- erreurs de performance de l’utilisateur :
- erreurs dues à l’inattention
- inversion de deux lettres adjacentes (*lingiustique), plus rarement un groupe de deux lettres avec une seule lettre (*claveri)
- oubli d’une lettre (*gammaire)
- substitution de deux touches du clavier, le plus souvent juxtaposées (*suntaxe)
- appui prolongé ou répété sur une touche du clavier (*moorphologie)
- oubli d’un diacritique (*neologisme) ;
- erreurs de saisie vs erreurs d’orthographe : la faute est ici considérée comme un assemblage de lettres inexact : certains correcteurs utilisent des modèles de digrammes et de trigrammes impossibles en français (hh, qq, hq, rux, coz…). Cette méthode ne détecte toutefois que peu de fautes d’usage.
- erreurs de compétence de l’utilisateur :
- erreurs phono-graphiques : substitution d’un graphème à un graphème de même prononciation. Dans ce cas, l’utilisateur ignore l’orthographe correcte du mot et produit une orthographe approximative en s’appuyant sur des critères phonétiques.
- erreurs de flexion : erreurs sur les formes du pluriel, erreurs sur les formes verbales (*chevals, vous *disez). Les erreurs d’accord relèvent, elles, directement du correcteur syntaxique.
- erreurs de segmentation (de reconnaissance de mot) : résultant très souvent d’une erreur de frappe, elles sont très irrégulièrement détectées en tant que telles, à plus forte raison si l’orthographe des constituants est inexacte (*lévier, "le salonsalamanger" de Queneau), mais également les mots dissociés (pomme de terre), les unités lexicales discontinues (ne … pas, ne … jamais), les coupures de mots erronées (*le peti tâne).
- erreurs pouvant relever de la performance comme de la compétence : les erreurs typographiques en sont un excellent exemple.
A ces erreurs ’humaines’ doivent être ajoutées les erreurs du système :
- les mots absents du lexique : néologismes. créations lexicales (hapax, mots-valises…, emprunts ("bloudjinnzez", Queneau), noms propres ne figurant pas dans le lexique, abréviations, dérivations à partir d’un sigle ;
- parfois les affixes ou les éléments de composition "savante" ;
- les signes employés avec une fonction inhabituelle (par exemple le trait d’union pour marquer un style "haché") ;
- les variantes orthographiques (micro-organisme / microorganisme, varec / varech, yogourt,/ yoghourt, haschisch /hachisch / haschich) ;
- les mots appartenant à une langue étrangère : l’utilisateur doit au préalable spécifier la langue dont il va utiliser le lexique, si ce dernier est intégré au correcteur ;
- les lettres inconnues de l’alphabet français (Capharnaüm, cañon).
Les algorithmes destinés à analyser et à traiter les erreurs de performance ont évidemment été les premiers à avoir été développés. Ils sont nombreux et font preuve d’une certaine efficacité. Quant aux erreurs de compétence, elles sont essentiellement traitées par des méthodes phonographiques, mais reposent encore trop souvent sur des règles ad hoc, éloignées de préoccupations linguistiques…
3.3. Analyse du processus de correction
Le processus de "correction" se décompose en fait en deux étapes bien distinctes : dans un premier temps, il vérifie qu’il peut reconnaître le mot ou la structure syntaxique isolés et, s’il échoue, il peut alors proposer une ou plusieurs solutions pour la correction. En dernier recours, il revient donc à l’utilisateur de valider ou non l’un des choix proposés ou de l’introduire dans son texte et, éventuellement, dans un dictionnaire personnel (dont la mémoire est soit limitée à la session de travail, soit étendue à toutes les sessions ultérieures tant qu’il n’y aura pas suppression manuelle).
Le fonctionnement des correcteurs suit donc un processus qui se décompose en quatre étapes :
- la vérification lexicale,
- la proposition et le choix du mot à retenir,
- la vérification grammaticale,
- la proposition et le choix de la solution.
Seules les étapes 1 et 2 sont actives dans les correcteurs strictement orthographiques, les étapes 1/3 et 2/4 pouvant être regroupées à l’écran pour l’utilisateur dans les correcteurs grammaticaux, avec quelques variantes (Hugo, par exemple, ne peut passer à l’étape 3 que si les étapes 1 et 2 ont été satisfaites).
4. Du côté de l’utilisateur
Pour évaluer un correcteur, il est indispensable de prendre en compte le profil de l’utilisateur. Or celui-ci, le plus souvent, connaît mal le fonctionnement, les contraintes, les ressources comme les limites de l’outil qu’il souhaite acquérir ou qu’il emploie. La première erreur à ne pas commettre est de maintenir la confusion entre correcteur machine (défini par des règles plus ou moins complètes, plus ou moins élaborées, mettant en œuvre encore peu d’outils linguistiques…) et correcteur humain. Cette confusion est, hélas, entretenue par une terminologie inappropriée. Le mot correcteur est en effet ambigu et sémantiquement incorrect, puisque le rôle premier de l’outil est de vérifier (et encore, selon les critères définis ci-dessus) ou plutôt de détecter les erreurs, laissant le soin à l’utilisateur d’accepter ou non d’abord de prendre en compte l’erreur (réelle, possible ou inexacte), ensuite de remplacer le segment marqué (mot, syntagme, signe typographique) par la proposition ou l’une des propositions suggérées. Il serait donc plus exact de parler de Correction Assistée par Ordinateur (CAO). Nous verrons ci-dessous qu’une Correction Automatique (CA), à supposer qu’elle existe, serait, en l’état des technologies actuellement mises en œuvre, des plus inefficaces, multipliant plutôt les erreurs qu’en réduisant le nombre…
4.1. Les paramètres à prendre compte par l’utilisateur
La vérification / correction d’un texte met en œuvre différents paramètres, parmi lesquels :
- la configuration du matériel informatique disponible (mémoire, vitesse…)
- le mode de correction :
- "à la volée", c’est-à-dire au fur et à mesure de la saisie du texte. La plupart des traitements de texte permettent d’activer cette fonction : l’erreur est immédiatement soulignée. Le mode de correction est alors rapide.
- la correction "rapide" : le correcteur contient dans un fichier une liste - souvent réduite - des erreurs orthographiques les plus fréquentes que l’utilisateur peut compléter et mettre à jour. L’accès à ce fichier permet de visualiser, face au mot mal orthographié ou encore face à des abréviations volontaires pour accélérer la saisie leur forme correcte (linguistqiue / linguistique ; courier / courrier… ; càd / c’est-à-dire ; pbl / problème…). Il convient cependant de veiller, au moment de la correction effectivement rapide qu’il n’y a aucune ambiguïté avec un autre mot (éviter, par exemple, de corriger tous les louis, roi ou d’or, en Louis…). Cette fonction ne traite que des formes et n’opère aucune lemmatisation (vernes / verbes mais pas verbe).
- après la saisie d’un texte : la vérification est alors indépendante de la saisie du texte et se fait sur la totalité du texte ou des parties de textes sélectionnées par l’utilisateur. Cette vérification est un des modes de la correction orthographique intégrée, elle est le principe même des correcteurs autonomes.
- La nature de la correction par rapport au temps dont dispose l’utilisateur, de la correction orthographique minimale à la correction grammaticale, voire stylistique, qui exige un temps beaucoup plus long.
- L’évolution des technologies permet de réduire, à tâches égales, le temps du processus de vérification, mais la durée des opérations demeure très inégale selon le mode de correction choisi ("automatique", "rapide", exhaustive, grammaticale, stylistique…). Notons ici que Pro Lexis est particulièrement rapide car peu sensible à la longueur des phrases grâce à la technologie de propagation linéaire de contraintes, type de programmation qui permet d’accélérer le temps de traitement des difficultés. Elle permet en effet, grâce à un automate, de rechercher les contraintes imposées par certaines règles. Le fait que les règles soient remplacées par des contraintes réduit le bruit (Pro Lexis fait une fausse détection sur environ 1000 mots, soit 1/4 de moins environ que les autres correcteurs).
- La nature du texte soumis à la vérification
- Une lettre administrative ne présente pas les mêmes difficultés que la célèbre dictée de Mérimée… Un texte de spécialité demande un aménagement des informations lexicales et rendra indispensable d’avoir recours à un dictionnaire personnel ou un dictionnaire spécialisé, quand cela est possible.
4.2. Paramétrage de la correction
Afin d’adapter la correction à la fois à la compétence recherchée par l’utilisateur et au temps dont il dispose, les correcteurs offrent la possibilité de paramétrer les modalités de correction :
- détection des mots identiques consécutifs ("doublons"),
- distinction des majuscules et des minuscules,
- contrôle sur les mots contenant des chiffres,
- test sur la longueur des phrases,
- test sur la complexité des phrases,
- arrêt sur toutes les phrases ou seulement sur celles où au minimum une erreur est détectée, ce qui exclut de visualiser l’analyse des phrases correctes (Correcteur 101).
Ainsi Antidote propose-t-il trois niveaux d’information différents :
- l’"alerte", sous forme de message bref apparaissant directement au-dessus de l’erreur détectée ;
- l’"explication contextuelle", détaillée dans une fenêtre ;
- la "grammaire", qui fait apparaître la règle appliquée, et qui est souvent déjà intégrée dans l’explication contextuelle.
Le nombre d’options n’est pas en soi un critère de qualité : en effet, plus elles sont nombreuses, plus elles peuvent "rebuter" l’utilisateur qui alors se restreindra au strict minimum. Il revient par conséquent au rédacteur de définir avec pertinence les paramètres par défaut, lesquels sont évidemment toujours modifiables, et d’analyser les conséquences de ses choix (par exemple savoir si l’on demande de vérifier la présence d’une majuscule en début de phrase, que cette position est interprétée par le logiciel comme un mot précédé d’une ponctuation forte (point, point d’interrogation, point d’exclamation) suivi d’un ou plusieurs espaces (ou d’au moins un retour à la ligne).
La fonction "Aide", toujours présente, joue un rôle important, sous forme d’aide en ligne (la plupart du temps accessible par un index plus ou moins complet, plus ou moins significatif) et/ou sous forme d’un manuel, souvent très décevant, il faut bien le reconnaître. Notons ici l’excellent manuel réalisé par l’équipe de linguistes de Diagonal, véritable ouvrage de référence sur la conception et les modalités de Pro Lexis. A l’inverse, notons chez Correcteur 101 un "Glossaire" très succinct des termes grammaticaux, destiné il est vrai à donner, surtout par l’exemple, juste quelques notions élémentaires à un large public. Antidote fournit une aide, en ligne et dans son manuel, succincte mais claire. La consultation de l’aide par l’intermédiaire de la connexion au site internet du concepteur commence à être utilisée (Correcteur 101, dans la version Pro Symbiose), ce qui entraîne encore pour l’instant certaines restrictions d’utilisation.
Enfin, un autre critère de grande importance, mais plus difficile à déterminer par l’utilisateur, est celui de l’équilibre entre silence ou sous-détection (le correcteur laisse passer une erreur) et bruit ou sur-détection.
Le silence, au niveau de la correction orthographique, peut concerner une faute d’accord, des homonymes et, d’une manière beaucoup plus générale, tout mot figurant dans le dictionnaire, même s’il n’est pas employé à bon escient. Pour pallier cet inconvénient, il faudrait un lexique plus complet, des règles plus nombreuses, un temps d’analyse plus long (à titre d’exemple, Correcteur 101 a enregistré déjà 4500 règles de syntaxe dont 400 règles d’accord, qui traitent de plus de 3000 difficultés de langue).
Le bruit concerne moins la vérification orthographique que la vérification syntaxique, d’autant plus que l’analyse grammaticale des correcticiels attire l’attention sur toutes les erreurs possibles. Nous trouvons là l’origine d’un des reproches les plus fréquents relevés par les utilisateurs. Cet inconvénient est en partie lié à la difficulté d’analyser des phrases longues et complexes. La technologie dite de "propagation linéaire par contraintes" (voir 4.2) devrait permettre de remédier à cette difficulté et ainsi de réduire considérablement le nombre de détections de fausses erreurs.
Concluons ces quelques observations en insistant sur la nécessité de comprendre que la notion de qualité du système de correction est déterminée certes par les capacités linguistiques et techniques du logiciel mais aussi par l’utilisateur dans la mesure où il connaît le fonctionnement des correcteurs et leurs limites et sait choisir puis adapter l’outil aux contraintes de la correction souhaitée.
4.3. Typologie des utilisateurs
Afin de choisir le correcteur auquel il va avoir recours et pouvoir en exploiter le maximum de capacités tout en en connaissant aussi les limites, l’utilisateur doit connaître et prendre en compte les principaux paramètres rapidement énumérés ci-dessus. Ces éléments devront être mis en correspondance avec son "profil" : à quel type d’utilisateur appartient-il ?
Il est en effet possible de déterminer différentes catégories d’utilisateurs, en fonction de l’utilisation principale qu’ils font d’un correcteur : usage personnel, professionnel (journaliste, bureautique…), scolaires, didactique… Il ne faut pas non plus omettre de considérer la langue maternelle du rédacteur : ainsi Correcteur 101 a ajouté une option "Corriger les erreurs typiques des non-francophones" qui permet d’augmenter la grammaire afin de corriger certaines erreurs faites par des non-francophones. Autre initiative remarquable, celle des éditions Diagonal qui ont intégré dans la dernière version de Pro Lexis des modules multilingues, notamment une interface plus conviviale et ergonomique, en anglais ou en français, un module d’orthographe anglaise (lexique britannique ou américain) et un module de reconnaissance multilingue : il détecte la présence simultanée de passages en anglais, espagnol, italien, allemand ou français.
5. Une application particulière des correcteurs : leur utilisation dans l’enseignement du français
Comme l’a noté Bibeau (1998) dans son observation dans le domaine des technologies de l’information et de la communication éducative depuis 1983, plus que l’utilisation de nouveaux outils issus du développement des nouvelles technologies, c’est l’évolution même de la didactique qui a entraîné une profonde mutation du pédagogique - et devrait encore beaucoup l’enrichir - : l’enseignement met désormais au cœur de ses préoccupations la compétence et le paradigme constructiviste, dont l’axe directeur est apprendre à apprendre. L’élève doit apprendre à corriger, comme il doit apprendre à rédiger.
C’est bien dans cette perspective qu’il convient de placer le recours aux logiciels d’aide à l’écriture et plus particulièrement aux correcteurs. S’il est actuellement absolument impossible à un élève d’appliquer à une production écrite une correction "automatique", c’est-à-dire sans qu’il ait à intervenir, le même élève pourra avoir recours à un correcteur dans un cadre pédagogique bien défini.
Pédagogiquement, la question se pose alors de savoir si ce type d’aide à l’écriture peut bénéficier ou nuire à l’apprentissage des compétences orthographiques en classe. La question de l’utilisation des correcteurs en milieu scolaire doit être envisagée essentiellement en fonction de deux préoccupations :
- Utiliser un correcteur comme une aide à la correction
Peut-on permettre aux élèves de s’aider de ces outils pour apprendre à produire un texte "sans fautes" ? Les élèves ne vont-ils pas perdre leur jugement critique à force de se fier à l’ordinateur pour corriger leurs textes ? Et l’utilisation de ces outils ne risque-t-elle pas même d’induire des erreurs dans les cas où ils détectent une "erreur" là où il n’y en a pas ?
- Utiliser un correcteur comme une aide à la réflexion, comme un outil, un soutien dans le cadre de l’enseignement d’une langue
Quelques exemples contribueront à illustrer ce rôle.
Le correcteur sera alors utilisé pour faciliter une séance de travail sur les mots : synonymes (Antidote, par exemple propose un million de termes classés par sens sur 54000 entrées), homographes, morphologie, conjugaisons, définitions, césures). Dans le même esprit, une comparaison des items candidats permettra de mieux comprendre le système.
Autre exemple, la recherche de synonymes pour remplacer, par exemple, un mot utilisé plusieurs fois ou trop peu expressif. Cela contribuera à l’enrichissement du vocabulaire.
Nous ne développerons pas l’intérêt des conjugueurs, accessibles sous forme de tableaux de conjugaison (8500 verbes dans Pro Lexis).
La réflexion sur l’orthographe et la grammaire pourra être conduite en analysant les suggestions faites par le logiciel (Pro Lexis demande, par exemple, si l’utilisateur ajoute un adjectif d’indiquer le modèle flexionnel auquel il se rattache (par ex. les adjectifs en -x sont à rattacher à l’un des trois modèles suivants : doux / roux / fameux). De même l’enseignant pourra apprendre à l’élève, à un certain niveau de connaissance, à observer un point de vue critique : les "Bulles d’explication" du Correcteure 101 peuvent ainsi faire l’objet de commentaires, mais cette démarche pédagogique doit être conduite dans la plus grande prudence ! Le métalangage utilisé ne pose pas dans l’ensemble de difficultés et facilite l’accès des scolaires : en général c’est le métalangage des grammaires normatives (Le Bon usage de Goose-Grevisse) qui est utilisé - même si la terminologie utilisée peut se distinguer de celle de l’enseignant) - et les références dictionnairiques restent traditionnelles, plus ou moins contemporaines ou non selon que le dictionnaire est intégré dans le correcteur ou commercialisé avec le correcteur (Littré, intégré dans Cordial, Le Petit Robert, Larousse, accessible depuis le Correcteur 101) :
Ex. du Correcteur 101 : Les paysages sont superbes
superbes adjectif "superbe", masculin pluriel attribut du sujet Les paysages sens = magnifique.
L’effort d’adaptation du langage fait toutefois l’objet de l’effort de certains concepteurs de correcticiels. Ainsi Machina Sapiens a développé Exploratexte, correspondant pédagogique du correcteur bureautique Correcteur 101. Citons encore LogiTexte (Bibeau, 1994).
Nous nous demanderons toutefois s’il n’y a pas alors surcharge de l’information à gérer par l’apprenant (les propositions de correction lexicale peuvent soulever plusieurs difficultés, les observations sur une "erreur" possible lors de la correction syntaxique également). La correction n’est pas toujours adaptée à l’état des connaissances (certaines règles peuvent ne pas avoir été encore expliquées).
Si ce type d’outil peut conduire l’élève vers une certaine autonomie, ce dernier doit nécessairement être accompagné sur ce chemin par l’enseignant, notamment pour éviter que de l’observation d’une "erreur" ne soit induite une règle inadéquate. Le rôle de l’enseignant est également de guider l’observation et de permettre à l’apprenant d’être ensuite capable de l’appliquer à d’autres situations dans les mêmes contextes. Cette démarche interactive entre l’enseignant et l’apprenant est indispensable pour qu’il y ait véritablement apprentissage (intégration, compréhension et transfert). De même il sera important de développer chez l’apprenant son rôle actif (lui demander, par exemple, de ne pas cliquer sur le mot retenu parmi plusieurs candidats mais le réécrire pour mieux en retenir la graphie). Ce qui permet d’affirmer une nouvelle fois qu’un didacticiel, quel qu’il soit, ne peut en aucun cas remplacer l’enseignant ou tout adulte. Un scolaire ne peut comprendre véritablement le fonctionnement même d’un correcteur et il lui sera alors difficile de mettre en doute la correction proposée (réaction que l’on retrouve, quelque peu transposée, chez un grand nombre d’utilisateurs adultes, qui expriment leur incompréhension devant un outil dont ils ne comprennent pas les limites et les contraintes). Les outils d’aide à la correction ne doivent être "que des assistants, ils ne devraient jamais servir de béquilles" (Bibeau, 1998). D’où la nécessité d’apprendre à connaître leur fonctionnement et leurs limites.
La connaissance du fonctionnement des "correcteurs", même générale, doit conduire l’utilisateur à considérer cet outil comme un vérificateur, une aide à la correction, plus ou moins élaborée selon ses besoins.
Il apparaît par ailleurs qu’il est difficile d’établir une échelle des valeurs des différents produits commercialisés, lesquels ne sont finalement pas si nombreux à occuper le marché. Plus intéressant est de déterminer les compétences des différents correcteurs, les points forts développés et d’évaluer parallèlement la nature du travail à effectuer et de choisir son logiciel en fonction de ce rapport compétences / besoins (y compris le rapport qualité / temps).
Enfin, une fois le correcteur installé, il est indispensable que l’utilisateur s’en approprie le fonctionnement et les différentes fonctions pour en fixer les paramètres par défaut en fonction de l’utilisation la plus fréquente qu’il en fera, sans oublier d’en modifier certains paramètres quand cela sera nécessaire. En ce sens, la fonction de personnalisation est l’une des fonctions les plus importantes, mais aussi souvent la plus lourde, d’un correcteur.
Comme dans tout le domaine de l’ingénierie de la langue on doit pouvoir proposer à un utilisateur particulier la possibilité d’adapter un logiciel prévu pour un groupe d’utilisateurs largement défini. Quel que soit l’outil informatique, il est toujours nécessaire à l’utilisateur d’en connaître les possibilités et les limites et d’évaluer au préalable avec pertinence les objectifs recherchés.
Il est de plus en plus fréquent, dans la littérature sur le sujet, de prévoir une nouvelle génération de correcteurs qui utiliseraient des techniques relevant de l’intelligence artificielle, qui permettraient de prendre en compte la dimension sémantique sans laquelle la vérification et la correction d’un texte ne peuvent être réellement performantes. Mais un correcteur conçu pour un type de corpus indifférencié ne pourra jamais remplacer un correcteur humain. En cela l’art du correcteur reste très proche de celui du traducteur.
·
Berten, F. (1999) : Correcteurs orthographiques et enseignement du français. http:// users. skynet. be/ ameurant/ francinfo/ correcteur/ correcteur. html.
·
Bibeau, R. (1998) : Ils apprennent à écrire à l’aide de l’ordinateur. L’intégration des TIC en classe de français (1983-1998). Atelier présenté lors de la 4e rencontre de l’ORME, Marseille, 5 octobre 1998.
·
http:// netia59. ac‑lille. fr/ Ref/ pedagogie/ Robert_Bibeau/ som_Bibeau. html
·
http:// www. fse. ulaval. ca/ pelletier/ apo/ texte8. html#4.
·
Blair, C.R. (1960) : A program for correcting spelling errors. Information and control, 3, 60-67. [cité par Sabah, 1989]
·
Compagnion, H. (1996) : Les correcteurs orthographiques : caractéristiques, mesures et méthodes. http:// www. osil. ch/ eval/ .
·
Damerau, F. (1964) : A technique for computer détection and correction of spelling errors. Journal des ACM, 7-3, 171-176. [cité par Sabah, 1989]
·
Davidson, L. (1962) : Retrieval of misspelled names in an airlines passenger réservation system. Journal des ACM, 5-3, 169-171. [cité par Sabah, 1989]
·
Desilets, M. (1998) : Que penser de l’utilisation des logiciels correcteurs à l’école? Vie Pédagogique 107, 9-12.
·
Glantz, H.T. (1957) : On the recognition of information with a digital computer. Journal des ACM, 4-2, 178-188. [cité par Sabah, 1989]
·
Haït, J.-F. (1998) : Les correcteurs orthographiques à l’école ? L’Ordinateur individuel, 83, 9-10.
·
ISO (1991) : Technologies de l’information - Évaluation des produits logiciels - Caractéristiques de qualité et directives d’utilisation, Organisation Internationale de Standardisation, Genève.
·
Jacquet-Pfau, C. (2001) : Les correcteurs orthographiques et grammaticaux et la réforme de l’orthographe du français. http:// www. fdlm. org/ doss/ correcteur. htlm, [article annoncé dans] Le français dans le monde, "Dossier : Orthographe : La faute à qui?", n° 313, CLE International, 70.
·
Jacquet-Pfau, C. (sous presse) : Les correcteurs orthographiques et grammaticaux : fonctionnement et typologie. Les dictionnaires de langue française au sein de la francophonie : normes et orthographes d’hier à aujourd’hui, La Journée des Dictionnaires, Colloque international, Université de Cergy-Pontoise, 17 mars 1999, Klincksiek.
·
Kukich, K. (1992) : Techniques for automatically correcting words in text, ACM Comp. Surveys, 24-4, 377-439.
·
Kukich, K. (1992) : Spelling Correction for Telecommunications Network for the Deaf. CACM 35-5, 80-90.
·
Sabah, G. (1989) : L’intelligence artificielle et le langage, T. 2 : Processus de compréhension. Paris, Hermès.
·
Zemb J.-M. (1984) : Vergleichende Grammatik Französisch-Deutsch, II. L’Economie de la langue et le Jeu de la parole. Mannheim-Wien-Zürich, Bibliographisches Institut-Duden, Mannheim-Wien-Zürich & Paris, Didier.
[1]
L’anecdote suivante illustrera ce propos. Relisant ma déclaration d’accident de la circulation consignée par l’employé d’un Commissariat de Police, je lui fis observer que "dix minutes" avait par erreur été orthographié "dis minutes". Ce à quoi le préposé me répondit avec conviction : "Ce n’est pas une erreur, mon correcteur n’a pas souligné ce mot." Je n’ai pas cru opportun en une telle occasion d’insister davantage…
[2]
Nous faisons référence, dans cet article, essentiellement aux correcteurs orthographiques et grammaticaux de WordPerfect (version 8) et de Word (version 97).
[3]
Nous avons testé les correcteurs suivants, fonctionnant tous sur PC :
-
Antidote, Druide informatique, Montréal (Québec), Canada, 2000 - http:// www. druide. com
-
Cordial Pro, Correcteur grammatical et analyseur de la langue française, synapse Développement, Toulouse, version 8, 2001 - http:// www. synapse-fr. com
-
Correcteur 101 pro Symbiose Plus, version 5, Machina Sapiens, Montréal (Québec), Canada, 2000 - http:// www. machinasapiens. com
-
Pro Lexis, version 3.5, Editions Diagonal, Sophia-Antipolis, 2001 - http:// www. prolexis. com