Accueil Revues Revue Numéro Article

Langages

2011/3 (n° 183)

  • Pages : 138
  • Affiliation : Numéros antérieurs disponibles sur www.persee.fr

  • ISBN : 9782200927066
  • DOI : 10.3917/lang.183.0089
  • Éditeur : Armand Colin

ALERTES EMAIL - REVUE Langages

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 89 - 104 Article suivant
1

Le déroulement d’une application de traitement automatique des langues (TAL) des textes écrits peut être envisagé comme un processus qui se découpe en plusieurs étapes successives. Il s’agit de transformer une suite indistincte de caractères – lettres, espaces, ponctuations – en un ensemble cohérent d’éléments de nature linguistique – mots, mots composés, syntagmes, phrases, etc. – où chacun de ces éléments se voit attacher un ou plusieurs traits (étiquette) – nature, sens, domaine, etc. Ce travail réalisé, il est alors possible d’effectuer différents traitements : traduction, extraction d’information... À chaque étape, l’application d’une ressource linguistique, quelle que soit sa nature, est nécessaire.

2

La qualité des ressources linguistiques utilisées est donc primordiale et conditionne fortement la pertinence des résultats obtenus. Plusieurs critères peuvent être envisagés. Celui qui nous préoccupe concerne la complétude : l’ensemble des ressources dont nous disposons recouvre-t-il l’ensemble des textes analysés ? La réponse est bien évidement négative. La langue étant en perpétuel mouvement, il est obligatoire de rencontrer un phénomène linguistique qui ne sera pas pris en compte parce que non encore modélisé. Cette inadéquation modèle/texte sera notre seul et unique critère pour désigner, et ce uniquement d’un point de vue informatique, un néologisme. Cette appellation est fausse hors du cadre informatique et le terme plus généralement utilisé est candidat néologisme. Cette appellation signifie qu’une nouvelle analyse, par la machine ou par un être humain, est nécessaire.

3

L’objectif de cet article est de présenter un ensemble de techniques liées à la problématique de la détection et du traitement des candidats néologismes.

4

Après avoir fait un état de l’art des différents outils existants, nous décrirons les différents moyens utilisés, et les difficultés rencontrées, pour constituer un réservoir de candidats. Si cette étape est considérée comme ne présentant pas de difficultés particulières, il est quand même nécessaire de construire son corpus avec soin, la notion de néologisme étant fortement dépendante d’un domaine. Deux types de néologismes seront étudiés : les néologismes de forme, morphologiques, et les néologismes de syntaxe [1][1] Ce type de néologisme est aussi appelé néologisme d’emploi... ou de sens. Pour chacun de ces types, nous présenterons des techniques d’extraction et de classification. Ce dernier point étant fondamental en ce qui concerne les néologismes de forme puisque le principal problème consiste à faire face à la masse de mots inconnus constitués, pour sa plus grande part, de noms propres, d’emprunts et de fautes. La solution de ce problème passe par différentes analyses, notamment morphologiques, par l’utilisation d’heuristiques et par l’expertise d’un être humain via une interface adéquate. L’identification d’un néologisme de syntaxe ou de sens est beaucoup plus délicate et se situe à un niveau d’analyse plus élevé. Le problème rencontré ici se focalise non pas sur la classification, mais sur l’élaboration de modèles, tant numériques que formels, suffisamment robustes.

1. CONTEXTE

5

Quel que soit le système d’écriture considéré, il semble que la notion de mot y soit centrale. Si savoir ce qu’est un mot pose des problèmes aux linguistes, il en est de même en informatique, d’autant plus qu’un ordinateur ne se satisfait pas de définition intuitive.

1.1. À la recherche des mots

6

Le traitement automatique des langues consiste, dans un premier temps, à construire une représentation d’un discours dans un format informatiquement manipulable et normalisé (Heitz 2006). Les traitements, à cette étape, normalisent n’importe quelle source, orale ou écrite, et permettent d’obtenir un document électronique de type texte. Celui-ci consiste en une suite de caractères respectant les règles de la typographie, où la notion de mise en forme est absente. La seconde étape est la segmentation. Celle-ci consiste à regrouper une succession de caractères pour reconnaître des « unités » linguistiques que nous appellerons pour l’instant tokens. L’étape suivante est de comparer ces « suites de caractères » à des ressources linguistiques pour identifier des mots.

1.2. Projection d’informations en provenance de dictionnaires

7

Nous appelons dictionnaires les différentes ressources lexicales utilisées pour attribuer par projection une étiquette à un token : de par la présence de l’entrée arbre dans un dictionnaire, le token arbre devient un mot dont on connaît désormais certaines caractéristiques (genre, nombre, etc.) [2][2] On parle ici d’enrichissement du texte-source, un certain.... L’utilisation de dictionnaires permet de résoudre un certain nombre d’ambiguïtés relatives au découpage « typographique » correspondant à un découpage sans attribution de contenu sémantique (l’apostrophe et le tiret peuvent être séparateurs ou non). Les mots dans le dictionnaire sont traditionnellement associés à une forme canonique que l’on appelle lemme. L’opération de lemmatisation consiste donc à trouver le lemme associé à la forme fléchie d’un mot.

8

L’identification d’un mot à partir d’un token peut se faire soit par analyse, soit en reconnaissance. L’analyse consiste à partir d’une forme fléchie et de règles de flexion pour déduire un lemme. Ainsi, à partir de la règle au pluriel, on remplace le « l » par un « ux » pour certains noms, et du lemme cheval, il est possible de déduire que le token chevaux est la forme plurielle du lemme cheval. Cette manière de représenter les différentes flexions permet de factoriser l’information et ainsi de faciliter, aussi bien pour une règle de dérivation que pour un lemme, l’ajout ou la correction. Il est aussi possible de générer, à partir des règles et de la liste des lemmes, l’ensemble des formes fléchies qui pourront être utilisées en reconnaissance.

9

La reconnaissance nécessite une ressource linguistique composée d’une liste de forme/description, où forme est un mot fléchi et où description regroupe les informations morphologiques associées à ce mot. MORFETIK (Mathieu-Colas 1996-2006 & 2009) [3][3] La ressource utilise une DTD proche de celle proposée..., dont il existe une version au format XML est un exemple de ce type de ressources. Le processus de projection consiste à parcourir le document à analyser token par token et à chercher dans le dictionnaire une forme égale au token, quand c’est possible, pour y associer les informations correspondantes.

1.3. Néologisme

10

La définition de ce qu’est un néologisme est complexe et peut donner lieu à de nombreuses interprétations. Il est cependant évident que ce terme désigne un phénomène lexical qui n’existait pas à un temps t donné et qui existe à un instant t+1. Les deux éléments importants sont donc la présence/absence et l’aspect temporel. Doit être considérée comme néologisme par un locuteur, toute entrée qui non seulement ne fait pas partie de son stock lexical, mais aussi qui satisfait son sentiment néologique. Dans le cadre d’un document médical, ménisectomie ne sera pas considéré comme néologisme, mais parfaitement interprété comme ablation du ménisque bien qu’inconnu du lecteur. La notion de présence/absence fait donc référence à une définition interne d’un état de la langue, que ce soit d’un point de vue morphologique, lexical, syntaxique ou sémantique.

11

D’un point de vue informatique, ces deux éléments se traduisent d’une manière très littérale : la notion d’appartenance à un état de langue d’un mot ou d’une expression se traduit par son absence ou sa présence dans une ressource linguistique numérique. D’une manière plus générale, il existe deux manières d’envisager les choses : soit l’état de la langue est défini par un dictionnaire, que ce soit un lexique ou une grammaire, soit il est défini par un texte ou un ensemble de textes. À ce stade, nous définirons donc un cybernéologisme, i.e. un néologisme potentiel ou candidat néologisme, comme suit :

12
  • soit un texte T et un dictionnaire D, un cybernéologisme est un élément de T qui n’appartient pas à D ;

  • soit un texte T et un texte T’ antérieur à T, un cybernéologisme est un élément de T qui n’appartient pas à T’.

13

D’un certain point de vue, la tâche pour un informaticien de désigner un néologisme est aisé. En effet, il n’est pas besoin de s’appuyer sur une communauté et de vérifier le « sentiment néologique ». La tâche dévolue à l’ordinateur est de fournir un certain nombre de candidats.

14

Ce parti étant pris, alors toute structure lexicale, syntaxique ou sémantique absente de nos dictionnaires est un candidat néologisme. Plusieurs niveaux d’analyse sont envisageables, tout comme dans le modèle standard d’analyse.

15

Ces définitions simples, voire simplistes, permettent une identification rapide et non ambiguë. Cependant, le problème se pose d’une manière différente puisqu’il s’agit au final d’identifier des néologismes réels.

1.4. Néologisme de forme VS néologisme de sens

16

Les termes néologisme formel et néologisme de sens sont souvent mis en avant pour classifier les néologismes. D’un point de vue informatique, cela ne signifie pas obligatoirement qu’il est nécessaire de mettre en œuvre des stratégies faisant appel à des ressources sémantiques pour les extraire. La dichotomie ici n’est qu’apparente. Il est possible, en effet, comme l’indique J.–F. Sablayrolles (à par.), de rencontrer des homonymes formels ou des néologismes syntaxiques qui ne sont pas sémantiques alors qu’un nouveau signifié est créé (p. ex. l’effacement du factitif faire dans signer quelqu’un : « embaucher quelqu’un »).

17

Nous classerons donc les cybernéologismes en fonction de la nature des ressources numériques et des méthodes mises en œuvre qui permettent de les détecter.

2. OUTILS POUR L’ÉLABORATION DE CORPUS À PARTIR DU WEB

18

Trois mots peuvent qualifier le web : taille, diversité et originalité. La taille d’abord, car c’est, de loin, la plus grosse collection de documents jamais exploitée. La diversité, ensuite, car on y trouve des documents de natures très diverses, que ce soit au niveau du contenu (scientifique, économique, culturel, etc.) ou du point de vue du style (rapports, cours, journaux, etc.). L’originalité enfin, car on y trouve des documents présents nulle part ailleurs, qu’ils soient issus de nouvelles formes de communication (forums, courriels, blogs) ou basés sur la notion d’hypertexte. Ces spécificités en font le laboratoire idéal pour repérer des nouveautés linguistiques, cependant son gigantisme le rend délicat à utiliser.

2.1. Constitution

19

Il existe un certain nombre de moyens pour utiliser le web comme fournisseur de corpus :

20
  • utilisation directe : le principe de cette méthode est de considérer le web comme un corpus et d’utiliser les requêtes et les informations fournies par un moteur de recherche pour l’explorer (p. ex. Wooldridge 2004) ;

  • utilisation comme fournisseur d’adresses de pages : lorsque l’ensemble des données qui vont constituer le corpus sont regroupées sur un ensemble de sites connus (Resnik 1998), on utilise alors un aspirateur à web, c’est-à-dire un outil qui permet de récupérer un ensemble de pages à partir d’une adresse ;

  • utilisation du résultat d’un moteur de recherche : le principe est d’utiliser, dans un premier temps, un moteur de recherche, dont le langage de requête permet d’exprimer un certain nombre de contraintes (mots-clés, connecteurs logiques, jokers etc.), pour effectuer une sélection d’adresses ; puis, à partir de ces adresses, récupérer manuellement ou automatiquement les pages correspondantes (Issac & Fouqueré 2003).

21

Ces différentes stratégies utilisent des logiciels déjà développés (aspirateurs, moteurs de recherche). La constitution de corpus très spécifiques ne peut être prise en charge par ces outils trop généralistes. Il est alors nécessaire de réaliser des développements spécifiques pour les remplacer.

2.2. Telanaute

22

La réalisation d’une application dédiée induit un coût de développement important. Nous avons donc mis en place une plate-forme de création/traitement de corpus hautement configurable permettant de réduire ces coûts : TELANAUTE (Issac 2007). Il existe deux modules : l’arpenteur et le traiteur ; le premier a pour tâche de parcourir le web et de récupérer les pages en respectant un certain nombre de contraintes appelées filtres ; le second applique une chaîne de traitements sur les pages récupérées. La Figure 1 présente l’architecture générale de la plate-forme.

Figure 1 - Architecture générale de Telanaute
23

Ce sont les filtres qui permettent de décider du parcours réalisé par l’arpenteur. Ceux-ci peuvent porter sur différents critères : l’adresse de la page, les méta-informations renvoyées par le serveur, le contenu de la page elle-même. Il est ainsi possible de contraindre un parcours à des pages dont l’adresse respecte une certaine syntaxe (contient lemonde.fr par exemple) ou ayant un contenu spécifique (doit être du français, par exemple).

24

Une fois les pages récupérées, le traiteur se charge d’appliquer une chaîne de traitements sous forme d’une suite ordonnée de programmes interconnectés appelés greffons. À titre d’exemple, nous donnons infra une liste de greffons pouvant être utilisés pour identifier des néologismes :

25

Html2texte : transforme en un document purement textuel

IdentCandidat : identifie les candidats

RangeBase : stocke dans une base de données les différents candidats

2.3. Analyse des contenus

26

L’identification et le rapatriement des pages ne sont qu’une partie du travail à réaliser. En effet, contrairement à d’autres types de supports, le web n’impose pas, ou très peu, de contraintes structurelles. Les données récupérées sont donc hétérogènes, que ce soit au niveau de l’encodage de caractère, de la structure profonde (HTML) ou de la structure externe (où se trouve dans la page la partie du texte qui nous intéresse). La Figure 2 montre une page découpée en différentes parties – menu, titre contenu, publicité – où seuls le titre et le contenu sont à analyser, le reste étant soit redondant, soit hors de propos. Il faut donc mettre en œuvre des techniques semi-automatiques d’identification ou effectuer manuellement, c’est-à-dire au cas par cas, les traitements.

Figure 2 - Les différents éléments d’une page
27

Mais les difficultés d’analyse ne se limitent pas à ces différents aspects ; on trouve aussi abondamment des fautes tant typographiques qu’orthographiques. L’écriture web est, en effet, généralement « rapide » ; ce qui caractérise justement ce média est l’extrême court laps de temps entre écriture et diffusion. Cet aspect induit, même sur les sites journalistiques, beaucoup d’erreurs.

28

Bien que ne posant pas de problèmes techniques importants, cette première étape doit être, pour obtenir un corpus de bonne qualité, adaptée pratiquement au cas par cas. Le bénéfice de l’aspect massif du web peut donc être perdu.

3. MOTS SIMPLES

29

Le corpus étant constitué et nettoyé, la détection automatique de néologismes de mots simples s’effectue à l’aide d’une ressource linguistique sans tenir compte des relations existant entre les mots. Pour ce faire, nous considérons un ensemble de dictionnaires de formes fléchies comme un état de la langue. C’est l’absence d’un mot, ou expression, d’un texte-source de cette ressource qui décide du caractère néologique de celui-ci. Le principe est simple : on trouve, en effet, de nombreux outils basés sur ce principe (Janssen 2010 ; Veale 2006) [4][4] Le CNRTL propose un outil utilisable en ligne (www..., mais il pose néanmoins un gros problème de surabondance de candidats parmi lesquels on trouve, finalement, peu de néologismes réels. Si la décision du caractère néologique reste in fine l’apanage du linguiste, l’outil informatique peut néanmoins effectuer un classement préparatoire et, le cas échéant, proposer des analyses.

30

Parmi les éléments non reconnus par les dictionnaires nous envisageons les cas suivants :

31
  • non-mots : cette classe regroupe l’ensemble des formes composées de caractères impossibles à analyser : dcdbth, aaaaaaabaaacaaad, âCacn[5][5] L’identification des onomatopées nécessiterait la création... ;

  • fautes : celles-ci sont très nombreuses tout spécialement lorsqu’il s’agit de productions d’utilisateurs (commentaires d’articles par exemple) : Agé, commision, régles, milions, possiblité, quatres ;

  • concaténations : regroupe l’ensemble des formes composées de deux ou plusieurs mots présents dans les dictionnaires (généralement introduits lors de la phase de nettoyage) : abaissezles, abattagepour, bazardécoration, documentprécisant, industrialiséeont ;

  • formes morphologiquement analysables : regroupe l’ensemble des formes qu’il est possible d’analyser par application de règles morphologiques (suffixation, préfixation, conjugaison) : conspirationnistes, agrippage, agroclimatiques, contrapropagatives.

32

Nous traiterons dans un premier temps les cas 1, 2 et 3 et développerons, plus particulièrement, l’outil d’analyse morphologique proprement dit pour traiter le cas 4.

3.1. Expérimentation : stratégies algorithmiques

33

Nous travaillons sur un corpus de 668 054 mots de textes issus du web ; sur cet ensemble, 167 593 ne sont pas reconnus par notre dictionnaire. Nous allons appliquer successivement différents traitements en indiquant, à chaque fois, combien d’éléments peuvent ainsi être éliminés.

34

Non-mots : nous regroupons sous cette catégorie l’ensemble des tokens ne pouvant pas être des mots. Pour cela, on détermine, par rapport aux dictionnaires, des combinaisons, digrammes ou trigrammes, de caractères morphologiquement impossibles (qz, xx, pv, vv, ktz, hka, dln...). Ils sont ensuite utilisés pour éliminer tout token qui les contient [6][6] Il est à noter que ces digrammes ou trigrammes dépendent....

35

Concaténation : la récupération de textes « tout venant » implique une phase de nettoyage qui introduit un certain nombre d’erreurs. On trouve des erreurs d’encodage, mais aussi des erreurs liées au découpage. La stratégie utilisée consiste à envisager tous les découpages possibles et à vérifier dans les dictionnaires leur présence :

36

? cesobjets

c esobjets

ce sobjets

ces objets ? identification

37

Fautes d’orthographe : c’est un phénomène très fréquent dans le type de corpus que nous trouvons sur le web. Cela se manifeste au niveau des caractères par une insertion, une suppression (p. ex. dédoublement ou suppression d’une consonne) ou un changement (p. ex. défaut d’accent). Nous calculons une distance entre un mot candidat et les mots d’un dictionnaire par rapport à ces trois opérations. Nous utilisons pour cela l’algorithme de Levenstein :

38

====== mot = ammateurs

? armateurs

? amateurs

====== mot = acheve

? achève

? achevé

39

À l’issu des ces différents traitements, le nombre de mots à identifier est descendu à 18 353, c’est-à-dire que presque 90 % de formes ont été traitées.

3.2. Représentation et structuration des flexions : le modèle Proteus

40

Nous avons élaboré un modèle de transformation de mots (Issac 2010) répondant à un certain nombre d’exigences dont la possibilité de produire ou d’analyser des formes fléchies. Le modèle utilise un ensemble d’opérateurs de manipulation de caractères. L’utilisation dans un certain ordre de ces opérateurs constitue un « code » correspondant à une fonction de transformation. Soit f cette fonction, alors :

41

f (forme canonique, code) = forme fléchie

f–1 (forme fléchie, code) = forme canonique

42

En simplifiant le modèle à l’extrême, la création d’un code permettant de générer une forme fléchie à partir d’un lemme se fait (i) en mettant des lettres de côté, (ii) en réinsérant ces lettres ou (iii) en effaçant/insérant des lettres. Par défaut, les opérations s’appliquent sur les caractères placés en fin de mot. Pour une utilisation en analyse, le sens de chaque opérateur est inversé.

43

Les opérateurs doivent être suffisamment nombreux pour avoir la puissance d’expression nécessaire à représenter tous les types de flexion, mais suffisamment restreints pour ne pas rendre la tâche de création de la règle trop délicate.

44

À titre d’exemple, nous donnons le code de transformation pour variole ? antivariolique. La transformation « enlever le caractère ‘e’ (e) en fin de mot, ajouter ‘anti’ en début de mot (]/anti/) puis ‘ique’ en fin de mot ([/ique/) » s’écrit e]/anti/[/ique/. Ce même code peut analyser des noms de vaccins de maladies comme antirougeolique ou antirubéolique. La Figure 3 présente les différentes étapes permettant d’obtenir la forme fléchie.

Figure 3 - Génération de antivariolique
45

Le processus que nous appliquons maintenant ne cherche pas à éliminer ce que nous ne considérons pas comme néologisme, mais au contraire à sélectionner ce qui pourrait être un néologisme morphologique et à proposer une analyse, ainsi automobilisation se verra proposé deux analyses :

46

auto-mobilisation ? mobilisation automobil-isation ? automobile

47

Nous donnons infra plusieurs résultats de cette analyse. Pour chaque exemple, le mot initial est indiqué au début, puis chaque analyse propose une génération complète en indiquant la règle utilisée. La ligne

48

guitare= (e/iste/) ? guitariste= (e/ique/) ? guitaristique

49

indique que guitaristique peut être dérivé de guitariste qui lui-même peut être dérivé de guitare.

50

====== mot = programmiste

? programmer= (e/e/) ? programme= (e/iste/) ? programmiste

? grammer= (e/e/) ? gramme= (e/iste/) ? grammiste= (]/pro/[) ? programmiste

====== mot = automobilisation

? automobile= (e/ise/) ? automobilise= (e/ation/) ? automobilisation

? mobile= (e/ise/) ? mobilise= (e/ation/) ? mobilisation= (]/auto/[) ? automobilisation

? mobiliser= (e/e/) ? mobilise= (e/ation/) ? mobilisation= (]/auto/[) ? automobilisation

====== mot = guitaristique

? guitare= (e/iste/) ? guitariste= (e/ique/) ? guitaristique

? guitariser= (e/te/) ? guitariste= (e/ique/) ? guitaristique

? guitary= (y/iste/) ? guitariste= (e/ique/) ? guitaristique

51

On le voit sur ces exemples, dans certains cas, les analyses sont fausses (guitary) et, pour d’autres cas, il en existe plusieurs (programmiste et automobilisation). L’outil nécessite toujours l’intervention d’un linguiste qui tranchera en fonction du contexte du mot.

52

La ressource utilisée pour produire ces résultats est composée de suffixes (51) et de préfixes (35). Nous avons ajouté la conjugaison des verbes du premier groupe, plus précisément la conjugaison des verbes comme aimer.

4. COMBINAISON DE MOTS

53

Les néologismes combinant plusieurs mots, qu’ils soient de sens ou d’emploi, sont réputés plus difficiles à identifier. Cela est dû à la nature contextuelle du phénomène, et donc à sa difficulté à être traité par ordinateur. De la même manière que nous proposons une définition « informatique » des néologismes de forme, nous indiquons ici les critères propres au traitement informatique permettant de les identifier.

54

De fait, nous réutiliserons une définition de même nature : « est candidat néologisme tout élément ne faisant pas partie du dictionnaire utilisé pour l’analyse ». La différence tient ici au sens que l’on donne au mot dictionnaire. Peut-être devrions-nous, afin de lever toute ambiguïté, parler de dictionnaire électronique pour la machine. Cette appellation regroupe tout type de ressources permettant l’analyse automatique de la langue naturelle : analyse lexicale et morphosyntaxique, bien sûr, mais aussi syntaxique et sémantique. Ceux-ci décrivent un état de la langue et tout élément extérieur est par conséquent un cybernéologisme. Afin d’illustrer notre propos, nous indiquons deux stratégies, l’une basée sur l’utilisation de schémas syntaxiques, l’autre utilisant des indices statistiques.

55

Nous utilisons dans cette section un outil permettant d’extraire d’un corpus étiqueté à l’aide de dictionnaires des concordances appelé CORPINDEX (Issac 2010).

4.1. Extraction à partir de patrons syntaxiques

56

Il est possible de mettre en place diverses stratégies afin de mettre en évidence des incongruences à différents niveaux de l’analyse (Mejri 2009) : position d’un élément lexical et construction syntaxique.

57

L’objectif est d’extraire les unités lexicales ayant un comportement syntaxique normalement interdit comme, par exemple, l’absence de pronom pour un verbe pronominal. Le processus est le suivant :

58
  1. extraction en contexte de verbes essentiellement pronominaux : [l?"ˆ(envoler|méprendre|immiscer|pavaner)$"]

  2. application de filtre : élimination des pronoms dans la partie à gauche du résultat

  3. application de filtre : élimination des formes identifiées comme des verbes pouvant aussi être adjectifs (p. ex. accroupie) ou participes passés

59

Après vérification, manuelle, dans le TLF, nous obtenons des formes atypiques d’un point de vue de la conjugaison.

60

1 toc . De quoi l’ ((envoler)) définitivement en terme de carrière

2 étreignit une ombre qu’ il ((méprenait)) pour de la chair solide

3 qu’ ils ne doivent pas ((immiscer)) l’ Église dans la défense

4 pour faire des statistiques pour ((pavaner)) à la télé . Mais

61

Les résultats obtenus sont décevants, beaucoup ne sont pas néologiques, et semble plutôt le fait d’erreurs.

4.2. Extraction à partir d’indices statistiques et de patrons syntactico-sémantiques

62

S. Mejri (2009) propose un cadre pour la détection automatique des néologismes de sens par l’utilisation d’un modèle linguistique prenant en compte la notion de classes sémantiques (Le Pesant & Mathieu-Colas 1998). Celui-là utilise trois notions, prédicats, arguments et actualisateurs, ce qui permet de décrire un emploi au sein d’une phrase simple. Le système d’identification de néologisme proposé suppose une description des classes d’arguments, de prédicats et d’actualisateurs spécifiques. Cette description est alors projetée en corpus, les emplois alors non identifiés par les descriptions sont filtrés pour permettre d’isoler les néologismes réels. Les néologismes détectés peuvent êtres formels, sémantiques ou syntaxiques.

63

La difficulté ici rencontrée concerne la nécessité d’avoir une description sinon complète du moins avec une large couverture de la langue pour être capable de couvrir celle rencontrée dans un corpus donné. Dans le cas contraire, le taux d’emplois non reconnus, mais néanmoins non néologiques serait trop important.

64

Nous utiliserons donc une stratégie basée sur l’identification d’un comportement incongru d’un argument au sein d’une classe sémantique d’arguments, même si celle-ci est incomplète. Notre objectif étant de prendre en compte à la fois des indices statistiques, syntaxiques et sémantiques dans un modèle associant prédicat et argument. Cette mise en relation prend place dans un continuum allant de la syntaxe libre à la syntaxe figée en passant par les constructions à verbe-support et les collocations (Mejri 2008). La notion de néologisme, en tant qu’incongruité de la langue, peut-être ici rapprochée de la notion de formes figées.

65

Nous décrivons ici les différentes étapes du processus qui met en œuvre des connaissances (i) sémantiques, une classe d’arguments même minimale est nécessaire ; (ii) syntaxiques, cette classe s’inscrit dans un schéma syntaxique qu’il faut décrire.

66

Étape 1. Concordance. Le résultat brut de cette étape est une suite de concordances en contexte, soit sous forme lemmatisée, soit en conservant les formes fléchies. L’exemple donné ici focalise sur les constructions nom/adjectif considérées comme adjectifs. La classe sémantique utilisée regroupe des « partie du corps » (bras, crâne, doigt, etc.).

67

Étape 2. Regroupement des concordances. L’ensemble des concordances est regroupé de manière synthétique au sein d’un tableau. Nous reprenons en cela les travaux entrepris pour réaliser un concordancier adapté aux besoins linguistiques d’une sémantique distributionnelle (Pincemin et al. 2006). À ce résultat brut, nous ajoutons diverses informations (fréquence, nombre d’arguments associés à un prédicat, etc.) permettant de relier un prédicat à l’ensemble des éléments de la classe. Nous utilisons une classe d’arguments et non une classe de prédicats comme amorce car celle-ci est, en corpus, associée à un trop grand nombre d’arguments rendant les résultats plus difficiles à interpréter.

68

Étape 3. Calcul du test. Au cours de cette étape, différents calculs sont effectués. Ils sont destinés à attribuer une mesure à chaque couple prédicat/argument. Nous appliquons ici un test d’incongruence de classes basé sur l’idée qu’un prédicat associé à une classe d’arguments présentera des caractéristiques différentes suivant la nature de la co-occurrence. Le calcul se décompose en deux temps et s’effectue à partir d’un couple prédicat/liste d’arguments :

69
  • identification des éléments de la liste d’arguments ayant un comportement incongru ;

  • pondération du précédent résultat par rapport à une fréquence d’apparition.

70

L’objectif de ce test est d’identifier si, au sein d’une classe d’arguments, un de ces composants apparaît avec une fréquence statistiquement significative. Pour chaque prédicat, on calcule le test donnant la valeur maximale [7][7] Pour plus de détails sur la méthode d’extraction, voir.... Nous introduisons un second critère qui a pour objet de favoriser les prédicats dont la fréquence est d’autant plus élevée que le nombre d’arguments associés est faible. Une telle mesure va permettre d’identifier des associations dont un sens se superpose au sens obtenu par la combinatoire libre. Le tableau infra (Figure 4) montre les résultats obtenus par rapport à la requête formulée à l’étape 1.

Figure 4 - Tableau des résultats obtenus à la requête formulée à l’étape 1
71

Étape 4. Filtrage/comparaison des résultats et enrichissement des dictionnaires. À l’issu de la précédente étape, l’algorithme présente des associations jugées à la fois incongrues, de par sa répartition au sein d’une classe sémantique, et significativement fréquentes, dont certaines sont connues (p. ex. main propres). Cet ensemble doit être analysé par un linguiste pour identifier les néologismes réels et modifier les dictionnaires représentant l’état de la langue connu. Il est à noter que ce type d’outil peut être utilisé aussi bien en synchronie qu’en diachronie. En effet, plus une association est « haute » dans la liste, i.e. dont la mesure est élevée, plus la probabilité de figement est importante, il est donc possible de suivre la progression d’une association donnée dans le temps. La Figure 5 illustre ce point, pour le même exemple sur une période de neuf ans (numérotés de 1 à 9), le rang de la locution main libre suit la courbe suivante [8][8] Pour indiquer l’absence d’occurrence des années 1 et 2,... :

Figure 5 - Progression du rang de l’association « main libre » en fonction du temps
72

Dans cet exemple, on constate que l’association se lexicalise entre la deuxième et la troisième année.

5. CONCLUSION

73

L’analyse automatique des textes consiste à identifier les différents composants d’un énoncé et à leur attribuer une étiquette, celle-ci pouvant être morphologique, syntaxique, sémantique. L’identification et l’analyse des néologismes font donc partie des différentes tâches à réaliser pour atteindre cet objectif. Cependant, nous nous heurtons ici à une double difficulté, liée, d’une part, aux différents types de néologismes et, d’autre part, à la difficulté à définir, informatiquement parlant, la notion même des éléments de la phrase et de sa représentation. Compte tenu de ces difficultés, nous avons proposé (i) de lier la notion d’état de langue à la notion de dictionnaire et (ii) d’aborder sous un autre angle la notion de néologisme en la décomposant en néologismes détectables à partir d’un seul ou de plusieurs tokens.

74

Pour les néologismes composés d’un seul token, nous avons présenté un modèle morphologique capable d’effectuer une analyse, et par là même une classification, des mots non présents dans les dictionnaires. Un modèle plus élaboré, utilisant conjointement la notion de prédicats, d’arguments et d’actualisateurs, associé à des traitements statistiques permet de traiter les néologismes mettant en jeu plusieurs tokens.

75

Pour mettre en œuvre ces différents modèles, nous avons proposé un ensemble d’outils et d’algorithmes pour construire des corpus et y identifier différents types de néologismes. Ces différentes stratégies, qu’elles soient numériques ou symboliques, permettent d’assister le linguiste dans la tâche d’identification et d’analyse des néologismes. Les méthodes présentées ici sont efficaces, en ce sens qu’elles répondent correctement à la problématique initiale qui consiste à identifier ou analyser des absences par rapport à un modèle. Cependant, un travail important d’analyse linguistique reste à effectuer, l’informatique n’étant ici qu’un outil indiquant où regarder dans l’énorme quantité d’énoncés disponibles pour trouver un néologisme potentiel.


Références

  • HEITZ T. (2006), « Modélisation du prétraitement des textes », Proceedings of JADT’06 (International Conference on Statistical Analysis of Textual Data), Vol. 1, 499-506.
  • ISSAC F. (2007), “Yet another web crawler”, in C. Fairon et al. (eds), Building and Exploring Web Corpora (WAC3 – 007), Cahiers du CENTAL 4, Louvain-la-Neuve : Presses Universitaires de Louvain, 57-68.
  • ISSAC F. (2010), “A framework for representing lexical resources”, 23e Conference on Computationnal Linguistics (COLING-2010), Pekin (Chine).
  • ISSAC F. (2011), « Figement et informatique », in J.-C. Anscombre & S. Mejri (éds), Le figement linguistique : la parole entravée, Paris : Honoré Champion, 419-431.
  • ISSAC F. & FOUQUERÉ C. (2003), « Corpus issus du web : constitution et analyse informationnelle », Revue Québécoise de Linguistique 32 (1), 111-134.
  • JANSSEN M. (2010), « NeoTrack : un analyseur de néologismes en ligne », Actes del I Congrés Internacional de Neologia de les Llengues Romàniques, Barcelona : Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra, 1175-1188.
  • LE PESANT D. & MATHIEU-COLAS M. (dir.) (1998), Langages n°131 : Les classes d’objets, Paris : Larousse.
  • MAARTEN J. (2008), « NeoTrack – Un analyseur de néologismes en ligne », Actes del I Congrés Internacional de Neologia de les Llengues Romàniques, Barcelona : Institut Universitari de Lingüística Aplicada. Universitat Pompeu Fabra, 1175-1188.
  • MATHIEU-COLAS M. (1996-2006), Dictionnaire morphologique du français. I. Formes simples, Rapport technique du LLI, Villetaneuse, Université de Paris 13.
  • MATHIEU-COLAS M. (2009), « Morfetik : une ressource lexicale pour le TAL », Cahiers de lexicologie 94, 137-146.
  • MEJRI S. (2008), « Constructions à verbes supports, collocations et locutions verbales », in P. Mogorron Huerta & S. Mejri (eds), Las construcciones verbo-nominales libres y fijas. Aproximación contrastiva y traductológica, Alicante : Universidad de Alicante, 191-202.
  • MEJRI S. (2009), « Néologie et traitement automatique », Neologica 3, 11-24.
  • PINCEMIN B., ISSAC F., CHANOVE M. & MATHIEU-COLAS M. (2006), « Concordanciers : thème et variations », in J.-M. Viprey et al. (éds), Actes des 8es Journées internationales d’Analyse statistique des Données Textuelles (JADT), Besançon : Presses Universitaires de Franche-Comté, 773-784.
  • RESNIK P. (1998), “Parallel strands : A preliminary investigation into mining the web for bilingual text”, Proceeding AMTA ‘98 Proceedings of the Third Conference of the Association for Machine Translation in the Americas on Machine Translation and the Information Soup, London : Springer-Verlag.
  • SABLAYROLLES J.-F. (2011), « De la ‘néologie syntaxique’ à la néologie combinatoire », Langages 183, Paris : Armand Colin (ce numéro).
  • SABLAYROLLES J.-F. (à par.), « Extraction automatique et types de néologismes : une nécessaire clarification », Cahiers de lexicologie.
  • VEALE T. (2006), “ZeitGeist : A Computational Model of Neologism Processing”, Proceedings of the Second International Conference of the German Cognitive Linguistics Association, München (Allemagne).
  • WOOLDRIDGE T.R. (2004), « Le Web comme corpus d’usages linguistiques », Cahiers de lexicologie 85, 209-25.

Notes

[1]

Ce type de néologisme est aussi appelé néologisme d’emploi par Sablayrolles. Cf. Sablayrolles (2011, ce volume).

[2]

On parle ici d’enrichissement du texte-source, un certain nombre d’informations deviennent explicites (lemme, genre, nombre, etc.).

[3]

La ressource utilise une DTD proche de celle proposée par le lexique MORPHALOU (www.cnrtl.fr/lexiques /morphalou) puisqu’elle concerne le même type de ressources et qu’elle s’appuie sur la norme LMF (Lexical Markup Framework). LMF est une norme ISO proposant un cadre, sous forme d’éléments appelés composants, à partir duquel il est possible de réaliser une DTD dédiée à la représentation de bases lexicales.

[4]

Le CNRTL propose un outil utilisable en ligne (www.cnrtl.fr/outils/pompamo/).

[5]

L’identification des onomatopées nécessiterait la création d’une sous-classe de « non-mots prononçables ».

[6]

Il est à noter que ces digrammes ou trigrammes dépendent d’une langue ; par conséquent, étant donné une langue, certains néologismes par emprunt peuvent être éliminés au cours de cette étape.

[7]

Pour plus de détails sur la méthode d’extraction, voir Issac (2010).

[8]

Pour indiquer l’absence d’occurrence des années 1 et 2, normalement de valeur infinie, pour « main libre », nous avons choisi arbitrairement la valeur 100.

Résumé

English

Cyberneologism : Some tools for neologisms identification and treatment on the web The aim of the present paper is to expose a set of techniques related to the automatic detection and processing of neologisms. Two types of neologisms will be considered : formal or morphological neologisms, and syntactic or semantic neologisms. For each type, we will present different extraction and classification techniques. Formal neologisms are processed thanks to various analyses, notably morphological, through the use of heuristics combined to human expertise via an appropriate interface. Syntactic or semantic neologism detection is much more complex, and requires the development of both digital and formal models, robust enough to yield significant results.

Keywords

  • NLP
  • electronic dictionary
  • morphological analysis

Français

L’objectif de cet article est de présenter un ensemble de techniques liées à la problématique de la détection et du traitement des candidats néologismes. Deux types de néologismes seront étudiés : les néologismes de forme, morphologiques, et les néologismes de syntaxe ou de sens. Pour chacun de ces types, nous présenterons des techniques d’extraction et de classification. Le traitement des néologismes de forme passe par différentes analyses, notamment morphologiques, par l’utilisation d’heuristiques et par l’expertise d’un être humain via une interface adéquate. L’identification d’un néologisme de syntaxe ou de sens est beaucoup plus délicate et se situe à un niveau d’analyse plus élevé. Le problème rencontré ici se focalise non pas sur la classification, mais sur l’élaboration de modèles, tant numériques que formels, suffisamment robustes.

Mots-clés

  • TAL
  • dictionnaires électroniques
  • analyse morphologique

Plan de l'article

  1. 1. CONTEXTE
    1. 1.1. À la recherche des mots
    2. 1.2. Projection d’informations en provenance de dictionnaires
    3. 1.3. Néologisme
    4. 1.4. Néologisme de forme VS néologisme de sens
  2. 2. OUTILS POUR L’ÉLABORATION DE CORPUS À PARTIR DU WEB
    1. 2.1. Constitution
    2. 2.2. Telanaute
    3. 2.3. Analyse des contenus
  3. 3. MOTS SIMPLES
    1. 3.1. Expérimentation : stratégies algorithmiques
    2. 3.2. Représentation et structuration des flexions : le modèle Proteus
  4. 4. COMBINAISON DE MOTS
    1. 4.1. Extraction à partir de patrons syntaxiques
    2. 4.2. Extraction à partir d’indices statistiques et de patrons syntactico-sémantiques
  5. 5. CONCLUSION

Pour citer cet article

Issac Fabrice, « Cybernéologisme : Quelques outils informatiques pour l'identification et le traitement des néologismes sur le web », Langages, 3/2011 (n° 183), p. 89-104.

URL : http://www.cairn.info/revue-langages-2011-3-page-89.htm
DOI : 10.3917/lang.183.0089


Article précédent Pages 89 - 104 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback