Revue française de linguistique appliquée 2002/1
Revue française de linguistique appliquée
2002/1 (Vol. VII)
140 pages
Editeur
A propos de cette revue Site Web
Alertes e-mail

Recevez des alertes automatiques relatives à cet article.

S'inscrire Alertes e-mail - Revue française de linguistique appliquée

Être averti par courriel à chaque nouvelle parution :
d'un numéro de cette revue
d'une publication de Patrick Saint-Dizier
d'une citation de cet article

Votre adresse e-mail

Gérer vos alertes sur Cairn.info

Cairn.info respecte votre vie privée

Vous consultezQuelques défis et éléments de méthode pour la construction de ressources lexicales sémantiques

AuteurPatrick Saint-Dizier du même auteur

IRIT-CNRS
118 route de Narbonne, F-31062 Toulouse cedex
Tel. : 05 61 55 67 65
Fax : 05 61 55 62 58
stdizier@irit.fr

Construire un lexique de ressources sémantiques ne s’improvise pas et requiert que l’on examine au préalable plusieurs classes d’exigences et de difficultés récurrentes afin de tenter d’établir un équilibre descriptif satisfaisant qui soit opérationnel. Nous nous poserons la question du but d’un tel lexique : pour quelles applications, et, par conséquent, avec quels niveaux de profondeur, mais aussi de généricité et de granularité des descriptions. La question de la réutilisabilité des ressources est centrale pour en apprécier la valeur opérationnelle, à côté de la valeur intrinsèque, scientifique, en tant que reflet d’une certaine analyse de la langue. Enfin, nous aborderons le problème de l’évolution de ces données à travers les inévitables corrections et ajustements ainsi que les extensions : ajouts d’informations aux entrées existantes et création de nouvelles entrées.

0 - Introduction

2 Dans cet article, nous abordons dans un premier temps quelques questions sur le positionnement scientifique d’un tel travail puis nous traitons de quelques principes méthodologiques relatifs à la création de telles ressources et à leur formalisation. Nous décrivons ensuite les ressources que nous avons élaborées sur ces dix dernières années, puis nous concluons sur leur utilisation et leur partage réel. Ce travail a été essentiellement dédié aux formes prédicatives, en particulier aux verbes et aux prépositions. Ces constituants ont été moins étudiés que les noms en informatique linguistique (surtout les prépositions) alors qu’ils jouent un rôle essentiel dans un grand nombre de familles d’applications. Une des raisons réside dans leur complexité nettement plus élevée que celle des noms, même prédicatifs, limitant fortement l’intérêt des systèmes d’acquisition automatique d’entrées lexicales, sujet à la mode depuis une décennie. Le travail d’analyse et de description reste donc essentiellement manuel.

1 - Vers quelle position scientifique ?

3 Lorsque l’on tente de cerner les besoins de diverses équipes en matière de ressources lexicales sémantiques, force est de constater que les besoins sont majeurs, mais qu’ils sont diversifiés et rarement clairement identifiés. Lorsque l’on poursuit l’analyse, on remarque alors que des qualités aussi importantes que le degré de finesse (ou de granularité) des descriptions, leur ancrage théorique et leur structure demeurent vagues ou se rallient à des schémas très classiques (ontologies, structures en traits ou en objets, etc.). A défaut d’une analyse fine et précise des besoins, il revient donc au concepteur de ressources de faire lui-même les choix, peut-être de façon arbitraire, et ensuite de tenter de les faire correspondre aux intuitions et aux besoins des utilisateurs. Une attitude prudente consiste à développer des ressources cohérentes, par rapport à sa propre vision théorique et technique, puis de mettre en œuvre des ponts, dits d’insertion lexicale (Strigin, 1998), qui sont autant de canaux qui vont filtrer et reformater ces ressources selon les besoins des applications.

4 La première question que l’on se pose est celle du découpage en sens des lexèmes polysémiques (Martin, 1979 ; Nunberg, 1995 ; Gayral et al., 1999 ; Mari et al., 1997), sont concernés une petite moitié des termes prédicatifs. Notre description sémantique portant sur chaque sens d’un lexème pris isolément, il convient de se définir une stratégie concrète pour délimiter les sens. Considérant que l’étude de la créativité dans le langage et que la représentation, même élémentaire, du sens passe probablement par une théorie décompositionelle du sens d’un mot en conditions nécessaires et suffisantes, les problèmes liés à la délimitation et à la représentation des sens que nous abordons dans un cadre à coloration générative peuvent se résumer comme suit :

  1. Quel est le niveau de granularité que l’on doit adopter pour la décomposition en sens d’un lexème ? Très large et abstrait, comme en Intelligence artificielle, ou très étroit, comme en lexicographie ? L’Intelligence artificielle tend à postuler l’existence de sens germes à partir desquels découlent nombre de réalisations parfois fort lointaines de l’usage initial. Des procédures complexes de raisonnement, d’analogies, etc. sont développées pour en modéliser, voire en expliquer, le fonctionnement. A l’opposé, la lexicographie, dont WordNet (Fellbaum, 1993, 1995, 1997) tente de photographier les usages d’un terme, sans chercher à généraliser outre mesure, bien consciente de la fragilité des généralisations. Cette vision de mécanismes généraux présidant à la construction des énoncés s’avère rapidement quelque peu utopiste dans la réalité, même si ses fondements et sa philosophie sont très convaincants. Notre approche est intermédiaire, avec des sens relativement larges, acceptant plusieurs variations (métaphores, métonymies, influences mineures des arguments) (Lakoff et al.., 1980, 1999), à la condition que des procédures produisant ou reconnaissant ces variations puissent être mises en œuvre. Notre approche est donc polycentrique, chaque sens et usage majeur, y compris métaphorique, devenant un pôle d’attraction. Ce point de vue se trouve, du reste, renforcé si l’on considère des notions telles que la prototypicalité.
  2. Quelles sont la nature et la forme des contraintes portant sur la forme d’un sens et sur sa délimitation ? Quels sont, par exemple, les composants de sens qui peuvent être plus ouverts ou plus restreints que d’autres au sein d’un sens ? Par exemple, des modalités telles que la manière, le moyen, l’existence d’effet ou la télicité peuvent être largement ouverts alors que la causalité ou le but le sont probablement moins.
  3. Sur quelle base se définissent l’usage primitif et les usages dérivés? Il est souvent possible d’identifier le sens primitif comme étant le plus concret et celui historiquement et/ou ontogénétiquement le plus ancien. L’emploi primitif doit alors de par son sémantisme et ses contraintes permettre la possibilité d’usages dérivés, reflet de la dynamique du langage. Notre modèle génératif doit, de surcroît, pouvoir expliquer les dérivations en faisant référence à diverses influences et comportements. Citons, par exemple, l’impact de l’imagerie mentale de la psychologie cognitive qui apparaît être particulièrement moteur dans la production langagière de métaphores.
  4. Quel(s) mode(s) de représentation du sens ? Question délicate et largement partisane. Il apparaît à la lumière de nos expériences que la LCS (structure lexicale conceptuelle) (Jackendoff, 1972, 1983, 1990) est un cadre adéquat pour la représentation de l’information de nature prédicative. Les éléments qu’elle met en jeu correspondent bien, en général, aux facteurs de variation que nous avons identifiés. Il apparaît que, dans la LCS, les constituants primitifs, organisés sur plusieurs niveaux de généralité, correspondent à différentes étapes de l’activité de catégorisation, manifeste en particulier chez l’enfant lors de l’apprentissage de sa langue. Des parties autonomes de la LCS pourront alors être modifiées en suivant quelques principes lors de la prise en compte de variations de sens tout comme les processus de catégorisation et d’apprentissage chez l’homme modifient la structure des concepts, via une organisation probablement ontologique.
    Pour obtenir une représentation plus complète du sens d’une unité lexicale, il convient de compléter la LCS par d’autres dispositifs : les relations lexicales (Cruse, 1986) (par exemple les séries proportionnelles pour une appréhension paradigmatique de propriétés liées à des dimensions plus ou moins mesurables), les systèmes attributs-valeurs et les inférences.

Enfin, ces données étant établies, il faut se poser la question de leur intégration dans un cadre plus large, en particulier il faut étudier le lien avec la syntaxe.

2 - Quels modes de représentation ?

5 Une fois établis les principes de découpage des lexèmes en sens et le cadre de leur représentation sémantique, il faut nous interroger plus en profondeur sur leur contenu et leur structuration. Il convient alors de déterminer la nature des universaux lexicaux, des paramètres, des principes et des contraintes, tous postulés primitifs, à l’aide desquels on peut construire des représentations sémantiques et conceptuelles de concepts de façon systématique, cohérente et organisée (Gruber, 1967). Ces éléments doivent être largement indépendants de la ou des langues considérées. Enfin, il faut identifier et modéliser les opérations génératives (Pustejovsky, 1995) à partir de chaque sens en s’appuyant sur des ressources, par exemple ontologiques.

6 Enfin, traitant de la sémantique des mots pris isolément a priori, il faut s’interroger sur la façon dont est représentée leur intégration avec d’autres mots dans une proposition. Nous nous sommes penchés en particulier sur le λ-calcul typé pour l’expression du principe de compositionalité, de façon très classique, et sur les formalismes et outils pour représenter la sous-détermination des éléments lexicaux. Notre approche autorisant des sens ‘larges’ et sujets à variation pour les lexèmes polysémiques, il nous faut aussi, au niveau de la représentation sémantique, mener une réflexion sur la nature et la forme des éléments sous-déterminés. Ces éléments sont instanciés en contexte propositionnel, par le biais de l’information véhiculée par d’autres éléments dans cette proposition. Typiquement, un prédicat est sous-déterminé, et ses arguments vont en spécifier le sens, dans une phrase donnée.

7 A un niveau plus global, la structure logique et conceptuelle du lexique reflète aussi la vision théorique sur laquelle s’appuie la description. Si l’introduction d’ontologies (terme très pompeux pour quelques hiérarchies d’étiquettes) remporte une adhésion à peu près générale, l’introduction de types, de classes, de mécanismes d’héritage, de contraintes (au sens informatique) et des notions telles que celle de facette et leur gestion de l’incohérence prêtent à des discussions sur les fondements de la conception d’un lexique. Ainsi, l’irrégularité des héritages descendants a-t-il provoqué la mise en place de raisonnements par défaut et de mécanismes de blocage souvent ad hoc, véhiculant la vision d’une structure lexicale quelque peu non monotone, voire chaotique. Cette non-monotonie s’est peut-être installée aux dépens du développement d’une analyse en termes d’indicateurs sémantiques, représentés comme des contraintes, qui auraient rendu compte des mêmes phénomènes de façon plus déclarative.

8 C’est ainsi que nous avons abordé la description de 1700 sens de verbes usuels du français (Saint-Dizier, 1998) et de 135 prépositions et locutions prépositionnelles usuelles (Cannesson et al., 2002). Cette tâche peut paraître immense. Elle l’est effectivement, mais elle peut se trouver grandement simplifiée si l’on considère non pas des verbes ou des prépositions isolés, mais des classes où une partie conséquente de la description peut être factorisée, augmentant en retour l’homogénéité et la fiabilité des descriptions. Une même description, paramétrée, sera donc valable pour plusieurs verbes d’une classe donnée. C’est ainsi qu’une certaine stabilité théorique et pratique est gagnée, et que l’on peut envisager, modestement, une forme de partage de ressources. Ce partage sera probablement plus effectif que ne serait l’observance de recommandations, telles que celles du projet européen Eagles, à peu près jamais prises en compte, y compris par leurs promoteurs, dont nous avons fait partie.

3 - Le cadre syntaxique

3.1 - Les alternances

9 Avant d’aborder la description sémantique des ressources lexicales, nous présentons brièvement nos descriptions syntaxiques, qui sont liées aux premières. Nous avons tenté de reformuler pour le français le système d’alternances syntaxiques organisé par Beth Levin (1993). En synthétisant diverses approches, dont celle, éloignée mais éclairante, du LADL, nous avons dégagé 51 alternances significatives. Suivant la philosophie développée par Beth Levin, nous avons des alternances d’effacement d’arguments, de déplacement d’arguments (passif), d’introduction de pronoms réfléchis (réfléchi moyen, réfléchis directs), de formes support, d’introduction de l’agent (avec le semi-auxiliaire faire), de changement de perspective par changement de préposition (charger le camion de foin / le foin dans le camion), des constructions réciproques, etc. (Saint-Dizier, 1998). Ces alternances sont plus déclaratives que celles de Beth Levin (pas de référence à une forme de base) et ne font appel qu’à des critères syntaxiques.

10 D’un point de vue théorique, notre analyse s’appuie largement sur la structure de sous-catégorisation et sur le principe de projection, qui va donc superviser l’organisation syntaxique du prédicat et de ses arguments. Le système d’alternances, globalement, va donc permettre de générer, au niveau de chaque entrée lexicale décrivant un verbe, les différentes structures de sous-catégorisation : celle, fondamentale, d’une forme identifiée comme étant ‘la forme de base’ et celles qui en dérivent via les alternances. Il faut bien garder à l’esprit que ces formes n’incluent pas d’autres constructions, non liées au prédicat, que sont, en simplifiant, le déplacement du SN pour produire des interrogatives ou des relatives. Notre point de vue, relativement classique et neutre, permet une intégration de ces descriptions à des approches syntaxiques organisées telles que les HPSGs ou les TAGs.

11 Nous avons aussi tenté de définir l’impact sémantique de certaines alternances sur celle de la proposition, suivant en cela Goldberg (1994). Par exemple, le passif va changer la focalisation en favorisant l’objet, tandis que la construction conative (tirer la chaise / tirer sur la chaise) va rendre incertaine la réalisation effective de l’action. Ce travail a été normalisé en l’intégrant à des travaux convergents réalisés sur l’espagnol et le catalan par deux équipes catalanes avec lesquelles nous coopérons dans le cadre du projet VOLEM.

3.2 - Le système de rôles thématiques

12 Nous nous trouvons à présent à la charnière entre la syntaxe et la sémantique. Nous avons introduit, suivant en cela les travaux de Dowty (1989, 1991), une hiérarchie de rôles thématiques qui est davantage que de simples marqueurs et qui constitue un premier niveau, élémentaire mais effectif, de représentation des connaissances. Celui-ci peut être suffisant, par exemple, en indexation automatique de documents. Dans notre description, un niveau assez général de rôles thématiques est affecté a priori aux entrées lexicales. Un ou plusieurs rôles vont caractériser chaque argument. En contexte propositionnel, ceux-ci sont précisés en fonction des arguments effectifs. Voici la hiérarchie de rôles que nous avons retenue et utilisée dans plusieurs contextes d’applications :

13 Agent, (ag) avec les rôles plus spécifiques de : agent effectif (ae, qui fait l’action), agent initiatif (ai, celui qui décide de l’action), et agent de cause (ac, agent causal, non volitif).

14 Thème, (tg) avec les rôles plus spécifiques : thème de cause (tc, origine d’un événement), thème de conséquence (tcons), thème holistique (th, non affecté dans son intégrité), thème incrémental (ti, affecté) qui se décompose en thème incrémental victime (tiv), de création (tic), de destruction (tid) ou bénéficiaire (tib) selon les cas. A ces thèmes, on peut éventuellement ajouter exp : celui qui expérimente, en particulier un état psychologique.

15 Localisation, (loc) qui peut se décliner en spatiale, temporelle ou plus abstraite. On y distingue les catégories traditionnelles : source (src), position fixe (pos), destination atteinte (dest) ou direction (dir, non atteinte).

16 Nous avons enfin des rôles non structurés tels que : manière (ma), moyen (mo), identification (ident, pour les noms propres), accompagnement (acp) et quantité (am, numérique).

17 Comme on le voit, ces rôles vont pouvoir marquer aussi bien des arguments que des ajouts dans une proposition. Ces rôles sont donc une représentation élémentaire du monde dans la relation prédicat - argument, utile, par exemple, en extraction et en recherche d’informations.

3.3 - Quelques exemples

18 En complément des données indiquées ci-dessus, chaque sens de verbe est associé à sa classe sémantique (et ses sous-classes) en conformité avec l’organisation proposée dans WordNet (Fellbaum, 1993). Nous avons 3 niveaux dans la hiérarchie de classification, le niveau supérieur étant le suivant, où en (1) et (2) ci-dessous nous donnons respectivement le taux global de métonymies et de métaphores enregistrées sur corpus, pour donner une idée de l’ampleur de ces phénomènes :


Principales Familles de verbes N° Nom de la classe (1) (2) 1 Soins du corps 8 12 2 Verbes de changement 32 24 3 Verbes de communication 12 32 4 Verbes de compétition 17 21 5 Verbes de consommation 28 30 6 Verbes de contact 1 8 7 Verbes de cognition 15 10 8 Verbes de création et destruction 12 19 9 Verbes de mouvement 23 14 10 Verbes psychologiques 34 12 11 Verbes d’état (procédures, BE) 1 3 12 Verbes de perception 19 9 13 Verbes de possession 7 4 14 Verbes d’interactions sociales 33 29 15 Verbes liés à l’expression du temps 0 0 16 Verbes aspectuels et de l’action 1 20 17 Verbes qui expriment la causalité 17 12

19 On trouvera ensuite, par exemple sous la classe 12, les différentes formes de la perception (audition, olfaction, vision, etc.). Voici un échantillon de trois verbes, dont l’organisation est la suivante :Verbe, arité, grille thématique, préposition typique ou type sémantique de la préposition s’il y a un SP, forme de base, alternances, classes WordNet.Pour des raisons d’économie, les alternances et les formes de base sont représentées par des codes, dont le clair figure dans Saint-Dizier (1998).[aborder],2,[[ae],[pos]],[], [15],[50,140,141,162], [[9.2],[9.3.1],[9.4.3],[9.5.2],[9.8]]Traitement des 2 sens de abandonner :[abandonner],3,[[ae,src],[tg],[dest]],[a],[23], [50,51,61,102,162],[[13.2.1]]
[abandonner],3,[[ae],[ti/th],[pos]],[type-loc],[24], [50,51,61,102,190], [[9.3.1],[9.8]]
Aborder est classé comme verbe de mouvement, il a un agent effectif et un objet dont le rôle est une position, sa forme de base est transitive avec un objet de type lieu ([15]) et les alternances : réfléchi moyen (50), effacement de l’objet direct (102), etc. Abandonner a les deux sens, l’un spatial (laisser un objet quelque part) et psychologique (abandonner quelqu’un à quelque chose). Chacun de ces sens a une grille thématique différente et un ensemble d’alternances différent. Nous faisons l’hypothèse que tous les usages d’un sens (y compris métaphoriques) obéissent aux mêmes alternances.

4 - Les descriptions sémantiques

20 Dans ce paragraphe, nous décrivons notre emploi du formalisme de la LCS, en introduisant le langage, puis sa modélisation informatique. Nous présentons ensuite quelques représentations de verbes et de prépositions.

4.1 - Introduction à la LCS

21 Présentons brièvement la LCS (Jackendoff, 1983, 1990) et ses principes. Formellement, il est organisé autour de 3 types d’éléments descriptifs, intuitivement simples et postulés primitifs. Ce sont les interactions entre ces éléments qui donnent la puissance expressive de la LCS. Sur le plan de la représentation, la LCS est une amplification des LST (Lexical Semantic Templates). Elle a été à l’origine définie pour traiter des verbes de mouvement, puis a été étendue par analogie (Gruber, 1967) à d’autres classes de verbes tels que ceux liés à l’expression de la possession. Cette analogie devient plus difficile à maintenir pour les verbes psychologiques et épistémiques. Pour ceux-ci, nous avons dû développer quelques primitives supplémentaires, suivant la démarche de Pinker (1989).

22 Il faut bien garder à l’esprit que la LCS est conçue pour décrire des relations de nature prédicatives, il est donc nécessaire de l’associer à d’autres paradigmes pour pouvoir décrire plus en profondeur la sémantique d’un verbe. La LCS garde un lien fort avec la syntaxe et avec les distributions en rôles thématiques et avec la structure de sous-catégorisation pour les restrictions de sélection. Elle tente aussi de suivre les principes d’expressivité, d’universalité et de compositionalité à la base des constructions sémantiques symboliques.

23 Le premier constituant de la LCS sont les catégories conceptuelles définies à partir d’un ensemble générique de catégories ontologiques du discours (l’anglais sera gardé ici pour indiquer qu’il s’agit du méta-langage de la LCS) : thing, event, state, place, path, property, purpose, manner, amount et time. Ces catégories sont très génériques et sont complétées, dans la structure de sous-catégorisation, par les restrictions de sélection. Ces catégories donnent un type à toute construction prédicative ou fonctionnelle de la LCS. Le second constituant du langage sont les primitives conceptuelles, qui se structurent en deux niveaux. Les primitives très générales : GO (changement) et BE (état), puis CAUSE et quelques autres. Suivent des primitives plus spécifiques liées aux prépositions. Nous en avons dégagé 68, qui reflètent les différents sens pris par les prépositions en général (dont : AT, ON, UNDER, TOWARDS, etc.). Viennent enfin les champs sémantiques, inspirés directement des descriptions de Gruber (1967) qui vont préciser le champ sémantique dans lequel opère la représentation. La LCS postule les champs suivants : localisation (+loc), temps (+temp), possession (+poss), l’expression des propriétés (+char,+ident). Y ont été ajoutées les champs psychologiques (+psy), épistémiques (+epist) et de la communication (+comm).

4.2 - Quelques formes de représentation typiques

24 Nous allons nous concentrer, dans cet article, sur les possibilités expressives du formalisme et des constructions logiques que nous y avons ajoutées. Les éléments de formalisation sont donnés dans Saint-Dizier (1999).

25 Le sens le plus direct du verbe donner se représente comme suit :[event CAUSE([thing I ],
[event GO+poss ([thing J ], [path FROM+poss ([thing I ],
TO+poss ([thing K ])])]
On y décrit que I est la cause du changement dans le domaine de la possession (GO+poss) de J selon un chemin qui va de I vers K. Si l’on veut introduire la prise en compte de métaphores régulières vers des domaines psychologiques ou épistémiques, par exemple, il faut, pour garder un traitement monotone de la compositionalité, remplacer le champ sémantique +poss par une variable, en en précisant le domaine (+psy ou + epist, respectivement) :λ D, [event CAUSE([thing I ],
[event GO+D ([thing J ], [path FROM+D ([thing I ],
TO+D ([thing K ])])]
Dans une proposition donnée, la valeur de D dépend alors directement du type de l’argument objet (ainsi, donner un conseil entraîne, par exemple, D=+epist).

26 En ce qui concerne les verbes de déplacement, tels que aller, le champ lié au déplacement reste, en général, largement sous-spécifié :λ P, [path ] [event CAUSE([thing I ], [event GO+loc([thing I ], P ]L’objet est représenté par la variable P typée comme étant un path. L’introduction de la valeur de P dans la représentation du verbe se fait compositionellement, via la β-réduction de P, en intégrant la représentation du SP décrivant le chemin. Cette représentation du verbe seul indique donc simplement que I est la cause que I se déplace selon un chemin P.

27 L’un des sens du verbe couper (Gayral et al., 1999) décrit l’interruption d’un processus physique (couper le moteur), de communication (couper la parole) ou lié à des propriétés/événements qui ont une certaine régularité (couper les fonds). Cette variabilité de l’argument objet et sa prise en compte dans la représentation sémantique de la proposition se traite de la façon suivante :λ A λ X (λ I λJ [event CAUSE ([thing I ]
[event GO+A(X,
[path FROM+A ([state Continuous ] TO+A ([state Discontinuous ])])])
L’instanciation des variables dépend alors du type de la variable J qui désigne l’objet:

  • si J=objet physique, alors A=loc, X=[thing J ], ceci constitue le choix par défaut.
  • si J=communication, alors A=+ comm, X=[thing FLOW-OF([thing J ]) ]
  • Enfin, si J=ressource, A=+char+ident,

X=[thing Availability-Of ([thing J ])]Notons les fonctions FLOW-OF et Availability-of que nous avons introduites pour extraire une propriété de l’objet.

4.3 - La description des ressources pour les verbes

28 Le paragraphe précédent nous a permis de décrire de façon informelle la nature de nos descriptions sémantiques lexicales. Nous décrivons à présent la structure de nos représentations en LCS dans notre base lexicale.

29 Comme indiqué en 3.3., les verbes décrits sont structurés en classes et en sous-classes, suivant les principes de WordNet. Gardant bien à l’esprit que la LCS ne représente qu’une partie de la sémantique des verbes, celle qui met en jeu des relations, plusieurs verbes d’une même classe vont naturellement recevoir la même représentation. Leurs différences devant être décrites par d’autres dispositifs, tels que ceux évoqués ci-dessus. Par exemple, pour les verbes de déplacement vers une direction plus ou moins précise, nous avons la représentation suivante :[event CAUSE([thing I ],
[event GO+loc ([thing I ], [path TOWARDS+loc ([thing K ])])]
Le domaine ontologique est celui de la localisation (+loc), TOWARDS indique une direction, sans que cela préjuge du fait qu’elle soit atteinte ou pas. Cette représentation est appropriée pour des verbes tels que marcher, courir, rouler, foncer, etc. Elle est très générique. Elle sera associée à une classe de verbes très large, en tant que forme générale. Il est alors possible de la préciser en indiquant le moyen de transport lorsque celui-ci peut être facilement explicité, par exemple les jambes ou un véhicule. Ce moyen peut rester sous-déterminé, comme dans le cas de foncer. Nous aurons alors à rendre compte d’un élément incorporé (Baker, 1988) :[event CAUSE([thing I ],
[event GO+loc ([thing I ], [path TOWARDS+loc ([thing K ]),
[means BY-MEANS-OF([thing LEGS ])]])]
Cet élément incorporé (LEGS) n’est pas lié à une variable car il ne correspond pas à la réalisation d’un argument. Nous ne pouvons guère aller plus loin avec cette représentation (pas plus, d’ailleurs, avec d’autres approches sémantiques tels que les réseaux ou les graphes). Pour faire la différence entre marcher et courir, il faut, par exemple, ordonner ces verbes sur une échelle représentant la vitesse. Ces échelles sont appelées hiérarchies proportionnelles sans branchements (Cruse, 1986). Ces échelles peuvent traiter de propriétés mesurables objectives, voire subjectives (dans le domaine psychologique par exemple), mais elles ne peuvent traiter de nuances, par exemple géométriques, qui font la différence entre marcher et courir, mais ceci fait-il partie de la sémantique ?

30 Nous avons donc créé une base de représentations LCS, chaque entrée lexicale de verbe ou de préposition pointant alors, via un identifiant, vers cette base de représentations LCS. Cette représentation est actuellement en Word, nous sommes en train de la transposer en XML, permettant ainsi de la traduire vers différents formalismes selon les utilisations qui en seront faites. Au niveau des représentations elles-mêmes, il est clair que certaines familles de verbes sont plus fidèlement décrites que d’autre car les primitives existantes leur sont bien adaptées. A nous d’en ajouter, avec les principes qui s’imposent. Par exemple, nous avons introduit la primitive FEEL pour les verbes psychologiques, où il n’y a pas véritablement, ni même métaphoriquement d’idée de transfert de quoi que ce soit.

4.4 - Les ressources liées aux prépositions

31 Nous avons un travail assez similaire, mais nettement plus exhaustif, pour les prépositions (Cannesson et Saint-Dizier, 2002). Nous avons tout d’abord identifié les classes de sens pour les prépositions, dans le même esprit que les classes de verbes indiquées ci-dessus. Ces classes, proches d’une certaine manière des rôles thématiques, se structurent sur trois niveaux. Nous donnons ici les 2 niveaux les plus hauts, les dénominations ayant essentiellement une valeur d’indication de la classe :

  • localisation, avec les sous-classes : source, destination, via, position fixe,
  • quantité, avec les sous-classes : numérique ou référencielle, fréquence et itérativité, proportion ou taux,
  • manière, avec les sous-classes : manières et attitudes, moyens, imitation et analogie,
  • accompagnement, avec les sous-classes : adjonction, simultanéité d’événements, inclusion, exclusion
  • choix et échange, avec les sous-classes : échange, choix ou alternative, substitution,
  • cause, avec les sous-classes :cause, but ou conséquence, intention,
  • opposition (physique opposée à psychologique ou épistémique)
  • ordre, avec les sous-classes : priorité, subordination, hiérarchie, rang, degré d’importance,
  • groupes mineurs non structurés : concernant, en dépit de, comparaison.

Pour chaque niveau, et en particulier pour le niveau le plus bas, nous avons une représentation LCS, relativement peu sous-déterminée qui en exprime la sémantique. Par exemple, sous localisation - position fixe, nous avons ‘proximité de l’objet, avec ou sans contact’. Ceci correspond à des sens particuliers de prépositions telles que contre, à côté de, à proximité de. La représentation s’écrit :λX [place NEXT_TO +loc, +/-c ([place/thing X])]La sémantique des prépositions est décrite à l’aide de 68 primitives, provenant des prépositions anglaises, sans qu’elles aient nécessairement le sens standard anglais. Ce nombre est stable et n’évoluera pas.

32 A titre d’exemple, nous avons identifié dans notre cadre 5 sens (hors formes figées ou semi-figées) pour la préposition contre. Les représentations sont substantiellement différentes d’un sens à l’autre, motivant de façon cohérente nos découpages. Ces représentations sont les suivantes :1. Localisation
λX [place NEXT_TO +loc, +/-c ([place/thing X])] localisation dans l’espace (proximité ou contact) Pousser le lit contre le mur.
2. Opposition
λX [manner AGAINST +loc ([event/thing X])]
Nager contre le courant.
3. But-Protection / défense
λX [event FOR +comm ([event/thing X]
Un discours contre l’intolérance
4. Echange
λX, λY [path EXCH +poss ([thing/event X]), ([thing/event Y])]
J’échange mon entrée contre ton dessert.
5. Proportion / rapport
λX [amount AGAINST +comm ([amount X])]
9 voix contre 12
Ces représentations se combinent naturellement, via la λ-abstraction, avec le SN du groupe prépositionnel. Ce même groupe se combine lui aussi compositionellement avec la représentation du verbe dont il est l’objet indirect. Les valeurs des champs sémantiques, lorsqu’elles sont sous-spécifiées, se trouvent instanciées en fonction du type sémantique de l’argument. Cette base est à présent disponible sous forme papier et prochainement sous forme électronique en XML.

4.5 - Evaluation du découpage en unités de sens

33 Nous avons longuement débattu de la façon dont nous identifions les sens d’un lexème polysémique au début de cet article. Il est bien entendu essentiel d’évaluer cette approche. Les prépositions constituant le groupe le plus achevé (tous les sens usuels y sont, hors les formes figées), nous avons procédé à une évaluation du découpage en sens des prépositions contre, vers, dans, pour, sur et sous à partir d’un corpus de 1200 pages de textes variés (encyclopédies, thèses, journaux, etc.) dont nous avons extrait, pour chacune de ces prépositions, quelques centaines d’usages. Deux locuteurs natifs du français ont dû alors tenter de classer les usages rencontrés dans ce corpus sous les différents sens que nous avons élaborés. Ces locuteurs ne sont pas linguistes, et ont reçu une formation très légère, minimale, afin qu’ils comprennent bien la tâche à effectuer.

34 En complément du classement lui-même, que nous avons évalué, nous leur avons demandé de nous indiquer pour chaque occurrence si le classement sous un sens était immédiat (cas (1)), simple, mais demandant un effort d’analyse (cas (2)) ou impossible (cas (3)). Ces résultats sont consignés ci-dessous :


Préposition Contre Vers Dans Pour Sous Sur Nbre d’occurrences traitées 569 541 1890 2716 794 1439 Cas 1, en % 61.4 72.6 66.7 86 93.1 75.1 Cas 2, en % 38.6 27.4 33 11.6 3.9 22.4 Cas 3, en % 0 0 0.3 2.4 3 2.5 Nbre de sens pour cette préposition 5 3 2 8 4 6 Distributions des Usages par sens (%) 7.7 6.5 13 1.3 etc. 45.2 46.9 0.9 98.4 1.4 14.9 65.2 4.6 4.2 etc. 29.3 29.3 10 31.2 73.8 3.8 1.3 2.4 etc.

35 L’évaluation montre, comme on pouvait s’y attendre, que ce sont les sens qui regroupent le plus grand nombre d’usages qui demandent parfois un travail d’identification et de classement plus grand. En effet, ces sens sont en majorité à l’origine de nombreuses constructions dérivées, dont de nombreux usages métaphoriques. La plupart des impossibilités de classement (cas (3)) sont liées à des formes figées, non répertoriées dans ce travail.

36 Si nous considérons à présent la qualité des classements effectués par ces deux locuteurs, par rapport à ce que nous aurions fait nous-mêmes, les résultats sont particulièrement bons :


Préposition Contre Vers Dans Pour Sous Sur Taux d’analyses correctes 97.2 96.6 98.7 95.4 97.6 97.5

37 Les cas où le sens a été mal reconnu est essentiellement lié à une mauvaise compréhension de l’exemple à traiter ou à un emploi métaphorique réellement délicat. Il y a aussi probablement quelques erreurs, inévitables dans tout travail de ce type. Globalement, on peut dire que le classement s’est effectué de façon très satisfaisante, avec peu d’hésitations. Il faut toujours être prudent avec les évaluations, mais nous pensons qu’il s’agit là d’indicateurs positifs quant à la démarche que nous avons entreprise et à présent stabilisée.

4.6 - Disponibilité des ressources

38 Ces ressources sont à présent disponibles. Bien entendu, cette version est en perpétuelle évolution. Son format est soit une base de données élémentaire en Prolog, soit une base de données en XML, que l’on peut interroger.

39 Notons, par ailleurs, un travail d’intégration et de normalisation en cours, dans le cadre du projet VOLEM, projet soutenu par les régions des Pyrénées, qui propose une normalisation des notations et une intégration des 3 langues français, espagnol et catalan, l’occitan étant à l’étude. Une consultation via le WEB sera disponible en fin d’année sur le site de l’IRIT.

5 - Conclusion

40 Dans cet article, nous avons tenté de présenter à la fois les questions fondamentales, les méthodes et les techniques que nous avons étudiées lors de la constitution de ressources prédicatives, verbes et prépositions, pour le français. Les buts essentiels étaient, et sont toujours, de construire un ensemble de ressources qui soient fidèles à une certaine vision théorique de la langue et aux exigences du traitement automatique des langues ainsi qu’au partage des ressources.

41 Les descriptions étant à présent finalisées, nous avons entrepris une phase d’évaluation, dont une partie est donnée ci-dessus. Pour augmenter la fiabilité et la portabilité, nous avons aussi opéré une normalisation avec l’espagnol et le catalan, à travers le projet VOLEM. Restent à présent les utilisations concrètes hors de notre laboratoire. S’il est clair que cette tâche est ardue, il n’en demeure pas moins (1) qu’une description sémantique sur une large couverture du français est une chose assez rare et (2) qu’il y a un grand besoin, parfois diffus, de telles ressources dans notre communauté. Une première valorisation se fait actuellement à travers une Arc de l’Inria, le projet GeNI. Cette expérimentation sur plusieurs équipes devrait mieux éclairer les problèmes de ré-utilisation, qui sont parmi les plus délicats.

Bibliographie

Références

Baker, M.C. (1988) : Incorporation: A Theory of Grammatical Function Changing. Chicago University Press.

Cannesson, E., Saint-Dizier, P. (2002) : Defining and Representing Preposition Senses: a preliminary analysis. ACL Workshop on WSD, Philadelphie.

Cruse, A. (1973) : Some Thoughts on Agentivity. Journal of Linguistics 9-1.

Cruse, A. (1986) : Lexical Semantics. Cambridge university Press.

Dorr, B., Katsova, M., (1998) : Lexical Selection for Cross-Language Applications: Combining LCS with WordNet. 3rd Conf. Machine Translation, Lahorne, PA.

Dorr, B., (1999) : Large-scale Dictionary Construction for Foreign Language Tutoring and Interlingual Machine Translation. Journal of Machine Translation 12-1.

Dowty, D. (1989) : On the Semantic Content of the Notion of Thematic Role, in G. Cherchia, B. Partee, R. Turner (eds), Properties, Types and meaning, Kluwer.

Dowty, D. (1991) : Thematic Proto-roles and Argument Selection. Language 67-3.

Fellbaum, C. (1993) : English Verbs as Semantic Net. Journal of Lexicography, 6.

Fellbaum, C. (1995) : Co-occurence and Antonymy. Journal of Lexicography 8-2.

Fellbaum, C. (1997) : A Semantic Network of English Verbs. In C. Fellbaum (ed.) WordNet: An Electronic Lexical Database. Cambridge, MA, MIT Press.

Fillmore, C. (1968) : The Case for Case. In Universals in Linguistic Theory, E. Bach and R.T. Hams (eds.), Holt, Rinehart and Winston, New York.

Goldberg, A. (1994) : Constructions: A Construction Grammar Approach to Argument Structure. University of Chicago Press.

Gruber, J. (1967) : Studies in Lexical Relations. MIT doctoral dissertation, and In Syntax and Semantics. Series Lexical Structures, North Holland.

Jackendoff, R. (1972) : Semantic Interpretation in Generative Grammar. Cambridge, MIT Press.

Jackendoff, R. (1983) : Semantics and Cognition. Cambridge, MIT Press.

Jackendoff, R., (1990) : Semantic Structures. MIT Press.

Gayral, F., Saint-Dizier, P., Peut-on couper à la polysémie verbale ? Actes TALN 1999, Cargèse.

Lakoff, G. & Johnson, M. (1980) : Metaphors we Live by. Chicago Univ. Press.

Lakoff, G. & Johnson, M. (1999) : Philosophy in the Flesh. Basic Books.

Levin, B. (1993) : Verb Semantic Classes: a Preliminary Investigation. Chicago University Press.

Levin, B. & Rappaport Hovav, M. (1995) : Unaccusativity: At the Syntax-Lexical Semantics Interface. Linguistic Inquiry monograph no. 26, MIT Press.

Mari, A.& Saint-Dizier, P., (1997) : Générativité: au delà d’une théorie des types. TALN97, Grenoble.

Martin, R.(1979) : La polysémie verbale. Travaux de Linguistique et de Littérature 17.

Numberg, G., (1995) : Transfer of Meaning. Journal of Semantics 12.

Pesetsky, D. (1982) : Paths and Categories. MIT doctoral dissertation.

Pinker, S. (1989) : Learnability and Cognition: The acquisition of argument structure. MIT Press.

Pustejovsky, J. (1995) : The Generative Lexicon. MIT Press.

Saint-Dizier, P. (1998) : Alternations and Verb Semantic Classes for French. In Predicative Forms for NL and LKB, P. Saint-Dizier (ed), Kluwer Academic.

Saint-Dizier, P. (1999) : Underspecified Lexical Conceptual Structures for Sense Variations. Workshop on Lexical Semantics, Tilburg.

Strigin, A. (1998) : Lexical Rules as Hypothesis Generators. Journal of Semantics 15.

 

Résumé

Dans ce article, nous abordons le problème de la constitution d’un lexique de ressources sémantiques. Notre travail a été consacré aux formes prédicatives, verbes et prépositions. Nous abordons en premier lieu plusieurs aspects liés à la méthode et au positionnement théorique d’un tel travail. Ensuite, nous décrivons les ressources développées : alternances, grilles thématiques, structure lexicale conceptuelle. Nous concluons sur l’utilisation concrète de telles ressources.



This paper deals with the construction of lexical semantic resources for predicates, verbs and prepositions. We first raise questions about the theoretical perspective and the methods to be used for such a work. Next, we describe our resources: alternations, thematic grids and lexical conceptual structure representations. We conclude by some indications on the use of these resources in applications.

PLAN DE L'ARTICLE


POUR CITER CET ARTICLE

Patrick Saint-Dizier « Quelques défis et éléments de méthode pour la construction de ressources lexicales sémantiques », Revue française de linguistique appliquée 1/2002 (Vol. VII), p. 39-51.
URL :
www.cairn.info/revue-francaise-de-linguistique-appliquee-2002-1-page-39.htm.