Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2007/1 (Vol. 44)

  • Pages : 120
  • DOI : 10.3917/docsi.441.0030
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 30 - 39 Article suivant
1

IDENTIFIER L’INFORMATION PERTINENTE et y accéder sont des tâches de plus en plus complexes, compte tenu d’une part du volume croissant d’informations électroniques disponibles, tant sur Internet que sur les intranets d’entreprises, et d’autre part de l’extrême hétérogénéité des gisements d’information (sources structurées ou non, granularité documentaire variable, multiplicité des formats d’enregistrement et de codage, multilinguisme, etc.).

2

Ainsi, face à cette surinformation et à la désorientation cognitive qu’elle engendre chez les utilisateurs, l’information est d’abord un processus d’élimination de l’information. Elle réduit le désordre d’un trop grand nombre de messages extérieurs en discriminant entre les choix possibles d’interprétation et d’action et en faisant apparaître une sorte de « nouvel ordre » où l’éventail des possibilités est réduit à une seule. Accéder à l’information qui correspond au besoin informationnel du moment consiste donc à rendre « saillante » une information par rapport aux autres.

3

Internet est le lieu emblématique de ce désordre informationnel. La croissance de la quantité d’information dans ses multiples sphères (sites web, bases de données, forums, blogs, wikis, etc.) engendre un sentiment d’incertitude qui est devenu l’état cognitif « normal » de tout usager, mais plus encore du documentaliste ou du « veilleur » qui craint de « passer à côté » de l’information stratégique. Pour tenter de créer du sens à partir de ce désordre informationnel et aider l’usager, professionnel ou non, à s’orienter, le défi majeur est celui de la représentation de l’information.

4

Cette question n’est évidemment pas nouvelle mais se pose de manière renouvelée compte tenu du volume croissant d’information électronique disponible et de son hétérogénéité. Trois voies sont explorées pour représenter, chacune de manière différente, le contenu informationnel d’un document ou d’une collection de documents.

1 - Trois approches de la représentation du contenu

5

• Historiquement, la première approche date du début du XXe siècle avec ce qu’il est convenu d’appeler l’explosion documentaire et consiste en la conception des langages documentaires. Dans les années 1950-60, l’irruption du numérique dans les systèmes documentaires a nécessité le développement de méthodes et d’outils permettant d’automatiser l’indexation contrôlée des premières banques de données bibliographiques informatisées. L’indexation contrôlée est donc un processus qui consiste à construire une représentation d’un document en choisissant ses descripteurs dans un langage documentaire préalablement défini (liste de descripteurs, thésaurus, etc.). Cette indexation évite l’utilisation de descripteurs non autorisés et assure ainsi une représentation homogène des documents. En théorie, elle réduit le silence lors de l’interrogation de la base documentaire bien que diverses expérimentations aient néanmoins montré qu’il existe une réelle variabilité dans le choix des descripteurs par les professionnels.

6

• Largement popularisée par les moteurs de recherche sur le Web, la deuxième voie consiste à représenter les documents repérés par le crawler d’un moteur par les mots contenus dans ces documents. Cette indexation libre consiste à extraire automatiquement du document des unités qui sont considérées comme des candidats-descripteurs. Parmi ceux-ci, le système d’indexation choisit ensuite les plus significatifs comme descripteurs du document. Fondée essentiellement sur des techniques statistiques permettant un calcul de fréquence, cette approche identifie des chaînes de caractères (tokens) et non des unités sémantiques (concepts), excluant de fait tout traitement linguistique. Ainsi, les phénomènes d’homonymie, de polysémie ou de synonymie ne sont généralement pas traités. Pour pallier ces limites, les technologies linguistiques proposent des solutions qui s’attachent à « traiter » le contenu informationnel des documents en prenant en compte les niveaux morphologique, syntaxique et sémantique de la langue.

7

La troisième voie consiste à structurer les sources d’informations, notamment celles du Web, en rendant explicites les relations sémantiques qui peuvent exister entre les différentes unités informationnelles que contiennent les documents ou collections de documents. C’est dans cette voie que s’inscrivent le défi du « web sémantique » et l’utilisation des métadonnées (RDF, Dublin Core, OWL, etc.) qui reposent en grande partie sur le langage XML et ses variantes. La question du web sémantique peut être resituée dans la continuité des efforts concernant la structuration des documents déployés dans le cadre de SGML, puis de XML. Ils ont maintenant abouti à une formalisation plus fine de la structure des documents, que ce soit avec les DTD (document type definitions) ou les schémas XML recommandés par le W3C. Tout l’enjeu du web sémantique consiste donc à représenter le contenu informationnel des documents en amont de la phase de recherche d’information.

8

Ces trois approches de la représentation du contenu concourent à faciliter la recherche d’information et peuvent être utilisées de manière complémentaire. Lors de la production des documents, des métadonnées peuvent leur être assignées, qui contribueront ensuite à leur indexation. De même, une interface en langage naturel peut faciliter l’interrogation d’un index, que celui-ci soit construit dans le cadre d’un processus d’indexation contrôlée ou d’indexation libre reposant sur des technologies statistiques. Enfin, de plus en plus de systèmes statistiques de recherche d’information intègrent des modules linguistiques.

9

Dans cet article, nous nous concentrerons sur l’apport des technologies linguistiques à la représentation des documents textuels. Dans la première partie, nous présenterons le fonctionnement classique d’un logiciel de traitement automatique de la langue, en insistant en particulier sur les principales étapes du traitement. Puis, dans la seconde partie, nous présenterons différents modes de représentation automatique d’un document textuel : l’indexation, la classification, la catégorisation et le résumé.

2 - Les technologies linguistiques

10

La manipulation des documents textuels pour l’extraction de connaissances, pour l’indexation automatique ou pour le résumé est une pratique dont l’importance est reconnue depuis longtemps. Ces systèmes de traitement automatique prennent en entrée des textes ou ensembles de textes qu’ils transforment pour obtenir en sortie une ou plusieurs représentations du sens. La tâche essentielle de l’opération de transformation consiste à traduire des documents potentiellement ambigus en représentations non ambiguës (à l’exception des ambiguïtés structurelles initiales).

11

La question de la « compréhension » d’un document textuel [1][1] Pour une présentation plus détaillée, voir [2]., qui est au cœur de toute tâche du traitement automatique de la langue (TAL), renvoie donc à deux problèmes majeurs : le premier concerne la représentation du sens du texte et le second la prise en compte du monde de connaissance de référence. Un système de TAL peut donc commencer l’analyse au niveau du mot pour en déterminer la nature et la structure morphologique, continuer au niveau de la phrase pour déterminer l’ordre des mots, la structure syntaxique et le sens de la phrase entière, avant de s’intéresser enfin au contexte et à l’environnement ou au domaine de référence. Un mot ou une phrase peut avoir un sens spécifique ou une connotation particulière en fonction d’un contexte ou d’un domaine et peut être en résonance avec d’autres mots ou d’autres phrases dans un contexte donné ou en fonction d’un usage particulier.

12

Pour effectuer une tâche de TAL, on distingue classiquement (pour la langue écrite) six niveaux de traitement :

  • le niveau de la segmentation en mots et en phrases ;

  • le niveau morphologique qui traite de la manière dont sont constituées les unités lexicales (flexion, dérivation, composition, etc.) et vise à déterminer la catégorie de discours de l’unité considérée ;

  • le niveau syntaxique qui détermine la structure des phrases en fonction de la grammaire de référence ;

  • le niveau sémantique qui traite du sens des mots et des phrases ;

  • le niveau du discours qui vise à identifier la structure discursive et argumentative du document ;

  • le niveau pragmatique qui traite du monde de connaissance de référence, c’est-à-dire qui prend en compte les informations extra-linguistiques qui peuvent contribuer à la compréhension du texte.

Cette décomposition en six niveaux est bien sûr toute théorique. Elle ne correspond pas nécessairement au mode de fonctionnement réel de tous les logiciels de TAL. Certains groupent les niveaux 2, 3 et 4 en une seule étape du traitement, alors que d’autres ne prennent pas en compte certaines des étapes mentionnées (par exemple, le niveau pragmatique est rarement pris en compte en tant que tel mais des connaissances de nature pragmatique peuvent être intégrées dans les dictionnaires de référence, en particulier les connaissances métiers). Enfin, les algorithmes utilisés pour les différents niveaux d’analyse ne procèdent pas tous de la même manière (analyse descendante ou montante, avec ou sans retour arrière, etc.).

13

Dans la section qui suit, nous présentons le fonctionnement des quatre premiers niveaux qui correspondent actuellement à l’état de l’art des systèmes commerciaux les plus avancés fondés sur les technologies linguistiques.

La segmentation en mots et en phrases

14

La première tâche du système consiste à identifier les mots puis les phrases constitutifs du texte. La phrase est en effet, dans la très grande majorité des cas, l’unité linguistique de référence pour l’analyse. Cela n’est pas sans poser de problème dans la mesure où un texte n’est pas une suite d’énoncés isolés les uns des autres mais une suite d’énoncés co-référencés, c’est-à-dire qui s’articulent et « font sens » les uns par rapport aux autres. De ce point de vue, la résolution des problèmes posés par les relations anaphoriques (par exemple, entre un nom de personne et le pronom qui le désigne dans les phrases suivantes) est loin d’être évidente.

15

La segmentation en mots (tokenisation en anglais) vise tout d’abord à reconnaître puis regrouper les chaînes de caractères alphabétiques [a…z], [A…Z] ainsi que les différents caractères avec leurs signes diacritiques comme les lettres accentuées, numériques [0…9] et typographiques [?, ;. etc.] pour former des unités lexicales. Le principe consiste donc à identifier préalablement les signes qui vont jouer le rôle de séparateurs entre les unités lexicales.

16

Ainsi, si on considère que les quatre caractères apostrophe, espace, tiret et point d’interrogation sont des séparateurs, l’énoncé L’entends-tu ? est constitué de trois mots. Cette liste de séparateurs pose néanmoins un problème avec l’énoncé Que fais-tu aujourd’hui ? qui serait segmenté en cinq mots avec aujourd’hui considéré comme deux mots. Inversement, l’énoncé Que mange-t-il ? est constitué de trois mots et non de quatre.

17

Pour éviter ce genre de problème, il convient de distinguer les contextes dans lesquels un caractère jour le rôle de séparateur. On obtient une liste de séparateurs sans condition (virgule, point-virgule, points d’exclamation et d’interrogation, etc.) et une liste de caractères dont le rôle varie en fonction du contexte (apostrophe, point, tiret, etc.). Une autre solution consiste également à fournir la liste des formes pour lesquelles le caractère ne joue pas le rôle de séparateur (comme dans aujourd’hui).

18

La segmentation en phrases obéit au même principe mais en considérant comme séparateurs les ponctuations dites « fortes », à savoir le point, les points d’exclamation et d’interrogation et de suspension. Comme pour la segmentation en mots, le rôle du point est ambigu puisqu’il peut être utilisé dans les abréviations : ainsi S.N.C.F. ne correspond pas à quatre phrases mais bien au sigle correspondant du transporteur ferroviaire national.

19

La sortie du module de segmentation est un texte segmenté en phrases, elles-mêmes segmentées en unités qui sont appelées formes de surface (tokens en anglais).

L’analyse morphologique

20

L’analyse morphologique consiste à reconnaître la structure des formes de surface telles qu’elles ont été segmentées précédemment puis à leur affecter une catégorie grammaticale.

21

La première tâche de l’analyseur morphologique est donc de procéder à la lemmatisation des formes de surface appelées « formes fléchies » en référence aux flexions qui sont utilisées pour conjuguer les verbes et accorder les adjectifs en genre et en nombre. Une forme fléchie (par exemple chantais) correspond à la concaténation de sa forme de base (chant-) et de la flexion indiquant la première personne du singulier à l’indicatif imparfait (-ais). La morphologie flexionnelle donne l’ensemble des règles permettant d’associer les formes de base avec les flexions, pour les verbes, les noms et les adjectifs.

22

Ainsi, à partir des formes fléchies du texte, le lemmatiseur va identifier la forme de base et le lemme de référence (par exemple, la forme infinitive des verbes ou l’adjectif au masculin singulier par convention) et la flexion qui lui est associée. L’analyse morphologique du français nécessite de connaître les formes de base constituant les formes fléchies ainsi que les modèles flexionnels. Pour cela, un dictionnaire flexionnel peut être utilisé, qui associe la forme de base, le lemme de référence et le modèle flexionnel.

23

La seconde tâche de l’analyseur morphologique est d’attribuer une catégorie ou étiquette syntaxique à chacune des formes fléchies identifiées (nom, verbe, adjectif, etc.). Le choix des catégories syntaxiques (on parle également de partie du discours, ou de part of speech en anglais) est un problème extrêmement délicat. Même s’il existe un accord de fait concernant l’emploi des catégories principales (comme nom, verbe, adjectif, etc.), il n’existe néanmoins pas de norme ni de standard concernant le nombre, la nature ou l’intitulé de ces catégories. De plus, la finesse des catégories dépend des objectifs poursuivis. Ainsi, dans certains cas, il sera nécessaire de différencier les types de pronoms au sein de la catégorie générale des pronoms personnels alors que, dans d’autres cas, ce ne sera pas utile. Une autre question concerne la nécessité ou non de segmenter en composants élémentaires certaines expressions (par exemple, faire marche arrière ou machine à vapeur). Dans certaines situations (l’indexation d’un texte, par exemple), il peut même être utile de considérer comme expression figée ou semi-figée un multi-terme (par exemple, crise économique ou encéphalopathie spongiforme bovine).

24

Par ailleurs, le français, comme d’autres langues, possède également une morphologie dérivationnelle. Celle-ci définit les règles permettant d’associer un affixe (suffixe ou préfixe) à une forme de base. Par exemple, le préfixe re peut être utilisé avec de nombreux verbes comme refaire ou rejouer ; le préfixe in est quant à lui utilisé pour les adjectifs, comme dans injuste ou insatisfait. De même, un grand nombre de suffixes existent en français, comme isme, ité ou iste. Les règles de morphologie dérivationnelle sont alors utilisées pour retrouver une forme de base et son lemme à partir d’une forme de surface correspondant, par exemple, à un néologisme rencontré dans un texte, et pour aider ainsi à son analyse (attribution d’une catégorie syntaxique, par exemple).

25

D’un point de vue logiciel, les analyseurs morphologiques peuvent relever de deux grands types de méthodes. Le premier type concerne les méthodes à base de règles linguistiques qui utilisent les connaissances linguistiques propres à la langue considérée pour déterminer l’attribution des catégories. Un travail important de description linguistique est donc nécessaire en amont pour formaliser les connaissances dans les règles d’attribution. Le second type correspond aux méthodes par apprentissage où les analyseurs sont entraînés sur des corpus traités manuellement. Ainsi, lorsque le logiciel a identifié une catégorie pour une forme donnée, il disposera de la probabilité la plus forte pour trouver la catégorie suivante. Pour ces méthodes, plus les corpus d’entraînement sont importants et diversifiés, meilleurs sont les résultats.

26

À la sortie du module d’analyse morphologique, le texte apparaît sous la forme d’une liste de lemmes avec leur catégorie syntaxique et les informations morphologiques nécessaires.

L’analyse syntaxique

27

Le rôle de l’analyse syntaxique est d’abord d’identifier les différents éléments constitutifs de la phrase (appelés syntagmes ou constituants), puis de construire la structure globale de l’énoncé. Pour ce faire, l’analyse est régie par une grammaire de la langue qui est utilisée au niveau local pour la construction des syntagmes et au niveau global pour l’attribution des rôles syntaxiques à chacun des syntagmes (groupe sujet, groupe verbal, groupe complément, etc.).

28

L’identification des syntagmes, et particulièrement des syntagmes nominaux, correspond à un enjeu important dans la mesure où de nombreux systèmes utilisent ces derniers comme candidats-descripteurs pour représenter le contenu informationnel d’un texte. Dans cette liste de candidats, le système détermine ensuite ceux qui possèdent les propriétés pour devenir les descripteurs. Pour ce faire, le système peut recourir à un calcul de fréquence ou à une comparaison avec un vocabulaire contrôlé, une liste d’autorités ou un thésaurus. Cette extraction de syntagmes ou groupes nominaux plus ou moins complexes est utilisée bien sûr par les systèmes d’indexation automatique, mais également par certains types de systèmes de « résumé » automatique. Le « résumé » obtenu est alors moins une véritable « condensation » du texte source qu’une suite d’extraits jugés suffisamment significatifs pour constituer ce que certains appellent une « signature » du texte.

29

Pour constituer ces syntagmes, deux grandes familles de méthodes peuvent être utilisées.

30

D’une part, les méthodes fondées sur l’utilisation de « patrons » (patterns en anglais) où la structure syntaxique est définie à l’avance (par exemple, les groupes nominaux constitués de la suite <Nom Adjectif Adjectif> comme encéphalopathie spongiforme bovine). La méthode des patrons peut également être utilisée pour détecter dans un document ou un flux informationnel comme une dépêche de presse des événements à surveiller. Dans le cadre d’une veille économique, on peut, par exemple, construire des patrons syntaxiques permettant de repérer les opérations de rachat d’entreprises (un exemple très simplifié peut être : Entreprise1 a racheté Entreprise2). La méthode des patrons, qu’ils soient génériques ou spécifiques, est efficace car le traitement effectué prend en compte le contexte immédiat. Inversement, elle risque d’exclure des informations qui pourraient être importantes et qui se trouvent, par exemple, dans un constituant non identifié par le patron, ou dans le verbe de la phrase s’il s’agit d’un patron uniquement destiné à extraire les syntagmes nominaux.

31

Le second type de méthodes repose sur des grammaires à base de règles de réécriture. Elles permettent à la fois de rendre compte de manière souple des différentes manières de composer un même syntagme et d’exprimer les diverses structures de constituants qui sont acceptables pour une phrase. Le pouvoir d’expression de ces grammaires est beaucoup plus important que la méthode des patrons. En effet, ces grammaires de constituants (dont il existe de très nombreuses versions) permettent de dériver plusieurs constituants à partir d’une seule règle. Ces règles de réécriture sont constituées de deux parties : une partie gauche qui correspond à l’un des symboles utilisés pour désigner les constituants et une partie droite qui indique la suite de constituants ou de catégories syntaxiques attendus. Par exemple, GN (qui signifie groupe nominal) pourra se réécrire par la suite Déterminant Nom Adjectif ou Déterminant Adjectif Nom ou Nom propre ; GV (groupe verbal) se réécrit Verbe suivi de GN.

32

Un aspect important de ce formalisme est la possibilité d’utiliser les symboles non terminaux dans la partie droite de la règle, permettant ainsi d’exprimer la récursivité. Cette fonction augmente la puissance d’expression des grammaires en autorisant l’analyse de syntagmes de longueur variable. Ainsi, l’exemple un logiciel de traitement automatique des langues naturelles est reconnu par la grammaire suivante où l’on constate la récursivité par la présence des symboles GN et GP (pour groupe préposionnel) à gauche et des règles à droite :

33

GN ? Déterminant + Nom + GP

34

GN ? Nom + Adjectif

35

GP ? Préposition + GN

36

L’intérêt de ces grammaires réside à la fois dans leur grande souplesse d’écriture et dans leur pouvoir d’expression. Inversement, elles ont tendance à proposer de nombreuses analyses pour les phrases complexes (suggérant en particulier différentes solutions pour le rattachement des GP en cascade). L’ajout d’une nouvelle règle impose de procéder à des tests de non-régression afin de vérifier que la règle n’a pas d’effet de bord sur l’ensemble de la grammaire.

L’analyse sémantique

37

Le quatrième niveau de l’analyse linguistique concerne le traitement sémantique du document et vise à en identifier le sens intrinsèque. Alors que l’analyse syntaxique définit l’acceptabilité grammaticale des phrases, l’analyse sémantique permet de « calculer » leur sens en utilisant soit un système de relations (graphe conceptuel, réseau sémantique), soit un système de traits sémantiques, soit une représentation conceptuelle pivot.

38

La première approche consiste à établir des relations de significations entre les lemmes. C’est donc la place du lemme dans le réseau qui détermine son sens et non pas une description sémantique fine de chacun des lemmes. Un exemple bien connu est celui du thésaurus, utilisé depuis longtemps dans le monde documentaire, et qui décrit les relations existant entre les termes (relations de syno nymie, d’hyponymie, d’hyperonymie, etc.).

39

Une extension de cette approche à la langue générale a été mise en œuvre dans le projet Wordnet réalisé par l’Université de Princeton pour l’anglais. Une version de ce réseau sémantique est consultable en ligne [2][2] http:// wordnet. princeton. edu et permet de se rendre compte des relations sémantiques (les synsets) qui sont utilisées. Le tableau ci-dessous donne l’exemple des relations sémantiques pour le lemme car (voiture en anglais).

40

Autant cette approche est très efficace pour décrire des mondes conceptuels fermés (domaines de spécialités), autant sa généralisation à la langue générale pose de nombreux et sérieux problèmes. On peut tout d’abord observer que la polysémie de la plupart des termes, les glissements de sens, les nouvelles acceptions rendent difficilement « maintenable » un réseau de cette taille, sauf à simplifier les relations. Mais, surtout, se pose la question de l’universalité de la représentation du monde qui est sous-jacente au réseau, aussi bien dans le choix et la nature des relations que dans la place des lemmes les uns par rapport aux autres.

41

La deuxième approche consiste à décrire les lemmes au moyen de traits sémantiques (ou sèmes) qui correspondent à des étiquettes. De même que le lemme est décrit, sur le plan syntaxique, par sa catégorie morphologique et le modèle flexionnel qui lui est associé, il est décrit, sur le plan sémantique, par les sèmes qui le caractérisent. Ainsi, le terme avocat sera affecté des traits sémantiques indiquant qu’il peut s’agir d’un fruit ou d’un homme de loi. Si, dans la même phrase, on rencontre le lemme plaider affecté des traits sémantiques indiquant qu’il s’agit d’une prise de parole pour défendre un accusé, seule l’acception homme de loi sera retenue.

42

La compatibilité des traits sémantiques entre les lemmes d’une même phrase est vérifiée dans un processus d’unification. L’unification vérifie qu’il existe un même trait (ou ensemble de traits) commun aux différents lemmes de la phrase pour conclure à la validité de celle-ci. Par exemple, le syntagme l’avocat marron est accepté car marron comporte le sème malhonnête alors que le syntagme l’avocat bleu ne sera pas accepté.

43

Si le principe de fonctionnement de l’approche par traits sémantiques est simple, sa mise en œuvre s’avère délicate. D’une part, il est impossible de déterminer a priori tous les sèmes qui seront nécessaires pour les différentes applications. Par exemple, définir le terme caviar uniquement avec les sèmes indiquant qu’il s’agit d’œufs d’esturgeon salés est insuffisant et il conviendrait, comme l’indique François Rastier [6, page 63], d’ajouter le sème luxueux. Mais, avec cet exemple, on voit bien que les sèmes sont dépendants du type de représentation que l’on donne du monde de référence et du contexte d’usage de l’application qui va manipuler ces connaissances. On retrouve donc d’une certaine manière les objections adressées à l’approche par relations sémantiques pour la question de l’universalité des sèmes. Enfin, se posent également la question de l’adaptation du système de traits à des domaines de spécialités nouveaux ainsi que celle de la maintenance du dictionnaire comportant la description sémantique des termes.

44

La troisième approche consiste à adopter une représentation conceptuelle pivot. Elle est le plus souvent utilisée dans des applications multilingues comme les systèmes de traduction automatique ou les systèmes de recherche d’information interlingue, Cette approche repose sur l’hypothèse que le sens d’une phrase peut être représenté au moyen d’un langage non spécifique entièrement indépendant des langues. Ce formalisme peut être composé de symboles, de codes ou, fréquemment, de termes empruntés à l’une des langues considérées. Ainsi, chaque terme d’une langue est associé à un concept pivot qui permet de générer les termes équivalents dans d’autres langues. Par exemple, le terme neige en français réfère au concept de /neige/ (peu importe le label qui code le concept) et permet de générer le terme snow en anglais, neve en italien, Schnee en allemand, etc.

45

Si la mise en œuvre de ce type de système pivot est relativement simple, elle pose néanmoins un sérieux problème linguistique car il n’y a pas de rapport bi-univoque entre une langue source et une langue cible (par exemple, le mot neige en français se traduit par de nombreux termes différents en finnois, selon sa qualité, sa température, etc.).

Exemple de relations sémantiques pour le lemme CAR

• S: (n) car, auto, automobile, machine, motorcar (a motor vehicle with four wheels; usually propelled by an internal combustion engine) "he needs a car to get to work"

direct hyponym / full hyponym

part meronym

domain term category

direct hypernym / inherited hypernym / sister term

derivationally related form

46

La description sémantique des lemmes s’avère donc une tâche extrêmement difficile et coûteuse. Mais, même si les nombreuses questions théoriques rapidement évoquées ci-dessus n’ont toujours pas trouvé de réponses évidentes, des systèmes linguistiques intégrant le niveau d’analyse sémantique sont désormais opérationnels. D’un point de vue fonctionnel, l’apport de la sémantique permet de désambiguïser les textes qui sont analysés. Du point de vue de l’usager, la décision de recourir à ces approches dépend de plusieurs critères :

  • la délimitation conceptuelle du domaine : plus le domaine est spécialisé, bien délimité, meilleurs sont les résultats ;

  • l’évolutivité du domaine : plus le domaine est stable, moins le système de représentation sémantique devra évoluer, moins la maintenance sera fastidieuse ;

  • le volume des données à traiter : on ne peut guère envisager un traitement sémantique complexe pour l’indexation du Web, mais traiter un intranet d’entreprise ne pose aucun problème.

3 - Les modes de représentation

47

L’indexation et le résumé sont des techniques anciennes qui permettent d’organiser le contenu de documents textuels non structurés. Ces deux processus créent une courte description du texte original considérée comme une représentation de ce texte. L’indexation vise à extraire ou à assigner à un document un ensemble de termes ou syntagmes qui fonctionnent comme des entrées d’index. Le résumé vise à produire un petit texte cohérent qui structure l’information contenue dans le texte source. Des méthodes automatiques simples fondées sur les fréquences d’occurrences permettent d’extraire les mots jugés pertinents pour décrire un document (cas de l’indexation) ou d’extraire les phrases jugées les plus significatives d’un document (cas du résumé).

48

Ce type d’approche statistique intègre de plus en plus un module d’analyse morphologique afin de traiter les lemmes et non les formes fléchies. Parfois également, elle peut recourir à l’analyse syntaxique afin d’identifier les syntagmes jugés pertinents (par exemple le GN).

L’indexation automatique

49

L’indexation automatique peut être libre (utilisation des mots du document) ou contrôlée (utilisation des descripteurs issus d’une liste préalablement définie).

50

Les six étapes classiques du processus d’indexation libre sont les suivantes :

  • segmentation des mots de la phrase ;

  • élimination des mots vides ;

  • lemmatisation des formes fléchies ;

  • identification des syntagmes comme candidats-descripteurs ;

  • pondération des mots, syntagmes ou descripteurs retenus ;

  • éventuellement, remplacement des candidats-descripteurs (mots et syntagmes) par les termes du thésaurus du domaine (dans ce cas, l’indexation redevient contrôlée).

• Nous ne reviendrons pas sur la première étape qui a déjà été décrite pages 32-33.

51

• Par contre, la deuxième étape qui concerne l’élimination des mots dits « vides » ou « outils » pose problème. En effet, d’un strict point de vue linguistique, il n’existe pas de « mot vide » (stopword en anglais) ; toute forme de surface repérable dans un texte a une fonction linguistique. La fonction d’une liste de « mots vides » est d’identifier les mots qui ne seront pas indexés, soit parce qu’ils sont d’usage très courant (les auxiliaires être et avoir), soit parce qu’ils sont considérés comme n’étant pas porteurs de sens (les articles, les adverbes, etc.), soit parce qu’ils relèvent d’un registre de langue argotique ou trop familier. La liste de ces mots varie suivant les systèmes d’indexation et les moteurs de recherche (voir comme exemple la liste des mots vides utilisée par le moteur de recherche du CERIG [3][3] http:// cerig. efpg. inpg. fr/ Recherche/ mots-vides....).

52

La liste des « mots vides » est donc constituée d’une liste générique dépendante de la langue et d’une liste spécifique au domaine de spécialité concerné ; cette dernière sera construite à partir des mots les plus fréquents et donc les moins discriminants.

53

• La phase de lemmatisation a été traitée page 33. Elle permet de diminuer le nombre de candidats-descripteurs potentiels en ramenant les formes fléchies à leur forme canonique, le lemme. Cela a pour effet d’améliorer le taux de rappel.

54

• L’étape suivante concerne l’identification des syntagmes, et notamment des syntagmes nominaux, dont nous avons présenté les méthodes d’extraction page 33. Comme nous l’avons indiqué, l’idée d’utiliser les syntagmes comme descripteurs est fondée sur l’hypothèse qu’ils sont plus signifiants que les mots simples. L’utilisation des syntagmes comme entrées d’index améliore le taux de précision dans la recherche d’information parce qu’ils sont moins ambigus que les termes simples (l’expression pierre à fusil est en effet plus précise que les deux mots pris isolément). Enfin, une fois les syntagmes identifiés et extraits, il est nécessaire de les normaliser afin de s’assurer que les syntagmes indexant le document et ceux qui seront identifiés lors de l’analyse de la requête seront homogènes. Un même syntagme peut connaître des variations lexicales, morphologiques et/ou syntaxiques.

55

• La dernière étape du processus d’indexation consiste à affecter un indice d’importance aux termes et syntagmes pressentis pour indexer le document. Le poids affecté à chaque entrée de l’index dépend de leur importance relative pour décrire le document. L’hypothèse initiale est que l’importance d’un sujet traité dans un texte est reflétée par la fréquence des termes ou syntagmes exprimant le sujet en question. Cet indice correspond à la mesure tf (term frequency). Néanmoins, la seule prise en compte de la fréquence d’occurrences des termes ne suffit pas car, dans certains documents, la fréquence d’un terme peut être si élevée que celui-ci n’est plus discriminant pour représenter le document. Par exemple, le terme linguistique n’est pas pertinent pour caractériser un article de linguistique. Donc, au-delà d’un certain seuil, plus un terme est fréquent, moins il est pertinent pour décrire le document dans lequel il figure.

56

Un deuxième facteur intervient alors, qui va calculer le nombre d’occurrences du terme dans l’ensemble du fonds documentaire auquel appartient le document concerné. Cet indice est fourni par la mesure idf (inverse document factor). C’est donc le rapport entre la fréquence du terme dans le document et sa fréquence dans l’ensemble de la collection qui fournit son poids. Cette mesure de pondération très fréquente est donnée par la formule tf*idf. Elle exprime le fait qu’un bon candidat-descripteur est un terme qui apparaît souvent dans le document en cours d’indexation mais rarement dans les documents de la collection.

57

À partir de cette formule de base, d’autres fonctions ont ensuite été proposées, qui intègrent différents paramètres tels que la longueur des documents, le pouvoir discriminant des termes, la probabilité d’apparition des termes dans les documents pertinents et non pertinents, etc.

58

• Une autre étape, optionnelle, concerne la possibilité de remplacer les termes et les syntagmes extraits des documents par leurs équivalents choisis dans un thésaurus de référence. Cette fonction permet donc de rapporter la question de l’indexation libre à celle de l’indexation contrôlée.

La classification automatique

59

Outre la construction d’un index, le processus d’extraction des termes ou des syntagmes peut permettre la construction automatique d’agrégats de termes. La classification est un processus qui consiste à construire automatiquement des classes de mots à partir des mots du texte. La classification d’un texte renvoie à la formation de classes (appelées aussi agrégats, ou clusters en anglais) de termes qui sont conceptuellement proches.

60

Le processus de classification construit automatiquement des agrégats de termes ou de concepts issus d’un texte ou d’un flux d’information. Cette approche ascendante ou bottom up de l’organisation et de la représentation des connaissances correspond à une tradition épistémologique fondée sur une approche inductive. Elle réfute en effet l’hypothèse qu’il est possible d’organiser rationnellement les objets de connaissance a priori. Dans le domaine de l’analyse textuelle, elle organise les documents en fonction des occurrences lexicales qui sont contenues dans ces mêmes documents et non en fonction d’un plan de classement préexistant.

61

La construction automatique d’agrégats donne lieu à des représentations diverses. Une représentation fréquente des clusters se fait en particulier sous forme d’une visualisation de l’information, parfois sous forme de cartes, dont l’objectif est d’aider à appréhender rapidement un important volume d’informations textuelles. Différents logiciels de veille proposent ainsi de cartographier automatiquement des documents textuels à partir de la construction d’agrégats afin d’en faciliter l’analyse. Cette approche est connue sous le nom de cartographie décisionnelle.

62

Cette technique de représentation est également utilisée pour visualiser les résultats d’une recherche d’informations en ligne. Ainsi, plusieurs moteurs graphiques sont actuellement disponibles sur Internet afin de faciliter le processus de recherche d’information.

La catégorisation de documents

63

À l’inverse de la classification, la catégorisation consiste à classer des textes en fonction d’un ensemble préexistant de catégories structurées, organisées et éventuellement hiérarchisées.

64

Ce traitement, principalement fondé sur une identification des termes du document, vise à assigner automatiquement un document ou un flux entrant d’informations textuelles dans le plan de classement préexistant, souvent construit manuellement. Cette approche correspond à une tradition épistémologique ancienne (arbre de Porphyre, tradition encyclopédique, etc.) qui présuppose donc l’existence d’un modèle conceptuel d’organisation rationnelle du monde formalisé dans des classes. Ce modèle peut s’exprimer à travers différents outils comme les répertoires, les thésaurus, les réseaux sémantiques, les ontologies et plus récemment les approches connues sous le nom de web sémantique et topic maps. La caractéristique commune de ces outils est de procéder selon une approche déductive ou top down, c’est-à-dire que les classes sont « projetées » sur les documents.

65

De nombreux logiciels de recherche et d’analyse de l’information, notamment en contexte de veille, proposent cette fonctionnalité qui constitue une aide efficace au classement automatique des flux informationnels entrants.

Le résumé automatique

66

Le dernier mode de représentation de l’information abordé dans cet article est le résumé automatique de textes. Comme le souligne Frederick Wilfrid Lancaster [3, pages 5 et suivantes], les processus d’indexation et de résumé sont très proches. Alors que l’indexation vise à décrire le contenu d’un texte au moyen de descripteurs, résumer un texte consiste à produire une description textuelle de son contenu en appliquant un taux variable de réduction. Un rapide examen des résumés proposés par les systèmes commerciaux montre que la frontière entre ces deux modes de représentation est parfois très floue. Ce flou tient en grande partie au fait que les « résumeurs automatiques » utilisent souvent les mêmes techniques d’extraction que pour l’indexation et qu’ils font l’impasse sur les différents types de résumé qui existent.

67

Ainsi, Jean-Luc Minel [4, page 15] rappelle qu’on distingue divers types de résumés en fonction de l’usage qui en sera fait. Il distingue notamment le résumé informatif qui donne une information générale sur le contenu d’un texte en reprenant les éléments essentiels de celui-ci, le résumé indicatif qui couvre l’ensemble des thèmes développés dans le texte et qui sert de « point d’entrée » au texte sans se substituer à lui, le résumé critique, le résumé de conclusions, etc. La notion de résumé est donc ambiguë.

68

Le schéma général du fonctionnement d’un système de résumé automatique comprend trois étapes : l’analyse du texte source pour identifier l’information pertinente ; la représentation de l’information par extraction ou par généralisation ; et la production du résumé.

69

Pour accomplir ce traitement, deux types d’approche sont utilisés.

70

Le premier type, dit « méthodes par extraction », vise à repérer les unités textuelles supposées informatives puis à sélectionner les plus significatives en fonction du taux de réduction souhaité. La sélection des unités textuelles se fait selon différentes techniques, par calcul de score (de type tf*idf), par calcul de similarité lexicale, sur le repérage de phrases prototypiques ou sur le repérage d’éléments lexicaux. Les deux premières relèvent des approches statistiques alors que les deux dernières relèvent des technologies linguistiques. Notons que, en ce qui concerne l’extraction par repérage de phrases prototypiques, l’analyse s’appuie sur la structure discursive du texte à résumer en identifiant, par exemple, certains mots ou expressions qui jouent un rôle clé dans la structuration du document (en premier lieu, en conclusion, il est important de…, l’idée essentielle de ce texte est…, etc.). Ces formes de surface donnent des indices utiles pour repérer les passages importants d’un document.

71

Le second type d’approche correspond aux méthodes fondées sur la compréhension du texte source. Ce courant part de l’hypothèse que l’activité résumante doit s’appuyer sur une compréhension préalable du texte à résumer. Parmi ces méthodes, on retrouve les techniques qui visent à représenter le contenu du texte en s’appuyant sur la structure argumentative de celui-ci et sur les différents niveaux linguistiques, notamment sémantique, décrits dans la section 1 de cet article.

72

À l’heure actuelle, les « résumés » produits automatiquement sont essentiellement des extractions d’unités linguistiques jugées représentatives. On ne peut guère les considérer comme de véritables systèmes de résumé automatique au sens linguistique du terme, mais ces outils donnent des résultats intéressants en fournissant des « clés de lecture » pour l’accès au texte. Face au volume croissant d’informations, ces outils permettent de prendre rapidement connaissance d’un texte volumineux ou d’un ensemble de textes dans le cas des systèmes de résumé multi-documents.

Comment définir et évaluer les technologies linguistiques ?

73

Plusieurs constats peuvent être faits à la fin de cet article. En premier lieu la notion de « représentation d’un document » désigne des pratiques et résultats très différents. Un index, un résumé, des agrégats de termes, voire une assignation d’un document dans une ou plusieurs catégories d’un répertoire peuvent être considérés comme des représentations. Un deuxième constat est que, pour parvenir à ces représentations, les technologies linguistiques sont de plus en plus sollicitées, comme le montre Bernard Normier [5]. Elles gagnent en effet en robustesse et peuvent être intégrées à différentes étapes des traitements visant à représenter un document, même si tous les niveaux linguistiques ne sont pas pris en compte.

74

Se posent alors deux questions : la première est de définir ce qu’on appelle « technologies linguistiques », la seconde concerne les critères permettant d’évaluer « objectivement » leur apport par rapport à d’autres technologies.

75

Concernant la première question, le traitement linguistique d’un texte devrait en théorie intégrer les quatre niveaux décrits dans la section 1 ; en pratique, tous ces niveaux ne sont pas implémentés et il est parfois difficile de dire avec précision si un logiciel relève du domaine des technologies linguistiques, d’autant que les approches sont de plus en plus souvent mixtes. On peut quand même avancer qu’un tel logiciel doit intégrer une formalisation minimale des phénomènes langagiers, au moins au niveau morphologique, et adosser son fonctionnement à un ensemble de ressources linguistiques (telles que des dictionnaires). Ces deux critères sont suffisamment discriminants pour clarifier l’offre industrielle auprès des utilisateurs non-spécialistes.

76

Concernant la seconde question, seule l’organisation de campagnes d’évaluation reposant sur des protocoles unanimement acceptés permet de définir et d’évaluer l’apport réel des différentes technologies. Comme nous l’avons montré [1], la définition des protocoles et des métriques utilisés pour l’évaluation des logiciels de traitement de la langue, écrite et orale, pose de nombreux problèmes théoriques et méthodologiques. L’organisation de telles campagnes n’est néanmoins pas nouvelle puisque les tests de Cranfield 1 et 2, réalisés en Angleterre en 1957 et 1967, visaient déjà à évaluer différents systèmes d’indexation. Plus récemment, les campagnes TREC organisées aux États-Unis par la DARPA et les campagnes Evalda qui ont eu lieu en France dans le cadre du programme Technolangue [4][4] www. technolangue. net ont, parmi d’autres, contribué à mettre en place une infrastructure d’évaluation et à fournir des ressources pour évaluer différentes tâches. Il convient désormais d’organiser de telles campagnes appliquées aux diverses fonctionnalités de représentation de l’information textuelle en français et en intégrant les besoins des usagers dans les protocoles d’évaluation.


Références

  • 1 –  CHAUDIRON, Stéphane (dir.). L’évaluation des systèmes de traitement de l’information. Paris : Hermès Science Publications : Lavoisier, 2004. 375 p. (Traité des sciences et techniques de l’information)
  • 2 –  LALLICH-BOIDIN, Geneviève, MARET, Dominique. Recherche d’information et traitement de la langue : fondements linguistiques et applications. Villeurbanne : Presses de l’ENSSIB, 2005. – 288 p. – (Les Cahiers de l’Enssib)
  • 3 –  LANCASTER, Frederick Wilfrid. Indexing and abstracting in theory and practice. London : Library Association, 1991. 464 p. [3rd ed : Champaing (Ill.) : University of Illinois, Graduate school of library and information science, 2003. XIX-451 p.]
  • 4 –  MINEL, Jean-Luc. Filtrage sémantique : du résumé automatique à la fouille de textes. Paris : Hermès Science Publications : Lavoisier, 2002. 202 p.
  • 5 –  NORMIER, Bernard. L’apport des technologies linguistiques au traitement et à la valorisation de l’information textuelle. Paris : ADBS Éditions, 2007. 65 p.
  • 6 –  RASTIER, François. Sémantique interprétative. Paris : Presses universitaires de France, 1987. 277 p. (Formes sémiotiques) [2e éd. revue et augmentée : 1996]

Notes

[1]

Pour une présentation plus détaillée, voir [2].

Résumé

Français

Etude
Qu’apportent les technologies linguistiques à la représentation du contenu de documents textuels ? Stéphane Chaudiron brosse d’abord un panorama des outils de traitement automatique de la langue (TAL) et présente le fonctionnement classique de tels logiciels, en insistant sur les principales étapes du traitement. Puis il se penche sur les différents modes de représentation automatique d’un document textuel – autant de tâches professionnelles que les technologies du TAL peuvent assister : indexation, classification, catégorisation et résumé. Il s’interroge enfin sur la nature exacte de ces technologies linguistiques et sur les critères qui permettraient d’évaluer leur apport au regard de celui d’autres technologies.

Plan de l'article

  1. 1 - Trois approches de la représentation du contenu
  2. 2 - Les technologies linguistiques
    1. La segmentation en mots et en phrases
    2. L’analyse morphologique
    3. L’analyse syntaxique
    4. L’analyse sémantique
  3. 3 - Les modes de représentation
    1. L’indexation automatique
    2. La classification automatique
    3. La catégorisation de documents
    4. Le résumé automatique
  4. Comment définir et évaluer les technologies linguistiques ?

Pour citer cet article

Chaudiron Stéphane, « Technologies linguistiques et modes de représentation de l'information textuelle », Documentaliste-Sciences de l'Information, 1/2007 (Vol. 44), p. 30-39.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-1-page-30.htm
DOI : 10.3917/docsi.441.0030


Article précédent Pages 30 - 39 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback