Accueil Revue Numéro Article

Documentaliste-Sciences de l'Information

2003/1 (Vol. 40)

  • Pages : 60
  • DOI : 10.3917/docsi.401.0014
  • Éditeur : A.D.B.S.


Pages 14 - 24 Article suivant
1

LE PASSAGE DU XXe AU XXIe SIÈCLE a été marqué par deux phénomènes importants. Le premier est d’ordre technologique : la généralisation du document numérique. Le second est d’ordre économique : la reconnaissance du fait que la compétitivité économique réside dans la maîtrise des flux d’information. Ces deux phénomènes ont rendu indispensable le développement d’outils de traitement de l’information et en particulier de ce qui représente plus de 80 % de celle-ci, l’information textuelle. Une nouvelle catégorie d’outils informatiques est apparue avec les infologiciels. Selon une étude d’IDC, le marché des logiciels de recherche et de classification de l’information devrait atteindre 2,630 millions de dollars en 2005.

2

La réalisation de ces outils nécessite la collaboration de deux mondes, celui de l’informatique et celui de la documentation, chacun d’eux possédant sa propre vision du concept d’indexation.

3

Du point de vue de la documentation, l’indexation est une opération intellectuelle impliquant une analyse approfondie d’un document et la représentation condensée de l’information portée par ce document. Le processus d’indexation permet de résoudre les problèmes et ambiguïtés du langage naturel.

4

L’informatique considère l’indexation comme un repérage des informations dans un ensemble de documents, opération qui permet d’accélérer le processus de la recherche de l’information. La première génération des systèmes dits d’indexation automatique sur le texte intégral était fondée sur la création d’index (fichiers inversés et fichiers topologiques) permettant de cibler un terme ou un ensemble de termes au sein d’un corpus déterminé.

5

Indexation humaine et indexation automatique sur texte intégral présentent chacune certains avantages, mais aussi de nombreuses limites [voir le tableau 1].

Tableau 1 - Indexation humaine et indexation automatiqueTableau 1

1 - Les diverses approches des infologiciels

6

Afin de dépasser les limites inhérentes à chacune de ces deux méthodes, une nouvelle voie a dû être explorée : l’indexation assistée par ordinateur.

Les approches statistique et procédurale

7

Plusieurs approches ont vu le jour au fur et à mesure du développement des technologies informationnelles. Les premiers travaux, en particulier ceux de Luhn, ont ouvert la voie au modèle statistique. Les méthodes statistiques sont plus particulièrement utilisées dans les outils de représentation des connaissances ou pour le classement de pertinence (ranking) des résultats d’une recherche. Parmi les méthodes statistiques employées, citons le calcul de co-occurrence, le calcul de probabilité, l’analyse factorielle, l’analyse relationnelle, la méthode des mots associés, etc.

8

Le modèle procédural, avec la méthode d’indexation par assignation, a été une autre direction de recherche.

L’approche linguistique

9

Enfin, le modèle linguistique a pris la relève. Les méthodes linguistiques n’ont pu être mises réellement en œuvre que lorsque la puissance de calcul et la capacité des mémoires ont été suffisantes (sans qu’il fût nécessaire de recourir à des supercalculateurs) pour la constitution et l’utilisation des énormes ressources que sont les dictionnaires électroniques.

10

L’approche linguistique dans les infologiciels, qui est aujourd’hui privilégiée, comporte deux éléments distincts. Ces deux éléments, les ressources linguistiques d’une part et l’analyse linguistique d’autre part, sont plus ou moins développés selon les types d’outils.

11

Les ressources linguistiques servent à représenter la connaissance d’une langue et sont développées, dans les industries de la langue, pour un ensemble d’applications qui dépassent largement le domaine de la recherche d’information. Elles sont particulièrement mobilisées pour la traduction automatique ou la reconnaissance et la synthèse de la parole.

12

- Le premier type de ressource est celui des corpus textuels mono ou multilingues. Ce sont des recueils de documents de nature similaire qui servent de modèles pour identifier les caractéristiques d’une langue ou d’un domaine particulier de la connaissance. Ils sont également utilisés lors de tests ou du développement d’une application linguistique.

13

- Des corpus de paroles sont également constitués sur les mêmes principes pour les applications orales telles que la reconnaissance ou la synthèse de la parole.

14

- Les modèles de grammaire décrivent les principes d’organisation d’une langue sur ses différents niveaux : le mot, le syntagme, la phrase, le paragraphe.

15

- Les dictionnaires lexicographiques recensent les termes possibles d’une langue, dictionnaires généraux ou dictionnaires spécialisés, et les expressions idiomatiques. Pour chacune des entrées d’un tel dictionnaire sont données la forme grammaticale du terme, sa forme canonique, les formes fléchies ou dérivationnelles.

16

- Les dictionnaires terminologiques donnent les informations sur le sens des termes en fonction du contexte dans lequel ils sont placés. Les dictionnaires peuvent également être des dictionnaires de noms propres (personnes, lieux, marques, etc.).

17

- Les réseaux sémantiques décrivent les relations entre les mots d’un même champ conceptuel. L’une des formes des réseaux sémantiques est bien connue dans les systèmes documentaires : le thésaurus. Les principales relations introduites entre les termes sont : l’hyponymie et l’hyperonymie (relations hiérarchique et genre-espèce), la synonymie (relation d’équivalence), la méronymie (relation tout-partie).

18

L’analyse linguistique comporte trois niveaux.

19

- L’analyse morpho-lexicale a pour objectif l’identification des mots d’un texte. Elle permet d’associer aux formes flexionnelles et dérivationnelles reconnues les formes canoniques correspondantes, afin d’attribuer un sens à chacun des mots du texte. Après le découpage du texte en mots, ceux-ci sont décomposés en morphèmes, c’est-à-dire en les plus petites unités de sens qui constituent un mot. Les mots sont lemmatisés et les lemmes obtenus comparés au lexique de l’application afin de trouver la forme canonique correspondante. Chaque terme est alors étiqueté en fonction des données du lexique.

20

L’analyse lexicale doit également permettre de reconnaître les mots composés et les expressions idiomatiques. Elle doit de même reconnaître les expressions disjointes et identifier par exemple l’expression « analyse du discours » dans « analyse partielle du discours ». La qualité de la mise en œuvre logicielle de l’analyse morpho-lexicale dépend fortement du nombre de termes du lexique. Elle dépend aussi de la qualité du lemmatiseur et des règles de découpage sur lesquelles il est construit. Ainsi un lemmatiseur de bonne qualité doit être en mesure de faire une distinction entre la forme « porte-avions » qu’il doit considérer comme un véritable mot composé et la forme « voulez-vous » qu’il doit comprendre comme la forme « voulez » (verbe vouloir, deuxième personne du pluriel de l’indicatif présent) suivie de la forme « vous » (pronom personnel).

21

- L’analyse syntaxique intervient à la suite de l’analyse morpho-lexicale. Elle étudie la structure grammaticale de la phrase dans le but de lever les ambiguïtés de sens dues aux homographes.

22

Ainsi l’analyse morpho-lexicale de la phrase « les livres sont lourds » permet d’attribuer les étiquettes suivantes aux mots :

  • les : déterminant pluriel ;

  • livres : nom masculin livre, forme plurielle, ou verbe livrer, deuxième personne du singulier de l’indicatif présent ;

  • sont : verbe être, troisième personne du pluriel de l’indicatif présent ;

  • lourds : adjectif lourd, forme plurielle.

Deux constructions grammaticales sont alors envisageables à partir des étiquettes attribuées :

  • déterminant + nom + verbe + adjectif ;

  • déterminant + verbe + verbe + adjectif.

En étudiant l’enchaînement des différentes fonctions grammaticales possibles de chaque terme de la phrase, l’analyse syntaxique est capable de reconnaître que seule la première construction est grammaticalement correcte et que l’étiquette attribuée à « livres » est donc : nom masculin livre, forme plurielle.

23

Mais l’analyse syntaxique connaît cependant certaines limites et ne peut venir à bout de phrases dont la construction grammaticale est à double sens.

24

Ainsi la phrase suivante, contrairement à la précédente, se prête a deux analyses syntaxiques également plausibles :

Deux analyses syntaxiques possibles pour une même phrase
25

Seule une analyse sémantique par examen du contexte permettra de déterminer le sens de la phrase : « Le petit vent la refroidit » ou « La petite fille casse le miroir ».

26

- L’analyse sémantique a essentiellement pour objectif de permettre une recherche allant au-delà du mot pour s’appuyer sur les concepts contenus dans le document.

27

Au premier niveau, l’analyse sémantique va permettre de lever les polysémies. Ainsi l’analyse de l’environnement de mots tels que mercure ou sinus, en détectant des termes tels que astronomie, télescope ou trigonométrie, calcul, permettra de déterminer s’il s’agit de la planète Mercure et non du métal et de la fonction trigonométrique sinus et non du terme médical.

28

L’analyse sémantique peut également autoriser une recherche sur les concepts au-delà des termes stricto sensu. Cette analyse conceptuelle permettra de définir au sein d’un texte que Georges Bush est le président des États-Unis sans que ces termes soient présents dans le texte par la mise en œuvre de l’analyse des réseaux sémantiques aboutissant à la définition de la fonction présidentielle américaine.

29

L’enchaînement des différentes phases d’analyse dans un logiciel linguistique peut être représenté par le modèle général de la figure de la page suivante.

D’autres approches encore

30

Par ailleurs, de nombreux infologiciels utilisent concurremment les méthodes statistiques avec l’approche linguistique.

31

Enfin on peut citer une dernière approche en matière de recherche textuelle, la recherche floue. Ce type de recherche est dérivé des techniques de reconnaissance optique des caractères (OCR). L’indexation par reconnaissance de forme peut s’appliquer à la reconnaissance des séquences linéaires, technique mise en œuvre dans le logiciel Retrievalware sous le nom d’APRP (Adaptative Pattern Recognition Process). Cette technique permet d’effectuer une recherche sur des mots ressemblants ou sujets à des variations orthographiques (cas de noms propres en particulier).

2 - Les outils linguistiques

32

Il est toujours difficile d’établir une typologie des outils dans ce domaine. Ici plus encore qu’ailleurs l’imbrication de ceux-ci rend l’exercice périlleux. On peut toutefois déterminer quelques grandes familles, en précisant qu’un infologiciel peut appartenir à plusieurs de ces familles à la fois.

Les gestionnaires de ressources linguistiques

33

La première famille est celle des gestionnaires de ressources qui permettent notamment la création et la mise à jour des dictionnaires et lexiques ou des réseaux sémantiques. Parmi ceux-ci, les logiciels de gestion des thésaurus sont des outils connus de longue date des spécialistes de l’information documentaire. Les extracteurs de terminologie à partir du texte des documents pour la construction de lexiques sont également bien connus.

Les analyseurs linguistiques

34

Le deuxième type d’outils que l’on peut identifier est celui des analyseurs linguistiques avec les trois niveaux que nous avons évoqués précédemment. Les analyseurs sont des éléments qui peuvent s’intégrer à un système existant, permettant d’ajouter une fonctionnalité linguistique à ce système. Ils sont souvent utilisés en complément à des moteurs de recherche intégrale qui ne réalisent pas d’analyse linguistique en entrée.

Les moteurs d’indexation et de recherche

35

Les outils de cette troisième catégorie optimisent le processus de recherche d’information dans les bases de données textuelles. Ces moteurs sont constitués de deux éléments : un moteur d’indexation des documents et un moteur de recherche ou d’indexation des requêtes.

36

Le moteur d’indexation analyse le contenu des documents afin de créer les divers fichiers d’index pour la mise en œuvre des différents traitements linguistiques et/ou statistiques.

37

Les moteurs de recherche ou d’indexation de requêtes permettent soit une recherche en langage procédural (recherche booléenne), soit une recherche en langage naturel. Dans ce cas, les traitements linguistiques opèrent sur la requête en langage naturel et, après l’avoir reformulée, la traduisent en une équation de recherche adaptée au mode d’interrogation du moteur de recherche. Ces moteurs permettent également très souvent une extension de la requête par un bouclage de pertinence, les textes des documents jugés les plus pertinents (relevance ranking) étant alors utilisés pour une nouvelle formulation de la requête.

Les outils de représentation des connaissances

38

Ils constituent la dernière catégorie d’outils linguistiques. Fondés sur des traitements linguistiques et/ou statistiques, ils produisent des cartes de connaissances qui représentent visuellement le contenu informationnel d’un corpus de documents.

39

La représentation cartographique permet à l’utilisateur de consulter et de naviguer dans le réseau d’associations d’idées en proposant des pistes d’analyses pour des regroupements de termes. Mais l’analyste humain reste nécessaire pour interpréter les rapprochements mis en évidence par l’outil.

Modèle général d’un logiciel linguistique

3 - Les diverses applications

40

On peut également tenter une typologie des diverses applications qui font appel aux outils linguistiques de recherche et d’analyse de l’information textuelle.

La gestion documentaire

41

Les premières applications et encore les plus nombreuses sont celles de gestion documentaire. Au sein de ces applications, on peut distinguer deux fonctions. La gestion des outils de classement et d’indexation des documents - classifications, lexiques, thésaurus ou taxonomies comme il est de bon ton de dire aujourd’hui - est une des plus anciennes fonctions linguistiques dans le domaine documentaire. La recherche documentaire, le pull, est la fonction la plus répandue tant dans les systèmes documentaires que dans les systèmes de gestion électronique de documents. Les outils linguistiques de recherche et d’analyse de l’information textuelle sont d’une réelle efficacité dans l’identification de documents pertinents au sein des bases documentaires de grand volume. L’automatisation de la recherche est également un « confort « pour l’utilisateur final dans sa quête d’information.

Le textmining

42

Le textmining est devenu le complément indispensable des applications de datamining. En effet les entrepôts de données (datawarehouses) comportent maintenant, dans de nombreux cas, non plus seulement de l’information structurée ou numérique (champ d’application du datamining), mais aussi de l’information textuelle (champ d’application du textmining) qui vient « éclairer » les données exploitées par les logiciels de datamining. La mise en œuvre de terminologies métier est également un élément important apporté par le textmining dans ce type d’application.

La diffusion sélective de l’information

43

Les applications de DSI, bien connues là encore des professionnels de l’information, reposent sur la constitution de profils personnalisés fondée sur les centres d’intérêt et les caractéristiques du métier de chaque destinataire. Une des méthodes, au-delà de l’attribution manuelle de mots clés, réside dans l’analyse des concepts exprimés dans un corpus documentaire sélectionné par l’utilisateur au moyen d’outils de traitement linguistique. Les concepts ainsi dégagés vont alors définir les centres d’intérêt et modéliser le ou les profils de l’utilisateur. La diffusion des documents en mode push est alors ciblée en fonction des analyses des concepts retenus dans l’intégralité du texte avec les centres d’intérêt du destinataire.

La veille informationnelle, complétée par la classification automatique et la cartographie des connaissances

44

C’est un des domaines dans lesquels les technologies de traitement linguistique offrent le plus d’intérêt. En effet, l’un des principes de base de la veille est la détection des signaux faibles ou des signes avant-coureurs et seule la mise en œuvre d’outils de traitement automatique du contenu permet le repérage de ceux-ci dans le flux informationnel.

45

Les applications de veille se complètent avec des applications de classification automatique et de cartographie des connaissances. La classification automatique est soit une classification supervisée, soit une classification non supervisée. Dans le premier cas, elle regroupe les éléments dans des classes prédéterminées. Alors que la classification non supervisée repose sur des descriptions faites à partir d’exemples non structurés, de classes non déterminées : clustering ou segmentation. Le clustering permet la répartition des éléments en groupes qui évoluent au fur et à mesure selon les besoins et selon les recherches effectuées.

La rédaction automatique de résumés

46

Ce dernier type d’application que l’on peut mentionner ne consiste actuellement qu’en l’extraction puis en l’assemblage de phrases entières du document considérées comme les plus porteuses de sens. La véritable construction d’un texte condensé n’est pas encore intégrée dans les infologiciels.

4 - L’offre logicielle

47

Les outils de traitement de l’information textuelle sont nombreux et variés, mais peu passent à l’échelon industriel et trouvent leur place sur le marché. Nombre d’entre eux sont encore en développement et souvent dans des laboratoires universitaires de recherche. Par ailleurs les infologiciels sont généralement, du fait des caractéristiques propres aux diverses langues, des produits « nationaux », ce qui en limite la diffusion. Les infologiciels sont également très souvent développés par des petites sociétés spécialisées, souvent des start-up, ceci expliquant la grande mouvance de ce marché sur lequel le nombre de morts précoces est élevé. En outre le coût de mise en œuvre des infologiciels reste élevé du fait du coût de développement des ressources linguistiques nécessaires. Le marché de l’infologiciel reste encore pour une grande part un marché « grands comptes ».

Les produits disponibles sur le marché français, objets de l’enquête

48

On peut dire qu’une vingtaine d’infologiciels sont aujourd’hui disponibles sur le marché français ; c’est-à-dire une vingtaine de produits disposant d’une structure commerciale et technique susceptible d’assurer un développement et une maintenance suffisants.

49

Les produits qui émanent de laboratoires ou qui ne sont pas présents sur le marché français n’ont pas été retenus dans l’enquête dont nous allons commenter les principaux résultats. Par ailleurs, les fonctions présentées par les produits étudiés devaient offrir un certain niveau de traitement linguistique. Les moteurs de recherche et les systèmes d’indexation fondés sur une simple indexation en texte intégral ont été écartés. Enfin, n’ont été retenus que les infologiciels dont les concepteurs ont bien voulu répondre à notre grille d’analyse. Le tableau 2 donne la liste des infologiciels pris en compte dans cette enquête. Ces produits sont relativement diversifiés tant dans leurs finalités que dans leurs fonctions : le tableau 3 pages 22-23 résume leurs principales caractéristiques.

Tableau 2 - L’offre logicielleTableau 2

Les prix

50

La gamme de prix des produits est également très large. On peut ventiler ceux-ci selon la distribution suivante, pour un tarif de base généralement calculé pour dix postes :

  • prix inférieur à 10.000 € : 5 ;

  • prix compris entre 10.000 et 50.000 € : 8 ;

  • prix supérieur à 50.000 € : 3 ;

  • prix non communiqué : 2.

Par ailleurs, il ne faut pas oublier que le coût d’une solution mise en place sera aussi très dépendant du coût de développement des lexiques ou dictionnaires nécessaires.

La diffusion

51

Il est aussi très difficile de connaître la diffusion des infologiciels, et ceci pour plusieurs raisons. La première tient dans la définition du client et du site qui varie d’un éditeur à l’autre. Une grande banque, par exemple, représente-t-elle un client ou plusieurs centaines selon que l’on considère le siège ou les agences ? La seconde raison réside dans le fait que certains produits sont encapsulés dans des solutions globales de traitement de l’information dans le cadre de progiciels de gestion documentaire. De nombreux outils linguistiques sont mis en œuvre en tant que modules spécifiques dans des applications plus généralistes.

Un marché très instable

52

Enfin, il faut constater que l’évolution de l’offre est difficile à suivre en raison de nombreux phénomènes de concentration et de réorientations stratégiques. La fragilité de ce que l’on a appelé la net-economy et le fait que les éditeurs d’infologiciels soient souvent des petites, voire des très petites entreprises ne facilitent pas le développement du marché de ce type de logiciels. Cette fragilité des sociétés diffusant ce type d’outils a souvent rendu méfiants les acquéreurs potentiels.

53

C’est ainsi que de nombreux événements ont agité l’industrie de l’infologiciel depuis plusieurs mois. Parmi eux, citons :

  • le rachat de GSI-Erli, devenu ensuite Lexiquest, par l’Américain SPSS et le départ de l’équipe de recherche et développement avec Bernard Normier à sa tête pour créer la société Lingway ;

  • le rachat de Fulcrum par PC-Docs, repris à son tour par Hummingbird ;

  • le rachat de la société Sinequa, après son dépôt de bilan, par le groupe Revue Fiduciaire. Sinequa avait été créée en 1983 sous le nom de Cora et avait été en France, avec Erli, l’une des premières à développer des progiciels linguistiques. Signalons que le groupe Revue Fiduciaire a également racheté la société Neurosoft qui travaille sur le créneau des interfaces homme/machine fondées sur la reconnaissance et la synthèse vocales ;

  • le rachat de la société québécoise Semantix, développeur d’outils linguistiques, par l’éditeur américain Convera. Les outils de Semantix doivent être intégrés dans RetrievalWare, le moteur d’indexation et de recherche de Convera ;

  • l’autonomisation en sociétés indépendantes des filiales de la société SER diffusant le moteur d’analyse SER Brainware, à la suite des difficultés financières de celle-ci ;

  • l’investissement lourd (12 millions de dollars) de Bertelsmann Media Systems dans la société américaine Topical Net, développeur d’un produit comparable aux offres d’Arisem ou d’Autonomy. Mais l’entrée sur le marché français de cette offre se fait attendre ;

  • la mise à disposition d’outils de recherche linguistiques par les grands serveurs d’information. C’est le cas de Factiva avec son outil de catégorisation automatique Fusion, évolution de l’outil propriétaire Factiva Intelligent Indexing. La division conseil de Factiva devrait accompagner les clients dans la mise en place de Factiva Fusion sur leurs systèmes internes d’information. On peut aussi citer Dolphin Search, l’outil de recherche linguistique sur les portails juridiques de Lexis-Nexis, et Northern Light, adopté par Divine. De leur côté, Reuters et Elsevier utilisent des développements autour du moteur d’indexation et de recherche norvégien Fast, et Wolters-Kluwers utilise quant à lui le moteur Orenge de la société Empolis.

Analyse de dix-neuf infologiciels du marché français
Tableau 3 - Caractéristiques des principaux logicielsTableau 3

5 - Les perspectives

54

De nouvelles technologies pour le traitement de l’information textuelle sont en cours de développement, en particulier autour de la technologie des réseaux neuronaux. C’est par exemple le cas avec le moteur de recherche Influo de la société Sensoria Technology. Mais ces outils sont souvent des « boîtes noires « auxquelles il est malaisé d’accéder et dont il est difficile de comprendre les rouages.

55

La problématique de la recherche et de l’analyse de l’information textuelle par les outils linguistiques devra également être repensée dans l’entreprise d’une manière plus globale. Actuellement, on constate que le marché français est en retard par rapport aux États-Unis mais que ce retard ne semble pas insurmontable. Cette différence est avant tout due aux spécificités des deux marchés qui ne sont pas basés sur les mêmes normes économiques. En effet, les entreprises américaines consacrent des budgets beaucoup plus importants que les françaises dans l’acquisition de ces technologies. Cet état de fait induit une limitation de potentialités pour les éditeurs français qui, étant donné sa taille, ne peuvent se contenter du seul marché national. Le développement du multilinguisme dans le cadre européen ouvre de nombreuses opportunités pour ces éditeurs qui peuvent étendre de manière beaucoup plus vaste leurs champs d’investigation et bénéficier ainsi de plus de garanties pour la pérennité de leurs solutions.

56

Par ailleurs, l’un des freins au développement de ce type d’application reste le coût élevé de création des dictionnaires. Le coût de développement ou d’acquisition des ressources linguistiques, de plus en plus fréquemment multilingues, pourra être partagé sur des applications de traduction automatique susceptibles d’avoirs recours à ces mêmes ressources linguistiques afin de rentabiliser les investissements.

57

Enfin, le développement d’autres problématiques de traitement linguistique, telles que la reconnaissance et la synthèse de la parole ou la rédaction automatique de résumés, ne pourra qu’aider à résoudre les problèmes encore en suspens dans la recherche et l’analyse de l’information textuelle.

58

JANVIER 2003


Bibliographie

  • CHAUDIRON Stéphane, FLUHR Christian, éd. Filtrage et résumé automatique de l’information sur les réseaux : 3e congrès du Chapitre français de l’ISKO, Nanterre, 5-6 juillet 2001. Nanterre, Université Paris-X, 2001. XII-283 p.
  • CHAUMIER Jacques, DEJEAN Martine. L’indexation assistée par ordinateur : principes et méthodes. Documentaliste - Sciences de l’information, 1992, vol. 29, n° 1, p. 3-6
  • CHAUMIER Jacques, DEJEAN Martine. Le rôle des techniques linguistiques pour la recherche documentaire. Document numérique, 1997, vol. 1, n° 2, p. 169-176
  • JOLION Jean-Michel, dir. L’indexation. Document numérique, 2000, vol. 4, n° 1-2, p. 1-182
  • LEFÈVRE Philippe. La recherche d’informations : du texte intégral au thésaurus. Paris, Hermès, 2000. 253 p.
  • MANIEZ Jacques. Actualité des langages documentaires : fondements théoriques de la recherche d’information. Paris, ADBS Éditions, 2002. 396 p.
  • MANIEZ Jacques, ELHADI Widad Mustafa, éd. Organisation des connaissances en vue de leur intégration dans les systèmes de représentation et de recherche d’information. Villeneuve-d’Ascq, Université Charles-de-Gaulle - Lille 3, 1999. 403 p.
  • SCHMITZ-ESSER Wilfried. Thesaurus and beyond : an advanced formula for linguistic engineering and information retrieval. Knowledge Organization, 1999, vol. 26, n° 1, p. 16-22

Notes

[*]

Cet article a été rédigé à partir de l’étude réalisée par le Bureau van Dijk Information Management : Recherche et analyse de l’information textuelle - Panorama des outils linguistiques, 2002, 214 p.

Résumé

Français

Fondée sur une enquête menée en 2002 auprès des producteurs d’infologiciels disponibles sur le marché français [*] , cette étude propose une analyse de l’offre d’outils de recherche et d’analyse d’information textuelle. Les auteurs exposent d’abord les principes de l’approche linguistique adoptée par la plupart des logiciels d’indexation assistée par ordinateur, puis esquissent une typologie des outils linguistiques existants et des applications documentaires qui y font appel. Ils étudient ensuite le contexte économique de production de dix-neuf infologiciels dont les principales fonctions sont présentées dans un tableau. Et envisagent les perspectives de développement de ces outils linguistiques.

Plan de l'article

  1. Les diverses approches des infologiciels
    1. Les approches statistique et procédurale
    2. L’approche linguistique
    3. D’autres approches encore
  2. Les outils linguistiques
    1. Les gestionnaires de ressources linguistiques
    2. Les analyseurs linguistiques
    3. Les moteurs d’indexation et de recherche
    4. Les outils de représentation des connaissances
  3. Les diverses applications
    1. La gestion documentaire
    2. Le textmining
    3. La diffusion sélective de l’information
    4. La veille informationnelle, complétée par la classification automatique et la cartographie des connaissances
    5. La rédaction automatique de résumés
  4. L’offre logicielle
    1. Les produits disponibles sur le marché français, objets de l’enquête
    2. Les prix
    3. La diffusion
    4. Un marché très instable
  5. Les perspectives

Pour citer cet article

Chaumier Jacques, Dejean Martine, « Recherche et analyse de l'information textuelle », Documentaliste-Sciences de l'Information 1/ 2003 (Vol. 40), p. 14-24
URL : www.cairn.info/revue-documentaliste-sciences-de-l-information-2003-1-page-14.htm.
DOI : 10.3917/docsi.401.0014


Pages 14 - 24 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback