Document numérique
Lavoisier

I.S.B.N.sans
182 pages

p. 11 à 34
doi: en cours

Veille sur la revue
Veille sur l'auteur
Vous consultez

Volume 8 2004/3

Extraction de connaissances à partir de textes structurés

Yannick Toussaint
Cet article propose un schéma général d’extraction de connaissances à partir de textes et situe la fouille de textes comme une étape particulière d’un processus complexe. Notre position est que tout processus de fouille de textes doit nécessairement exploiter un modèle de connaissances et qu’il est essentiel d’extraire des textes des informations structurées auxquelles peut être associée une sémantique. De ce fait, nous nous intéressons tout particulièrement à la structure des textes, structure devant être prise dans un sens très général qui va d’une structuration physique (hiérarchique) à une structuration cognitive ou sémantique. Nous montrons comment ces différentes dimensions du document et du texte peuvent ou pourraient être prises en compte pour que le processus dans son ensemble soit incrémental, c’est-à-dire qu’il soit initialisé avec un ensemble de connaissances réduit qui augmente au fur et à mesure des boucles de traitement.Mots-clés : extraction de connaissances à partir de textes, fouille de textes, structure du document, traitement automatique de la langue, extraction d’information, modèle de connaissances. This paper proposes a global schema for Knowledge Discovery in Texts and presents Text Mining as a specific step of the overall process. We argue that any text mining process should rely on a knowledge model, and that it is crucial for the information extracted to be structured and semantically described. We investigate the different document dimensions and show how they contribute or could contribute to the process. Our goal is to define a process which is able to incrementally build upon a small of knowledge, augmenting it little by little at each processing loop.Keywords : knowledge extraction from texts, text mining, document structure, natural language processing, information extraction, knowledge model.
• Introduction
• Définition de la fouille de textes
— Fouille de textes et fouille de données
• Les textes et leur structure
— Structuration des documents électroniques
— Vers une sémantique de la structure
• L’analyse du contenu
— Le statut privilégié des résumés
— Schéma global de la fouille de textes
• Constitution de corpus
• Vers l’extraction d’une information de plus en plus structurée
— Les bases de connaissances terminologiques
— L’extraction d’information
• Le processus de fouille
— Les règles d’association
— Construction et prise en compte d’un modèle du domaine
• Conclusion
• 9 Bibliographie


© Cairn 2007 Vie privée | Conditions d’utilisation | Conditions générales de vente
À propos | Éditeurs | Bibliothèques | Aide à la navigation | Plan du site | Raccourcis