Document numérique
Lavoisier

I.S.B.N.2746220232
152 pages

p. 9 à 35
doi: en cours

Veille sur la revue
Veille sur l'auteur
Vous consultez

Volume 10 2007/2

Accès au contenu des thèses numériques par leur structure sémantique

Rocío Abascal-Mena Béatrice Rumpler
Les projets de bibliothèques numériques actuels offrent à l’utilisateur l’accès aux thèses à partir d’une recherche qui ne permet pas d’extraire les parties pertinentes de la thèse et ne renvoie que la thèse intégrale. Ainsi, l’utilisateur doit lire des chapitres entiers pour connaître les parties qui correspondent à son besoin. Le projet CITHER (Consultation en texte Intégral des THèses En Réseau) de l’INSA de Lyon dans lequel s’inscrit cette étude, porte sur la mise en ligne des thèses. Nous proposons de permettre un accès pertinent au contenu des thèses grâce à l’utilisation de « tags sémantiques » rajoutés, par le doctorant, au sein de sa thèse lors de la rédaction. L’exploitation de ces tags permet de cibler la recherche et ainsi mieux satisfaire l’utilisateur. Notre travail porte d’une part sur la constitution d’une base de concepts utilisés pour le « tagage » de la thèse et, d’autre part, sur la définition d’un nouveau modèle de documents à partir des différentes structures de la thèse.Mots-clés : bibliothèque numérique, recherche d’information, métadonnées, modélisation sémantique, XM, thèses scientifiques, traitement automatique des langues (TAL). The current projects of digital libraries offer the user an access to the scientific theses that does not make extraction of relevant parts of thesis possible and that returns only the integral thesis. Thus, the user has to read the whole chapters to know which parts of the thesis correspond to his needs. The project named CITHER, of the INSA of Lyon, in which this study is registered, relates to the setting of the theses online. In CITHER the same problem is to be solved. To improve the diffusion of the theses, we propose to give access to its contents thanks to the use of « semantic markups » added into the thesis, by the PhD student, during the writing step. The exploitation of these markups allows a better accuracy of the research contents, in order to satisfy the user better. Our work focuses on defining a new model of documents based on the different structures of the thesis.Keywords : digital library, information retrieval, metadata, semantic modelling, scientific theses, XML, natural language processing.
• Introduction
• La structuration des documents : un état de l’art
• Méthodologie pour l’identification de la structure de la thèse scientifique
— Sélection d’un outil de TAL pour l’extraction automatique de concepts
— Analyse des principaux concepts extraits selon les différentes structures de la thèse
• Création d’une base de concepts du domaine
— Catégorisation des concepts extraits des thèses
• Un modèle pour représenter la structure de la thèse scientifique
— Description du nouveau modèle pour les thèses scientifiques
• Proposition d’un système pour la structuration sémantique de la thèse
• Conclusion
• 8. Bibliographie


© Cairn 2007 Vie privée | Conditions d’utilisation | Conditions générales de vente
À propos | Éditeurs | Bibliothèques | Aide à la navigation | Plan du site | Raccourcis