Relations sémantiques pour l’indexation automatique
Définition d’objectifs pour la détection automatique
Lyne Da Sylva
L’accès aux documents numériques volumineux ou complexes peut être facilité par un index du style que l’on retrouve à la fin d’un livre, présentant schématiquement les concepts abordés dans le document et les liens que l’auteur a établi entre eux. Il peut s’avérer un outil précieux dans la fouille de documents. Le travail de recherche décrit ici vise à identifier les relations sémantiques présentes dans les index de livre produits manuellement pour déterminer lesquelles peuvent être dérivées automatiquement. Pour ce faire, sept index ont été examinés. Les observations relevées permettent de distinguer deux types de relations: celles pour lesquelles l’analyse du document en main fournit suffisamment d’informations, et celles pour lesquelles des ressources terminologiques externes sont nécessaires. Des pistes pour le développement d’un système d’indexation automatique de monographies sont ainsi identifiées.Mots-clés :
indexation automatique, monographies, relations sémantiques.
Access to large or complex digital documents can be facilitated by a so-called « back-of-the-book index », which presents schematically the concepts discussed in the document and links made between them by the author. It can thus be a very useful tool to explore document content. The research project described here pertains to an analysis of semantic relations expressed in manually-compiled indexes, in order to determine which could be derived automatically. Seven indexes were examined. The resulting observations suggest two types of relations: those that can be calculated simply from the document’s content, and those for which external terminological resources are necessary. This has identified areas for further research into automatic back-of-the-book indexing.Mots-clés :
indexation automatique, monographies, relations sémantiques.
• Introduction
• Contexte
• Problématique
• Hypothèses
— Subordination
— Superordination
— Coordination
— Renvois
• Méthodologie
— Corpus
— Relations sémantiques
• Difficultés méthodologiques
• Statistiques
• Discussion
— Distribution des relations
— Stratégie de détection
• Conclusion
• Bibliographie