Part of speech n-grams and Information Retrieval
Christina Lioma
C.J. Keith van Rijsbergen
Efforts to use linguistics in information retrieval (IR) were initiated in the 1980s, and intensified in the 1990s, reporting performance benefits (see the overviews by Smeaton 1986 & 1999, Karlgren 1993, and Tait 2005). After that time, these efforts decreased: baseline system performance improved, and the cost associated with linguistic processing was not worth the small benefits over the already improved baselines (Tait, 2005). At present, most research on linguistics for IR tends to be geared towards domain-specific IR applications that seem to benefit more from linguistics, like question-answering (Tait & Oakes 2006). Although such applications are important, they should not limit the scope of research into linguistics for IR. In this work, we present an alternative use of linguistics, part of speech information in particular, to compute a term weight of informative content. This term weight is a novel application of linguistics to IR, and can benefit retrieval performance of general IR systems.
Les tentatives d’utilisation de connaissances linguistiques en recherche d’information (RI) ont commencé dans les années 1980 et se sont développées dans les années 1990, en mettant en évidence des améliorations de performance (voir les synthèses de Smeaton 1986 et 1999, Karlgren 1993, et Tait 2005). Depuis lors, ces tentatives sont allées décroissant : les performances des systèmes basiques se sont améliorées et le coût du traitement linguistique ne justifiait pas le petit bénéfice obtenu (Tait 2005). La plupart des recherches en linguistique pour la RI ont aujourd’hui tendance à se tourner vers les applications de domaines spécifiques, qui semblent mieux bénéficier de ces connaissances, comme les systèmes de question-réponse (Tait & Oakes 2006). Bien que ces applications soient importantes, elles ne couvrent pas toute la recherche en linguistique pour la RI. Dans cet article, nous présentons une autre utilisation de la linguistique, plus précisément des informations sur les catégories grammaticales, pour pondérer le contenu informatif de séquences de texte. Cette pondération est une nouvelle application de la linguistique en RI et peut améliorer la performance des systèmes en général.
• Introduction
• Motivation for computing a term weight from parts of speech
• Part of speech n-gram notation
• Part of speech information score
— Probability that an individual part of speech is informative (Step 1)
— Probability that a part of speech n-gram is informative (Step 2)
— Probability that a term is informative (Step 3)
• Experimental evaluation
— Experimental methodology and settings
— Experimental results
• Conclusion
• Appendix I
• References