Recevez des alertes automatiques relatives à cet article.
S'inscrire Alertes e-mail - Document numérique Cairn.info respecte votre vie privéeVous consultezRecherche d’information dans Medline
AuteursSamir Abdou du même auteur
Institut d’informatique Université de Neuchâtel, rue Emile Argand 11, 2009 Neuchâtel (Suisse)Samir.Abdou@unine.ch1 - Introduction
La confluence des technologies de l’informatique et des télécommunications ont permis à Internet de grandir dans les dimensions que nous lui connaissons. Outil de communication, de partage du savoir ou médium facilitant le commerce, le Web possède un volume d’information très important que l’on a estimé à 167 TB en 2002 (Lyman et al., 2003). Cette valeur ne tient compte que du Web visible, celui que les moteurs de recherche commerciaux peuvent indexer. La partie invisible comprend elle un volume nettement plus impressionnant avec une valeur estimée 91 850 TB pour l’année 2002. Le terme invisible indique bien que toute l’information n’est pas toujours facilement ou gratuitement accessible comme, par exemple, les pages générées dynamiquement (consultation d’un horaire). Dans cette partie, on retrouve également les multiples pages dont l’accès n’est pas autorisé à un moteur de recherche à l’exemple des collections d’articles des grandes maisons d’édition, les fonds documentaires des bibliothèques numériques comme celles de l’ACM ou de l’IEEE ou les multiples dépôts d’information des entreprises et administrations.
2 Dans un monde numérique, la gestion et l’accès aisé à ces grandes banques documentaires revêt une importance grandissante. Dans cet article, nous nous sommes intéressés au cas de Medline[1] [1] Voir le site http:/ / www. nlm. nih. gov/ pubs/ factsheets/ medline. html...
suite constituant la banque documentaire la plus importante dans le domaine assez large de la médecine et des sciences de la vie. Elle propose l’accès à plus de 16 millions de notices bibliographiques et permet de mieux cerner les difficultés de la recherche d’information dans un domaine spécifique (Hersh, 1996). Ces entités d’information correspondent pour l’essentiel au titre et résumé d’un article scientifique auxquels des spécialistes du domaine ont assigné manuellement des descripteurs sélectionnés d’un thésaurus de terminologie médicale nommé MeSH.
3 Une partie substantielle de ce fonds documentaire (soit environ 4,5 million de notices) a été mise à la disposition des chercheurs lors des campagnes d’évaluation Genomics de TREC-2004 et 2005. L’intérêt de ce corpus tient au nombre de documents disponibles mais également au fait que les notices ont subi un contrôle éditorial pour en valider les assertions d’une part et, d’autre part, pour en éliminer les fautes d’orthographe et de style qui peuvent en altérer la recherche (Ruch, 2002). Disposant de vrais besoins d’information et des jugements de pertinence correspondants, cette collection s’avère fort utile pour vérifier empiriquement l’efficacité du dépistage de divers modèles de recherche d’information récents ainsi que l’impact de divers traitements.
4 La suite de cet article se subdivise de la manière suivante. La deuxième section présente les caractéristiques essentielles de notre collection-test tandis que la troisième présente les grandes lignes des modèles de recherche d’information retenus. La quatrième section décrit trois approches pour l’expansion automatique des requêtes et la cinquième évalue l’efficacité des divers modèles proposés.
2 - La collection-test extraite de Medline
5 Medline (MEDical Literature Analysis and Retrieval System on LINE) est une banque documentaire produite par la National Library of Medecine (NLM) située à Bethesda (MD) qui couvre les domaines biomédicaux tels que la biologie, la biochimie, la médecine clinique, la santé publique, l’éthique, la pharmacologie, l’économie liée à la santé, la toxicologie, l’odontologie, la psychiatrie et la médecine vétérinaire. Son accès via Internet s’effectue grâce à son interface nommé PubMed. Ce fonds documentaire comprenant environ 16 millions de références provenant d’environ 5 000 revues scientifiques paraissant dans 37 langues différentes. On estime que la banque s’enrichit de 2 000 à 4 000 nouvelles références par jour ouvrable (soit environ 623 000 pour l’année 2006). La langue anglaise reste dominante avec environ 90 % des publications des années 2000 à 2004 et cette proportion augmente au fil des années.

Exemple d’une notice bibliographique extraite de Medline
Exemple d’une notice bibliographique extraite de Medline
6 La collection-test utilisée pour nos expériences couvre grosso modo, les dix dernières années des principaux journaux scientifiques. On y retrouve 4 591 008 notices ou enregistrements (pour un volume d’environ 9,3 GB), représentant un tiers de la banque documentaire Medline.
7 Chaque document est structuré suivant un certain nombre d’attributs comme PMID (identificateur unique dans PubMed), DP (date de publication), AU (auteur), PT (type de publication), SO (source), etc. La figure 1 présente un exemple d’une notice complète tandis que la figure 2 illustre le cas d’une référence bibliographique sans résumé. On remarquera que parfois l’information est redondante ; ainsi les champs VI (numéro du volume), IP (numéro), PG (pages), TA (titre abrégé du journal) sont extraites du champ SO tandis que JID (numéro d’identification du journal) dépend de la valeur attribuée au champ TA[2] [2] A l’adresse http:/ / www. nlm. nih. gov/ bsd/ mms/ medlineelements. html,...
suite. Ces informations peuvent être utiles pour chercher les documents écrits par un auteur particulier ou la liste des articles publiés durant une période donnée et par un institut ou un pays spécifique.

Exemple d’une notice brève de Medline
Exemple d’une notice brève de Medline
8 Un aspect important de la collection Medline est la présence de descripteurs attribués manuellement part des experts du domaine dans lequel est écrit l’article. Ces termes sont extraits d’un thésaurus hiérarchisé (ou vocabulaire contrôlé), le MeSH, qui couvre l’ensemble du domaine biomédicale. Ce travail manuel s’effectue sur la base de l’article complet (et non pas seulement du titre et du résumé). Le MeSH[3] [3] Voir le site http:/ / www. nlm. nih. gov/ mesh/ . ...
suite (Medical Subject Headings) possédait 22 997 entrées en 2006 auxquelles on doit ajouter environ 151 000 termes supplémentaires, contenant à la fois des synonymes pour les catégories canoniques et de nombreuses entités pour décrire la chimie et la biologie moléculaire (enzymes, gènes…). Ce thésaurus est mis à jour annuellement par l’adjonction de nouveaux descripteurs, l’affinement d’une classe voire la suppression de termes obsolètes. Environ 500 nouveaux concepts sont ajoutés chaque année. Selon les articles, le nombre de descripteurs qui lui sont associés peut varier. Par exemple dans la figure 1, cet ensemble reste restreint tandis que dans notre second exemple (voir figure 2), ce nombre est plus élevé bien que cette notice ne dispose pas de résumé. Les mots-clefs sélectionnés peuvent être complétés par un qualificateur (adverse effects dans la figure 2). Les catégories les plus importantes, pour décrire le contenu de la notice sont marquées par un astérisque, ce sont les termes majeurs.
9 Afin de rechercher de l’information, nos systèmes de dépistage se sont appuyés exclusivement sur les attributs « tire de l’article » TI), le résumé (AB) et l’ensemble des descripteurs (MH ou MeSH) manuellement sélectionnés. Nous avons également pris en compte le champ RN (numéro enzymatique ou nom de substance chimique, voir exemple dans la figure 1) lors de l’indexation des documents. Signalons que le résumé n’est pas disponible pour tous les articles et on peut estimer qu’environ 79 % des articles des années 2000 à 2004 disposent de cette information. Dans notre corpus d’évaluation, toutes les notices disposaient d’un titre et 75,8 % comprenait également un résumé.
10 Durant la campagne d’évaluation Genomics TREC-2004, 50 requêtes (numérotées de 1 à 50) ont été créées sur la base de besoins d’information exprimés par des biologistes (des exemples sont repris dans la partie gauche de la figure 3). Chaque requête est subdivisée en quatre champs soit le numéro de la requête (<id>), un titre bref (<title>), une description plus précise de la demande (<need>), et quelques informations permettant de mieux juger de la pertinence des articles dépistés (<context>).
11 Pour la campagne de 2005, un nouveau jeu de 50 requêtes a été construit (numérotées de 100 à 149). Cet ensemble comprend cinq scénarii de recherche d’information assez typique en biologie. Ainsi on retrouve a) la recherche de méthodes ou de protocoles standards (requêtes n° 100 à 109) ; b) l’implication d’un gène dans une maladie (n° 110 à 119) ; c) le rôle d’un gène dans un processus biologique (n° 120 à 129) ; d) l’interaction de deux gènes (n° 130 à 139) ; e) la/les mutation(s) d’un gène et ses impacts (n° 140 à 149). Contrairement à celles de 2004, les requêtes de 2005 n’ont pas une subdivision standard en diverses parties logiques pouvant se compléter. Leur contenu est très bref et les étiquettes varient d’un scénario de recherche à l’autre. Comme pour l’évaluation officielle, tous les champs disponibles (sauf la partie identificateur <id>) seront utilisés pour dépister les notices bibliographiques pertinentes.
12 Le jeu de requêtes de l’année 2004 (partie gauche dans la figure 3) semble être plus général que celles de 2005 (partie droite). Si l’on analyse les jugements de pertinence de ces deux ensembles, on constate que le nombre moyen de notices pertinentes par requête s’élève à 165,4 pour 2004 contre 93,5 pour 2005 (médiane de 115,5 pour 2004 contre 35 pour 2005). Signalons également que les requêtes n° 18 et 19 ne disposent que d’une seule bonne réponse et que la requête n° 144 en possède deux. Finalement, une requête (n° 135), n’ayant aucun article pertinent dans la collection, sera éliminée de notre jeu d’évaluation pour l’année 2005.
13 Pour indiquer si une notice bibliographique répondait à la requête, les assesseurs disposaient des trois choix suivants : « tout à fait pertinent », « partiellement pertinent » et « pas pertinent ». Comme dans les évaluations officielles, nous avons considéré les valeurs « tout a fait pertinent » et « partiellement pertinent » comme des bonnes réponses.
14 En appliquant cette définition et en utilisant toutes les parties logiques du jeu de requêtes de 2004 (TNC) (Hersh et al., 2005), le meilleur système de recherche obtenait une précision moyenne de 0,4075 en 2004 (et une performance de 0,3867 pour le deuxième). Dans nos expériences, ces mêmes conditions seront adoptées. Lors de la campagne d’évaluation Genomics en 2005 (Hersh et al., 2006), le meilleur système présentait une précision moyenne de 0,2888 tandis que la performance du deuxième s’élevait à 0,2883. En comparant les deux années, on constate que l’interrogation du corpus avec les requêtes de 2005 s’avère plus ardue.

Exemples de requêtes (à gauche pour l’année 2004, à droite pour l’année 2005)
Exemples de requêtes (à gauche pour l’année 2004, à droite pour l’année 2005)
3 - Les modèles de dépistage
15 Afin de pouvoir fonder nos conclusions sur de solides bases, nous avons décidé de tenir compte de plusieurs modèles de recherche d’une part et, d’autre part, de sélectionner les approches connues pour proposer les meilleures performances. Pour tous les modèles retenus, l’indexation des documents (et des requêtes) s’appuiera sur un ensemble de termes pondérés. L’importance attachée à chacun d’eux tiendra compte de la fréquence d’occurrence (ou fréquence lexicale notée tf
16 En plus de ces solutions basées sur l’intuition géométrique sous-jacente au modèle vectoriel, nous avons considéré deux modèles probabilistes, à savoir l’approche Okapi (Robertson et al., 2000) et le modèle I(n)B2, un des membres de la famille Divergence from Randomness (Amati et al., 2002). Dans ce dernier cas, la pondération w
17 
18 dans laquelle l
19 Enfin, les modèles de langue (MdeL) (Hiemstra, 2000) composent la dernière famille de modèle de dépistage de l’information que nous avons évalué. Contrairement aux approches Okapi ou I(n)B2 basées sur une distribution probabiliste précise, les modèles de langue peuvent être vus comme des modèles probabilistes non-paramétriques. Les estimations sous-jacentes sont faites selon les fréquences d’occurrence des mots dans le document D ou le corpus C et non selon une distribution spécifique imposée a priori. Comme modèle de langue, nous avons repris l’approche indiquée dans l’équation 2 et suggérée par (Hiemstra, 2000 ; 2002). Cette dernière est basée sur une interpolation entre le modèle du document (P[t
20 
21 dans laquelle λ
22 Afin de permettre un meilleur appariement entre termes de la requête et ceux apparaissant dans les notices bibliographiques, on peut appliquer un pré-traitement supprimant automatiquement certaines séquences terminales. Dans ce but, on peut se limiter à éliminer les suffixes liés au pluriel, soit le ‘-s’ pour la langue anglaise. Une telle procédure proposée par (Harman, 1991) et nommée S-stemmer est reprise dans la figure 4. Comme alternative, on peut considérer que les suffixes dérivationnels (par exemple, ‘-ment’, ‘-ably’, ‘-ship’) devraient aussi être supprimés, sous l’hypothèse que ces changements ne modifient pas ou que peu la sémantique des termes. Pour vérifier cette hypothèse, nous avons sélectionné l’algorithme de Porter (1980).

Enracineur léger pour la langue anglaise ou S-stemmer
Enracineur léger pour la langue anglaise ou S-stemmer
4 - Expansion automatique des requêtes
23 Afin d’améliorer la qualité du dépistage de l’information, plusieurs auteurs ont suggéré d’appliquer une pseudo-rétroaction en admettant, sans les présenter à l’usager que les k premiers documents étaient pertinents (Efthimiadis, 1996). En se basant sur l’approche proposée par Rocchio (Buckley et al., 1996), nous avons sélectionné les m meilleurs termes extraits automatiquement des k premiers articles et de l’ancienne requête selon l’équation 3.
24 
25 dans laquelle w’
26 Nous avons également conçu une nouvelle stratégie d’expansion automatique, nommée idfqe, en considérant que les valeurs idf permettent une meilleure discrimination entre les termes utiles ou non pour former une requête efficiente. Dans ce cas et comme dans l’approche précédente, on pondère par une constante α tous les termes inclus dans la requête initiale. Ensuite, on ajoute tous les termes apparaissant au moins une fois parmi les k premiers articles dépistés. Pour chaque terme, on calcule le poids w’
27 
28 dans laquelle I
29 En plus de ces deux stratégies élargissant la requête en fonction des termes apparaissant souvent conjointement avec ceux donnés par l’usager, on peut envisager d’ajouter des synonymes ou des variantes orthographiques (par exemple colour ou color). Cette approche peut s’avérer particulièrement intéressante dans le domaine biomédical où de nombreux noms différents sont utilisés pour désigner le même gène ou la même protéine. Cohen (2005) indiquent que l’on rencontre fréquemment les transformations possibles suivantes :
- présence d’un espace ou d’un tiret (“IL 10” et “IL-10”);– l’espace ou le tiret peut être absent (“ddvit1” et “ddvit 1”);
- le mot alpha ou beta peut être remplacé par une lettre (“epm2-beta” ou “epm2b”);
- le chiffre final ‘-1,’ ‘-2,’ ‘-3,’ ou ‘-4’ peut être remplacé par son équivalent en chiffre romain (“UEV-2” et “UEV-II”);
- une partie du nom peut être en majuscules, une autre en minuscules (“DDVit-1” et “ddvit1”).
Ce type d’enrichissement de la requête s’effectue généralement de manière automatique car il n’y a pas de véritable interprétation sémantique avant de vérifier l’application d’une transformation. De plus, nous conseillons de la limiter à l’interrogation. Avec ce choix, nous pouvons, en tout temps, ajouter, modifier ou limiter une règle de transformation afin de mieux satisfaire les usagers.
30 En plus de ces règles simples, des synonymes peuvent apparaître sans que les noms possèdent une relation évidente entre eux. Par exemple, la protéine “lymphocyte associated receptor of death” peut aussi être nommée “LARD,” “Apo3,” “DR3,” “TRAMP,” “wsl,” et “TnfRSF12” (Yu et al., 2003). Cette variabilité provient du nombre important de domaines bio-médicaux d’une part et, d’autre part, de la rapidité de leur développement. En vue d’aider les chercheurs à retourner les divers noms des gènes ou protéines, plusieurs banques de données[4] [4] Voir le site SwissProt à http:/ / us. expasy. org/ sprot/ ,...
suite ont été créées. Mises à jour essentiellement manuellement, elles fournissent également d’autres informations comme la description fonctionnelle d’une protéine donnée ou sa localisation cellulaire. D’importants efforts de normalisation du langage ont d’ailleurs été initiés pour maîtriser l’explosion conceptuelle du domaine (Grabar et al., 2007).
5 - Évaluation
31 Pour mesurer et comparer la performance des divers modèles de recherche retenus, nous avons utilisé la précision moyenne (calculée par le logiciel trec_eval sur la base des 1 000 premières réponses). Cette mesure a été adoptée par les campagnes d’évaluation TREC Genomics pour évaluer la qualité de la réponse à des interrogations en ligne. Pourtant, on ne peut pas conclure qu’un système est meilleur qu’un autre sur la simple comparaison de deux précisions moyennes. En effet, comme toute mesure de tendance centrale, la précision moyenne cache les irrégularités de performance entre les diverses requêtes soumises.
32 Pour déterminer si un système s’avère meilleur qu’un autre, nous devons recourir à un test statistique (Savoy, 2006). Dans nos analyses, l’hypothèse H
5.1 - Évaluation des modèles de recherche
33 En recherche d’information, plusieurs modèles ont été proposés ces dernières années et notre première série d’expériences vise à connaître leur efficacité relative. Dans ce but, le tableau 1 indique la précision moyenne obtenue par les dix modèles retenus. On remarque que quelque soit l’enracineur utilisé, le modèle probabiliste I(n)B2 propose la meilleure performance (performance indiquée en gras).
34 Cependant les différences entre ce modèle et les autres approches probabilistes (modèle de langue et Okapi) ne sont pas toujours statistiquement significatives. Ainsi, pour l’année 2004 et avec l’algorithme de Porter, la différence de performance entre I(n)B2 (0,3810) et Okapi (0,3573) n’est pas statistiquement significative. Avec le jeu de requêtes de 2005 (requêtes plus courtes et ayant en moyenne moins de bonnes réponses), la performance moyenne s’avère moins élevée d’une part et, d’autre part, les différences sont plus fréquemment significatives. Si l’on considère le modèle tf idf (noté « ntc-ntc » dans le tableau 1) comme l’état de nos connaissances à la fin des années 80, l’approche I(n)B2 permet presque, 15 ans plus tard, de tripler la qualité des réponses obtenues (par exemple, S-stemmer, jeu de requêtes 2004, 0,3867 vs. 0.1341, soit une augmentation de 188 %).
Tableau 1 - Précision moyenne de nos divers modèles de dépistage selon trois enracineurs différents
35 En conclusion, les récents développements des modèles probabilistes paramétriques (I(n)B2) (Amati et al., 2002) ou les modèles de langue (MdeL) (Hiemstra, 2000) proposent une qualité de réponse, mesurée par la précision moyenne, qui s’avère significativement meilleure que les autres.
5.2 - Évaluation comparative de trois enracineurs
36 Comme l’indique les valeurs reprises dans le tableau 1, les variations sont plutôt faibles entre les trois enracineurs proposés. Par rapport à une indexation sans aucune modification des mots (colonne « sans »), l’algorithme de Porter permet, en moyenne, d’accroître la performance de 3 % pour le jeu de requêtes de 2004 tandis que le S-stemmer apporte une augmentation moyenne de 4 %. Pour l’année 2005, l’approche de Porter dégrade la précision moyenne de 2 % tandis que le S-stemmer offre une augmentation moyenne de 0,2 %. Comme les exemples de la figure 3 le laissent entrevoir, les requêtes de 2005 sont très brèves d’une part et, d’autre part, comprennent des termes spécifiques sur lesquelles l’enracineur n’a que peu d’impact.
37 Si l’on utilise les performances obtenues sans aucune suppression de suffixes comme valeur de référence (colonnes « sans » dans le tableau 1), le test statistique détecte cinq différences significatives (indiquées par un astérisque « * » dans le tableau 1) dans le jeu de requêtes de 2004, et quatre pour le jeu de 2005. Si on compare le S-stemmer avec celui de Porter, nos tests statistiques indiquent qu’il n’y a pas de différence significative pour les huit premiers modèles (les variations sont significatives uniquement pour les approches « ltc-ltc » et « ntc-ntc » et en faveur du S-stemmer).
38 Une analyse plus fine permet de mieux connaître l’effet de ces trois enracineurs. En nous limitant au modèle I(n)B2 et pour le jeu de 2004, l’algorithme de Porter permet, par rapport à une indexation sans enracineur, d’améliorer la précision moyenne (PM) de 23 requêtes mais la détériore pour 28 autres. L’enracineur S-stemmer offre une augmentation de la précision moyenne à 28 requêtes, mais diminue cette valeur pour 20 autres interrogations, toujours par rapport à une indexation sans enracineur.
39 En observant requête par requête l’effet produit par nos stratégies de suppression automatique des suffixes, nous observons que pour la requête n° 17 (avec trois articles pertinents), la différence de performances s’avère la plus importante et ceci en faveur d’une indexation sans enracineur. Dans ce dernier cas, la meilleure précision moyenne s’élève à 0,4093. Le premier document dépisté est aussi pertinent tandis que le second article pertinent apparaît en 65e position. Avec l’algorithme de Porter, cette performance tombe à 0,2026 et le premier document pertinent apparaît en deuxième place, puis un second au 108e rang. La plus grande différence favorisant cette fois l’algorithme de Porter par rapport à l’absence d’enracineur est obtenue par la requête n° 19 (un seul article pertinent). Ce document est classé en première position avec l’algorithme de Porter (PM=1,0) et en quatrième lorsqu’on ne supprime pas les suffixes (PM=0,25).
40 Notre analyse de quelques requêtes indique que les variations observables entre les trois stratégies de suppression des suffixes s’avèrent faibles et aléatoires. Le test statistique ne permet souvent pas de détecter une différence significative. Les classements obtenus par quelques requêtes confirment cette analyse. Ainsi si le classement se modifie dans les rangs 60 à 100, on peut se demander si ce phénomène s’avère perceptible pour l’usager final. Lorsque les usagers désirent seulement un nombre restreint de bonnes réponses et ne consultent donc que la première page des résultats (par exemple les dix premières références dépistées par un moteur de recherche sur Internet), la précision moyenne ne fournit plus la meilleure indication de la performance.
41 Afin de tenir compte de cet autre point de vue, le tableau 2 indique la précision obtenue après l’extraction des dix premières notices selon les deux jeux de requêtes et six modèles de recherche. Les conclusions demeurent inchangées. On notera qu’avec le jeu de requêtes de 2004, le meilleur système permet d’offrir, en moyenne, 6 bonnes réponses parmi les dix premiers documents tandis que cette valeur n’est que de 4,3 pour le jeu de 2005.
Tableau 2 - Précision moyenne après dix documents retournés
42 Nous avons également procédé à deux séries de tests statistiques sur la base des moyennes indiquées dans le tableau 2. En premier, nous avons retenu comme référence la meilleure performance (le modèle I(n)B2) et nous l’avons comparé aux autres modèles (soit sous la même colonne). Les différences significatives sont indiquées par un soulignement. Sur la base de ce test, on peut affirmer que les précisions moyennes après 10 documents sont statistiquement similaires que l’on utilise l’approche probabiliste I(n)B2 ou le modèle de langue (MdeL). Les modèles vectoriels proposent, généralement, une valeur moyenne inférieure. Comme second test, nous avons retenu les valeurs obtenues sans enracineur comme valeur de référence (sous la colonne « sans »). Si notre test statistique détecte une différence significative, nous avons ajouté un astérisque (*). Comme le tableau 2 l’indique, ces variations ne sont pas souvent statistiquement différentes (deux cas sur le jeu de requête de 2004, quatre en 2005).
43 L’absence d’effet positif notable et systématique par la suppression des suffixes peut paraître quelque peu surprenant. A priori, notre attitude aurait été de favoriser l’élimination de certaines séquences terminales. A ce propos, on peut noter que la pratique utilisée par les moteurs de recherche sur le Web tend à être restrictif d’une part et, d’autre part, le S-stemmer décrit dans la figure 3 ne supprime qu’une seule lettre (soit le ‘-s’).
5.3 - Importance de l’indexation manuelle
44 Si l’on analyse l’impact des descripteurs manuellement ajoutés à chaque notice bibliographique (table 3), leur influence, quelque soit l’année ou le modèle de recherche, s’avère bénéfique. En posant comme référence la performance obtenue avec les descripteurs (colonnes « avec MeSH »), notre test statistique indique presque toujours une différence de performance statistiquement significative avec une approche ignorant ces descripteurs (colonnes « sans MeSH »), en particulier pour les modèles les plus performants. Sur un corpus de notices bibliographiques rédigées en français, nous avions constaté que la suppression des descripteurs sélectionnés manuellement entraînait une diminution de la précision moyenne de l’ordre de 14 % (requêtes courtes) ou de 19 % (requêtes de longueur moyenne) (Savoy, 2005). Les valeurs données dans le tableau 3 indiquent qu’en moyenne la diminution est de l’ordre de 8 % pour le jeu de requêtes de 2004 ou de 4 % pour 2005, soit des pourcentages clairement plus faibles.
45 En analysant requête par requête, on constate que pour l’année 2004 et le moteur I(n)B2, la présence de descripteurs MeSH améliore la précision moyenne pour 32 interrogations et la détériore pour 16 autres cas. La variation la plus forte est obtenue avec la requête n° 10 (voir figure 3) qui possède quatre articles pertinents. La précision moyenne (PM) s’élève à 1,0 avec l’inclusion des termes MeSH (les quatre articles pertinents occupent les quatre premières places du classement), mais elle est seulement de 0,75 sans leur prise en compte. Dans ce dernier cas, le système de dépistage place dans les trois premiers rangs un document pertinent mais le quatrième article pertinent n’est pas dépisté. Ce dernier possède bien le terme « NEIL1 » en commun avec la requête mais ce terme apparaît uniquement dans les descripteurs MeSH.
46 Mais l’indexation manuelle ne garantit pas toujours une précision moyenne plus élevée. Ainsi avec la requête n° 23 (158 documents pertinents), la présence des termes MeSH fait décroitre la PM de 0,5544 à 0,39. Si l’on consulte le classement des dix premiers documents dépistés, on constate que sans les termes du MeSH, les articles pertinents occupent les rangs 1 à 8 puis le dixième. Avec les descripteurs MeSH, les documents pertinents apparaissent dans les positions 1, 3, 4, 7 et 9. Le système retourne seulement cinq références pertinentes parmi les dix premiers et ces dernières n’occupent pas les cinq premiers rangs. Une analyse plus fine révèle que le nom de la protéine (Saccharomyces cerevisiae) apparaît dans les descripteurs MeSH mais la requête spécifie également que cette protéine doit intervenir dans un système particulier (involved in ubiquitin system). Les descripteurs MeSH introduisent plus de bruit en permettant l’extraction soit de document lié à la protéine soit à l’ubiquitine.
Tableau 3 - Précision moyenne avec et sans les descripteurs MeSH attribués lors de l’indexation manuelle
5.4 - Modification et expansion des requêtes
47 Pour le jeu de requêtes de 2004, il existe clairement une subdivision logique avec une partie minimale (<title>) à laquelle on ajoute peu à peu des termes reliés (<need> et <context>, voir les exemples indiqués dans la figure 3). Afin d’augmenter la performance, nous avons inclus trois fois les termes appartenant au titre de la requête et deux fois ceux apparaissant dans la partie <need>. Cette première modification de la requête (dénotée “tttnnc”) permet d’améliorer significativement la précision moyenne (voir tableau 4). En face d’une requête longue, il s’avère important de pouvoir pondérer l’importance relative des termes présents.
48 En attribuant une pondération triple aux termes apparaissant dans le titre des requêtes (jeu de 2004), l’approche “tttnnc” permet d’accroître la précision moyenne pour 28 requêtes, mais la détériore pour 20 autres. La plus grande variation est obtenue par la requête n° 19 (un seul article pertinent). La précision moyenne (PM) s’élève à 1,0 (le seul document pertinent occupe la première place) avec l’approche “tttnnc”, mais elle est seulement de 0,33 avec l’approche “tnc” (l’article pertinent apparaît alors en troisième place).
49 Basé sur les requêtes “tttnnc” (pour l’année 2004) ou “tnc” (année 2005), nous avons alors procédé à l’expansion automatique de la requête selon notre modèle (colonne notée idfqe dans le tableau 4) et l’approche suggérée par Rocchio. Dans les deux cas, nous considérons, sans les voir, que les k premiers documents sont pertinents. Pour les deux jeux de requêtes, nous constatons que notre modèle propose une meilleure performance que celle obtenue par Rocchio. Par contre, pour les requêtes de 2005, aucun des deux modèles d’expansion n’apportent d’amélioration. De plus, les différences sont toujours statistiquement significatives et moins bonnes pour le modèle Rocchio. L’amélioration des performances n’est possible que sous trois conditions. Il faut considérer uniquement le jeu de requêtes de l’année 2004, avec l’approche idfqe et avec certaines valeurs des paramètres (nombre de documents, nombre de termes). Ainsi en tenant compte des dix premiers documents dépistés et en ajoutant 20 termes à la requête, la précision moyenne s’améliore pour atteindre la valeur 0,4293, une variation qui n’est pas statistiquement significative par rapport à 0,4130.
Tableau 4 - Précision moyenne avec expansion automatique de la requête (modèle I(n)B2, année 2004 et 2005)
50 Une comparaison plus fine avec le modèle I(n)B2 (requête tttnnc) indique que l’expansion automatique (idfqe, 10 docs/20 termes) permet l’amélioration de la précision moyenne pour 26 requêtes mais la décroît pour 21 autres. L’accroissement le plus important est obtenu avec l’interrogation n° 46 possédant 197 bonnes réponses. La précision moyenne (PM) s’élève à 0,291 avant l’expansion et à 0,6252 après. Dans ce cas précis, avant l’expansion de la requête, des articles non pertinents apparaissent aux rangs 4, 14, 15, 19 et 27. Après l’expansion, le premier article non pertinent apparaît en position 35. Ce nouveau classement s’avère meilleur car le vocabulaire caractéristique des articles pertinents était présent dans les dix premiers articles utilisés pour construire la requête étendue.
51 Avec la stratégie d’expansion de Rocchio (10 documents/20 termes), la précision moyenne s’est améliorée pour 13 requêtes mais elle s’est détériorée pour 35 autres. Comme l’indique les performances de le tableau 4, cette stratégie d’expansion produit une dégradation significative de la performance (de 0,4130 à 0,3545). Un cas typique de cette détérioration est la requête n° 19 ayant une seule bonne réponse. La précision moyenne (PM) s’élève à 1,0 avant l’expansion (le seul document pertinent occupe la première place). Après expansion, la précision moyenne chute à 0,0625 et l’article pertinent apparaît seulement en 16e position. Contrairement au cas étudié précédemment, le vocabulaire caractérisant le document pertinent a été dilué et la nouvelle requête a produit un classement nettement moins bon.
52 Nous avons également testé notre expansion de requêtes spécifique au domaine de la biomédecine (voir les trois derniers paragraphes de la section 4). L’inclusion des variantes orthographiques et des synonymes dégrade significativement la précision moyenne qui passe de 0,2725 à 0,2128 (soit une baisse relative de 19 %). Une amélioration marginale a été reportée en utilisant un modèle de catégorisation (Ruch, 2006) et d’expansion automatique se basant sur les classes sémantiques de certaines entités, telles que les maladies et les organes, mais pour un gain significatif. (Ruch et al., 2006). Cet échec relatif tend à confirmer que l’expansion de requêtes par des synonymes n’apporte pas les améliorations escomptées, que les synonymes soient extraits d’un thésaurus général (Voorhees, 1994) ou, comme dans notre cas, spécifiques à un domaine particulier.
5.5 - Quelques requêtes difficiles
53 Malgré nos divers efforts, nous devons reconnaître que, pour certaines interrogations, tous les modèles de recherche, avec ou sans expansion automatique de la requête, rencontrent des difficultés à dépister les bons documents. Notons que ce problème n’est pas lié au nombre de documents pertinents, sous l’hypothèse qu’une requête possédant très peu d’articles pertinents sera plus complexe à traiter. Ainsi, les requêtes n° 18 (Gis4) ou n° 19 (Comparison of Promoters of GAL1 and SUC1) possèdent un seul document pertinent. Pourtant, pour ces deux exemples, plusieurs moteurs atteignent une précision moyenne parfaite de 1,0 (le seul document pertinent occupe la première position dans la liste des résultats). Les difficultés peuvent se cacher dans d’autres aspects.
54 Comme première explication, on peut avancer que l’ensemble des spécifications de la requête ne sont pas incluses dans les documents dépistés. Ainsi, la requête n° 14 (Expression or Regulation of TGFB in HNSCC cancers, voir sa description complète dans la figure 3) avec ses 21 bonnes réponses possède une précision moyenne très faible pour l’ensemble des stratégies de dépistage proposées. Pour le modèle I(n)B2 (requête tttnnc), le premier article pertinent se situe en 104e position. Les documents mieux classés possèdent les termes « HNSCC », « cancer » ou « regulation » en commun avec la requête. Ils abordent bien une thématique proche de la requête mais celle-ci ne répond pas précisément aux souhaits de l’usager.
55 L’enracineur peut également jouer un rôle comme l’illustre la requête n° 102 (<method>Different quantities of different components to use when pouring a gel to make it more or less porous) possédant dix articles pertinents. Cependant, sur l’ensemble des systèmes de recherche, la précision moyenne maximale s’élève à 0,013. La forme exprimée dans la requête (soit « pouring » ou « porous ») ne s’apparie pas avec la forme présente dans les articles pertinents (soit « pore »), même avec l’emploi de l’algorithme de Porter.
56 Parfois l’appariement entre les formes de la requête et des documents s’avère plus difficile à cause des fautes d’orthographe ou, comme dans le cas présent, en présence d’une ou de plusieurs variantes orthographiques. La requête n° 125 (<gene>Nurr-77 <process>preventing auto-immunity…) possède onze articles pertinents mais aucun n’a pu être extrait par les divers moteurs de recherche. De même, la requête n° 115 (<gene>Nurr-77 <disease>Parkinson’s Disease) obtient une précision moyenne maximale de 0,0002 pour l’ensemble des moteurs de recherche. En analysant les documents pertinents de ces deux cas, nous avons constaté que le nom du gène était « Nur-77 » ou « Nur 77 » dans les documents jugés pertinents. La forme dans l’interrogation possède deux « r » tandis qu’un seul est présent dans la dénomination du gène des notices pertinentes.
6 - Conclusion
57 Dans cet article nous avons présenté une collection-test extraite du fonds documentaire Medline, la référence internationale en matière de biomédecine. Ce corpus disponible couvre environ les dix dernières années de Medline et comprend environ 4,5 millions de documents. Ces derniers, écrit essentiellement en langue anglaise, correspondent à des notices bibliographiques possédant un titre, très souvent un résumé ainsi que des descripteurs MeSH attribués par des experts humains.
58 Afin de comparer objectivement la qualité de réponse pouvant être obtenue par les meilleurs modèles de recherche d’information, nous avons implémenté plusieurs versions du modèle vectoriel, deux modèles probabilistes et un modèle de langue. Nous avons démontré que la meilleure performance (la précision moyenne ou la précision après dix documents extraits) s’obtenait avec le modèle probabiliste I(n)B2 (Amati et al., 2002). Par contre, la différence de performance ne s’avère pas toujours statistiquement significative par rapport à un modèle de langue (MdeL) (Hiemstra, 2000) ou le modèle Okapi (Robertson et al., 2000). Par contre, les approches vectorielles proposaient des qualités de réponse significativement plus faibles.
59 Face à des requêtes relativement courtes (Genomics TREC-2005) ou de longueur moyenne (Genomics TREC-2004), la différence de performance entre un enracineur léger (S-stemmer (Harman, 1991)) ou plus agressif (Porter 1980) est faible sans que l’on puisse affirmer que l’une des deux approches s’avère meilleure. Comparé à la performance d’une approche sans enracineur, les algorithmes de Porter ou le S-stemmer semblent accroître très légèrement la précision moyenne sans que les différences soient significatives. Ces résultats suggérant qu’une approche sans suppression des suffixes ou avec un enracineur très léger peut être bénéfique corroborent notre expérience avec les moteurs de recherche sur le Web. En effet, ces derniers tendent aussi à adopter une politique très restrictive dans la suppression automatique des suffixes.
60 L’inclusion des descripteurs MeSH permet d’augmenter la précision moyenne de l’ordre de 3 % (requêtes de 2005) à 7 % (requêtes de 2004). Notre analyse des diverses stratégies d’expansion automatique des requêtes révèle qu’une amélioration significative de la précision moyenne est possible avec le jeu de requêtes de 2004. Mais cet accroissement ne provenait pas d’une expansion via l’inclusion de termes extraits des documents les mieux classés mais de la répétition de certaines parties logiques des requêtes. Cette stratégie n’étant pas disponible pour le jeu de requêtes 2005 (requêtes trop courtes), nous avons conçu une expansion automatique liée aux noms des gènes et protéines (inclusion de variantes orthographiques et de synonymes). Cette démarche n’a pas permis une augmentation de la performance. Par contre, bien que notre modèle d’expansion (idfqe) semble être mieux adapté que l’approche de Rocchio, nous n’avons pas de preuve tangible que l’expansion automatique de requêtes améliore les performances moyennes dans le cadre d’un corpus comme Medline. Notre étude indique que l’expansion automatique n’est pas une stratégie entraînant à coup sûr une amélioration significative de la performance.
Annexe
AnnexeFormules de pondération
61 Dans le tableauau 5, n indique le nombre de notices dans la collection, t le nombre de termes d’indexation, df
Formules de pondération utilisées
Tableau 5 -
Bibliographie
Bibliographie
Amati G., van Rijsbergen C.J., “Probabilistic models of information retrieval based on measuring the divergence from randomness”, ACM-Transactions on Information Systems, vol. 20, n° 4, 2002, p. 357-389.
Buckley C, Singhal A., Mitra M., Salton G., “New retrieval approaches using SMART”, Proceedings of TREC-4, NIST Publication #500-236, Gaithersburg (MD), 1996, p. 25-48.
Cohen A.M., “Unsupervised gene/protein named entity normalization using automatically extracted dictionaries”, Proceeding ACL-ISMB, Detroit (MI), 2005, p. 17-24.
Efthimiadis E.N., “Query expansion”, Annual Review of Information Science & Technology, vol. 31, 1996, p. 121-187.
Gospodnetić O., Hatcher E., Lucene in action, Greenwich, Manning, 2005.
Grabar N., Ruch P., « La Gene Ontology : une ontologie pour l’annotation des gènes et de leurs produits », Standards pour la Biologie Systémique, Roux-Rouquier M. & Xavier F. (Eds), Paris, Ecrin, Omnisciences, 2007.
Harman D., “How effective is suffixing?”, Journal of the American Society for Information Science, vol. 42, n° 1, 1991, p. 7-15.
Hersh W.R., Information retrieval: A health care perspective, New York, Spinger-Verlag, 1996.
Hersh W.R., Bhuptiraju R.T., Ross L., Johnson P., Cohen A.H., Kraemer D.F., “TREC 2004 genomics track overview”, Proceedings TREC-2004, NIST Publication #500-261, Gaithersburg (MD), 2005, p. 192-201.
Hersh W.R., Cohen A.H., Yang R.T., Bhuptiraju R.T., Roberts P., Herst M., “TREC 2005 genomics track overview”, Proceedings TREC-2005, NIST Publication #500-266, Gaithersburg (MD), 2006.
Hiemstra D., Using language models for information retrieval, CTIT Ph.D. Thesis, 2000.
Hiemstra D., “Term-specific smoothing for the language modeling approach to information retrieval, The importance of a query term », Proceedings ACM-SIGIR-2002, Tempere, p. 35-41.
Lyman P., Varian H. R., “How much information?” disponible à l’adresse site www.sims.berkeley.edu/research/projects/how-much-info-2003.
Porter M.F., “An algorithm for suffix stripping”, Program, vol. 14, n° 3, 1980, p. 130-137.
Robertson S.E., Walker S., Beaulieu M., “Experimentation as a way of life: Okapi at TREC”, Information Processing & Management, vol. 36, n° 1, 2000, p. 95-108.
Ruch P., “Using contextual spelling correction to improve retrieval effectiveness in degraded text collections”, Proceedings ACL-COLING 2002, Morgan Kaufman, 2002.
Ruch P., Müller H., Abdou S., Cohen G., Savoy J., “Report on the TREC 2005 experiment: Genomics track TREC 2005”, Proceedings TREC-2005, NIST Publication, Gaithersburg (MD), 2006.
Ruch P., “Automatic assignment of biomedical categories: toward a generic approach”, Bioinformatics, vol. 22, n° 6, 2006, p. 658-664.
Salton G., Buckley C., “Term weighting approaches in automatic text retrieval”, Information Processing & Management, vol. 24, n° 5, 1988, p. 513-523.
Savoy J., “Statistical inference in retrieval effectiveness evaluation”, Information Processing & Management, vol. 33, n° 4, 1997, p. 495-512.
Savoy J., « Indexation manuelle et automatique : une évaluation comparative basée sur un corpus en langue française », Actes CORIA, Grenoble, 2005, p. 9-23.
Savoy J., « Un regard statistique sur l’évaluation de performance : L’exemple de CLEF 2005 », Actes CORIA, Lyon, 2006, p. 73-84.
Singhal A., Choi J., Hindle D., Lewis D.D., Pereira F., « AT&T at TREC-7 », Proceedings TREC-7, NIST Publication #500-242, Gaithersburg (MD), 1999, p. 239-251.
Voorhees E.M., “Query expansion using lexical-semantic relations”, Proceedings ACM-SIGIR-1994, Dublin, p. 61-69.
Yu H., Agichtein E., “Extracting synonymous gene and protein terms from biological literature”, Bioinformatics, vol. 19, n° 1, 2003, p. i340-i349.
Notes
[ 1] Voir le site http://www.nlm.nih.gov/pubs/factsheets/medline.html
[ 2] A l’adresse http://www.nlm.nih.gov/bsd/mms/medlineelements.html, on retrouve la description complète de tous les champs d’une référence Medline.
[ 3] Voir le site http://www.nlm.nih.gov/mesh/.
[ 4] Voir le site SwissProt à http://us.expasy.org/sprot/, le site GenBank à http://www.ncbi.nlm.nih.gov/, ou l’ontologie des fonctions moléculaires GO à http://www.geneontology.org/
Résumé
Cet article décrit la banque documentaire Medline depuis laquelle une collection test comprenant environ 4,5 million de documents structurés a été construite à partir des campagnes d’évaluation TREC. Dans une deuxième partie, nous évaluons et comparons l’efficacité du dépistage de l’information de dix modèles (probabiliste, modèle de langue, approches vectorielles). Cette évaluation est complétée par l’analyse de l’efficacité de trois enracineurs (stemmers) pour la recherche d’information œuvrant dans un contexte spécifique. L’impact des descripteurs MeSH, manuellement sélectionnés pour chaque article, complète cette analyse. Enfin nous avons conçu deux nouvelles approches d’expansion automatique des requêtes, l’une générale l’autre spécifique et nous les avons évaluées en les comparant au modèle proposé par Rocchio.
Mots-clés
recherche d’information, évaluation, modèle probabiliste, modèle de langue, expansion automatique de requêtes, indexation manuelle, enracineurIn this paper we describe the Medline collection from which a test-collection containing around 4.5 million of structured documents have been built from the past TREC evaluation campaigns. Second this paper evaluates and compares ten different IR models (probabilistic, language model and vector-space approaches) on the one hand, and on the other we also compare three different stemming strategies used in a domain-specific IR. The impact that manually assigned descriptors (MeSH headings) have on retrieval effectiveness is also evaluated. Finally, we propose both a new general blind-query expansion and a domain-specific query expansion scheme and compare them with the more classic Rocchio approach.Keywords
information retrieval, evaluation, probabilistic model, language model, blind query expansion, biomedical IR, manually indexing, stemming
PLAN DE L'ARTICLE
- 1 - Introduction
- 2 - La collection-test extraite de Medline
- 3 - Les modèles de dépistage
- 4 - Expansion automatique des requêtes
- 5 - Évaluation
- 6 - Conclusion
- Annexe
POUR CITER CET ARTICLE
Samir Abdou et al. « Recherche d'information dans Medline », Document numérique 1/2007 (Vol. 10), p. 131-151.
URL : www.cairn.info/revue-document-numerique-2007-1-page-131.htm.













