Document numérique 2007/1
Document numérique
2007/1 (Vol. 10)
152 pages
Editeur
I.S.B.N. 9782746219694
A propos de cette revue
Alertes e-mail

Recevez des alertes automatiques relatives à cet article.

S'inscrire Alertes e-mail - Document numérique

Être averti par courriel à chaque nouvelle parution :
d'un numéro de cette revue
d'une publication de Eugen Popovici
d'une publication de Gildas Ménier
d'une publication de Pierre-François Marteau
d'une citation de cet article

Votre adresse e-mail

Gérer vos alertes sur Cairn.info

Cairn.info respecte votre vie privée

Vous consultezInterprétation vague des contraintes structurelles pour la RI dans des corpus de documents XML

Évaluation d’une méthode approchée de RI structurée

AuteursEugen Popovici du même auteur


Résumé

Nous proposons des algorithmes dédiés à l’indexation et à la recherche approximative d’information dans les bases de données hétérogènes semi-structurées XML. Le modèle d’indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d’arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein modifiée et des heuristiques de fusion d’information. Une implémentation exploitant simultanément l’information structurée, i.e. l’arborescence des éléments XML, et le contenu des documents indexés est décrite. Les performances obtenues dans le cadre de la campagne d’évaluation INEX 2005 sont présentées et analysées. Celles-ci positionnent l’approche proposée parmi les meilleurs systèmes évalués, sur la tâche de recherche approximative de contenu en contexte structurel vague.



Mots clés
XML, base de données hétérogènes, recherche et extraction d’information, fusion d’information, distance d’édition de Levenshtein, opérateurs de recherche, INEX





We propose specific data structures designed to the indexing and retrieval of information elements in heterogeneous XML data bases. The indexing scheme is well suited to the management of various contextual searches, expressed either at a structural level or at an information content level. The approximate search mechanisms are based on a modified Levenshtein editing distance and information fusion heuristics. The implementation described highlights the mixing of structured information presented as field/value instances and free text elements. The retrieval performances of the proposed approach are evaluated within the INEX 2005 evaluation campaign. The evaluation results rank the proposed approach among the best evaluated XML IR systems for the VVCAS task.

Keywords
XML, heterogeneous data base, information retrieval, information fusion, Levenshtein edition distance, heuristic based operators, INEX

PLAN DE L'ARTICLE

  • 1 - Introduction
  • 2 - Indexation en contexte XML
    • 2.1 - Contexte XML
    • 2.2 - Modèle d’indexation
  • 3 - Paradigme de recherche d’information
    • 3.1 - Alignement approximatif des sous-structures p(n)
    • 3.2 - Distance d’édition entre deux chemins pR et pR,Di : δL(pR, pR,Di)
    • 3.3 - Requêtes complexes
  • 4 - Évaluations
    • 4.1 - Les données expérimentales
    • 4.2 - Le jeu de requêtes
    • 4.3 - Mesures de pertinence
    • 4.4 - Le processus d’indexation
    • 4.5 - Pondérations du schéma de similarité structurelle
    • 4.6 - Processus de traitement de requêtes
    • 4.7 - Stratégies de recherche
    • 4.8 - Évaluation du temps de réponse pour la recherche d’information
    • 4.9 - Évaluation de la pertinence des réponses retournées
  • 5 - Conclusion
  • Annexe
Accéder à cet article