Un modèle de mixture de modèles génératifs pour les documents structurés multimédias
Application à la classification de documents XML et HTML
Ludovic Denoyer
Patrick Gallinari
Nous présentons un modèle général permettant la classification supervisée de documents structurés multimédias. Nous proposons un modèle génératif basé sur les réseaux bayésiens afin de modéliser les documents de type XML ou HTML. Nous étudions une extension de ce modèle génératif en modèle discriminant à l’aide du formalisme des noyaux de Fisher. Enfin, nous testons notre modèle sur trois grands corpus de documents.Mots-clés :
classification, documents structurés, XML, documents multimédias, réseaux bayésiens, apprentissage.
We present a general model for the supervised classification of multimedia structured documents. We propose a generative model based on the belief network formalism in order to model XML or HTML documents. We transform our generative model into a discriminant one using the Fisher Kernel method. Then, we test this model using three information retrieval documents databasesMots-clés :
classification, documents structurés, XML, documents multimédias, réseaux bayésiens, apprentissage.
• Introduction
• Etat de l’art
• Modèle proposé
— Document structuré
— Le modèle génératif de document
— Notations
— Une instance particulière : contenu textuel et estimation des densités conditionnelles par Naïve Bayes
— Modèle multimédia Texte + Image
• Des modèles génératifs aux modèles discriminants : les noyaux de Fisher
— Application au modèle textuel
• Expériences et résultats
— Modèle textuel structuré
— Modèle multimédia texte+image
• Conclusion
• Bibliographie