Intégration d’Unicode
Emmanuel Giguet
Nadine Lucas
La norme ISO/CEI 10646 que l’on appelle couramment Unicode est passée assez discrètement dans les faits. Sa manifestation la plus claire est la possibilité de consulter des sites du monde entier, sans plus être pénalisé par l’incompatibilité des systèmes d’échange et d’affichage des données texte. Donner à voir des documents dans des graphies très diverses, ou « multiscript » mais aussi indexer, traiter l’information automatiquement est désormais possible. Face à ce progrès technique, les réactions sont plus ou moins rapides. Nous présentons ici un exemple de réalisation d’automate de collecte et traitement d’information à partir de documents multiscript, et évoquerons les difficultés ou réticences constatées par ailleurs.Mots-clés :
Unicode, traitement automatique multilingue, fouille de texte, outils de veille.
The ISO/IEC 10646 Unicode standard allows anyone to collect and read any text in any graphical form. Documents can be processed without worrying about the variety of encoding. We present an example of information retrieval on multilingual sources and discuss some of the issues induced by this new technology.Keywords :
Unicode, information monitoring, text mining, multilingual information processing.
• Introduction
• Intégration d’Unicode dans UniCrawl, un agent de recherche d’information sur internet
— UniCrawl
— Enjeu d’UniCrawl
— Problématique de codage dans UniCrawl
— Stratégie de gestion des codages dans UniCrawl
— Intégration d’Unicode dans UniCrawl
— Analyse automatique de contenu Unicode
• Unicode et l’information planétaire
— Unicode et l’exotisme
— Une information transparente
— Si c’est du chinois, comment évaluer ?
• Conclusion
• 5. Bibliographie