2002
Le travail humain
Développement des technologies vocales
W. Minker
DaimlerChrysler AG, Recherche et technologie, 89081 Ulm/Donau, Allemagne. E-mail : wolfgang. minker@ daimlerchrysler. com.
F. Néel
LIMSI-CNRS, BP 133, Département Communication Homme-Machine, 91403 Orsay Cedex, France.
This paper investigates problems associated with Human-Machine communication. Speech plays an important role in rendering this method of communication more natural. The expansion of telecommunication and mobile computing devices, together with improvements in their performance, help to facilitate the application of advanced technologies, notably those related to speech. Following a background analysis, we will discuss the advantages and disadvantages of speech and present a historical survey of research and commercialized systems. Although state-of-the art, these are voluntarily limited to non-telematic applications and are focused on speech recognition systems. With rapid advances in technology, however, our survey cannot pretend to be exhaustive. This paper also examines the motivations for using vocal interaction, namely when combined with other communication modes.
Keywords :
Application of Speech Technologies, Human-Machine Communication, Multimodal Interaction, Advanced Interfaces, Evaluation Paradigm, Typology of Speech Systems, Variability of Speech.
Cet article s’inscrit dans le domaine de la communication Homme-Machine. L’objectif est d’identifier le rôle privilégié que peut jouer la parole pour rendre la communication plus proche du naturel. Le contexte actuel, avec l’expansion des télécommunications, l’avènement de l’informatique nomade et l’amélioration des performances des systèmes, favorise une utilisation effective de technologies avancées, notamment des technologies vocales. Après une analyse de ce contexte, les avantages et inconvénients du mode parole sont rappelés. Un état de l’art sur les recherches et réalisations actuelles en ce domaine est ensuite présenté dans une perspective historique. Cet état de l’art, qui ne prétend pas à l’exhaustivité en raison de l’évolution rapide des technologies, s’est volontairement limité aux applications non télématiques et met l’accent sur les systèmes de reconnaissance. L’intérêt d’une interaction vocale est discuté non seulement en tant que telle, mais également lorsqu’elle est combinée avec d’autres modes de communication.
Mots-clés :
Application des technologies vocales, Communication Homme-Machine, Interaction multimodale, Interfaces avancées, Paradigme d’évaluation, Typologie des systèmes vocaux, Variabilité de la parole.
Ces trente dernières années ont été témoin d’une évolution impressionnante dans le développement du traitement automatique de la parole. D’un système de reconnaissance, le VIP100, premier à être commercialisé par Threshold Technology Inc. en 1972, qui était capable de reconnaître une centaine de mots isolés, après une phase d’apprentissage longue et fastidieuse, et qui avait un encombrement d’un mètre cube environ, on est passé à des systèmes adaptatifs, intégrés dans les postes de travail et reconnaissant un vocabulaire pratiquement illimité.
À la fin des années 1970, avec l’apparition de la microélectronique, les premiers résultats obtenus en traitement automatique de la parole étaient si prometteurs qu’ils avaient suscité d’audacieuses prévisions : un journaliste s’était risqué à prédire la disparition totale en 1986 des machines à écrire à clavier et leur remplacement par une interface entièrement vocale. Si on est loin de constater une telle réalité, il faut cependant souligner les changements survenus, notamment depuis 1993, date à laquelle le premier système de reconnaissance de parole continue, fonctionnant pratiquement en temps réel, a été présenté pour la langue allemande par Philips lors de la Conférence d’EUROSPEECH à Berlin. Depuis cette date, une vive compétition entre les équipes de recherche et les industriels a conduit à une chute spectaculaire du prix des produits proposés et à une amélioration notable tant de leurs performances que de leurs modalités d’utilisation. Les technologies vocales sont dorénavant utilisées non seulement par les professionnels, mais également par le grand public : la multiplication des serveurs vocaux en est un exemple.
Avec l’avènement d’Internet qui permet à une personne de n’importe quel point dans le monde d’avoir accès à n’importe quelle base de données distante, tout en communiquant avec plusieurs autres utilisateurs de ces mêmes sources d’information, la parole offre un mode d’interaction particulièrement naturel et efficace. Il convient donc de s’interroger sur la place que peuvent prendre les technologies vocales dans un tel contexte, que ce soit comme seul mode de communication ou encore comme mode complémentaire à d’autres modes.
En effet, on a pris également conscience, depuis ces quinze dernières années, de la spécificité de la parole et précisé le rôle qu’elle peut dorénavant jouer dans une interaction multimodale complexe faisant intervenir ensemble plusieurs modes de perception et de production. De nombreux domaines d’application peuvent ainsi être identifiés, dans lesquels la parole, soit secondée par le geste ou le regard, soit subordonnée à ces modes, est capable de répondre aux attentes de l’usager de façon optimalisée (Caelen & Coutaz, 1991).
Cet article a pour objectif d’identifier l’apport des technologies vocales dans des situations de communication Homme-Machine, l’accent étant mis plus particulièrement sur la reconnaissance (il ne sera fait mention de la synthèse que dans le cadre de certaines applications). La section 2 rappelle le contexte actuel qui, alliant différents facteurs, favorise l’utilisation des technologies vocales dans un nombre croissant d’applications de plus en plus diversifiées et destinées à une utilisation courante. La section 3 précise les avantages et limitations du mode parole et des produits vocaux, puis propose une typologie qui permet de mieux cerner les caractéristiques des produits actuellement disponibles sur le marché. La section 4 se focalise sur les domaines d’application les plus marquants (domotique, industrie, bureautique) où la parole seule est utilisée, tels les systèmes de contrôle de qualité, de dictée automatique, de formation et de traduction automatique. Dans ces domaines, de nombreux produits sont commercialisés et couramment utilisés. Les exemples cités sont loin d’être exhaustifs. Notamment seule une mention rapide sera faite des applications télématiques (serveurs vocaux), l’accent étant plutôt mis ici sur les applications de reconnaissance vocale en direct. Dans la section 5, les domaines où la parole pourrait se combiner à d’autres modes de communication sont évoqués. Dans ces derniers cas, il s’agit plutôt de prototypes et d’études en cours.
Plusieurs facteurs concomitants favorisent actuellement la généralisation des technologies vocales dans les nouvelles interfaces.
II . 1. DÉVELOPPEMENT DE LA MICROÉLECTRONIQUE
Le développement rapide de la microélectronique conduit à une augmentation en puissance (qui double environ tous les deux ans selon la loi de Moore) des processeurs standard et des mémoires. De ce fait, les algorithmes de traitement du signal de parole (reconnaissance et synthèse), gourmands en temps de calcul et de mémoire, fonctionnent maintenant sur des composants numériques de base (carte SoundBlaster, par exemple) et ne requièrent plus de carte ou de matériel spécialisé. Les systèmes à petit vocabulaire conçus par Dragon Systems, IBM, Philips, etc., peuvent ainsi être incorporés dans les PCs, quelquefois directement dans le logiciel de traitement de textes, ainsi que dans les Assistants numériques personnels (PDA). Cela leur permet d’être diffusés à des millions d’exemplaires (Hunt, 1996). Cette banalisation des logiciels de traitement du signal et de la parole a entraîné une diminution spectaculaire des coûts des produits.
Par ailleurs, la miniaturisation favorise l’informatique nomade et permet dès à présent l’intégration de la reconnaissance dans les téléphones portables (Nokia, Philips, etc.). Grâce à l’expansion des techniques de communication par satellite, des terminaux HPC (Handled PC), suffisamment compacts pour tenir dans la main, doivent allier les fonctions de téléphonie et d’accès à Internet, utilisant le GPS (Global Positioning Satellite System) pour déterminer la localisation d’un véhicule ou d’un individu. Il est même envisagé que l’interface soit diluée totalement dans l’environnement : comme l’indique le thème The Disappearing Computer de l’appel d’offres des Communautés européennes de mai 2000, les processeurs et prises de son peuvent alors être directement incorporés soit dans les murs des maisons, soit dans la tenue vestimentaire (Wearable Computer), tels le système Navigator de Carnegie Mellon University (CMU) (Smailagic & Siewiorek, 1994) et certains prototypes de France Télécom R&D.
II . 2. EXPANSION DES TECHNIQUES DE COMMUNICATION ET INTERCONNEXION GÉNÉRALISÉE DES SYSTÈMES INFORMATISÉS
En effet, les techniques de communication, notamment les réseaux informatiques et téléphoniques, ont suivi, à la fin des années 1990, une croissance exponentielle, qu’il s’agisse du réseau Internet qui, avec la Toile, permet l’accès immédiat à des banques de données de textes, d’images et de parole réparties dans le monde, ou qu’il s’agisse des réseaux téléphoniques numériques et cellulaires, destinés tout d’abord aux professionnels et maintenant de plus en plus au grand public. Ce développement bénéficie directement de l’amélioration des techniques de traitement du signal (codage, compression et multiplexage) permettant d’optimiser les liaisons (optiques ou par satellites).
Le nombre d’ordinateurs raccordés à Internet était estimé fin 2000 à 300 millions dans le monde, dont plus de 6,2 millions en France, alors qu’il était fin 1995 d’environ 40 millions au niveau mondial, et en France d’à peine 100 000 abonnés individuels. La France est en train de combler le retard qu’elle avait en ce domaine par rapport à d’autres pays, notamment par rapport à l’Allemagne et à l’Angleterre. Ce nombre ne peut que s’accroître avec la baisse des prix annoncée et l’installation des réseaux à haut débit ADSL (Asymmetric Digital Subscriber Line) qui permet de multiplier par 100 le débit des informations (image et voix) en empruntant les lignes téléphoniques classiques. En effet, le réseau téléphonique numérique NUMERIS qui en 1993 ne concernait que 10 % des lignes se généralise, favorise le développement de services spécialisés (RNIS, Réseau numérique à intégration de services).
La normalisation du réseau radio Itineris/GSM (Global System for Mobile Communications), bientôt remplacé par le GPRS (General Packet Radio Service) devrait permettre à celui-ci de couvrir la majeure partie du territoire français, en attendant le système de 3e génération UMTS (Universal Mobile Telecommunication System), à l’horizon 2005. Grâce à des vitesses de transmission élevées (jusqu’à 2 mbits), le système UMTS rendra également possible le lancement de services multimédias. La croissance des téléphones portables est explosive en raison de la mise en place des réseaux de satellites en orbite basse : le nombre des abonnés de téléphones mobiles dépassait en janvier 2002 le cap des 900 millions dans le monde.
On assiste de fait à la mise en place d’un réseau d’interconnexion totale entre stations de travail, téléphones et postes de télévision, etc. Les nouveaux systèmes, notamment les Net Telephones, intègrent de multiples fonctionnalités grâce au protocole WAP (Wireless Application Protocol) qui permet l’accès à la Toile à partir d’un téléphone portable, en faisant communiquer les normes utilisées à la fois par le GSM et l’Internet.
La reconnaissance de la parole dans ce contexte prend une importance accrue, du fait du clavier nécessairement réduit des téléphones portables et des Assistants numériques personnels (PDA).
II . 3. COORDINATION DES RECHERCHES ET AMÉLIORATION DES PERFORMANCES DES SYSTÈMES DE TRAITEMENT AUTOMATIQUE DE LA PAROLE
L’amélioration des performances des systèmes a été déterminante ces quinze dernières années : en effet en 1985, les systèmes étaient capables de reconnaître un locuteur prononçant en mots isolés après apprentissage un vocabulaire de quelques centaines de mots ; actuellement, les systèmes sont capables de reconnaître n’importe quel locuteur utilisant en parole continue un vocabulaire de plusieurs centaines de milliers de mots, voire illimité, pour peu que la prise de son soit contrôlée et que l’environnement sonore ne soit pas trop intrusif ; ou encore ils sont capables de conduire un dialogue avec un vocabulaire de quelques milliers de mots à travers le téléphone, sur un sujet bien défini (renseignements sur les horaires de train ou d’avion, par exemple). Ces avancées ne sont pas tant dues à une amélioration des connaissances (la plupart des algorithmes étaient connus dans les années 1970 (Jelinek, 1976), qu’à l’organisation de campagnes d’évaluation systématiques. Ces campagnes ont pu naturellement être mises en place grâce au développement de la micro-électronique qui favorisait le temps réel et la constitution de grandes bases de données, mais elles procèdent également d’une prise de conscience, par les spécialistes du domaine, de l’importance du paradigme d’évaluation. Ce paradigme, tout d’abord défini dans des programmes américains, est devenu central dans nombre de projets européens, aussi bien nationaux qu’internationaux.
Le programme lancé aux États-Unis en 1984 par la DARPA (Defence Advanced Research Project Agency ou Agence des projets de recherche avancée de la défense) sur le Traitement de la parole et du langage naturel (Speech and Natural Language), fut un des premiers à mettre en place des campagnes périodiques d’évaluation des systèmes et à encourager ainsi une comparaison objective de méthodes différentes. Les résultats obtenus lors de ces campagnes successives montrent bien une amélioration continue des performances au fil des années et une plus grande adaptabilité des logiciels (Pallett, 1990).
Une telle organisation destinée à l’évaluation des systèmes suppose, outre un consensus préalable sur l’utilisation de méthodes et protocoles communs, la disponibilité de ressources et d’outils linguistiques identiques susceptibles de mesurer de manière assez formelle les progrès accomplis. En effet, les approches les plus couramment utilisées, de nature stochastique (Modèles de Markov) ou neuromimétique (Mariani, 1990), nécessitent l’entraînement des systèmes sur de grands corpus de signal et de textes (Néel et al., 1996). Un effort a donc été engagé dans le cadre de ce même programme DARPA pour la constitution de grandes bases de données concernant différents domaines d’application : les corpus WJS (Wall Street Journal) et ATIS (Air Travel Information Services) en sont des exemples.
La diffusion de telles ressources linguistiques a été également facilitée par la création aux États-Unis d’un organisme spécifique, le LDC (Linguistic Data Consortium), qui a pour vocation de mieux coordonner la collecte et de veiller à la disponibilité des corpus (signal de parole et texte) sur le réseau de la Toile et sous forme de Cédéroms.
En Europe, dans le cadre des programmes ESPRIT et LRE (Linguistic Research Engineering), de nombreux programmes furent lancés dès 1988 par les Communautés sur le thème de l’évaluation : l’un des premiers, le projet ESPRIT SAM/SAM-A (Multilingual Speech input/output Standardisation, Assessment and Methodology), rassemblant plus de 30 partenaires industriels et universitaires avait pour objectif de définir des normes pour les systèmes de reconnaissance, de vérification du locuteur et de synthèse.
L’intérêt de ces multiples projets européens fut de placer directement les études dans un contexte multilingue et de privilégier des méthodologies indépendantes d’une langue donnée. L’un des résultats les plus marquants fut la création en février 1995 à Paris d’ELRA (European Language Resources Association) dotant la communauté scientifique européenne d’un organisme équivalent au LDC, qui permettait la collecte et la diffusion de corpus représentatifs des diverses langues européennes. D’autres projets, tels qu’EUROCOCOSDA, ont facilité des collaborations en relation avec le programme international COCOSDA (Coordinating Committee on Speech Databases and Speech I/O Systems Assessment) (Mariani, 1993).
La communauté française fut à cet égard particulièrement active, notamment au sein du Pôle Parole du GDR-PRC CHM (Groupe de recherches et programme de recherches coordonnées sur la communication homme-machine). C’est à partir des Cédéroms de la langue française BDSONS (Dolmazon, Cervantes & Sérignat, 1988) que fut défini le contenu des premiers Cédéroms de corpus multilingues (EUROM0, EUROM1) réalisés dans le projet ESPRIT SAM/SAM-A. Il convient de citer également, toujours grâce au soutien du GDR-PRC CHM ainsi qu’à celui de l’OFIL (Observatoire des industries de la langue), la création d’un corpus de grande taille BREF (Lamel, Gauvain & Eskénazi, 1991) pour la langue française et sa mise à disposition dans l’ensemble de la communauté francophone lors de campagnes d’évaluation organisées sur le modèle des campagnes de la DARPA par le réseau FRANCIL (Réseau FRANCophone de l’ingénierie de la langue) de l’AUF (Agence universitaire de la francophonie) (Chibout, Mariani, Masson & Néel, 1999).
Ces évaluations qui permettent de confronter les réponses d’un système à des corpus de références ne mesurent bien évidemment qu’un aspect des performances du système (taux d’erreurs de reconnaissance, par exemple) et ne peuvent être considérées comme suffisantes pour garantir une bonne acceptation de la part des utilisateurs. Il est nécessaire également d’exécuter des tests systématiques en situation opérationnelle, tels que ceux menés par les opérateurs de télécommunications qui conçoivent, développent et diffusent des produits. Depuis de nombreuses années, le CNET devenu France Télécom R&D (Sorin, 1994), AT&T, NTT, British Telecom, Deutsche Telekom, CSELT, Infovox-Telia, Telephonica, etc., évaluent ainsi en laboratoire, puis avec de réels utilisateurs, des systèmes interactifs intégrant reconnaissance et synthèse de la parole. Ces évaluations sur site opérationnel ont permis un diagnostic précis des limites des technologies vocales et une meilleure perception des besoins réels des utilisateurs, ce qui a entraîné une meilleure adéquation des services proposés. L’expérimentation en situation proche du réel est nécessairement plus coûteuse et comporte évidemment des limitations (le système visé n’existe pas encore ou du moins ne comporte pas toutes les fonctionnalités envisagées). Mais cette approche, même avec des prototypes simplifiés parce qu’en cours de développement, apporte des éléments précieux permettant de préciser les priorités et d’orienter ainsi les recherches ultérieures.
III. SPÉCIFICITÉ DE LA PAROLE
III . 1. AVANTAGES DU MODE PAROLE
Si on prend comme référence le modèle humain, les avantages de la parole semblent au premier abord déterminants :
— Naturel : la parole constitue le mode le plus naturel de communication entre personnes humaines, du fait que son apprentissage s’effectue dès l’enfance, ce qui est loin d’être le cas pour la maîtrise de la frappe au clavier, par exemple.
— Rapidité/efficacité : plusieurs études d’ergonomie montrent que le débit en parole spontanée est de l’ordre de 200 mots/minute à comparer aux 60 mots/minute d’un expert pour la frappe au clavier (Lea, 1980).
L’efficacité de la parole ne provient pas seulement de ce qu’elle permet un débit d’informations plus élevé que d’autres modes de communication, mais également de ce qu’elle peut être aisément utilisée en superposition avec ceux-ci. La parole laisse l’utilisateur libre de ses mouvements : elle est donc particulièrement adaptée aux applications dans lesquelles il s’agit pour l’utilisateur de conduire plusieurs tâches simultanément, ou de contrôler des processus complexes qui monopolisent gestes et/ou vision (Chapanis, 1979).
Par ailleurs, d’un point de vue cognitif, la parole associée à des informations visuelles permet d’en améliorer la mémorisation ou de n’en souligner que les points saillants, ce qui est couramment utilisé dans l’enseignement interactif.
Cependant, si la parole présente un débit plus rapide pour l’émission d’un message par une machine ou une personne humaine, cet avantage ne se vérifie pas pour la perception humaine : la parole étant un phénomène séquentiel et mono-dimensionnel, l’écoute d’un message vocal (avec un débit de l’ordre de 200 mots/minute), nécessite un certain effort d’attention (du fait du caractère éphémère) et demande à l’usager plus de temps que la lecture d’une page écran (pour laquelle le débit peut atteindre jusqu’à 700 mots/minute) (Lévy-Schoen, 1969). Ces résultats d’expérimentation proscrivent les longs messages de synthèse : il est en effet préférable d’afficher à l’écran un message dès qu’il dépasse une certaine longueur ou alors d’en produire une version condensée avec la synthèse vocale. Ceci démontre qu’un mode ne saurait se substituer directement à un autre sans une adaptation préalable de la présentation du message, même si le contenu reste inchangé.
— Extension du champ d’action : la parole permet d’avoir un accès immédiat à une information sans avoir à parcourir toute une arborescence hiérarchique de menus : il est toujours possible bien sûr d’utiliser des raccourcis clavier ou des langages de commande, mais la prononciation d’un seul mot peut remplacer jusqu’à une dizaine de commandes élémentaires effectuées à l’aide de touches fonctions ou de souris et représente ainsi un effort mnémotechnique moindre (Bellik, 1997).
La parole permet également d’avoir accès à un objet non visible (sur l’écran, par exemple). À son pouvoir de désigner ou nommer des objets, s’ajoute la possibilité d’établir des échanges de niveau sémantique complexe et de manipuler des notions abstraites, ce qui peut contribuer à modifier, en l’enrichissant, le dialogue avec la machine. La suprématie de la parole est évidente pour des commandes globales (changement de couleur, par exemple) ; elle l’est moins pour des commandes incrémentales (déplacement pas à pas d’un objet sur l’écran), pour lesquelles tout mode de désignation (souris, manche à balai) reste plus efficace, dans la plupart des cas.
III . 2. LIMITATIONS DU MODE PAROLE
Les avantages cités ci-dessus doivent être tempérés par le caractère intrinsèque de la parole, son extrême variabilité, qui représente une difficulté pour le traitement automatique : cette variabilité peut être liée soit au locuteur (état physique et cognitif), soit à l’environnement ou au média de transmission du signal, soit à la langue elle-même (ambigu ïté). À cela s’ajoutent les contraintes imposées par les limitations technologiques (prise de son) et leur usage dans un contexte opérationnel.
— Variabilité du signal due au locuteur : deux répétitions d’un même message par la même personne ne sont pas strictement identiques. Le signal se modifie en fonction de l’état émotionnel ou physique du locuteur (stress, fatigue, voix enrouée, etc.), mais également en fonction du style adopté (soigné ou relâché). Le décodage est d’autant plus complexe que le signal n’est pas affecté de façon linéaire par un ralentissement ou une accélération de débit, les parties stables des voyelles étant plus fortement modifiées que les parties consonantiques en élocution rapide (Liénard, 1977). La variabilité interlocuteur (voix d’homme, de femme, ou d’enfant) est naturellement encore plus importante.
S’il est évidemment nécessaire de modéliser cette variabilité pour la reconnaissance, il est également indispensable d’en tenir compte pour la synthèse : par un phénomène inverse, lorsqu’une machine parle, la perception humaine habituée à une certaine variabilité (qui ne gêne en rien la compréhension) supporte mal d’entendre une voix artificielle possédant une prosodie par trop répétitive, par exemple.
— Variabilité due à l’environnement acoustique : le microphone, selon ses caractéristiques (plus ou moins directif), capte, en même temps que le signal de parole, les bruits de l’environnement. Les bruits non stationnaires sont bien sûr les plus perturbants pour la reconnaissance : à bord d’avions par exemple, le bruit de respiration du pilote dans son masque à oxygène peut être plus gênant que le bruit du moteur de l’avion.
— Variabilité due au média de transmission : les lignes analogiques du réseau téléphonique, outre leur limitation en bande passante (300-3 000 Hz), présentent de nombreuses distorsions (atténuation, écho, etc.) qui ne sont pas identiques de l’une à l’autre. Leur remplacement actuel par des lignes numériques (réseau NUMERIS) facilite la reconnaissance de la parole par téléphone. La reconnaissance par radio téléphone (réseau Itineris/GSM) présente encore plus de difficultés que par ligne analogique, du fait de la bande passante de 13 KHz, de la communication hertzienne et de la correction qui est numérique, ce qui devrait évoluer avec la norme GPRS.
— Variabilité due à l’ambigu ïté de la langue : il importe de modéliser finement les différents niveaux (lexique, syntaxe, sémantique, pragmatique) des connaissances qui concourent à l’interprétation du message. Le signal de parole est un signal continu sans marque de pause entre les mots, ce qui nécessite une segmentation qui, du fait de la richesse lexicale, n’est pas déterministe. En raison du grand nombre d’homophones hétérographes (formes verbales, adjectivales, nominales, etc., de même prononciation mais d’orthographe différente), la langue française se situe parmi les langues européennes les plus difficiles à segmenter en unités lexicales.
En outre, la parole est un phénomène qui se crée en temps réel : un discours spontané est de ce fait émaillé de nombreuses hésitations, reprises et autocorrections qui ne sont pas toujours compatibles avec les mots répertoriés dans le lexique, ni avec la syntaxe de l’écrit (Morel, 1988) (Néel & Minker, 1999).
— Contrainte technologique de la prise de son : le capteur (microphone) pour être efficace est souvent intrusif dans la mesure où il peut nécessiter le port d’un serre-tête, ce qui est rédhibitoire pour le grand public. Une prise de son à l’aide de plusieurs microphones couplés peut alors s’avérer nécessaire afin de ne pas souffrir d’une baisse de performances.
— Contraintes liées au contexte opérationnel : la parole étant un mode naturel de communication, il importe de doter la machine de capacités lui permettant de faire la différence entre les mots de commande qui lui sont destinés, d’une part, et les commentaires qui s’adressent à un autre utilisateur, d’autre part. Ce problème de changement de contexte, commun à la reconnaissance du geste, est loin d’être réglé. Une autre contrainte est la non-confidentialité et la coupure par rapport au monde réel : même si on utilise un casque pour le retour vocal, le fait de parler à voix haute à la machine ne permet pas de garder les informations confidentielles et peut, de toute façon, gêner les autres utilisateurs par le bruit engendré. On connaît bien cet inconvénient avec les téléphones portables. Par ailleurs, le port d’un casque contribue à isoler l’utilisateur du monde extérieur.
III . 3. TYPOLOGIE DES SYSTÈMES COMMERCIALISÉS DE RECONNAISSANCE LIÉE AUX SPÉCIFICITÉS DE LA PAROLE
III . 3 . A. Prise de son
Ainsi que cela a déjà été souligné, l’une des difficultés majeures de la reconnaissance de la parole est qu’elle nécessite l’utilisation d’une interface spécialisée, à savoir un microphone, susceptible de capter aussi bien le signal de parole que les bruits environnants. C’est pourquoi, de meilleures performances sont obtenues avec un microphone directif ou de proximité, c’est-à-dire intégré soit dans un casque ou serre-tête soit dans un combiné téléphonique. Mais dans de nombreuses applications, le système doit être intégré dans le poste de travail. Il est alors nécessaire de prendre en compte les caractéristiques sonores de l’environnement par un prétraitement (filtrage du bruit) ou par l’élaboration de modèles de bruit qui seront reconnus en même temps que le signal de parole. En voiture et sur les bornes de hall de gare, une antenne ou barrette de plusieurs microphones permet de mieux localiser le locuteur et d’extraire le signal de parole du bruit ambiant. Une autre caractéristique est de proposer un microphone soit ouvert (c’est-à-dire que la reconnaissance fonctionne en permanence) soit commandé manuellement (push-to-talk or push-to-activate) chaque fois que l’utilisateur s’adresse à la machine.
III . 3 . B. Type de langage
Un langage peut être caractérisé par la taille de son vocabulaire et la complexité de sa syntaxe. En ce qui concerne la taille, on distingue les systèmes de reconnaissance à petit vocabulaire (quelques dizaines de mots), moyen (quelques centaines) ou grand (de plusieurs milliers à plusieurs centaines de milliers). De nombreuses applications ne nécessitent que quelques centaines de mots (pour un langage de commande, par exemple). En revanche, lorsqu’on aborde la dictée automatique, la taille peut rapidement dépasser plusieurs centaines de milliers de mots (qui sont en fait les formes fléchies, verbales, nominales, adjectivales d’une entrée lexicale) ; si nécessaire, il est alors possible de partitionner le vocabulaire en plusieurs sous-vocabulaires. Dans ce cas, la taille du vocabulaire actif (c’est-à-dire connu par le système au moment de la reconnaissance) est seul significatif. Pour les systèmes de dictée, ce vocabulaire est en général de l’ordre de 60 000 mots pour un vocabulaire total de plus de 200 000. Grâce à une gestion dynamique des vocabulaires actifs et passifs, le vocabulaire peut être considéré comme illimité.
Afin de caractériser la complexité de la syntaxe, la mesure couramment employée est la perplexité (ou facteur de branchement dynamique). Cette mesure, fondée sur la théorie de la communication, indique le nombre moyen de mots candidats possibles après qu’un mot a été reconnu, et s’appuie sur un modèle de langage en l’absence duquel tous les mots sont équiprobables. La perplexité des langages professionnels, du type de ceux qui sont utilisés dans les rapports médicaux, par exemple, est généralement inférieure à 60, et le plus souvent de l’ordre de 10, alors que les langages utilisés dans des ouvrages littéraires (romans, comptes rendus de voyages) peuvent atteindre des perplexités de plusieurs centaines de mots (Baker, 1993). La parole spontanée, qui ne respecte pas les règles de la grammaire écrite, présente une perplexité encore supérieure.
III . 3 . C. Type d’utilisateurs
Deux catégories principales, grand public et professionnels, peuvent être identifiées. Il convient encore de faire une distinction entre le novice et l’expert en fonction de la connaissance que l’utilisateur a du domaine d’application, d’une part, et entre l’utilisateur occasionnel et celui qui est habitué au fonctionnement du système, d’autre part. Dans de nombreuses applications destinées au grand public, telles que les serveurs vocaux ou les bornes de renseignement, il est difficile d’imposer un apprentissage aux utilisateurs. Il est alors préférable que les systèmes soient indépendants du locuteur (multilocuteurs). Pour les professionnels, afin de garantir de meilleures performances, les systèmes sont en général dépendants du locuteur (monolocuteurs). Dans ce dernier cas, un apprentissage préalable est nécessaire pour tout nouveau locuteur. Jadis, les produits commercialisés imposaient à l’utilisateur de prononcer, souvent plusieurs fois de suite, la totalité du vocabulaire. Une telle contrainte n’est plus acceptable, dès lors que le vocabulaire dépasse plusieurs centaines de mots. Pour la reconnaissance de grands vocabulaires, cette phase est remplacée par une phase d’adaptation. Cette phase permet à la machine d’adapter ses modèles de référence acoustiques au locuteur à partir d’un ensemble de phrases représentatives des phonèmes d’une langue donnée. La machine modifie en même temps ses modèles linguistiques et peut prendre en compte ainsi des façons de parler propres à ce locuteur. Pour la dictée automatique, les systèmes sont maintenant adaptatifs en ligne, c’est-à-dire pendant l’utilisation réelle à chaque phrase prononcée par l’utilisateur, les modèles, tant acoustiques que linguistiques, sont, de manière implicite, automatiquement modifiés. Ainsi le taux de reconnaissance parfois désastreux au début, s’améliore sensiblement et rapidement. Cependant il est crucial que l’utilisateur ne laisse passer aucune erreur de reconnaissance pour ne pas compromettre l’apprentissage (Hunt, 1998).
Selon ces trois principaux critères, il est possible d’identifier trois classes de systèmes actuellement commercialisés :
- systèmes de reconnaissance de parole continue de petits vocabulaires (de quelques dizaines à quelques centaines de mots), monolocuteurs robustes au bruit, donc utilisables dans un environnement difficile soit par des professionnels soit par le grand public : par exemple, les systèmes utilisés pour les tâches de contrôle de qualité ou de maintenance ou intégrés dans des voitures haut de gamme, tel celui de Daimler-Chrysler qui permet la reconnaissance de 300 mots pour interroger l’ordinateur à bord ;
- serveurs vocaux indépendants du locuteur, accessibles par téléphone pour le grand public, utilisés avec un vocabulaire pouvant varier de quelques dizaines à quelques milliers de mots, prononcés en mode isolé ou détectés dans le flot de parole continue et spontanée (Gagnoulet & Sorin, 1993) : plusieurs systèmes sont opérationnels dès à présent pour des tâches bien définies (informations sur les horaires de trains, par exemple) aux États-Unis et en Europe (Philips, Cselt, CNET, etc.) ;
- systèmes de dictée, monolocuteurs, adaptatifs en ligne permettant la reconnaissance dans un environnement calme d’un vocabulaire de plusieurs centaines de milliers de mots, mais imposant le plus souvent à l’utilisateur professionnel une phase d’apprentissage de plusieurs dizaines de minutes : de nombreux systèmes ont été commercialisés par IBM, Dragon Systems, Philips, etc.
IV. DOMAINES D’APPLICATION AVEC INTERACTION VOCALE SEULE
Étant donné que la parole, aisément utilisée en superposition à d’autres modes de communication, libère la vue et les mouvements, il est possible d’identifier plusieurs domaines d’application dans lesquels notamment plusieurs tâches doivent être effectuées en parallèle : domaine industriel avec les systèmes de commande (manipulation d’objets, d’automates...) ou saisie de données (lors de contrôle de processus, d’observations microscopiques, d’inspection de matériels, par exemple), domotique. À ces domaines, il convient d’ajouter la bureautique avec les systèmes de dictée, la formation professionnelle ou individualisée et, plus récemment, la traduction automatique. Dans la majeure partie des cas, les produits sont commercialisés depuis de nombreuses années et utilisés couramment. En revanche, en ce qui concerne la formation et la traduction, les études sont encore le plus souvent au stade de projets de recherche ou de réalisation de prototypes en cours d’évaluation.
IV . 1. INSPECTION, CONTRÔLE OU SAISIE DE DONNÉES
La fonctionnalité main libre / vue libre que procure une interface vocale est là essentielle. Plusieurs systèmes fonctionnent aux États-Unis, notamment dans le domaine militaire pour la maintenance des avions : dans ce cas, un système portable ou vestimentaire est utilisé (Chinnock et al., 1996).
À titre d’exemples opérationnels en France, on peut rappeler que, dès 1988, le système Voice Scribe de Dragon Systems a été intégré par Auralog et utilisé par la SNECMA pour le contrôle de qualité des moteurs d’avion.
Plus récemment, un système portable Talkman de Vocollect a été évalué dans le cadre du projet de recherche SAVOIE, et mis en service à la SNCF (Société nationale des chemins de fer français) pour des opérateurs itinérants. Ces opérateurs effectuent des relevés d’informations (à partir d’environ 1 000 points de mesure) sur des organes de wagons SNCF pour déclencher le passage en révision. Les utilisateurs manipulent des outils et divers instruments de mesures lors de ces relevés ; ils interviennent dans des conditions dangereuses (sous les wagons, sur les toits, sur des échelles, etc.). Les évaluations réalisées avec les opérateurs ont montré une large préférence pour la saisie vocale en comparaison de la saisie au clavier, dans la mesure où elle leur assure une plus grande sécurité. Ce système monolocuteur avec apprentissage, utilisant un vocabulaire de 150 mots, montre également de bonnes performances pour des utilisations en milieu industriel bruité telles que les ateliers de réparation de la SNCF.
Toujours à la SNCF, le système MGPT (Module de gestion des protections travaux) en utilisation quotidienne permet aux agents de demander vocalement, dans un langage imposé par les normes de sécurité, l’autorisation d’effectuer des travaux sur des lignes ferroviaires. Le système de reconnaissance développé par Vecsys, en service depuis janvier 1997 sur la ligne Paris-Lille, est en cours de déploiement sur les autres régions.
Pour l’inspection des étages de la fusée ARIANE, l’Aérospatiale utilise un système de reconnaissance également de Vecsys, MARIE (Moyen d’aide à la réalisation des inspections étages). Ce système énumère vocalement chaque point de contrôle de la procédure à suivre lors de l’inspection et l’opérateur dont la vue est monopolisée par la détection d’anomalies, peut décrire oralement celles qu’il a repérées.
IV . 2. DOMOTIQUE : ASSISTANT DOMESTIQUE ÉLECTRONIQUE
Dans le domaine de la domotique, plusieurs systèmes de contrôle vocal d’environnement ont déjà été commercialisés, notamment aux États-Unis (tels HAL commercialisé par Cocoonz ou Butler-in-a-Box commercialisé par Mastervoice) afin d’effectuer certaines commandes simples d’appareils : réglage du chauffage, orientation des volets, etc. Ces systèmes lorsqu’ils seront couplés à des caméras de capture d’environnement devraient permettre d’offrir dans le futur des services variés d’assistance dans la vie quotidienne.
Dès à présent, de nombreux systèmes de ce type viennent en aide aux personnes souffrant d’un handicap moteur :
En France, le système NEMO (anciennement TETRAVOX), réalisé par Vecsys et commercialisé par Protéor depuis de très nombreuses années, permet aux tétraplégiques de contrôler par la voix les objets de leur environnement (télévision, volets, téléphone, etc.).
Le projet européen TIDE (Telematics for the Integration of Disabled and Elderly) HOME (Shao et al., 1998), vise à élaborer un dispositif de contrôle pour une grande variété d’appareils électroniques domestiques. Ce système est principalement destiné aux personnes âgées ou handicapées.
IV . 3. BUREAUTIQUE : SYSTÈMES DE DICTÉE OU D’ENTRÉE VOCALE DE TEXTES (EVT)
Outre le domaine du handicap moteur pour des personnes souffrant d’arthrose ou de TMS (Troubles Musculo-Squelettiques, suscités par des tâches répétitives, RSI en anglais pour Repetitive Strain Injury), l’une des premières applications de référence des systèmes de dictée à grands vocabulaires concernait le domaine médical. En effet, la constitution de rapports médicaux, notamment en radiologie, est une tâche facilement automatisable dans la mesure où ceux-ci sont en général des documents très structurés utilisant un vocabulaire prédéfini. Une autre raison pour une telle automatisation est que l’introduction de l’entrée vocale, tout en permettant de faciliter la tâche des secrétaires, ne constitue pas un changement dans les habitudes du médecin puisque la reconnaissance est couplée à un dictaphone déjà couramment utilisé.
Actuellement, des besoins similaires ont été identifiés dans les domaines juridique, bancaire ou dans celui des assurances pour lesquels la création de documents/rapports représente une activité importante.
Dès la fin des années 1980, on assiste à une certaine effervescence dans ce domaine avec plusieurs produits successivement commercialisés. Kurzweil AI a été dès 1986 la première compagnie à s’intéresser à ce marché avec le système Voice RAD (5 000 mots) en mode isolé, spécialisé pour la création de rapports de radiologie : ce système intégrait un dictaphone et, en option, une synthèse à partir du texte et une messagerie vocale. Plusieurs autres compagnies américaines qui poursuivaient des recherches dans le domaine depuis les années 1970, proposèrent rapidement des produits similaires dont Dragon Systems (Baker, 1975) et IBM (Jelinek, 1976).
Les années 1992-1993 furent particulièrement riches en événements : tout d’abord avec l’annonce par IBM en novembre 1992 de la commercialisation du Speech Server Series (de l’ordre de 24 000 mots), issu du prototype TANGORA conçu par l’équipe de F. Jelinek puis, en septembre 1993 avec la présentation à EUROSPEECH, du premier prototype fonctionnant en parole continue et en langue allemande, commercialisé par Philips (Aix-la-Chapelle). Le système développé pour un domaine médical spécifique, même s’il ne fonctionnait pas tout à fait en temps réel et nécessitait une carte ASIC spéciale, ne modifiait en rien les habitudes du médecin puisque celui-ci continuait à utiliser un dictaphone.
Les systèmes les plus récents tout en garantissant des performances accrues en termes de rapidité et de taux de réussite, ont eu pour principal objectif d’alléger les contraintes imposées à l’utilisateur : il n’est plus nécessaire pour le locuteur de respecter une courte pause entre chaque mot ce qui représentait un exercice difficile notamment en raison des liaisons entre mots et des apostrophes (pour la langue française). Le temps d’apprentissage se réduit maintenant à quelques dizaines de minutes au lieu d’une heure auparavant. Le vocabulaire, facilement modifiable, est pratiquement illimité. À partir de corpus textuels de domaines différents, il est possible de créer très rapidement plusieurs modèles de langage : pour l’établissement des rapports médicaux, pour la correspondance domestique, pour les comptes rendus de réunions, etc. Si les rapports suivent un schéma préétabli, en radiologie par exemple, la prononciation des seuls mots cœur, poumons et normal peut être suffisante pour produire la phrase le cœur et les poumons produisent une image normale. Un éditeur de texte associé au système de reconnaissance permet également de corriger rapidement de manière interactive le mot mal reconnu à l’aide d’un menu proposant d’autres candidats possibles. Enfin, le retour, visuel normalement, peut être doublé d’une synthèse vocale pour une vérification auditive rapide du texte qui vient d’être dicté.
En outre, le nombre de langues traitées est en constante augmentation : le système d’IBM (Derouault et al., 1993) déjà disponible en français, italien, espagnol, allemand, anglais-britannique, anglais-américain, l’est depuis 1995 en arabe, japonais, coréen et chinois (mandarin).
Enfin suivant l’évolution de l’informatique, les systèmes proposés se présentent dorénavant sous forme entièrement logicielle, ne nécessitant plus de processeurs spécialisés, et sont directement compatibles avec les systèmes d’exploitation standards des PCs. Dans certains cas (IBM, Microsoft, etc.), il est possible de télécharger des versions gratuites à partir de pages de la Toile. Ces versions sont disponibles avec un ensemble d’outils de développement qui facilite leur intégration dans des applications autres que celles de la dictée.
IV . 4. FORMATION
L’enseignement assisté par ordinateur et notamment les systèmes d’aide à l’apprentissage des langues permettant d’acquérir une maîtrise du vocabulaire et de la syntaxe, ne peuvent que bénéficier des technologies vocales, dans la mesure où elles facilitent la répétition des exercices tout en offrant un aspect ludique. Par ailleurs, comme pour le contrôle de l’environnement, les technologies vocales peuvent apporter une certaine autonomie aux personnes handicapées et leur permettre de bénéficier d’une meilleure insertion dans leur environnement tant professionnel que familial.
IV . 4 . A. Apprentissage des langues
Parmi les nombreuses études et réalisations en ce domaine, on peut citer à titre d’exemple le système opérationnel utilisé depuis plusieurs années en France à la SNCF par des conducteurs d’Eurostar, pour se familiariser avec les procédures d’urgence nécessitant de dialoguer en anglais avec les agents au sol. Ce système, développé par Cap-Gemini-Innovation et Vecsys, leur permet d’améliorer la qualité de leur prononciation tout en évaluant leur capacité à comprendre l’anglais affecté de différents accents ou parlé dans des conditions dégradées.
Un autre projet aux États-Unis, dans le cadre de la lutte contre l’analphabétisme, a pour objectif de guider les enfants dans la pratique de la lecture. Ce système LISTEN (Mostow & Aist, 1999), qui intègre l’algorithme de reconnaissance de la parole SPHINX-II développé à CMU agit comme un professeur (Reading Tutor) et intervient dès que sont détectées des erreurs de prononciation ou des hésitations. Le prototype est testé dans plusieurs classes élémentaires depuis 1997. Les résultats des études comparatives montrent l’intérêt d’une telle approche par rapport aux méthodes classiques, notamment en ce qui concerne la rapidité d’acquisition des rudiments de la lecture et de la compréhension (LISTEN, 2000).
Il importe également de citer le domaine de la formation des contrôleurs aériens. Un grand intérêt a été montré, à la fin des années 1980 et au début des années 1990, pour des systèmes d’aide permettant au contrôleur aérien d’acquérir une meilleure connaissance de la phraséologie, langage opératif spécialisé non ambigu, qu’il utilise couramment dans ses communications avec les pilotes. L’intérêt des technologies vocales était de placer pendant sa formation le contrôleur dans des conditions proches de la situation opérationnelle. Plusieurs projets analogues ont alors été menés en France, en Angleterre, en Allemagne et aux États-Unis. Un prototype industriel a été réalisé en 1993 en France conjointement par le CENA (Centre d’études de navigation aérienne, le LIMSI-CNRS, Stéria Ingénierie et Télécom, Sextant-Avionique et Vecsys) (Marque, Bennacef, Néel & Trinh, 1993) ; ce prototype a ensuite été évalué par des contrôleurs aux aéroports d’Orly et de Roissy, ainsi que par des élèves-contrôleurs à l’ENAC (École nationale de l’aviation civile de Toulouse). En Angleterre, Airliner a récemment mis en place une cinquantaine de postes utilisant des cartes de Vecsys pour une application similaire.
Dans ce dernier domaine, des études toujours très actives en Europe et aux États-Unis sont envisagées pour combiner la parole avec d’autres modes de communication, non seulement dans le cadre de la formation des contrôleurs, mais également pour améliorer le poste de travail du contrôleur en situation opérationnelle.
IV . 4 . B. Aide au handicap
Les réalisations les plus anciennes dans le domaine de la formation concernent les aides au handicap. Différents programmes européens (TIDE, etc.) ont permis de mieux cerner les différents types de handicap dont souffre la population, ainsi que le nombre de personnes concernées.
Dans certains cas, les techniques d’analyse du signal de parole sont utilisées pour détecter et quantifier les pathologies de la voix. La rééducation de la voix par les orthophonistes s’apparente à l’apprentissage d’une langue étrangère. IBM a développé depuis de nombreuses années un système interactif, Speech-Viewer III, permettant aux enfants malentendants de mieux contrôler la hauteur et l’intensité de leur voix. Ces mêmes techniques sont également mises à profit pour adapter les prothèses auditives ou implants cochléaires des malentendants à leur pathologie (à l’hôpital Saint-Antoine, en France, par exemple).
Dans d’autres cas, la reconnaissance vocale ou la synthèse permet de se substituer au sens défaillant. La synthèse vocale peut être utilisée comme prothèse vocale par les IMC (Infirmes moteurs-cérébraux) ou plus généralement par les personnes atteintes de myopathies (par exemple, le système d’Infovox-Telia).
Quand la vue fait défaut, la parole peut à la fois remplacer le mode de désignation de la souris et être utilisée pour décrire les représentations graphiques (icônes, graphiques, images, etc.). C’est ainsi que le prototype Méditor (intégrant une carte de reconnaissance de Vecsys et la synthèse d’Élan), développé en 1994 visait à offrir aux jeunes aveugles un accès facilité à l’ordinateur pour des tâches d’édition et de consultation de documents, la synthèse vocale indiquant les attributs typographiques du texte indiscernables en Braille (police, gras, souligné, majuscule, couleur, etc.) ou énonçant des notes de bas de page, et la commande vocale permettant aisément de modifier le texte (pour des opérations d’insertion, de suppression ou de modification des attributs typographiques) (Bellik, 1997). L’extension d’un tel système à l’enseignement du français et à la lecture des pages de la Toile pour les aveugles est à l’étude (Farhat & Bellik, 1999). Des projets similaires sont notamment poursuivis à l’IRIT tels que SMART (Vigouroux, Seiler, Oriola & Truillet, 1995) qui facilitent pour les non-voyants la consultation vocale de documents structurés : des tests en 1996 ont montré que l’ajout de la parole permettait aux utilisateurs de réaliser la tâche imposée plus rapidement. Il convient de citer également les travaux menés par Burger (Burger, 1996) pour faciliter l’accès des aveugles à Internet.
IV . 5. TRADUCTION AUTOMATIQUE
Des projets à plus long terme sont liés au domaine de la traduction automatique. L’un des plus ambitieux programmes dans ce domaine a été lancé par ATR au Japon dès 1986 (Fujisaki, 1987) : l’objectif était de réaliser un système de dialogue interprétatif, permettant à une personne de converser de façon spontanée par téléphone avec un interlocuteur ne parlant pas la même langue : le message de cette personne serait automatiquement traduit dans la langue de son interlocuteur avec une voix conservant toutes les caractéristiques du timbre de la voix qui a émis le message (Black & Campbell, 1995). Des prototypes proposant certaines des fonctions envisagées ont été réalisés. Le projet international C-STAR-I/II (C.STAR, 2000) (Boitet et al., 1998) rassemble actuellement autour d’ATR un consortium plus vaste faisant intervenir des équipes américaines et européennes : CMU (États-Unis), l’Université de Karlsruhe (Allemagne), ETRI (Corée), le CLIPS/IMAG (Grenoble, France), IRST (Italie). Un démonstrateur de traduction automatique intégrant reconnaissance et synthèse vocales a été présenté en 1999.
Un programme tout aussi ambitieux fut le programme national allemand Verbmobil de traduction vocale en face à face (Reithinger, Maier & Alexandersson, 1995) qui a duré plus de sept ans (1993-2000) et permis de fédérer près d’une trentaine d’organismes universitaires et industriels : l’objectif était que le système puisse se substituer à tout moment à un locuteur, lorsque celui-ci est incapable de traduire certains mots de son message en langue anglaise et peut même être obligé de recourir à l’épellation des mots dans sa propre langue (Hild & Waibel, 1995). Quelle que soit la langue parlée (japonais ou allemand), la langue cible était toujours l’anglais. Le système devait être capable de reconnaître un langage spontané d’environ 2 500 mots avec un microphone de proximité.
L’utilisation croissante de tels systèmes est encore lointaine dans la mesure où, contrairement aux tâches de dictée et de traduction directe, un étage de compréhension de la parole et un suivi du dialogue en cours sont également nécessaires (Alexandersson, 1996). Outre la difficulté inhérente à chacune de ces opérations, un effet cumulatif des erreurs (reconnaissance, compréhension, traduction) est inévitable.
Cependant, la prise de conscience au niveau européen de l’enjeu économique que représentent les industries linguistiques qui peuvent contribuer à garantir un espace de communication multilingue, ne peut que favoriser le développement de telles applications, même si elles ne concernent qu’un domaine sémantique restreint. Les nouveaux programmes internationaux réservent à cet égard une place importante à la création d’infrastructures pour la diffusion de ressources multilingues et la mise au point d’outils linguistiques avancés d’aide à la traduction (orale/écrite).
V. DOMAINES D’APPLICATION AVEC INTERACTION MULTIMODALE
Lorsqu’on observe un sujet en train de parler, la parole apparaît intimement liée aux autres modes, notamment aux gestes de la main, aux mimiques du visage, etc. La communication humaine fait ainsi appel à l’ensemble des modes de perception et de production, même si la parole reste le plus souvent le mode dominant : la compréhension correcte d’un message est dépendante, par exemple, de la cohérence entre les perceptions visuelle et auditive (Benoît, Mohamadi & Kandel, 1996). C’est pourquoi, depuis plus d’une dizaine d’années, les recherches visent à intégrer de façon optimale la parole avec d’autres modes, dans plusieurs applications plutôt destinées au grand public.
Par ailleurs, certaines des applications déjà citées dans la section 4 devront être inévitablement étendues à un contexte multimodal : par exemple, pour le contrôle de l’environnement, la reconnaissance de la parole sera associée à la capture de mouvement (geste, regard) et de position pour des commandes à distance ; ou encore dans le cas de la formation, la multimodalité en sortie permettra d’avoir des documents plus attractifs.
V . 1. BORNES INTERACTIVES
Des études sur l’interaction multimodale visent à offrir à la clientèle des services analogues à ceux déjà accessibles grâce aux serveurs vocaux. Ces services concernent notamment les renseignements sur les horaires de train, d’avions ou de bateaux et la prise de réservations : de nombreux serveurs sont en fonctionnement, tels ceux issus des projets européens Railtel (Bennacef, Devillers, Rosset & Lamel, 1996 ; Billi & Lamel, 1997) et ARISE (Automatic Railway Information System for Europe) (Blasband, 1998). Les bornes interactives n’utilisant actuellement que le mode tactile, l’adjonction de la parole permettrait d’améliorer grandement la rapidité et le naturel de l’interaction : la taille du vocabulaire accessible directement, notamment en ce qui concerne les noms des gares, peut être facilement augmentée et ceci évite d’avoir à parcourir une fastidieuse arborescence à partir d’un écran tactile.
Dans le cadre du projet ESPRIT MASK (Multimodal Multimedia Service Kiosk) (Minker & Bennacef, 2000). Un premier prototype a été utilisé en septembre 1995 pour enregistrer une base de données de langue française (Lamel et al., 1995) comparable à celle d’ATIS (en langue anglaise pour les renseignements sur les avions). Des tests avec le grand public (plus de 200 personnes) ont montré l’intérêt de l’ajout de la parole par rapport au mode traditionnel de l’écran tactile : il est en effet possible de préciser la requête en donnant dans un seul message l’ensemble des informations nécessaires (Temem, Lamel & Gauvain, 1999). On constate des résultats analogues avec les serveurs vocaux issus d’ARISE (Philips, Cselt, etc.), le dialogue étant en moyenne trois fois plus rapide (quarante secondes au lieu de deux minutes) avec la parole qu’avec des commandes DTMF (Dual Tone Multi-Frequency) (Bloothooft, 1998).
Un autre projet analogue, le prototype WAXHOLM d’interrogation des heures de bateaux (Bertenstam et al., 1995) vise à proposer une interaction multimodale intégrant parole et graphique. La synthèse vocale à partir du texte est complétée par la synthèse d’un visage parlant qui, grâce à la synchronisation du mouvement des lèvres et de la direction du regard avec le message vocal, permet de désigner la fenêtre de l’écran la plus pertinente.
Le nouveau programme DARPA Communicator se présente comme une extension d’ATIS, englobant l’interaction multimodale et s’appuyant sur une architecture multi-agent. L’objectif est de proposer une nouvelle génération d’interfaces conversationnelles dans lesquels la parole est secondée du geste de désignation pour l’entrée des informations, le graphique sous forme de cartes géographiques venant compléter en sortie la synthèse vocale. Il s’agit de permettre l’accès aux bases de données à partir de matériels hétérogènes (PDA, téléphone, etc.) et de faciliter simultanément la communication avec plusieurs utilisateurs. Les informations disponibles sont plus riches que dans le cas d’ATIS et incluent, outre les horaires d’avion, des informations touristiques ou météorologiques. Plusieurs laboratoires de recherche participent à ce programme : parmi ceux-ci, MITRE, CMU, MIT, BBN, IBM, Microsoft et SRI. Plusieurs démonstrateurs sont actuellement en cours de développement, intégrant les systèmes de reconnaissance développés dans ces laboratoires : par exemple, Sphinx-II, associé à l’analyseur sémantique Phoenix du CMU (Rudnicky et al., 1999), ou encore Galaxy du MIT (Goddeau et al., 1994).
V . 2. APPLICATIONS EMBARQUÉES
À bord d’automobile comme à bord d’avion, les tâches étant complexes et le tableau de bord réduit ou encombré, la parole permet au conducteur ou au pilote d’avoir à sa disposition un moyen supplémentaire d’interaction avec la machine, sans cependant gêner l’accomplissement des tâches courantes qui requièrent de sa part toute son attention visuelle. En voiture, les infrastructures nouvelles de communication par satellite pour la transmission à haut débit d’images et de sons, la norme européenne de téléphone mobile GSM et le système GPS de positionnement du véhicule, offrent au conducteur une connaissance dynamique de l’évolution de la circulation et de la météorologie : elles lui permettent non seulement d’établir la planification de son itinéraire et d’être guidé par des messages vocaux, mais encore, lorsque la voiture est à l’arrêt, d’accéder à des bases de données touristiques et à des services variés.
V . 2 . A. Aide à la navigation à bord d’automobile
Ces systèmes s’appuyant sur la mise en place des réseaux de radiodiffusion RDS-TMC (Radio Data System-Traffic Message Channel) et plus récemment des réseaux GTTS (Global Transport Telematic System, intégrant GPS, GSM et Internet) font l’objet de plusieurs projets nationaux et européens. Le produit CARIN (Cardeilhac & Palisson, 1995), développé par Philips doit s’adresser à terme aussi bien à des professionnels (routiers) qu’au grand public. La synthèse de haute qualité multilingue (Van Coile et al., 1997) (français, anglais, allemand et hollandais) permet de dispenser à bord du véhicule des informations par radio sur l’état des routes : le message étant transmis sous une forme codifiée facilement reconstituable dans une langue donnée, le système a été conçu de façon à garantir une indépendance par rapport à la langue, une carte à puce autorisant la sélection des informations dans la langue du conducteur, quel que soit le pays traversé. Un service régulier de diffusion TMC pour la langue allemande a été mis en place en Allemagne en 1997 et devait être étendu à d’autres pays et d’autres langues. Le système utilise de la synthèse à partir du texte pour la diffusion des messages, afin de garantir un encombrement mémoire réduit et une certaine flexibilité pour toute modification ultérieure.
Les premières évaluations en simulation n’ont montré encore qu’un intérêt mitigé pour la parole : la sécurité du conducteur étant primordiale, il est impératif que l’interaction vocale soit réduite à des messages brefs et synthétiques aussi bien en entrée qu’en sortie. Par ailleurs, la parole pourrait favorablement être complétée par la détection de gestes pendant la conduite. Dans ce but, des études linguistiques et cognitives sur la communication multimodale (parole et geste) ont été entreprises, à partir d’enregistrements de dialogues entre pilote et copilote humains à bord de voiture, afin de modéliser les différentes connaissances requises et d’identifier une typologie des concepts utilisés (Briffault & Denis, 1996). Plus généralement, des études psycholinguistiques sont en cours afin d’étudier la correspondance entre l’image mentale qu’une personne humaine se crée d’un itinéraire dans un environnement urbain complexe et sa description langagière, ceci afin d’améliorer les systèmes de guidage à distance (Daniel & Denis, 1998).
À l’arrêt du véhicule, des fonctions plus complexes d’accès aux informations touristiques ou de guidage à distance requièrent une interaction multimodale incluant la parole.
V . 2 . B. Avionique
Depuis le début des années 1980, les études menées dans un domaine similaire par Sextant-Avionique en France (système TOP-VOICE) (Pastor & Gulli, 1993), par Marconi et Smith Industries en Angleterre et en Allemagne (système CASSY) (Gerlach & Onken, 1993) visent à rendre les systèmes de reconnaissance plus robustes aux bruits (moteur d’avion, masque à oxygène, etc.) et aux effets sur la voix du facteur d’accélération de la pesanteur. Comme pour la reconnaissance à bord d’automobile, des études complémentaires sur la prise de son (type et emplacement du microphone dans le masque à oxygène, par exemple) demeurent indispensables. Malgré de nombreuses expérimentations, aucun système n’est encore opérationnel, même si la reconnaissance de parole reste prévue à bord du Rafale et pourrait être combinée avec une interaction tactile.
V . 3. COMMUNICATION HOMME-HOMME MÉDIATISÉE
Dans le cadre du programme ESPRIT LTR I3 (Intelligent Information Interfaces), l’un des projets Magic Lounge avait pour objectif d’offrir à des utilisateurs non professionnels un espace de communication collective et multimodale (Bernsen et al., 1998). L’une des activités de référence initialement prévue était de permettre à des participants, distants géographiquement, d’élaborer un voyage en commun. La coordination du projet était assurée par le DFKI de Saarbrücken (Allemagne) ; les autres participants étaient le LIMSI-CNRS et l’Université de Compiègne (France), Siemens (Allemagne), le NIS et l’Association Bank of Ideas of the Smaller Danish Isles (Danemark), les membres de cette association constituant une communauté d’utilisateurs potentiels. Les participants devaient pouvoir communiquer quelle que soit l’hétérogénéité du matériel (téléphone mobile, PDA ou station multimédia à haute définition, par exemple), tout en ayant accès aux services disponibles localement ou sur Internet.
L’étude s’est focalisée, pour la dernière phase du projet, sur la structuration automatique ou semi-automatique d’une mémoire collective construite au cours des interactions lors de réunions successives (Rist et al., 1998), l’objectif étant de permettre à une personne absente ou retardée, d’être informée des informations échangées et éventuellement des décisions prises. À plus long terme, l’objectif pourrait être d’extraire automatiquement des communications l’information pertinente, ce qui nécessiterait de combiner des méthodes de reconnaissance de parole spontanée, de suivi des phases de dialogue et de résumé automatique. Une autre perspective serait d’intégrer les études sur l’interrogation orale et gestuelle de bases d’informations graphiques et de prévoir une conversion des données d’un mode dans un autre pour permettre par exemple à un partenaire n’ayant qu’un téléphone portable d’avoir une description langagière du graphique affiché sur l’écran à haute définition d’un autre participant à la réunion. Les aspects socio-économiques suscités par ces nouveaux modes de communication sont déterminants.
Un nouveau projet allemand SmartKom (Wahlster, Reithinger & Blocher, 2001), considéré pour certains aspects comme une continuation de Verbmobil, a été lancé fin 1999 pour une durée de quatre années. Ce projet a pour objectif de tester de nouveaux concepts d’interaction Homme-Machine. Il s’agit de réduire les préjugés que peuvent ressentir des novices à l’égard de tout ce qui traite des technologies de l’information. L’interface doit en conséquence être adaptative et auto explicative. Pour atteindre cet objectif, SmartKom cherche à combiner les avantages de la communication langagière avec ceux d’une interface graphique et de la communication gestuelle. Le projet propose trois scénarios, pour différents domaines d’application : SmartKom Home/Office (pour une utilisation dans un environnement privé), SmartKom Public (pour une utilisation dans une cabine téléphonique simulée) et, finalement, SmartKom Mobil (pour une utilisation dans un environnement mobile – voiture/piéton). Les applications sont (selon le scénario) : gestion des carnets d’adresses personnelles, accès aux services d’informations (météo, horaires), spectacles, réservation d’hôtels, téléphonie, gestion des documents, Internet, commandes d’appareils domestiques (Hifi, TV, magnétoscope, éclairage, etc.).
V . 4. INDEXATION AUTOMATIQUE DE DOCUMENTS AUDIO/VIDÉO
Un domaine connexe dans lequel les méthodes de traitement automatique de la parole sont mises à contribution pour permettre un meilleur accès aux informations contenues dans les documents audio/vidéo est traité dans le programme DARPA Broadcast News Transcription and Understanding TDT (Topic Detection and Tracking). Ce domaine très actif actuellement a donné lieu à plusieurs projets et réalisations : le système Broadcast News Navigator (BNN) du MITRE (Maybury, 1999), le projet européen OLIVE (de Jong et al., 1999) (Gauvain, Lamel & Adda, 2000), le système MAESTRO du SRI (SRI, 2000), le système Rough’n’Ready de BBN (Kubala et al., 2000), entre autres. Ces projets transdisciplinaires font appel aussi bien au Traitement de la parole qu’à des techniques d’intelligence artificielle (résumé automatique, extraction des connaissances sémantiques) et de Traitement d’image. L’objectif commun de ces différents projets est d’offrir un outil automatique d’indexation et d’interrogation de bases de données audiovisuelles, issues notamment d’émissions de Journaux télévisés ou de pages de la Toile. L’indexation se fait aussi bien sur des silences et des mots-clés (thèmes, noms propres, etc.) détectés dans le flot de parole continue (noyé lui-même éventuellement dans un fond sonore) que sur l’identification de visages ou de changements de plan. Ces projets se différencient par les techniques utilisées et notamment le système de reconnaissance intégré.
Il est difficile de prédire ce que sera la place exacte de la parole dans la Communication Homme-Machine future. À cet égard, on peut se demander pourquoi des gadgets tels que, par exemple, la montre Voice Master VX-2 avec reconnaissance et synthèse vocales commercialisée dès 1987 au Japon, n’ont jamais eu le succès escompté. Dans les années 1980, l’idéal semblait être de remplacer tout mode de communication par la parole, excluant tous les autres. Dorénavant, l’interface uniquement vocale n’est plus un objectif prioritaire, un clavier restreint restant le plus efficace dans nombre de situations. La parole constitue plutôt une alternative aux modes traditionnels de communication avec la machine, notamment lorsque, en raison d’un handicap permanent ou temporaire, les autres modes s’avèrent impossibles. C’est ainsi que les interfaces vocales jusqu’alors confinées au milieu professionnel, notamment pour la dictée automatique ou des tâches d’inspection et de contrôle de processus, pénètrent des domaines d’activité de la vie de tous les jours : les serveurs d’information interactifs vocaux, l’aide à la navigation à bord de voiture et l’aide à la formation, désormais en expansion constante, en sont les exemples les plus concrets.
Par ailleurs, on commence à prendre en considération la complémentarité de la parole avec d’autres modes de perception ou de production (gestuel ou tactile, notamment). Ceci impose une conception radicalement différente des systèmes afin d’en permettre une intégration efficace. La communication par la parole se situe alors dans un vaste contexte d’informatisation nomade où une architecture généralisée multi-agents devrait permettre d’offrir les mêmes services à l’usager qu’il soit en voiture, à pied, dans sa maison ou à son bureau. Cette tendance est déjà présente dans les programmes et projets récents, tels que Verbmobil, Magic Lounge, SmartKom, Communicator, etc. Une interaction riche multimodale incluant la parole devient en effet nécessaire pour répondre aux différentes situations. On peut imaginer l’Homme du futur contrôlant directement ou à distance son environnement à l’aide d’un téléordinateur de poche ou vestimentaire (incorporé dans les vêtements) qui combine réalité virtuelle, détection de gestes de désignation et reconnaissance de la parole pour accéder aux bases d’informations réparties dans le monde. L’interface vocale devient d’autant plus nécessaire que la taille de l’équipement portable est réduite. La parole représente également un atout dans la mesure où elle permet une personnalisation de l’interface en fonction des préférences de chacun.
Un autre domaine connexe à la Communication Homme-Machine, tout aussi prometteur, concerne celui de l’enregistrement et de la retranscription immédiate de (télé-)conférences et de débats (et donc de parole spontanée). Cette retranscription permettra de structurer la mémoire collective des interactions à distance ou d’indexer automatiquement les documents multimédias pour en faciliter la consultation. Dans ce cas, la machine n’est plus l’interlocuteur privilégié, mais apparaît plutôt comme un participant en retrait par rapport à la communication interhumaine, chargé d’en améliorer l’efficacité. Ce domaine suscite actuellement plusieurs projets américains et européens.
Pour une telle utilisation généralisée des technologies vocales, des difficultés de différents ordres subsistent encore. Outre le choix d’une architecture logicielle adaptée, il s’agit de focaliser les études sur les niveaux supérieurs de la compréhension, la reconnaissance vocale ayant atteint un degré de fiabilité satisfaisant, même dans des conditions difficiles. La communication vocale en effet ne se réduit pas au seul comptage de mots correctement reconnus, il convient de prendre en compte les aspects sémantique et pragmatique. L’effort entrepris au niveau international par la communauté scientifique pour se doter d’outils et de méthodologies d’évaluation s’est étendu aux systèmes linguistiques dans leur ensemble, mais également plus récemment aux interfaces multimodales (projets ISLE, Communicator). Cet effort doit s’accompagner d’études socio-économiques afin de mieux cerner les besoins réels des usagers dans des situations réalistes et de ne pas leur imposer des systèmes complexes inadaptés.
Manuscrit reçu : mai 2001.
Accepté par R. Amalberti après révision : février 2002.
·
Alexandersson, J. (1996). Some ideas for the automatic acquisition of dialogue structure. Paper presented at the 11th Twente Workshop on Language Technology. Twente, The Netherlands, June.
·
Baker, J. K. (1975). The DRAGON system – An overview. IEEE Transactions on ASSP, 23, 24-29.
·
Baker, J. M. (1993). Using speech recognition for dictation and other large vocabulary applications. Paper presented at the Joint ESCA-NATO/RSG.10 Tutorial and Research Workshop on Applications of Speech Technology. Lautrach, G, Sept.
·
Bellik, Y. (1997). Multimodal text editor interface including speech for the blind. Speech Communication, 23, 319-332.
·
Bennacef, S., Devillers, L., Rosset, S., & Lamel, L. (1996). Dialog in the RailTel telephone-based system. Paper presented at the International Conference on Speech and Language Processing. Philadelphia, PA, Oct.
·
Benoît, C., Mohamadi, T., & Kandel, S. D. (1996). Effects of phonetic context on audio-visual intelligibility of French. Journal of Speech and Hearing Research, 37, 1195-1203.
·
Bernsen, N. O., Rist, T., Martin, J.-C., Hauck, C., Boullier, D., Briffault, X., Dybkjaer, L., Henry, C., Massoodian, M., Néel, F., Profitlich, H. J., André, E., Schweitzer, J., & Vapillon, J. (1998). Magic Lounge : A thematic inhabited information space with intelligent communication services. Paper presented at the International Conference on Complex Systems, Intelligent Systems & Interfaces. Nîmes, F, May.
·
Bertenstam, J., Beskow, J., Blomberg, M., Carlson, R., Elenius, K., Granström, B., Gustafson, J., Hunnicutt, S., Högberg, J., Lindell, R., Neovius, L., Nord, L., de Serpa-Leitao, A., & Ström, N. (1995). The Waxholm system – a progress report. Paper presented at the ESCA Workshop on Spoken Dialogue Systems. Nîmes, F, May.
·
Billi, R., & Lamel, L. (1997). RailTel : Railway telephone services. Speech Communication, 23, 63-65.
·
Black, A. W., & Campbell, N. (1995). Predicting the intonation of discourse segments from examples in dialogue speech. ESCA Workshop on Spoken Dialogue Systems, 1, 197-200.
·
Blasband, M. (1998). Speech recognition in practice. International Conference Nîmes on Complex Systems, Intelligent Systems & Interfaces, 1, 207-210.
·
Bloothooft, G. (1998). Spoken dialogue systems. Elsnews, 7, 10.
·
Boitet, C., Caelen, J., Fafiotte, G., Keller, E., Lafourcade, M., & Wehrli, E. (1998). Integrating French within C-STAR II. (Rapport du groupe CLIPS). Grenoble : Institut d’informatique et de mathématiques appliquées de Grenoble.
·
Briffault, X., & Denis, M. (1996). Multimodal interactions between drivers and co-drivers : an analysis of on-board navigational dailogues. Paper presented at the 12th European Conference on Artificial Intelligence, 2nd Workshop on Representation & Processing of Spatial Expressions. Budapest, Hungary, Aug.
·
Burger, D. (1996). New Technologies in the Education of the Visually Handicapped. Montrouge : John Libbey Eurotext.
·
Caelen, J., & Coutaz, J. (1991). Interaction homme-machine multimodale : problèmes généraux. Communication présentée aux IIIe Journées sur l’Ingénierie des interfaces homme-machine. Dourdan, F, Déc.
·
Cardeilhac, F., & Palisson, F. (1995). Système de navigation CARIN. Communication présentée au salon SIA/FIEV/EQUIP’AUTO. Paris, F, Oct.
·
Chapanis, A. (1979). Interactive communication : a few research answers for a technological explosion. Communication présentée au cours de la CEE. Orsay, F, Avril.
·
Chibout, K., Mariani, J. J., Masson, N., & Néel, F. (Eds.). (1999). Ressources et évaluation en ingénierie de la langue. Paris : AUF/De Boek.
·
Chinnock, C., Calkins, D., Covin, C., Friel, K., Jenkins, M., & Newman, E. (1996). Hands-free mobile computing : A new paradigm. Communication présentée aux Ve Journées internationales. Montpellier, F, May.
·
Daniel, M.-P., & Denis, M. (1998). Spatial descriptions as navigational aids : A cognitive analysis of route directions. Kognitionswissenschaft, 7, 45-52.
·
Derouault, A. M., Keppel, E., Fusi, S., Marcadet, J. C., & Janke, E. (1993). The IBM speech server series and its applications in Europe. Paper presented at the Tutorial and Research Workshop on Applications of Speech Technology. Lautrach, G, Sept.
·
Dolmazon, J.-M., Cervantes, O., & Sérignat, J.-F. (1988). Les bases de données de sons du français. Communication présentée à Premières journées nationales du GRECO-PRC Communication homme-machine, parole, langage naturel et vision. Paris, F, Nov.
·
Farhat, S., & Bellik, Y. (1999). See Web : Dynamic improvement of the accessibility of HTML documents for blind persons. Communication présentée à 7th IFIP Conference on Human-Computer Interaction (INTERACT). Edinburg, Scotland, Aug.
·
Fujisaki, H. (1987). Overview of the Japanese national project on advanced man-machine interface through spoken language. Paper presented at the European Conference on Speech Communication and Technology. Edinburg, Sept.
·
Gagnoulet, C., & Sorin, C. (1993). CNET Speech recognition and text-to-speech for telecommunications applications. Paper presented at the Tutorial and Research Workshop on Applications of Speech Technology. Lautrach, G, Sept.
·
Gauvain, J. L., Lamel, L., & Adda, G. (2000). Transcribing broadcast news for audio and video indexing. Communications of the ACM, 43, 64-70.
·
Gerlach, M., & Onken, R. (1993). Speech input/output as interface devices for communication between aircraft pilots and the pilot assistant system Cassy. Paper presented at the Tutorial and Research Workshop on Applications of Speech Technology. Lautrach, G, Sept.
·
Goddeau, D., Brill, E., Glass, J., Pao, C., Phillips, M., Polifroni, J., Seneff, S., & Zue, V. (1994). Galaxy : A human-language interface to on-line travel information. Paper presented at the International Conference on Speech and Language Processing. Yokohama, Japan, Sept.
·
Hild, H., & Waibel A. (1995). Integrating spelling into spoken dialogue recognition. Paper presented at the European Conference on Speech Communication and Technology. Genova, I, Sept.
·
Hunt, M. J. (1996). Reconnaissance de parole pour le poste de travail. Les entretiens de la technologie. Paris, 1/13-13/13.
·
Hunt M. J. (1998). Practical automatic dictation systems. The ELRA Newsletter, 3, 4-7.
·
Jelinek, F. (1976). Continuous speech recognition by statistical methods. IEEE 64, 532-556.
·
De Jong, F., Gauvain, J. L., den Hartog, J., & Netter, K. (1999). Olive : speech based video retrieval. Communication présentée à European Workshop on Content-Based Multimedia Indexing. Toulouse, F, Oct.
·
Kubala, F., Colbath, S., Liu, D., Srivastava, A., & Makhoul, J. (2000). Integrated technologies for indexing : Spoken language. Communications of the ACM, 43, 48-56.
·
Lamel, L., Gauvain, J. L., & Eskénazi, M. (1991). BREF, a large vocabulary spoken corpus for French. Paper presented at the European Conference on Speech Communication and Technology. Genova, I, Sept.
·
Lamel, L., Rosset, S., Bennacef, S., Bonneau-Maynard, H., Devillers, L., & Gauvain, J. L. (1995). Development of spoken language corpora for travel information. Paper presented at the 3rd IEEE Workshop on Interactive Voice Technology for Telecommunications Applications (IVTTA). Basking Ridge, USA, Oct.
·
Lea, W. A. (1980). Trends in Speech Recognition. Boston : Prentice-Hall Inc.
·
Lévy-Schoen, A. (1969). L’étude des mouvements oculaires. Paris : Dunod.
·
Liénard, J. S. (1977). Les processus de la communication parlée. Paris : Masson.
·
LISTEN. (2000). http:// www. cs. cmu. edu/ listen/ .
·
Mariani, J. (1990). Reconnaissance automatique de la parole : progrès et tendances. Journal du Traitement du signal, 7, 239-266.
·
Mariani, J. (1993). Overview of the Cocosda initiative. Paper presented at the Workshop of the International Coordinating Committee on Speech Databases and Speech I/O System Assessment. Berlin, G, Sept.
·
Marque, F., Bennacef, S., Néel, F., & Trinh, F. (1993). PAROLE : A vocal dialogue system for air traffic control training. Paper presented at the Tutorial and Research Workshop on Applications of Speech Technology. Lautrach, Sept.
·
Maybury, M. (1999). Multimedia interaction for the new millenium. Paper presented at the European Conference on Speech Communication and Technology. Budapest, H, Sept.
·
Minker, W., & Bennacef, S. (2000). Parole et dialogue homme-machine. Collection sciences et techniques de l’ingénieur. Paris : CNRS Éditions & Éditions Eyrolles.
·
Morel, A. M. (1988). Analyse linguistique d’un corpus de dialogues homme-machine : t. I. Premier corpus : Centre de renseignements SNCF à Paris. Paris : Presses de la Sorbonne-Nouvelle.
·
Mostow, J., & Aist, G. (1999). Giving help and praise in a reading tutor with imperfect listening – because automated speech recognition means never Being Able to say you’re certain. CALICO Journal, 16, 407-424.
·
Néel, F., Chollet, G., Lamel, L., Minker, W., & Constantinescu, A. (1996). Reconnaissance et compréhension de la parole : Évaluation et applications. In H. Méloni (Éd.), Fondements et perspectives en traitement automatique de la parole (pp. 331-367). Paris : AUF/De Boek.
·
Néel, F., & Minker, W. (1999). Multimodal speech systems. In K. M. Ponting (Éd.), Computational Models of Speech Pattern Processing (pp. 404-430). Berlin : Springer-Verlag.
·
Pallett, D. S. (1990). Issues in Spoken Language System Performance Assessment in the United States. Paper presented at the International Symposium on International Coordination and Standardization of Speech Databases and Assessment Techniques for Speech Input/Output. Kobe, Japan, Nov.
·
Pastor, D., & Gulli, C. (1993). DIVA (Dialogue vocal pour aéronef) Performances in simulated aircraft cockpit. Paper presented at the Tutorial and Research Workshop on Applications of Speech Technology. Lautrach, Sept.
·
Reithinger, N., Maier, E., & Alexandersson, J. (1995). Treatment of incomplete dialogues in a speech-to-speech translation system. Paper presented at the ESCA Workshop on Spoken Dialogue Systems. Vigo, Denmark, May.
·
Rist, T., Zimmermann, D., Martin, J.-C., Néel, F., & Vapillon, J. (1998). Virtual meeting places with intelligent memory functions. Communication présentée au 7e Atelier du Travail humain sur La conception de mémoires collectives. Paris, F, Sept.
·
Rudnicky, A. I., Thayer, E., Constantinides, P., Tchou, C., Shern, R., Lenzo, K., Xu, W., & Oh, A. (1999). In G. Gordas (ed.), Proceding of the European Conference on Speech Communication and Technology (EUROSPEECH) (pp. 1531-1534). Budapest : International Speech Communication Association.
·
Shao, J., Tazine, N.-E., Lamel, L., Prouts, B., & Schröter, S. (1998). An open system architecture for a multimedia and multimodal user interface. Paper presented at the 3rd TIDE Congress. Helsinki, Finland, June.
·
Smailagic, A., & Siewiorek, D. P. (1994). The CMU mobile computers : a new generation of computer systems. Paper presented at the IEEE Computer Conference (COMPCON). San Francisco, CA, Feb.
·
Sorin, C. (1994). Operational and experimental french telecommunication services using CNET speech recognition and text-to-speech synthesis. Paper presented at the 2nd IEEE Workshop on Interactive Voice Technology for Telecommunications Applications (IVTTA). Kyoto, Japan, Sept.
·
Temem, J. N., Lamel, L., & Gauvain, J. L. (1999). The MASK demonstrator : An emerging technology for user-friendly passengers kiosk. Paper presented at the World Congress on Railway Research. Tokyo, Japan, Oct.
·
Van Coile, B., Van Tichelen, L., Vorstermans, A., Jang, J. W., & Staessen, M. (1994). ProTran : A prosody transplantation tool for text-to-speech applications. International Conference on Speech and Language Processing (ICSLP), 2, 423-426.
·
Vigouroux, N., Seiler, F. P., Oriola, B., & Truillet, P. (1995). SMART : System for multimodal and multilingual access, reading and retrieval for electronic documents. Paper presented at the 2nd TIDE Congress. Paris, F, April.
·
Wahlster, W., Reithinger, N., & Blocher, A. (2001). SmartKom : Multimodal communication with a life-like character. Paper presented at the European Conference on Speech Communication and Technology. Aalborg, Denmark, Sept.