Pas facile d'apprendre le français à une machine !

(Le Soir Samedi 18 octobre 1997 page 18)

Go To : Babel Technologies S.A.

Le médiatique rachat par Microsoft d'une société flamande spécialisée dans la reconnaissance vocale (Lernout et Hauspie) a démontré, si besoin en était encore, que la numérisation de la parole est une voie de recherche pleine de promesses. Une équipe de la faculté polytechnique de Mons (Pr H. Leich) n'a pas attendu que Bill Gates fasse son marché chez nous pour investir quelque énergie dans ce domaine. Ces recherches ont même débouché tout récemment sur la constitution d'une petite société, Babel technologies, qui ambitionne de commercialiser des techniques mises au point dans le laboratoire montois.

L'une de ces techniques est un synthétiseur vocal baptisé Mbrola, une machine capable de produire un signal acoustique imitant la parole humaine. Il existe déjà de nombreux synthétiseurs vocaux performants sur le plan de l'intelligibilité, explique Thierry Dutoit, qui a passé cinq ans de sa vie à mettre Mbrola au point. Les grandes sociétés de télécommunication ont toutes développé leur propre système. Mais les voix artificielles manquent souvent de naturel.

C'est qu'il n'est pas simple d'apprendre à parler à une machine ! La conception d'un système de synthèse vocale soulève deux grands types de problèmes. Les premiers sont d'ordre symbolique et taraudent surtout les linguistes. Ils sont liés au passage du monde complexe de la graphologie au monde ultracomplexe de la phonologie. Il existe, par exemple, des mots qui possèdent la même graphie mais qui se prononcent différemment (comme dans la phrase : le président et ses associés président ). Les règles de liaison, d'élision ou de dénasalisation sont aussi de véritables poisons pour les synthétiseurs. Une fois la phonétique assimilée, la machine n'est pas au bout de ses peines. Il lui reste en effet à maîtriser la prosodie, c'est-à-dire l'intonation et la rythmique de la parole. Ces paramètres répondent à des règles d'une infinie complexité que les ordinateurs ne maîtrisent que très imparfaitement.

Après cette initiation linguistique commence la deuxième grande phase de construction d'un synthétiseur vocal, qui intéresse davantage les ingénieurs que les spécialistes de la langue : la traduction d'une information de type symbolique en un signal acoustique imitant la voix humaine. C'est ici qu'intervient le logiciel Mbrola, une modélisation mathématique des ondes acoustiques de la parole. Le système est conçu pour assembler automatiquement des diphones (la langue française en compte quelque 1.200) en leur attribuant une durée, de l'ordre du centième de seconde, et une longueur d'ondes. L'assemblage des sons par le logiciel est réalisé avec précision et discrétion, de manière à éviter les discontinuités et ainsi rendre la parole la plus fluide possible.

L'intelligibilité et le naturel du synthétiseur Mbrola sont comparables au meilleur système actuellement sur le marché, plaident les chercheurs montois (un test sur bande démo est proposé au numéro de téléphone suivant : 065/37.41.77). Nous avons trouvé un bon compromis entre la puissance réclamée par le logiciel et le caractère naturel de la parole. Des arguments qui ont, semble-t-il, convaincu la société suédoise de télécommunication Télia, qui a récemment acquis le synthétiseur commercialisé par Babel technologies.


François Louis.
© Rossel & Cie SA - LE SOIR Bruxelles