FACULTE POLYTECHNIQUE DE MONS
ANNEE ACADEMIQUE 2002-2003
TRAVAIL DE FIN D’ETUDES
« Etude d’un système d’indexation vocale sur plate-forme embarquée »
Méreau Irving
5ème Electricité
La quantité d’informations croît de façon vertigineuse. L’accès à cette quantité croissante d’informations ne s’effectue pas sans problème, d’où l’intérêt des outils d’indexation. Ce travail propose une méthode pour exploiter les signaux sonores de documents afin de repérer les endroits où des mots-clés sont prononcés, afin de permettre l’indexation plus aisée des archives sonores. Mais qu’est-ce que l’indexation ? L’indexation est la représentation d’un ensemble sous forme symbolique. Dans notre cas, il s’agit de la représentation de la parole sous forme d’unités phonétiques. Plus précisément, la méthode est basée sur la représentation des signaux vocaux sous forme de treillis phonétiques. Un treillis phonétique est un enrichissement du décodage phonétique où plusieurs hypothèses sont conservées. L’idée est de compenser les erreurs de décodage car les décodeurs phonétiques de parole, contrairement aux phonétiseurs de textes, sont loin d’être parfaits.
Le travail étudie un système dans lequel aucune contrainte n’est imposée sur la nature du mot-clé qui peut être un nom propre prononcé pour la première fois ou même une séquence de mots. Par contre, la requête est écrite et phonétisée sans erreurs.
Le système envisagé est divisé en deux grands blocs : l’outil d’indexation et l’outil de recherche. Pour le premier, il s’agit d’extraire les probabilités de prononciation des phonèmes lors d’une période d’analyse du signal acoustique. Pour ce faire, nous utilisons un réseau de neurones. Celui-ci sera combiné à une modélisation du langage par chaîne de Markov afin de transformer les hypothèses locales (sur chaque trame) en une décision plus globale (en considérant les vecteurs environnants). Une fois cette tâche effectuée, l’outil de recherche déterminera les endroits dans le treillis phonétique où la chaîne phonétique de la requête présente une probabilité de présence élevée. La recherche met en œuvre un algorithme de programmation dynamique. Afin de garantir un temps de recherche raisonnable, il est nécessaire de rejeter le plus de travail possible dans la partie d’indexation précédant la recherche.
Ce travail met en évidence l’intérêt des réseaux de neurones pour une tâche de classification phonétique et des modèles de langage (N-grams) pour améliorer le décodage et les performances en termes de taux de détections. Les résultats portent sur les taux de détections en fonction de la profondeur du treillis. Ils relatent également les performances auxquelles on peut s’attendre en fonction de la vitesse de calcul. Celle-ci est primordiale. La technique du « beam search » a été implémentée afin de l’augmenter.
Si les performances au niveau des taux de détections sont très satisfaisantes, la rapidité de la recherche est encore un peu faible.
Finalement, ce travail donne les pistes à suivre pour rendre le système plus performant..
Mots-clés : reconnaissance vocale, indexation, phonétique.
Service de théorie des circuits Promoteur : Prof. Thierry Dutoit
et traitement du signal