TFES 2002-2003

En pratique...

Liste des TFEistes 2002-2003 : voir ici

Liste des TFEs 2002-2003 (maximum 11 TFEs attribués au total)

1. Développement d'une bibliothèque logicielle pour la mise en oeuvre et l'apprentissage de réseaux de neurones à poids partagés - application au codage d'image

Promoteur : B. Gosselin

Objet : Les réseaux de neurones artificiels constituent de puissants systèmes non-linéaires, à apprentissage discriminant, essentiellement exploités en reconnaissance de formes. En particulier, la structure dite "à poids partagés" permet d'intégrer une procédure de filtrage non-linéaire et de sous-échantillonnage. Une telle structure pourrait dès lors également présenter un intérêt pour des applications de compression de signaux. L'objet de se travail de fin d'études est donc d'intégrer un tel modèle de réseau de neurones, et d'évaluer ses performances dans le cadre particulier de la compression d'images. En outre, le fait que la mise en oeuvre conjointe de systèmes multiples conduise souvent à de meilleures performances globales, confère une importance toute particulière à la qualité de l'intégration de ce nouveau modèle au sein d'une bibliothèque d'outils neuronaux déjà existante.

Compétences nécessaires : programmation C/C++, et, si possible, avoir suivi le certificat multimédia en 5ième.
Compétences que l'étudiant pourrait acquérir : Réseaux de Neurones, Algorithmes de Compression, Analyse, Implémentation Logicielle.

2. Analyse d'image pour la correction d'inclinaison de texte en vue d'une reconnaissance automatique de caractères

Promoteur : B. Gosselin

Objet: Les systèmes de reconnaissance automatique de caractères, qu'ils soient typographiques ou manuscrits, nécessitent en premier lieu une procédure de localisation des caractères. Cette étape est loin d'être triviale lorsque le texte initial ne respecte aucune contrainte d'écriture, ou lorsque sa position et son orientation par rapport au périphérique d'acquisition de l'image ne peuvent être contrôlées. Il est alors nécessaire de localiser le texte inclus dans l'image, et d'aligner son inclinaison selon un axe de référence pour conserver des performances optimales de reconnaissance. Cette correction doit également, et idéalement, requérir un temps de calcul minimum.

Compétences requises : programmation C/C++, ou, à défaut, Matlab.
Compétences que l'étudiant pourrait acquérir : Traitement d'Image, Analyse, Optimisation, Implémentation Logicielle.

3. Reconnaissance automatique de partitions musicales en vue de leur retranscription en braille

Promoteur : B. Gosselin

Objet: La reconnaissance automatique de partitions musicales est l'objet, depuis plusieurs années, de nombreuses recherches. Toutefois, à notre connaissance, aucune n'aborde ce problème dans le but de rendre ces partitions musicales mieux accessibles aux personnes dont la vue est déficiente. Un état de l'art sur les divers algorithmes proposés dans la littérature doit donc d'abord être établi, en tenant compte de l'objectif visé ici, c'est à dire la retranscription du résultat de la procédure de reconnaissance en langage braille. Le développement d'un système complet de traitement peut alors être abordé. Ses performances, tant en termes de qualité de retranscription qu'en termes de facilité d'exploitation, peuvent également être évaluées.

Compétences requises: programmation C/C++, ou, à défaut, Matlab.
Compétences que l'étudiant pourrait acquérir : Traitement d'Image, Algorithmes de Reconnaissance, Analyse, Intégration, Implémentation Logicielle.

Résumé du travail réalisé par S. Devuyst.

4. Débruitage et correction des distorsions d'images induites lors de la photographie noir et blanc a haut contraste des pages d'un livre ouvert

Promoteur : B. Gosselin
Co-promoteur : E. Stanus (MULTITEL)

E. Stanus et Jean Bernard Savoye ont exhumé et entièrement photographié en dia direct (film n&B a haut contraste utilisé pour les présentations avant l'ére du PC ) le contenu du livre "la tour de 300 mètres" de G Eiffel . L'époque ( ça remonte a 1981 ... ), le format et le caractère précieux du livre expliquent le pourquoi du comment. Ces documents ont été numérisés à 2700 lignes / pouce (résolution maximale) La résolution, le jaunissement, les taches et la courbure des pages rendent l'OCRisation (reconnaissance automatique des caractères) problématique. Le but est d'arriver à en faire un facsimilé électronique présentable sur le Web

Compétences nécessaires : programmation C/C++, ou, à défaut, Matlab.
Compétences que l'étudiant pourrait acquérir : Traitement d'Image, Algorithmes de Reconnaissance, Analyse, Intégration, Implémentation Logicielle.

5. Etude et expérimentation d'un système d'indexation de séquences musicales radiophoniques

Promoteur : T. Dutoit
Co-promoteur : S. Deketelaere (MULTITEL)

Ce travail étudiera une algorithmique permettant de rajouter un filigrane (watermarking) inaudible, mais détectable par un traitement adéquat, dans un morceau de musique afin de pouvoir identifier ce dernier lors de son passage radiophonique. Ce travail abordera ce problème,non sous l'angle habituel de la protection des droits d'auteurs (initiative SDMI) mais il cherchera à obtenir un système de détection du filigrane le plus simple possible au niveau du récepteur. mots clés et site Internet : SDMI, CDMA,spread spectrum, indexation radiophonique, stéganographie http://www.cs.ucla.edu/~darko/papers/SSW2.pdf http://www.watermarkingworld.org http://lbdwww.epfl.ch/f/research/siranau/ http://www.cl.cam.ac.uk/~fapp2/steganography/index.html http://www.cl.cam.ac.uk/~fapp2/steganography/audio.html

Compétences nécessaires : curiosité scientifique, outil de simulation (MATLAB ou C)

Résumé du travail réalisé par J. Hamaide.

6. Etude d'un système d'indexation vocale sur plate-forme embarquée

Promoteur : T. Dutoit
Co-promoteur : S. Deketelaere (MULTITEL)

Le but de ce travail est d'étudier et d'implanter (Si le temps le permet) un système d’indexation vocale pour les messages stockés sur un PDA (Compaq IPAQ) afin de pouvoir les retrouver en prononçant simplement un mot en non pas en étant obligé de réécouter tous les messages enregistrés. les méthodes qui seront exploitées sont basées sur la recherche d'un treillis phonétique sur les caractéristiques d'un signal vocal. Le but, à terme, est de proposer la solution sous forme d'un logiciel "shareware" pour PDA.

Compétences nécessaires : Avoir de la curiosité scientifique, outil de simulation matlab, langage C (Si l'implantation est réalisée )

Résumé du travail réalisé par I. Mereau.

7. Système de codage et protection d'erreurs pour la reconnaissance vocale distribuée

Promoteur : T. Dutoit
Co-promoteur : S. Dupont (MULTITEL)

Il est ici question d'ouvrir le champ des interfaces hommes-machines utilisant la reconnaissance automatique de la parole (RAP) à des équipements mobiles de petite taille et aux capacités de calcul et de transmission réduites. Dans ce cadre s'est développée une architecture appelée 'Reconnaissance Vocale Distribuée' dans laquelle, pour des raisons de robustesse du système RAP, une partie seulement du processus de reconnaissance vocale est effectuée sur l'équipement mobile; le reste du processus étant réalisé sur un 'serveur RAP'. L'information résultant de l'analyse effectuée dans le mobile doit donc être transmise au serveur après codage (compression bas-débit, quelques kbits/s) et protection contre les erreurs de transmission. Le but du projet sera d'étudier et d'optimiser cette partie du système. L'optimisation se fera dans le cadre d'une tache de reconnaissance vocale et l'étudiant sera donc amené à utiliser le système RAP développé au laboratoire.
Ce projet permettra a l'étudiant de mettre en application des connaissances dans deux aspects important de la théorie de la communication: la compression bas-débit et la correction d'erreurs. De bonnes connaissances en programmation (langages C ou C++), ainsi que dans les domaines du traitement du signal et du traitement de la parole sont pré-requises.

8. Etude et évaluation de solutions "faible coût" pour du comptage automatique lors de compétitions sportives.

Promoteur : J. Hancq

Thème : lors de compétitions sportives comme courses, moto-cross, etc, le comptage manuel est encore largement utilisé vu le coût des solutions automatisées actuelles. Ce travail portera sur l'évaluation de diverses méthodes de codage et de modulation numériques pour assurer une solution faible coût robuste (environnement, émissions multiples groupées). Selon l'état d'avancement du travail , une implantation sur un microcontrôleur spécifique associé à un émetteur pourra êtrte envisagée.

Compétences nécessaires : télécommunications - codage - traitement du signal
Outils : matlab , portage par programmation en C plus éventuellement en assembleur.

9. Terminal vocal mobile

Promoteur : J. Hancq
Co-promoteur : M. Bagein (MULTITEL)

Réalisation d’un terminal vocal mobile intégrant les technologies vocales et réseau sans fil. Ce terminal devra offrir les points suivants : Interface humaine : synthèse et reconnaissance vocal Interface numérique : pile TCP/IP Interface mobile : liaison numérique sans fil radio. Sur plate-forme spécifique ( Pocket PC, IPac, Palm ou système propriétaire embarqué ) L’étudiant devra avoir de bonne connaissance en programmation système, C/C++ et Linux. A l’issue de ce TFE, il aura une bonne vue des technologies vocales actuelles, des réseaux sans fil et des possibilités des ordinateurs de poche.

Résumé du travail réalisé par S. Sneessens.

10. Convertisseur de fréquence de signaux audio

Promoteur : J. Hancq
Co-promoteur : M. Bagein (MULTITEL)

Evaluation ( et réalisation ) d’algorithme(s) de conversion de fréquence de signaux audio. Le but de TFE est de proposer différentes solutions de convertisseurs. Ces différents convertisseurs devront être évalués en termes techniques ( occupation mémoire, nombre de cycle CPU, délai temporel ) mais aussi en termes de qualité perceptuelle ( degré de dégradation de la qualité sonore ). Des bonnes qualités de programmation ( Matlab et C/C++ ) sont nécessaires. A l’issue de ce TFE, l’étudiant acquerra une certaine expérience dans les techniques d’optimisation d’algorithme.

11. Techniques de débruitage prenant en compte la localisation de la source.

Promoteur : J. Hancq

Thème : dans de nombreuses applications industrielles (contrôle de qualité en autre), une information sonore est disponible mais largement perturbée par les bruits environnants. En vue d'extraire cette information, des techniques multi-capteurs (par exemple, réseau de microphones) sur lesquelles des algorithmes de débruitage sont appliqués en vue d'extraire le signal utile en prenant en compte la position spatiale des capteurs vis-à-vis de la source. Le travail portera sur la comparaison de différentes techniques possibles et la proposition d'amélioration de certaines d'entre-elles.

Compétences nécessaires : traitement du signal - traitement de l'information
Outils : matlab , C++

Résumé du travail réalisé par F. Severin.

12. Etude et implementation de techniques d'intelligence artificielle pour la classification d'evenements et la reconnaissance de situations anormales en surveillance de parking

Promoteur : B. Gosselin
Co-promoteur : J.F. Delaigle (MULTITEL)

Le travail s'integre dans le projet de l'equipe Multivision a Multitel. Dans le cadre de ce travail, il s'agira de designer des techniques de classification d'objets et d'evenements, a partir de donnes issues du suivi de personnes concu par l'equipe Multivision. L'etape de classification, sans doute basee sur les reseaux de neurones, aura en entree les parametres calcules par le suivi de personne (position, taille et formes des objets, vitesse, trajectoire etc.). Elle devra fournir en sortie une classification du type d'objet (vehicule ou personne), ainsi que la reconnaissance d'evenements anormaux, censes declencher une alarme dans un systeme de videosurveillance automatique de parking. Les resultats du travail pourraient faire l'objet d'une valorisation dans un futur SPIN-OFF de Multitel.

13. Mise au point d'un systeme de comptage de personnes dans un sas d'entree soumis a un controle d'acces

Promoteur : B. Gosselin
Co-promoteur : J.F. Delaigle (MULTITEL)

Le controle d'acces est souvent necessaire pour proteger l'entree de zones de securite, mais il n'est efficace que s'il s'applique a une personne a la fois. Le but de ce travail est de developper une technique de contage de personne qui se base sur un vue 3D de la piece oservee. Cette vue se composera d'une ou de deux images et de la carte de profondeur associee. Il s'agira de realiser une segmentation basee sur les cartes de profondeur et/ou les pixels des images elles-memes. Au cours de l'etude, il serait interessant de comparer l'approche mono- et multi-camera et de des lors prendre ou non le mouvement en compte au niveau de la reconstruction et la segmentation 3D. L'etude du positionnement des cameras consitute une valeur ajoutee non negligeable du travail et fera appel a la creativite et l'approche experimentale du chercheur

14. Acquisition de contexte pour le raisonnement en interpretation de scenes visuelles pour la video surveillance intelligente

Promoteur : B. Gosselin
Co-promoteur : J.F. Delaigle (MULTITEL)

Les techniques d'intelligence artificielle utilisee par les modules d'interpretations dynamique d'image en video surveillance voient leur performance amelioree grandement par la connaissance a priori de la scene observee. Dans ce travail, il s'agira de mettre a disposition de l'interpretation un maximum d'information a priori pour son efficacite et pour son apprentissage. Il s'agira dans un premier temps de generer de sequences tests, dans la quelle il conviendra de marquer les objets et de les suivre de maniere assistee. Lorsque cette base de donne sera generee, la deuxieme partie du travail consistera a mettre au point une methode d'acquisisiotn du contexte 2D et 3D. La methode 2D existe deja au sein de Multitel, il faudra juste l'ameliorer. Par contre, la methode 3D necessitera une etude au niveau de l'autocalibration etr de la recalibration de camera et fera appel a des techniques issues de la vision robotique pour resituer une camera par rapport a son environnement

15. Mise au point d'un système de synthèse vocale complet dans une langue non encore intégrée dans Babil

Promoteur : T. Dutoit
Co-promoteur : F. Malfrere (Babel Technologies)

Babil est le système de synthèse vocale de Babel Technologies S.A. Ce système permet actuellement de synthétiser de la parole dans les langues suivantes : US English, UK English, Spanish, German, French, Dutch (NL), Dutch (BE), Brazilian Portuguese, European Portuguese, Italian, Swedish, Norwegian, Danish, Finnish, Icelandic, Turkish, Czech, Arabic. Le but de ce travail sera de développer les composants nécessaires à la synthèse d'une nouvelle langue (en utilsant les outils disponibles pour les langues existantes).

Compétences nécessaires : Parler couramment une langue non encore intégrée dans Babil. Aimer la recherche sur les langues naturelles.
Compétences que l'étudiant pourrait acquérir : Traitement du langage naturel.

16. Développement de nouvelles voix/langues en synthèse par sélection d'unités dans une grande base de données

Promoteur : T. Dutoit
Co-promoteur : V. Pagel (Babel Technologies)

Les techniques de synthèse ont fait depuis quelques années des progrès considérables, grâce à la mise aupoint de systèmes de synthèse par concaténation d'unités dans une grande base de données (plusieurs heures de parole). Babel Technologies matrise cette technologie pour le français. Le sujet de ce travail concerne la mise au point d'une nouvelle voix ou d'une nouvelle langue fonctionnant sur ce principe, en utilisant les outils préexistants.

Compétences nécessaires : Parler la langue visée, être prêt à s'investir dans l'étude des caractéristiques acoustiques et phonétiques de cette langue.
Compétences que l'étudiant pourrait acquérir : Conception de bases de données de parole.

17. Développement d'une interface homme-machine multimodale générique

Promoteur : T. Dutoit
Co-promoteur : O. Pietquin (FPMs)

Les interfaces homme-machines (IHM) prennent de plus en plus d'importance dans le monde actuel. Les browsers internet, les bornes interactives, les jeux vidéos ne sont que quelques exemples de ces interfaces permettant à l'homme de s'adresser à une machine. Cependant elles ne permettent souvent pas de profiter de toutes les possibilités de communication en même temps. Ce travail a pour but de créer, sur base d'outils déjà existants (notamment la norme VoiceXML), une interface homme-machine mettant en oeuvre le maximum de moyens de communications dont nous disposons en faisant intervenir des informations tant vocales que visuelles. Cette interface permettra donc une communication plus intuitive, complète et ergonomique entre homme et ordinateur.

Compétences nécessaires : programmation C++ (voire Java), intérêt pour les technologies du web
Compétences que l'étudiant pourrait acquérir : développement software, intégration de technologies vocales, connaissance XML.

18. Développement d'un jeu vidéo avec commande et réponses vocales dans l'environnement 3D Dark-Basic

Promoteur : T. Dutoit
Co-promoteur : X. Ricco (Multitel)

MULTITEL dispose de systèmes de synthèse et de reocnnaissance de la parole, sous forme de librairies dynamiques sous Windows. Le but de ce travail est d'en effectuer l'interfaçage avec l'environnement de développement de jeux videos DarkBasic (www.darkbasic.com), et d'en vérifier le fonctionnement dans une application-type (voir par exemple le visage parlant "Uncle Weevy").

Compétences nécessaires : programmation Basic et C++, intérêt pour les technologies du web
Compétences que l'étudiant pourrait acquérir : développement software, intégration de technologies vocales, connaissance de VXML.

19. Interpréteur SABLE pour le synthétiseur eLite (http://www.multitel.be/TTS/)

Promoteur : T. Dutoit
Co-promoteurs : X. Ricco, A. Ruelle (Multitel)

SABLE est un langage type XML qui permet de commander les synthétiseurs à plusieurs niveaux (phonétique, prosodique, grammatical...) en insérant des méta-informations dans le texte. Ex. 1 : Epeler le mot suivant : TCTS. Ex. 2 : Prononcer une date : 2002/03/15. SABLE permet donc de modifier la façon de prononcer un texte. L'objectif du travail est de rendre les modules du synthétiseur eLite (Multitel ASBL) compatibles avec la norme SABLE, c'est-à-dire les rendre capables d'interpréter des informations extérieures au texte, mais fournies en même temps que le texte.

Pré-requis : Programmation en C ou C++, intérêt pour l'informatique.
Compétences que l'étudiant pourrait acquérir : développement software, intégration de technologies vocales, programmation d'interfaces.

20 . Synthèse par sélection NUU

Promoteur : T. Dutoit
Co-promoteur : R. Beaufort (Multitel)

La synthèse NUU a pour objectif de synthétiser de la parole de haute qualité via la concaténation d'unités de longueur variable sélectionnées dans un grand corpus de parole. Le block le plus important dans un synthétiseur NUU est le block de sélection qui choisit les unités de sorte qu'elles puissent être concaténées sans trop de discontinuités. La sélection NUU peut être représentée comme la découverte du meilleur chemin à travers un réseau d'états et de transitions où les états représentent les unités candidates et les transitions, la concaténation de ces unités. Il y a donc deux coûts à minimiser : le coût au niveau de la cible (une mesure de la distance entre l'unité recherchée et l'unité candidate) et le coût de concaténation (une mesure de la discontinuité lorsque les unités sont directement concaténées sans traitement du signal). Le TFE inclura l'implémentation d'un algorithme de sélection en C++, en utilisant certains outils disponibles dans notre laboratoire (comme l'algorithme de Viterbi utilisé pour parcourir rapidement tous les chemins possibles d'un réseau). L'étudiant devra développer le coeur du programme. Le projet inclut des aspects mathématiques ET informatiques. De ce fait, une certaine expérience en programmation est nécessaire. Ce projet permettra à l'étudiant d'étudier les différents aspects de la synthèse de la parole par concaténation, d'acquérir de l'expérience en programmation et d'être créatif dans l'un des plus chauds sujets de recherche actuellement, en synthèse de la parole.

21 . Modélisation de corpus de parole

Promoteur : T. Dutoit
Co-promoteur : R. Beaufort (Multitel)

La modélisation de corpus de parole pour la synthèse de la parole est une tâche vitale affectant directement la qualité de la synthèse. La synthèse NUU, étant l'un des plus chauds sujets de recherche actuellement, est un modèle de synthèse qui produit de la parole synthétique de haute qualité à l'aide de grands corpus de parole. La modélisation de corpus est très importante, de manière à réduire les besoin en termes de mémoire, de temps nécessaire à l'enregistrement du corpus (qui implique correction et segmentation manuelle, et constance dans la manière de parler de la personne enregistrée), ainsi que de temps nécessaire au chargement du corpus lors de la recherche du meilleur chemin parmi les unités. Le TFE inclura principalement du traitement de texte pour trouver le sous-ensemble le plus représentatif du texte initial servant de corpus. A priori, un langage de script comme Perl permettra une implémentation aisée de l'algorithme de traitement. Ce projet permettra à l'étudiant d'étudier les différents aspects de la synthèse de la parole par concaténation, d'acquérir de l'expérience en programmation et d'être créatif dans l'un des plus chauds sujets de recherche actuellement, en synthèse de la parole.