TFES 2002-2003
En pratique...

Liste des TFEistes 2002-2003 : voir ici

Liste des TFEs 2002-2003 (maximum 11 TFEs attribués au total)
1. Développement d'une bibliothèque logicielle pour la mise en oeuvre et
l'apprentissage de réseaux de neurones à poids partagés - application au
codage d'image
Promoteur : B. Gosselin
Objet : Les réseaux de neurones artificiels constituent de puissants
systèmes non-linéaires, à apprentissage discriminant, essentiellement
exploités en reconnaissance de formes. En particulier, la structure dite "à
poids partagés" permet d'intégrer une procédure de filtrage non-linéaire et
de sous-échantillonnage. Une telle structure pourrait dès lors également
présenter un intérêt pour des applications de compression de signaux.
L'objet de se travail de fin d'études est donc d'intégrer un tel modèle de
réseau de neurones, et d'évaluer ses performances dans le cadre particulier
de la compression d'images. En outre, le fait que la mise en oeuvre
conjointe de systèmes multiples conduise souvent à de meilleures
performances globales, confère une importance toute particulière à la
qualité de l'intégration de ce nouveau modèle au sein d'une bibliothèque
d'outils neuronaux déjà existante.
Compétences nécessaires : programmation C/C++, et, si possible, avoir suivi le
certificat multimédia en 5ième.
Compétences que l'étudiant pourrait acquérir : Réseaux de Neurones,
Algorithmes de Compression, Analyse, Implémentation Logicielle.
2. Analyse d'image pour la correction d'inclinaison de texte en vue d'une
reconnaissance automatique de caractères
Promoteur : B. Gosselin
Objet: Les systèmes de reconnaissance automatique de caractères, qu'ils
soient typographiques ou manuscrits, nécessitent en premier lieu une
procédure de localisation des caractères. Cette étape est loin d'être
triviale lorsque le texte initial ne respecte aucune contrainte d'écriture,
ou lorsque sa position et son orientation par rapport au périphérique
d'acquisition de l'image ne peuvent être contrôlées. Il est alors nécessaire
de localiser le texte inclus dans l'image, et d'aligner son inclinaison
selon un axe de référence pour conserver des performances optimales de
reconnaissance. Cette correction doit également, et idéalement, requérir un
temps de calcul minimum.
Compétences requises : programmation C/C++, ou, à défaut, Matlab.
Compétences que l'étudiant pourrait acquérir : Traitement d'Image, Analyse,
Optimisation, Implémentation Logicielle.
3. Reconnaissance automatique de partitions musicales en vue de leur
retranscription en braille
Promoteur : B. Gosselin
Objet: La reconnaissance automatique de partitions musicales est l'objet,
depuis plusieurs années, de nombreuses recherches. Toutefois, à notre
connaissance, aucune n'aborde ce problème dans le but de rendre ces
partitions musicales mieux accessibles aux personnes dont la vue est
déficiente. Un état de l'art sur les divers algorithmes proposés dans la
littérature doit donc d'abord être établi, en tenant compte de l'objectif
visé ici, c'est à dire la retranscription du résultat de la procédure de
reconnaissance en langage braille. Le développement d'un système complet de
traitement peut alors être abordé. Ses performances, tant en termes de
qualité de retranscription qu'en termes de facilité d'exploitation, peuvent
également être évaluées.
Compétences requises: programmation C/C++, ou, à défaut, Matlab.
Compétences que l'étudiant pourrait acquérir : Traitement d'Image,
Algorithmes de Reconnaissance, Analyse, Intégration, Implémentation
Logicielle.
Résumé du travail réalisé par S. Devuyst.
4. Débruitage et correction des distorsions d'images induites lors de la
photographie noir et blanc a haut contraste des pages d'un livre ouvert
Promoteur : B. Gosselin
Co-promoteur : E. Stanus (MULTITEL)
E. Stanus et Jean Bernard Savoye ont exhumé et entièrement
photographié en dia direct (film n&B a haut contraste utilisé pour les
présentations avant l'ére du PC ) le contenu du livre "la tour de 300 mètres" de G Eiffel .
L'époque ( ça remonte a 1981 ... ), le format et le caractère précieux
du livre expliquent le pourquoi du comment.
Ces documents ont été numérisés à 2700 lignes / pouce (résolution maximale)
La résolution, le jaunissement, les taches et la courbure des pages
rendent l'OCRisation (reconnaissance automatique des caractères) problématique.
Le but est d'arriver à en faire un facsimilé électronique présentable sur le Web
Compétences nécessaires : programmation C/C++, ou, à défaut, Matlab.
Compétences que l'étudiant pourrait acquérir : Traitement d'Image,
Algorithmes de Reconnaissance, Analyse, Intégration, Implémentation
Logicielle.
5. Etude et expérimentation d'un système d'indexation de séquences
musicales radiophoniques
Promoteur : T. Dutoit
Co-promoteur : S. Deketelaere (MULTITEL)
Ce travail étudiera une algorithmique permettant de rajouter un filigrane
(watermarking) inaudible, mais détectable par un traitement adéquat, dans un
morceau de musique afin de pouvoir identifier ce dernier lors de son passage
radiophonique. Ce travail abordera ce problème,non sous l'angle habituel de
la protection des droits d'auteurs (initiative SDMI) mais il cherchera à
obtenir un système de détection du filigrane le plus simple possible au
niveau du récepteur.
mots clés et site Internet : SDMI, CDMA,spread spectrum, indexation
radiophonique, stéganographie
http://www.cs.ucla.edu/~darko/papers/SSW2.pdf
http://www.watermarkingworld.org
http://lbdwww.epfl.ch/f/research/siranau/
http://www.cl.cam.ac.uk/~fapp2/steganography/index.html
http://www.cl.cam.ac.uk/~fapp2/steganography/audio.html
Compétences nécessaires :
curiosité scientifique, outil de simulation (MATLAB ou C)
Résumé du travail réalisé par J. Hamaide.
6. Etude d'un système d'indexation vocale sur plate-forme embarquée
Promoteur : T. Dutoit
Co-promoteur : S. Deketelaere (MULTITEL)
Le but de ce travail est d'étudier et d'implanter (Si le temps le permet) un
système d’indexation vocale pour les messages stockés sur un PDA (Compaq
IPAQ) afin de pouvoir les retrouver en prononçant simplement un mot en non
pas en étant obligé de réécouter tous les messages enregistrés. les méthodes
qui seront exploitées sont basées sur la recherche d'un treillis phonétique
sur les caractéristiques d'un signal vocal. Le but, à terme, est de proposer
la solution sous forme d'un logiciel "shareware" pour PDA.
Compétences nécessaires :
Avoir de la curiosité scientifique, outil de simulation matlab, langage C (Si l'implantation est réalisée )
Résumé du travail réalisé par I. Mereau.
7. Système de codage et protection d'erreurs pour la reconnaissance
vocale distribuée
Promoteur : T. Dutoit
Co-promoteur : S. Dupont (MULTITEL)
Il est ici question d'ouvrir le champ des interfaces hommes-machines
utilisant la reconnaissance automatique de la parole (RAP) à des
équipements
mobiles de petite taille et aux capacités de calcul et de transmission
réduites. Dans ce cadre s'est développée une architecture appelée
'Reconnaissance Vocale Distribuée' dans laquelle, pour des raisons de
robustesse du système RAP, une partie seulement du processus de
reconnaissance vocale est effectuée sur l'équipement mobile; le reste
du processus étant réalisé sur un 'serveur RAP'. L'information
résultant de l'analyse effectuée dans le mobile doit donc être transmise
au
serveur après codage (compression bas-débit, quelques kbits/s) et
protection contre les erreurs de transmission. Le but du projet sera
d'étudier et d'optimiser cette partie du système. L'optimisation se
fera dans le cadre d'une tache de reconnaissance vocale et l'étudiant
sera donc amené à utiliser le système RAP développé au laboratoire.
Ce projet permettra a l'étudiant de mettre en application
des connaissances dans deux aspects important de la théorie de la
communication: la compression bas-débit et la correction d'erreurs.
De bonnes connaissances en programmation (langages C ou C++), ainsi
que dans les domaines du traitement du signal et du traitement de la
parole sont pré-requises.
8. Etude et évaluation de solutions "faible coût" pour du comptage automatique
lors de compétitions sportives.
Promoteur : J. Hancq
Thème : lors de compétitions sportives comme courses, moto-cross, etc, le
comptage manuel est encore largement utilisé vu le coût des solutions
automatisées actuelles. Ce travail portera sur l'évaluation de diverses
méthodes de codage et de modulation numériques pour assurer une solution
faible coût robuste (environnement, émissions multiples groupées). Selon
l'état d'avancement du travail , une implantation sur un microcontrôleur
spécifique associé à un émetteur pourra êtrte envisagée.
Compétences nécessaires : télécommunications - codage - traitement du signal
Outils : matlab , portage par programmation en C plus éventuellement en
assembleur.
9. Terminal vocal mobile
Promoteur : J. Hancq
Co-promoteur : M. Bagein (MULTITEL)
Réalisation d’un terminal vocal mobile intégrant les technologies vocales et réseau sans fil.
Ce terminal devra offrir les points suivants :
Interface humaine : synthèse et reconnaissance vocal
Interface numérique : pile TCP/IP
Interface mobile : liaison numérique sans fil radio.
Sur plate-forme spécifique ( Pocket PC, IPac, Palm ou système propriétaire embarqué )
L’étudiant devra avoir de bonne connaissance en programmation système, C/C++ et Linux.
A l’issue de ce TFE, il aura une bonne vue des technologies vocales actuelles, des réseaux sans fil et des possibilités des ordinateurs de poche.
Résumé du travail réalisé par S. Sneessens.
10. Convertisseur de fréquence de signaux audio
Promoteur : J. Hancq
Co-promoteur : M. Bagein (MULTITEL)
Evaluation ( et réalisation ) d’algorithme(s) de conversion de fréquence de signaux audio.
Le but de TFE est de proposer différentes solutions de convertisseurs. Ces différents convertisseurs devront être évalués en termes techniques ( occupation mémoire, nombre de cycle CPU, délai temporel ) mais aussi en termes de qualité perceptuelle ( degré de dégradation de la qualité sonore ).
Des bonnes qualités de programmation ( Matlab et C/C++ ) sont nécessaires.
A l’issue de ce TFE, l’étudiant acquerra une certaine expérience dans les techniques d’optimisation d’algorithme.
11. Techniques de débruitage prenant en compte la localisation de la source.
Promoteur : J. Hancq
Thème : dans de nombreuses applications industrielles (contrôle de qualité
en autre), une information sonore est disponible mais largement perturbée
par les bruits environnants. En vue d'extraire cette information, des
techniques multi-capteurs (par exemple, réseau de microphones) sur
lesquelles des algorithmes de débruitage sont appliqués en vue d'extraire le
signal utile en prenant en compte la position spatiale des capteurs
vis-à-vis de la source. Le travail portera sur la comparaison de différentes
techniques possibles et la proposition d'amélioration de certaines
d'entre-elles.
Compétences nécessaires : traitement du signal - traitement de l'information
Outils : matlab , C++
Résumé du travail réalisé par F. Severin.
12. Etude et implementation de techniques d'intelligence artificielle pour la
classification d'evenements et la reconnaissance de situations anormales en
surveillance de parking
Promoteur : B. Gosselin
Co-promoteur : J.F. Delaigle (MULTITEL)
Le travail s'integre dans le projet de l'equipe Multivision a Multitel.
Dans le cadre de ce travail, il s'agira de designer des techniques de
classification d'objets et d'evenements, a partir de donnes issues du suivi
de personnes concu par l'equipe Multivision. L'etape de classification,
sans doute basee sur les reseaux de neurones, aura en entree les parametres
calcules par le suivi de personne (position, taille et formes des objets,
vitesse, trajectoire etc.). Elle devra fournir en sortie une classification
du type d'objet (vehicule ou personne), ainsi que la reconnaissance
d'evenements anormaux, censes declencher une alarme dans un systeme de
videosurveillance automatique de parking. Les resultats du travail
pourraient faire l'objet d'une valorisation dans un futur SPIN-OFF de
Multitel.
13. Mise au point d'un systeme de comptage de personnes dans un sas d'entree
soumis a un controle d'acces
Promoteur : B. Gosselin
Co-promoteur : J.F. Delaigle (MULTITEL)
Le controle d'acces est souvent necessaire pour proteger l'entree de zones
de securite, mais il n'est efficace que s'il s'applique a une personne a la
fois. Le but de ce travail est de developper une technique de contage de
personne qui se base sur un vue 3D de la piece oservee. Cette vue se
composera d'une ou de deux images et de la carte de profondeur associee. Il
s'agira de realiser une segmentation basee sur les cartes de profondeur
et/ou les pixels des images elles-memes. Au cours de l'etude, il serait
interessant de comparer l'approche mono- et multi-camera et de des lors
prendre ou non le mouvement en compte au niveau de la reconstruction et la
segmentation 3D. L'etude du positionnement des cameras consitute une valeur
ajoutee non negligeable du travail et fera appel a la creativite et
l'approche experimentale du chercheur
14. Acquisition de contexte pour le raisonnement en interpretation de
scenes visuelles pour la video surveillance intelligente
Promoteur : B. Gosselin
Co-promoteur : J.F. Delaigle (MULTITEL)
Les techniques d'intelligence artificielle utilisee par les modules
d'interpretations dynamique d'image en video surveillance voient leur
performance amelioree grandement par la connaissance a priori de la scene
observee. Dans ce travail, il s'agira de mettre a disposition de
l'interpretation un maximum d'information a priori pour son efficacite et
pour son apprentissage. Il s'agira dans un premier temps de generer de
sequences tests, dans la quelle il conviendra de marquer les objets et de
les suivre de maniere assistee. Lorsque cette base de donne sera generee,
la deuxieme partie du travail consistera a mettre au point une methode
d'acquisisiotn du contexte 2D et 3D. La methode 2D existe deja au sein de
Multitel, il faudra juste l'ameliorer. Par contre, la methode 3D
necessitera une etude au niveau de l'autocalibration etr de la
recalibration de camera et fera appel a des techniques issues de la vision
robotique pour resituer une camera par rapport a son environnement
15. Mise au point d'un système de synthèse vocale complet dans une langue non encore intégrée dans Babil
Promoteur : T. Dutoit
Co-promoteur : F. Malfrere (Babel Technologies)
Babil est le système de synthèse vocale de Babel Technologies S.A. Ce système permet actuellement de synthétiser de la parole dans les langues suivantes :
US English,
UK English,
Spanish,
German,
French,
Dutch (NL),
Dutch (BE),
Brazilian Portuguese,
European Portuguese,
Italian,
Swedish,
Norwegian,
Danish,
Finnish,
Icelandic,
Turkish,
Czech,
Arabic.
Le but de ce travail sera de développer les composants nécessaires à la synthèse d'une nouvelle langue (en utilsant les outils disponibles pour les langues existantes).
Compétences nécessaires : Parler couramment une langue non encore intégrée dans Babil. Aimer la recherche sur les langues naturelles.
Compétences que l'étudiant pourrait acquérir : Traitement du langage naturel.
16. Développement de nouvelles voix/langues en synthèse par sélection d'unités dans une grande base de données
Promoteur : T. Dutoit
Co-promoteur : V. Pagel (Babel Technologies)
Les techniques de synthèse ont fait depuis quelques années des progrès considérables, grâce à la mise aupoint de systèmes de synthèse par concaténation d'unités dans une grande base de données (plusieurs heures de parole). Babel Technologies matrise cette technologie pour le français. Le sujet de ce travail concerne la mise au point d'une nouvelle voix ou d'une nouvelle langue fonctionnant sur ce principe, en utilisant les outils préexistants.
Compétences nécessaires : Parler la langue visée, être prêt à s'investir dans l'étude des caractéristiques acoustiques et phonétiques de cette langue.
Compétences que l'étudiant pourrait acquérir : Conception de bases de données de parole.
17. Développement d'une interface homme-machine multimodale générique
Promoteur : T. Dutoit
Co-promoteur : O. Pietquin (FPMs)
Les interfaces homme-machines (IHM) prennent de plus en plus d'importance dans le monde actuel. Les browsers internet, les bornes interactives, les jeux vidéos ne sont que quelques exemples de ces interfaces permettant à l'homme de s'adresser à une machine. Cependant elles ne permettent souvent pas de profiter de toutes les possibilités de communication en même temps. Ce travail a pour but de créer, sur base d'outils déjà existants (notamment la norme VoiceXML), une interface homme-machine mettant en oeuvre le maximum de moyens de communications dont nous disposons en faisant intervenir des informations tant vocales que visuelles. Cette interface permettra donc une communication plus intuitive, complète et ergonomique entre homme et ordinateur.
Compétences nécessaires : programmation C++ (voire Java), intérêt pour les technologies du web
Compétences que l'étudiant pourrait acquérir : développement software, intégration de technologies vocales, connaissance XML.
18. Développement d'un jeu vidéo avec commande et réponses vocales dans l'environnement 3D Dark-Basic
Promoteur : T. Dutoit
Co-promoteur : X. Ricco (Multitel)
MULTITEL dispose de systèmes de synthèse et de reocnnaissance de la parole, sous forme de librairies dynamiques sous Windows. Le but de ce travail est d'en effectuer l'interfaçage avec l'environnement de développement de jeux videos DarkBasic (www.darkbasic.com), et d'en vérifier le fonctionnement dans une application-type (voir par exemple le visage parlant "Uncle Weevy").
Compétences nécessaires : programmation Basic et C++, intérêt pour les technologies du web
Compétences que l'étudiant pourrait acquérir : développement software, intégration de technologies vocales, connaissance de VXML.
19. Interpréteur SABLE pour le synthétiseur eLite (http://www.multitel.be/TTS/)
Promoteur : T. Dutoit
Co-promoteurs : X. Ricco, A. Ruelle (Multitel)
SABLE est un langage type XML qui permet de commander les synthétiseurs à plusieurs niveaux (phonétique, prosodique, grammatical...) en insérant des méta-informations dans le texte.
Ex. 1 : Epeler le mot suivant : TCTS.
Ex. 2 : Prononcer une date : 2002/03/15.
SABLE permet donc de modifier la façon de prononcer un texte.
L'objectif du travail est de rendre les modules du synthétiseur eLite (Multitel ASBL) compatibles avec la norme SABLE, c'est-à-dire les rendre capables d'interpréter des informations extérieures au texte, mais fournies en même temps que le texte.
Pré-requis : Programmation en C ou C++, intérêt pour l'informatique.
Compétences que l'étudiant pourrait acquérir : développement software, intégration de technologies vocales, programmation d'interfaces.
20 . Synthèse par sélection NUU
Promoteur : T. Dutoit
Co-promoteur : R. Beaufort (Multitel)
La synthèse NUU a pour objectif de synthétiser de la parole de haute qualité via la concaténation d'unités de longueur variable sélectionnées dans un grand corpus de parole. Le block le plus important dans un synthétiseur NUU est le block de sélection qui choisit les unités de sorte qu'elles puissent être concaténées sans trop de discontinuités.
La sélection NUU peut être représentée comme la découverte du meilleur chemin à travers un réseau d'états et de transitions où les états représentent les unités candidates et les transitions, la concaténation de ces unités. Il y a donc deux coûts à minimiser : le coût au niveau de la cible (une mesure de la distance entre l'unité recherchée et l'unité candidate) et le coût de concaténation (une mesure de la discontinuité lorsque les unités sont directement concaténées sans traitement du signal).
Le TFE inclura l'implémentation d'un algorithme de sélection en C++, en utilisant certains outils disponibles dans notre laboratoire (comme l'algorithme de Viterbi utilisé pour parcourir rapidement tous les chemins possibles d'un réseau). L'étudiant devra développer le coeur du programme. Le projet inclut des aspects mathématiques ET informatiques. De ce fait, une certaine expérience en programmation est nécessaire.
Ce projet permettra à l'étudiant d'étudier les différents aspects de la synthèse de la parole par concaténation, d'acquérir de l'expérience en programmation et d'être créatif dans l'un des plus chauds sujets de recherche actuellement, en synthèse de la parole.
21 . Modélisation de corpus de parole
Promoteur : T. Dutoit
Co-promoteur : R. Beaufort (Multitel)
La modélisation de corpus de parole pour la synthèse de la parole est une tâche vitale affectant directement la qualité de la synthèse. La synthèse NUU, étant l'un des plus chauds sujets de recherche actuellement, est un modèle de synthèse qui produit de la parole synthétique de haute qualité à l'aide de grands corpus de parole.
La modélisation de corpus est très importante, de manière à réduire les besoin en termes de mémoire, de temps nécessaire à l'enregistrement du corpus (qui implique correction et segmentation manuelle, et constance dans la manière de parler de la personne enregistrée), ainsi que de temps nécessaire au chargement du corpus lors de la recherche du meilleur chemin parmi les unités.
Le TFE inclura principalement du traitement de texte pour trouver le sous-ensemble le plus représentatif du texte initial servant de corpus. A priori, un langage de script comme Perl permettra une implémentation aisée de l'algorithme de traitement.
Ce projet permettra à l'étudiant d'étudier les différents aspects de la synthèse de la parole par concaténation, d'acquérir de l'expérience en programmation et d'être créatif dans l'un des plus chauds sujets de recherche actuellement, en synthèse de la parole.
|