Equipe encadrante: Stéphan Clémençon et Aurélien Garivier
voir le site pédagogiqueEquipe encadrante: Stéphan Clémençon et Aurélien Garivier
L'analyse du génome, la reconnaissance vocale et la robotique ont un point en commun: derrière les observations qu'on y fait se cache une réalité structurée qu'il faut retrouver. Par exemple, une séquence ADN est une suite de nucléotides organisée en portions codantes (les gènes) et non-codantes, dont il faut assurer le séquençage. En reconnaissance vocale, on cherche à reconstruire des mots et des phrases à partir d'enregistrements audio. Les capteurs d'un robot lui transmettent des informations partielles et bruitées sur sa position et son environnement, qu'il doit analyser pour se localiser.
A la base de toutes ces techniques se trouve la même notion : les chaînes de Markov cachées (en abrégé HMM, pour Hidden Markov Models). Il s'agit d'objets probabilistes relativement simple à comprendre : un système saute d'un état à l'autre sans qu'on puisse l'observer, mais il envoie en envoie une information sur l'état qu'il traverse. On doit alors, à partir des seules informations envoyées :
Dans ce projet, il s'agira de découvrir les bases théoriques et algorithmiques de manipulation des HMM, afin de comprendre comment fonctionnent les algorithmes qui s'appuient sur ces modèles. On s'appuiera, outre sur la fiche projet accessible ci-dessous, sur un tutorial célèbre et pédagogique, et on programmera les solutions des trois problèmes présentés ci-dessus. Pour finir, on s'attachera à comprendre comment ces algorithmes sont utilisés en segmentation automatique du génôme, et on fera une petite expérience sur des données ADN.
Ce projet permettra d'aborder de nouvelles notions essentielles en traitement statistiques du signal et en probabilités, et s'appuiera sur l'utilisation du logiciel MATLAB.
Références :