Contribution à la modélisation et l'inférence de réseau de régulation de gènes

  • Directeur de thèse : Sébastien Gadat (Institut Mathématique de Toulouse)
  • Co-directeurs : Christine Cierco-Ayrolles et Matthieu Vignes
  • Soutenue le : 05/12/2014
  • Ecole doctorale : Mathématiques Informatique et Télécommunications de Toulouse
  • Etablissement : Université Paul Sabatier (Toulouse III)
  • Financement : MENRT
  • Mots-clés : Statistiques, grande dimension, régression, parcimonie, optimisation.
  • Manuscrit : Manuscrit (français), Soutenance

Résumé : Cette thèse propose des développements autour de l’étude théorique et l’utilisation de méthodes statistiques mathématiques et d’optimisation dans le contexte des réseaux géniques. De tels réseaux sont des outils puissants de représentation et d’analyse de systèmes biologiques complexes, et permettent de modéliser des relations fonctionnelles entre les éléments qui composent ces systèmes.\nLa première partie de cette thèse est consacrée à l’étude de méthodes d’apprentissage statistique pour inférer ces réseaux par le biais de régressions parcimonieuses dans le contexte de grande dimension, et plus particulièrement les algorithmes de L2-Boosting. D’un point de vue théorique, nous montrons des résultats de consistance et de stabilité du support, sous des hypothèses concernant notamment la dimension du problème. La deuxième partie concerne l’utilisation des algorithmes de L2-Boosting pour l’apprentissage d’indices de Sobol dans le cadre d’analyse de sensibilité. Pour estimer ces indices, on s’appuie sur la décomposition du modèle sous forme de fonctionnelles d’ANOVA. Les composantes sont estimées via une procédure d’orthogonalisation hiérarchique de Gram-Schmidt, visant à construire une approximation de la base analytique, et une procédure de L2-Boosting pour reconstruire une approximation parcimonieuse du signal. Nous montrons alors que l’estimateur obtenu est consistant dans un contexte de bruit sur le dictionnaire d’approximation. La dernière partie concerne enfin le développement de méthodes d’optimisation pour estimer des interactions au sein de réseaux. Nous montrons que le problème de minimisation de la log-vraisemblance peut être réécrit sous la forme d’un problème de double optimisation, consistant à trouver la forme complète du graphe (ordre des variables au sein du graphe) puis à le rendre parcimonieux. Nous proposons de le résoudre par le biais d’un algorithme génétique, spécifiquement adapté à la structure de notre problème.


Avatar
Magali CHAMPION