Apprentissage de la structure de réseaux bayésiens. Application aux données de génétique-génomique

  • Soutenue le : 07/12/2012
  • Directrice de thèse : Brigitte Mangin
  • Co-directeur : Simon de Givry
  • Ecole doctorale : Mathématiques Informatique et Télécommunications de Toulouse (Toulouse III)
  • Mots-clés : modèle graphique probabiliste, réseau bayésien, optimisation sous contraintes, recherche stochastique gloutonne, apprentissage, génétique génomique, réseau de régulation de gènes
  • Manuscrit : Manuscrit (français), soutenance

Résumé : Apprendre la structure d’un réseau de régulation de gènes est une tâche complexe due à la fois au nombre élevé de variables le composant (plusieurs milliers) et à la faible quantité d’échantillons disponibles (quelques centaines). Parmi les approches proposées permettant d’apprendre ces réseaux, nous nous sommes placés pour cette thèse dans le formalisme des réseaux bayésiens. Apprendre la structure d’un réseau de régulation consiste alors à apprendre la structure d’un réseau bayésien où chaque variable représente un gène et chaque arc de ce réseau un phénomène de régulation. Dans la première partie de cette thèse nous nous intéressons à l’apprentissage de la structure de réseaux bayésiens génériques. Nous nous sommes placés dans le cadre des recherches locales à base de score. Nous proposons une version stochastique d’une recherche gloutonne existante, permettant d’explorer plus efficacement l’espace des réseaux possibles. Pour ce même objectif, nous avons développé un nouvel opérateur local, le SWAP, ainsi qu’une extension itérative des opérateurs classiques, permettant d’assouplir temporairement la contrainte d’acyclicité imposée par le formalisme des réseaux bayésiens. La deuxième partie vise plus spécifiquement l’apprentissage de réseaux de régulation de gènes. Nous proposons une modélisation de ce problème d’apprentissage dans le cadre des réseaux bayésiens qui permet la prise en compte de deux types d’information. Le premier, classiquement utilisé, est le niveau d’expression des différents gènes. Le second, plus original, est la présence de mutations sur la séquence d’ADN pouvant expliquer certaines variations de l’expression. L’utilisation de ce type de données dites de génétique-génomique, vise à améliorer la qualité du réseau reconstruit en intégrant différentes sources d’information lors de l’apprentissage. Nous avons développé deux variantes de cette modélisation dont la première consiste en une représentation non-fusionnée des deux informations augmentant alors la qualité descriptive du réseau tandis que la seconde permet une représentation compacte. Nous avons également défini une extension des scores classiquement employés pour l’apprentissage, permettant de restaurer un a priori uniforme sur les classes de connectivité des réseaux explorés. Les deux modélisations proposées ainsi que l’utilisation des scores étendus ont été validées sur des données simulées issues de nos propres expérimentations et à l’occasion d’une compétition internationale. Par ailleurs, nous avons utilisé notre modélisation non-fusionnée dans le cas de données de génétique-génomique réelles issues de la plante Arabidopsis thaliana afin d’en apprendre le réseau de régulation. Un premier réseau a ainsi été obtenu dont certaines régulations ont été validées d’après la littérature existante.


Avatar
Jimmy VANDEL