Equipe SaAB : Statistique et Algorithmique pour la Biologie

L’équipe a pour objectif de développer et de mettre à disposition des biologistes des méthodes mathématiques, statistiques et informatiques permettant de contribuer à la compréhension du vivant.

Poster de présentation de l’équipe SaAB fait en 2019 : Poster2019SaAB.pdf.

Rapport d’évaluation HCERES 2019 pour l’équipe SaAB : HCERES2019SaAB.pdf.


Problèmes bioinformatiques abordés

L’équipe s’intéresse à la localisation et l’identification d’éléments fonctionnels dans les génomes des bactéries, plantes et animaux, et de façon croissante aux interactions qui existent entre ces différents éléments :

  • au niveau génétique : un génome est essentiellement perçu au travers de petites régions caractérisées (les marqueurs moléculaires) qui forment des balises. Il s’agit alors de positionner ces balises sur les chromosomes (cartographie génétique et d’hybrides irradiés : Carthagène) pour ensuite localiser des régions liées à des caractères d’intérêt (résistances aux maladies, rendement…) par rapport à ces balises (localisation de QTL ou Quantitative Trait Loci par analyse de la transmission allélique : MCQTL et par modélisation du déséquilibre de liaison : HAPim, ClustHaplo ). Ces données peuvent être ensuite utilisées en sélection de variétés combinant plusieurs caractères désirables.

  • au niveau molécule ADN/ARN : c’est directement les séquences d’ADN d’un génome et les transcrits ARNs qui sont analysés pour les décoder et identifier les régions fonctionnelles dans la séquence et leurs interactions (hybridation, régulation épigénétique…). Il peut s’agir de gènes codant pour des protéines (dans des génomes bactériens : FrameD ou eucaryotes : EuGène) ou de gènes non traduits et correspondant à des ARNs fonctionnels (DARN!, ApolloRNA,RNAspace). La comparaison de génomes et l’analyse des événements fondamentaux qui les séparent (polymorphisme, remaniements) peuvent permettre le transfert d’information entre génomes. Des analyses évolutives et phylogénétiques sont mises en oeuvre pour mieux comprendre la dynamique évolutive des éléments régulateurs fonctionnels dans des espèces d’intérêt.

  • au niveau molécule de protéine et métabolites : une protéine, définit par une séquence d’acides aminés, se replie dans l’espace sur la base des interactions (électrostatiques…) qui existent entre les atomes qui la forme. Sa structure tridimensionnelle définit sa fonction. Le problème du design de protéine consiste à déterminer une bibliothèque de séquences d’acides aminés qui se replie selon une structure donnée, en permettant la conception de nouvelles enzymes catalysant de nouvelles réactions (biocarburants, cosmétiques, médicaments…). L’équipe travaille aussi sur l’identification et l’annotation de métabolites.

  • au niveau de l’expression de gènes : l’utilisation de données de type “puce à ADN” ou RNA-seq permet de partiellement observer l’activité cellulaire à un instant donné. Sur la base de ces informations, en les croisant avec d’autres informations (génétiques, métabolomique, phénotypiques, environnementales…) il devient possible d’inférer des réseaux de régulation génique ou des réseaux de co-expression génique. Nous nous intéressons en particulier à la combinaison de données d’expression et de polymorphisme (SNP) sur une collection d’individus apparentés (issue d’un pédigree), permettant l’observation de différents modes de fonctionnement du réseau (génomique génétique) et à l’intégration d’informations extérieures (phénotypiques, ontologiques, métabolomiques) dans l’inférence et l’analyse de ces réseaux de gènes (intégration de données).

Des liens solides lient l’équipe aux laboratoires proches d’Interactions Plantes/Micro-organismes (LIPME) et de Génétique Animale (GenPhySE) du centre de recherches INRAE de Toulouse.


Méthodes statistiques et informatiques

Pour traiter ces problèmes, l’équipe mobilise et développe des méthodes en mathématiques, statistiques, probabilités (modélisation, inférence, modèles de mélanges de lois, régression pénalisée, modèles graphiques stochastiques, champs de Markov, réseaux bayésiens, processus) et en informatique (modélisation, optimisation combinatoire, réseaux de contraintes, modèles graphiques déterministes, algorithmique) avec le but de valoriser les méthodes développées dans des outils logiciels directement utilisables par nos partenaires biologistes et rendant compte le mieux possible de la complexité et de la variété des données utilisables et en capitalisant les développements méthodologiques dans des logiciels génériques, éventuellement déclinés ensuite sur différentes applications..

L’équipe développe en particulier des méthodes originales dans le domaine de l’optimisation combinatoire, en s’appuyant sur les réseaux de contraintes pondérées, aussi appelés “réseaux de fonctions de coût”, un modèle graphique dédié à l’optimisation et généralisant les réseaux de contraintes utilisés en programmation par contraintes et proches des Champs de Markov. Ces techniques, implémentées dans l’outil toulbar2 (développé dans l’équipe et très bien placé dans différentes compétitions internationales), sont ensuite mises en œuvre sur des problèmes issus de la bioinformatique (design de protéines, localisation d’ARNs de familles connues, diagnostics de pedigrees complexes de grande taille, reconstruction d’haplotypes,…).

Sur la thématique des réseaux de contraintes pondérées, nos partenaires les plus proches sont l’Institut de Recherche en Informatique de Toulouse et le centre de recherche de Toulouse de l’ONERA. Toulbar2 profite également de collaborations avec l’Université de Caen (GREYC), l’Université d’Aix-Marseille (LSIS), l’Université Polytechnique de Catalogne et l’Institut de recherche en Intelligence Artificielle de Barcelone (CSIC), ainsi que la Chinese University of Hong-Kong. L’équipe est membre de l’Institut Toulousain d’Intelligence Artificielle et Naturelle (ANITI, chaire de Thomas Schiex).

En statistique, nous collaborons en particulier avec l’institut de Mathématiques de Toulouse et avec nos collègues statisticiens de l’INSERM et de GenPhySE (Génétique Animale).


Responsable de l’équipe : Simon de Givry