Axe BioComp : Biologie computationnelle

Orienté vers les données à l’interface de la biologie moléculaire, de la génomique comparative et de la biophysique, cet axe de recherche ambitionne de développer des méthodes et des outils finalisés pour fournir des clés de compréhension permettant de décrypter la complexité du vivant depuis l’échelle moléculaire jusqu’aux traits phénotypiques: comment les organismes répondent à leur environnement, s’adaptent et comment ces adaptations impactent les traits observés et/ou d’intérêt. Les évolutions technologiques (séquençage, nouvelles techniques omiques et capteurs, …) sont un moteur essentiel de cet axe et imposent une adaptation continue de nos méthodes, que ce soit pour absorber le flux de données croissant ou pour tirer profit de leurs spécificités. L’axe s’appuie sur des compétences en analyse du signal, modélisation, apprentissage et algorithmique, dans une démarche d’intégration interdisciplinaire. Certains des aspects méthodologiques mentionnés ci-dessous seront partagés avec l’axe « Statistique et Apprentissage », l’axe « Optimisation pour les sciences du vivant » ou l’axe « Agents décisionnels ». Toutefois, dans cet axe, l’accent sera mis sur l’adaptation des méthodes pour les problématiques biologiques d’intérêt. De même, cet axe est fortement associé à la plateforme Genotoul-Bioinfo (pour les thèmes « Apprentissage » et « Algorithmique des génomes » décrits ci-dessous) mais aussi à la plateforme RECORD, pour le thème « Modélisation et simulation de systèmes biologiques ». Les développements méthodologiques sont appelés à aboutir à des outils transférables vers les plateformes ou à destination directe de collègues non informaticiens.

Thématique Analyse-modélisation-simulation de systèmes

L’ambition de ce thème est

  • (i) de passer d’un modèle moyen décrivant une population de cellules à l’échelle de cellules individuelles en lien avec les nouvelles données expérimentales (données en cellules uniques, omiques spatialisées, mesures micro-électrodes MEA) ;
  • (ii) d’adapter les modèles développés sur un génotype à l’échelle du pangénome ou à des espèces d’intérêt agronomique (projet Grand défi Mambo 2025-2030 soumis, une thèse et projet interne à l’axe en cours de construction);
  • (iii) de générer des données simulées ou bien d’utiliser le modèle comme base de connaissance structurée afin d’entraîner les algorithmes d’apprentissage (thèse de Nadia Bessoltane, IJPB, co-encadrée par un membre de l’axe). Cette ambition est soutenue par l’arrivée, en février 2025, d’une IR spécialiste de la modélisation mécaniste (déterministe ou stochastique) multi-échelles, des cellules à l’organisme entier dans son environnement, et par plusieurs projets et thèses en cours (ANR PRC « ModLSys », projet « Template » financé par le métaprogramme DIGIT-BIO, une thèse à venir à l’automne 2025 et un projet EXPLOR’AE « Sapiens »).

Les avancées méthodologiques visées portent sur

  • (i) sur l’extraction d’information et la calibration des modèles à partir de données hétérogènes en développant des outils d’intelligence artificielle (deep learning ou machine learning) ;
  • (ii) sur la simulation de communautés de cellules avec un souci tout particulier sur le temps de calcul et la fiabilité des trajectoires simulées (càd de la population à l’agent cellule par des approches de méta-modélisation), notamment grâce à l’hybridation d’approches classiques de simulation avec des techniques avancées d’intelligence artificielle comme les PINN (Physics Informed Neural Networks).

Thématique Apprentissage

Les méthodes d’apprentissage automatique (en particulier issues de l’apprentissage profond et de la statistique) seront mobilisées pour mieux comprendre le lien entre le génotype et le phénotype.

Ces méthodes permettent d’aborder l’intégration de données multi-omiques en lien avec un phénotype d’intérêt (continuité du projet ASTERICS et ses liens avec d’autres applications comme OpenSILEX ou projet « Mambo » soumis).

En outre, l’utilisation des grands modèles de langages (LLM) semble une approche prometteuse pour extraire l’information de séquences d’ADN (projet « DeepFunGenomiX » soumis à l’ANR TSIA pour l’analyse de l’évolution ou thèse en cours pour l’utilisation de méthodes d’apprentissage profond sur des données Hi-C pour résoudre des problèmes d’assemblage de génomes, en lien avec le thème « Algorithmique des génomes »).

Plus largement les réseaux de neurones profonds sont désormais des méthodes fréquemment mobilisées et sont au cœur des approches que l’axe mobilise pour l’étude de l’épitranscriptomique (apprentissage des modifications de l’ARN à partir de données ONT dans le projet « DEMETER » soumis à l’AAP du PEPR Agroécologie et numérique, pour la prédiction de la résistance à la sécheresse) ou encore pour l’analyse de signaux électrophysiologiques sur plantes entières (une thèse à venir). L’accent pourra aussi être mis sur le couplage des méthodes d’apprentissage avec d’autres méthodes développées dans l’axe.

Algorithmique des génomes

Un enjeu actuel de la génétique est de porter la notion de génome d’un individu à l’intégration de toute la diversité génétique présente dans une population (un pangénome), qu’elle soit rare ou difficilement accessible. Y accéder est essentiel pour la compréhension des autres échelles cellulaires, l’analyse des liens entre génomes et phénotypes ou encore l’évaluation de la capacité de réponse à des stimulus environnementaux.

Les avancées technologiques (séquençages, nouvelles techniques omiques, …) sont également un moteur essentiel de cette évolution. Ces évolutions introduisent de façon récurrente de la complexité dans l’intégration, l’interrogation et l’exploitation des données génétiques et pour y répondre, l’axe s’appuie sur des modèles de graphe de grande dimension ou des structures de données adaptées à des volumes massifs.

Les compétences associées en algorithmique du texte (indexation, optimisation) et en modélisation par graphes (représentation, compression) ont été récemment renforcées par le recrutement d’un CR et l’arrivée de plusieurs doctorants en 2023, ainsi qu’un post-doctorant en 2025. Les sujets « graphe de pangénome » et « recherche de liens entre variants structuraux et phénotypes » sont déjà au coeur de projets en cours (projets flagship « AgroDiv » et « BReIF » du PEPR Agroécologie et numérique, projet EXPLOR’AE « PanGWAS », projet ANR « PanQueST » soumis en phase 2).

L’axe cherchera à les étendre à d’autres composantes génétiques, telles que la pan-épigénomique (projet « DEMETER » soumis à l’AAP du PEPR Agroécologie et numérique) ou la pan-transcriptomique. Il cherchera également à dépasser ce cadre via le développement d’approches intégrées à l’échelle de la cellule et sollicitant d’autres méthodes : apprentissage et assemblage de génomes (thèse d’Alexis Mergez débutée en 2024), hybridation de la diversité génétique et de la modélisation des systèmes biologiques (en phase d’amorçage via un stage exploratoire) ou encore production de signaux génétiques plus robustes et pertinents dans l’apprentissage multi-omique (thèse financée à débuter à l’automne 2025).




Membres de l’axe

Avatar Philippe Bordron
IE , Development and data analysis
Avatar Céline Brouard
CR , informatique, statistique
Avatar Samuel Buchet
IR , Informatique , CFU
Avatar Xian Hui Chang
Postdoc , Informatique
Avatar Frédérick Garcia
DR , Intelligence Artificielle
Avatar Anne Goelzer
IR , Biologie des systèmes
Avatar Sylvain Jasson
IR , Informatique , DU
Avatar Benjamin Linard
CR , Informatique
Avatar Élise Maigné
IE , Statistique , AP
Avatar Alexis Mergez
Doctorant(e) , Intelligence Artificielle, Génomique
Avatar Raphaël Mourad
MCF , Accueil en délégation, Intelligence artificielle
Avatar Nathalie Vialaneix
DR , Statistique , DUA
Avatar Matthias Zytnicki
DR , Informatique