Le design de protéines par apprentissage profond et raisonnement automatique
DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE, École doctorale SEVAB Unités INRAE-INSA-CNRS/TBI & INRAE/MIAT
Le design de protéines par apprentissage profond et raisonnement automatique Marianne DEFRESNE marianne.defresne@insa-toulouse.fr Jeudi, 30 novembre, 2023 - 14:30 INRAE-MIAT - Bâtiment C8 - Salle de Séminaire - 24 Chem. de Borde Rouge, 31320 Auzeville-Tolosane
Sophie Barbe, TBI-INSA, ANITI Thomas Schiex, MIAT-INRAE, ANITI
Jean-Christophe Gelly, Université Paris Cité - INSERM U1134 Tias Guns, KU Leuven, Belgium
Céline Hudelot, CentraleSupélec, Paris Sergey Ovchinnikov, Harvard University, USA
Les protéines sont des molécules complexes qui remplissent de nombreuses fonctions dans les organismes vivants. Certaines de ces fonctions peuvent être reprises pour des applications en biotechnologie, médecine, chimie verte, etc. L’objectif du design computationnel de protéines (CPD) est de prédire une séquence de protéine adaptée à une application. La fonction d’une protéine étant étroitement liée à sa structure 3D, le CPD peut être formulé comme la prédiction d’une séquence se repliant sur une structure cible et remplissant ainsi la fonction d’intérêt. Les approches existantes sont basées soit sur l’optimisation d’une fonction d’énergie évaluant les interactions au sein d’une protéine, ou sont soit purement basées sur l’apprentissage profond. Dans cette thèse, nous présentons une nouvelle approche hybride pour le CPD, combinant le Deep Learning (DL) et le raisonnement automatique.
Notre première contribution consiste à catégoriser les approches DL existantes selon la représentation des protéines utilisée. Discuter de leurs avantages et inconvénients par rapport aux méthodes traditionnelles basées sur l’énergie nous a conduits à vouloir essayer de prendre le meilleur des deux mondes en apprenant une nouvelle fonction de score optimisée pour la conception de protéines. Cette fonction de score est un modèle graphique, un composé de raisonnement déjà utilisé avec succès pour optimiser des protéines. Notre objectif nécessite une pipeline hybride combinant Deep Learning et optimisation discrète. Une telle hybridation étant un défi ouvert en Intelligence Artificielle, nous avons d’abord développé une méthode pour apprendre un Modèle Graphique à partir de données et qui permet une inférence exacte tout en passant à l’échelle sur de grandes instances. Cette méthode a été développée sur le benchmark standard de l’apprentissage des règles du Sudoku, sur lequel elle dépasse l’état de l’art.
Nous avons ensuite appliqué cette architecture hybride à la conception de protéines. La structure d’une protéine étant une donnée non euclidienne, elle nécessite une représentation adaptée et une architecture neuronale adéquate pour être traitée. Nous avons appris une nouvelle fonction de score pour la conception que nous avons appelée Effie. Nous l’avons d’abord validée in silico. Pour les tâches de design, elle surpasse les méthodes traditionnelles basées sur l’énergie tout en étant compétitive par rapport aux approches basées DL. De plus, elle peut s’attaquer à des tâches pour lesquelles elle n’a pas été explicitement entraînée, ce qui suggère qu’elle a appris certains concepts physico-chimiques. Enfin, nous l’avons appliquée sur $3$ projets concrets dont les objectifs de design nécessitaient de biaiser ou de conditionner Effie a posteriori via l’ajout de connaissances ou de contraintes. Dans ce contexte, nous avons montré l’intérêt de notre approche hybride puisque Effie + optimisation discrète a surpassé les méthodes de Deep Learning pures.
Design Computationnel de Protéines, Deep Learning, Raisonnement Automatique, IA hybride, Modèles Graphiques.
Proteins are complex molecules that perform many functions in living organisms. Some of these functions can be repurposed for applications in biotechnology, medicine, and green chemistry… The goal of Computational Protein Design (CPD) is to predict a protein sequence fit for an application. Since the function of a protein is tightly linked to its 3D structure, CPD can be formulated as predicting a sequence folding onto a target structure and therefore fulfilling a function of interest. Existing approaches are based on the optimization of an energy function scoring interactions within the proteins or they are purely based on Deep Learning. In this thesis, we present a new hybrid approach for CPD, combining Deep Learning (DL) and Automated Reasoning.
Our first contribution is to categorize existing DL approaches based on protein representation. The discussion of their advantages and drawbacks with respect to traditional energy-based methods leads us to try and take the best of both worlds by learning a new scoring function that is optimized to design proteins. This score function is a Graphical Model, a reasoning compound that has already successfully been used to optimize proteins. This objective requires a hybrid pipeline combining Deep Learning and discrete optimization. Such hybridization being an open challenge in Artificial Intelligence, we first developed a method to learn Graphical Models from data that allows exact inference while being scalable. It was developed on the standard benchmark of learning how to play Sudoku, in which it achieves state-of-the-art results.
We then applied this hybrid pipeline to protein design. A protein structure being non-Euclidean data, it requires a suited representation and a fitting neural architecture to be processed. We learned a new scoring function for design that we named Effie. We extensively validated it in silico. On design tasks, it outperformed traditional energy-based methods while being competitive with DL-based approaches. Moreover, it can tackle tasks for which it has not been explicitly trained, suggesting that some physical-chemical concepts have been learned. Finally, we applied it on $3$ projects where the design objectives required to bias or conditioned Effie a posteriori via the addition of knowledge or constraints. In this context, we showed the interest of our hybrid approach as Effie + discrete optimization outperformed pure Deep Learning methods.
Computational Protein Design, Deep Learning, Automated Reasoning, Hybrid AI, Graphical Model.