Séminaires

De MIAT INRA
Aller à : navigation, rechercher

Séminaires de l'unité MIAT :

Pyrenees-morning.jpg

Le séminaire de l'équipe MIAT de l'INRA de Toulouse est un endroit d'échanges scientifiques et techniques entre les membre de l'unité et des experts en mathématiques, informatique, agro-écosystèmes, bioinformatique, etc. Les présentations peuvent être sur des travaux en cours, des projets finalisés hautement spécialisés ou à valeur plus éducative / informationnelle. Les aspects mis en avant peuvent être d'ordre méthodologique ou applicatif.

Les présentations peuvent être en français ou en anglais pour une durée d'une heure (45min + questions). Sauf contre-indication, les séminaires ont lieu dans la salle de réunion MIAT à 10h30 le vendredi. L'accès à l'unité MIAT de l'INRA Auzeville/Castanet est indiqué ici (nous sommes à moins de 30 mètres de la réception !).

 


Séminaires de l'année en cours et séminaires futurs  :

Résumé : à venir
  • 21/06/2019 : Journée des stagiaires.
  Stagiaire Encadrant Intitulé de stage
9h15-9h30 Mohamed Anwar Abouabdallah Nathalie Peyrard Modèle à blocs latents pour la caractérisation de la biodiversité
9h30-9h45 Abdelkader Beldjilali Simon de Givry, David Allouche Parallélisation d'une recherche arborescente hybride et partielle
9h45-10h Loukas Benazet Stéphane Couture Vers une gestion multicritère et spatiale d'une forêt en contexte risqué
10h-10h15 Auxane Calmont Lise Pomies, Simon De Givry Validation de réseaux de régulation de gènes par recherche de motifs
10h15-10h30 Lycia Fezzoua Ronan Trépos, Laurence Puillet Automatisation d’un algorithme de phénotypage de trajectoires biologiques en élevage
10h30-10h45 Camille Guilmineau Nathalie Vialaneix S'approprier les données, les méthodes d'analyse statistique et les outils - Analyse des données avec une phase exploratoire et une phase d'intégration - Utilisation du logiciel R
10h45-11h --- Pause ---
11h-11h15 Cyril Kurilo Matthias Zytnicki, Sylvain Foissac Evaluation et conception de méthodes bioinformatiques d'analyses de données Hi-C
11h15-11h30 Thyphaine Madelaine Stéphane Couture Exploration du processus de décision dans les chois techniques de maïsiculture agroécologique
11h30-11h45 Fanny Mathevet Laurence Liaubet, Nathalie Vialaneix omics data integration
11h45-12h Sylvain Mesplou Frédérick Garcia Electro-acoustique des plantes
12h-12h15 Alexandre Schiavinato Régis Sabbadin Jeux difficiles : Algorithmique des calculs d'équilibre dans les jeux hypergraphique et les jeux bayesiens
12h15-12h30 Jeoevin Testi Magali San Cristobal TBA
  • 14/06/2019 : Titre à venir Gaëlle Lefort (MIAT).
  • 07/06/2019 : Analyse du Cycle de Vie (ACV) Territoriale : principes, limites et perspectives. Eléonore Loiseau (IRSTEA, ITAP).
Résumé : L’Analyse du Cycle de Vie (ACV) est un outil d’évaluation environnementale normalisé (ISO 14044) et largement utilisé à travers le monde dans la sphère publique et privée à des fins d’éco-conception et d’affiche environnemental. L’ACV a été initialement conçue pour évaluer les performances d’un produit / service sur la base d’un inventaire détaillé de tous les polluants émis dans l’eau, l’air et les sols ainsi que de toutes les ressources naturelles consommées au cours de son cycle de vie (de l’extraction des matières premières, à leur transformation, à l’usage du produit et la gestion de sa fin de vie). Cet inventaire permet de calculer un panel d’impacts environnementaux (12 à 18) qui peuvent être agrégés en 3 indicateurs de dommages sur la santé humaine, la qualité des écosystèmes et l’épuisement des ressources. Ces impacts sont rapportés à une unité de service rendu. Des développements récents ont été formulés pour adapter le cadre méthodologique de l’ACV à l’évaluation de systèmes à des échelles intermédiaires comme les territoires. L’objet de cette présentation est de décrire les grands principes de l’ACV territoriale en termes de définitions de services rendus, périmètre du système, collecte des données, et quantification des impacts environnementaux, et de discuter l’intérêt, les limites et les perspectives de cette approche à travers des exemples d’applications. 
  • 31/06/2019 : Pas de séminaire (pont).
  • 24/05/2019 : Optimisation sous contraintes distribuée : modèles, algorithmes et applicationsGauthier Picard (Ecole Nationale Supérieure des Mines de Saint-Etienne, Laboratoire Hubert Curien).
Résumé : Le raisonnement sous contraintes est une des techniques majeures en intelligence artificielle et en recherche opérationnelle, pour modéliser des problèmes de décision et concevoir des méthodes de résolution efficaces. Sa déclinaison distribuée, le raisonnement sous contraintes distribué (DCR) est un outil puissant pour mettre œuvre des décisions coopératives dans le cadre des systèmes multi-agents. De tels problèmes se déclinent en (i) des problèmes de satisfaction de contraintes (DisCSP) où l'on recherche une solution satisfaisant toutes les contraintes et en (ii) des problèmes d'optimisation sous contraintes (DCOP) où l'on recherche une solution minimisant un coût global induit par les contraintes. Cette présentation se focalise sur le cas des DCOP, qui ont démontré leur forte applicabilité à des problèmes réels. Nous présenterons les principales familles de méthodes de résolution, ainsi que des exemples d'applications. Nous nous concentrerons également sur deux techniques pour améliorer et mettre en œuvre de tels méthodes : la résilience et la décimation.
  • 17/05/2019 : Séminaire IMABS - salle de conférence Marc Ridet & retransmit en visio-conférence à Saint Martin

Anne Siegel (Univ Rennes, Inria, CNRS, IRISA Dyliss team) : Reasoning-based systems for the study of large-scale metabolic networks and microbiomes.

Résumé : Systems modeled in the context of molecular and cellular biology are highly difficult to model in a unique way. In this context, we will describe how several approaches based on reasoning allow the systems to be identified, validated, improved and finally studied despite lacks of data. To that goal, we rely on Answer Set Programming, a paradigm of logical programming. We will illustrate this approach on the reconstruction and study of genome-scale metabolic network with an application to the reduction of microbiomes according to expected metabolic phenotypes.

Vincent FROMION (Inra, MaIAGE, BioSys) : Titre à venir

Résumé : À venir

  • 10/05/2019 : Séminaire des doctorants.
    • 9h10-9h30   Nathanaël Randriamihamison   Classification hiérarchique sous contrainte de contiguité pour l'analyse de données Hi-C
    • 9h30-9h50   Leo Gerlin   Modélisation métabolique d'une interaction plante-pathogène
    • 9h50-10h10   Cyriel Paris   Détection de locus sous sélection à partir de données génomiques temporelles
    • 10h10-10h30   Leila Khajavi-Ettouati   Régulation transcriptionnelle des lymophocytes T pathogènes dans le cadre d'affections inflammatoire du système nerveux central
    • 10h30-10h50   Céline Bougel   Classification de profils d'évolution des fonctions cognitives
    • 10h50-11h10   Jelena Vucinic   Modèles pour des problèmes de design de proteines multi-états. Modélisation, application et évaluation
    • 11h10-11h30   Pause
    • 11h30-11h50   Fulya Ural   Méthodes exactes pour l'apprentissage de la structure d'un réseau bayésien
    • 11h50-12h10   Sandrine Longis   Apports méthodologiques aux expérimentations système
    • 12h10-12h30   Ivana Aleksovska   Améliorer les prévision à court et moyen termes des modèles agronomiques en prenant mieux en compte l'incertitude des prévisions météorologiques
    • 12h30-12h50   Adrien Lagrange   Cofactorisation de matrices pour le démélange et la classification conjoints d’images hyperspectrales
    • 12h50-13h10   Dennis Best   Wildfire, forest and energy system resilicence: critical drivers and opportunitites in managing for risk, electricity reliability and ecological security
    • 13h10-13h30   Marie-Anne Vedy-Zecchini   Analyse et modélisation des effets du système de culture et de la situation de production sur les principaux bioagresseurs du tournesol pour la mise au point de stratégies de protection agroécologique.

Pas de séminaire le 26 avril et le 3 mai (vacances scolaires)

  • 19/04/2019 : Markov et le Duché de Savoie: segmentation d'un siècle d'histoire avec des modèles à changements de régime. Madalina Olteanu (Panthéon Sorbonne / MaIAGE).
Résumé : Le temps est au cœur du travail de recherche de l'historien. Pour le statisticien, le temps n'est en général qu'un paramètre ou une variable supplémentaire, que les modèles développés doivent intégrer ou prendre en compte. Ce travail est le fruit d'une collaboration entre historiens et mathématiciens, prenant le temps comme point de départ. Nous étudions une série temporelle particulière, recensant la législation liée à la logistique militaire, émise par le Duché de Savoie pendant les XVIème et XVIIème siècles. Le résultat attendu est une meilleure compréhension de la temporalité et du fonctionnement de l'Etat. A cette fin, plusieurs modèles basés sur des chaines de Markov cachées et prenant en compte les spécificités des données sont introduits. Ils sont ensuite estimés sur les données historiques et fournissent des résultats intéressants, qui soit confirment les hypothèses historiques existantes, soit apportent de nouvelles perspectives sur la période étudiée.
  • 12/04/2019 : Exploring metabolic modulations using genome-scale network modelling and omics data in the context of toxicological studies: application for deciphering metabolic shifts occurring during the differentiation of the human hepatic cell line HepaRG. Nathalie Poupin (INRA Toulouse, Toxalim)
Résumé : Many man-made chemicals present as contaminants in food and/or water are strongly suspected to induce adverse metabolic effects in Human. Liver is the key organ for xenobiotics biotransformation, and the use of metabolically competent cell lines is essential to explore the mechanisms underlying the metabolic effects of these substances. The hepatic cell line HepaRG, which is increasingly used in toxicity studies, has the particularity to differentiate from progenitor to mature hepatocyte-like cells. We combined multi-omics data and in silico methods in order to better characterize the metabolic capacities of this cell line and to explore the metabolic shifts occurring during this differentiation process. We integrated transcriptomic and metabolomic data in the context of the global human genome-scale metabolic network Recon2, which gathers the metabolic reactions the organism can perform and their associated genes, to compute a relevant sub-network, more specifically representing the functional hepatic metabolic network of HepaRG cells at each developmental stages: day 3 (progenitors) and day 30 (differentiated cells). We used a modified version of the iMAT algorithm developed by Shlomi et al. to identify, based on these data, the sub-networks of reactions specifically active in HepaRG cells at each developmental stage. For each stage, we identified several sub-networks of active reactions, having an equivalent adequacy to experimental data. We applied classification analysis methods to explore intra- and inter-stages variability among these sub-networks. We showed that, for each stage, the heterogeneity between sub-networks was mainly caused by the occurrence of several alternative reactions or the relative low contribution of transcriptomic data in some pathways. To better characterize the systemic metabolic capacities of the cells, we chose, contrary to most approaches, to consider the whole set of similarly adequate sub-networks, since it allows taking into account various metabolic alternatives. Through simulations and pathway enrichment analyses, we predicted that differentiated cells would globally be able to perform a larger number of liver-specific functions (e.g., urea production) and we identified several sets of reactions that were differently active between the two stages. These reactions mostly belong to pathways specific to hepatic activity (e.g., bile acid synthesis) but also to fatty acid synthesis and oxidation pathways. About 50% of the predicted modulated reactions were not evidenced from transcriptomic data and were « newly » inferred by the computational models. Globally, we showed that combining in silico methods with omics data enables to characterize global shifts in the developing hepatic metabolic network.
  • 05/04/2019 : Trois outils sur le traitement de données RNA-Seq. Matthias Zytnicki (MIAT).
Résumé : Je vous parlerai de trois outils que j'ai développés (en collaboration) ces dernières années sur le traitement de données (s)RNA-Seq, issues de l'expression de gènes, et de petits ARN. Je présenterai tout d'abord mmquant/mmannot, des outils de quantification de gènes, qui traitent de façon originale les gènes dupliqués. Ensuite, je présenterai srnaDiff, qui tente de trouver les régions de petits ARN différentiellement exprimés, sans connaître a priori les gènes. Enfin, je présenterai srnaMapper, un outil de mapping de petits ARNs.

Séminaire IMABS (salle de conférence Marc Ridet) :

  • 29/03/2019 : Gestion durable des résistances dans les paysages agricoles: la modélisation à la rescousse (?). Frédéric Fabre (INRA Bordeaux, SAVE)
Résumé : Le contournement des résistances des plantes par les agents pathogènes met en jeu de nombreuses forces évolutives qui sont en partie contrôlées génétiquement par les plantes et représentent donc des leviers d’action potentiels pour gérer les maladies. Or, ces forces évolutives interagissent entre elles à différentes échelles de temps et d’espace. Il est donc difficile d’appréhender seulement expérimentalement leurs rôles respectifs afin d’orienter les choix des sélectionneurs lors de la création variétale et des agriculteurs lors du déploiement des variétés. Dans ce contexte, la modélisation constitue un outil intégrateur des connaissances acquises sur les interactions entre les structures paysagères et les dynamiques épidémiologiques et évolutives des agents pathogènes. Différentes approches couplant expérimentations sur l’adaptation des virus aux gènes de résistance des plantes et modélisation seront présentées. A l’échelle des plantes hôtes, des travaux estimant l’importance relative de la mutation, de la sélection et de la dérive génétique lors des dynamiques évolutives des populations virales seront présentées (Rousseau et al., 2017). A l’échelle des paysages, l’expérimentation est particulièrement difficile. Aussi, le rôle de ces forces évolutives dans les étapes impliquées dans le contournement des résistances à cette échelle est étudié essentiellement par modélisation. Des travaux comparant les grandes familles de stratégies de déploiement des gènes de résistance (pyramidage, rotation, mosaïques et mélanges variétaux) vis-à-vis de la durabilité des gènes de résistances et de leur efficacité pour réduire l’impact des épidémies seront présentées (Djidjou-Demasse et al, 2017 ; Rimbaud et al., 2018a, 2018b).
Références :
    • Djidjou-Demasse R, Moury B, Fabre F (2017). Mosaics often outperform pyramids: Insights from a model comparing strategies for the deployment of plant resistance genes against viruses in agricultural landscapes. The New Phytologist 216:239-253.
    • Rousseau E, Moury B, Mailleret L, Senoussi R, Palloix A, Simon V, Valière S, Grognard F, Fabre F. (2017). Estimating virus effective population size and selection without neutral markers. PLoS Pathogens 13:e1006702.
    • Rimbaud, L., Papaïx, J., Rey, J.-F., Barrett, L. G., and Thrall, P. H. (2018a). Assessing the durability and efficiency of landscape-based strategies to deploy plant resistance to pathogens. PLoS Computational Biology 14:e1006067.
    • Rimbaud, L., Papaïx, J., Barrett, L. G., Burdon, J. J., and Thrall, P. H. (2018b). Mosaics, mixtures, rotations or pyramiding: What is the optimal strategy to deploy major gene resistance? Evolutionary Applications 11:1791-1810.
    • 22/03/2019 : Probing sequence-level instructions for gene expression. Charles Lecellier (Institut de Génétique Moléculaire de Montpellier / Institut de Biologie Computationnelle, CNRS).
    Résumé : Gene expression is orchestrated by distinct regulatory regions to ensure a wide variety of cell types and functions. A challenge is to identify which regulatory regions are active, what are their associated features and how they work together in each cell type. This is all the more warranted as GWAS studies show that the vast majority of the human genome harbors plethora of regulatory elements lying in unannotated regions and their characterization is a necessary step towards the development of medical genomics. In that context, we develop machine learning methods to integrate and interpret diverse types of genomics data, delineate relevant genomic regions and identify novel regulatory elements. I will specifically present our work demonstrating the existence of instructions for gene expression lying at the level of DNA sequence. Our approach positions nucleotide composition as a critical component of gene expression and unveils a strong influence of intronic sequences. We further show that these instructions can be linked to co-regulations associated with genome 3D architecture and to associations of genes within topologically associated domains.
    • 15/03/2019 : Median-of-means : Sélection robuste d'estimateur. Joon Kwon (MIA Paris).
    Résumé : On se place dans un contexte d'apprentissage statistique où les données peuvent être polluées par des exemples absurdes. On propose un algorithme qui construit un estimateur performant (en sélectionnant d'un sous-ensemble sain de données) et dont les hyper-paramètres ont été automatiquement optimisés. Travail et collaboration avec G. Lecué et M. Lerasle.

    Pas de séminaire le 1er et 8 mars (vacances scolaires)

    • 22/02/2019 : Utilisabilité des indices de végétation MODIS pour la prévision du rendement de la culture de maïs aux Etats Unis. Ronan Trepos (MIAT, INRA).
    Résumé : La télédétection permet de fournir en routine des indices de végétation  calculés à partir de la réfléctance des couverts végétaux. L'étude des séries temporelles de ces indices  peut être une façon d'évaluer le niveau de production des culture et ses impacts. En parallèle, les modèles de culture (STICS,  DSSAT, ...) simulent la dynamique des cultures en considérant un  peuplement homogène sur une surface donnée (parcelle, placette). Les entrées et paramètres de  ces modèles sont nombreux et difficiles a acquérir ou estimer, et impactent fortement la simulation. Les indices de végétation issus de la  télédétection sont donc souvent utilisés pour recalibrer les modèles, ou alors ils sont assimilés pour corriger  les trajectoires des variables simulées. Dans le cadre d'un projet visant ce type de couplage entre les indices  de végétation et les modèles de culture, je vais présenter une étude préliminaire sur l'utilisabilité des indices  de végétation MODIS pour la prévision du rendement du maïs aux Etats Unis.
    • 15/02/2019 : Au-delà des conteneurs : Environnements logiciels reproductibles avec GNU Guix. Ludovic Courtès (INRIA Bordeaux, SED). Diaporama
    Résumé : La reproductibilité des expériences impliquant du logiciel est un enjeu scientifique majeur. Docker et Singularity peuvent répliquer un environnement logiciel mais permettent difficilement d’aller au-delà et d’expérimenter. Peut on concilier reproductibilité et expérimentation pour les environnements logiciels ? GNU Guix est comparable à apt-get, yum ou CONDA, mais il fournit des binaires reproductibles et un suivi de leur provenance. Il peut aider à la gestion d’environnements comme VirtualEnv ou encore provisionner des conteneurs. J’évoquerai notre expérience avec Guix en calcul intensif (HPC) et son positionnement par rapport à des outils comme Singularity ou EasyBuild. Enfin j'expliquerai comment nous cherchons à intégrer la notion de déploiement au cœur d’applications telles que Jupyter ou les outils de gestion de pipelines. Liens : https://guix-hpc.bordeaux.inria.fr/ et https://gnu.org/s/guix
    • 8/02/2019 : Approaches for predicting phenotypic plasticity of agronomical traits. Pierre Casadebaig (UMR AGIR, INRA Toulouse).
    Résumé : Ce séminaire présente deux approches numériques pour prédire des traits complexes agronomiques dans une diversité d'environnements. Un premier cas d'étude considère que l'on dispose d'informations sur le génotype des variétés étudiées et propose des approches de modélisation adaptées (gene-based models, whole genome prediction models). Ce cas d'étude sera illustré par quelques exemples avec la culture de tournesol. Dans un second cas d'étude, nous disposons de moins d'informations sur la plante et présenterons une approche de modélisation basée sur les traits fonctionnels. Nous illustrerons cette approche avec un récent projet de recherche sur les cultures associées (mélange de deux espèces dans un même champ).
    • 1/02/2019 : Sociétés rurales du passé et du présent : Une approche par Modélisation sociale multi-agents spatialisée. Mehdi Saqalli (UMR GEODE, CNRS). diaporama.
    Résumé : Cette présentation traite de la démarche élaborée pour la reconstitution des socio-écosystèmes au sens de Elinor Ostrom, à savoir la combinaison populations et règles sociales d’une part, territoire et environnement d’autre part, qui interagissent par l’intermédiaire des aménités et services écosystémiques qui les relient et en particulier via les systèmes agraires. Nous présentons plusieurs exemples d’application actuels (dynamiques sociales, modes d’organisation familiale et héritages au Sahel nigérien ; contamination pétrolière et colonisation de l’Amazonie équatorienne) et passés (populations et systèmes agraires de la culture rubanée sur les 1000 ans entourant l’expansion et la disparition finale de cette culture sur l’Europe tempérée). La construction de ces modélisations multi-agents spatialisées passe par la formalisation des paramètres environnementaux et agro-zootechniques mais aussi des règles socio-anthropologiques et économiques qui, fonctionnant et s’adaptant aux mailles les plus petites, sociales (la famille et l’individu), temporelle (la saison, le mois voire la semaine) et spatiale (l’hectare le plus souvent) et évoluant selon les conditions du milieu local (écologie, dynamique passée, démographie) permettent de reconstituer des dynamiques sociales et spatiales passées mais aussi, pour l’actuel, d’envisager une exploration de la résilience des systèmes et de la prospective sur leurs futurs, au travers de scénarios dont la légitimité est toujours à formaliser collectivement.
    • 25/01/2019 : Développements récents et ouvertures pour la détection de segments atypiques au sein de séquences. Sabine Mercier (UT2J, IMT).
    Résumé : Nous commencerons par définir le score local et présenter le contexte historique des travaux théoriques sur sa distribution. Deux résultats récents seront ensuite développés. Une approximation asymptotique de la loi du score local pour une chaîne de Markov, améliorant les résultats de Karlin et Dembo de 1992 passés sous silence, sera tout d'abord présentée. Nous proposons ensuite de probabiliser l'espace de tous les segments possibles, optimaux et sous optimaux, sans se limiter aux segments réalisant le score local ; de mettre cet espace en relation avec celui provenant naturellement de l'utilisation des chaînes de Markov cachées. Cette dualité permet alors un transfert de compétences pour la détection de segments atypiques. Les ouvertures prometteuses de ces travaux, ainsi que les résultats sur le score local de manière générale, seront abordées : application en Maîtrise statistique des Procédés ; inférence sur le score local ; approximation du nombre de régions de scores dépassant un seuil donné ; test multiple...
    • 18/01/2019 : Classification des essences arborées à partir de séries temporelles d'images satellitaires. David Sheeren (ENSAT, Toulouse).
    Résumé : La connaissance précise de la localisation des peuplements forestiers et leur composition en essences est une donnée incontournable pour les  gestionnaires réalisant des opérations sylvicoles. C’est aussi un préalable indispensable pour étudier la réponse des forêts au changement climatique et prédire la répartition potentielle des essences dans le futur. Dans cet exposé, je montrerai le potentiel qu'offre les séries  temporelles d'images optiques à haute résolution spatiale pour discriminer automatiquement les essences dominantes dans des forêts de feuillus et conifères. Après une présentation des données et de la démarche méthodologique adoptée faisant appel à des techniques d'apprentissage statistique, je décrirai les résultats obtenus sur 9 années à partir de séries Formosat-2, leur stabilité inter-annuelle, et l'impact de la prise en compte de l'auto-corrélation spatiale des échantillons sur la performance des modèles. Dans un second temps, un travail spécifique sur la détection de peupleraies avec des données Sentinel-2 sera évoqué, en montrant l'intérêt de l'apprentissage actif pour adapter progressivement le modèle et le rendre exploitable à large échelle. 
    Résumé : Abstract argumentation is an elegant way to tackle reasoning problems in presence of conflicting information. This reasoning model finds applications in various domains such as medicine, law, or agriculture. The seminal paper by Dung defines an argumentation framework as a digraph whose nodes are abstract entities called arguments, and edges are attacks representing the conflicts between these arguments. Several acceptability semantics allow to decide which sets of arguments are accepted, depending on the properties which are expected to be satisfied by a set of arguments to be a rational “outcome” of the framework. Numerous enrichments of Dung’s framework have been proposed, for example, to take into account some supports between arguments besides the attacks, or some preferences between arguments. This talk presents some of these formal frameworks, and addresses a challenging issue that has been addressed in the past few years in this context: the dynamics of abstract argumentation settings
    • Exceptionnellement mardi 8/01/2019 : Une méta-analyse transcriptomique identifie une réponse globale aux stress chez la plante modèle Arabidopsis. Marie-Laure Martin-Magniette (MIA Paris & IPS2).
    Résumé : La réponse des plantes aux stress est contrôlée par de nombreux réseaux d’interactions moléculaires. Au niveau transcriptomique, ces réseaux peuvent être explorés par des approches de « coupable par association » pour identifier des modules fonctionnels contrôlant la physiologie de la plante. La quantité des jeux transcriptomiques disponibles dans les bases de données publiques internationales constituent une ressource génomique importante mais leur diversité peut également être considérée comme une limitation pour des méta-analyses car les jeux de données peuvent être très hétérogènes dans leur construction. Pour limiter cet inconvénient, dans notre projet, nous avons considéré presque 400 comparaisons transcriptomiques décrivant des réponses aux stress de la plante modèle Arabidopsis thaliana, toutes produites au cours des 15 dernières années par la plateforme de notre institut avec des protocoles standardisés (Gagnot et al (2008) NAR 36:D986-90). Ces comparaisons ont été divisées en 18 catégories (9 stress biotiques et 9 stress abiotiques) et pour chaque catégorie, nous avons identifié des groupes de gènes co-exprimés à l’aide d’un modèle de mélange gaussien. Au total, 634 groupes de co-expression ont été identifiés et leur annotation a montré de nombreux enrichissements fonctionnels. Tous les résultats par catégorie de stress sont disponibles dans le module GEM2Net (https://tools.ips2.u-psud.fr/GEM2NET) de la base de données CATdb (Zaag et al (2015) NAR 43:D1010–D1017). Les analyses de co-expression étant faites par catégorie de stress, nous les avons ensuite intégrées pour construire à l’aide de modèle de mélange de graphes un réseau de co-régulation impliquant 2274 gènes regroupés en 43 communautés stables. Une analyse topologique de ce réseau de co-régulation a permis d’identifier 4 grandes fonctions biologiques et une organisation hiérarchique entre ces 4 grandes fonctions qui est la réponse globale aux stress des plantes. L’objectif de cet exposé est de présenter les différentes étapes de ce projet, la méthodologie employée et l’apport de la modélisation statistique.

    Pas de séminaire le 28 décembre, ainsi que le 4 janvier (vacances scolaires)

    • 21/12/2018 exceptionnellement à 14h : Retour sur ANITI, le projet d'Institut Interdisciplinaire d'Intelligence Artificielle. Frédérick Garcia (MIAT).
    • 14/12/2018 : Les temps de coalescence pour trois gènes permettent de distinguer entre changement de taille et structure. Simona Grusea (INSA Toulouse).
    Résumé : La quantité croissante de données génomiques actuellement disponibles élargit les horizons de l'inférence en génétique des populations. Un large éventail de méthodes a été publié permettant de détecter et de dater les changements majeurs dans la taille d'une population au cours de l'histoire de l'espèce. En même temps, il est de plus en plus reconnu que la structure d'une population peut générer des données génétiques similaires à celles générées dans les modèles de changement de taille. Récemment, nous avons montré que, quel que soit le modèle de structure de population, il est toujours possible de trouver un modèle panmictique, avec une fonction particulière de changement de taille, ayant une distribution identique de Tk (le premier temps de coalescence pour un échantillon de taille k). Cela implique que l'on ne peut pas distinguer entre un modèle panmictique et un modèle structuré lorsque nous basons notre analyse uniquement sur un seul temps de coalescence. Je présenterai dans cet exposé un travail récent dans lequel, basé sur une étude analytique de la matrice de taux du processus des lignées ancestrales, nous obtenons de nouveaux résultats théoriques sur la distribution jointe des temps de coalescence T3 et T2 pour un échantillon de trois gènes dans une modèle à n îles symétrique. En particulier, nous montrons que cette distribution est toujours différente de celle obtenue dans une population panmictique, quel que soit le scénario de changement de taille de population. La distribution jointe des temps de coalescence (T3, T2) pour un échantillon de trois gènes contient donc suffisamment d'information pour permettre de distinguer entre une population panmictique et un modèle à n îles symétrique.
    • 07/12/2018 : Recent algorithmic advances for combinatorial optimization in graphical models. Simon de Givry (MIAT).
    Résumé : By representing the constraints and objective function in fac-torized form, graphical models can concisely define various NP-hard combinatorial optimization problems. They are therefore extensively used in several areas of computer science and artificial intelligence. Graphical models can be deterministic or stochastic, optimize a sum or product of local functions, defining a joint cost or probability distribution. Simple transformations exist between these two types of models, but also with MaxSAT and integer programming. During the past ten years, we have been developing a graphical model solver called toulbar2 and we report on a large comparison of exact solvers which are all state-of-the-art for their own target language. We present recent algorithmic advances in toulbar2 including generalized clique cuts and parallel variable neighborhood search methods that make the solver very competitive on several benchmarks coming from probabilistic inference, computer vision and pattern recognition, weighted MaxSAT, and weighted MaxCSP competitions. Solver toulbar2 is available at http://www.inra.fr/mia/T/toulbar2.
    • 30/11/2018 : Inférence de traits fonctionnels à partir de données métagénomiques par NMF. Sandra Plancade (INRA MAIAGE, ISBA Louvain)
    Résumé : La métagénomique étudie le matériel génétique d'un écosystème bactérien, qui désigne l'ensemble des bactéries présentes dans un milieu donné, dans le but de caractériser l'écosystème et les fonctions qui y sont réalisées, ainsi que leur association avec des phénotypes. Dans ce contexte, la NMF (Nonnegative Matrix Factorization), une technique de réduction de dimension sous contraintes de positivité, permet simultanément la comparaison d'échantillons biologiques et l'inférence de structures existantes dans l'écosystème. Dans cet exposé, je présenterai une méthode d'exploration des voies métaboliques associées au processus de digestion des fibres, à partir de mesures métagénomiques dans l'intestin. Cette approche s’appuie sur la construction préalable d’une liste de traits fonctionnels élémentaires caractérisés par un groupe de gènes microbiens, à partir d’une base d’annotation fonctionnelle rassemblant des connaissances biologiques. Une matrice d'abondances en traits fonctionnels pour un ensemble d’individus est alors calculée à partir de mesures métagénomiques. Le modèle biologique considéré suppose l’existence de voies métaboliques caractérisées par une proportion en chacun des traits fonctionnels, et de profils métaboliques individuels définis par une composition en chacune des voies, ce qui correspond à une décomposition NMF. La modélisation est complétés par des contraintes permettant l'inclusion de connaissances biologiques et biochimiques.
    • 23/11/2018 : Viability theory and management of sustainability.  Guillaume Deffuant (IRSTEA, LISC)
    Résumé : This talk introduces viability theory and its potential in the management of sustainability. Viability theory addresses the problem of maintaining a dynamical system within a given subset of states, generally called the constraint set. Instead of optimising a criterion, the control strategy thus aims at avoiding crossing the limits of this constraint set. In the case of deterministic dynamics, the main theoretical concept of this theory is the viability kernel. This set includes all states from which there exists a control strategy maintaining the system indefinitely in the constraint set. Different viable control policies can be derived from the viability kernel, which makes this set of high practical interest. The viability kernel has also been used in a mathematical definition of resilience: the resilient states are the ones from which the viability kernel is reachable. Recently, this theory has been completed by other types of sets in a general theory of sustainable management, when making the hypothesis that standard or emergency controls can be applied depending on the situation. The practical application of these theories depends on the algorithms approximating viability kernels and reachable sets, which, unfortunately, face the famous dimensionality curse. The talk finally reports recent progress in improving these algorithms and some remaining challenges.
    • 16/11/2018 : How much maths does a biologist need, and vice versa? Toni Reverter-Gomez (CSIRO, Australie) en salle de conférence Marc Ridet
    Séminaire IMABS
    Résumé : “Every new body of discovery is mathematical in form, because there is no other guidance we can have” (Charles Darwin, 1809–1882). Biology is now awash with information, often with gigabytes of molecular data (DNA sequences; RNA expression levels; protein, metabolic, and methylation profiles) for each individual in a study. Hidden within this vast mass of data are hopefully strong signals that can be exploited for novel insight, and the search for such signals goes under a number of different names such as bioinformatics and systems biology. A number of molecular biologists are very proficient in generating such data, but only a handful of researchers have the requisite skills to develop and use the next generation of high dimensional statistics needed to find true associations. From a diametrically opposed side, Mathematicians have devoted enormous efforts to develop quantitative theory of the structure, organization, and dynamics of living systems. Questions such as at what speed should humans change from walking to running? Or how should an individual animal divide its resources, between growth and reproduction, to maximize its fitness? Are illuminated by the powerful methods of optimization theory. With a preference for quantitative genetics and genomics, in this seminar I will offer an opinionated overview of positives, and not so positives synergies between biology and mathematics.
    • Exceptionnellement mercredi 7/11/2018 : Inference for high-dimensional Poisson regression problems. Vincent Rivoirard (Université Paris-Dauphine, CEREMADE).
    Résumé : Sparse linear regression problems appear in a variety of settings, but often the noise contaminating observations cannot accurately be described as bounded by or arising from a Gaussian distribution. Poisson observations in particular are a characteristic feature of several real-world applications. Previous work on sparse Poisson regression problems encountered several limiting technical hurdles. This talk describes a novel alternative analysis approach for sparse Poisson inverse problems that (a) sidesteps the technical challenges present in previous work, (b) admits estimators that can readily be computed using off-the-shelf LASSO algorithms, and (c) hints at a general weighted LASSO framework for broad classes of problems. At the heart of this new approach lies a weighted LASSO estimator for which data-dependent weights are based on Poisson concentration inequalities. Unlike previous analyses of the weighted LASSO, the proposed analysis depends on conditions which can be checked or shown to hold in general settings with high probability.

    Pas de séminaire le 2 novembre (vacances scolaires)

    • 26/10/2018 : De la recherche à l'innovation à l'INRA. Exemple du domaine d'Innovation "Agriculture Numérique". Denis Allard (BioSP -- CPI Agriculture Numérique, Dept. MIA, INRA)
    Résumé : Le domaine d'innovation (DI) "Agriculture de Précision", comme les 15 autres domaines de l'innovation définis à l'INRA sont l'un des éléments de la politique partenariat-transfert-innovation (PTI) mise en place à l'INRA depuis 2015 environ. Après avoir rappeler quelques éléments généraux concernant la PTI de l'INRA, et les missions couvertes par un DI, je détaillerai quelques enjeux de recherche relevant du DI "Agriculture Numérique".
    • 19/10/2018 : Séminaire remplacé par la soutenance de thèse de A. Imbert: Intégration de données hétérogènes complexes à partir de tableaux de tailles déséquilibrées qui débutera à 14h en salle Marc Ridet
    Résumé : Les avancées des nouvelles technologies de séquençage ont permis aux études cliniques de produire des données volumineuses et complexes. Cette complexité se décline selon diverses modalités, notamment la grande dimension, l'hétérogénéité des données au niveau biologique (acquises à différents niveaux de l'échelle du vivant et à divers moments de l'expérience), l'hétérogénéité du type de données, le bruit (hétérogénéité biologique ou données entachées d'erreurs) dans les données et la présence de données manquantes (au niveau d'une valeur ou d'un individu entier). L'intégration de différentes données est donc un défi important pour la biologie computationnelle. Cette thèse s'inscrit dans un projet de recherche clinique sur l'obésité, DiOGenes, pour lequel nous avons fait des propositions méthodologiques pour l'analyse et l'intégration de données. Ce projet est basé sur une intervention nutritionnelle menée dans huit pays européens et vise à analyser les effets de différents régimes sur le maintien pondéral et sur certains marqueurs de risque cardio-vasculaire et de diabète, chez des individus obèses. Dans le cadre de ce projet, mes travaux ont porté sur l'analyse de données transcriptomiques (RNA-Seq) avec des individus manquants et sur l'intégration de données transcriptomiques (nouvelle technique QuantSeq) avec des données cliniques. La première partie de cette thèse est consacrée aux données manquantes et à l'inférence de réseaux à partir de données d'expression RNA-Seq. Lors d'études longitudinales transcriptomiques, il arrive que certains individus ne soient pas observés à certains pas de temps, pour des raisons expérimentales. Nous proposons une méthode d'imputation multiple hot-deck (hd-MI) qui permet d'intégrer de l'information externe mesurée sur les mêmes individus et d'autres individus. hd-MI permet d'améliorer la qualité de l'inférence de réseau. La seconde partie porte sur une étude intégrative de données cliniques et transcriptomiques (mesurées par QuantSeq) basée sur une approche réseau. Nous y montrons l'intérêt de cette nouvelle technique pour l'acquisition de données transcriptomiques et l'analysons par une approche d'inférence de réseau en lien avec des données cliniques d'intérêt.
    • 12/10/2018 : Inférence de données de réseaux multipartites par modèles à blocs latents et stochastiques. Application en écologie et ethnobiologie. Sophie Donnet (MIA Paris, INRA)
    Résumé : Modéliser les relations entre entités (individus, insectes, plantes...) est une problématique classique en sciences sociales et en écologie et regrouper les entités étudiées en fonction des motifs observés dans le réseau permet de comprendre la topologie du réseau. Les modèle à blocs stochastiques ou latents sont une approche répandue pour regrouper les individus partageant le même comportement d'interaction. Dans ce travail, nous nous intéressons au cas où nous cherchons à modéliser des réseaux multipartites, i.e. des réseaux dans lesquels les entités appartiennent à des groupes fonctionnels prédéfinis. Les modèles à blocs stochastiques ou latents reposent sur l'introduction des variables latentes, rendant leur vraisemblance incalculable de façon explicite dès que la taille des réseaux augmente. Nous utilisons alors une version stochastique de l'algorithme EM. La pertinence de notre modèle et de notre méthode d'inférence est illustrée sur données simulées et réelles.
    • 05/10/2018 : Input output kernel regression for protein-protein interaction prediction and metabolite identification. Céline Brouard (INRA, MIAT) diaporama
    Résumé : Many real world learning tasks require predicting outputs that correspond to complex structured objects or to multiple interdependent outputs. Structured prediction approaches making use of the statistical  dependencies between the output parts, have been shown to achieve an improved prediction performance in several applications. I will present  a kernel-based structured output prediction approach, called Input Output Kernel Regression. In this approach the internal structure of the output data is encoded using a kernel function, that measures the similarity between two outputs. This approach is based on the idea of  using the kernel trick in the output space and making predictions in a feature space associated with the output kernel. I will focus in my presentation on two applications of this work. The first application is the prediction of protein-protein interactions. Another application will be presented on the metabolite identification problem, that consists in determining the molecular structure of an  unknown metabolite from tandem mass spectrometry data.
    • 28/09/2018 : La plateforme Souk. Gilles Tredan (LAAS, Toulouse)
    Résumé : Depuis 2012, une partie de nos recherches porte sur la caractérisation des structures d’interaction sociales. Nous avons pour cela développé une plateforme d’observation sociale des « cinétiques » humaines : SOUK (Social Observation of hUman Kinetics). Le principe de cette plateforme est de pouvoir collecter avec une grande précision spatiale et temporelle la position des individus d’une foule dense. SOUK fonctionne à la manière d’un GPS inversé plutôt précis (15cm) et rapide (1-4 hz). Grâce à ce système, il est possible de suivre le déplacement de groupes d'individus (jusqu'à 60 personnes) dans des espaces délimités, et d’analyser les mobilités et interactions au sein de ces groupes. Cet outil a été déployé lors de plusieurs campagnes expérimentales à Toulouse et à Milan dans des contextes variés : personnes dans une foule, danseurs, évènements sociaux (buffets), animaux au sein d’un troupeau... Lors de cette présentation a vocation panoramique, j'aborderai quelques résultats et perspectives issus de l’analyse des données ainsi collectées.
    • 21/09/2018 : Données de la recherche… Vers l’ouverture Nathalie Gandon (CODIR - Département MIA, INRA) diaporama
    Résumé : Présentation des contextes (international, national et institutionnel), du cadre juridique et des offres de service inra autour de l’open data.
    • 14/09/2018 : Inférence des causes de la reprogrammation cellulaire par abduction Franck Delaplace (IBISC, Université d'Evry) diaporama
    Résumé : La médecine de réseau a pour objectif de définir la maladie à l’échelle des réseaux biologiques afin de mieux comprendre les mécanismes causaux de celle-ci. Des études dans ce domaine ont montré que la reprogrammation comportementale observée dans des maladies complexes telles que le cancer est causée par une modification du câblage du réseau moléculaire. La transition entre cellule saine et malade et inversement peuvent s'interpréter à l'échelle moléculaire comme une reprogrammation cellulaire induite par des perturbations topologiques des réseaux moléculaires induisant des changements du destin cellulaire. Pour la modélisation, l’objectif est d’inférer les actions topologiques sur un réseau induisant une variation de la dynamique incarnant ces transitions. Nous proposons un cadre théorique étendant les réseaux Booléens, appelé réseau booléen contrôlé où les actions de réseau topologique sont définies comme des contrôles de la dynamique. Sur la base de ce cadre, nous présentons un nouvel algorithme utilisant des principes de raisonnement abductif qui infère les perturbations causales minimales conduisant à un comportement attendu aux états stables de la dynamique. Ce cadre de modélisation s’applique à priori à un grand nombre de situation biologique d’alteration du destin cellulaire reposant sur sa reprogrammation. Nous l’illustrerons sur un modèle du cancer du sein, que nous considérons comme une preuve de concept, en inférant à la fois les oncogènes, les suppresseurs de tumeurs et des cibles thérapeutiques. Travail joint avec Célia Biane
    • 7/09/2018 : SAA-ILP approach for multi-objective landscape optimization under uncertainty: theory and application Yann Dujardin (MIAT)
    Résumé : Theory: The Graph-based Markov Decision Process (GMDP) framework forms a class of MDP with factored state and action spaces, which has been studied for the past ten years. Since state and action spaces share the same graphical structure, it may be useful to model the control of spatial processes or collaborative multi-agent decision problems with local interactions. The concept of local policies in GMDP is especially useful, since it leads to interpretable objects, unlike optimal global policies which usually require exponential space to represent. Several time efficient algorithms to compute approximate local policies in GMDP have been proposed in the last decade. On the other hand, while efficient in practice, existing algorithms come without any performance guarantee on the returned local policies. Furthermore, while real-world collaborative decision problems modeled by GMDP generally contain several objectives to be optimized, no attention has been given yet, to our knowledge, to multi-objective GMDP. Our first contribution is to propose a Sample Average Approximation (SAA) approach for GMDP combined with an original ILP formulation. Unlike existing algorithms for GMDP, we provide theoretical hardness results and performance guarantees. Then, we show how the SAA-ILP approach can model and solve multi-objective GMDP. Application: An agricultural landscape can be devised according to various criteria,often antagonist (all of them cannot be optimized simultaneously). When managing agro-ecosystems, finding "good compromise" solutions between these criteria is therefore critical. However, finding landscape management strategies that enable to reach satisfying trade-offs on different criteria is difficult for several reasons: 1) the processes involved in these strategies making are spatio-temporal processes, 2) decision must been made under uncertainty, 3) modeling and solving multi-objective optimization problems is more difficult that mono-objective ones. We consider the problem of finding best compromise solutions to a particular multi-objective landscape management problem under uncertainty. Possible decisions consist in assigning a sequence of cultures, over a time horizon, to every site of an agricultural network. These sequences will directly influence three criteria: total profit, biodiversity, and equity between the stakeholders. Sequences also influence pollinators dynamics, the position of which can itself influence the criteria in another way. Criteria are computed over a time horizon. The dynamics of the pollinators are spatio-temporal and subject to uncertainty. To solve this problem, we propose a multi-objective SAA-ILP-based solver that allows a decision-maker to interactively discover the agricultural landscape that corresponds to a (subjective) best compromise between the criteria.

    Séminaires passés / Past seminars  :

    Lien vers la Liste des séminaires passés de l'unité MIAT.

    Contacts:

    Si vous souhaitez présentez vos travaux durant le séminaire MIAT, n'hésitez pas à contacter Patrick Taillandier ou Matthias Zytnicki.

    Génotoul BioInfo
    Équipe RECORD
    IMABS
    Outils personnels