Séminaires : Différence entre versions

De MIAT INRA
Aller à : navigation, rechercher
(Séminaires de l'année en cours et séminaires futurs)
(01/10/2021 : Titre à venir Raphaël Mourad (IBCG, Université Toulouse 3 & Délégation INRAE MIAT))
(190 révisions intermédiaires par 5 utilisateurs non affichées)
Ligne 4 : Ligne 4 :
 
[[File:Pyrenees-morning.jpg|thumb|center|800px|Pyrenees-morning.jpg]]
 
[[File:Pyrenees-morning.jpg|thumb|center|800px|Pyrenees-morning.jpg]]
  
Le séminaire de l'équipe MIAT de l'INRA de Toulouse est un endroit d'échanges scientifiques et techniques entre les membre de l'unité et des experts en mathématiques, informatique, agro-écosystèmes, bioinformatique, etc. Les présentations peuvent être sur des travaux en cours, des projets finalisés hautement spécialisés ou à valeur plus éducative / informationnelle. Les aspects mis en avant peuvent être d'ordre méthodologique ou applicatif.
+
Le séminaire de l'équipe MIAT d'INRAe Toulouse est un endroit d'échanges scientifiques et techniques entre les membre de l'unité et des experts en mathématiques, informatique, agro-écosystèmes, bioinformatique, etc. Les présentations peuvent être sur des travaux en cours, des projets finalisés hautement spécialisés ou à valeur plus éducative / informationnelle. Les aspects mis en avant peuvent être d'ordre méthodologique ou applicatif.
  
Les présentations peuvent être en français ou en anglais pour une durée d'une heure (45min + questions). Sauf contre-indication, les séminaires ont lieu dans la salle de réunion MIAT à 10h30 le vendredi. L'accès à l'unité MIAT de l'INRA Auzeville/Castanet est indiqué [[Accès_MIAT|ici]] (nous sommes à moins de 30 mètres de la réception&nbsp;!). <!--The seminar of the MIAT Unit of the INRA in Toulouse is a place for scientific and technical exchanges between members of the unit and experts in mathematics, computer science,&#160;agro-ecosystems, bioinformatics ''etc.'' Talks can be on mature ongoing working subjects, on finalized highly specialized projects or have a more informative/educational scope. The focus can be on methodological aspects as well as on applications. Some presentations during other local seminars can be flagged as highly interesting to the usual audience of the MIAT seminar.
+
Les présentations peuvent être en français ou en anglais pour une durée d'une heure (45min + questions). Sauf contre-indication, les séminaires ont lieu dans la salle de réunion MIAT à 10h30 le vendredi. L'accès à l'unité MIAT d'INRAe Auzeville/Castanet est indiqué [[Accès_MIAT|ici]] (nous sommes à moins de 30 mètres de la réception&nbsp;!).  
Presentations can be either in English or in French. According to the presentation, a typical seminar lasts from 45min to a couple of hours. Unless otherwise stated, it is held in the MIAT meeting room at 10.30 on Fridays. Acces to the INRA Auzeville/Castanet, MIAT unit is indicated [[Accès_MIAT|here]] (we're less than 30 meters from the reception&#160;!). -->
 
  
&nbsp;
+
== Séminaires de l'année en cours et séminaires futurs ==
 +
 
 +
==== 12/11/2021&nbsp;: ''Titre à venir'' Céline Bougel (visiteuse scientifique IMABS, INRAE) ====
 +
 
 +
==== 29/10/2021 et 05/11/2021&nbsp;: Vacances scolaires - pas de séminaire ====
 +
 
 +
==== 22/10/2021&nbsp;:  ====
 +
 
 +
==== 15/10/2021&nbsp;: Séminaire interne  (SaAB) ====
 +
 
 +
==== 08/10/2021&nbsp;: ''Titre à venir'' [https://sites.google.com/site/charpelletier/ Charlotte Pelletier] ====
 +
 
 +
==== 01/10/2021&nbsp;: ''Titre à venir'' [https://sites.google.com/site/raphaelmouradeng/ Raphaël Mourad] (IBCG, Université Toulouse 3 & Délégation INRAE MIAT) ====
 +
 
 +
==== 24/09/2021&nbsp;: Journée « Impact carbone de la recherche et du numérique » dans le cadre des animations IMABS ====
 +
 
 +
==== 17/09/2021&nbsp;: ''Titre à venir'' Amine Ghozlane (Institut Pasteur)  ====
 +
 
 +
==== 10/09/2021&nbsp;: ''Titre à venir'' Paul Terzian (Séminaire interne, plateforme Bioinformatique) ====
 +
 
 +
==== 03/09/2021&nbsp;: ''Titre à venir'' [http://genome.jouy.inra.fr/~ltournier/ Laurent Tournier] (INRAE, MaIAGE) ====
 +
 
 +
==== 09/07/2021&nbsp;: ''Journée des stagiaires'' ====
 +
 
 +
==== 02/07/2021 à 9h15&nbsp;: ''Soutenance de thèse de Gaëlle Lefort'' « Quantification automatique de métabolites dans un spectre RMN et application à la description de la maturité périnatale chez le porc » ====
 +
 
 +
:'''Résumé'''&nbsp;: Parmi les nombreuses données ''omiques'' qui décrivent le fonctionnement biologique d'un organisme, le métabolome suscite un intérêt croissant car il est plus proche des phénotypes d'intérêt et qu'il a donc avoir un potentiel important pour la recherche de \emph{biomarqueurs}. La spectrométrie par résonance magnétique nucléaire (RMN) est une technologie haut-débit qui produit des spectres caractéristiques du mélange complexe de métabolites présents dans un échantillon d'intérêt. Cependant, leur interprétation biologique est difficile car ceux-ci ne donnent pas une mesure explicite des différentes quantités de métabolites présents dans l'échantillon.
 +
:Une approche prometteuse pour l'analyse de ces données consiste à identifier et quantifier les métabolites présents dans le mélange complexe à partir de son spectre et à réaliser l'analyse statistique sur les résultats de cette quantification. Une première partie de cette thèse a consisté en l'amélioration d'une méthode de quantification existante, ASICS, ainsi qu'à son implémentation dans un package R/Bioconductor. Une nouvelle méthode, prenant en compte l'ensemble des spectres d'une expérience lors de la quantification, a aussi été proposée dans le but d'améliorer la fiabilité des résultats.
 +
:Un second volet de cette thèse concerne l'application de cette méthode au problème de mortalité néonatale des porcelets et plus précisément à la description des mécanismes impliqués dans la mise en place de la maturité. L'analyse des spectres RMN de plasma, d'urine et de liquide amniotique de fœtus en fin de gestation a permis d'identifier des voies métaboliques impliquant de nombreux acides aminés et sucres (croissance et apport d'énergie) ainsi que le métabolisme du glutathion (stress oxydatif).
 +
 
 +
==== 25/06/2021&nbsp;: ''Multi-omics data integration: towards a comprehensive view of cancer'' [https://sites.google.com/view/laura-cantini/home Laura Cantini] (CNRS, IBENS) ====
  
 +
:'''Résumé'''&nbsp;: Due to the advent of high-throughput technologies, high-dimensional “omics” data are produced at an increasing pace. In cancer biology, national and international consortia have profiled thousands of tumors at multiple molecular levels (“multi-omics”) allowing to gather a comprehensive molecular picture of this disease. Moreover, multi-omics profiling approaches are currently being transposed at single-cell resolution, further increasing the information accessible from cancer samples.  The current main challenge is to design appropriate methods to integrate this wealth of information and translate it into actionable biological knowledge.
 +
:In this talk, I will discuss two main computational directions for multi-omics integration: (i) multilayer networks to integrate a large range of interactions and (ii) joint dimensionality reduction to extract biological knowledge simultaneously from multiple omics. First, I will present their application on bulk data and then I will discuss our ongoing research in single-cell.
 +
:Selected associated publications & preprints
 +
:Cantini L, Medico E, Fortunato S, Caselle M. Detection of gene communities in multi-networks reveals cancer drivers. Scientific reports. 2015 Dec 7;5(1):1-0.
 +
:Cantini, L., Zakeri, P., Hernandez, C., Naldi, A., Thieffry, D., Remy, E., Baudot, A., 2021. Benchmarking joint multi-omics dimensionality reduction approaches for the study of cancer. Nature Communications 12.
 +
:Kang Y, Thieffry D, Cantini L. Evaluating the reproducibility of single-cell gene regulatory network inference algorithms. Frontiers in genetics. 2021 Mar 22;12:362.
 +
:Huizing GJ, Peyré G, Cantini L. Optimal Transport improves cell-cell similarity inference in single-cell omics data. bioRxiv. 2021 Jan 1.
  
 +
==== 18/06/2021&nbsp;: ''Extensive benchmark of machine learning methods for quantitative microbiome data'' Magali Berland (MetaGenoPolis, INRAE) ====
  
 +
:'''Résumé'''&nbsp;: Characterization of microbial communities with omics technologies shed to light powerful biomarkers for diagnosis and prognosis in human health. In particular, shotgun metagenomics allows a highly precise microbiome profiling. Indeed, prediction of phenotypic features, such as clinical status or disease states can help to stratify patients which is the first step toward precision medicine. Many machine learning (ML) methods have been developed to tackle classification and regression problems yet statistical specificities of metagenomic data make difficult the learning task. We developed a R workflow designed to compare ML methods for classification or regression from the caret package. The Activeon Proactive engine was used to efficiently distribute the computing load on multiple servers. We then applied our workflow on a dataset where the fecal microbiota of patients with cardiovascular diseases is compared to healthy controls using shotgun metagenomics.
  
== Séminaires de l'année en cours et séminaires futurs ==
+
==== 11/06/2021&nbsp;: ''Hybrid direct and iterative solvers for the sparse indefinite and overdetermined systems on future exascale architectures'' Philippe Leleux (CERFACS) ====
  
==== ''Séminaire reporté''&nbsp;: ''Optimal convergence rates for Nesterov acceleration.'' [https://perso.math.univ-toulouse.fr/rondepierre/ Aude Rondepierre] (INSA/IMT) ====
+
:'''Résumé&nbsp;:''' In scientific computing, the numerical simulation of systems is crucial to get a deep understanding of the physics underlying real world applications. The models used in simulation are often based on partial differential equations (PDE) which, after fine discretisation, give rise to huge sparse systems of equations to solve. Historically, 2 classes of methods were designed for the solution of such systems: direct methods, robust but expensive in both computations and memory; and iterative methods, cheap but with a very problem-dependent convergence. In the context of high performance computing, hybrid direct-iterative methods were then introduced in order to combine the advantages of both methods, while using efficiently the increasingly large and fast supercomputing facilities. In this thesis, we focus on the latter type of methods with two complementary research axes. In a first research track, we detail the mechanisms behind the efficient implementation of multigrid methods. The latter makes use of several levels of increasingly refined grids to solve linear systems with a combination of fine grid smoothing and coarse grid corrections. The efficient parallel implementation of such a scheme is a difficult task. We then focus on the improvement of the parallel efficiency of a multigrid scheme and in particular the scalability of the solver used on the coarsest grid. At extreme scale, this study is carried in the HHG framework (Hierarchical Hybrid Grids) for the solution of a Stokes problem with jumping coefficients, inspired from Earth's mantle convection simulation.
 +
:In the following chapters, we study some hybrid methods derived from the classical row-projection method block Cimmino, and interpreted as domain decomposition methods. These methods are based on the partitioning of the matrix into blocks of rows on which projections are computed to iteratively approximate the solution of a linear system. Both methods are implemented in the parallel solver ABCD-Solver (Augmented Block Cimmino Distributed solver). Finally, for the solution of discretized PDE problems, we propose a new approach using a coarse representation of the space to obtain an iterative method with fast linear convergence, demonstrated on Helmholtz and Convection-Diffusion problems.
  
:
+
==== 04/06/2021&nbsp;: ''Hidden semi-Markov models : inference, control and applications'' Nathalie Peyrard (Séminaire interne, équipe SciDyn) ====
::'''Résumé&nbsp;:''' In this talk, we will give new optimal decay rates for the Nesterov acceleration scheme of classical gradient descent depending on the local geometry of the function to minimize. Only bounds on the rates are known for convex or strongly convex functions. We will give a more complete description of this rates using Lojasievicz and flatness conditions and explain how these decays can be obtained studying an ODE.
 
  
::This is a joint work with V. Apidopoulos, J.-F. Aujol and Ch. Dossal.
+
:''Résumé''&nbsp;: Le cadre HSMM est une extension du cadre HMM, où les durées de séjour dans les états cachés sont modélisées explicitement.
 +
:Je présenterai  les travaux en cours dans SCIDyn sur le thème de l'inférence dans les HSMM avec des applications en croissance des plantes et en inférence de chemins migratoires chez les oiseaux, ainsi que le projet HSMM-INCA soumis cette année à l'ANR.
  
 +
==== 28/05/2021&nbsp;: ''Optimisation agronomique par simulation et intelligence artificielle: application à la conduite de systèmes agroforestiers'' Antoine Labatie  ====
  
==== ''Séminaire reporté''&nbsp;: ''Simulation en recherche médicale. Généralités, exemple et problème connexe.'' [https://perso.math.univ-toulouse.fr/savy/ Nicolas Savy] (IMT) ====
+
:'''Résumé'''&nbsp;: L'avènement récent du "deep learning" a permis des avancées majeures dans de multiples domaines applicatifs : robotique, voitures autonomes, imagerie médicale, traitement du langage, jeu de go, etc. L'un des éléments ayant permis toutes ces avancées est l'utilisation de grandes quantités de données pour l'entraînement des modèles. Lorsque ces grandes quantités de données ne peuvent pas être obtenues en conditions réelles, des simulateurs sont souvent utilisés comme "générateurs" de données proches des conditions réelles. Il semble prometteur d'utiliser cette approche en agronomie compte tenu d'une part de la difficulté fréquente d'acquisition de données réelles, et d'autre part de la préexistence de simulateurs agronomiques.
 +
:Cette présentation exposera le travail récent que j'ai effectué en suivant cette approche. Ce travail, qui est effectué en collaboration avec l'équipe développant le simulateur Hi-sAFe à l'INRAE (UMR System), vise à l'optimisation de la conduite de systèmes agroforestiers. Je présenterai d'abord les algorithmes standards d'IA utilisés pour résoudre ce type de problème d'optimisation. Je présenterai ensuite les adaptations de ces algorithmes qui ont dû être faites dans ce contexte précis pour améliorer la performance finale. Je présenterai enfin quelques résultats concrets et leurs possibles interprétations.
  
:
+
==== 21/05/2021&nbsp;: ''Classer la migration à l'ère du Big Data. Est-il possible d'identifier le comportement de migration par des routines automatiques ? Performance de 3 méthodes, MigrO, MigrateR et une approche de segmentation'' [https://www6.toulouse.inrae.fr/cefs/PERSONNELS/Permanents/Debeffe-Lucie Lucie Debeffe] (INRAE, CEFS) ====
::'''Résumé&nbsp;:''' Un des axes du projet Big Data financé par la Région Occitanie et porté par l’Institut de Mathématiques de Toulouse était une réflexion générale sur la notion de simulation en recherche médicale et sur la pertinence de méthodes de simulation dans ce contexte. Une présentation des fruits de cette réflexion qui soyons honnête à fait émerger plus de problèmes que de solutions, sera présenté dans un première partie. Dans une deuxième partie sera présenté un exemple de modèle à agents développé dans le contexte médico-économique du passage aux génériques des anti retro-viraux. Enfin un des points saillants pour la mise au place de méthodes par simulation en recherche médicale est la calibration des modèles sous-jacents. Si des bases existent elles sont souvent difficiles à exploiter dans un contexte dédié pour des questions d’homogénéité des codages. C’est une question très vaste pour laquelle nous avons développé un début de solution par l’algorithme “OT”. Il s’agit d’un algorithme de recodage de variables basé sur le transport optimal qui sera présenté en troisième partie de cet exposé.
 
  
 +
:'''Résumé'''&nbsp;: Migration remains a complex phenomenon, and previous work has shown the potential inconsistencies in the classification of movement. Here we aimed at evaluating the criticalities in the uninformed, automatic identification of ungulate migration with a test-case. Specifically, we first evaluate the robustness of different routines applied to the same datasets; and second, disentangle how the robustness of classification is affected by the routine applied, or, conversely, by the definition of the biological phenomenon that is then used to parametrise such routines. A dataset of 261 trajectories from 21 populations of one species distributed at the continental scale (red deer from Euromammals/Euroredeer database: euroreddeer.org) was used. We classified each trajectory into migratory and non-migratory (resident and dispersal) movements with three unsupervised procedures that rely on spatio-temporal definition of seasonal ranges. Further, we compared the automatic classification output with visual classification from ecologists and wildlife biologists with a different degree of knowledge of migratory behaviour and red deer populations. By doing this, we aimed to specifically evaluate the consistency in identification of migration.
  
 +
==== 14/05/2021&nbsp; Pont de l'ascension (pas de séminaire) ====
  
==== ''Séminaire reporté''&nbsp;: ''Titre à venir''. Adelin Barbacci (LIPM) ====
+
==== 07/05/2021&nbsp;: ''SIWAA, le site web Galaxy pour la simulation et l'analyse mathématique des agroécosystèmes'' Patrick Chabrier (équipe RECORD, séminaire interne) [https://miat.inrae.fr/site/images/4/42/Chabrier.pdf diaporama] ====
  
 +
:'''Résumé'''&nbsp;: L'équipe RECORD administre et développe le site web SIWAA pour l'analyse et la simulation de modèles dans le périmètre des agroécosystèmes. Ce site web repose sur le framework Galaxy qui est déployé à la fois sur des ressources informatiques INRAE et sur le mésocentre de l'université de Montpellier. Nous présentons à la fois les motivations et les grandes lignes de l'architecture de ce site Web pour fournir un retour d'expérience à la fois technique et organisationnel sur le fonctionnement du système en place. On aborde aussi la question du processus de développement informatique visant à ajouter des outils sur le site web, mobilisant en particulier des services de la forge MIA.
  
==== ''Séminaire reporté''&nbsp;: ''KeOps: Kernel Operations on the GPU, with autodiff, without memory overflows''. [https://imag.umontpellier.fr/~charlier/ Benjamin Charlier] (Université de Montpellier, ARAMIS)====
+
==== 23/04/2021 et 30/04/2021 &nbsp;: Pas de séminaire (vacances scolaires) ====
  
:
+
==== 16/04/2021&nbsp;: ''Optimal convergence rates for Nesterov acceleration.'' [https://perso.math.univ-toulouse.fr/rondepierre/ Aude Rondepierre] (INSA/IMT) [https://miat.inrae.fr/site/images/0/0b/Rondepierre.pdf diaporama]====
::'''Résumé&nbsp;:''' The KeOps library lets you compute generic reductions of large 2d arrays whose entries are given by a mathematical formula. It is perfectly suited to the computation of convolutions (or more generally to Kernel dot products) and the associated gradients (with an automatic differentiation engine).
 
  
::KeOps is fast as it allows you to compute Gaussian convolution up to 40 times faster than a standard tensor algebra library that use GPU.  KeOps is scalable and can be used on large data (typically from n=10^3 to n=10^7 number of rows/columns): it combines a tiled reduction scheme and works even when the full kernel matrix does not/fit into the GPU memory. Finally, KeOps is easy to use as it comes with its Matlab, Python (NumPy or PyTorch) and R bindings.
+
:'''Résumé&nbsp;:''' In this talk, we will give new optimal decay rates for the Nesterov acceleration scheme of classical gradient descent depending on the local geometry of the function to minimize. Only bounds on the rates are known for convex or strongly convex functions. We will give a more complete description of this rates using Lojasievicz and flatness conditions and explain how these decays can be obtained studying an ODE.
 +
:This is a joint work with V. Apidopoulos, J.-F. Aujol and Ch. Dossal.
  
::Web site: http://www.kernel-operations.io
+
==== 09/04/2021&nbsp;: ''Properties of the stochastic approximation EM algorithm with mini-batch sampling'' Estelle Kuhn (MaIAGE, INRAE) [https://miat.inrae.fr/site/images/9/9b/Kuhn.pdf diaporama]====
  
==== 26/06/2020&nbsp;: ''Titre à venir''. [https://olivier-roustant.fr/ Anne Goelzer] (INRAE/MaIAGE/BioSys) ====
+
:''Résumé''&nbsp;: To deal with very large datasets a mini-batch version of the Monte Carlo Markov Chain Stochastic Approximation Expectation– Maximization algorithm for general latent variable models is proposed. For exponential models the algorithm is shown to be convergent under classical conditions as the number of iterations increases. Numerical experiments illustrate the performance of the mini-batch algorithm in various models. In particular, we highlight that mini-batch sampling results in an important speed-up of the convergence of the sequence of estimators generated by the algorithm. Moreover, insights on the effect of the mini-batch size on the limit distribution are presented. Finally, we illustrate how to use mini-batch sampling in practice to improve results when a constraint on the computing time is given.
 +
:Joint work with Catherine Matias and Tabea Rebafka
  
:'''Résumé'''&nbsp;: À venir.
+
==== 02/04/2021&nbsp;: ''Développements autour de l'assemblage'' Matthias Zytnicki et Andreea Dréau (équipe SAaB, Séminaire interne) [https://miat.inra.fr/site/images/0/08/Presentation_2021_04_02.pdf diaporama] ====
  
==== 19/06/2020&nbsp;: ''Sensitivity analysis with generalized chaos expansion''. [https://olivier-roustant.fr/ Olivier Roustant] (INSA/IMT) ====
+
:'''Résumé'''&nbsp;: L'assemblage est le processus, complexe, de reconstruction de génomes. Lors du séminaire d'unité présenté par Clément Birbes, vous avez vu qu'il fait intervenir de nombreuses technologies, apportant chacune une information parcellaire, à assembler de façon à reconstruire l'intégralité du génome, qui dépasse, dans les cas d'intérêts, le milliard de nucléotides (les A, C, G, T du génome). Dans le cadre du projet SeqOccIn, nous vous présenterons les travaux en cours, qui ont pour but d'améliorer les outils d'assemblage. Nous avons travaillé sur deux parties: l'assemblage à partir de 10X, et l'intégration de données d'assemblage. Ces travaux seront présentés, comme il se doit, de façon très pédagogique.
  
::'''Résumé'''&nbsp;: ''cf'' [https://projecteuclid.org/euclid.ejs/1579662085 Project Eclid]. The so-called polynomial chaos expansion is widely used in computer experiments. For example, it is a powerful tool to estimate Sobol’ sensitivity indices. In this paper, we consider generalized chaos expansions built on general tensor Hilbert basis. In this frame, we revisit the computation of the Sobol’ indices with Parseval equalities and give general lower bounds for these indices obtained by truncation. The case of the eigenfunctions system associated with a Poincaré differential operator leads to lower bounds involving the derivatives of the analyzed function and provides an efficient tool for variable screening. These lower bounds are put in action both on toy and real life models demonstrating their accuracy.
+
==== 26/03/2021&nbsp;: ''A novel regularized approach for functional data clustering: an application to milking kinetics in dairy goats'' Christophe Denis (LAMA, Université Paris-Est Marne-la-Vallée) [https://miat.inrae.fr/site/images/a/a1/DDenis.pdf diaporama] ====
  
==== 05/06/2020&nbsp;: ''Apports de l'informatique et de la fouille de données à l'agriculture.'' [https://www6.toulouse.inrae.fr/agir/Les-equipes/VASCO/Membres/David-Camilo-Corrales-Munoz David-Camilo Corrales-Munoz] (AGIR, VASCO) ([https://www.dropbox.com/s/mlxy28vnajxntbt/Presentattion-INRAE-Panoramique.pdf?dl=0 diaporama])====
+
:'''Résumé&nbsp;:''' Motivated by an application to the clustering of milking kinetics of dairygoats, we propose in this talk a novel approach for functional data clustering. This issue is of growing interest in precision livestock farming that has been largely based on the development of data acquisition automation and on the development of interpretative tools to capitalize on high-throughput raw data and to generate benchmarks for phenotypic traits. The method that we propose falls in this context. Our methodology relies on a piecewise linear estimation of curves based on a novel regularized change-point estimation method. Our technique is applied to milk emission kinetics data with the aim of a better characterization of inter-animal variability and toward a better understanding of the lactation process.
  
::'''Résumé'''&nbsp;: Les acteurs du monde agricoles doivent prendre quotidiennement de très nombreuses décisions de tous ordres. Une question essentielle est l'estimation précise des rendements des cultures. L’informatique et la science des données, en particulier la fouille de données, contribuent fortement à l’aide à la décision. Dans cette présentation, différentes études de cas mobilisant la fouille de données appliquée à l'agronomie seront présentées. Par ailleurs, différentes approches d'intelligence artificielle potentiellement utiles à l’agriculture seront également abordées.
+
==== 19/03/2021&nbsp;: ''DeepG4: A deep learning model for sequence-driven DNA G4 formation'' Vincent Rocher (CBI, Université Paul Sabatier) ====
  
==== Supprimé pour cause de COVID&nbsp;: ''Approches “deep learning” pour la prédiction d’interactions protéine-protéine''. [http://lamoureuxlab.org/ Guillaume Lamoureux] (Rutgers University) ====
+
:'''Résumé&nbsp;:''' G-Quadruplex (G4) are alternative DNA secondary structures composed of Guanine-rich DNA sequences which can form a four-stranded structure based on a simple strand, and let the second one free. These structures have been found initially on telomeres, but more recent studies found an enrichment of theses structures on promoters of active genes, and suggest an active role in transcription of these genes. Former in-silico methods to detect and study G4 remained mostly on the detection of a specific motif chain, but recent methods have been developed to identify G4 at genome-wide scale using Next Generation sequencing approach, like G4-seq (in-vitro G4) and BG4-seq (in-vivo). Here, we propose a sequence-based computational Deep learning model to predict in-vivo DNA G4 using the DNA sequences of BG4-seq peaks, in order to detect new motifs involved in the G4 prediction. Deep learning is a recent and popular Machine learning set of approaches where model learn features directly from the data, meaning that we could identify de-novo motifs that are related to G4 prediction. This model can be applied to any DNA sequence to predict the G4 formation, and be used in genetics to study the impact of SNP's on the DNA G4 formation propensities.
  
:
+
==== 12/03/2021&nbsp;: ''Processus d’assemblage de génomes grâce aux nouvelles technologies de séquençage'' Clément Birbes (plateforme bio-info, Séminaire interne) ====
::'''Résumé&nbsp;:''' Pour comprendre les détails moléculaires d'un processus biologique, il faut généralement connaître la structure tridimensionnelle d’un grand nombre de complexes protéine-ligand et protéine-protéine. Comme très peu de ces structures sont connues expérimentalement, il est habituellement nécessaire de les prédire à l’aide de méthodes computationnelles dont la fiabilité et la transférabilité restent à améliorer.
 
  
::Je présenterai nos récents travaux axés sur le développement de modèles “deep learning” reliant séquence, structure, et fonction de protéines. Suivant une approche unifiée dite “end-to-end”, ces modèles visent à découvrir de nouvelles représentations moléculaires utiles à la fois pour prédire la fonction d’une protéine à partir de sa structure, et la structure d’une protéine à partir de sa séquence. Bien que nos intérêts actuels portent sur la prédiction de structure de protéines et d'interactions protéine-protéine, les modèles développés sont généralisables à toute autre classe de biomolécules.
+
:'''Résumé&nbsp;:'''Le projet Sequencage Occitanie Innovation (SeqOccIn) a pour but de développer davantage l’expertise bio-informatique et bio-statistique indispensable aux analyses en génomique, une source majeure d’innovation pour la recherche publique et pour les entreprises. Ce projet est divisé en trois niveaux d’études. L’axe 1 pour le génome, connaissance de la variabilité du génome. L’axe 2 pour l’épigénome, l’étude des marques épigénétique de régulation de l’expression du génome. L’axe 3 pour les métagénomes, pour l’analyse fine des communautés au sein d’un métagénome. Ce séminaire sera une « initiation » aux techniques et aux données utilisées pour l’assemblage des génomes mais sera également l’occasion de présenter une partie des travaux réalisés sur l’axe 1 du projet.
  
==== 13/03/2020&nbsp;: ''Inférence de réseaux de régulation de gènes à partir de données transcriptomiques et génomiques d'hybrides de tournesol''. Lise Pomiès (MIAT) ====
+
==== 05/03/2021 exceptionnellement à 11h&nbsp;: ''Pourquoi et comment réduire les émissions de gaz à effet de serre du secteur de la recherche en France ? L’approche bottom up proposée par Labos 1point5.'' [https://gael.univ-grenoble-alpes.fr/membres/odile-blanchard Odile Blanchard] (GAEL, Université de Grenoble) [https://miat.inrae.fr/site/images/a/ae/Blanchard.pdf diaporama] ====
  
:
+
:'''Résumé&nbsp;:''' La France s’est engagée à la neutralité carbone à l’horizon 2050. Cela signifie que les émissions de gaz à effet de serre de la France doivent diminuer fortement, de façon très rapide, pour atteindre zéro émissions nettes en 2050.
::'''Résumé&nbsp;:''' Dans le cadre du projet SUNRISE, nous étudions la réponse du tournesol à la sécheresse combinée au phénomène d'hétérosis. Pour cela, nous disposons, pour un pool de  350 hybrides de tournesol, de l'expression de 180 gènes impliqués dans l'hétérosis et/ou la sécheresse ainsi que des SNP présents sur ces différents hybrides. Nous avons créés différents jeux de données artificiels possédant des caractéristiques biologiques proches de notre jeux de données mesuré afin de trouver la méthode d'inférence la mieux adaptée. Cette méthode a ensuite été appliquée sur les données mesurées.
+
:Le séminaire vise d’une part à discuter pourquoi le secteur de la recherche doit contribuer à la réduction des émissions de gaz à effet de serre de la France et d’autre part à exposer comment le collectif Labos 1point5 s’est emparé de la question depuis 2 ans au sein de la communauté scientifique française.  
 +
:Le séminaire sera l’occasion de présenter le collectif Labos 1point5, ses objectifs, sa structuration, ses travaux. Un temps particulier sera consacré à l’outil d’estimation des émissions de gaz à effet de serre des laboratoires, GES 1point5. Développé par le collectif dans une démarche bottom up, GES 1point5 permet à la fois de définir des plans d’actions pour réduire les émissions de gaz à effet de serre des laboratoires, de mener des expérimentations dans ce domaine dans les laboratoires, et d’engager des travaux de recherche sur l’empreinte carbone de la recherche.
  
==== 06/03/2020&nbsp;: ''Inférence démographique en génétique des populations : comment tenir compte de la structure ?'' [https://www.math.univ-toulouse.fr/~omazet/ Olivier Mazet] (Institut de Mathématiques de Toulouse) ====
+
==== 05/03/2021 à 10h&nbsp;: ''Soutenance de thèse de Jelena Vucinic'' : Modélisation moléculaire et Intelligence Artificielle pour le design computationnel de protéines: conception d'enzymes optimisées et de nano-anticorps ====
  
:
+
==== 01/03/2021 à 15h&nbsp;: ''Soutenance de thèse Manon Ruffini'' : Modèles et méthodes pour les problèmes de design de protéines multi-états ====
::'''Résumé&nbsp;:''' Après un rappel des modèles mathématiques issus du coalescent de Kingman, je présenterai quelques méthodes d'inférence démographique devenues classiques (PSMC, MSMS), leurs limites pour ce qui est de l'hypothèse de structuration de la population, et nos dernières avancées pour tenter de dépasser ces limites.
 
  
==== Pas de séminaire le 28 février ([https://www6.inra.fr/imabs/Evenements/Seminaires/Journee-IA-Agriculture Journée IA & Agriculture]) ====
+
==== 19/02/2021 et 26/02/2021&nbsp;: Pas de séminaire (vacances scolaires) ====
  
==== Pas de séminaire le 14 et le 21 février (vacances scolaires) ====
+
==== 12/02/2021&nbsp;: ''A metagenomic-data-based model of the gut microbiota'' Simon Labarthe (INRAE/MaIAGE) ====
  
==== 07/02/2020&nbsp;: ''Favoriser la ré-utilisations de données publiques en transcriptomique et épigénomique par des visualisations interactives''. [https://gdevailly.netlify.com/ Guillaume Devailly] (GenPhySE) ====
+
:'''Résumé&nbsp;:''' The human gut harbors a complex bacterial community, the gut microbiota, that maintains a symbiotic relationship with its host: the microbiota ecology is then linked to the host’s health. Mathematical models of the microbial population dynamics are therefore a promising tool to study the mechanisms driving the homeostasis or the dysbiosis of the microbiota, and the links with pathologies.
 +
:We couple a PDE population dynamics model of functional microbial meta-populations involved in fibre degradation to a fluid mechanic model of the intestinal content. The metabolic capabilities of the meta-populations are inferred from functional metagenomic data through NMF (non-negative matrix factorization). Metabolic models of the meta-populations are built to predict the metabolite consumptions and the growth rates, and are plugged to the PDE population dynamics model to account for the interactions between the bacterial populations and the intestinal environment. Furthermore, the taxonomic composition of the meta-populations is derived from an additional non-negative least square problem regressing taxonomic marker gene counts against the weight matrix resulting from the previous NMF. This approach makes possible direct comparisons between the model outputs and both gene (shotgun) or bacterial (16s) counts.
 +
:''This work is a collaboration with B. Laroche, and with M. Ribot, B. Polizzi, T. Phan and T. Goudon for the population/fluid dynamics model of the microbiota and its environment, and with L. Darrigade and M.Leclerc for the metapopulation construction.''
  
:
+
==== 05/02/2021&nbsp;: '''Journée reproductibilité''' dans le cadre des animations IMABS programme à [https://www6.inrae.fr/imabs/Evenements/Seminaires/Journee-Reproductibilite-de-la-Recherche ce lien] ====
::'''Résumé&nbsp;:''' Un neurone, un adipocyte et une cellule du foie partagent le même génome et sont issu de la même cellule œuf, mais présentent des aspects radicalement différents. Ces différences résultent d’une expression différentielle des gènes dans chaque type cellulaire, mise en place par la combinaison de signaux extérieurs à la cellule (environnement, signalisation hormonale, métabolites circulants, etc.) et par le remodelage de la chromatine en domaines favorisant ou défavorisant l’expression de tels ou tels gènes.
 
  
::L’étude de la transcription et de l’épigénome des différents types cellulaire a abouti à la production massive de données de séquençage haut-débit par des consortiums internationaux (ENCODE, Roadmap Epigenomics, FAANG, etc.) et de multiples laboratoires. De nombreux jeux de données sont disponibles publiquement, mais les données sont lourdes, complexes à analyser, et très sensibles à différents biais expérimentaux et d’analyses, ce qui décourage leur réutilisation.
+
==== 29/01/2021&nbsp;: ''Developing an ontological framework for facilitating the exploitation and re-use of phenomics data based on a formalisation of numerical relationships'' [https://www6.montpellier.inrae.fr/lepse/Organisation/Equipe-M3P-Dev/Luis-Felipe-Vargas-Rojas/ Luis-Felipe Vargas-Rojas] (LEPSE, INRAE) ====
  
::Nous avons commencé à offrir des visualisations interactives de données publiquement disponibles au travers d’applications web : http://www.heatstarseq.roslin.ed.ac.uk/ (matrices de corrélations entre expériences) et https://joshiweb.cbu.uib.no/perepigenomics_app/ (liens entre marques épigénétique et régulation de la transcription) et allons proposer d’offrir directement de genre de visualisations sur le portail de données FAANG dans le cadre du projet VizFaDa.
+
:'''Résumé&nbsp;:''' In recent years, plant phenomics has produced massive datasets involving experiments performed in the field and controlled conditions, concerning hundreds of genotypes at different scales of organisation. Taken together, these datasets are unprecedented resources for identifying and testing novel mechanisms and models (Tardieu et al., 2017). Assembling and organising such datasets is not straightforward because of the heterogeneous, multi-scale and multi-source nature of data, to deal partially with these issues, the phenomics community has proposed an ontology-driven Information System (PHIS, www.phis.inra.fr, Neveu et al., 2019) based on FAIR principles (Wilkinson et al., 2016). However, exploitation and re-use of these datasets have not reached its full potential because (1) metadata is often merely informative, (2) relationships between numerical attributes are poorly formalised, whereas (3) ontological reasoning is more efficient for representing categorical data. For instance, relationships such as unit conversion are not effectively used, even if the data is well-annotated and information to perform the computation is provided by unit ontologies (OM, QUDT). The goal of the thesis is to create an ontological framework for representing and computing different kinds of numerical relationships for plant phenomics attributes. It will focus on equations representing most current variables and data-manipulation processes in  plant phenomics (e.g. unit conversions, thermal time, and phyllochron). For each use-case, details about metadata, context-dependencies, links between domain-specific ontologies and the formalisation of the equation structure, will be presented. Finally, the concrete machinery to perform these context-aware computations and an effective information retrieval, meant to reduce the user's time-effort and the query definition complexity, will be proposed.
  
==== 31/01/2020&nbsp;: ''A GDEC-MIAT collaboration on ncRNA annotation on wheat CNSs region - the FR5BS project''. [https://cnrgv.toulouse.inrae.fr/fr/content/view/full/1623 Philippe Leroy] (GDEC) ====
+
==== 22/01/2021&nbsp;: ''Predicting the intensity function of point processes  beyond observation areas.'' [http://edith.gabriel.pagesperso-orange.fr/ Edith Gabriel] (INRAE/BioSP) ====
  
:
+
:'''Résumé&nbsp;:''' Seismic networks provide data that are used a basis both for public safety decisions and for scientific research. Their  configuration  affects the data completeness, which in turn, critically affects several seismological scientific targets (e.g., earthquake prediction, seismic hazard...). How to map earthquakes density in seismogenic areas that are not covered by the network? We propose to predict the spatial distribution of earthquakes from the knowledge of presence locations and geological relationships, taking into account any interactions between records. Namely, in a more general setting, we aim to estimate the intensity function of a point process in windows where it has not been observed, conditional to its realization in observed windows, as in geostatistics for continuous processes. We define a predictor as the best linear unbiased combination of the observed point pattern. We show that the weight function associated to the predictor is the solution of a Fredholm equation of second kind. Both the kernel and the source term of the Fredholm equation are related to the second order characteristics of the point process through the pair correlation function. Results are presented and illustrated on simulated nonstationary processes, using continuous covariates or the realization of additional point processes, and real data for mapping Greek Hellenic seismicity in a region with unreliable and incomplete records.
::'''Résumé&nbsp;:''' Wheat (''Triticum aestivum L.'') is the most widely cultivated crop on Earth, an important crop contributing about a fifth of the total calories consumed by humans. Consequently, wheat yields and production affect the global economy, and failed harvests can lead to social unrest (IWGSC Science (2018) 361:661). The first coordinated efforts towards obtaining a reference wheat genome date to 2005, when the International Wheat Genome Sequencing Consortium (IWGSC) was established (Tulpova et al. (2019) New BIOTECHNOLOGY 48:12–19). Fortunately, since August 2018, the IWGSC RefSeq v1.0 assembly of pseudomolecules provided a high-quality linear assembly of each chromosome from one terminal region through the centromere to the other terminal region in the form of 70 to 80 super-scaffolds per chromosome (Keeble-Gagnère et al. Genome Biology (2018) 19:112). Consequently, the IWGSC data repository, URGI (INRA research unit in genomics and bioinformatics dedicated to plants and crop parasites) provides tools and browsers to explore wheat genomics data and the IWGSC RefSeq v1.0 assembly. Furthermore, the RefSeq v2.0 assembly is now available to download at INRA URGI since July 2019 (https://wheat-urgi.versailles.inra.fr/Seq-Repository/Assemblies. Moreover, very recently, the 10+ Wheat Genome Project (http://www.10wheatgenomes.com) has released several more wheat new genome reference sequences that can be download from this site: https://webblast.ipk-gatersleben.de/wheat_ten_genomes/.
 
  
::Therefore, we have nowadays a huge amount of resources to study wheat genome structure and dynamic evolution. In this context, the WheatOMICS project (https://www.france-genomique.org/projet/wheatomics/) aims at harnessing the latest NGS technologies to unravel the genomic-transcriptomic-epigenomic variations (DNA-seq, RNA-seq, ChIP-Seq, BS-seq) driving phenotypic response to biotic and abiotic constraints on five important genotypes (Chinese Spring, Renan, Recital, Courtot, Apache) for the research groups of the INRAE GDEC Unit, in France. These researches will deliver new highly strategic knowledge as key regulators to improve current wheat pre-breeding scheme for key agronomical traits. Furthermore, one of this genotype (Renan) has been selected to produce a new high quality reference genome sequence based on long-reads sequence data and optical maps (BioNano). Since we may have in the future new wheat genome assemblies to assess, we have proposed with NAAC through an INRA-NARO 2019 bilateral call, to build a “Plant Automatic Assembly Pipeline” (PAAP) aiming at providing a preliminary sequence assembly of long reads (PacBio sequel) and optical map (Bionano Saphyr) data (alternatively including 10x and Hi-C data when available). The ultimate goal would be to link PAAP with the TriAnnot structural and functional automatic annotation pipeline (Leroy et al. (2012) Frontiers in Plant Sciences 3:1-14) developed few years ago with NAAC (NIAS at this time). All these data, tools and projects will be valorized to study an important ~2 Mb region (5BSFR) of the wheat chromosome 5BS carrying a gene (Skr) responsible of cross incompatibility between wheat and rye, and other genes controlling important wheat traits. A precise manual curated analysis will be carried out across all genomes 5BSFR available in term of genes, Transposable Elements (TEs) and ncRNA in collaboration with several INRA and international research teams. We will present the new GDEC research scheme, and described the ongoing results obtained so far within the wheatOMICS project with a focus on the Skr project lead by Pierre Sourdille at INRA GDEC. Highlight will be also presented within our new bioinformatics team lead by Frederic Choulet.
+
==== 15/01/2021&nbsp;: ''Evolution artificielle interactive : comment aborder le participatif ?'' [http://evelyne.lutton.free.fr/ Évelyne Lutton] (MIA/ISC-PIF) ====
  
==== Pas de séminaire le 24 janvier (v&oelig;ux de la présidence du centre) ====
+
:'''Résumé&nbsp;:''' La question de l’interaction avec l’humain (sa connaissance, son intuition) est centrale pour les approches d’évolution artificielle interactive (iEC). Sur la base d’exemples personnels, cet exposé tente d’identifier quelques thèmes de recherche émergents, en considérant différents contextes, du mono-utilisateur au multi-utilisateurs.  Les questions liées aux développements d’applications participatives semblent particulièrement difficiles et intéressantes.
  
==== 17/01/2020&nbsp;: '''Exceptionnellement à 11h''' ''Enhancing robots autonomy through sequential decision making : from robust perception and mission planning to mixed-initiative human-robot(s) interaction''. [https://personnel.isae-supaero.fr/caroline-chanel/?lang=fr Caroline Chanel] (ISAE, DCAS) ====
+
==== 08/01/2021&nbsp;: ''DEX method: recent advances and future challenges on developing predictive models from data'' [http://kt.ijs.si/MarkoBohanec/mare.html Marko Bohanec] et [http://kt.ijs.si/SasoDzeroski/ Sašo Džeroski] (Jožef Stefan Institute, Ljubljana) ====
  
:
+
:'''Résumé&nbsp;:''' In the last decade, decision support and data mining approaches have become indispensable tools for researchers and practitioners in agronomy and related fields. Decision modelling is aimed at developing models, usually through collaboration of decision makers and experts, for suggesting and justifying solutions of the problem at hand. Data mining uses data to find meaningful patterns, most often in the form of predictive models, for a similar purpose. Both types of models can be included in decision support systems for aiding decision makers in recurring decision tasks. This seminar will be given through two 30-minute presentations by two senior researchers from Jožef Stefan Institute, Department of Knowledge Technology, Ljubljana, Slovenia: Marko Bohanec, an expert in decision support and creator of DEX method and DEXi software and Sašo Džeroski, an expert in data mining, leading the development of many data mining tools, and Head of the Department. Marko Bohanec will focus on the method DEX and present some recent advances and plans, for instance inclusion of the option generator method in DEXi. Participants who already know DEXi are kindly asked to pose questions and give comments. Sašo Džeroski will present some methods for mining complex data, in particular methods for multi-target prediction. He will also illustrate their use on several problems from ecology and agriculture.
::'''Résumé&nbsp;:''' Missions involving humans interacting with automated systems become increasingly common. On one hand, the use of automated planning for artificial agents actions has been amplified by the recent technical advances in artificial intelligence and machine learning, encouraging human supervision of such automated systems. It may includes efficient perception or path planning for autonomous vehicles in cluttered environments under uncertainty. On another hand, due to the non-deterministic behavior of the human and possibly high risk of failing due to human factors, such an integrated system should react smartly by adapting its behavior when necessary. Due to the increase of the decision autonomy of artificial agents, the role of the human operator is reduced regarding direct control, and concentrated on higher level decisions, that are not automated for practical, ethical or legal reasons. However, human operators are still vital in numerous scenarios because they are able to produce tactical, moral, social and ethical decisions. This drastic change of the human operator role, in favor of system’s autonomy, results in a new paradigm also known as mixed-initiative. Mixed-initiative human-robot interaction considers human operators and artificial agents as a team, in which each agent can seize the initiative from the other. From the human operator’s point of view it is not always bearable or acceptable that such an artificial system could seize the initiative, except if human cognitive capabilities or human performance are degraded. In this context, this talk will present our current research on those topics, ranging from perception and mission planning scenarios, in-situ and online human-robot interaction experiments, and methods to predict human operators decisions and performance, methods to learn the interaction model of a mixed-initiative human-robot(s) mission, to finally treat mixed-initiative AI methods to drive human-robot(s) interactions.
 
  
==== 10/01/2020&nbsp;: ''Méthodes régularisées pour l’analyse de données multivariées en grande dimension: théorie et applications''. [https://www6.inra.fr/mia-paris/Equipes/Membres/Marie-Perrot-Dockes Marie Perrot-Dockes] (MIA Paris) ====
+
==== 25/12/2020 et 01/12/0202&nbsp;: Pas de séminaire (vacances scolaires) ====
  
:
+
==== 18/12/2020&nbsp;: ''De l’aide à la décision à l’aide à la réflexion, un glissement paradigmatique…'' [https://www6.paca.inrae.fr/recover_eng/Laboratory-s-members/Social-Pages/Franck-TAILLANDIER Franck Taillandier] (INRAE/RECOVER) ====
::'''Résumé&nbsp;:''' Dans cette présentations nous nous intéressons au modèle linéaire général (modèle linéaire multivarié) en grande dimension. Nous proposons un nouvel estimateur parcimonieux des coefficients de ce modèle qui prend en compte la dépendance qui peut exister entre les différentes réponses. Cet estimateur est obtenu en estimant dans un premier temps la matrice de covariance des réponses puis en incluant cette matrice de covariance dans un critère Lasso. Les propriétés théoriques de cet estimateur sont étudiées lorsque le nombre de réponses peut tendre vers l’infini plus vite que la taille de l’échantillon. Plus précisément, nous proposons des conditions générales que doivent satisfaire les estimateurs de la matrice de covariance et de son inverse pour obtenir la consistance en signe des coefficients. Nous avons ensuite mis en place des méthodes, adaptées à la grande dimension, pour l’estimation de matrices de covariance qui sont supposées être des matrices de Toeplitz ou des matrices avec une structure par blocs, pas nécessairement diagonaux. Ces différentes méthodes ont enfin été appliquées à des problématiques de métabolomique, de protéomique et d’immunologie.
 
  
==== Pas de séminaire le 27 décembre et le 3 janvier (vacances scolaires) ====
+
:'''Résumé&nbsp;:''' Décider est une préoccupation partagée par tous les domaines d’application ; l’étudier, accompagner les gens vers de bons choix est une préoccupation majeure, hier comme aujourd’hui. La recherche scientifique a ainsi investi le champ de l’aide à la décision sous de multiples angles, du plus théorique au plus appliqué. Cela offre un corpus d’une richesse rare et un panel d’outils propres à répondre à de nombreuses problématiques. Mais cela ne va pas sans soulever de questions… Est-on toujours sûr d’utiliser ces outils à bon escient ? Qu’est-ce qu’une bonne décision ou qu’une bonne démarche d’aide à la décision ? D’ailleurs, qu’entend-on par « aide » à la décision ? Ce séminaire n’aura pas vocation à vous apporter toutes les réponses, mais fidèle à la démarche que je prône, à vous faire réfléchir quant à ces questions…
  
==== Pas de séminaire le 20 décembre&nbsp;: Soutenance de thèse de Léonard Torossian à l'IMT le mardi 17 décembre à 13h30 ====
+
==== 11/12/2020&nbsp;: Analyse de données spectroscopiques par clustering de variables et réduction de dimension interprétables [https://uclouvain.be/fr/repertoires/rebecca.marion/  Rebecca Marion] (UCLouvain - Belgique) [https://sites.google.com/view/rebeccamarion/presentations diaporama] ====
  
==== 13/12/2019 &nbsp;: ''T'ouIST: a friendly language for propositional logic and more, application to planning with SAT or QBF solvers''.&nbsp;[https://www.irit.fr/~Frederic.Maris/ Frédéric Maris] (UMR IRIT, Université Toulouse III) ====
+
:'''Résumé&nbsp;:''' En métabolomique, la spectroscopie par résonance magnétique nucléaire (RMN) est un moyen courant de quantifier les concentrations de métabolites. Les spectres RMN sont très reproductibles, ce qui implique que la plupart des variations entre les spectres représentent des différences biologiques entre les échantillons. De plus, comme la spectroscopie RMN peut quantifier des molécules connues et inconnues, elle est particulièrement utile pour identifier et caractériser de nouveaux composés, ce qui en fait une plate-forme importante pour la découverte de biomarqueurs. L'identification des biomarqueurs dans un spectre RMN se résume à l'identification des groupes de variables ou des régions spectrales qui prédisent le mieux le résultat biologique qui nous intéresse. Dans ce séminaire, nous présentons notre nouvelle méthode, Adaptive Clustering around Latent Variables (AdaCLV), qui permet d’identifier de tels clusters de variables de façon non-supervisée. AdaCLV s'inspire des méthodes multivariées existantes de la famille Clustering around Latent Variables (CLV), tout en offrant plusieurs avantages clés par rapport à ces méthodes, tels que sa meilleure précision et son interprétabilité, ainsi que de sa robustesse aux changements de valeurs d’hyperparamètres.
  
:
+
==== 04/12/2020&nbsp;: ''Journée des doctorants du pôle IMABS : [https://miat.inrae.fr/site/images/3/31/ProgrammeSeminaireDoctorants.pdf programme]'' ====
::'''Résumé&nbsp;: ''' we present the automatic translator TouIST that allows us to use a simple language to generate logical formulas from a problem description. Our tool allows us to model many static or dynamic combinatorial problems as Sudoku, Takuzu or Nim game, and to benefit from the regular improvements to SAT, QBF or SMT solvers to solve them efficiently. We present reference encodings to solve classical planning problems with SAT and QBF solvers and show how to use TouIST to solve such planning problems. Finally, we may show how to encode with TouIST some combinatorial problems given by the audience.
 
  
==== Pas de séminaire le 6 décembre&nbsp;: [https://www6.inra.fr/imabs/Evenements/Seminaires/Chromosome-conformation-symposium Chromosome Conformation Symposium] (4-5 décembre) et [https://carlit.toulouse.inra.fr/AIGM/ Journée AIGM] (5 décembre) ====
+
==== 27/11/2020&nbsp;: ''Simulation en recherche médicale. Généralités, exemple et problème connexe.'' [https://perso.math.univ-toulouse.fr/savy/ Nicolas Savy] (IMT) [https://miat.inrae.fr/site/images/3/36/SEMINAIRE_INRAe_SAVY.pdf diaporama] ====
  
==== 29/11/2019 &nbsp;: ''Contributions to probabilistic non-negative matrix factorization - Maximum marginal likelihood estimation and Markovian temporal models''. [https://lfilstro.github.io/ Louis Filstroff] (UMR IRIT) [https://mia.toulouse.inra.fr/images/c/c3/Louis_filstroff.pdf diaporama] ====
+
:'''Résumé&nbsp;:''' Un des axes du projet Big Data financé par la Région Occitanie et porté par l’Institut de Mathématiques de Toulouse était une réflexion générale sur la notion de simulation en recherche médicale et sur la pertinence de méthodes de simulation dans ce contexte. Une présentation des fruits de cette réflexion qui soyons honnête à fait émerger plus de problèmes que de solutions, sera présenté dans un première partie. Dans une deuxième partie sera présenté un exemple de modèle à agents développé dans le contexte médico-économique du passage aux génériques des anti retro-viraux. Enfin un des points saillants pour la mise au place de méthodes par simulation en recherche médicale est la calibration des modèles sous-jacents. Si des bases existent elles sont souvent difficiles à exploiter dans un contexte dédié pour des questions d’homogénéité des codages. C’est une question très vaste pour laquelle nous avons développé un début de solution par l’algorithme “OT”. Il s’agit d’un algorithme de recodage de variables basé sur le transport optimal qui sera présenté en troisième partie de cet exposé.
  
:
+
==== 20/11/2020&nbsp;: ''Development of decision support systems for application in agronomy''. [http://landmark2020.eu/member/marko-debeljak/ Marko Debeljak] (Jožef Stefan Institute, Ljubljana) [https://miat.inrae.fr/site/images/8/8a/2020_11_20_INRAe_Debeljak.pdf diaporama] ====
::'''Résumé&nbsp;: ''' Non-negative matrix factorization (NMF) has become a popular dimensionality reduction technique, and has found applications in many different fields, such as audio signal processing, hyperspectral imaging, or recommender systems. In its simplest form, NMF aims at finding an approximation of a non-negative data matrix (i.e., with non-negative entries) as the product of two non-negative matrices, called the factors. One of these two matrices can be interpreted as a dictionary of characteristic patterns of the data, and the other one as activation coefficients of these patterns. This low-rank approximation is traditionally retrieved by optimizing a measure of fit between the data matrix and its approximation. As it turns out, for many choices of measures of fit, the problem can be shown to be equivalent to the joint maximum likelihood estimation of the factors under a certain statistical model describing the data. This leads us to an alternative paradigm for NMF, where the learning task revolves around probabilistic models whose observation density is parametrized by the product of non-negative factors. This general framework, coined probabilistic NMF, encompasses many well-known latent variable models of the literature, such as models for count data.  
 
  
:
+
:'''Résumé'''&nbsp;: Agronomy is increasingly embedded in the broader social and economic context. Its obligations and commitments to meet the objectives of sustainable development goals and ecosystem services are increasing. Due to the rapid development of other fields of research, agronomy is intensively introducing digitisation, which is leading to the accumulation of ever-increasing amounts of data. In parallel with digitisation, extensive informatisation is taking place in agronomy too. It increases the exchange and collection of large amount of knowledge and experiences. Agronomy is in a position where it must make quick and correct decisions about the growing number of problems and expectations of society. Therefore, decision-making in agronomy has become an extremely complex process that can only be managed with an objective scientific approach. Experiences from systems ecology and ecological modelling for the development of decision support systems have proven to be very helpful. The application of methods developed in the field of systems ecology allows us to build a high quality architecture of decision support systems that takes into account the specifics of the agronomic system. The design of a decision support system (DSS) should be a problem driven process. This requires a clear definition and role of all stakeholders which are directly or indirectly involved in the development and application of the DSS. When developing the elements of the DSS structure, the advantages of modern information and computer technology must be used. The structure of the decision models as central elements of the DSS must meet all criteria to ensure their quality and reliability. Decision models must therefore be constructed according to a clearly defined procedure for building ecological models. Any possibility that the DSS might propose wrong decisions that could be the result of a non-functional decision model, must be excluded. In this seminar, I will present the methodology of building decision support systems on three selected cases. The first example is the system for the assessment and management of the risk of surface and groundwater pollution with pesticides, which we developed for ARVALIS - Institut du végétal, France. Another example is the DSS for the simultaneous assessment of five soil functions, which we developed in the H2020 project LANDMARK. The third system, which is still under development, will assess the sustainability of the agronomic value chain based on legumes. We are developing it as part of the H2020 project TRUE.  In all systems, the method DEX is used to build qualitative multi-attribute decision models. We complement the existing agricultural expertise with knowledge obtained from data mining. All three decision support systems interact with the users via internet interfaces.
::In this talk, we consider specific probabilistic NMF models in which a prior distribution is assumed on the activation coefficients, but the dictionary remains a deterministic variable. The objective is then to maximize the marginal likelihood in these semi-Bayesian NMF models, i.e., the integrated joint likelihood over the activation coefficients. This amounts to learning the dictionary only; the activation coefficients may be inferred in a second step if necessary. We proceed to study in greater depth the properties of this estimation process. In particular, two scenarios are considered. In the first one, we assume the independence of the activation coefficients sample-wise. Previous experimental work showed that dictionaries learned with this approach exhibited a tendency to automatically regularize the number of components, a favorable property which was left unexplained. In the second one, we lift this standard assumption, and consider instead Markov structures to add statistical correlation to the model, in order to better analyze temporal data.  
 
  
==== 22/11/2019 &nbsp;: ''Critical points of Gaussian isotropic random fields''. Céline Delmas (GenPhySE, MIAT) ====
+
==== 13/11/2020&nbsp;: ''Conception et mise en œuvre d’un système modulaire de mini-bioréacteurs pour la culture continue de microorganismes''. Cyprien Guérin (Inrae, MaIAGE) ====
  
:
+
:'''Résumé'''&nbsp;: Les systèmes de culture continue en bioréacteurs restent, malgré leur intérêt, peu utilisés dans les laboratoires de microbiologie. L’objectif de ce projet de thèse est de faciliter leur mise en œuvre en proposant un nouveau système modulaire de mini-bioréacteurs pilotés par ordinateur en s’appuyant sur les opportunités offertes par l’essor des technologies de fabrication numérique et des microcontrôleurs programmables. Les volumes de culture visés sont de l’ordre de 5 à 10 mL afin de permettre des plans d’expériences complexes pouvant impliquer de nombreux bioréacteurs (en parallèle, en cascade, avec suivi et contrôle en temps réel, ...). Comme preuves de concept, plusieurs applications chez la bactérie Gram-positive ''Bacillus subtilis'' sont envisagées aussi bien dans des contextes d’évolution expérimentale et dirigée que pour des études physiologiques s’appuyant sur de la comparaison de transcriptomes.
::'''Résumé&nbsp;:''' Let '''''X''''' = {''X''(''t'')&nbsp;: ''t'' in ''R''<sup>''N''</sup>} be an isotropic Gaussian random field with real values. In a first part we study the mean number of critical points of ''X'' with index ''k'', above a level, using random matrices tools. We obtain an exact expression for the probability density of the eigenvalue of rank ''k'' of a ''N''-GOE matrix. We deduce exact expressions for the mean number of critical points with a given index and their distribution as a function of their index. In a second part we study attraction or repulsion between these critical points again as a function of their index. A measure is the correlation function. We prove attraction between critical points when ''N''>2, neutrality for ''N''=2 and repulsion for ''N''=1. We prove that the attraction between critical points that occurs when the dimension is greater than 2 is due to attraction between critical points with adjacent indexes. We prove a strong repulsion between maxima and minima and we study the correlation function between maxima (or minima).  
 
  
==== 15/11/2019&nbsp;: ''How to Lie With Graphics''. [https://www.tse-fr.eu/fr/people/christophe-bontemps Christophe Bontemps] (GREMAQ) ([http://data.visualisation.free.fr/Blog/HowToLie-Short.pdf diaporama], [http://data.visualisation.free.fr/ site Web]) ====
+
==== 06/11/2020&nbsp;: ''ComMod une posture !'' Etienne Delay (CIRAD, GREEN) [https://rawcdn.githack.com/ElCep/ComMod_pres/0e2e06875259e42c2e4929dc4b5182e6f3a9a1db/index.html#/ diaporama] ====
  
:
+
:'''Résumé''' : Les modèles multi-agents et les jeux de rôles sont des outils de représentation et de simulation du fonctionnement des socio-écosystèmes qui aident à franchir les frontières disciplinaires pour étudier les processus de coordination entre acteurs et de décision collective. Depuis 20 ans l'UPR GREEN au CIRAD les utilisons dans le cadre d’une approche qualifiée de « modélisation d'accompagnement » (companion modeling approach). Cette présentation sera l'occasion de présenter la construction méthodologique de l'approche et ses évolutions à travers mes yeux de « dernier recruté » dans l'unité GREEN. Une occasion de raccrocher ce travail avec des problématiques de gestion des ressources naturelles, de bien commune, et de liens sociaux.
::'''Résumé&nbsp;:''' We use and read data visualizations (dataviz) in our everyday lives as researchers, engineers, and citizens. Most of the time, our goal is to visually test some basic hypotheses either while exploring datasets or for presenting some findings. These dataviz also serve to convince people and ourselves that some hypotheses are valid. But what if these convincing graphics were lies? Many graphics convey information that could be misleading, by mistake, misuse or on purpose. I propose a short tutorial to visual fallacies and lies. My goal here is not to encourage cheating and lying, but on the contrary to highlight the techniques used to elaborate misleading data visualizations. This introduction should help researchers, and decision makers to distinguish visual lies from unambiguous and consistent graphics.  
 
  
==== 8/11/2019&nbsp;: ''Modélisation multi-agent et intégration culture-élevage dans les territoires''. Myriam Grillot (INRA, AGIR) ====
+
==== 23-30/10/2020&nbsp;: Pas de séminaire (vacances scolaires) ====
  
:
+
==== 16/10/2020&nbsp;: ''Estimation of species environmental niches and sampling effort from presence only records and illustration on the Pl@ntNet citizen-science flora data''. [http://christophebotella.fr/ Christophe Botella] (LECA) ====
::'''Résumé&nbsp;:''' Les interactions entre cultures et élevage peuvent être modélisées par l'intermédiaire de modèle multi-agents. Dans un contexte agro-sylvo-pastoral au Sénégal, un modèle de ce type a été développé et implémenté (plateforme de modélisation GAMA) pour répondre à des questions relatives aux impacts des changements dans l’organisation du paysage et des systèmes d’élevage sur les flux de biomasse et d’azote. Différents niveaux d’organisation du territoire son pris en compte&nbsp;: la parcelle, le troupeau, le ménage et le terroir villageois. Quelles réflexions pour des utilisations de tels modèles et sur le travail sur l'interaction culture-élevage dans les territoires en France&nbsp;? 
 
  
==== Pas de séminaire le 25 octobre et le 1er novembre (vacances scolaires) ====
+
:'''Résumé''': Naturalist mobile applications have been deployed worldwide in the last years and enabled access to a considerable amount of geolocated species presences records. This novel type of data represents a step forward to address ecological and conservation questions through the use of species distribution models (SDMs). However, in the absence of a sampling protocol, the sampling effort often concentrates on specific locations (cities, riverside walks, etc.) located in specific environments, resulting in estimation biases in SDMs. During my PhD, I studied methods to minimize bias in the estimation of inhomogeneous Poisson point processes (IPP) modelling species habitats preferences. I will present two approaches: (i) pooling occurrences from many species, using them as background points in the IPP and conditions under which it yields unbiased estimates, and (ii) the joint modeling of multiple species densities along with a common sampling effort component. Finally, I will show an illustration on Pl@ntNet's citizen science data over the whole French territory, integrating several hundred plant species and hundreds of thousands of observations over France with a highly biased sampling.
  
==== 18/10/2019&nbsp;: ''Distribution "Dirichlet-Multinomiale" et modèles neutres: une hypothèse nulle pour l'analyse de données de biodiversité''. [https://sites.google.com/site/fabienlarochescience/ Fabien Laroche] (Unité EFNO, IRSTEA) ====
+
==== 09/10/2020&nbsp;: ''Model Exploration in Practice''. [https://iscpif.fr/projects/romain-reuillon/ Romain Reuillon] (CNRS, ISC-PIF) ====
  
:
+
:'''Résumé'''&nbsp;: The use of simulation models has widely spread in recent years, in various fields of academic research. Models are being developed to represent and try to better understand all kinds of systems: population dynamics, epidemics, transportation systems, macro-scale systems, micro-scale systems, etc. In some scientific areas, models and in silico simulations have become essential to help study in vivo situations.
::'''Résumé&nbsp;:''' L'écologie des communautés vise à comprendre comment les conditions environnementales et les interactions entre organismes génèrent la diversité des espèces, phénotypes et génotypes que l'on observe dans les écosystèmes. Sur des systèmes naturels ou semi-naturels en conditions non-contrôlées, une approche possible consiste en la mise en œuvre de tests statistiques sur des échantillonnages spatiaux d'individus, afin de détecter une contribution significative de processus écologiques ciblés, facteurs environnementaux ou interactions. Dans cet exposé, je propose d'illustrer comment la théorie neutre de la biodiversité - qui suppose une équivalence écologique des espèces - peut fournir un cadre de test général et une hypothèse nulle, la distribution Dirichlet-Multinomiale, à même de compléter voire corriger les méthodes plus classiques à base de permutation de données ou de rééchantillonnage.  
+
: However, simulation models are necessarily a simplification of reality, and hypotheses have to be made when developing a model. Thus every model can (and needs to?) be questioned: Is it relevant to tackle the research question behind it? How to extract significant knowledge from the model? What kind of dynamics can it exhibit? How does each mechanism of the model impact those dynamics? Is every mechanism really necessary? These are just some of the many questions a model developer has to answer in order to really know and understand his/her model!
 +
:This talk focuses on the worldwide zombie epidemic of the past few years. It raises the question of what can modelers say about it, and, it attempts to use model exploration, OpenMOLE (openmole.org) and the associated exploration methodology to build knowledge on this forefront phenomenon.
  
==== 11/10/2019&nbsp;: ''Copules et tests non-paramétriques de détection de rupture dans la dépendance entre les composantes d'observations multivariées''. [http://www.cmap.polytechnique.fr/~tom.rohmer/ Tom Rohmer] (GenPhySE) ====
+
==== 02/10/2020&nbsp;: ''Méthodes mathématiques en écologie''. [https://www.ummisco.fr/?page_id=1150 Tri Nguyen-Huu] (IRD)  ([https://miat.inrae.fr/site/images/7/7e/Pr%C3%A9sentation_MIAT_%28light%29.pdf diaporama]) ====
  
:
+
:'''Résumé'''&nbsp;:   Le développement de modèles mathématiques ont permis d'apporter un point de vue neuf sur des questions écologiques d'ordre général ou bien appliquées. Des modèles abstraits permettent de mieux comprendre les processus régissant certains écosystèmes, tandis que des modèles plus descriptifs permettent d'avoir une vision plus quantitative des phénomènes étudiés. Nous présenterons quelques modèles mathématiques issus des systèmes dynamiques (équations différentielles, équations aux différences finies) et nous intéresserons à ce qu'ils peuvent apporter à l'étude de quelques problèmes écologiques, à savoir la dynamique bio-économique des pêcheries, la connectivité d'espèces marines récifales, et la conservation des grands herbivores dans les parcs nationaux du Kenya.
::'''Résumé&nbsp;:''' L'étude des copules est un phénomène relativement récent et en plein essor. Ces dernières permettent notamment de caractériser la dépendance entre les différentes composantes de données multivariées. Elles sont ainsi utilisées dans de nombreuses applications, que ce soit en hydrologie, finance ou encore en génétique. Si l'on considère un vecteur aléatoire (v.a.) dont les marges sont continues, le théorème de Sklar affirme qu'il existe une unique fonction "copule", caractérisant la structure de dépendance du v.a., telle que la donnée de la copule et des fonctions de répartitions marginales caractérisent la loi du vecteur aléatoire. Dans la littérature, on retrouvera un certain nombre de tests non-paramétriques de détection de rupture dans la distribution d'observations multivariées. Cependant, ces tests se révèlent souvent très peu sensibles pour détecter un changement dans la dépendance entre les composantes des v.a. Je présenterai dans cet exposé un test non paramétrique basé sur le processus de copule empirique séquentiel (approche CUSUM) et sur un rééchantillonage à base de multiplicateurs. Ce test se révèle particulièrement sensible à un changement dans la copule lorsque les lois marginales sont inchangées, et s'adapte à des données sériellement dépendantes (strong mixing). Ce test ne permet pas de conclure en une rupture dans la copule en présence de changement dans les lois marginales. Il est néanmoins possible d'adapter les procédures pour prendre en compte ces potentiels changements. J'illustrerai ces travaux à l'aide d'exemple sur des données et des simulations de Monte Carlo sur des classes d'alternatives pertinentes. Pour finir je présenterai quelques-unes de mes perspectives de recherche à l'Inra qui pourront s'appuyer sur cette recherche.  
 
  
==== Pas de séminaire le 4 octobre (Journée Bioinfo/biostat) ====
+
==== 25/09/2020&nbsp;: ''Learning with pangenomes''. [https://lbbe.univ-lyon1.fr/-Jacob-Laurent-.html?lang=fr Laurent Jacob] (CNRS, LBBE) ====
  
==== 27/09/2019&nbsp;: ''Effondrement&nbsp;: et si on en parlait vraiment&nbsp;? Quelles perspectives pour nos recherche&nbsp;?'' [https://www.dynafor.fr/deconchat-marc Marc Deconchat] (Dynafor) [https://mia.toulouse.inra.fr/images/5/56/M_Deconchat.pdf diaporama] [https://mia.toulouse.inra.fr/images/3/35/M_Deconchat_supp.jpg image supplémentaire] ====
+
:'''Résumé'''&nbsp;: As the number and variety of sequenced genomes grows, representing them by comparison to a single reference leads to an increasing level of approximation, discarding accessory genes, rearrangements and repeated regions. This problem is particularly acute when studying microbial genomes or metagenomes, and hinders essential statistical tasks such as GWAS or prediction in this context. I will discuss genome representations which are well suited to statistical analysis when genomes are ill-suited to alignment or even assembly.
  
:
+
==== 18/09/2020&nbsp;: ''Partager de l'information pour faire face à un virus. Etude de cas en ostréiculture via un modèle multi-agent.'' Nicolas Paget (CIRAD)  ====
::'''Résumé&nbsp;:''' Que l’on parvienne ou non à prendre les mesures requises pour faire face aux changements globaux, cela aboutira quasi inévitablement à des changements si profonds de nos sociétés et modes de vie qu’on peut parler de leur effondrement. Cela concernera bien évidemment et plus particulièrement les activités agricoles et d’usage des ressources naturelles, et cela nous concerne donc dans nos recherches. Pourtant, avons-nous bien pris la mesure de ce que cela signifie&nbsp;? Pour P Servigne et ses co-auteurs ce n’est pas le cas car les implications seraient trop désespérantes et nous refuserions de nous y confronter. Si vous êtes prêts à en discuter, ce séminaire sera l’occasion de partager une vue d’ensemble de la Collapsologie, qui s’intéresse à ce phénomène particulier que serait un effondrement général, sans prétention d’en faire le tour. Les débats, car il y en aura sans doute tant le sujet est polémique, seront orientés vers les questions de recherche que nous posent ces perspectives. 
 
  
:
+
:'''Résumé'''&nbsp;: Le postulat selon lequel le partage d'information permet de meilleures prises de décisions est fortement ancré. En développant un modèle multi-agent sur la plateforme Cormas, nous avons questionné ce postulat. Depuis quelques années, les ostréiculteurs font face à un virus (os-hv1) au fort taux de létalité. Ce virus n'est que mal connu. Dans le modèle, les agents, de rationalités variées, partagent leurs expériences et en tirent des leçons pour leurs pratiques. Nous étudions alors le type de décision prise par les agents en fonction de scénarios de partage de l'informations et d'hétérogénéité des agents. Les résultats montrent que l'hétérogénéité des agents permet une meilleure exploration de l'espace des possibles et qu'un partage et une interprétation trop radicaux des expériences de chacun à un effet contreproductif. Ce travail a été effectué en thèse. Lors de cette présentation, j'évoquerai aussi des travaux ou pistes de travaux plus récents ou en cours d'initialisation dans l'idée de susciter des collaborations.
::''Autres références'': [http://www.labos1point5.org http://www.labos1point5.org] et [https://pabloservigne.com/ https://pabloservigne.com/] 
 
  
==== 20/09/2019&nbsp;: ''Component-wise approximate Bayesian computation via Gibbs-like steps''. [https://www.ceremade.dauphine.fr/~stoehr/ Julien Stoehr] (CEREMADE) ====
+
==== 11/09/2020&nbsp;: ''Thigmoimmunité végétale. Comment la mécanoperception participe à la réponse immunitaire''. Adelin Barbacci (LIPM) ====
  
:
+
:'''Résumé'''&nbsp;: Les attaques de parasites sont responsables chaque année de pertes de récolte considérables à travers le monde. La recherche de sources génétiques de résistance durable chez les plantes constitue un levier important pour répondre à la demande alimentaire mondiale. ''Sclerotinia sclerotiorum'' est le champignon pathogène responsable de la maladie de la pourriture blanche sur plus de 400 espèces végétales, causant plusieurs millions d’euros de pertes de récolte chaque année, notamment sur colza. Comme la majorité des agents pathogènes, ''S. sclerotiorum'' utilise la sécrétion de molécules effectrices pour manipuler la physiologie des plantes hôtes et favoriser son développement. La mise en place de la QDR est consécutive à la perception du champignon. Toutefois, contrairement à la résistance gène-pour-gène plus largement étudiée, la QDR mobilise de nombreux réseaux de gènes qui sont encore méconnus et ne sont pas tous spécifiquement dédiés à l’immunité. Or, l'interaction plante-champignon met en jeu des signaux mécaniques importants, intrinsèques à la pénétration des tissus de l’hôte.
::'''Résumé&nbsp;:''' Approximate Bayesian computation methods are useful for generative models with intractable likelihoods. These methods are however sensitive to the dimension of the parameter space, requiring exponentially increasing resources as this dimension grows. To tackle this difficulty, we&nbsp;explore a Gibbs version of the ABC approach that runs component-wise approximate Bayesian computation steps aimed at the corresponding conditional posterior distributions, and based on summary statistics of reduced dimensions. While lacking the standard justifications for the Gibbs&nbsp;sampler, the resulting Markov chain is shown to converge in distribution under some partial independence conditions. The associated stationary distribution can further be shown to be close to the true posterior distribution and some hierarchical versions of the proposed mechanism enjoy a&nbsp;closed form limiting distribution. Experiments also demonstrate the gain in efficiency brought by the Gibbs version over the standard solution.  
+
:Au cours de ces deux dernières années nous avons réussi à montrer que les signaux mécaniques jouent un rôle de premier plan dans la mise en place de la réponse immunitaire et qu’il était possible de moduler fortement le niveau de résistance des plantes grâce à des ondes mécaniques. Ce travail est le fruit d’une collaboration étroite entre des équipes de physique (Aroune Duclos Laboratoire d’Acoustique de l’Université du Mans), de physiologie végétale (Nathalie Leblanc-Fournier INRA PIAF Clermont, Tou-Cheu Xiong INRA BPMP Montpellier) de biologie moléculaire (Adelin Barbacci LIPM) et de modélisation mathématique et informatique (Frédérick Garcia MIAT). C’est également le point de départ de la thèse de Khaoula Hadj-Amor coencadrée par MIAT et le LIPM. L’exposé s’attachera à présenter nos aventures entre mécanoperception, proprioception et réponse immunitaire.
  
:
+
== Séminaires reportés à une date ultérieure ==
::Référence&nbsp;: [[Arxiv.org/abs/1905.13599|arxiv.org/abs/1905.13599]] 
 
  
==== 13/09/2019&nbsp;: ''Impact of tree choice in metagenomics differential abundance studies''. [http://www.math-evry.cnrs.fr/members/abichat/welcome Antoine Bichat] (LaMME - Enterome) ====
+
==== ''KeOps: Kernel Operations on the GPU, with autodiff, without memory overflows''. [https://imag.umontpellier.fr/~charlier/ Benjamin Charlier] (Université de Montpellier, ARAMIS)====
  
:
+
:'''Résumé&nbsp;:''' The KeOps library lets you compute generic reductions of large 2d arrays whose entries are given by a mathematical formula.  It is perfectly suited to the computation of convolutions (or more generally to Kernel dot products) and the associated gradients (with an automatic differentiation engine).
::'''Résumé&nbsp;:''' We consider the problem of incorporating evolutionary information (e.g. taxonomic or phylogenic trees) in the context of metagenomics differential analysis. Recent results published in the literature propose different ways to leverage the tree structure to increase the detection rate of differentially abundant taxa. Here, we propose instead to use a different hierachical structure, in the form of a correlation-based tree, as it may capture the structure of the data better than the phylogeny. We first show that the correlation tree and the phylogeny are significantly different before turning to the impact of tree choice on detection rates. Using synthetic data, we show that the tree does have an impact: smoothing p-values according to the phylogeny leads to equal or inferior rates as smoothing according to the correlation tree. However, both trees are outperformed by the classical, non hierachical, Benjamini-Hochberg (BH) procedure in terms of detection rates. Other procedures may use the hierachical structure with profit but do not control the False Discovery Rate (FDR) a priori and remain inferior to a classical Benjamini-Hochberg procedure with the same nominal FDR. On real datasets, no hierarchical procedure had significantly higher detection rate that BH. Although intuition advocates the use of a hierachical structure, be it the phylogeny or the correlation tree, to increase the detection rate in microbiome studies, current hierachical procedures are still inferior to non hierachical ones and effective procedures remain to be invented.
+
:KeOps is fast as it allows you to compute Gaussian convolution up to 40 times faster than a standard tensor algebra library that use GPU. KeOps is scalable and can be used on large data (typically from n=10^3 to n=10^7 number of rows/columns): it combines a tiled reduction scheme and works even when the full kernel matrix does not/fit into the GPU memory. Finally, KeOps is easy to use as it comes with its Matlab, Python (NumPy or PyTorch) and R bindings.
 +
:Web site: http://www.kernel-operations.io
  
 
== Séminaires passés / Past seminars ==
 
== Séminaires passés / Past seminars ==
Ligne 179 : Ligne 212 :
 
== Contacts ==
 
== Contacts ==
  
Si vous souhaitez présentez vos travaux durant le séminaire MIAT, n'hésitez pas à contacter [mailto:patrick(dot)taillandier(at)inra(dot)fr Patrick Taillandier] ou [mailto:matthias(dot)zytnicki(at)inra(dot)fr Matthias Zytnicki].
+
Si vous souhaitez présentez vos travaux durant le séminaire MIAT, n'hésitez pas à contacter [mailto:nathalie(dot)vialaneix(at)inra(dot)fr Nathalie Vialaneix] ou [mailto:sandra(dot)plancade(at)inra(dot)fr Sandra Plancade].

Version du 16 juillet 2021 à 11:42

Sommaire

Séminaires de l'unité MIAT

Pyrenees-morning.jpg

Le séminaire de l'équipe MIAT d'INRAe Toulouse est un endroit d'échanges scientifiques et techniques entre les membre de l'unité et des experts en mathématiques, informatique, agro-écosystèmes, bioinformatique, etc. Les présentations peuvent être sur des travaux en cours, des projets finalisés hautement spécialisés ou à valeur plus éducative / informationnelle. Les aspects mis en avant peuvent être d'ordre méthodologique ou applicatif.

Les présentations peuvent être en français ou en anglais pour une durée d'une heure (45min + questions). Sauf contre-indication, les séminaires ont lieu dans la salle de réunion MIAT à 10h30 le vendredi. L'accès à l'unité MIAT d'INRAe Auzeville/Castanet est indiqué ici (nous sommes à moins de 30 mètres de la réception !).

Séminaires de l'année en cours et séminaires futurs

12/11/2021 : Titre à venir Céline Bougel (visiteuse scientifique IMABS, INRAE)

29/10/2021 et 05/11/2021 : Vacances scolaires - pas de séminaire

22/10/2021 :

15/10/2021 : Séminaire interne (SaAB)

08/10/2021 : Titre à venir Charlotte Pelletier

01/10/2021 : Titre à venir Raphaël Mourad (IBCG, Université Toulouse 3 & Délégation INRAE MIAT)

24/09/2021 : Journée « Impact carbone de la recherche et du numérique » dans le cadre des animations IMABS

17/09/2021 : Titre à venir Amine Ghozlane (Institut Pasteur)

10/09/2021 : Titre à venir Paul Terzian (Séminaire interne, plateforme Bioinformatique)

03/09/2021 : Titre à venir Laurent Tournier (INRAE, MaIAGE)

09/07/2021 : Journée des stagiaires

02/07/2021 à 9h15 : Soutenance de thèse de Gaëlle Lefort « Quantification automatique de métabolites dans un spectre RMN et application à la description de la maturité périnatale chez le porc »

Résumé : Parmi les nombreuses données omiques qui décrivent le fonctionnement biologique d'un organisme, le métabolome suscite un intérêt croissant car il est plus proche des phénotypes d'intérêt et qu'il a donc avoir un potentiel important pour la recherche de \emph{biomarqueurs}. La spectrométrie par résonance magnétique nucléaire (RMN) est une technologie haut-débit qui produit des spectres caractéristiques du mélange complexe de métabolites présents dans un échantillon d'intérêt. Cependant, leur interprétation biologique est difficile car ceux-ci ne donnent pas une mesure explicite des différentes quantités de métabolites présents dans l'échantillon.
Une approche prometteuse pour l'analyse de ces données consiste à identifier et quantifier les métabolites présents dans le mélange complexe à partir de son spectre et à réaliser l'analyse statistique sur les résultats de cette quantification. Une première partie de cette thèse a consisté en l'amélioration d'une méthode de quantification existante, ASICS, ainsi qu'à son implémentation dans un package R/Bioconductor. Une nouvelle méthode, prenant en compte l'ensemble des spectres d'une expérience lors de la quantification, a aussi été proposée dans le but d'améliorer la fiabilité des résultats.
Un second volet de cette thèse concerne l'application de cette méthode au problème de mortalité néonatale des porcelets et plus précisément à la description des mécanismes impliqués dans la mise en place de la maturité. L'analyse des spectres RMN de plasma, d'urine et de liquide amniotique de fœtus en fin de gestation a permis d'identifier des voies métaboliques impliquant de nombreux acides aminés et sucres (croissance et apport d'énergie) ainsi que le métabolisme du glutathion (stress oxydatif).

25/06/2021 : Multi-omics data integration: towards a comprehensive view of cancer Laura Cantini (CNRS, IBENS)

Résumé : Due to the advent of high-throughput technologies, high-dimensional “omics” data are produced at an increasing pace. In cancer biology, national and international consortia have profiled thousands of tumors at multiple molecular levels (“multi-omics”) allowing to gather a comprehensive molecular picture of this disease. Moreover, multi-omics profiling approaches are currently being transposed at single-cell resolution, further increasing the information accessible from cancer samples. The current main challenge is to design appropriate methods to integrate this wealth of information and translate it into actionable biological knowledge.
In this talk, I will discuss two main computational directions for multi-omics integration: (i) multilayer networks to integrate a large range of interactions and (ii) joint dimensionality reduction to extract biological knowledge simultaneously from multiple omics. First, I will present their application on bulk data and then I will discuss our ongoing research in single-cell.
Selected associated publications & preprints
Cantini L, Medico E, Fortunato S, Caselle M. Detection of gene communities in multi-networks reveals cancer drivers. Scientific reports. 2015 Dec 7;5(1):1-0.
Cantini, L., Zakeri, P., Hernandez, C., Naldi, A., Thieffry, D., Remy, E., Baudot, A., 2021. Benchmarking joint multi-omics dimensionality reduction approaches for the study of cancer. Nature Communications 12.
Kang Y, Thieffry D, Cantini L. Evaluating the reproducibility of single-cell gene regulatory network inference algorithms. Frontiers in genetics. 2021 Mar 22;12:362.
Huizing GJ, Peyré G, Cantini L. Optimal Transport improves cell-cell similarity inference in single-cell omics data. bioRxiv. 2021 Jan 1.

18/06/2021 : Extensive benchmark of machine learning methods for quantitative microbiome data Magali Berland (MetaGenoPolis, INRAE)

Résumé : Characterization of microbial communities with omics technologies shed to light powerful biomarkers for diagnosis and prognosis in human health. In particular, shotgun metagenomics allows a highly precise microbiome profiling. Indeed, prediction of phenotypic features, such as clinical status or disease states can help to stratify patients which is the first step toward precision medicine. Many machine learning (ML) methods have been developed to tackle classification and regression problems yet statistical specificities of metagenomic data make difficult the learning task. We developed a R workflow designed to compare ML methods for classification or regression from the caret package. The Activeon Proactive engine was used to efficiently distribute the computing load on multiple servers. We then applied our workflow on a dataset where the fecal microbiota of patients with cardiovascular diseases is compared to healthy controls using shotgun metagenomics.

11/06/2021 : Hybrid direct and iterative solvers for the sparse indefinite and overdetermined systems on future exascale architectures Philippe Leleux (CERFACS)

Résumé : In scientific computing, the numerical simulation of systems is crucial to get a deep understanding of the physics underlying real world applications. The models used in simulation are often based on partial differential equations (PDE) which, after fine discretisation, give rise to huge sparse systems of equations to solve. Historically, 2 classes of methods were designed for the solution of such systems: direct methods, robust but expensive in both computations and memory; and iterative methods, cheap but with a very problem-dependent convergence. In the context of high performance computing, hybrid direct-iterative methods were then introduced in order to combine the advantages of both methods, while using efficiently the increasingly large and fast supercomputing facilities. In this thesis, we focus on the latter type of methods with two complementary research axes. In a first research track, we detail the mechanisms behind the efficient implementation of multigrid methods. The latter makes use of several levels of increasingly refined grids to solve linear systems with a combination of fine grid smoothing and coarse grid corrections. The efficient parallel implementation of such a scheme is a difficult task. We then focus on the improvement of the parallel efficiency of a multigrid scheme and in particular the scalability of the solver used on the coarsest grid. At extreme scale, this study is carried in the HHG framework (Hierarchical Hybrid Grids) for the solution of a Stokes problem with jumping coefficients, inspired from Earth's mantle convection simulation.
In the following chapters, we study some hybrid methods derived from the classical row-projection method block Cimmino, and interpreted as domain decomposition methods. These methods are based on the partitioning of the matrix into blocks of rows on which projections are computed to iteratively approximate the solution of a linear system. Both methods are implemented in the parallel solver ABCD-Solver (Augmented Block Cimmino Distributed solver). Finally, for the solution of discretized PDE problems, we propose a new approach using a coarse representation of the space to obtain an iterative method with fast linear convergence, demonstrated on Helmholtz and Convection-Diffusion problems.

04/06/2021 : Hidden semi-Markov models : inference, control and applications Nathalie Peyrard (Séminaire interne, équipe SciDyn)

Résumé : Le cadre HSMM est une extension du cadre HMM, où les durées de séjour dans les états cachés sont modélisées explicitement.
Je présenterai les travaux en cours dans SCIDyn sur le thème de l'inférence dans les HSMM avec des applications en croissance des plantes et en inférence de chemins migratoires chez les oiseaux, ainsi que le projet HSMM-INCA soumis cette année à l'ANR.

28/05/2021 : Optimisation agronomique par simulation et intelligence artificielle: application à la conduite de systèmes agroforestiers Antoine Labatie

Résumé : L'avènement récent du "deep learning" a permis des avancées majeures dans de multiples domaines applicatifs : robotique, voitures autonomes, imagerie médicale, traitement du langage, jeu de go, etc. L'un des éléments ayant permis toutes ces avancées est l'utilisation de grandes quantités de données pour l'entraînement des modèles. Lorsque ces grandes quantités de données ne peuvent pas être obtenues en conditions réelles, des simulateurs sont souvent utilisés comme "générateurs" de données proches des conditions réelles. Il semble prometteur d'utiliser cette approche en agronomie compte tenu d'une part de la difficulté fréquente d'acquisition de données réelles, et d'autre part de la préexistence de simulateurs agronomiques.
Cette présentation exposera le travail récent que j'ai effectué en suivant cette approche. Ce travail, qui est effectué en collaboration avec l'équipe développant le simulateur Hi-sAFe à l'INRAE (UMR System), vise à l'optimisation de la conduite de systèmes agroforestiers. Je présenterai d'abord les algorithmes standards d'IA utilisés pour résoudre ce type de problème d'optimisation. Je présenterai ensuite les adaptations de ces algorithmes qui ont dû être faites dans ce contexte précis pour améliorer la performance finale. Je présenterai enfin quelques résultats concrets et leurs possibles interprétations.

21/05/2021 : Classer la migration à l'ère du Big Data. Est-il possible d'identifier le comportement de migration par des routines automatiques ? Performance de 3 méthodes, MigrO, MigrateR et une approche de segmentation Lucie Debeffe (INRAE, CEFS)

Résumé : Migration remains a complex phenomenon, and previous work has shown the potential inconsistencies in the classification of movement. Here we aimed at evaluating the criticalities in the uninformed, automatic identification of ungulate migration with a test-case. Specifically, we first evaluate the robustness of different routines applied to the same datasets; and second, disentangle how the robustness of classification is affected by the routine applied, or, conversely, by the definition of the biological phenomenon that is then used to parametrise such routines. A dataset of 261 trajectories from 21 populations of one species distributed at the continental scale (red deer from Euromammals/Euroredeer database: euroreddeer.org) was used. We classified each trajectory into migratory and non-migratory (resident and dispersal) movements with three unsupervised procedures that rely on spatio-temporal definition of seasonal ranges. Further, we compared the automatic classification output with visual classification from ecologists and wildlife biologists with a different degree of knowledge of migratory behaviour and red deer populations. By doing this, we aimed to specifically evaluate the consistency in identification of migration.

14/05/2021  Pont de l'ascension (pas de séminaire)

07/05/2021 : SIWAA, le site web Galaxy pour la simulation et l'analyse mathématique des agroécosystèmes Patrick Chabrier (équipe RECORD, séminaire interne) diaporama

Résumé : L'équipe RECORD administre et développe le site web SIWAA pour l'analyse et la simulation de modèles dans le périmètre des agroécosystèmes. Ce site web repose sur le framework Galaxy qui est déployé à la fois sur des ressources informatiques INRAE et sur le mésocentre de l'université de Montpellier. Nous présentons à la fois les motivations et les grandes lignes de l'architecture de ce site Web pour fournir un retour d'expérience à la fois technique et organisationnel sur le fonctionnement du système en place. On aborde aussi la question du processus de développement informatique visant à ajouter des outils sur le site web, mobilisant en particulier des services de la forge MIA.

23/04/2021 et 30/04/2021  : Pas de séminaire (vacances scolaires)

16/04/2021 : Optimal convergence rates for Nesterov acceleration. Aude Rondepierre (INSA/IMT) diaporama

Résumé : In this talk, we will give new optimal decay rates for the Nesterov acceleration scheme of classical gradient descent depending on the local geometry of the function to minimize. Only bounds on the rates are known for convex or strongly convex functions. We will give a more complete description of this rates using Lojasievicz and flatness conditions and explain how these decays can be obtained studying an ODE.
This is a joint work with V. Apidopoulos, J.-F. Aujol and Ch. Dossal.

09/04/2021 : Properties of the stochastic approximation EM algorithm with mini-batch sampling Estelle Kuhn (MaIAGE, INRAE) diaporama

Résumé : To deal with very large datasets a mini-batch version of the Monte Carlo Markov Chain Stochastic Approximation Expectation– Maximization algorithm for general latent variable models is proposed. For exponential models the algorithm is shown to be convergent under classical conditions as the number of iterations increases. Numerical experiments illustrate the performance of the mini-batch algorithm in various models. In particular, we highlight that mini-batch sampling results in an important speed-up of the convergence of the sequence of estimators generated by the algorithm. Moreover, insights on the effect of the mini-batch size on the limit distribution are presented. Finally, we illustrate how to use mini-batch sampling in practice to improve results when a constraint on the computing time is given.
Joint work with Catherine Matias and Tabea Rebafka

02/04/2021 : Développements autour de l'assemblage Matthias Zytnicki et Andreea Dréau (équipe SAaB, Séminaire interne) diaporama

Résumé : L'assemblage est le processus, complexe, de reconstruction de génomes. Lors du séminaire d'unité présenté par Clément Birbes, vous avez vu qu'il fait intervenir de nombreuses technologies, apportant chacune une information parcellaire, à assembler de façon à reconstruire l'intégralité du génome, qui dépasse, dans les cas d'intérêts, le milliard de nucléotides (les A, C, G, T du génome). Dans le cadre du projet SeqOccIn, nous vous présenterons les travaux en cours, qui ont pour but d'améliorer les outils d'assemblage. Nous avons travaillé sur deux parties: l'assemblage à partir de 10X, et l'intégration de données d'assemblage. Ces travaux seront présentés, comme il se doit, de façon très pédagogique.

26/03/2021 : A novel regularized approach for functional data clustering: an application to milking kinetics in dairy goats Christophe Denis (LAMA, Université Paris-Est Marne-la-Vallée) diaporama

Résumé : Motivated by an application to the clustering of milking kinetics of dairygoats, we propose in this talk a novel approach for functional data clustering. This issue is of growing interest in precision livestock farming that has been largely based on the development of data acquisition automation and on the development of interpretative tools to capitalize on high-throughput raw data and to generate benchmarks for phenotypic traits. The method that we propose falls in this context. Our methodology relies on a piecewise linear estimation of curves based on a novel regularized change-point estimation method. Our technique is applied to milk emission kinetics data with the aim of a better characterization of inter-animal variability and toward a better understanding of the lactation process.

19/03/2021 : DeepG4: A deep learning model for sequence-driven DNA G4 formation Vincent Rocher (CBI, Université Paul Sabatier)

Résumé : G-Quadruplex (G4) are alternative DNA secondary structures composed of Guanine-rich DNA sequences which can form a four-stranded structure based on a simple strand, and let the second one free. These structures have been found initially on telomeres, but more recent studies found an enrichment of theses structures on promoters of active genes, and suggest an active role in transcription of these genes. Former in-silico methods to detect and study G4 remained mostly on the detection of a specific motif chain, but recent methods have been developed to identify G4 at genome-wide scale using Next Generation sequencing approach, like G4-seq (in-vitro G4) and BG4-seq (in-vivo). Here, we propose a sequence-based computational Deep learning model to predict in-vivo DNA G4 using the DNA sequences of BG4-seq peaks, in order to detect new motifs involved in the G4 prediction. Deep learning is a recent and popular Machine learning set of approaches where model learn features directly from the data, meaning that we could identify de-novo motifs that are related to G4 prediction. This model can be applied to any DNA sequence to predict the G4 formation, and be used in genetics to study the impact of SNP's on the DNA G4 formation propensities.

12/03/2021 : Processus d’assemblage de génomes grâce aux nouvelles technologies de séquençage Clément Birbes (plateforme bio-info, Séminaire interne)

Résumé :Le projet Sequencage Occitanie Innovation (SeqOccIn) a pour but de développer davantage l’expertise bio-informatique et bio-statistique indispensable aux analyses en génomique, une source majeure d’innovation pour la recherche publique et pour les entreprises. Ce projet est divisé en trois niveaux d’études. L’axe 1 pour le génome, connaissance de la variabilité du génome. L’axe 2 pour l’épigénome, l’étude des marques épigénétique de régulation de l’expression du génome. L’axe 3 pour les métagénomes, pour l’analyse fine des communautés au sein d’un métagénome. Ce séminaire sera une « initiation » aux techniques et aux données utilisées pour l’assemblage des génomes mais sera également l’occasion de présenter une partie des travaux réalisés sur l’axe 1 du projet.

05/03/2021 exceptionnellement à 11h : Pourquoi et comment réduire les émissions de gaz à effet de serre du secteur de la recherche en France ? L’approche bottom up proposée par Labos 1point5. Odile Blanchard (GAEL, Université de Grenoble) diaporama

Résumé : La France s’est engagée à la neutralité carbone à l’horizon 2050. Cela signifie que les émissions de gaz à effet de serre de la France doivent diminuer fortement, de façon très rapide, pour atteindre zéro émissions nettes en 2050.
Le séminaire vise d’une part à discuter pourquoi le secteur de la recherche doit contribuer à la réduction des émissions de gaz à effet de serre de la France et d’autre part à exposer comment le collectif Labos 1point5 s’est emparé de la question depuis 2 ans au sein de la communauté scientifique française.
Le séminaire sera l’occasion de présenter le collectif Labos 1point5, ses objectifs, sa structuration, ses travaux. Un temps particulier sera consacré à l’outil d’estimation des émissions de gaz à effet de serre des laboratoires, GES 1point5. Développé par le collectif dans une démarche bottom up, GES 1point5 permet à la fois de définir des plans d’actions pour réduire les émissions de gaz à effet de serre des laboratoires, de mener des expérimentations dans ce domaine dans les laboratoires, et d’engager des travaux de recherche sur l’empreinte carbone de la recherche.

05/03/2021 à 10h : Soutenance de thèse de Jelena Vucinic : Modélisation moléculaire et Intelligence Artificielle pour le design computationnel de protéines: conception d'enzymes optimisées et de nano-anticorps

01/03/2021 à 15h : Soutenance de thèse Manon Ruffini : Modèles et méthodes pour les problèmes de design de protéines multi-états

19/02/2021 et 26/02/2021 : Pas de séminaire (vacances scolaires)

12/02/2021 : A metagenomic-data-based model of the gut microbiota Simon Labarthe (INRAE/MaIAGE)

Résumé : The human gut harbors a complex bacterial community, the gut microbiota, that maintains a symbiotic relationship with its host: the microbiota ecology is then linked to the host’s health. Mathematical models of the microbial population dynamics are therefore a promising tool to study the mechanisms driving the homeostasis or the dysbiosis of the microbiota, and the links with pathologies.
We couple a PDE population dynamics model of functional microbial meta-populations involved in fibre degradation to a fluid mechanic model of the intestinal content. The metabolic capabilities of the meta-populations are inferred from functional metagenomic data through NMF (non-negative matrix factorization). Metabolic models of the meta-populations are built to predict the metabolite consumptions and the growth rates, and are plugged to the PDE population dynamics model to account for the interactions between the bacterial populations and the intestinal environment. Furthermore, the taxonomic composition of the meta-populations is derived from an additional non-negative least square problem regressing taxonomic marker gene counts against the weight matrix resulting from the previous NMF. This approach makes possible direct comparisons between the model outputs and both gene (shotgun) or bacterial (16s) counts.
This work is a collaboration with B. Laroche, and with M. Ribot, B. Polizzi, T. Phan and T. Goudon for the population/fluid dynamics model of the microbiota and its environment, and with L. Darrigade and M.Leclerc for the metapopulation construction.

05/02/2021 : Journée reproductibilité dans le cadre des animations IMABS programme à ce lien

29/01/2021 : Developing an ontological framework for facilitating the exploitation and re-use of phenomics data based on a formalisation of numerical relationships Luis-Felipe Vargas-Rojas (LEPSE, INRAE)

Résumé : In recent years, plant phenomics has produced massive datasets involving experiments performed in the field and controlled conditions, concerning hundreds of genotypes at different scales of organisation. Taken together, these datasets are unprecedented resources for identifying and testing novel mechanisms and models (Tardieu et al., 2017). Assembling and organising such datasets is not straightforward because of the heterogeneous, multi-scale and multi-source nature of data, to deal partially with these issues, the phenomics community has proposed an ontology-driven Information System (PHIS, www.phis.inra.fr, Neveu et al., 2019) based on FAIR principles (Wilkinson et al., 2016). However, exploitation and re-use of these datasets have not reached its full potential because (1) metadata is often merely informative, (2) relationships between numerical attributes are poorly formalised, whereas (3) ontological reasoning is more efficient for representing categorical data. For instance, relationships such as unit conversion are not effectively used, even if the data is well-annotated and information to perform the computation is provided by unit ontologies (OM, QUDT). The goal of the thesis is to create an ontological framework for representing and computing different kinds of numerical relationships for plant phenomics attributes. It will focus on equations representing most current variables and data-manipulation processes in plant phenomics (e.g. unit conversions, thermal time, and phyllochron). For each use-case, details about metadata, context-dependencies, links between domain-specific ontologies and the formalisation of the equation structure, will be presented. Finally, the concrete machinery to perform these context-aware computations and an effective information retrieval, meant to reduce the user's time-effort and the query definition complexity, will be proposed.

22/01/2021 : Predicting the intensity function of point processes beyond observation areas. Edith Gabriel (INRAE/BioSP)

Résumé : Seismic networks provide data that are used a basis both for public safety decisions and for scientific research. Their configuration affects the data completeness, which in turn, critically affects several seismological scientific targets (e.g., earthquake prediction, seismic hazard...). How to map earthquakes density in seismogenic areas that are not covered by the network? We propose to predict the spatial distribution of earthquakes from the knowledge of presence locations and geological relationships, taking into account any interactions between records. Namely, in a more general setting, we aim to estimate the intensity function of a point process in windows where it has not been observed, conditional to its realization in observed windows, as in geostatistics for continuous processes. We define a predictor as the best linear unbiased combination of the observed point pattern. We show that the weight function associated to the predictor is the solution of a Fredholm equation of second kind. Both the kernel and the source term of the Fredholm equation are related to the second order characteristics of the point process through the pair correlation function. Results are presented and illustrated on simulated nonstationary processes, using continuous covariates or the realization of additional point processes, and real data for mapping Greek Hellenic seismicity in a region with unreliable and incomplete records.

15/01/2021 : Evolution artificielle interactive : comment aborder le participatif ? Évelyne Lutton (MIA/ISC-PIF)

Résumé : La question de l’interaction avec l’humain (sa connaissance, son intuition) est centrale pour les approches d’évolution artificielle interactive (iEC). Sur la base d’exemples personnels, cet exposé tente d’identifier quelques thèmes de recherche émergents, en considérant différents contextes, du mono-utilisateur au multi-utilisateurs. Les questions liées aux développements d’applications participatives semblent particulièrement difficiles et intéressantes.

08/01/2021 : DEX method: recent advances and future challenges on developing predictive models from data Marko Bohanec et Sašo Džeroski (Jožef Stefan Institute, Ljubljana)

Résumé : In the last decade, decision support and data mining approaches have become indispensable tools for researchers and practitioners in agronomy and related fields. Decision modelling is aimed at developing models, usually through collaboration of decision makers and experts, for suggesting and justifying solutions of the problem at hand. Data mining uses data to find meaningful patterns, most often in the form of predictive models, for a similar purpose. Both types of models can be included in decision support systems for aiding decision makers in recurring decision tasks. This seminar will be given through two 30-minute presentations by two senior researchers from Jožef Stefan Institute, Department of Knowledge Technology, Ljubljana, Slovenia: Marko Bohanec, an expert in decision support and creator of DEX method and DEXi software and Sašo Džeroski, an expert in data mining, leading the development of many data mining tools, and Head of the Department. Marko Bohanec will focus on the method DEX and present some recent advances and plans, for instance inclusion of the option generator method in DEXi. Participants who already know DEXi are kindly asked to pose questions and give comments. Sašo Džeroski will present some methods for mining complex data, in particular methods for multi-target prediction. He will also illustrate their use on several problems from ecology and agriculture.

25/12/2020 et 01/12/0202 : Pas de séminaire (vacances scolaires)

18/12/2020 : De l’aide à la décision à l’aide à la réflexion, un glissement paradigmatique… Franck Taillandier (INRAE/RECOVER)

Résumé : Décider est une préoccupation partagée par tous les domaines d’application ; l’étudier, accompagner les gens vers de bons choix est une préoccupation majeure, hier comme aujourd’hui. La recherche scientifique a ainsi investi le champ de l’aide à la décision sous de multiples angles, du plus théorique au plus appliqué. Cela offre un corpus d’une richesse rare et un panel d’outils propres à répondre à de nombreuses problématiques. Mais cela ne va pas sans soulever de questions… Est-on toujours sûr d’utiliser ces outils à bon escient ? Qu’est-ce qu’une bonne décision ou qu’une bonne démarche d’aide à la décision ? D’ailleurs, qu’entend-on par « aide » à la décision ? Ce séminaire n’aura pas vocation à vous apporter toutes les réponses, mais fidèle à la démarche que je prône, à vous faire réfléchir quant à ces questions…

11/12/2020 : Analyse de données spectroscopiques par clustering de variables et réduction de dimension interprétables Rebecca Marion (UCLouvain - Belgique) diaporama

Résumé : En métabolomique, la spectroscopie par résonance magnétique nucléaire (RMN) est un moyen courant de quantifier les concentrations de métabolites. Les spectres RMN sont très reproductibles, ce qui implique que la plupart des variations entre les spectres représentent des différences biologiques entre les échantillons. De plus, comme la spectroscopie RMN peut quantifier des molécules connues et inconnues, elle est particulièrement utile pour identifier et caractériser de nouveaux composés, ce qui en fait une plate-forme importante pour la découverte de biomarqueurs. L'identification des biomarqueurs dans un spectre RMN se résume à l'identification des groupes de variables ou des régions spectrales qui prédisent le mieux le résultat biologique qui nous intéresse. Dans ce séminaire, nous présentons notre nouvelle méthode, Adaptive Clustering around Latent Variables (AdaCLV), qui permet d’identifier de tels clusters de variables de façon non-supervisée. AdaCLV s'inspire des méthodes multivariées existantes de la famille Clustering around Latent Variables (CLV), tout en offrant plusieurs avantages clés par rapport à ces méthodes, tels que sa meilleure précision et son interprétabilité, ainsi que de sa robustesse aux changements de valeurs d’hyperparamètres.

04/12/2020 : Journée des doctorants du pôle IMABS : programme

27/11/2020 : Simulation en recherche médicale. Généralités, exemple et problème connexe. Nicolas Savy (IMT) diaporama

Résumé : Un des axes du projet Big Data financé par la Région Occitanie et porté par l’Institut de Mathématiques de Toulouse était une réflexion générale sur la notion de simulation en recherche médicale et sur la pertinence de méthodes de simulation dans ce contexte. Une présentation des fruits de cette réflexion qui soyons honnête à fait émerger plus de problèmes que de solutions, sera présenté dans un première partie. Dans une deuxième partie sera présenté un exemple de modèle à agents développé dans le contexte médico-économique du passage aux génériques des anti retro-viraux. Enfin un des points saillants pour la mise au place de méthodes par simulation en recherche médicale est la calibration des modèles sous-jacents. Si des bases existent elles sont souvent difficiles à exploiter dans un contexte dédié pour des questions d’homogénéité des codages. C’est une question très vaste pour laquelle nous avons développé un début de solution par l’algorithme “OT”. Il s’agit d’un algorithme de recodage de variables basé sur le transport optimal qui sera présenté en troisième partie de cet exposé.

20/11/2020 : Development of decision support systems for application in agronomy. Marko Debeljak (Jožef Stefan Institute, Ljubljana) diaporama

Résumé : Agronomy is increasingly embedded in the broader social and economic context. Its obligations and commitments to meet the objectives of sustainable development goals and ecosystem services are increasing. Due to the rapid development of other fields of research, agronomy is intensively introducing digitisation, which is leading to the accumulation of ever-increasing amounts of data. In parallel with digitisation, extensive informatisation is taking place in agronomy too. It increases the exchange and collection of large amount of knowledge and experiences. Agronomy is in a position where it must make quick and correct decisions about the growing number of problems and expectations of society. Therefore, decision-making in agronomy has become an extremely complex process that can only be managed with an objective scientific approach. Experiences from systems ecology and ecological modelling for the development of decision support systems have proven to be very helpful. The application of methods developed in the field of systems ecology allows us to build a high quality architecture of decision support systems that takes into account the specifics of the agronomic system. The design of a decision support system (DSS) should be a problem driven process. This requires a clear definition and role of all stakeholders which are directly or indirectly involved in the development and application of the DSS. When developing the elements of the DSS structure, the advantages of modern information and computer technology must be used. The structure of the decision models as central elements of the DSS must meet all criteria to ensure their quality and reliability. Decision models must therefore be constructed according to a clearly defined procedure for building ecological models. Any possibility that the DSS might propose wrong decisions that could be the result of a non-functional decision model, must be excluded. In this seminar, I will present the methodology of building decision support systems on three selected cases. The first example is the system for the assessment and management of the risk of surface and groundwater pollution with pesticides, which we developed for ARVALIS - Institut du végétal, France. Another example is the DSS for the simultaneous assessment of five soil functions, which we developed in the H2020 project LANDMARK. The third system, which is still under development, will assess the sustainability of the agronomic value chain based on legumes. We are developing it as part of the H2020 project TRUE. In all systems, the method DEX is used to build qualitative multi-attribute decision models. We complement the existing agricultural expertise with knowledge obtained from data mining. All three decision support systems interact with the users via internet interfaces.

13/11/2020 : Conception et mise en œuvre d’un système modulaire de mini-bioréacteurs pour la culture continue de microorganismes. Cyprien Guérin (Inrae, MaIAGE)

Résumé : Les systèmes de culture continue en bioréacteurs restent, malgré leur intérêt, peu utilisés dans les laboratoires de microbiologie. L’objectif de ce projet de thèse est de faciliter leur mise en œuvre en proposant un nouveau système modulaire de mini-bioréacteurs pilotés par ordinateur en s’appuyant sur les opportunités offertes par l’essor des technologies de fabrication numérique et des microcontrôleurs programmables. Les volumes de culture visés sont de l’ordre de 5 à 10 mL afin de permettre des plans d’expériences complexes pouvant impliquer de nombreux bioréacteurs (en parallèle, en cascade, avec suivi et contrôle en temps réel, ...). Comme preuves de concept, plusieurs applications chez la bactérie Gram-positive Bacillus subtilis sont envisagées aussi bien dans des contextes d’évolution expérimentale et dirigée que pour des études physiologiques s’appuyant sur de la comparaison de transcriptomes.

06/11/2020 : ComMod une posture ! Etienne Delay (CIRAD, GREEN) diaporama

Résumé : Les modèles multi-agents et les jeux de rôles sont des outils de représentation et de simulation du fonctionnement des socio-écosystèmes qui aident à franchir les frontières disciplinaires pour étudier les processus de coordination entre acteurs et de décision collective. Depuis 20 ans l'UPR GREEN au CIRAD les utilisons dans le cadre d’une approche qualifiée de « modélisation d'accompagnement » (companion modeling approach). Cette présentation sera l'occasion de présenter la construction méthodologique de l'approche et ses évolutions à travers mes yeux de « dernier recruté » dans l'unité GREEN. Une occasion de raccrocher ce travail avec des problématiques de gestion des ressources naturelles, de bien commune, et de liens sociaux.

23-30/10/2020 : Pas de séminaire (vacances scolaires)

16/10/2020 : Estimation of species environmental niches and sampling effort from presence only records and illustration on the Pl@ntNet citizen-science flora data. Christophe Botella (LECA)

Résumé: Naturalist mobile applications have been deployed worldwide in the last years and enabled access to a considerable amount of geolocated species presences records. This novel type of data represents a step forward to address ecological and conservation questions through the use of species distribution models (SDMs). However, in the absence of a sampling protocol, the sampling effort often concentrates on specific locations (cities, riverside walks, etc.) located in specific environments, resulting in estimation biases in SDMs. During my PhD, I studied methods to minimize bias in the estimation of inhomogeneous Poisson point processes (IPP) modelling species habitats preferences. I will present two approaches: (i) pooling occurrences from many species, using them as background points in the IPP and conditions under which it yields unbiased estimates, and (ii) the joint modeling of multiple species densities along with a common sampling effort component. Finally, I will show an illustration on Pl@ntNet's citizen science data over the whole French territory, integrating several hundred plant species and hundreds of thousands of observations over France with a highly biased sampling.

09/10/2020 : Model Exploration in Practice. Romain Reuillon (CNRS, ISC-PIF)

Résumé : The use of simulation models has widely spread in recent years, in various fields of academic research. Models are being developed to represent and try to better understand all kinds of systems: population dynamics, epidemics, transportation systems, macro-scale systems, micro-scale systems, etc. In some scientific areas, models and in silico simulations have become essential to help study in vivo situations.
However, simulation models are necessarily a simplification of reality, and hypotheses have to be made when developing a model. Thus every model can (and needs to?) be questioned: Is it relevant to tackle the research question behind it? How to extract significant knowledge from the model? What kind of dynamics can it exhibit? How does each mechanism of the model impact those dynamics? Is every mechanism really necessary? These are just some of the many questions a model developer has to answer in order to really know and understand his/her model!
This talk focuses on the worldwide zombie epidemic of the past few years. It raises the question of what can modelers say about it, and, it attempts to use model exploration, OpenMOLE (openmole.org) and the associated exploration methodology to build knowledge on this forefront phenomenon.

02/10/2020 : Méthodes mathématiques en écologie. Tri Nguyen-Huu (IRD) (diaporama)

Résumé : Le développement de modèles mathématiques ont permis d'apporter un point de vue neuf sur des questions écologiques d'ordre général ou bien appliquées. Des modèles abstraits permettent de mieux comprendre les processus régissant certains écosystèmes, tandis que des modèles plus descriptifs permettent d'avoir une vision plus quantitative des phénomènes étudiés. Nous présenterons quelques modèles mathématiques issus des systèmes dynamiques (équations différentielles, équations aux différences finies) et nous intéresserons à ce qu'ils peuvent apporter à l'étude de quelques problèmes écologiques, à savoir la dynamique bio-économique des pêcheries, la connectivité d'espèces marines récifales, et la conservation des grands herbivores dans les parcs nationaux du Kenya.

25/09/2020 : Learning with pangenomes. Laurent Jacob (CNRS, LBBE)

Résumé : As the number and variety of sequenced genomes grows, representing them by comparison to a single reference leads to an increasing level of approximation, discarding accessory genes, rearrangements and repeated regions. This problem is particularly acute when studying microbial genomes or metagenomes, and hinders essential statistical tasks such as GWAS or prediction in this context. I will discuss genome representations which are well suited to statistical analysis when genomes are ill-suited to alignment or even assembly.

18/09/2020 : Partager de l'information pour faire face à un virus. Etude de cas en ostréiculture via un modèle multi-agent. Nicolas Paget (CIRAD)

Résumé : Le postulat selon lequel le partage d'information permet de meilleures prises de décisions est fortement ancré. En développant un modèle multi-agent sur la plateforme Cormas, nous avons questionné ce postulat. Depuis quelques années, les ostréiculteurs font face à un virus (os-hv1) au fort taux de létalité. Ce virus n'est que mal connu. Dans le modèle, les agents, de rationalités variées, partagent leurs expériences et en tirent des leçons pour leurs pratiques. Nous étudions alors le type de décision prise par les agents en fonction de scénarios de partage de l'informations et d'hétérogénéité des agents. Les résultats montrent que l'hétérogénéité des agents permet une meilleure exploration de l'espace des possibles et qu'un partage et une interprétation trop radicaux des expériences de chacun à un effet contreproductif. Ce travail a été effectué en thèse. Lors de cette présentation, j'évoquerai aussi des travaux ou pistes de travaux plus récents ou en cours d'initialisation dans l'idée de susciter des collaborations.

11/09/2020 : Thigmoimmunité végétale. Comment la mécanoperception participe à la réponse immunitaire. Adelin Barbacci (LIPM)

Résumé : Les attaques de parasites sont responsables chaque année de pertes de récolte considérables à travers le monde. La recherche de sources génétiques de résistance durable chez les plantes constitue un levier important pour répondre à la demande alimentaire mondiale. Sclerotinia sclerotiorum est le champignon pathogène responsable de la maladie de la pourriture blanche sur plus de 400 espèces végétales, causant plusieurs millions d’euros de pertes de récolte chaque année, notamment sur colza. Comme la majorité des agents pathogènes, S. sclerotiorum utilise la sécrétion de molécules effectrices pour manipuler la physiologie des plantes hôtes et favoriser son développement. La mise en place de la QDR est consécutive à la perception du champignon. Toutefois, contrairement à la résistance gène-pour-gène plus largement étudiée, la QDR mobilise de nombreux réseaux de gènes qui sont encore méconnus et ne sont pas tous spécifiquement dédiés à l’immunité. Or, l'interaction plante-champignon met en jeu des signaux mécaniques importants, intrinsèques à la pénétration des tissus de l’hôte.
Au cours de ces deux dernières années nous avons réussi à montrer que les signaux mécaniques jouent un rôle de premier plan dans la mise en place de la réponse immunitaire et qu’il était possible de moduler fortement le niveau de résistance des plantes grâce à des ondes mécaniques. Ce travail est le fruit d’une collaboration étroite entre des équipes de physique (Aroune Duclos Laboratoire d’Acoustique de l’Université du Mans), de physiologie végétale (Nathalie Leblanc-Fournier INRA PIAF Clermont, Tou-Cheu Xiong INRA BPMP Montpellier) de biologie moléculaire (Adelin Barbacci LIPM) et de modélisation mathématique et informatique (Frédérick Garcia MIAT). C’est également le point de départ de la thèse de Khaoula Hadj-Amor coencadrée par MIAT et le LIPM. L’exposé s’attachera à présenter nos aventures entre mécanoperception, proprioception et réponse immunitaire.

Séminaires reportés à une date ultérieure

KeOps: Kernel Operations on the GPU, with autodiff, without memory overflows. Benjamin Charlier (Université de Montpellier, ARAMIS)

Résumé : The KeOps library lets you compute generic reductions of large 2d arrays whose entries are given by a mathematical formula. It is perfectly suited to the computation of convolutions (or more generally to Kernel dot products) and the associated gradients (with an automatic differentiation engine).
KeOps is fast as it allows you to compute Gaussian convolution up to 40 times faster than a standard tensor algebra library that use GPU. KeOps is scalable and can be used on large data (typically from n=10^3 to n=10^7 number of rows/columns): it combines a tiled reduction scheme and works even when the full kernel matrix does not/fit into the GPU memory. Finally, KeOps is easy to use as it comes with its Matlab, Python (NumPy or PyTorch) and R bindings.
Web site: http://www.kernel-operations.io

Séminaires passés / Past seminars

Lien vers la Liste des séminaires passés de l'unité MIAT.

Contacts

Si vous souhaitez présentez vos travaux durant le séminaire MIAT, n'hésitez pas à contacter Nathalie Vialaneix ou Sandra Plancade.

Génotoul BioInfo
Équipe RECORD
IMABS
Outils personnels