Séminaires

De MIAT INRA
Aller à : navigation, rechercher

Sommaire

Séminaires de l'unité MIAT

Pyrenees-morning.jpg

Le séminaire de l'équipe MIAT d'INRAe Toulouse est un endroit d'échanges scientifiques et techniques entre les membre de l'unité et des experts en mathématiques, informatique, agro-écosystèmes, bioinformatique, etc. Les présentations peuvent être sur des travaux en cours, des projets finalisés hautement spécialisés ou à valeur plus éducative / informationnelle. Les aspects mis en avant peuvent être d'ordre méthodologique ou applicatif.

Les présentations peuvent être en français ou en anglais pour une durée d'une heure (45min + questions). Sauf contre-indication, les séminaires ont lieu dans la salle de réunion MIAT à 10h30 le vendredi. L'accès à l'unité MIAT d'INRAe Auzeville/Castanet est indiqué ici.

Séminaires de l'année en cours et séminaires futurs

30/09/2022 : Titre à venir. Sophie Donnet (MIA Paris-Saclay, INRAE)

23/09/2022 : Simulation multi-agent interactive: engager des populations locales dans la modélisation des socio-écosystèmes pour stimuler l’apprentissage social Christophe Le Page (CIRAD)

16/09/2022 :

09/09/2022 : Titre à venir. Gildas Mazo (MaIAGE, INRAE)

01/07/2022 : Journée des stagiaires

24/06/2022 : Titre à venir. Marie de Roy de Chaumaray (ENSAI) [distanciel]

17/06/2022 : Titre à venir. Élise Maigné et Jérôme Mariette (MIAT, INRAE)

10/06/2022 : Titre à venir. Estelle Ancelet (Séminaire interne, équipe Record)

03/06/2022 : Entre recherche et gestion en biologie de la conservation : intérêt de distinguer différents types d’interface et de savoirs, et illustrations sur le cas de la chouette tachetée. Frédéric Gosselin (EFNO Ecosystèmes Forestiers, INRAE) [distanciel]

27/05/2022 : Pas de séminaire (pont de l'ascension)

20/05/2022 : [créneau pré-réservé]

13/05/2022 : [créneau pré-réservé]

29/04 et 06/05  : Pas de séminaire (vacances scolaires)

22/04/2022 : Fast geometric learning with symbolic matrices: the KeOps library Benjamin Charlier (IMAG, Université de Montpellier)

Résumé In this talk I will present the KeOps library, which allows to compute arbitrary operations implying M*N pairwise interactions between M "source" and N "target" data points or features in a very efficient way, benefitting from Cpu or Gpu parallelization and automatic differentiation. KeOps avoids creating unnecessary temporary quadratic matrices (M \times N) for very common operations such as kernel convolutions or nearest neighbour search and can be used almost seamlessly, through NumPy, PyTorch or R bindings. The end-user interface of KeOps is centered around the concept of symbolic matrices or tensors, i.e. tensors that are defined as mathematical expressions from actual tensors, are not computed nor materialized in memory, and can be further manipulated in expressions until the actual final computation is performed. KeOps allows to alleviate the user from the burden of creating custom routines for such operations, easing the development of algorithms for a broad range of applications in imaging science, such as inverse problems, computational optimal transport, shape analysis or geometric deep learning. I will present both the end-user interface of KeOps, briefly explain its internal engine, and then show how many standard or specific algorithms can benefit from KeOps.


15/04/2022 : Processus décisionnels semi-markoviens déterministes par morceaux et partiellement observables : Application au suivi de patients. Régis Sabbadin (Séminaire interne, équipe Scidyn)

Résumé Dans cet exposé, je vous raconterai le début d'une collaboration avec Alice Cleynen et Benoite de Saporta, statisticiennes à l'IMAG (Montpellier). Alice et Benoite travaillent depuis quelques temps déjà sur un modèle de suivi et de traitement de rechutes de patients atteints de myélomes multiples (données Cancéropole Toulouse). Elles ont modélisé la dynamique des marqueurs de la maladie dans le cadre des "processus déterministes par morceaux". La dynamique est modifiée sous l'effet de rechutes, ou de traitements plus ou moins efficaces, prescrits à l'occasion de visites de contrôle, dont la fréquence est à déterminer. Le choix du traitement et de la date de prochaine visite peuvent être modélisés par un "processus décisionnel semi-markovien, déterministe par morceaux, partiellement observable".
Malheureusement, la résolution de ce problème est très difficile, car (i) Le temps et les observations sont continues, (ii) les observations sont imparfaites et "rares" (seulement lors des visites), (iii) les paramètres des modèles de dynamiques sont inconnus.
Lors du stage de M2 d'Aymar Thierry d'Argenlieu que nous coencadrons, puis de la thèse d'Orlanne Le Quelennec qui suivra, nous allons tenter de mettre en oeuvre des techniques d'IA (c'est la partie que je maitrise un peu plus) afin de proposer et d'implémenter des méthodes (approchées) de calcul de suivi et traitement, basées sur le cadre des processus décisionnels markoviens partiellement observables et des méthodes d'apprentissage par renforcement.
Voila, je vous ai à peu près tout dit, pendant le séminaire je vous montrerai quelques figures et formules mathématiques, afin d'essayer d'expliquer la problématique, ainsi que nos intuitions pour le stage et le début de thèse.

08/04/2022 : "Modélisation de la croissance des plantes: enjeux et défis", Charlotte Baey(Université de Lille) [distanciel]

Résumé La modélisation de la croissance des plantes est née à la fin du XXème siècle, à l'intersection de l'agronomie, de la botanique et de l'informatique. Si les premiers modèles avaient surtout pour objectif de décrire et simuler une plante ou une population de plantes, la confrontation avec les données expérimentales est plus récente et a permis de mettre à jour plusieurs problématiques. On se propose d'aborder certaines de ces questions au cours de l'exposé. Nous parlerons notamment d'analyse de sensibilité, et d'estimation paramétrique. On s'intéressera plus particulièrement à l'extrapolation des modèles individus-centrés à l'échelle de la population via des approches de type modèles à effets mixtes. Ces approches permettent également de modéliser la variabilité génotypique, qui est une des clés pour mieux comprendre les interactions génotype x environnement qui se trouvent au coeur des enjeux d'adaptation au changement climatique.

01/04/2022 : "Some examples of data integration" Alyssa Imbert

Résumé La première partie sera sur les résultats de ma thèse, sur le projet DiOGenes. Je présenterais l’imputation multiple hot-deck une méthode d’imputation qui permet d’imputer des individus en entier afin d’améliorer la qualité de l’inférence de réseaux et qui nécessite d'utiliser des données auxiliaires. Puis dans un second temps, je présenterais l’intégration de données transcriptomiques (mesurées par QuantSeq) et de données cliniques en utilisant une approche basée sur de l’inférence de réseaux. La seconde partie porte sur le projet ProMetIS. Le sujet porte sur l’intégration de données protéomiques et métabolomiques mesurées par LC-MS via notamment l’utilisation d’approches multi-blocs (MOFA, RGCCA/sGCCA).​

31/03/2022 à 16h : Soutenance de thèse de Fulya Trösser : Méthodes Exactes pour l'Apprentissage de la Structure d'un Réseau Bayésien et les Réseaux de Fonctions de Coûts

25/03/2022 :

18/03/2022 : Modifications du transcriptome du champignon pathogène S.scle lors de l’infection de différentes plantes hôtes Lise Pomies (MIAT) [présentiel]

Résumé Sclerotinia sclerotorium (S.scle) est un champignon nécrotrophe capable d’infecté un large spectre de plantes hôtes. L’expression de nombreux gènes est modifiée lors de l’infection, parmi lesquels un petit groupe de gènes core différentiellement exprimés par S.scle quelque soit l’hôte infecté. L’inférence de réseau pour ces gènes a permis de mettre en évidence une organisation de la réponse core en plusieurs composantes avec des fonction biologiques différentes : mécanisme de défense et de régulation des gènes d’un coté, voie de dégradation et mécanismes d’attaque de l’autre. S.scle exprime aussi des gènes hôte-spécifiques lors de l’infection. De manière intéressante, suivant l’espèce hôte, ces gènes ne se branchent pas sur les mêmes parties du réseau core.

11/03/2022 : "Pollution de la littérature scientifique : détection participative d'expressions torturées révélatrices d'articles frauduleux" Guillaume Cabanac (IRIT)

Résumé Nous avons découvert des milliers de publications non fiables dans les catalogues des maisons d'édition de premier plan : Elsevier, Springer et Wiley, notamment. Publiés et souvent vendus, ces pseudo-articles générés par ordinateur ou assemblés par des paper mills (1, 2, 3) tels des patchworks sont trahis par la présence d'« expressions torturées » dénuées de sens. Cet exposé présentera la plateforme ‘Problematic Paper Screener’ pour identifier cette pollution affectant la littérature scientifique. Avec d'autres détectives scientifiques et lanceurs d'alerte, nous l'employons pour ré-évaluer les 6 000 articles identifiés à ce jour et les signaler sur la plateforme d'évaluation post publication PubPeer pour les faire rétracter. Cette initiative bénévole de fact-checking participatif détecte de nouvelles phrases torturées et méconduites qui sont intégrées au système développé, conduisant à étendre le détecteur par effet boule de neige. Les 6 000 articles problématiques sont parus majoritairement depuis 2014 et font l’objet de 41 000 citations en tout. Des centaines d'entre eux sont abusivement cités, sans logique apparente, indice d'une manipulation visant à augmenter le nombre de citations de certains fraudeurs. Cet exposé reprendra notre article paru dans le Bulletin of the Atomic Scientists créé en 1945 par les scientifiques du projet Manhattan, traitant de « la sécurité mondiale et les questions de politique publique, en particulier celles liées aux dangers posés par les armes nucléaires et autres armes de destruction massive »

25/02/2022 et 04/03/2022 : pas de séminaire (vacances scolaires)

18/02/2022 : Modéliser la performance de cultures associées annuelles: une approche combinant écologie fonctionnelle et science des données Rémi Mahmoud (INRAE AGIR) [présentiel]

Résumé L'objectif de ma thèse est de développer des approches prédictives (modèles statistiques) basées sur des théories issues de l'écologie des communautés pour prédire et comprendre le rendement de cultures associées céréale-légumineuse. Ce type de culture prometteur fait l'objet de nombreuses expérimentations agronomiques depuis plusieurs décennies. Afin d'étudier de manière globale ces cultures et de prédire leur performance, nous avons constitué une base de données de mesures de traits sur une dizaine d'espèces, chacune représentée par plusieurs variétés et dans différents environnements (35 expérimentations, 5 sites, 15 années). Ma présentation sera constituée de 3 parties, i) je donnerai des détails sur le contexte de ma thèse puis ii) j'expliquerai en quoi la constitution et le traitement de données issu d'expérimentations différentes est un défi en soi et iii) je présenterai quelques premiers résultats de modélisation, en soulignant les problématiques liées à l'inclusion de données environnementales dans les modèles.

15/02/2022 à 15h : Présentation des besoins en compétences dans le domaine de l’algorithmique des séquences de l’équipe Statistique et Algorithmique pour la Biologie (SaAB) de l’unité MIAT. Webinaire

11/02/2022 : Combining AI and Earth Observation data to deal with land cover mapping Dino Ienco (INRAE TETIS) diaporama [distanciel]

Résumé  The huge amount of data currently produced by modern earth observation(EO) missions has raised up new challenges for the remote sensing communities. EO sensors are now able to offer (very) high spatial resolution images with revisit time frequencies never achieved before. Additionally, considering successive acquisitions of satellite imagery over the same area, make it possible to organize this data as satellite image time series (SITS), to monitor phenomena over time. In this talk I will give some examples of modern machine learning techniques applied to EO data with applications related to the agricultural and environmental domains as well as connections between the models outputs and their interpretability

04/02/2022 : L'écosystème Git : fonctionnement, outils et possibilités Élise Maigné (Séminaire interne, équipe SaAB) diaporama

Résumé  Cette présentation vise à faire une introduction au système de gestion de version git. Je décrirai son fonctionnement, mais aussi le vocabulaire associé et les outils qui gravitent autour de git (l'écosystème git). Enfin je ferai un retour d'expérience sur comment je m'en sers au quotidien en tant que statisticienne.

28/01/2022 : Structures de données pour les grands ensembles de k-mers Camille Marchet (CNRS, Université de Lille) diaporama [distanciel]

Résumé  Les données de séquençage à haut débit peuvent aujourd'hui être déposées dans des banques publiques comme l'ENA (European Nucleotide Archive) pour permettre la reproductibilité et la mise à disposition à la communauté. Alors que les quantités de données stockées dans ces banques atteignent à présent des ordres de grandeur en péta-octets, il n'est pas possible d'y requêter d'y requêter des séquences (par exemple pour rechercher une mutation, une jonction d'épissage). Pourtant, une telle possibilité serait très utile aux chercheurs en biologie et en bioinformatique, pour pleinement bénéficier de la somme de données produites. Avec cet objectif en tête, différentes méthodes de bioinformatique ont vu le jour ces dernières années, qui permettent de requêter de grandes collections de jeux de données en les représentant sous forme d'ensembles de k-mers. Dans ce séminaire je propose de faire un tour d'horizon des méthodes qui indexent et représentent des ensembles des k-mers de manière efficace. On verra ensuite comment ces techniques ont été adaptées pour créer des structures de données indexant des milliers de jeux données (et plus) pour y faire des requêtes. Je présenterai des exemples d'applications pour ces techniques, centrés sur les recherches sur l'ARN et l'épissage alternatif.

21/01/2022 : SAEM algorithm, beyond the simulation step Juliette Chevallier (INSA Toulouse/IMT) [distanciel]

Résumé : The expectation-maximization (EM) algorithm is a powerful computational technique for maximum likelihood estimation in incomplete data models. When the expectation step cannot be performed in closed form, a stochastic approximation of the EM algorithm (SAEM) can be used. The convergence of the SAEM toward critical points of the observed likelihood has been proved, and its numerical efficiency demonstrated. However, sampling from the posterior distribution may be intractable or have a high computational cost. Moreover, despite appealing features, the limit position of this algorithm can strongly depend on its starting one. In this talk, we propose a method to overcome these two limitations: sampling from an approximation of the distribution in the expectation phase of the SAEM. After recalling some SAEM algorithm properties, we will present recent developments aiming at extending its applicability. In particular, we will concentrate our presentation on improving the simulation step, focusing on the tempering-SAEM. Inspired by the simulated annealing algorithm, the tmp-SAEM proposes to temper the posterior distribution of the SAEM sampling step to favor its convergence towards global maxima.

14/01/2022 : Impacts environnementaux du calcul scientifique Anne-Laure Ligozat (LISN - ENSIIE) [distanciel]

Résumé :Dans ce séminaire, j'aborderai les impacts environnementaux du calcul scientifique, et en particulier des programmes d'intelligence artificielle. Je présenterai les impacts directs, dus à la fabrication et à la fin de vie des équipements, et à la consommation d'énergie pendant l'utilisation, les outils de mesure de ces impacts, ainsi que les impacts indirects.

07/01/2022 : Genomic variation across sequencing technologies : Benefit from long reads Arnaud Di-Franco (Séminaire interne, plateforme Bioinformatique)

Résumé :The differences in DNA sequences between individuals make us who we are. These variations only represent a small proportion of our genome but can greatly influence our phenotype. They appear in different sizes and types and each have been proven to be link to various disease. This makes them of interest in serveral research fields such as population genetic, genomic or medicine. Here, I will show an overview of these variations and explain the bioinformatic challenges associated to their detection. I'll present results demonstrating the impact of the new sequencing technologies on this matter and discuss the pros and cons over a few species.

24/12/2021 et 31/12/2021 : pas de séminaire (vacances scolaires)

17/12/2021 : Modelling highly pathogenic avian influenza transmission dynamics in poultry to provide policy support in a crisis context" Timothée Vergne (ENVT) [distanciel]

10/12/2021 : Séminaire des doctorants (programme) [distanciel]

03/12/2021 : Modèles de mutation et "analyse de fluctuation" Adrien Mazoyer (IMT, UPS)[présentiel]

Résumé : Les modèles de mutations décrivent le processus d’apparitions rares et aléatoires de mutations au cours de la croissance d’une population de cellules. Les échantillons obtenus sont constitués de nombres finaux de cellules mutantes, qui peuvent être couplés avec des nombres totaux de cellules ou un nombre moyen de cellules en fin d’expérience. Le modèle classique, dit de Luria-Delbrück, suppose que les développements cellulaires des cellules s’effectue selon un processus de Yule. On peut dans ce cas expliciter la loi du nombre final de mutantes, en fonction de différents paramètres. Elle dépend en particulier du nombre moyen de mutations. Au vu d’un échantillon de nombres finaux de mutantes, on est alors en mesure d’estimer le nombre moyen de mutation et d’en déduire une estimation de la probabilité d’apparition d’une mutation au cours d’une division cellulaire qui est le véritable paramètre d’intérêt. L’estimation de cette probabilité est d’une importance cruciale dans plusieurs domaines de la médecine et de biologie : rechute de cancer, résistance aux antibiotiques de Mycobacterium Tuberculosis, etc. Cependant, les hypothèses de modélisation classiques sont irréalistes : durées de vie exponentielles, indépendance, taille finale de la population constante, absence de mort cellulaire… Il est donc nécessaire de disposer de méthodes d’estimation robustes pour lesquelles le biais, en particulier sur la probabilité de mutation, reste le moins sensible possible aux hypothèses de modélisation. Dans cet exposé, nous présenterons un modèle de mutations permettant de considérer des processus de croissance inhomogènes en temps, tout en généralisant les extensions déjà étudiées. Le problème statistique sera également traité : différentes méthodes d’estimation seront exposées, et quelques sources de biais seront illustrées à l’aide d’études de simulation. Tous les résultats présents dans cet exposé ont par ailleurs été implémentés sous forme d’un package R qui sera brièvement présenté.

26/11/2021 : Incertitudes et Risques dans certaines approches développées au sein de l'équipe Scidyn : quelques exemples illustratifs liés aux risques naturels Patrick Taillandier et Stephane Couture (Séminaire interne Scidyn) diaporama1 diaporama2 [distanciel]

Résumé : Nous présenterons la manière dont les incertitudes et les risques sont appréhendés dans certaines approches développées au sein de l'équipe SCIDYN. Plus précisément nous ciblerons deux approches, portant sur la modélisation et la simulation des comportements d’agents décisionnels, les Processus Décisionnels de Markov et la Simulation à base d'Agents. Ces avancées méthodologiques seront illustrées avec quelques exemples liés aux risques naturels. Nous décrirons aussi brièvement la proposition du projet européen CAESAR (Coping and Adapting with Extreme climate risks by building Sustainable and All-round Resilience) en quête de financement, lié à cette thématique.​

19/11/2021 : Stratégies de ré-analyse d'un essai de prévention du déclin des fonctions cognitives non concluant​ Céline Bougel (visiteuse scientifique IMABS, INRAE) [présentiel]

Résumé : Contexte : Les essais cliniques demeurent le gold standard pour évaluer l’efficacité d’un traitement, y compris dans le domaine de la prévention. Un essai non concluant se traduit souvent par l’absence d’effet du traitement, alors qu’une méthodologie non optimale peut être en cause. Dans ce travail, nous abordons les essais de prévention, dont l’objectif est de retarder le déclin des fonctions cognitives car les résultats des grands essais dans ce domaine sont peu convaincants. Nous avons fait l’hypothèse que les spécificités de ces essais (données répétées, éventuel effet d’apprentissage, longue phase de latence avant de pouvoir détecter un effet, incertitude de mesure, population hétérogène. . . ) pourraient être mieux appréhendées au moment de l’analyse.
Méthodes : Pour chaque difficulté méthodologique, des méthodes d’analyse spécifiques ont été proposées pour optimiser la détection d’un effet potentiel. Le caractère longitudinal des données est un aspect fondamental que nous prenons en compte dans les analyses, soit en utilisant la trajectoire, soit en utilisant des paramètres représentatifs de son évolution (taux d’accroissement, transition entre états). L’hétérogénéité de la population est explorée par des méthodes de clustering fonctionnel basées sur la forme de la trajectoire ou des méthodes nécessitant un paramètre de synthèse (classification ascendante hiérarchique, sémiologie graphique). L’incertitude de la mesure a été abordée par l’analyse de sujets répondeurs au traitement ou par des modèles de Markov cachés. Une méthode d’apprentissage statistique par renforcement a été utilisée pour traiter l’effet retardé du traitement préventif.
Résultats : Différentes méthodes d’analyses ont été appliquées aux données réelles de l’essai Multidomain Alzheimer Preventive Trial. Les analyses ont indiqué que la population n’évoluait pas comme attendu cliniquement mais avait un niveau cognitif global stable sur les 3 ans de suivi. La composition des profils d’évolution différait selon la méthode utilisée. Les k-means pour données longitudinales avec reconnaissance de la forme de la trajectoire et l’analyse des répondeurs ont mis en évidence un groupe déclinant au cours du suivi. La classification ascendance hiérarchique et la sémiologie graphique ont toutes deux confirmé que la majorité des sujets de l’étude étaient stables cognitivement.
Conclusion : Dans le cadre d’un essai de prévention, les données peuvent être ré-analysées par des méthodes non mobilisées habituellement. Des étapes préalables de prétraitement des données s’avèrent nécessaires pour certaines analyses. Nous avons mobilisé des méthodes qui nous paraissaient appropriées pour mieux prendre en compte certaines limites méthodologiques, le but n’étant pas d’atteindre l’exhaustivité ni de revenir sur la conclusion de l’essai. Au total, nous n’avons pas identifié une méthode à utiliser préférentiellement dans un essai de prévention car chacune des méthodes a pu répondre à une limite mais pas à l’ensemble des limites méthodologiques. D’autres travaux sont nécessaires pour répondre à l’ensemble des particularités méthodologiques. Mots clés : essai de prévention, cognition, donnée longitudinale, paramètre de synthèse, analyses statistiques

27/10/2021 à 14h : Soutenance de thèse de Nathanaël Randriamihamison

29/10/2021, 05/11/2021 et 12/11/2021 : Vacances scolaires et pont de la Toussaint - pas de séminaire

22/10/2021 : Modélisation de l’évolution des résistances aux fongicides, étude nationale et pluri-annelle chez Zymoseptoria tritici en France Maxime Garnault (INRAE AGIR) diaporama

Résumé : La septoriose (Zymoseptoria tritici) est une maladie majeure sur blé dont le contrôle repose encore principalement sur l'utilisation de fongicides. Cependant, la durabilité des substances actives est érodée par l'émergence de mutants résistants à une ou plusieurs substances. En France depuis 2004, le réseau Performance (Arvalis-INRAE) suit l’évolution des fréquences de ces résistances dans les populations de septoriose.
L'analyse statistique des données récoltées a permis de quantifier l'hétérogénéité spatiale de la sélection des résistances à 3 grandes familles de fongicides. Les taux de croissance estimés mettent en évidence des vitesses d’évolution significativement différentes, entre les résistances et les régions. Ces différences ont ensuite été analysées au regard de trois déterminants majeurs : (i) l'utilisation des fongicides (pression de sélection), (ii) la fraction des surfaces non traitées (refuges) et (iii) la nuisibilité de la septoriose (taille de population).
Conclusion : Ces travaux sur l’évolution des résistances à l’échelle régionale viennent compléter ceux déjà existants à la parcelle ou au paysage. En s’appuyant sur de nouvelles données, ils peuvent aider à fournir une prédiction court terme de l’évolution en fréquence d’une résistance émergée.

18/10/2021 à 14h : Soutenance de thèse de Leila Khajavi

15/10/2021 : Résoudre un problème d'optimisation exprimé par un réseau de fonctions de coûts avec toulbar2 et les services Web Simon de Givry et Nathalie Rousse (Séminaire interne, équipe SaAB)

Résumé : Nous montrons comment un problème d'optimisation sous contraintes peut se modéliser sous forme d'un réseau de fonctions de coûts. Après avoir introduit ce cadre de modélisation par rapport à d'autres cadres existants, nous prenons comme exemple le problème de conception d'un emploi du temps dans une université. Partant d'une précédente modélisation en programmation par contraintes, nous décrivons sa modélisation en un réseau de fonctions de coût. Nous introduisons ensuite le solveur toulbar2 développé en partie dans l'équipe SaAB et présentons des résultats comparatifs préliminaires sur le problème d'emploi du temps. En terme de mise en oeuvre, nous présenterons la manière dont nous utilisons des services web pour lancer des résolutions de ce problème, et nous évoquerons des cas d'utilisation de services web autour de toulbar2 auxquels nous réfléchissons.

08/10/2021 : Time series classification: recent advances and challenges Charlotte Pelletier (IRISA, Université Bretagne Sud) diaporama

Résumé : Time-series data, which are ordered sequences of numerical or symbolic values, are nowadays ubiquitous. They are growing in quantity and velocity as the number of sensors (weather stations, surgical robots, body sensors, and many more) increases. Their analysis is fundamental in a variety of applications including food security, environment, medicine, and human activity recognition. Among possible analysis tasks, time series classification (TSC) consists of associating a time series with a label. As traditional classification approaches (e.g., random forests) fail to exploit the temporal structure of these data and their particularities (temporal relationships between consecutive observations, irregular sampling, high volume, etc.), specific methods have been proposed to automatically classify unlabelled time series in a reasonable amount of time.
In this talk I will present the different families of TSC approaches with a focus on recent advances, which are looking for a good tradeoff between accuracy and scalability. I will detail novel approaches based on decision trees and deep learning techniques. I will also briefly outline some applications and challenges of TSC to remote sensing data in the context of land cover mapping.

01/10/2021 : Some ideas to reconcile orthology with deep learning to predict regulatory regions using convolutional and graph neural networks Raphaël Mourad (IBCG, Université Toulouse 3 & Délégation INRAE MIAT)

Résumé : Current deep learning methods, eg CNNs, for functional element prediction are aimed to be trained on one species (eg human) and to predict on the same species (eg human). This is a very strong limit of such model for annotating newly sequenced genomes. Formalizing the annotation task as a GNN connecting species allows to generalize CNNs to predict annotations across species, in a very natural way.

24/09/2021 8h50-12h30 : Journée « Impact carbone de la recherche et du numérique » dans le cadre des animations IMABS

17/09/2021 : SHAMAN: a user-friendly website for metataxonomic analysis from raw reads to statistical analysis Amine Ghozlane (Institut Pasteur) diaporama

Résumé : Comparing the composition of microbial communities among groups of interest (e.g., patients vs healthy individuals) is a central aspect in microbiome research. It typically involves sequencing, data processing, statistical analysis and graphical display. Such an analysis is normally obtained by using a set of different applications that require specific expertise for installation, data processing and in some cases, programming skills. Here, we present SHAMAN, an interactive web application we developed in order to facilitate the use of (i) a bioinformatic workflow for metataxonomic analysis, (ii) a reliable statistical modelling and (iii) to provide the largest panel of interactive visualizations among the applications that are currently available. SHAMAN is specifically designed for non-expert users. A strong benefit is to use an integrated version of the different analytic steps underlying a proper metagenomic analysis. The application is freely accessible at http://shaman.pasteur.fr/, and may also work as a standalone application with a Docker container (aghozlane/shaman). The source code is written in R and is available at https://github.com/aghozlane/shaman.
Référence

10/09/2021 : Détection de méthylation de l’ADN à partir de lecture ONT Paul Terzian (Séminaire interne, plateforme Bioinformatique)

Résumé : Les modifications de l’ADN et en particulier la méthylation des cytosines en 5mC sont un sujet d’étude important en épigénomique. En effet, il a été montré que cette modification pouvait avoir le rôle de marqueur épigénétique chez les animaux, c’est-à-dire avoir un rôle dans le contrôle de l’expression de gènes. Jusqu’à présent, la méthode de détection de méthylation de référence est le WGBS qui nécessite de traiter chimiquement l’ADN et qui ne produit que des lectures courtes.
Aujourd’hui nous nous intéresseront au séquençage par nanopore (ONT) qui permet de séquencer des longues lectures et de détecter les modifications de l’ADN, dont la méthylation des cytosines, simultanément et sans traitement de l’ADN au préalable. En revanche cette approche reste encore instable, aussi bien en matière de matériel de séquençage qu’en matière de logiciel. Dans cette présentation j’introduirais le concept de séquençage nanopore ainsi que son apport pour les analyses de méthylation. Je parlerais ensuite de notre travail visant à acquérir une expertise sur ces nouvelles méthodes et à améliorer la qualité des résultats obtenus (entraînement de nouveaux modèles de prédictions). Ce travail est réalisé dans le cadre du projet SeqOccIn, porté par les plateformes Get et Bioinfo de Genotoul.

03/09/2021 : Interconnexion de réseaux de régulation cellulaire - Application au cycle de division et à l'horloge circadienne Laurent Tournier (INRAE, MaIAGE)

Résumé : Les systèmes dynamiques discrets, en particulier les réseaux Booléens asynchrones, constituent un outil intéressant pour modéliser la dynamique de réseaux de régulation cellulaire. Ils permettent une analyse qualitative, bien adaptée pour capturer certains comportements asymptotiques clés de ces réseaux. Ils sont utilisés notamment pour représenter des réseaux de décision (survie/mort cellulaire) ou encore, plus récemment, des oscillateurs biologiques. Dans cette présentation, nous décrirons le cadre des réseaux Booléens asynchrones et nous verrons comment les utiliser pour modéliser des réseaux cellulaires. Nous proposons en particulier deux méthodes originales pour interconnecter plusieurs réseaux entre eux. Nous appliquons ces résultats à deux oscillateurs biologiques centraux dans les cellules mammifères : le cycle de division et l’horloge circadienne. Ces travaux, encore en cours, sont réalisés en partie dans le cadre du projet ANR ICycle (2017-21).

Séminaires reportés à une date ultérieure

Séminaires passés / Past seminars

Lien vers la Liste des séminaires passés de l'unité MIAT.

Contacts

Si vous souhaitez présentez vos travaux durant le séminaire MIAT, n'hésitez pas à contacter Céline Brouard ou Sandra Plancade.

Génotoul BioInfo
Équipe RECORD
IMABS
Outils personnels