Offre de stage : Exploration statistique de données de phénotypage
Mots-Clés
data science, statistique, intégration de données, phénotypage végétal, interopérabilité
Description
Les stage s’inscrit dans l’amorce d’une connexion entre les deux outils ASTERICS et OpenSILEX (projet MENHIR), tous deux développés à INRAE.
Les résultats du stage permettront de fournir les recommandations techniques pour la création d’une API entre les deux outils, les possibilités et les limites existantes.
OpenSILEX est un ensemble de modules logiciels interopérables (structuration, visualisation, analyse, reproductibilité, etc.) qui permet la création de systèmes d’information scientifique dédiés à l’exploitation de données à grande échelle en agronomie.
ASTERICS est une interface web (clic bouton) d’exploration, d’analyse et intégration de données dans laquelle l’utilisateur est guidé sur les choix de paramètres et de méthodes. Des données d’étude seront fournies par le LIPME, il s’agit d’un jeux de données produites dans le cadre du projet européen HELEX dont l’objectif principal est de créer de nouvelles variétés de tournesol plus résistantes à la sécheresse et aux conditions climatiques extrêmes, en assurant à la fois la production de denrées alimentaires et de matières premières tout en favorisant la biodiversité. Plusieurs sources de données sont disponibles sur les mêmes plantes : phénotypage, comptage de pollinisateurs, météo, séquençage d’ARN, quantité de nectar.
L’analyse intégrative de ces données devrait permettre d’identifier des variétés plus attractives pour les pollinisateurs, l’impact des conditions de stress et les gènes impliqués sur l’attractivité. Actuellement ces données sont gérées dans le système d’information PHIS porté par le logiciel OpenSILEX. Pour pouvoir les analyser il faut les extraire de la plateforme, les formater et les analyser avec le logiciel de son choix.
L’objectif du stage est de réaliser une étude de faisabilité de connexion directe entre les deux outils PHIS et ASTERICS, pour à terme développer une API qui permette aux utilisateurs d’éviter les formatages et opération manuelles sur des fichiers de données. Le développement de l’API ne fera pas l’objet du stage.Le stage se déroulera en plusieurs phases :
- Découverte des données dans PHIS
- Découverte de l’outil ASTERICS
- Compréhension du besoin d’analyse
- Analyse exploratoire des données
- Identifier les informations à extraire de PHIS : nature et format des données
- Analyser la compatibilité entre les possibilités d’ASTERICS et le besoin d’analyse
A l’issue du stage, une étude de faisabilité sera rédigée, comprenant à la fois le rapport de l’analyse exploratoire des données ainsi que l’étude de faisabilité de connexion entre les deux outils (possibilités, limites techniques, et préconisations).
Objectifs du stage :
- Acquérir les notions d’interopérabilité des données
- Utiliser les méthodes appropriées d’intégration statistique de données (PLS, PLS-DA, MFA, …)
- Réaliser une étude exploratoire des données de phénotypage
- Évaluer la faisabilité d’une connexion entre les deux outils, et rédiger les contraintes techniques et limites associées
Profil de candidat souhaité :
- Connaissances en en statistique exploratoire (ACP, normalisation des données)
- Bonne connaissance de R ou python (d’autres langages pourront être considérés)
- Intérêt pour les contextes multidisciplinaires et appliqués, les sciences du vivant
- Autonomie et capacité de travail en équipe
- Capacité de rédaction, de synthèse
Encadrement :
Le stage sera encadré par Elise Maigné (MIAT, INRAE, Toulouse) et Isabelle Alic (MISTEA, INRAE, Montpellier). Localement, Nicolas Blanchet (LIPME, INRAE, Toulouse) et Cécile Donnadieu (LIPME, INRAE, Toulouse) seront impliqués dans le projet et seront là pour détailler les attentes de l’analyse statistique ainsi que les caractéristiques des données.
Le stagiaire sera hébergé au sein de l’équipe SaAB, unité MIAT, de l’INRAE INRAE.
Information pratiques:
- Lieu d’accueil : INRAE Occitanie-Toulouse, MIAT, chemin de Borde-Rouge, Castanet-Tolosan
- Rémunération : Gratification
- Date de début : avril 2025
- Durée souhaitée : 4 mois
- Modalité pour postuler: envoyer un email avec CV et motivation à elise.maigne@inrae.fr