
L’évolution croissante de la quantité de données et de leur complexité engendre un manque de capacité d’analyse, notamment d’analyse complexe. Le projet ASTERICS vise à combler ce manque en rendant les biologistes ou non- statisticiens plus autonomes sur les analyses exploratoires et intégratives. Le projet a été le fruit d’un partenariat entre plusieurs entités : l’unité MIAT, INRAE, avec l’équipe SaAB, pour l’expertise statistique et le développement métier et la plateforme GenoToul-Bioinfo pour le développement informatique, l’unité GenPhySE, INRAE pour la fourniture du cas d’usage (données PigLet sur le développement en fin de gestation de porcelets), l’IMT Toulouse et la plateforme Genotoul- Biostat pour son expertise sur les méthodes d’intégration de données et enfin l’entreprise Hyphen-Stat pour son expertise en développement d’outils pour l’analyse d’études cliniques.
Contexte en enjeux
L’application permet d’importer un ou plusieurs jeux de données sous forme de données tabulaires, et de réaliser leur édition (formatage, gestion des données manquantes, normalisation), leur exploration (statistique descriptive, ACP, heatmap, classification non supervisée, cartes auto organisatrices) et l’intégration de plusieurs jeux de données acquis sur les mêmes individus (PLS, PLS-DA, MFA, analyse différentielle). Nous mettons à disposition une application web disponible gratuitement en ligne, le code source ainsi que 3 containers docker permettant d’installer l’application localement. ASTERICS s’accompagne d’une documentation pédagogique accessible depuis l’interface.
L’application ASTERICS n’est pas dédiée à un type d’omique spécifique mais peut prendre en charge différents types de données. Selon le type de données importées, différentes analyses seront proposées (par exemple, une normalisation adaptée aux données compositionnelles ou aux données transcriptomiques). Le flux d’analyse proposé n’est pas linéaire mais permet au contraire de réaliser différentes éditions et explorations, d’extraire des données de celles-ci pour réaliser des analyses plus complexes, tout en gardant la trace des opérations effectuées via un graphique (Graphe Dirigé Acyclique) interactif. Grâce à celui-ci, il est possible de revenir sur les analyses.
Un accent particulier a été mis sur la documentation et notamment sur l’explication des choix des paramètres (pré-choisis pour la plupart des données) et l’interprétation des résultats. Des données de test sont fournies avec l’application et deux cas d’usage ont été rédigés, disponibles dans la documentation.
Résultats
L’application ASTERICS étant maintenant disponible pour des analyses, nous travaillons sur deux aspects : l’intégration de nouvelles analyses, selon les remontées des besoins des utilisateurs et l’interopérabilité avec d’autres outils. Par exemple il est envisagé de pouvoir directement importer des données produites par des plateformes via des API, sans passer par le format tabulaire, ce qui permettrait aux biologistes de garder traces des échantillons et manipulations effectuées dans une étude, en liant l’acquisition de données et leur analyse.
Valorisation
- Article publié dans BMC Bioinformatics : http://dx.doi.org/10.1186/s12859-023-05504-9
- Application : https://asterics.miat.inrae.fr
- Données tests mises à disposition dans l’application et sur des dépôts publics : https://doi.org/10.57745/TCKSTD et https://doi.org/10.15454/YNMQUY
- Documentation incluant deux cas d’études : https://asterics.pages.mia.inra.fr/user_documentation/
- Code source : https://forgemia.inra.fr/asterics/asterics/
- Images dockers : https://forgemia.inra.fr/asterics/asterics/container_registry
- Première formation à la statistique avec ASTERICS organisée les 17-18 octobre 2023
- En outre, ASTERICS a donné lieu à plusieurs présentations et posters en séminaires ou conférence, sur les aspects techniques ou biostatistiques
Références
Publication Maigné, É., Noirot, C., Henry, J. et al. Asterics: a simple tool for the ExploRation and Integration of omiCS data. BMC Bioinformatics 24, 391 (2023). https://doi.org/10.1186/s12859-023-05504-9