Axe ASAP : Statistique et Apprentissage
La création de l’axe statistique et apprentissage est le résultat de l’expression d’un besoin de plus d’échanges, plus d’animation autour de nos travaux en statistique et apprentissage, qui sont répartis actuellement dans les deux équipes de recherche. Ce nouvel axe, regroupant nos savoir-faire méthodologiques dans ces disciplines, permettra également une meilleure visibilité vers l’extérieur de cette expertise. L’objectif de l’animation de cet axe est de favoriser le partage disciplinaire et l’émergence de nouvelles collaborations. Cela devrait fournir un environnement favorable notamment pour les deux nouveaux CRs recrutés au concours 2024 (arrivés dans l’unité, respectivement, en octobre 2024 et janvier 2025). Il nous faudra, en parallèle, trouver le moyen de maintenir un lien entre nos activités et celles des collègues informaticiens des autres axes, qui pour certains travaillent sur des sujets très connexes (apprentissage par renforcement, optimisation de fonction de coût, bioinformatique), probablement en nous appuyant sur les personnes participant à un autre axe à titre principal ou secondaire. Ces modalités d’animation sont à construire collectivement et feront l’objet des premières réunions de l’axe.
Au sein de l’unité MIAT, l’axe statistique et apprentissage regroupe une petite dizaine de chercheur·se·s et ingénieur·e·s. Nous avons identifié qutre thèmes (d’intersections non vides) sur lesquels les membres de l’axe ont une forte expertise et qui vont être au cœur de nos activités pour les prochaines années : processus stochastiques, modèles graphiques, méthodes à noyaux et apprentissage par réseaux de neurones.
Thématique : Processus stochastiques
Ce terme aborde à la fois de l’étude des propriétés de processus stochastiques, comme par exemple des processus spatiaux et/ou temporels, la proposition de nouveaux cadres de modélisation et le développement d’algorithmes d’inférence pour ces modèles. Nos travaux actuels et à venir se répartissent en deux familles de processus : les modèles de Markov et semi-Markov cachés (avec, par exemple, la thèse de Mathieu Valdeyron qui vient de démarrer sur les HSMM avec effets mixtes), d’une part, et les processus gaussiens, d’autre part.
Thématique : Modèles graphiques
Nos travaux dans ce thème relèvent de la statistique computationnelle pour les modèles graphiques à variables discrètes et les modèles graphiques à variables latentes discrètes. Il s’agit de développer des algorithmes efficaces pour le raisonnement dans ces modèles. Cela englobe les tâches d’inférence, de restauration, d’apprentissage de structure et de paramètres dans les modèles graphiques. Un enjeu identifié est le passage à l’échelle des méthodes classiques lorsque les espaces d’états sont trop grands. Nous allons, en particulier, poursuivre l’étude du cas des modèles de Markov cachés multichaines (avec en cours la rédaction de deux chapitres pour un ouvrage collectif et à venir la comparaison d’approches bayésiennes pour l’inférence).
Thématique : Méthodes à noyau
Dans ce thème, nos travaux contribuent au développement de méthodes à noyaux pour la prédiction de données structurées et pour l’analyse de formes. Les directions explorées dans ce thème porteront plus particulièrement sur le développement d’approches computationelles pour le passage à l’échelle des méthodes à noyaux, et sur l’amélioration de l’interprétabilité de ces méthodes (en particulier avec une approche de sélection de variables pour les données omiques). Les travaux de l’axe sur ce thème devraient, en particulier, contribuer à soutenir le développement de la librairie KeOps (Kernel Operations on the GPU, with autodiff, without memory overflows), largement utilisée et dont un des porteurs principaux a rejoint (comme CR) l’unité en janvier 2025.
Thématique : Apprentissage par réseaux de neurones
Ancrés depuis longtemps dans le champ de l’apprentissage automatique (machine learning), nos travaux ont également contribué à l’étude et au développement d’approches d’apprentissage profond (deep learning). Nous explorons deux directions singulières. La première concerne l’apprentissage de et pour des données structurées. Il s’agit en particulier de données sous forme de graphe (par réseaux de neurones pour graphes, notamment dans un projet en cours de construction pour le PEPR « Agroécologie et numérique » et par une approche neuro-symbolique, notamment dans la chaire ANITI2 « HEROIC » et le projet ANR « COOL »). La seconde concerne le développement de méthodes et architectures, basées sur des grands modèles de language, pour l’analyse de données génétiques et génomique (en particulier le projet « DeepFunGenomiX », déposé à l’appel TSIA de l’ANR).
Ces thèmes contribuent aux champs thématiques (CT) CT3 (probabilités, statistique et apprentissage automatique) et CT4 (modélisation des systèmes complexes et des systèmes dynamiques) du SSD du département MATHNUM.
Enfin, les travaux des quatre thèmes sont motivés par et contribuent à des questions finalisées à différentes échelles spatiales : intra moléculaire, individu, population, territoire. Nous sommes impliqué·e·s dans des projets en génétique, design computationel de protéines, écologie, croissance des plantes, ce qui induit, en général, un travail de modélisation statistique de données complexes (données de séquences, d’images, coordonnées atomiques, données temporelles ou spatio-temporelles, données catégorielles ou hybrides, prise en compte de covariables, …).