Offre Stage M2 : Algorithme de Monte-Carlo pour la modélisation géostatistique non stationnaire sur données binaires
Contexte
Le dérèglement climatique accentue les risques pesant sur les forêts, notamment en favorisant la prolifération du Bostryche Typographe, un insecte qui s’attaque aux épicéas affaiblis par la chaleur et la sécheresse. L’implantation massive d’épicéas en dehors de leur habitat naturel en altitude aggrave la situation, entraînant des ravages dans plusieurs régions d’Europe. Ces attaques ont des conséquences économiques et environnementales importantes. Pour mieux gérer ce risque, des données satellitaires permettent de cartographier les zones touchées en France.
Ces données croisées avec des variables locales (climat, topographie) permettent de modéliser les facteurs de risque, en tenant compte de l’auto-corrélation spatiale grâce aux modèles géostatistiques à processus Gaussien.
Un modèle de processus Gaussien non-stationnaire a été développé [1] pour tenir compte du fait que les données ne se comportent pas partout de la même façon, en fonction de l’altitude ou de la région par exemple. Il permet d’améliorer les performances de prédiction par rapport à un modèle stationnaire mais il ne s’applique qu’aux données continues. Le but du stage est d’étendre la méthode à des données binaires. Dans le cas des Bostryches Typographes, cela permettrait par exemple de pouvoir prédire le fait qu’un pixel de l’image satellite correspond ou non à de la forêt détruite par l’infestation (variable binaire).
## Objectif du stage
L’objectif du stage est d’étendre le modèle existant [1] aux données binaires, avec un algorithme efficace et d’évaluer les améliorations de prédiction du modèle non-stationnaire par rapport à un modèle stationnaire sur des données simulées.
Déroulement du stage
Les principales étapes seront :
Utiliser la littérature sur les champs Gaussiens et les méthodes de Monte-Carlo, en particulier [2] pour adapter l’algorithme existant de [1] à des observations d’une variable réponse binaire et produire un pseudo-code.
Implémenter le pseudo-code en partant du code existant dans le package R GeoNonStat. Des méthodes tels que l’algèbre linéaire sparse ou l’implémentation bas-niveau en C++ seront utilisées pour accélérer les calculs.
Simuler des données adaptées au problème puis :
Tester le bon comportement des chaînes de Markov générées par l’algorithme MCMC, au moyen de diagnostics basés sur des chaînes parallèles, ou l’effective sample size.
Évaluer l’amélioration des performances d’interpolation du modèle spatial, c’est-à-dire sa capacité à prédire des endroits de l’espace géographique qui ne sont pas observés.
Évaluer l’amélioration des performances d’estimation des coefficients de régression associés aux variables explicatives.
Bibliographie
• [1] Nonstationary Spatial Process Models with Spatially Varying Covariance Kernels, Sébastien Coube, Sudipto Banerjee, Benoît Liquet, 2025, Journal of Computational and Graphical Statistics
• [2] MCMC using Hamiltonian dynamics, NEAL, Radford M., et al., 2011, Handbook of markov chain monte carlo
Formations et compétences recherchées
- De solides bases en mathématiques et particulièrement en algèbre linéaire sont requises.
- Une bonne connaissance de R.
- Un intérêt pour les simulations stochastiques et les méthodes de Monte-Carlo.
- Une connaissance de C++, voire Rcpp, serait un plus.
Information pratiques:
- Lieu d’accueil : INRAE Occitanie-Toulouse, MIAT, chemin de Borde-Rouge, Castanet-Tolosan
- Date de début : début 2026
- Modalité pour postuler : https://jobs.inrae.fr/ot-27643