Développement d'approches d'apprentissage par renforcement dans les jeux stochastiques pour la coordination en temps réel d'agents de planification autonomes - Application aux jeux de conservation
- Directeurs de thèse : Régis Sabbadin (INRAE, MIAT), Meritxell Vinyals (INRAE, MIAT)
- Début de thèse : 1er Novembre 2023
- École doctorale : MITT
- Établissement : Université de Toulouse III Paul Sabatier
- Financement : 100% Financement ANR, Projet CHIP-GT
Résumé : L’utilisation de l’IA et des approches de la théorie des jeux pour la conservation de la biodiversité a suscité beaucoup d’intérêt ces derniers temps. Des travaux récents sur les jeux de sécurité verts ont utilisé plusieurs cadres théoriques basés sur les jeux de forme normale, les jeux stochastiques, les jeux de sécurité de Stackelberg, etc., pour cibler la protection des ressources naturelles contre les menaces humaines (par exemple le braconnage). Par exemple, des cadres tels que les DEC-POMDP généralisent les processus de décision de Markov (PDM) bien connus et modélisent des jeux entièrement coopératifs, même dans des environnements partiellement observables. Le cadre des jeux stochastiques (SGs) unifie la théorie des (PO)MDP et la théorie des jeux non coopératifs pour représenter et analyser les problèmes de planification multi-agents non/semi-coopératifs. L’apprentissage dans ces jeux utilise classiquement des approches d’apprentissage par renforcement (RL) pour les jeux à un seul joueur, et des approches d’apprentissage par renforcement multi-agents (MARL) sont nécessaires pour les jeux stochastiques à n joueurs. L’objectif de l’apprentissage est de calculer les stratégies optimales pour chaque joueur, généralement les équilibres de Nash du jeu. Ces stratégies doivent tenir compte des stratégies optimales des autres joueurs et d’un environnement stochastique, ce qui rend le calcul très complexe, même pour de petites instances. Dans cette thèse, nous définissons les jeux de conservation stochastiques comme des instances particulières de jeux stochastiques. Plus précisément, il s’agit de jeux entre des protagonistes hétérogènes semi-coopératifs et des antagonistes compétitifs dans un environnement stochastique. Nous fournirons ensuite une base de problèmes de planification utilisant des approches de la théorie des jeux pour concevoir des objectifs de planification de haut niveau pour des agents individuels. Enfin, nous fournirons des outils MARL pour le calcul d’équilibres de Nash “efficaces” dans des jeux répétés avec des informations partielles. Cet objectif nécessitera le développement d’un cadre original pour le RL dans les jeux et des algorithmes dédiés. Des algorithmes de RL profond et non profond pour les jeux stochastiques seront développés, soit en adaptant des algorithmes de RL à agent unique, soit en concevant des algorithmes originaux.