Apprentissage par renforcement à base de modèles pour le contrôle de processus de décision semi-markoviens déterministes par morceaux, partiellement observables.

  • Directeurs de thèse : Benoîte de Saporta (IMAG, Montpellier), Alice Cleynen (IMAG-CNRS, Montpellier), Régis Sabbadin (INRAE, MIAT)
  • Début de thèse : 1 septembre 2022
  • Établissement : Université de Montpellier
  • Financement : 100% ANR HSMM-INCA

Résumé :Le traitement au long terme de maladies humaines telles que les cancers est en général basé sur le suivi de la dynamique de variables (marqueurs dans l’organisme) dans le temps, modélisée par une suite de trajectoires continues définies à partir d’un « mode » (conjonction d’un stade de la maladie et d’un traitement). Les transitions entre modes dépendent à la fois de caractéristiques intrinsèques et des traitements appliqués. Les transitions entre stades et les temps de séjour peuvent être modélisés par des noyaux semi-Markoviens (dépendant des traitements appliqués). Le traitement optimal d’une maladie, dans le cas idéal où les marqueurs et les stades sont observés continûment et les modèles de dynamique sont connus, revient à optimiser une stratégie fonction de l’état du patient, pour un proces-sus décisionnel semi-Markovien. Dans la réalité, (i) les stades de la maladie ne sont pas observés, (ii) les marqueurs ne sont observés qu’à l’occasion de prélèvements dont les dates sont à décider au même titre que les traitements et (iii) les modèles de dynamiques ne sont pas connus (on fera l’hypothèse d’une forme paramétrée, dont les paramètres sont inconnus). L’objectif de cette thèse est de proposer un cadre de représentation et des algorithmes d’optimisation pour ces problèmes. Leur caractéristique unificatrice est une dynamique déterministe par morceaux qui devrait permettre le développement d’approches spécifiques, plus efficaces que le cadre général des processus décisionnels semi-Markoviens partiellement observables. Sur le plan finalisé, nous nous intéresserons au problème de suivi et traitement de cancers, pour lequel les membres du consortium disposent à la fois de données de suivi et collaborent avec des experts.


Avatar
Orlane Rossini