Skip to content. | Skip to navigation

Personal tools

Sections
You are here: Home / News / Soutenance de thèse d'Alexandre MARTHE

Soutenance de thèse d'Alexandre MARTHE

La soutenance se tiendra le Mercredi 11 Mars, à 14h en Salle des Thèses. La thèse s’intitule « Gestion du risque dans les Processus de Décision Markoviens : Approche Distributionnelle et Front Entropique ».

Le jury sera composé d’Aurélien Garivier, Claire Vernade (University of Technology Nuremberg, co-encadrante), Vianney Perchet (ENSAE, rapporteur), Marc G. Bellemare (McGill University et Université de Montréal, rapporteur) et Rémi Munos (Meta, examinateur).

Voici le résumé de la thèse :
Les approches classiques des Processus de Décision Markoviens (MDP) se concentrent généralement sur la maximisation du retour espéré. Pourtant, de nombreuses applications du monde réel nécessitent une prise en compte du risque allant au-delà du résultat moyen. Cette thèse étudie la prise de décision séquentielle sensible au risque, visant à optimiser des fonctionnelles de la distribution des retours au-delà de la simple espérance.
Un espoir a été soulevé par l’approche distributionnelle, qui permet de capturer l’intégralité de la distribution du retour. Cette approche offre, en théorie, un moyen d'aborder plus aisément des métriques de risque telles que la Value-at-Risk (VaR), la Conditional Value-at-Risk (CVaR) et la Mesure de Risque Entropique (EntRM). Cette thèse examine rigoureusement les capacités et les limites de cette approche, en étudiant quelles mesures de risque peuvent être efficacement optimisées par programmation dynamique.
Malgré les promesses de la perspective distributionnelle, nous mettons en lumière des barrières théoriques fondamentales. Nous caractérisons l'ensemble des mesures de risque se prêtant à une optimisation par  programmation dynamique et montrons qu'il est beaucoup plus restreint qu'on ne le supposait auparavant. En particulier, seule une classe spécifique de mesures de risque, la famille des Mesures de Risque Entropiques, peut être optimisée de manière exacte via la programmation dynamique.
Cette famille s'avère cependant cruciale, car elle apparaît naturellement dans l'approximation d'autres mesures de risque importantes. Sur la base de ce constat, nous proposons un cadre d'optimisation unifié appelé DOLFIN (Distributional Optimality Front Iteration). Cette méthode exploite le spectre complet des comportements sensibles au risque offerts par la famille EntRM (le Front d'Optimalité), pour lequel nous prouvons des propriétés structurelles. Inspirés par ces propriétés, nous développons un algorithme permettant de résoudre approximativement des objectifs autrement intraitables (VaR, CVaR, Probabilités de Seuil) via le principe d'Amélioration de Politique Généralisée (Generalized Policy Improvement).
Enfin, nous étudions le problème de l'apprentissage de l'EntRM sous incertitude afin de permettre une prise de décision fiable dans des environnements à la dynamique inconnue. Nous dérivons des bornes de concentration statistiques pour son estimation et fournissons la première analyse de l'apprentissage de l'EntRM pour une plage de paramètres de risque simultanément.