Résumé du projet :
Un agent, plongé à chaque instant dans un certain contexte, et qui doit choisir séquentiellement une suite d'actions qui influera sur ses observations, fait face à un problème d'allocation dynamique de ressources. Il s'agit, pour de tels cas, de concevoir et d'analyser des règles de décision dynamiques, appelées politiques, en utilisant les observations passées pour optimiser ses choix futurs. Une bonne politique doit réaliser un savant équilibre entre l'exploitation des actions qui se sont révélées payantes par le passé et l'exploration de nouvelles possibilités qui pourraient s'avérer encore meilleures. Initialement motivés essentiellement par la thématique des essais cliniques, de tels problèmes interviennent désormais dans de nombreux autres domaines industriels, les technologies de l'information en ayant multiplié les opportunités.
L'étude mathématique de ces problèmes dits "de bandits" (en référence à la situation paradigmatique d'un joueur faisant face à une lignée de machines à sous et cherchant sur laquelle tenter sa chance afin de maximiser ses gains) remonte à l'article pionnier de Thompson (1930). De nombreux travaux ont suivi, notamment dans le champ de l'apprentissage statistique. Dans cette littérature, de nombreux problèmes tant théoriques que computationnels sont abordés, en combinant théorie des probabilités et optimisation convexe. La communauté statistique a également contribué, notamment sous la dénomination d'"inférence séquentielle". Ces travaux ont particulièrement insisté sur l'approche asymptotique du problème.
La statistique semi-paramétrique, par ailleurs, a été un thème de recherche très actif au cours des quinze dernières années. Cet intérêt encore croissant ne s'explique pas seulement par une complexité théorique fascinante: d'importantes avancées conceptuelles, accompagnées de progrès algorithmiques décisifs et de l'apparition de ressources informatiques massives, ont en effet permis leur application dans un grand nombre de situations et de champs scientifiques. Les résultats des approches semi-paramétriques ne cessant de se montrer convaincants, le nombre de questions théoriques à la fois générales et spécifiques ne cesse d'augmenter, en même temps que les défis algorithmiques pour les mettre en oeuvre.
Récemment, dans la littérature de l'apprentissage statistique, de nouvelles politiques pour l'allocation dynamique de ressources ont été proposées qui, pour dépasser les précédentes, utilisaient de telles procédures d'estimation - de sorte que de nouveaux progrès pour certains problèmes de bandits semblent conditionnés à la résolution de problèmes théoriques de statistique semi-paramétrique. Symétriquement, le champ d'application des algorithmes de bandits s'est tellement étendu que la communauté statistique, et notamment biostatistique, a tout intérêt à étudier de près quels plans d'expériences dynamiques en essais cliniques ils permettent d'envisager.
Ce projet, appelé SPADRO, entend proposer de nouvelles méthodes et de nouvelles analyses pour les problèmes d'allocation dynamique de ressources, en provoquant un brassage fécond de la théorie de l'apprentissage avec la statistique semi-paramétrique.
Outline of the project
Dynamic resources allocation concerns the setting where an 'agent' sequentially makes choices in a set of possible actions based on the current context, the different choices leading to different stochastic rewards. The goal is to design and analyze computationally efficient dynamic rules of decision, called 'policies', for optimizing the future choices based on past observations. The key issue is to find the right trade-off between exploitation and exploration, i.e., the right balance between staying with the option that gave highest rewards in the past and exploring new options that might give even higher rewards in the future. Originally motivated by clinical trials, suchs models now appear in several industrial domains too, as modern technologies create many opportunities for new applications.
The study of 'bandit' problems (the word refers to the paradigmatic situation of a gambler facing a row of slot-machines and deciding which one to choose in order to maximize his/her rewards) dates back to the early 1930s and the seminal works of Thompson. It has engendered a prolific literature, notably from the machine learning community. This literature addresses a wide range of issues, theoretical and computational, through developments rooted in probability theory and optimization. The statistical community also contributed under under the denomination of 'sequential inference', with a focus on asymptotic results.
Semiparametric models based statistics ('semiparametrics' for short) has been a thriving research field for the last thirteen years or so. The still growing interest in semiparametrics is explained not only by its intrinsic fascinating theoretical complexity. Important theoretical advances backed by algorithmic advances and the avaibility of massive computational resources have enabled its application to a variety of real-life scientific problems, each characterized by its specific context (prior knowledge, questions at stake). As semiparametrics keeps proving its excellent scientific utility, the class of theoretical questions raised by it, both general and specific, steadily grows; so does the class of algorithmic challenges posed by its implementation.
Recently, in the machine learning literature, new algorithms have been proposed, improving on the former methods. Because these new algorithms incorporate more involved inference procedures, theoretical semiparametrics appears to be a bottleneck to further progress. Symmetrically, the class of general bandit problems for which efficient algorithms are available steadily grows, and deserves more consideration from the statistical community, and especially the biostatistical community involved in clinical trials. The present proposal, called SPADRO, aims at providing new methods and new analyses for dynamic resources allocation problems by cross-fertilizing the latest breakthroughs in machine learning and semiparametrics.