Introduction à certains problèmes de décisions séquentielles

Context:

Rencontre des Statisticiens Lyonnais (RSL), Campus de La Doua

Resume:

Que ce soit pour les systèmes de recommandation, pour l'allocation dynamique de ressources ou pour l'exploration des arbres dans les jeux, de nombreux systèmes de décision automatiques s'appuient sur le modèle simple dit du "bandit manchot" où un agent doit choisir, à chaque instant, une source aléatoire dont il observe ensuite une réalisation.
Nous présenterons dans cet exposé quelques stratégies permettant d'exploiter au mieux ces sources.

Dans la première partie, introductive, on présentera simplement le modèle et quelques idées générales pour son étude statistique. Dans une deuxième partie, nous verrons comment inégalités d'information et inégalités de déviations auto-normalisées permettent d'identifier finement la complexité de certaines tâches à résoudre.

Slides:

RSL20181012_small.pdf

Date:

October, 2018

Keywords:

UCB
Bandit Problems

Search form

Main menu

You are here

Introduction à certains problèmes de décisions séquentielles

Keywords: