Que ce soit pour les systèmes de recommandation, pour l'allocation dynamique de ressources ou pour l'exploration des arbres dans les jeux, de nombreux systèmes de décision automatiques s'appuient sur le modèle simple dit du "bandit manchot" où un agent doit choisir, à chaque instant, une source aléatoire dont il observe ensuite une réalisation.
Nous présenterons dans cet exposé quelques stratégies permettant d'exploiter au mieux ces sources.
Dans la première partie, introductive, on présentera simplement le modèle et quelques idées générales pour son étude statistique. Dans une deuxième partie, nous verrons comment inégalités d'information et inégalités de déviations auto-normalisées permettent d'identifier finement la complexité de certaines tâches à résoudre.