Que ce soit pour les systèmes de recommandation, pour l'allocation dynamique de ressources ou pour l'exploration des arbres dans les jeux, de nombreux systèmes de décision automatiques s'appuient sur le modèle simple dit du "bandit manchot" où un agent doit choisir, à chaque instant, une source aléatoire dont il observe ensuite une réalisation.
Nous présenterons dans cet exposé quelques stratégies permettant d'exploiter au mieux ces sources. Plus précisément, nous verrons comment inégalités d'information et inégalités de déviations auto-normalisées permettent d'identifier finement la complexité de certaines tâches à résoudre.