Bandits contextuels: apprentissage par renforcement dans les modèles linéaires généralisés

Date: 
June, 2010
Place: 
Besançon, France
Abstract: 

Nous considérons des problèmes de bandits multibras structurés dans lesquels l’agent est guidé par une connaissance a priori sur la structure de la récompense qui peut être exploitée de manière à sélectionner efficacement un bras optimal dans des situations o`u le nombre de bras est tr`es grand voire infini. Nous proposons un nouvel algorithme optimiste pour des problèmes de bandit paramétriques non-linéaires en utilisant le cadre des modèles linéaires généralisés (GLM). Ce cadre permet en particulier de s’intéresser au cas de récompenses binaires, non considéré jusqu’à présent. Nous analysons le regret de l’algorithme proposé, nommé GLM-UCB, et obtenons des résultats similaires à ceux récemment prouvés dans la littérature pour le cas de la régression linéaire. L’analyse met également en évidence une difficultés clé dans le cas non-linéaire que nous résolvons en nous focalisant sur l’espace des récompenses plutôt que sur celui des paramètres. De plus, les performances des algorithmes actuels pour des problèmes de bandits contextuels étant souvent décevantes en pratique, nous présentons des arguments asymptotiques qui conduisent à un algorithme efficace. Nous illustrons la performance et la robustesse de l’algorithme à la fois sur des données simulées et réelles.