Abstract:
Les systèmes de recommandation (SR) à tirages multiples font référence aux SR recommandant plusieurs objets en même temps aux utilisateurs. La plupart des SR s'appuient sur des modèles d'apprentissage afin de décider les objets à recommander. Parmi ces modèles, les algorithmes de bandits offrent l'avantage d'apprendre tout en exploitant les éléments déjà appris. Les approches actuelles utilisent autant d'instances d'un algorithme de bandits que le nombre d'objets que doit recommander le SR. Nous proposons au contraire de gérer l'ensemble des recommandations par une seule instance d'un algorithme de bandits pour rendre l'apprentissage plus efficace. Nous montrons sur deux jeux de données de références (Movielens et Jester) que notre méthode, MPB (Multiple Plays Bandit), obtient des temps d'apprentissage jusqu'à treize fois plus rapides tout en obtenant des taux de clics équivalents. Nous montrons également que le choix de l'algorithme de bandits utilisé influence l'amélioration obtenue.