Systèmes de recommandations : algorithmes de bandits et évaluation expérimentale

ConferenceName: 
Edition Number: 
2 015
Date: 
June, 2015
Place: 
Lille
Abstract: 

Les systèmes de recommandation à très grande échelle sont aujourd'hui omniprésents sur internet : ouvrages conseillés à l'achat dans les librairies en ligne, articles recommandés sur les sites d'information, sans parler des cadres publicitaires qui financent l'essentiel de très nombreux sites aujourd'hui...
Trouver la meilleure recommandation à faire à un visiteur peut être considéré comme un ``problème de bandits'' : il faut en même temps apprendre ses préférences, et utiliser les interactions déjà passées pour maximiser le nombre de recommandations suivies, tout en restant capable de gérer des flux de données très importants.

Nous présentons ici quelques-uns des algorithmes les plus célèbres pour résoudre ce type de problèmes, et notamment l'algorithme UCB (Upper Confidence Bound), l'{al\-go\-rithme} EXP3 (Exponential weights for Exploration and Exploitation) et le Thompson Sampling (du nom de l'inventeur, au début des années trente, de cette méthode d'inspiration bayésienne). Leurs mérites respectifs sont soulignés et discutés, avec la présentation des résultats théoriques les plus importants les concernant.
Nous montrons en outre, dans un notebook ipython associé, comment expérimenter l'efficacité de ces méthodes pour la recommandation : ceci pose une difficulté particulière, car des jeux de données statiques rendent peu aisée l'évaluation de méthodes vouées à interagir avec des utilisateurs. Nous montrerons en particulier comment mettre en place des expériences sur deux jeux de données célèbres : movielens et jester.

Keywords: