Apprentissage par renforcement et déviations auto-normalisées