La confidentialité différentielle : quelle quantification de la privacy dans le monde de l'apprentissage automatique ?

Edwige Cyffers

pages 76, July 2021

Profile image

Abstract

L’effondrement des prix de stockage de l’information, la couverture croissante des usages informatiques et des collectes de données qui y sont associées ainsi que l’accroissement des capacités de traitement de l’information sont autant de bouleversements techniques dans le domaine de l’information. Que l’on parle de Big Data, ou que l’on considère simplement les conséquences de la numérisation lors de la crise sanitaire ces deux dernières années, la collecte généralisée de données sensibles est un nouvel enjeu de notre société. À titre d’exemple, un téléphone récolte le généralement la position instantanée, les relations, les heures de sommeil, les questions et autres données de santé de son utilisateur. La nécessité de sécuriser et d’éviter les fuites de données, qu’elles soient malicieuses ou non, est donc un enjeu clé de la transition numérique. Mais comment peut-on garantir la privacy ? Ce concept a de nombreuses facettes : offuscation, droit à l’oubli, anonymat, confidentialité, minimisation des données. Dans le cadre de l’apprentissage automatique (Machine learning), une métrique s’est imposée au sein de la recherche et des applications des GAFAM pour quantifier le niveau de privacy d’un procédé donné. La confidentialité différentielle (differential privacy) est en effet une définition mathématique qui réduit à un nombre réel le niveau de persistance d’une donnée dans les sorties d’un algorithme. Ce mémoire décrit l’émergence et les facteurs qui ont contribué au succès de cette quantification, ainsi que les conséquences implicites de cette définition sur les attentes de l’apprentissage automatique et le rapport entre l’individu et ses données. Nous abordons donc l’évolution de la notion de privacy face aux nouvelles réalités techniques, nous mettons en contexte la définition de confidentialité différentielle comme une technique de quantification et nous analysons ses variantes comme limites de la définition originelle.

Bibtex

@mastersthesis{cyffers2021confidentialite,
  title = {La confidentialit{\'e} diff{\'e}rentielle : quelle quantification de la privacy dans le monde de l'apprentissage automatique ?},
  author = {Cyffers, Edwige},
  school = {Universit{\'e} Paris 1 Panth{\'e}on-Sorbonne},
  year = {2021},
  type = {Master's thesis},
  pages = {76},
  address = {Paris, France},
  language = {french},
  keywords = {Confidentialit{\'e} diff{\'e}rentielle, Protection des donn{\'e}es, Big data, Apprentissage automatique, Identit{\'e} num{\'e}rique, Quantification, Machine learning},
  abstract = {L'effondrement des prix de stockage de l'information, la couverture croissante des usages informatiques et des collectes de donn{\'e}es qui y sont associ{\'e}es ainsi que l'accroissement des capacit{\'e}s de traitement de l'information sont autant de bouleversements techniques dans le domaine de l'information. Que l'on parle de Big Data, ou que l'on consid{\`e}re simplement les cons{\'e}quences de la num{\'e}risation lors de la crise sanitaire ces deux derni{\`e}res ann{\'e}es, la collecte g{\'e}n{\'e}ralis{\'e}e de donn{\'e}es sensibles est un nouvel enjeu de notre soci{\'e}t{\'e}. {\`A} titre d'exemple, un t{\'e}l{\'e}phone r{\'e}colte le g{\'e}n{\'e}ralement la position instantan{\'e}e, les relations, les heures de sommeil, les questions et autres donn{\'e}es de sant{\'e} de son utilisateur. La n{\'e}cessit{\'e} de s{\'e}curiser et d'{\'e}viter les fuites de donn{\'e}es, qu'elles soient malicieuses ou non, est donc un enjeu cl{\'e} de la transition num{\'e}rique. Mais comment peut-on garantir la privacy ? Ce concept a de nombreuses facettes : offuscation, droit {\`a} l'oubli, anonymat, confidentialit{\'e}, minimisation des donn{\'e}es. Dans le cadre de l'apprentissage automatique (Machine learning), une m{\'e}trique s'est impos{\'e}e au sein de la recherche et des applications des GAFAM pour quantifier le niveau de privacy d'un proc{\'e}d{\'e} donn{\'e}. La confidentialit{\'e} diff{\'e}rentielle (differential privacy) est en effet une d{\'e}finition math{\'e}matique qui r{\'e}duit {\`a} un nombre r{\'e}el le niveau de persistance d'une donn{\'e}e dans les sorties d'un algorithme. Ce m{\'e}moire d{\'e}crit l'{\'e}mergence et les facteurs qui ont contribu{\'e} au succ{\`e}s de cette quantification, ainsi que les cons{\'e}quences implicites de cette d{\'e}finition sur les attentes de l'apprentissage automatique et le rapport entre l'individu et ses donn{\'e}es. Nous abordons donc l'{\'e}volution de la notion de privacy face aux nouvelles r{\'e}alit{\'e}s techniques, nous mettons en contexte la d{\'e}finition de confidentialit{\'e} diff{\'e}rentielle comme une technique de quantification et nous analysons ses variantes comme limites de la d{\'e}finition originelle.},
  supervisor = {Panza, Marco and Naibo, Alberto},
  department = {UFR Philosophie},
  domain = {Humanities and Social Sciences/Philosophy}
}