Vers des données mieux protégées

Si les données sont la matière première de l’intelligence artificielle, elles sont parfois particulièrement sensibles, notamment dans le secteur de la santé. Comment concilier IA, confidentialité et souveraineté ? Pour Aurélien Bellet, chercheur à l’Institut Desbrest d’épidémiologie et de santé publique1, la solution passe notamment par l’apprentissage fédéré.

Pour inclure un grand nombre de patients dans les études cliniques et les rendre ainsi plus significatives, la recherche a recours à des études multicentriques. C’est-à-dire qu’elles impliquent plusieurs hôpitaux ou cliniques en même temps, parfois même dans plusieurs pays différents. Avantage : cette méthode permet de réaliser de vastes études sur des patients d’origine sociale ou géographique variée.

Partager sans partager

Une organisation qui présente aussi un inconvénient : les études multicentriques nécessitent de réunir sur un serveur des données de santé provenant de plusieurs établissements, « ce qui ne permet pas de garder le contrôle des données, et pourrait aussi mettre en péril leur confidentialité », détaille Aurélien Bellet, chercheur à l’Idesp. Comment la recherche médicale peut-elle mettre en œuvre ces collaborations en réduisant le risque que des informations sensibles soient divulguées ? Une des solutions consiste à partager… sans partager. C’est l’apprentissage fédéré. « Cela permet de traiter les données de chaque établissement sur place, sans devoir les échanger, les céder ou les transmettre », explique le spécialiste de l’apprentissage fédéré.

Pour relever ce défi, les chercheurs créent des algorithmes d’apprentissage capables de fonctionner à partir de données stockées localement et non pas centralisées sur un serveur comme c’est le cas avec les méthodes habituelles de machine learning. « Ce sont alors les résultats intermédiaires de cet apprentissage qui sont échangés au fur et à mesure, et non plus les données elles-mêmes. On alterne ainsi apprentissages locaux et agrégations des résultats », précise Aurélien Bellet qui collabore notamment avec les CHU de Lille, Caen, Amiens et Rouen.

Démocratisation

Pour favoriser la confidentialité et le respect de l’éthique médicale, l’apprentissage fédéré « est une partie de la solution, même s’il n’est souvent pas suffisant pour garantir la confidentialité des données », explique le chercheur dont l’équipe collabore également avec la Commission internationale informatique et liberté (CNIL) autour de la question complexe de la protection des données.

Car les avantages de l’apprentissage fédéré vont bien au-delà du domaine médical. « Cela peut aussi intéresser les entreprises qui souhaitent collaborer avec des concurrents sans leur donner accès à certaines informations sensibles », ajoute Aurélien Bellet qui voit aussi dans l’apprentissage fédéré une opportunité de rendre l’IA plus accessible. « C’est une forme de démocratisation de l’intelligence artificielle et de l’apprentissage automatique, car il ne nécessite pas d’investir dans une grosse infrastructure, ouvrant ainsi la voie à des utilisations collaboratives, par exemple par des collectifs de citoyens. »

Regarder aussi :

La conférence d’Aurélien Bellet sur l’apprentissage fédéré

  1. Idesp (Inserm, UM)
    ↩︎