FedSed

 

Atelier FedSed (2022)

Federated Learning for Sensitive Data

Responsables

Correspondant ComDIR : Marie-Christine Rousset

Thématiques

Gestion de données hétérogènes, sensibles et distribuées. Federated learning supervisé / non supervisé.

Données concernées

Les données à caractère sensible telles que : les données à caractère personnel, les données de santé, ainsi que certaines données industrielles. Ces données sont distribuées soit dans une configuration cross-silo ou une configuration cross-device. Cette masse de données sensibles est très souvent fortement hétérogène.

Mots clés

Federated Learning, Collaborative training, Sensitive Data, Heterogeneous Data, Privacy-preserving

Contexte scientifique

Malgré la quantité de données disponibles aujourd’hui dans les systèmes d’information des entreprises ou générée par des objets connectées, ces données ne participent pas systématiquement et simplement à des tâches d’apprentissage machine ciblant l’aide à la prise de décision. Cette complexité est souvent reliée à la nature de la donnée qui peut être sensible d’où la nécessité de la protéger ou à l’effort non négligeable qui doit être déployé pour rendre la donnée compatible avec d’autres sources données ( intégration, alignement, interopérabilité, centralisation…). Pour répondre à cette problématique, nous constatons depuis quelques années l’émergence des approches dites ‘federated learning’. Le principe de ces approches est de faire collaborer sur des tâches d’apprentissages plusieurs clients détenant leurs données sans les sortir de leurs silos. Cet apprentissage collaboratif décentralisé peut être orchestré par un serveur central, comme il peut converger uniquement par les groupes de clients ( l’exemple de blockchain et federated learning). Pour cette approche collaborative, seules des informations sur l’apprentissage sont partagées entre les clients/serveur ou entre clients/clients.

Plusieurs verrous scientifiques se présentent aujourd’hui pour le federated learning :

  • Le verrou statistique relié à la présence de données hétérogènes de type non-IID ( non – indépendantes et identiquement distribuées entre les clients) qu’on retrouve dans les configurations cross-silo ou cross-device.
    En présence de données non-IID différentes stratégies d’apprentissages sont à envisager, typiquement le cas d’un modèle global à apprendre par les différents clients n ‘est plus généralisable d’où la nécessité de trouver des solutions pour personnaliser l’apprentissage des modèles tout en maximisant le gain d’efficacité en participant à un apprentissage collaboratif.
  • Le verrou d’équité ou fairness qui touche au processus d’apprentissage et ces résultats est davantage pointé dans les approches de federated learning sur les données sensibles. Adresser une fairness unique au sein d’un groupe de clients distribué est une question ouverte aujourd’hui.
  • Le verrou de pivacy-preserving concerne la protection contre les attaques durant les cycles des échanges d’apprentissage. Diverses approches sont développées comme des protocoles pour sécuriser les agrégations ou la mise en place d’une couche de smart contrat afin de soumettre des mises à jours encryptés.

Cet atelier propose de réunir la communauté scientifique active sur ces sujets et des industriels pour mettre en évidence des uses cases et prioriser en commun les difficultés qu’il faut creuser davantage. L’atelier peut déjà compter sur l’expérience des responsables dans le domaine de l’apprentissage fédéré, en particulier dans le cadre de l’analyse des données de santé.

Inria et Accenture sont aussi fortement impliqués dans le développement de Fed-BioMed, une bibliothèque logiciel ouverte pour l’apprentissage fédéré avec un focus spécifique sur l’analyse des données de santé (https://fedbiomed.gitlabpages.inria.fr/).

Par rapport aux autres actions et ateliers proposés dans le GDR MADICS, une synergie peut être envisagée avec les ateliers FENDER et RoCED. D’une part, l’explicabilité portée par l’atelier FENDER est une étape cruciale qu’on pourrait adosser aux approches de federated learning. D’autre part, les jeux de données mis à disposition par l’Action RoCED peuvent être une cible d’étude pour l’apprentissage fédéré

 

Site de l’Atelier FedSed en cours de construction…


Évènements à venir