première demi-journée de deux séminaires sur les techniques d’anonymisation de données

When:
01/03/2022 all-day
2022-03-01T01:00:00+01:00
2022-03-01T01:00:00+01:00

Date : 2022-03-01
Lieu : virtuel,
organisé par le LS2N (Laboratoire des Sciences du Numérique de Nantes)

Le Thème transverse Sciences du Vivant du LS2N organise une mini-série de deux demi-journées de séminaires sur “l’anonymisation de données”.

Les inscriptions aux deux demi-journées sont indépendantes.

La première demi-journée de séminaires se déroulera le mardi 1er mars 2022, de 14H00 à 18H15, en mode distanciel. Le programme comporte 4 présentations :

Générer des données synthétiques centrées sur le patient : plus de raison de faire courir un risque de réidentification dans l’analyse des données biomédicales
Pierre-Antoine GOURRAUD, PU-PH, CHU de Nantes, Université de Nantes

Désidentification de textes : une tâche de détection d’entités ; désidentification de textes médicaux : état de l’art
Évaluation du risque de réidentification de textes
Une autre voie : la création de données artificielles
Pierre ZWEIGENBAULM (*), DR CNRS, responsable du groupe ILES (Langue Ecrite et Signée)
Aurélie Névéol(*), CR CNRS
Cyril GROUIN(*) IR CNRS.
(*) Laboratoire Interdisciplinaire des Sciences du Numérique), Université Paris-Saclay, Orsay

inscription gratuite mais obligatoire, lien pour l’inscription :
https://docs.google.com/forms/d/e/1FAIpQLSeeMkarTuw5seNnxd04xauILglY6pgIg1Soqfe-twXPPXEdTw/viewform?usp=pp_url
programme détaillé ci-dessous

PROGRAMME :
14H00-15H15
Générer des données synthétiques centrées sur le patient : plus de raison de faire courir un risque de réidentification dans l’analyse des données biomédicales
par le Pr Pierre-Antoine GOURRAUD, PU-PH, CHU de Nantes, Université de Nantes

Résumé : Les analyses de données massives s’alimentent presque toujours de données personnelles pseudonymisées. Les interprétations et prédictions auxquelles elles aboutissent sont utiles à la société, mais un risque de réidentification individuelle demeure. Nous présentons une nouvelle méthode permettant de générer des données synthétiques, des avatars, de granularité individuelle, tout en préservant la vie privée des patients, à l’exemple d’un essai clinique et d’un jeu de données en cancérologie utilisé en prédiction avec un algorithme apprenant.

15H15-16H15 ; 16H45-17H30 ; 17H30-18H15
Intervenants du LISN (Laboratoire Interdisciplinaire des Sciences du Numérique), Université Paris-Saclay, Orsay

Pierre ZWEIGENBAULM, DR CNRS, responsable du groupe ILES (Langue Ecrite et Signée)
Aurélie Névéol, CR CNRS
Cyril GROUIN IR CNRS

15H15-16H15
Désidentification de textes : une tâche de détection d’entités ; désidentification de textes médicaux : état de l’art.

Résumé : La désidentification de textes est habituellement modélisée en traitement automatique des langues comme une tâche de détection d’« entités nommées ». Nous donnerons ici une brève introduction à cette tâche : notion d’entité, mesures d’évaluation, les indices qui permettent de détecter des entités dans les textes. Nous résumerons les méthodes employées au fil du temps pour aborder cette tâche, des patrons à la classification supervisée, statistique puis neuronale. Nous poursuivrons avec la désidentification de textes médicaux. Nous présenterons d’abord la question du choix de l’ensemble des types d’entités à repérer lorsque l’on instancie la tâche de détection d’entités sur des textes médicaux : noms de personnes, dates, etc. Nous présenterons ensuite les méthodes qui ont été proposées pour réaliser cette tâche, avec des exemples concernant le traitement de l’anglais et du français : méthodes à base de patrons (de-id, MEDINA v1), à base d’apprentissage supervisé statistique (MEDINA v2, divers outils aux États-Unis) puis neuronal (NeuroNER, MAPA…) et les performances associées.

16H15-16H45 PAUSE

16H45-17H30
Évaluation du risque de réidentification de textes.

Résumé : La question du risque de réidentification est difficile à évaluer sur des textes en langue naturelle. Nous rappellerons le mode d’évaluation traditionnel de la détection d’entités en TAL, qui opère au niveau des entités individuelles. Nous examinerons également des manières simples de l’étendre à des unités textuelles plus pertinentes comme le document ou le dossier. Nous présenterons enfin une expérience d’évaluation du risque de réidentification sur des données réelles.

17H30-18H15
Une autre voie : la création de données artificielles.

Résumé : La désidentification de textes vise à réduire le risque de réidentification de documents textuels, notamment pour rendre acceptable le travail des chercheurs ou des ingénieurs lors de la mise au point d’algorithmes s’appliquant à ces données. Une autre façon de contourner les difficultés d’accès à des textes confidentiels pour le traitement automatique des langues consiste à créer des textes artificiels ayant des propriétés suffisamment similaires aux textes réels, mais ne concernant pas de patients réels. Nous présenterons des directions de travail en ce sens, fondés notamment sur la traduction automatique et sur la génération de textes.

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.