Atelier GINO
Gouvernance IntelligeNte et sûre des dOnnées
Responsables
- Laurent d’Orazio, IRISA, Scicences Informatiques
- Clara Bertolissi, LIFO, Scicences Informatiques
- Juba Agoun, ERIC, Sciences Informatiques
Correspondant ComDIR : Myriam Maumy
Thématiques
Analyse et exploration de données, sécurité, intelligence artificielle.
Données concernées
Données d’authentification, données d’autorisation, données de ressources,politiques de sécurité, logs.
Contexte scientifique
La convergence entre sciences des données, apprentissage automatique et cybersécurité bouleverse les méthodes classiques de gouvernance des données. L’essor des Grands Modèles de Langage (LLM), des systèmes distribués massifs et des infrastructures hybrides (cloud–edge–IoT) ouvre la voie à de nouveaux paradigmes pour la gestion, l’analyse et la sécurisation des données sensibles. Dans ce contexte, la définition, la vérification, le déploiement et l’audit de politiques de contrôle d’accès constituent un défi scientifique majeur, à la croisée des domaines de la représentation des connaissances, du Web sémantique, de l’apprentissage automatique, de la preuve formelle et de la cybersécurité opérationnelle.
L’idée de cet atelier est née d’une convergence d’intérêts des laboratoires ERIC, du LIFO et de l’IRISA autour des problématiques de sécurisation des données (massives) et de l’utilisation des LLM.
Les travaux récents en sécurité des données et en intelligence artificielle ont émergé des pistes prometteuses, telles que le differential privacy, le federated learning, les secure multi-party computations ou les techniques de prompt engineering contrôlé étant souvent fragmentées, spécifiques à un type de modèle ou d’application. Néanmoins, la sécurisation des données dans un processus d’IA ne peut plus être traitée comme une simple couche additionnelle : elle doit être conçue comme un design principle intégré dès la phase de collecte, d’entraînement et d’inférence. C’est précisément cette nécessaire synergie entre les communautés de la sécurité informatique, de l’ingénierie des données et de la modélisation linguistique que cet atelier vise à favoriser.
Cet atelier se positionne ainsi comme un espace de co-construction scientifique original : il n’aura pas comme objectif à seulement présenter des résultats existants, mais visera à identifier les lacunes critiques entre les domaines de la gestion des données, sécurisation et de l’usage responsable de l’IA. Notre atelier vise à discuter des travaux de recherches autours de la formalisation des politiques de contrôle d’accès aux données utilisées pour l’entraînement dans un cadre multi-organisations, intégration des garanties de confidentialité dans les architectures de fine-tuning des LLM sans sacrifier leur performance, ou/et des mécanismes de traçabilité pouvant être déployés pour auditer les sorties génératives en temps réel.
Des discussions exploratoires entre différents laboratoires (CRIL, ERIC, IRISA, LIFO, LIRIS) ainsi que des acteurs industriels (THALES Services, Yansys), mais également des collègues à l’étranger (Université de Tokyo, Université de Cagliari, Institut Polytechnique de Hanoi) ont mis en évidence une forte complémentarité de compétences et une demande croissante d’approches intégrant automatisation, explicabilité, conformité réglementaire et adaptabilité des règles de sécurité. Cet atelier entend structurer ces efforts au niveau national en fédérant une communauté interdisciplinaire issue des GDR MADICS, RADIA, Sécurité Informatique et TAL.

