Génération respectueuse de la vie privée de logs synthétiques pour les outils de cyber-sécurité

When:
30/06/2019 – 01/07/2019 all-day
2019-06-30T02:00:00+02:00
2019-07-01T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Orange Labs
Durée : 3 ans
Contact : baptiste.olivier@orange.com
Date limite de publication : 2019-06-30

Contexte :
Votre rôle est d’effectuer un travail de thèse sur la génération de logs synthétiques pour les outils de cyber-sécurité à partir de logs réels par des réseaux de neurones artificiels de type GAN, et sur l’analyse en termes de protection des données personnelles de l’utilisation des modèles de type GAN.

Orange a en effet choisi la cyber-sécurité comme un de ses axes majeurs de développement. En ce sens, de nombreux outils de détection et de management des menaces cyber sont audités, testés, et utilisés dans des contextes opérationnels. Aujourd’hui, le fonctionnement de la plupart de ces outils, tels que des SIEMs, repose sur l’analyse et la corrélation de gros volumes de logs (logs de firewall, logs de proxy). Néanmoins, les logs analysés comportent généralement beaucoup d’informations personnelles et sensibles, qui ne peuvent pas être divulguées, ce qui complique leur analyse par des experts sécurité et data-scientists. Les bonnes pratiques en termes de protection des données personnelles imposent d’utiliser des logs synthétiques plutôt que des logs réels dans certaines situations.

Au sein des Orange Labs, la thèse sera intégré au département Sécurité. Ces équipes sont en charge de maintenir un haut niveau d’expertise en sécurité pour le Groupe Orange, notamment autour des infrastructures et des services. Ces équipes traitent tout particulièrement le cas de la sécurité du cloud computing, la détection/protection contre les intrusions, l’authentification forte, la cryptographie, la cyber-sécurité et la protection des données personnelles (anonymisation, traçabilité, …). Elles sont basées sur les sites d’Orange Labs à Caen, à Cesson-Sévigné, et à Châtillon.

Qu’est ce qui fait la valeur ajoutée de cette offre ?

Notre partenariat avec OCD permet d’une part de pouvoir apprendre les GAN sur des données réelles (donc réalistes), et d’utiliser les logs synthétiques résultants avec des outils standards de cyber-défense tels que des SIEMs, des IDS. Les différentes collaborations d’Orange avec des partenaires académiques réputés pour leurs travaux en privacy (UQAM, UC3M, Imperial College of London) offrent un avantage certain pour développer l’étude de l’anonymat des solutions proposées.

Sujet :
D’un côté, le développement rapide des réseaux de neurones artificiels a mis en avant une famille de réseaux, appelés Generative Adversarial Networks (GAN), offrant des méthodes très flexibles pour générer des données synthétiques. D’un autre côté, il convient de s’assurer qu’à la fois le processus d’apprentissage, et les logs résultants de l’apprentissage du GAN, satisfont des garanties prouvées de protection des données personnelles, comme par exemple des garanties de confidentialité différentielle.

La partie génération de logs synthétiques pourra s’appuyer sur les travaux [4]-[5], dont l’objectif est de produire des logs réseaux synthétiques avec à la fois du trafic sain et du trafic d’attaque. Une comparaison entre ces méthodes de l’état de l’art et des modèles génératifs de type GAN sera nécessaire.

La partie d’évaluation du niveau d’anonymat de la génération de logs avec des GANs s’appuiera sur des travaux récents suivants, qui étudient le potentiel des réseaux de neurones artificiels en termes de confidentialité différentielle [1] [3], et certaines de leurs limites pour ces modèles de privacy [2]. Une comparaison pourra être aussi menée avec des travaux sur la génération de logs synthétiques respectueux de la vie privée réalisés par ailleurs à Orange Labs [6], en utilisant des techniques de co-clustering.

Objectif scientifique – verrous à lever

Les principales contributions vers la communauté scientifique attendues sont les suivantes :

Nouvelles méthodes de génération de logs synthétiques pour la cyber-sécurité, à l’aide de GAN
Etude approfondie de ce genre de méthodes de données d’apprentissage en termes de protection des données personnelles. Quelles sont les garanties théoriques raisonnables (niveau de confidentialité différentielle par exemple) étant donné une situation d’apprentissage donnée (par exemple, apprentissage collaboratif sur plusieurs SI de clients) ?
Orange Cyber-Défense pourra exploiter un générateur de logs réseaux adapté à leurs besoins (données réalistes et confidentielles).

Approche méthodologique-planning

La méthodologie adoptée sera la suivante :

Etat de l’art sur les différentes méthodes de génération de logs réseaux synthétiques
Etat de l’art sur la privacy des modèles de type GAN
Modélisations de générateurs de logs avec des GAN (sans garantie de privacy au début) pour la détection d’attaques dans un réseau d’entreprise
Expérimentations des générateurs sur des outils de cyber-défense
Modélisations de générateurs de logs avec des GAN avec des garanties prouvées de confidentialité différentielle (ou autre garantie si plus raisonable)
Expérimentations des générateurs préservant la privacy sur des outils de cyber-défense
Ecriture d’articles scientifiques sur la privacy dans l’utilisation des GAN en cyber-sécurité.

[1] Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., & Zhang, L. (2016, October). Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (pp. 308-318). ACM.

[2] Hitaj, B., Ateniese, G., & Perez-Cruz, F. (2017, October). Deep models under the GAN: information leakage from collaborative deep learning. In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (pp. 603-618). ACM.

[3] Dwork, C., & Roth, A. (2014). The algorithmic foundations of differential privacy. Foundations and Trends® in Theoretical Computer Science, 9(3-4), 211-407.

[4] Sharafaldin, I., Lashkari, A. H., & Ghorbani, A. A. (2018, January). Toward Generating a New Intrusion Detection Dataset and Intrusion Traffic Characterization. In ICISSP (pp. 108-116).

[5] Shiravi, A., Shiravi, H., Tavallaee, M., & Ghorbani, A. A. (2012). Toward developing a systematic approach to generate benchmark datasets for intrusion detection. computers & security, 31(3), 357-374

[6] Benkhelif, T., Fessant, F., Clérot, F., & Raschia, G. (2017, September). Co-clustering for differentially private synthetic data generation. In International Workshop on Personal Analytics and Privacy (pp. 36-47). Springer, Cham.

Profil du candidat :
Master 2 et disposez des compétences scientifiques et techniques ainsi que des qualités personnelles nécessaires à la poursuite en thèse.

Formation et compétences requises :
Compétences en mathématiques

Des notions sur les éléments théoriques liés aux réseaux de neurones artificiels
Programmation avec des langages standards : Python, Java, Scala
Programmation orientée analyse de données avec utilisation de langages ou librairies adaptées : Scikit-learn, ou R ou tensor-flow.
Vous disposez des expériences suivantes :

stage en anonymisation et/ou data science
premières expériences projets en data-science (data-mining, machine-learning)
première expérience projet avec des réseaux de neurones artificiels.

Adresse d’emploi :
4 rue du clos Courtel 35510 CESSON SEVIGNE – France
Leaflet

Document attaché :