MaDICS

Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

Soumission de posters : au plus tard le ~~23 mars 2026~~ 2 avril 2026
Retour : 9 avril 2026
Date limite d’inscription : 30 avril 2026
Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Mar

Wed

2019

Wasserstein embeddings for language model visualization and document clustering

Tickets

Mar 20 – Mar 21 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire Hubert Curien
Durée : 3 ans
Contact : charlotte.laclau@univ-st-etienne.fr
Date limite de publication : 2019-03-20

Contexte :
En intelligence artificielle, une part importante de la recherche en traitement automatique de la langue (par la suite NLP) consiste à trouver des modèles permettant de traiter de très grands volumes de données textuelles (ex: classification de textes, chatbot, questions/réponses, etc.). Pour cela, l’état de l’art consiste en deux réseaux de neurones successifs. Un premier, peu profond et entraîné de manière non supervisée, apprend à associer les mots d’une langue à un point dans un espace euclidien de 100 à 300 dimensions (word embeddings) – deux mots sémantiquement proches se voient associer deux points proches. Ces représentations modélisent la sémantique latente d’une langue – elles sont ensuite utilisées dans d’autres réseaux (profonds et entraînés de manière supervisées), ad hoc à chaque tâche de NLP visée.

Sujet :
Dans cette thèse, nous nous intéressons à améliorer les représentations de mots dans ces différents réseaux de neurones. Les questions posées par les limitations des représentations actuelles sont les suivantes : Comment observer en deux dimensions, pour mieux les comprendre, les vecteurs de mots d’une langue avec le minimum de pertes de régression (alternative aux approches PCA et t-SNE) ? Comment mieux modéliser les mots rares (rareté dans la langue ou par appartenance à un domaine de spécialistes) ? Comment gérer la polysémie suivant le type de document considéré, quand un simple mot peut revêtir différent sens suivant le contexte d’emploi ? Pour cela, nous nous intéresserons aux espaces de Wasserstein comme un espace de représentation intermédiaire avant de replonger les mots dans le plan. Nous nous intéresserons également à l’apprentissage conjoint de plongements de mots et de catégorisation de documents de domaine (Web, santé, et sécurité) dans un espace de Wasserstein – dans ce contexte, les mots pourront revêtir des représentations différentes suivant la catégorie dans laquelle ils sont employés.

Profil du candidat :
Le(a) candidat(e) devra posséder des connaissances solides en apprentissage automatique avec notamment de bonnes bases en apprentissage statistique et en mathématiques. Il devra également avoir un bon niveau en programmation python et être capable de développer des outils efficaces potentiellement complexes. Le candidat devra aussi posséder un bon niveau d’anglais et avoir à la fois un intérêt pour des aspects théoriques et pratiques.

Formation et compétences requises :
Voir profil.

Adresse d’emploi :
Laboratoire Hubert Curien, UMR 5516
Saint-Etienne

Document attaché : Proposition_Thèse_1819.pdf

Categories: theses

Mar

Fri

2019

Apprentissage profond pour les séries temporelles de nuages de points 3D

Tickets

Mar 22 – Mar 23 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRISA (équipe OBELIX) avec CNES et C-S
Durée : 3 ans
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2019-03-22

Contexte :
Co-financement CNES et C-S
Encadrement scientifique et localisation : équipe OBELIX de l’IRISA à Vannes

Sujet :
L’équipe OBELIX (www.irisa.fr/obelix) de l’IRISA propose avec le CNES et la société C-S une thèse sur l’apprentissage profond pour les séries temporelles de nuages de points 3D.

Les candidats intéressés sont invités à prendre connaissance des détails de l’offre sur les sites suivants et à contacter avant le 22 MARS 2019 les encadrants (Sébastien Lefèvre et Thomas Corpetti) en fournissant les pièces demandées.

Job offers

https://cnes.fr/fr/les-ressources-humaines-du-cnes/apprentissage-profond-de-series-temporelles-de-nuages-de-points-3d

Profil du candidat :
Informatique ou Mathématiques Appliquées

Formation et compétences requises :
Spécialisation en Science des données

Adresse d’emploi :
IRISA, Campus de Tohannic, 56000 Vannes

Document attaché :

Categories: theses

Mar

Sat

2019

Appearance change assessment: Link between local geometry and global appearance descriptors

Tickets

Mar 30 – Mar 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Image et Vision Artificielle (ImViA) ex LE2I
Durée : 36 mois
Contact : alamin.mansouri@ubfc.fr
Date limite de publication : 2019-03-30

Contexte :
The French University of Burgundy (also called Bourgogne) in Dijon (http://en.u-bourgogne.fr), part of the University of Burgundy Franche-Comté Community (http://www.ubfc.fr/ubfc/presentation/ ) invites applications for 3-year full time PhD/Early Stage Researcher (ESR9) position in Computer Science in the context of the EU- Funded Marie Sklodowska-Curie Initial Training Network (ITN) project entitled Cultural Heritage Analysis for New GEnerations (CHANGE) (www.change-itn.eu).

The position will be located at the Laboratory ImViA (Image and Artificial Vision ex-LE2I (www.le2i.cnrs.fr) based at the High School ESIREM in Dijon.
The recruited researchers will work in a high-level international research environment within the Laboratory ImViA, at the premises of University of Burgundy, and in close collaboration with other researchers from the CHANGE network. During the 36-month contract, the PhD candidate will spend maximum of 10 months in secondments/internships to the other project partners. The candidate should enroll in a PhD program, and also participate in a rich program of organized research training activities, enabling her/him for a future career as scientist, engineers, entrepreneurs and innovators who can assume scientific and technological leadership in the field of visual computing, imaging techniques and conservation science.
The recruited candidates will work on distinct but related fields of research within the CHANGE project. The position and a brief description of the research in this position is given below. The position description is also available on the project website http://www.change-itn.eu/

More information on the attached document

Sujet :
Position description: Could the appearance changes be linked to the defects in geometry? Is this dependent on the scale? How a change in local geometry is perceived photometrically by a human subject. These are the underlying questions of this research. The candidate is expected to work towards the development of innovative methods devoted to link the visual appearance change assessment with geometric attributes based on imaging and Machine Learning approaches. During the research, the candidate will 1) Investigate the relation between changes in appearance and its underlying geometric mechanisms 2) Surface roughness reconstruction by combining stereo-photometry and ‘Shape From Focus’ 3) Local and global singularities detection on 3D surfaces with impact on photometric attributes and global appearance 4) Model and reverse-model of the link between surface 3D and appearance through photometric attributes. In parallel the candidate will explore and implement Machine Leaning/Deep learning approaches for surfaces‘ appearance characterization without a priori models.
Main supervisor: Alamin Mansouri (University of Bourgogne)
Co-supervisors: Robert Sitnik (WUT, Poland), Clotilde Boust (C2RMF, Louvre Museum, France)

For more information please consult the attached document

Profil du candidat :
The candidate must:
Hold a Master’s degree (or equivalent) within the field of computer science, physics, colour imaging, physics, electrical engineering or a related discipline obtained with very good final grade (with an average grade of B or better).
Applicants with no letter grades from previous studies must have an equally good academic foundation. Applicants who are unable to meet these criteria may be considered only if they can document that they are particularly suitable candidates for education leading to a PhD degree.
The following is desired:
Knowledge and experience with computer vision, physics.
Knowledge and experience with control and automation,
Programming skills in Matlab, Python, or similar programming environments

For more information please consult the attached document

Formation et compétences requises :
More informations about formal regulations, salary and mobility are detailed on the attached document

Adresse d’emploi :
ImViA Laboratory
Bâtiment I3M
Avenue Sully
21000 Dijon

Document attaché : CHANGE-ESR9.pdf

Categories: theses

Généricité et explicabilité dans les systèmes de recommandation

Tickets

Mar 30 – Mar 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LAMSADE (UMR CNRS), Université Paris-Dauphine
Durée : 3 ans
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2019-03-30

Contexte :
Ce sujet est prioritaire pour une demande de bourse de thèse du ministère.

Candidatures : Les candidats intéressés sont invités à envoyer une lettre de motivation, un CV, un relevé de notes (Licence + Master) avec classements (Master 2 également, éventuellement partiel), le plus tôt possible, avant le 30 mars 2019. Une seconde sélection sera ensuite faite par l’école doctorale et le laboratoire sur la base d’une audition en mai 2019.

Sujet :
La recommandation peut se résumer par le problème d’estimation de scores pour des entités qui n’ont pas encore été vues/évaluées par un utilisateur. En effet, le nombre d’entités ainsi que le nombre d’utilisateurs du système peuvent être très importants ; il est, de ce fait, difficile que chaque utilisateur voit toutes les entités ou que chaque entité soit évaluée par tous les utilisateurs. Il est donc nécessaire d’estimer les scores pour les entités non encore évaluées. Cette évaluation est habituellement basée sur les scores donnés par un utilisateur à d’autres entités. Lorsqu’il est possible d’estimer les scores pour les entités non encore évaluées, les entités ayant les scores les plus élevés peuvent être recommandées à l’utilisateur.

Les systèmes de recommandation s’appliquent dans de nombreux domaines, que ce soit dans le cadre d’applications commerciales, industrielles ou académiques. En fait, parmi les systèmes de recommandation les plus connus, nous pouvons citer ceux utilisés dans le commerce électronique : Amazon.com pour la recommandation de produits et Netflix pour la recommandation de films.
Mais de nos jours, de nombreux systèmes que nous utilisons tous les jours proposent des recommandations à leurs utilisateurs (des groupes de travail ou des individus dans LinkedIn, des amis sur Facebook, de la musique pour last.fm ou des nouvelles pour Forbes.com). Les systèmes de recommandation existants diffèrent donc par leur portée, leur contexte d’application ainsi que par les données qu’ils manipulent. Mais ils ont également de nombreux points communs : (i) le besoin : aider à la prise de décision ; (ii) l’objectif de recommander des éléments/utilisateurs ; (iii) la formalisation : la fameuse matrice d’utilité ; (iv) l’algorithme : prédire les scores. Pourtant, malgré leurs similitudes, les systèmes de recommandation existants sont spécifiques à une application et sont développés/mis en œuvre via des cadres ad hoc.
Or, les systèmes de recommandation, comme tout système informatisé, sont régis par les principes de l’ingénierie et de la qualité logicielle. Le génie logiciel repose sur sept principes : la rigueur, la décomposition en sous-problèmes, la modularité, l’abstraction, l’anticipation des évolutions, la généricité (selon laquelle un système réutilisable/adaptable a beaucoup plus de valeur qu’un système dédié) et une construction incrémentale. De plus, la norme ISO 9126 définit six groupes d’indicateurs de qualité logicielle : la capacité fonctionnelle, la facilité d’utilisation, la fiabilité, la performance, la maintenabilité et la portabilité. Actuellement, les systèmes de recommandation sont définis pour des cas d’application spécifiques, ce qui limite leur adaptabilité, leur réutilisabilité et leur généricité. Ainsi, la spécialisation des systèmes de recommandation va à l’encontre du principe de généricité et donc, de l’ingénierie et de la qualité logicielle. Par conséquent, tendre vers la généricité des systèmes de recommandation, c’est-à-dire un système de recommandation qui fonctionne quel que soit le cas d’application afin d’avoir un système adaptatif, avec un niveau d’abstraction, favorisant, entre autres, l’interopérabilité et la réutilisabilité est un enjeu important. Or, à notre connaissance, il n’existe pas, à ce jour, un tel système de recommandation.

Par ailleurs, l’interaction du système de recommandation avec l’utilisateur est importante. En général, les utilisateurs souhaitent avoir un contrôle sur les recommandations faites et pouvoir indiquer si une recommandation ne leur convient pas. Cette démarche s’inscrit dans la recherche de systèmes plus centrés sur l’utilisateur. De plus, le fait de donner une explication personnalisée à l’utilisateur peut également nous aider à gagner sa confiance. En effet, réussir à indiquer la raison pour laquelle une recommandation est proposée à l’utilisateur peut contribuer à améliorer la confiance qu’il a du système mais aussi, si l’utilisateur peut interagir avec le système de recommandation, améliorer le système lui-même en mettant en adéquation les raisons d’une telle recommandation et les raisons d’accord ou de refus de celle-ci par l’utilisateur. Des travaux se sont déjà intéressés à l’explication des recommandations. Cependant, nombre d’entre eux se limitent à afficher des valeurs numériques ou à donner une explication du type « Ceux qui ont acheté A ont aussi acheté B ». Être capable d’expliquer la recommandation soulève des problèmes tels qu’expliquer comment fonctionne le système de recommandation, permettre aux utilisateurs d’indiquer au système de recommandation que la recommandation ne convient pas, convaincre les utilisateurs de suivre la recommandation, améliorer la facilité d’utilisation. Une explication du type « Ce livre appartient à votre genre préféré : Thriller/Policier, il a obtenu une note moyenne de 4/5 auprès des autres utilisateurs et il est disponible à la librairie de votre quartier » pourrait être une meilleure explication. Or, à notre connaissance, il n’existe pas, à ce jour, un tel système de recommandation.

L’objectif principal de cette thèse est d’étudier la diversité des systèmes de recommandation, leurs points communs et différences (d’un point de vue algorithmique mais aussi applicatif) dans un contexte de grande masse de données en constante évolution, ainsi que de comprendre de tels systèmes dans leur contexte. Il s’agira ensuite de tendre vers un modèle de système générique de recommandation capable d’expliquer à l’utilisateur les recommandations retournées.

Profil du candidat :
Mots-clés : Systèmes de recommandation, Machine learning, Systèmes d’Informations.

Formation et compétences requises :
Niveau Bac+5 en Informatique, spécialisé en Machine learning

Adresse d’emploi :
Université Paris-Dauphine, Paris, France

Document attaché : Proposition_sujet_thèse1819_FR2.pdf

Categories: theses

Mar

Sun

2019

Capture and characterization of change in the appearance of CH objects surface

Tickets

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Image et Vision Artificielle (ImViA) ex LE2I
Durée : 36 mois
Contact : alamin.mansouri@ubfc.fr
Date limite de publication : 2019-03-31

Contexte :
The French University of Burgundy (also called Bourgogne) in Dijon (http://en.u-bourgogne.fr), part of the University of Burgundy Franche-Comté Community (http://www.ubfc.fr/ubfc/presentation/ ) invites applications for a 3-year full time PhD/Early Stage Researcher (ESR8) position in Computer Vision in the context of the EU- Funded Marie Sklodowska-Curie Initial Training Network (ITN) project entitled Cultural Heritage Analysis for New GEnerations (CHANGE) (www.change-itn.eu).

More information in the attached document

Sujet :
The candidate is expected to work towards the development of an innovative multimodal imaging system along with its methods devoted to visual appearance capture and modeling combining many imaging modalities (RTI, spectral imaging, Quantic imaging, 3D, etc.). During the research, the candidate will investigate and develop 1) complete framework based on spectral-RTI system: Acquisition, automation, multi-view data alignment and stitching, joint reconstruction of spectral and angular components of reflectance, 2) Investigation of the Quantic imaging for CH applications 3) Investigation of parameters characterizing change in CH object appearance, 4) Investigation of the link between photometric parameters and visual judgement through psycho-sensorial experiments.

Main supervisor: Alamin Mansouri (University of Bourgogne)
 Co-supervisors: Jon-Yngve Hardeberg (NTNU, Norway), Christian Degrigny (HESSO, Switzerland)

More information in the attached document

Formation et compétences requises :
For more information about Formal regulations and salary please consult the attached document

Adresse d’emploi :
ImViA Laboratory
Bâtiment I3M, avenue Sully
21000 Dijon

Document attaché : CHANGE-ESR8.pdf

Categories: theses

Détection d’anomalies de sécurité par les graphes en environnement d’Industrie 4.0

Tickets

Mar 31 – Apr 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICube/ECAM Strasbourg-Europe
Durée : 36 mois
Contact : pierre.parrend@unistra.fr
Date limite de publication : 2019-03-31

Contexte :
La transformation numérique, loin d’être un phénomène passager, constitue une révolution technologique très forte, en particulier pour les entreprises industrielles. L’objectif de cette thèse est de créer un logiciel pérenne de détection d’anomalies de sécurité pour l’Industrie 4.0, et d’enrichir le modèle d’écosystème immunitaire artificiel développé au sein du laboratoire ICube en raffinant les travaux de détection de graphes d’anomalies pour leur donner une expressivité suffisante pour traiter les enjeux du projet. L’approche mise en œuvre intègrera les modèles de graphes de scénarios d’attaque abstraits créés par le laboratoire ICube. Elle aura pour objectif de formaliser les graphes d’attaques en intégrant le modèle des Stream Flows et de proposer des algorithmes de caractérisation et de détection d’anomalies exploitant ces graphes.

Sujet :
* Objectifs
L’objectif du projet est de renforcer la continuité confidentialité/intégrité/disponibilité en identifiant des graphes d’anomalies au sein de logs systèmes. Ces anomalies peuvent être des anomalies de sécurité ou des défaillances systèmes.
Ce projet s’appuiera sur les Outils SimSC et Morwilog développés au sein de l’équipe CSTB du laboratoire ICube. Il s’agit d’extraire des traces informatiques (log) pour l’identification de scénarios d’usage (utilisateur; machine) à des fins d’analyse d’anomalies.
L’approche consiste à mettre en œuvre l’analyse de graphes complexes, par des algorithmes de recherche d’anomalies indépendants du cas d’application. Ces algorithmes seront des modèles ‘white box’ à forte sémantique, par opposition aux réseaux de neurones, qui fonctionnent en mode ‘black box’. Selon l’avancement du projet, des collaborations internes au laboratoire peuvent être envisagés avec l’approche IA/EA (Intelligence artificielle/Evolution Artificielle) qui couple l’extraction de motifs par réseaux de neurones et la génération de solutions par évolution artificielle.
Le Livrable de la thèse comportera un ensemble d’algorithmes de détection d’anomalies et des bibliothèques logicielles de détection d’anomalies pour l’Usine du Futur.
Les cas d’applications sont:
• La cybersécurité pour l’usine connectée et les infrastructures critiques
• La détection d’anomalies de production
• La supervision de Cloud

* Organisation des travaux
Les phases du projet seront : 1) identification de scénarios de défaillances ; 2) création d’un modèle de détection d’anomalies comportementales par approche stochastique ; 3) optimisation et l’évaluation de la contribution proposée.
Le projet de thèse débutera par l’identification de scénarios de défaillances au travers de logs systèmes, dans un environnement d’industrie 4.0. Il s’agit d’adapter le modèle SimSC/Morwilog pour l’extraction, c’est à dire l’identification et apprentissage, de ces scénarios de défaillances. Cette phase pourra durer un semestre.
La deuxième phase de la thèse consistera en la création d’un modèle de détection d’anomalies comportementales par approche stochastique. Il s’agit ici de formaliser les Graphes de Scénarios d’Attaques Abstraits (AASG), par exemple sur la base de la formalisation des Stream Flows, et de définir différentes métriques pertinentes (critères) de distance afin d’identifier les scénarios d’usage anormaux, représentés sous forme de graphes de logs, par anomalie globale puis anomalie locale. Des algorithmes génétiques pour la détection d’anomalies par minimisation multicritère des fonctions de distances définies précédemment seront proposés en privilégiant les algorithmes parallèlisables. L’exécution des algorithmes de détection en environnement distribué sur GPGPU sera envisagée si cette approche est pertinente dans le cadre de la contribution. Cette phase pourra durer 18 mois.
La troisième phase de la thèse consistera en l’optimisation et l’évaluation de la contribution proposée, ainsi qu’en le raffinement des modèles : nouveaux modèles comportementaux ; amélioration des stratégies de détection d’anomalies par algorithmes génétiques. L’évaluation inclue la finalisation de l’architecture à plugin ; un audit de code ; un audit de sécurité ; le déploiement dans un deuxième environnement de test (partenaire industriel, partenaire académique). Cette troisième phase est planifiée sur la troisième année de thèse.
Un semestre est planifié pour la finalisation et la rédaction de la thèse de doctorat.
Du temps sera conservé pour la participation à des projets de R&D partenariaux dans le cadre du déploiement de la plate-forme ‘Usine du Futur’ de l’ECAM Strasbourg-Europe. Une phase sera dédié au déploiement de l’environnement de test ‘IT 4.0’ : Infrastructure IT et sa connexion au système de production du plateau technique ‘usine 4.0’ ; Exécution de cas d’anomalies représentatifs

Profil du candidat :
Informatique.

Formation et compétences requises :
Votre êtes titulaire d’un diplôme de niveau bac + 5 en informatique et pourra justifier d’une première expérience dans le domaine de la recherche (stage de fin d’étude, publication scientifique, etc.).

Vous avez de préférence une expérience dans le développement d’applications, la cybersécurité et/ou la conception et la mise en œuvre d’algorithmes stochastiques types algorithmes génétiques.

D’excellentes aptitudes technologiques et scientifiques sont attendues. La motivation pour le management de projets techniques, la collaboration avec les partenaires industriels et la participation aux missions pédagogiques de l’ECAM Strasbourg-Europe est indispensable.

Vous maitrisez la collaboration en mode projet et vous savez faire preuve d’esprit d’équipe, d’initiatives, d’adaptabilité et d’autonomie.

Vous parlez l’anglais et/ou l’allemand dans un contexte professionnel.

Adresse d’emploi :
ECAM Strasbourg-Europe 2, Rue de Madrid, 67300 Schiltigheim

Document attaché : Sujet_these_ECAM.pdf

Categories: theses

Apr

Tue

2019

Analyse à grande échelle de traces d’événements et de séries temporelles multivariées interdépendantes, en contexte incertain

Tickets

Apr 23 – Apr 24 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Université de Nantes – LS2N (Laboratoire des Sciences du Numérique de Nantes) / UMR CNRS 6004
Durée : 36 mois
Contact : christine.sinoquet@univ-nantes.fr
Date limite de publication : 2019/04/23

Contexte :
Dans un but d’amélioration de la sécurité et de la qualité des soins péropératoires, les spécialistes de la formation en médecine intensive du SiMU (Laboratoire Expérimental de Simulation de Médecine Intensive de l’Université de Nantes) souhaitent varier la diversité des scénarios à proposer aux internes en anesthésie et infirmiers anesthésistes, en formation initiale, ainsi qu’aux praticiens plus expérimentés, en formation continue. Pour varier les scénarios, le LS2N propose d’automatiser la génération de scénarios réalistes de simulation, en s’appuyant sur tout ou partie de la base de profils anesthésiques enregistrés par le CHU de Nantes. De cette innovation est attendu un accès potentiel à une grande variété de scénarios réalistes de simulation de cas d’anesthésie. Servir cet objectif de formation répond également au besoin d’anticipation par prédiction, inhérent au paradigme de la médecine personnalisée, en pleine émergence.

Sujet :
Le suivi anesthésique de chaque acte chirurgical garde la trace des actions de l’équipe médicale, éventuellement des réactions du sujet opéré, et mémorise la série temporelle de chaque paramètre de monitorage.

Chacune de ces séries est déterminée par le jeu d’une ou de plusieurs actions de la trace sur le paramètre concerné. Comme ce jeu est observé sur une cohorte de patients, il ne peut être modélisé que dans un contexte incertain. L’objectif de la thèse est donc de concevoir une nouvelle classe de modèle probabiliste, et son algorithme d’apprentissage, pour modéliser quantitativement la dynamique de l’impact des événements d’une trace sur l’évolution des variables de séries temporelles multivariées.

De très nombreux travaux ont été conduits tant en analyse de traces d’événements qu’en analyse de séries temporelles. Dans la première catégorie, on peut citer par exemple la détection d’activité frauduleuse par alignement de traces [JA10], le partitionnement de traces [CCD17]. L’analyse de séries temporelles peut être illustrée par la détection automatique de patterns [LLP14], l’alignement multiple de séries temporelles [LNR04], la détection de ruptures dans la structure d’une série [N18]. L’examen de la corrélation de deux séries temporelles est une opération classique. La capture des dépendances entre les événements d’une trace a conduit à quelques travaux [SWG17, CLF14]. Finalement, peu de travaux ont traité de l’identification de corrélations entre traces d’événements et séries temporelles ([MBBL08, LLL14]).

Pour pallier ce manque, une nouvelle classe de modèle probabiliste sera proposée, qui devra aussi pouvoir prendre en compte d’éventuelles dépendances entre événements, au sein d’une même trace. Un algorithme d’apprentissage correspondant sera développé, avec le souci qu’il puisse être exécuté rapidement, sur une cohorte de patients d’intérêt.

Une fois la modélisation validée, quelques cas d’anesthésie seront ciblés, et les modèles de variation correspondants seront construits. Il sera alors examiné avec l’aide de l’équipe IEIAH (*) du LIUM (**), comment générer un modèle de scénario de simulation à partir des modèles de variation.

(*) Ingénierie des Environnements Informatiques pour l’Apprentissage Humain
(**) Laboratoire d’Informatique de l’Université du Mans

Références bibliographiques
[CCD17] T. Chatain, J. Carmona, B.F. van Dongen (2017) Alignment-based trace clustering. Proceedings of the 36th International Conference on Conceptual Modeling (ER2017), Lecture Notes in Computer Science, Vol. 10650, Spain, Valencia, 6-9 september, 295-308.

[CLF14] M. Ceci, P.F. Lanotte, F. Fumarola, D. P. Cavallo, D. Malerba (2014) Completion time and next activity prediction of processes using sequential pattern mining. International Conference on Discovery Science, DS2014, pp. 49-61.

[LLL14] C. Luo, J.-G. Lou, Q. Lin, Q. Fu, R. Ding (2014) Correlating events with time series for incident diagnosis. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, USA, New York, 24-27 august, 1583-1592.

[LLP14] J.A. Lara, D. Lizcanoa, A. Pérez, J.P. Valente (2014) A general framework for time series data mining based on event analysis: application to the medical domains of electroencephalography and stabilometry. Journal of Biomedical Informatics, 51, 219-241.

[LNR04] J. Listgarten, R. M. Neal, S.T. Roweis, A. Emili (2004) Multiple alignment of continuous time series. Proceedings of Advances in Neural Information Processing Systems, NIPS2004, 817-824.

[LSD18] Y. Liu, T. Safavi, A. Dighe, and D. Koutra (2018) Graph summarization methods and applications: A survey. ACM Computing Surveys (CSUR), 51(3).

[MBBL08] B. Minaei-Bidgoli, S. Behzad Lajevardi (2008) Correlation mining between time series stream and event stream. Proceedings of the 4th International Conference on Networked Computing and Advanced Information Management, 2, 333-338.

[N18] V. Novák (2018) Detection of structural breaks in time series using fuzzy techniques. International Journal of Fuzzy Logic and Intelligent Systems, 18(1):1-12.

[SWG17] A. Senderovich, M. Weidlich, A. Gal (2017) Temporal network representation of event logs for improved performance modelling in business processes. Proceedings of the 14th International Conference on Business Process Management (BPM2017), pp 3 -21.

Profil du candidat :
Master de recherche en informatique ou équivalent, ou spécialisation d’école d’ingénieurs, ou Master en informatique pour la santé dans le domaine de l’apprentissage automatique, des sciences des données ou/et en statistique en grande dimension.

Le candidat doit être classé dans le premier tiers de sa promotion, pour ce qui concerne les résultats théoriques obtenus au cours du Master ou équivalent.

Formation et compétences requises :
Le candidat doit présenter un intérêt marqué pour la recherche méthodologique et académique. La motivation du candidat pour des travaux de recherche à mener sur trois années sera un élément capital. Le candidat doit également être motivé par les interactions en contexte interdisciplinaire. Il doit également montrer un réel intérêt pour les mises en oeuvre effectives. A cet égard, l’excellente maîtrise d’un langage de programmation de type C++ est requise, ainsi qu’une bonne connaissance de l’administration et de la gestion des bases de données. Des compétences en parallélisation de code seraient un plus.

Aucun prérequis n’est nécessaire en IEIAH.

************************************
Informations complémentaires relatives au sujet de thèse en :
https://uncloud.univ-nantes.fr/index.php/apps/files/?dir=/&fileid=46423541

************************************
Dépôt de candidature

Le candidat enverra par mail (christine.sinoquet@univ-nantes.fr) les documents suivants :
– lettre de motivation
– CV complet
– relevé de notes du Master (ou équivalent)
– attestation relative au classement obtenu à l’issue des épreuves théoriques du Master (ou équivalent)
– coordonnées d’au moins deux contacts (affiliation, adresse mail, numéro de téléphone)
– tout document complémentaire : lettre(s) de recommandation, éventuellement publications

************************************
Financement
Ministère de l’Enseignement Supérieur et de la Recherche

************************************
Durée
36 mois, à compter du 1er octobre 2019

************************************
Direction de thèse et contact
Christine Sinoquet, Maître de Conférences HdR 2014, qualifiée PR 2015 (christine.sinoquet@univ-nantes.fr)

************************************
Dates clés
Ouverture de la campagne de recrutement : mercredi 03 avril 2019
Fin de la campagne de recrutement (audition incluse) : mercredi 24 avril 2019
Date limite de candidature : lundi 22 avril 2019 12H00

Audition : pour être retenu, un candidat devra avoir été auditionné par le LS2N (audition à distance possible).

Adresse d’emploi :
Le doctorant sera accueilli à la Faculté des Sciences de l’Université de Nantes. Il échangera régulièrement avec des membres de l’équipe DUKe, basés sur un autre site du LS2N, à Nantes (Polytech Nantes).

Document attaché : sujet_these_duke_sinoquet_tues_19_04_02_cloud.pdf

Categories: theses

Apr

Tue

2019

Towards a Generic Storage and an Adaptive Query Optimization for Astronomical Data Management at Scale

Tickets

Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : MAESTRO

Laboratoire/Entreprise : Laboratoire DAVID – Université de Versailles Saint-Quentin
Durée : 3 ans
Contact : Karine.Zeitouni@uvsq.fr
Date limite de publication : 30-04-2019

Contexte :
La quantité de données produites a littéralement explosé dans les dix dernière années. En dépit de l’avancé extraordinaire des technologies de son support, le traitement des données massives (Big Data) est encore un sujet de recherche très actif en bases de données.
Dans le cadre d’un précédent projet doctoral co-financé par l’UVSQ et le CNES, l’équipe UVSQ/ADAM a proposé et implémenté un cadriciel (ASTROIDE – https://cnesuvsqastroide.github.io) permettant le requêtage efficace des observations astronomiques. En s’appuyant sur l’expérience passée, ce projet de thèse vise à étendre le cadriciel ASTROIDE vers plus de génériciité, plus de fonctionnalité et une meilleure adaptabilité du système.
Plus exactement, un des objectifs de cette thèse est de proposer un stockage générique et optimisé comme une alternative aux modèles d’échange traditionnels de données astronomiques, et de l’intégrer aux nouvelle architectures distribuées. Le second objectif est d’optimiser les performances du système global tout au long de son exécution. Une piste serait l’application des techniques d’apprentissage basées sur les traces d’exécution historiques pour optimiser les requêtes en cours.
The amount of data daily produced has dramatically exploded over the last decade. In spite of the extraordinary advance of its supporting technology, Big Data remains a hot topic of database research.
In the framework of a co-funded PhD thesis by UVSQ and CNES, UVSQ/ADAM group has proposed and implemented a distributed framework ASTROIDE for efficient querying of astronomical surveys.
Drawing on past experience, this thesis proposal aims at extending ASTROIDE framework towards more genericity, more functionality, and better adaptivity of the system.
Precisely, one of the objectives of this PhD thesis is to propose an optimized generic storage and exchange model for astronomical data, and to implement it under modern distributed processing environment. The second objective is to improve the overall system performance throughout its execution. At this end, we envision applying machine learning techniques based on the previous execution traces in order to optimize the current query execution.

Sujet :
Efficient query processing of astronomical data leads to optimize the data storage. Today, the most used formats in astronomy are FITS, HDF5, gbin, or simple csv/gzip, mainly for data exchange purpose. There disadvantage w.r.t. big surveys lies either in their complexity or in the lack of compacity. More importantly, they all require a significant over-cost to be loaded and used in NoSQL systems [16], like Spark or well-known packages (e.g., pandas). Nowadays, Parquet format [12], recommended by the Apache consortium, is becoming a de facto standard adopted by a large variety of Big Data tools, and NoSQL systems. Indeed, it is a compact columnar storage format, which is auto-descriptive, allows compression, data partitioning, and “rows group” indexation. However, there exists a gap between the astronomical standards and Parquet, as a matter of fact. One of the objectives of this PhD thesis is to fill this gap by proposing an optimized generic storage and exchange model for astronomical data in a distributed processing environment. The use of Parquet, or equivalent formats (e.g., kudu), will favour its adoption, since various systems use them as a native storage.
To this end, several issues must be addressed: How to partition these data across processing nodes? How to index these data? How to deal with updates? How to measure the performance in term of ingestion, access & filtering, updates, etc.? What is the impact of the parameters, and how to tune them?

An adapted data storage structure should optimize a system overload. This is guided by the response time, and throughput for a query load as well as the resources variation. A possible solution is to monitor the activity of the system, learn the performance behavior from previous execution traces, which allows optimizing the current or the next executions. This can be done by keeping track of the system dynamics, in term of execution performance, and the resource consumption. A significant decrease of performance may automatically trigger either data re-organization, such as partitioning, local indexing, caching, or the adaptation of resources allocation (number of executors, memory, and number of CPU per executor).
The questions are: What are the parameters to collect, and what are the performance metrics? How to establish a cost model and a distributed caching technique? Which access path to choose when different indexing and/or storage methods are possible? How to adapt to the data and the workload profiles? How to optimize complex queries, and mixed query and update workloads?

Profil du candidat :
Le candidat doit détenir un diplôme de Master en Informatique ou équivalent. Il doit montrer:
– des compétences confirmées en programmation objet et système, en systèmes et bases de données – des connaissances en fouille de données et en apprentissage
– un bon niveau d’expression / communication à l’oral ety à l’écrit en anglais
– la connaissance du Français est souhaitable mais non obligatoire
==
The applicant should hold a Master diploma in Computer science, or equivalent. She/he should have:
– Strong object and system programming, and database skills
– Good background in data mining / machine learning
– Good English oral communication, technical reading and writing skills
– Proficiency in French is desirable but not mandatory

Formation et compétences requises :
Master en Informatique ou équivalent.
/
Master diploma in Computer science, or equivalent.

Please submit your application including:
– cover letter
– CV
– copies of the relevant certificates
– the academic transcripts of the 2 last years
– list of references
– any complementary document: recommendation letters, relevant publications if exist.

On the website of the doctoral School. See:
https://www.universite-paris-saclay.fr/en/education/doctorate/sciences-et-technologies-de-linformation-et-de-la-communication-stic-0#the-doctorate

and in parallel by email to:
Prof. Karine Zeitouni
DAVID Lab – University of Versailles Saint-Quentin – Paris Saclay University
www.david.uvsq.fr/zeitouni
www.universite-paris-saclay.fr
E-mail: Karine.Zeitouni@uvsq.fr

Adresse d’emploi :
DAVID Lab. – Université de Versailles – Paris Saclay University
45 Avenue des Etats-Unis
78035 Versailles Cedex
http://perso.prism.uvsq.fr/users/zeitouni/sujetThese_ED580_22969.pdf

Document attaché : sujetThese_ED580_22969.pdf

Categories: theses

May

Thu

2019

Apprentissage de représentations pour le pattern spotting et le pattern discovery dans les images de documents historiques

Tickets

May 2 @ 10:40 – Jun 30 @ 11:40

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LITIS – EA 4108, Université de Rouen Normandie
Durée : 36 mois (du 01/10/2019 au 30/09/2022)
Contact : laurent.heutte@univ-rouen.fr, stephane.nicolas@univ-rouen.fr
Date limite de publication : 30/04/2019

Contexte :
Ce sujet de recherche s’inscrit dans le cadre d’une collaboration entre informaticiens, historiens et archivistes initiée en 2009 par le projet DocExplore 2009-2013 (http://www.docexplore.eu), projet du Programme de Coopération Transfrontalière Franco-Britannique Interreg IVa France (manche) – Angleterre. Cette collaboration avec historiens et archivistes a été poursuivie au niveau régional dans le cadre du projet PlaIR 2.0 soutenu par le GRR TL-TI de 2013 à 2016, puis étendue à d’autres acteurs dans le cadre du projet PlaIR2018 soutenu par le FEDER et la Région Normandie de 2017 à 2020. Cette collaboration vise à l’élaboration d’une plateforme logicielle pour l’étude et la valorisation de documents historiques anciens, en particulier médiévaux, dans le but de faciliter le travail des historiens qui étudient ces documents et des conservateurs qui cherchent à les valoriser. Cette plateforme doit leur offrir des fonctionnalités avancées d’analyse d’images et de l’écriture, et de recherche d’information par indexation automatique (http://spotting.univ-rouen.fr).
Du point de vue fondamental, les travaux proposés dans cette thèse s’inscrivent dans le thème “Apprentissage conjoint représentation/décision” de l’équipe Apprentissage du LITIS et concernent plus particulièrement un des points importants développés dans l’équipe à savoir l’apprentissage automatique de représentation pour des tâches de détection.

Sujet :
L’objectif de cette thèse est de développer des techniques robustes de détection de patterns (pattern spotting) et de découverte de motifs (pattern discovery) dans les images de documents, en s’appuyant sur les avancées récentes en Deep Learning. Le pattern spotting permet de rechercher et de localiser précisément, dans l’image d’un document, les occurrences d’un « objet » graphique, c’est à dire une forme plus ou moins complexe telle par exemple qu’un logo, une signature, une lettrine, un symbole, une croix, un blason, … la requête étant formulée en désignant dans l’image un exemple de l’objet à rechercher (requête image). L’intérêt du pattern spotting est de faciliter la recherche d’information dans des bases de documents historiques numérisés relativement complexes comme des documents médiévaux par exemple. Le pattern discovery permet quant à lui d’identifier automatiquement dans les grandes bases d’images de documents, des catégories de motifs graphiques, ou plus généralement des objets, de manière non supervisée, c’est à dire sans connaissance a priori sur les classes d’objets, ni même sur le nombre de classes possibles. L’objectif est de pouvoir découvrir dans les images de documents des structures graphiques qui se répètent ou qui sont similaires lorsqu’elles sont analysées à un certain niveau d’abstraction. Ces deux modes d’utilisation, en recherche et en découverte, d’un tel système d’indexation pourraient être d’une grande utilité pour les historiens, afin de trouver de manière efficace des motifs spécifiques dans des grandes bases d’images de documents hétérogènes, ou de découvrir des relations entre des motifs similaires présents dans des manuscrits différents et présentant des variations de style de représentation plus ou moins importantes.

Nous nous appuierons pour cela sur les travaux menés dans le cadre de la thèse de Sovann En (soutenue en 2016) où nous avons proposé un système complet de recherche d’images et de localisation des objets graphiques de petite taille dans des images de documents médiévaux [En et al., 2016]. Ce système est basé sur une première extraction/indexation des régions d’intérêt dans l’image (region proposal / BInarized Normed Gradients), d’une caractérisation de ces régions par des descripteurs ad-hoc (Vector of Locally Aggregated Descriptors et Fisher Vector), et d’une recherche par similarité à la requête intégrant des techniques de compression et d’approximation (Inverted File, Product Quantization et Asymmetric Distance Computation). Si ce système a montré de bonnes performances sur le corpus d’images de documents étudié [En et al., 2017], il souffre toutefois d’un certain nombre de faiblesses qui rendent ce système peu adaptable à d’autres types d’images de documents (l’information couleur n’est actuellement pas exploitée par exemple), très sensible aux variations de taille, de forme, de couleur et plus généralement de style, des motifs à détecter. D’autre part, ce système supporte difficilement le passage à l’échelle et nécessite des post-traitements pour une localisation fine des objets dans les régions d’intérêt, à l’aide par exemple de méthodes classiques de matching. Enfin, le mode d’interrogation supporté suppose que l’utilisateur puisse présenter au système un exemple graphique visuellement ressemblant de l’objet qu’il souhaite rechercher. Cette condition est très forte, et difficile en pratique à réaliser. Il serait plus pratique pour l’utilisateur de pouvoir fournir au système de recherche, une description sémantique des objets qu’il recherche, ou bien qu’il puisse en donner une description graphique plus sommaire (par exemple à partir d’un schéma ou d’un dessin à main levée). Il faut donc que le système d’indexation et de recherche soit plus tolérant aux variations de représentation (ou de style graphique) d’un même objet, et qu’il permette de lier une description sémantique de haut niveau à de multiples représentations graphiques d’un même objet, ce qui suppose d’être dans un contexte supervisé pour apprendre des modèles d’objets préalablement identifiés. Or il n’est pas possible de savoir a priori sur quel type d’objet va porter la recherche de l’utilisateur. Un moyen de contourner ce problème peut être alors d’apprendre de manière non supervisée lors de l’indexation quelles sont les structures similaires présentes dans les données (corpus indexé) à différents niveaux de représentation.

L’objectif de la thèse est donc d’explorer les techniques d’apprentissage de représentation (deep learning) récemment proposées dans la communauté « object detection » pour contourner ces difficultés. Dans un premier temps, il s’agira d’étendre les capacités du système de spotting pour le rendre moins sensible aux variations de représentation (en termes de taille, de forme ou encore de couleur). Nous pourrons nous appuyer pour cela sur les techniques de type Faster R-CNN [Ren et al.. 2017] qui devront être étudiées et adaptées pour remplacer avantageusement l’extraction de régions d’intérêt (region proposal) basée sur BING. De même, VLAD et Fisher Vector supportent mal la caractérisation des petites régions et des textures couleur ; on pourra s’inspirer des deep features, comme celles proposées par exemple par [Zhou et al., 2016] ou [Babenko et al., 2015], pour une meilleure caractérisation des régions. Enfin, les techniques de Deep Supervised Hashing, comme celles proposées récemment dans [Liu et al., 2016] ou [Jiang and Li, 2017], devraient permettre de faire face au passage à l’échelle pour une recherche par similarité plus efficiente.
Dans un deuxième temps, il s’agira d’étudier l’application de ces modélisations profondes à la découverte de motifs, dans un cadre non supervisé, dans de grands corpus d’images de documents pour permettre une indexation plus fine de ces corpus à différents niveaux de représentation, autorisant ainsi des exploitations de ces contenus indexés qui doivent mieux correspondre aux attentes de l’utilisateur (recherche sémantique de haut niveau, recherche de similarité graphiques, recherche de similarité sémantique). On pourra s’inspirer par exemple de techniques récentes telles que celles proposées dans [Doersch et al., 2015] ou [Seguin et al., 2016] pour apprendre des représentations adaptées au cadre non supervisé.

L’équipe Apprentissage mettra à disposition pour la réalisation de ce travail de nombreuses collections d’images de documents, données acquises et annotées dans le cadre du projet DocExplore [En et al., 2016] et qui ont fait l’objet d’une convention signée entre l’Université de Rouen et la Bibliothèque Municipale de Rouen. Ces données, annotées au niveau pattern, permettront de conduire une réelle évaluation expérimentale, car en grandeur nature, du travail de recherche qui, par l’importance du sujet et l’originalité des approches proposées, pourra être valorisé par des publications dans des revues internationales de haut niveau et par l’intégration de nouvelles fonctionnalités dans la plateforme PlaIR et la suite logicielle DocExplore.

Références:

[En et al., 2017] En, S., Nicolas, S., Petitjean, C., Jurie, F., Heutte, L. New public dataset for spotting patterns in medieval document images. Journal of Electronic Imaging, vol. 26, no. 1, 2017.

[En et al., 2016] En, S., Petitjean, C., Nicolas, S., Heutte, L. A scalable pattern spotting system for historical documents. Pattern Recognition, vol. 54, pp. 149-161, 2016.

[Ren et al.. 2017] S. Ren, K. He, R. Girshick, J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, Pattern Analysis and Machine Intelligence IEEE Transactions on, vol. 39, pp. 1137-1149, 2017

[Zhou et al., 2016] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, A. Torralba. Learning Deep Features for Discriminative Localization. CVPR2016, pp. 2921-2929, 2016.

[Babenko et al., 2015] Babenko, V. Lempitsky. Aggregating Local Deep Features for Image Retrieval. ICCV 2015, pp. 1269-1277, 2015.

[Liu et al., 2016] H. Liu, R. Wang, S. Shan, X. Chen. Deep Supervised Hashing for Fast Image Retrieval; CVPR 2016, pp. 2064-2072, 2016.

[Jiang and Li, 2017] Q.Y Jiang, W.J. Li. Asymmetric Deep Supervised Hashing. arXiv preprint arXiv:1707.08325, 2017.

[Doersch et al., 2015] Doersch, A. Gupta, A. Efros. Unsupervised visual representation learning by context prediction. ICCV2015, pp. 1422–1430, 2015.

[Seguin et al., 2016] Seguin, C. Striolo, I. di Lenardo, F. Kaplan. Visual link retrieval in a database of paintings. ECCV2016, pp. 753–767, 2016.

Profil du candidat :
Master 2 en informatique, mathématiques appliquées, ou école d’ingénieur

Le candidat devra impérativement envoyer son CV et ses relevés de notes (L3, M1 et année en cours, avec les classements), ainsi qu’une lettre de motivation, à Laurent HEUTTE (laurent.heutte@univ-rouen.fr) et Stéphane NICOLAS (stephane.nicolas@univ-rouen.fr), au plus tard pour le 30 avril 2019.

Formation et compétences requises :
Le candidat recherché doit être titulaire d’un Master (ou équivalent) dans le domaine de l’Informatique avec une dominante Traitement du Signal et des Images ou Sciences des Données. Il doit avoir de solides connaissances en apprentissage et classification, notamment en Deep Learning, et des compétences en Image Retrieval.

Adresse d’emploi :
Equipe d’accueil:
Equipe Apprentissage, laboratoire LITIS (EA 4108), Université de Rouen
http ://www.litislab.fr/equipe/docapp/

Encadrement :
Laurent HEUTTE (directeur), laurent.heutte@univ-rouen.fr, (+33) 2 32 95 50 14
Stéphane NICOLAS (co-encadrant), stephane.nicolas@univ-rouen.fr, (+33) 2 32 95 52 14

Document attaché : sujet_alloc_URN_spotting_2019.pdf

Categories: theses

May

Tue

2019

Techniques coopératives pour l’exploitation des bases de connaissances et passage à l’échelle

Tickets

May 7 – May 8 all-day

Annonce en lien avec l’Action/le Réseau : ARQUADS

Laboratoire/Entreprise : Laboratoire d’Informatique et d’Automatique pour les Systèmes
Durée : 3 ans
Contact : stephane.jean@ensma.fr
Date limite de publication : 2019-05-07

Contexte :
Avec l’émergence et la multiplication des applications du Web sémantique, de nombreuses bases de connaissances, à la fois récentes, volumineuse et potentiellement incertaines deviennent disponibles. Ces bases de connaissances contiennent des entités nommées et des faits sur ces entités, mais aussi les classes sémantiques de ces entités et leurs liens mutuels. De plus, plusieurs bases de connaissance peuvent être interconnectées au niveau de leurs entités, formant ainsi le noyau du Web des données liées (ou ouvertes).

Au LIAS, nous cherchons à proposer des techniques facilitant la gestion et l’exploitation des bases de connaissances, en particulier pour aider l’utilisateur lorsque sa requête ne lui retourne aucun résultat. Les techniques développées consistent essentiellement à identifier les causes d’échec de cette requête en explorant le treillis formé par l’ensemble des sous-requêtes. Ce treillis étant d’une taille exponentielle par rapport à la taille de la requête originale, l’exploration s’appuie sur des heuristiques et des propriétés de monotonie permettant d’élaguer l’espace de recherche.

Sujet :
Jusqu’à présent, nous n’avons considéré que le problème des réponses vides. Cependant, d’autres types de résultats peuvent être considérés comme insatisfaisants par l’utilisateur, menant à de nouvelles notions d’échec. Un premier objectif de la thèse sera d’étudier comment adapter ou étendre les approches développées à ces nouveaux contextes. Le défi principal sera d’identifier sous quelles conditions les propriétés de monotonie sont maintenues et, si ce n’est pas le cas, quelles solutions alternatives peuvent être proposées pour explorer efficacement l’espace des sous-requêtes.

D’autre part, les expérimentations que nous avons menées pour le problème des réponses vides ont montré que nos approches proposent des temps de réponse raisonnables lorsqu’elles sont utilisées sur des bases de connaissance contenant des millions de faits. Pour répondre efficacement à des besoins de passage à l’échelle sur des bases plus conséquentes, un second objectif de la thèse sera d’étudier les techniques d’optimisation applicables pour améliorer les temps de traitement des approches proposées.

Profil du candidat :
Le candidat devra être titulaire d’un Master 2 ou d’un diplôme d’ingénieur et posséder des connaissances en algèbre, traitement de données, administration de bases de données et programmation. Un bon niveau en français et en anglais est également nécessaire.

Formation et compétences requises :
Master 2 ou équivalent.

Adresse d’emploi :
Poitiers (locaux de l’ISAE-ENSMA)

Document attaché : sujet.pdf

Categories: theses

May

Mon

2019

data stories for interactive intentional analytics

Tickets

May 13 – May 14 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT)
Durée : 3 ans
Contact : Patrick.Marcel@univ-tours.fr
Date limite de publication : 2019-05-13

Contexte :
Can data analysis be fully automated and eventually an Artificial Intelligence
(AI) makes the decision? The debate around AI, especially Machine Learning
(ML), and their supposed capacity at automating decision making, is very intense these days.
In the database (DB) community, and more particularly in
the data warehousing (DW) community, there is long tradition of having the
decision maker at the center of the data analysis process. At the inverse of automated application
of algorithms [4], DW has been, since its inception, all about
facilitating the task of interactive exploration of a dataspace, and not let e.g.,
an algorithm automatically mine this space for patterns. One could even say
that DW is the ancestor of the Human-In-the-Loop Data Analysis phenomenon [2].

This PhD topic follows up from the reinvention of OLAP described in [10, 11],
and ambitions to automatize further interactive data analysis, while letting the
end user in command. This reinvention of OLAP introduces an analytics model
redefining what a query is, with respect to both what users ask the system,
what the answer entails, and how this answer is computed. An implementation
is currently being done.

The work introduced in [11] is a first step to a broader vision of interactive
data analysis [7], that opens major research questions, including:
– How to facilitate the understanding of data? This demands to precisely
define what are the answers to complex sequences of high level intentions,
and package them into coherent data stories accessible to even non expert
users.
– How to optimize the overall interactive analysis? Performance of query
processing has traditionally been the focus of the DB community, but
it has overlooked key indicators pertaining to the quality of the overall
interaction with the data.

References
[1] Mahfoud Djedaini, Krista Drushku, Nicolas Labroche, Patrick Marcel,
Verónika Peralta, and Willeme Verdeau. Automatic assessment of interactive
OLAP explorations. Information Systems, 82:148–163, 2019.

[2] AnHai Doan. Human-in-the-loop data analysis: A personal perspective.
In Proceedings of the Workshop on Human-In-the-Loop Data Analytics,
HILDA@SIGMOD 2018, Houston, TX, USA, June 10, 2018, pages 1:1–
1:6, 2018.

[3] Philipp Eichmann, Emanuel Zgraggen, Zheguang Zhao, Carsten Binnig,
and Tim Kraska. Towards a benchmark for interactive data exploration.
IEEE Data Eng. Bull., 39(4):50–61, 2016.

[4] Matthias Feurer, Aaron Klein, Katharina Eggensperger, Jost Tobias Springenberg,
Manuel Blum, and Frank Hutter. Efficient and robust automated
machine learning. In Advances in Neural Information Processing Systems
28: Annual Conference on Neural Information Processing Systems 2015,
December 7-12, 2015, Montreal, Quebec, Canada, pages 2962–2970, 2015.

[5] Dimitrios Gkesoulis, Panos Vassiliadis, and Petros Manousis. Cinecubes:
Aiding data workers gain insights from OLAP queries. Inf. Syst., 53:60–86,
2015.

[6] Jessica Hullman, Steven M. Drucker, Nathalie Henry Riche, Bongshin Lee,
Danyel Fisher, and Eytan Adar. A deeper understanding of sequence in
narrative visualization. IEEE Trans. Vis. Comput. Graph., 19(12):2406–
2415, 2013.

[7] Patrick Marcel, Nicolas Labroche, and Panos Vassiliadis. Towards a benefit
based optimizer for interactive data analysis. In Proceedings of the 21st
International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data,
co-located with EDBT/ICDT Joint Conference,
DOLAP@EDBT/ICDT 2019, Lisbon, Portugal, March 26, 2019., 2019.

[8] Tova Milo and Amit Somech. Next-step suggestions for modern interactive
data analysis platforms. In Proceedings of the 24th ACM SIGKDD International Conference
on Knowledge Discovery & Data Mining, KDD 2018, London, UK, August 19-23, 2018, pages 576–585, 2018.

[9] Amit Somech, Tova Milo, and Chai Ozeri. Predicting ”what is interesting”
by mining interactive-data-analysis session logs. In Advances in Database
Technology – 22nd International Conference on Extending Database Technology,
EDBT 2019, Lisbon, Portugal, March 26-29, 2019, pages 456–467, 2019.

[10] Panos Vassiliadis and Patrick Marcel. The road to highlights is paved
with good intentions: Envisioning a paradigm shift in OLAP modeling.
In Proceedings of the 20th International Workshop on Design, Optimization,
Languages and Analytical Processing of Big Data co-located with 10th
EDBT/ICDT Joint Conference (EDBT/ICDT 2018), Vienna, Austria,
March 26-29, 2018., 2018.

[11] Panos Vassiliadis, Patrick Marcel, and Stefano Rizzi. Beyond roll-up’s and
drill-down’s: An intentional analytics model to reinvent OLAP. Accepted
to Information Systems, https://doi.org/10.1016/j.is.2019.03.011, 2019.

[12] Zheguang Zhao, Lorenzo De Stefani, Emanuel Zgraggen, Carsten Binnig,
Eli Upfal, and Tim Kraska. Controlling false discoveries during interactive
data exploration. In Proceedings of the 2017 ACM International Conference
on Management of Data, SIGMOD Conference 2017, Chicago, IL, USA,
May 14-19, 2017, pages 527–540, 2017.

Sujet :
This PhD will focus on the topics listed above, and more precisely:
– In [11], it is proposed that answers to intentional operators are no more
traditional set of tuples, but dashboards including data, charts, informative summaries
of KPI performance, as well as concise representations of
knowledge hidden in the data. The first challenge of this PhD work will be
to define how to structure such dashboards in a context where the interactive data analysis
is a sequence of possibly complex queries, each being
a composition of intentions, in a personalized way [8].
– Facilitating data understanding also demands to automatically put query
results in a shape that is easy to grasp and that facilitates data storytelling.
The second challenge of the PhD lies in identifying the most appropriate graphical representation
of query answers, and to automatically
craft narratives, commenting on the highlights presented, etc. [5, 6].
– Finally, executing complex intentional statements requires an optimization
phase to decide which logical operators and model mining algorithms to
execute [7]. This optimization can be thought in terms of performance,
but also in terms of information content delivered and in terms of the
quality of the user’s experience [1], measuring the number of insights [3, 9],
controlling false discoveries [12], etc.

Profil du candidat :
Requirements: Applicants are expected to hold a Master’s degree in Computer Science,
be skilled in databases, machine learning, programming and be fluent in English.

Application: Applicants will email, before May 13th, 2019 (firm deadline),
the following documents to the supervisors: CV, transcripts of the Master’s program,
Master’s thesis dissertation, cover letter, reference letters.
Shortlisted applicants will be contacted for a Skype interview that will include
a discussion of the scientific literature relevant to the topic.

Formation et compétences requises :
Requirements: Applicants are expected to hold a Master’s degree in Computer Science,
be skilled in databases, machine learning, programming and be fluent in English.

Adresse d’emploi :
The position is a 3 years fully funded PhD.

Employer: University of Tours (France) in partnership with University of
Ioannina (Grece)

Lab: Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT)

Location: Blois (France) with 3-12 months stay in Ioannina (Greece). The
recruited student can apply to an Erasmus grant for covering the stay in Greece.

Supervisors:
– Patrick Marcel, Associate Professor HDR, University of Tours, patrick.marcel@univ-tours.fr
– Verónika Peralta, Associate Professor, University of Tours, veronika.peralta@univ-tours.fr
– Panos Vassiliadis, Professor, University of Ioannina, panos.vassiliadis@cs.uoi.gr

Keywords: data analytics, data exploration, data stories, data quality, data
mining, intentional OLAP

Document attaché : phd_topic.pdf

Categories: theses

May

Wed

2019

Ph.D. proposal in computer vision/machine learning for biomedical application

Tickets

May 15 – May 16 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ImViA – Univ. Bourgogne
Durée : 36 months
Contact : yannick.benezeth@u-bourgogne.fr
Date limite de publication : 2019-05-15

Contexte :
Video analysis can be used to recover subtle changes in the human body associated with health parameters. Non-contact video-based physiological measurement is a very active research domain with great applications. Recently, several algorithms have been proposed to enable recovering vital signs from only a webcam video with limited success under challenging conditions (NIR monitoring, motion, etc.). The technics are usually based on blind source separation paradigms (e.g., constrained ICA [2]) or on simple color space transforms based on the light-skin interaction models (e.g., CHROM [3], POS, etc.). In this work, we propose to investigate supervised learning technics for video-based measurement of physiological parameters, including deep recurrent networks with an end-to-end strategy.

Sujet :
In computer vision, end-to-end deep neural models have out-performed traditional multi-stage methods that require hand-crafted feature manipulation. An end-to-end learning framework for recovering physiological signals would be highly desirable. Currently, the technics are based on blind source separation paradigms, or color space transforms based on the light-skin interaction model. However, these methods still struggle to face specific challenges, especially motion disturbances. Recently, a CNN network has been proposed to tackle this problem [1]. Even if this work has proved the feasibility of the approach, many works remain for practical applications. We plan to primarily investigate the inclusion of motion disturbances in the network and apply dedicated strategies to allow long term memories management in the recurrent network.

We have been working on remote photoplethysmography for 4 years now and have contributed to the two existing strategies [4, 5, 6, 7] (blind source separation or color space transforms). It now seems very important to explore this new avenue of research in the field. Moreover, over the years, we have collected a large amount of data that can be used for the learning of the models.

Supervision team:
Johel Miteran (miteranj@u-bourgogne.fr)
Yannick Benezeth (yannick.benezeth@u-bourgogne.fr) – http://sites.google.com/view/ybenezeth

Application
Send an email (before May 15th, 2019) to J. Miteran and Y. Benezeth with:
– A motivation letter
– Official transcripts (Master and Bachelor)
– CV
– An example of research work (paper, Master thesis, etc.)
– Recommendations or reference persons to contact

References
[1] W. Chen and D. McDuff, “DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks,” in ECCV, 2018.
[2] R. Macwan, Y. Benezeth, A. Mansouri. Heart rate estimation using remote photoplethysmography with multi-objective optimization. Biomedical Signal Processing and Control, Elsevier, 2019
[3] G. De Haan and V. Jeanne, “Robust pulse rate from chrominance-based rPPG,” IEEE Trans. Biomed. Eng., vol. 60, no. 10, pp. 2878–2886, 2013.
[4] R. Macwan, Y. Benezeth, A. Mansouri. Heart rate estimation using remote photoplethysmography with multi-objective optimization. Biomedical Signal Processing and Control, Elsevier, 2019
[5] S. Bobbia, D. Luguern, Y. Benezeth, K. Nakamura, R. Gomez and J. Dubois, “Real-Time Temporal Superpixels for Unsupervised Remote Photoplethysmography”, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2018.
[6] R. Macwan, S. Bobbia, Y. Benezeth, J. Dubois, A. Mansouri, “Periodic Variance Maximization using Generalized Eigenvalue Decomposition applied to Remote Photoplethysmography estimation”, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2018.
[7] S. Bobbia, R. Macwan, Y. Benezeth, A. Mansouri, J. Dubois, Unsupervised skin tissue segmentation for remote photoplethysmography, Pattern Recognition Letters, Elsevier, 2017.

Profil du candidat :
Required background:
– Computer Vision or Signal Processing
– Experiences in using recent supervised learning frameworks (Keras, TensorFlow, …) would be appreciated.

Formation et compétences requises :
Master degree in Computer Vision, Signal Processing or Machine learning

Adresse d’emploi :
Dijon France – Univ. Bourgogne

Document attaché :

Categories: theses

May

Tue

2019

Goal-oriented physics-constrained machine learning for chaotic systems

Tickets

May 21 – May 22 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIMSI – CNRS
Durée : 36 mois
Contact : mathelin@limsi.fr
Date limite de publication : 2019-05-21

Contexte :
The rise of machine learning techniques has led to major efforts to enhance, and sometimes substitute, physics solvers. Of particular interest for scientific purposes is the modeling of the behavior of a system from limited observations. In particular, one often needs to learn faithful and reliable governing equations accurately describing the time-evolution of the system under consideration.

The class of models generically described as “neural networks” has seen a spectacular renewed interest in the last decade and has now become the gold standard in many applications. In particular, deep networks have often demonstrated impressive performance. In a recent work, a deep neural network architecture (Reservoir Computing) has been used to learn a model for the chaotic Kuramoto-Sivashinsky system. The resulting model is able to accurately predict the future state of the system up to about 6 Lyapunov exponent times.

This remarkable result rises several largely open questions, also prototypical of a large class of learning situations:
• What are the reasons why this deep neural computing allows such a performance, well beyond the usual Lyapunov time limit? How specific is the performance to the particular architecture of this network?
• In a broad sense, what is the best quantity to learn for achieving good general performance? More precisely, what is the good metric to use as the training criterion to improve generalizability of the model learned? In a dual view, what is a relevant nonlinear transform to pre-process the data so that it achieves a good validation error?
• In many situations, expertise knowledge is available on the system under consideration. How to make use of this expertise and reduce the dimension of the learning space by introducing relevant constraints such as symmetries, invariants, causality, etc.?
• In situations of active learning when the samples can be chosen, how to benefit from past knowledge to improve the sampling scheme? How to adapt the design of experiment and explore the system in an efficient way, given the objective function?

Sujet :
The objectives of this thesis will be to improve the learning process of a data-driven approach by addressing the questions and limitations above. Specifically, different points will be addressed, including but not limited to:

1. Choice of the best cost function to get optimal results. Cost functions are typically defined in terms of integral (L2) norm of the misfit residual. This choice is not always necessary and one may want to employ other metrics. We would like to use a physics-based approach to decide which feature deserves particular attention. For instance, one may need to ensure a good learning in terms of Fourier spectrum, Lyapunov exponents, wavelet structure, optimal transport-related norms (e.g., Wasserstein distance), etc. We will first analyze how a standard L2 learning is relevant for other metrics. In a second step, these alternative metrics will be directly employed as objective functions in a goal-oriented approach.

2. Many key questions will be at the center of the effort:
How to sample the system under consideration in the most efficient way? How to most quickly discover its natural measure and adapt the sampling scheme accordingly? How to explore around the neutral manifold (when it exists) in useful directions? What is the minimal number of samples one needs to learn a model of an attractor of a given dimension?

Profil du candidat :
This project is strongly multidisciplinary (applied maths, statistics, dynamical systems, fluid mechanics, data analysis, high-performance computing applied to engineering), at the edge of fundamental and applied research.
The successful candidate has a strong background in at least one of the following fields: statistics, applied mathematics, machine learning. He/She is also a team-oriented person, with good communication and writing skills.

Formation et compétences requises :
Programming skills (Python/PyTorch, Julia or Matlab) are clearly a plus.

Adresse d’emploi :
LIMSI – CNRS
Campus Universitaire d’Orsay
91405 Orsay cedex
France

Document attaché : Sujet_de_these_19_anglais_short.pdf

Categories: theses

May

Wed

2019

Modeling and inference of the persistence of information on social networks

Tickets

May 29 – May 30 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : IECL
Durée : 3 years
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2019-05-29

Contexte :
Context : Social networks and medias in general create a huge quantity of information which may differ according to the location (countries, areas, cities…..)
and the time periods. A natural question is to identify which main topics are
persistent in a corpus of documents as tweets, websites or scientific papers. The
aim of the project is to take into account the specifities of data as similarities
between different regions or countries as well as the time stamp of the document…This question has been already addressed in several papers (see for e.g. [1] and several models have been proposed to summarize the temporal evolution
(see for e.g. [2]).
– [1] S. Asur, B. A. Huberman, G. Szabo, C. Wang. Trends in social media: persistence and decay. In ICWSM. (2011).
– [2] Y. Wang, E. Agichtein, M. Benzi. TM-LDA: efficient online modeling of latent
topic transitions in social media. Proc. of the 18th ACM SIGKDD. ACM (2012).

Sujet :
Challenges : We aim at complementing these works studying spatio-temporal
persistence in textual data. Using dynamic topic modeling [3], we can modeled
in real-time the content evolution of a corpus. Our goal will be to identify which
topics are persistent in a corpus, taking into account both spatial and temporal
information. The part simulation and inference will be designed using Monte
Carlo methods [6,7] whereas persistence will be measured using multivariate
long range dependence [4].
– [3] D. Blei, J. D. Lafferty. Dynamic topic models. Proceedings of the 23rd international conference on Machine learning. ACM, (2006).
– [4] S. Kechagias, V. Pipiras. Definitions and representations of multivariate longrange dependent time series. JTSA 36.1 1-25 (2015).
– [5] M. Li, X. Wang, K. Gao, S. Zhang. A survey on information diffusion in
online social networks: Models and methods. Information 8, no. 4: 118 (2017).
– [6] G. Winkler, Image analysis, random fields and MCMC methods, Springer (2003)
– [7] R. S. Stoica, A. Philippe, P. Gregori, J. Mateu. ABC Shadow algorithm: a
tool for statistical analysis of spatial patterns. Stat. Comp., 27(5) : 1225-1238, (2017

Profil du candidat :
We are seeking a candidate having strong skills in Probability and Statistics, as well as programming in Python

Formation et compétences requises :
Master M2 in Probability and Statistics or in Computer Sciences

Adresse d’emploi :
Instititu Elie Cartan de Lorraine
Nancy

Document attaché :

Categories: theses

May

Thu

2019

Linked Data Sanitization: utility and privacy

Tickets

May 30 – May 31 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire d’Informatique Fondamentale d’Orléans – INSA Centre Val de Loire
Durée : 36 mois
Contact : cedric.eichler@insa-cvl.fr
Date limite de publication : 2019-05-30

Contexte :
The PhD is funded by the ANR (french national research agency) in the context of the national SENDUP project. PhD will be co-supervised with the Laboratoire d’Informatique de Grenoble (LIG) and will start on September 1, 2019 (may be postponed upon candidates request until December).

Sujet :
**Scientific Context**

The amount of data produced by individuals and corporations has dramatically increased during the last decades. This generalized gathering of data brings opportunities (e.g., building new knowledge using this ”Big Data”) but also new privacy challenges.
The general public express a growing distrust over personal data exploitation, which has been met with successive strengthened regulations (e.g. EU general data protection regulation).
This has led to a growing interest for data sanitization, the art of disclosing personal data without jeopardizing privacy, and data-set anonymisation. An anonymized dataset is a dataset which is difficult, costly, or impossible to relate to real individuals. Both domains aim to maintain a certain data quality while ensuring privacy in order to produce information as useful as possible.

The LIFO (Orléans/Bourges) and LIG (Grenoble) laboratories are working on an innovative ANR project for efficient sanitization and anonymization for data stored as graphs with an underlying semantic (e.g., RDF).

**Objectives**

The PhD applicant will integrate and collaborate with SENDUP’s team. Its main objectives will be:
-introduce new knowledge- and usage-based utility metrics for graph data-bases.
-introduce new privacy guaranties and metrics (e.g. k-anonymity, differential privacy) for graph data-bases.
-contribute to the suite of software modules implementing the proposed algorithms

**Some relevant references**

Shiva Prasad Kasiviswanathan, Kobbi Nissim, Sofya Raskhodnikova, and Adam D. Smith. ”Analyzing graphs with node differential privacy”. Proceedings of the 10th Theory of Cryptography Conference, TCC 2013

A. A. Mubark, E. Elabd, and H. Abdulkader. ”Semantic anonymization in publishing categorical sensitive attributes”. Proceedings of the 8th International Conference on Knowledge and Smart Technology, 2016

Remy Delanaux, Angela Bonifati, Marie-Christine Rousset, and Romuald Thion. ”Query-Based Linked Data Anonymization”. Proceedings of the International Semantic Web Conference, 2018.

Shouling Ji, Weiqing Li, Prateek Mittal, Xin Hu, and Raheem Beyah. “SecGraph: a uniform and open-source evaluation system for graph data anonymization and de-anonymization”. Proceedings of the 24th USENIX Conference on Security Symposium (SEC’15), 2015.

World Wide Web Consortium, RDF https://www.w3.org/RDF/

Profil du candidat :
Applicants should be fluent in written and spoken english, have good coding skills, and be interested in privacy problematics

Formation et compétences requises :
Master degree in computer science or equivalent. A specialization in database, knowledge management or security/privacy is a plus.

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : theseSendUp.pdf

Categories: theses

May

Fri

2019

Artificial Intelligence as a pedagogical tool: Knowledge extraction and decision support for the analysis of learners’ trajectories in Computer Science

Tickets

May 31 – Jun 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ISEA – Université de La Nouvelle-Calédonie
Durée : 3 ans
Contact : guillaume.cleuziou@unc.nc
Date limite de publication : 2019-05-31

Contexte :
In 2018, the University of New Caledonia set up an innovative research and teaching centre containing high-tech infrastructure and equipment for university training and research. This institutional dynamic accompanies and encourages a profound transformation of teaching practices in the digital age. While digital tools are nowadays a valuable asset for the transmission and evaluation of knowledge, their use in the processes of acquisition of this knowledge by the learner remains very limited. Indeed, these processes are part of the expertise and pedagogical know-how of each teacher whom it would be utopian to want to replace with a machine. On the other hand, the real challenge in terms of pedagogical innovation consists in designing new digital tools that place the teacher at the heart of the system and that facilitate the adaptation and individualization of his pedagogy, particularly in situations of teaching in large groups or even at a distance.

Sujet :
The thesis takes place in the field of Artificial Intelligence and will contribute to the development of fundamental methodologies for knowledge extraction and decision support applied to digital humanities for education. This will involve exploiting learners’ productions in the field of computer programming (scripts). These data are by nature very complex because of their temporality/sequentiality, their potential volume (Big Data) or their polymorphic nature (multiple representations). This thesis will seek to remove several major scientific obstacles to their analysis with a view to their exploitation for the purpose of assisting pedagogical “piloting”.

A first work will necessarily focus on the representations of learners’ productions by the construction or even the automatic extraction of descriptors from different levels of analysis (syntactic, semantic, structural, etc.). In particular, deep-learning techniques may be considered to build a semantic representation space (embedding) on these data. The second step will be to define and exploit learners’ “trajectories” (production sequences) by reconsidering certain well-chosen techniques for analyzing classical or even symbolic data in a particularly multi-represented context and in a user-centered process. Particular attention will be paid to methodologies for clustering analysis, detection of atypical trajectories (outliers), projection for visualization (dimensionality reduction) or characterization of trajectories oriented towards “skills and know-how” (supervised learning).

Profil du candidat :
Skills/Requirements:
• M.Sc. degree in computer science
• Experience in Data Analysis, Data Mining and/or Machine Learning fundamental aspects
• Interests in educational sciences
• Scientific curiosity and large autonomy

Formation et compétences requises :
For further information:

Interested candidates must contact guillaume.cleuziou@unc.nc and frederic.flouvat@unc.nc sending a detailed CV, their Master’s notes and (if possible) one or more letters of recommendation

Deadline for application: 31st May 2019

Adresse d’emploi :
Laboratoire ISEA
Université de La Nouvelle-Calédonie

Document attaché : PhDProposal_AI4Peda.pdf

Categories: theses

Search for New Physics in the ATLAS experiment using semi-supervised or unsupervised Machine Learning techniques

Tickets

May 31 – Jun 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIMOS, UMR 6158 CNRS et LPC, UMR 6533 CNRS
Durée : 36 mois
Contact : vincent.barra@isima.fr
Date limite de publication : 2019-05-31

Contexte :
Joint research work between two CNRS Labs (PIA fundings). of Clermont Auvergne University.

The University Clermont Auvergne is located in Clermont-Ferrand, a medium-sized but dynamic city in the east of the Auvergne-Rhônes-Alpes region, 3h30 drive from CERN. The city is on the edge of the Auvergne Volcanoes Regional Park, recently inscribed on UNESCO’s World Heritage List. Many cultural activities are available, culminating each February with the International Short Film Festival (the world’s largest festival in this field). Clermont-Ferrand is also the heart of the Michelin tire company. The public transport network is efficient, the LPC and LIMOS laboratories in particular benefits from a tram stop in the immediate vicinity. The cost of living in Clermont-Ferrand is low compared to large cities such as Lyon or Paris. Renting an apartment between 20 and 30 m2 in the city centre near the tram costs about 400 euros per month.

The LPC Lab
The ATLAS Clermont team is part of the Physics Laboratory of Clermont (Laboratoire de Physique de Clermont, LPC) which also includes LHCb, ALICE, LSST and theoretical physics teams, as well as reasearch teams in physics applied to health, environment and energy. The LPC is hosted by the University of Clermont Auvergne and is part of the National Institute for Particle and Nuclear Physics (IN2P3), a division of the french national research center (CNRS). Around half of the 160 members of the LPC work in one of the technical departments (IT, mechanics, electronics and microelectronics) or in the administrative department.
The ATLAS Clermont team receives substantial financial support each year from the CNRS/IN2P3, mainly covering travel expenses (to CERN, workshops and conferences) and local IT costs. It provides the team with a pleasant working environment (offices and laptops), including a dedicated local batch cluster with 200 TB of disk storage.
The team is a founding member of the ATLAS collaboration and has always had a significant contribution to the hadronic scintillating tile calorimeter (TileCal), as well as in physics analyses, particularly in connection with the top quark (first thesis on the subject defended in 2002). The ATLAS Clermont team is also active on upgrades for phase 2 of the HL-LHC, for many years now in TileCal and since 2018 in HGTD (High Granularity Timing Detector). For several years, the team has specialized in the research of new physics in final states containing one or more top quarks (ttbar resonances, tbbar resonances) and has in particular initiated in ATLAS in 2011 the search for events containing four top quarks. Since 2013, the team has also contributed significantly to the search for the associated production of a Higgs boson and a pair of top quarks (tth), finally observed in 2018.

The LIMOS Lab
The Laboratory of Computing, Modelling and Optimization of the Systems (LIMOS) is a Mixed Unit of Research (UMR 6158) in computing, and more generally in Sciences and Technologies of information and the Communication (STIC).
The LIMOS is mainly connected with the Institute of the Sciences of the Information and their Interactions (INS2I) of the CNRS, and in a secondary way to the Institute of the Sciences of the Engineering and the Systems (INSIS). The LIMOS has for academic supervision the Clermont Auvergne university and the graduate school of Mines of Saint-Etienne (EMSE), and as partner establishment the Engineer Institute SIGMA. The LIMOS is a member labex IMOBS3 and ClercVolc and federation of search in Environment FR 3467 (which groups 17 laboratories UCA and INRA of the site of Clermont-Ferrand). The LIMOS is an associate member of the federation MODMAD (Mathematical MODELLING and Decision support, FED 4169) carried by University Jean Monnet of Saint-Etienne.
The scientific positioning of the LIMOS is centered around the Computing, the Modelling and the Optimization of the Organizational and alive Systems

Sujet :
One of the major challenges of particle physics is the search for new physical phenomena that are not included in the Standard Model (SM), the theoretical framework describing the elementary particles and their electroweak and strong interactions. Indeed, despite its many experimental successes over the four decades, the Standard Model is considered an incomplete theory, valid over a certain energy range, and part of a more comprehensive theory.
However, as Beyond the Standard Model (BSM) signatures still remain elusive at the Large Hadron Collider (LHC) at CERN, searches for deviations from SM predictions that are not based on a specific theoretical model constitute an exciting alternative strategy. These “generic searches” can benefit greatly from the impressive progresses of the Machine Learning (ML) field in the recent years.
For example ML techniques could be used to “learn” the background properties and distributions in order to be able to search, in data, for the presence of “anomalies” relative to this model. This problem has been the object of many studies in recent years but so far no method has been designed to be really unsupervised.
The goal of the thesis is to develop advanced ML techniques (based on Deep Neural Networks or Autoencoders for instance) to systematically search for the presence of an unknown signal in the data collected by the ATLAS detector at the LHC.
This task will be conducted at the Clermont Ferrand University (France) in the ATLAS team of the Physic Laboratory of Clermont (LPC, Laboratoire de Physique de Clermont) in collaboration with the Computer Science Laboratory (LIMOS, Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes).

Profil du candidat :
Candidates with a background of particle physics and / or with strong programming skills (C++, Python) will be considered seriously for this position. Speaking French is not mandatory and free French courses will be available. Good knowledge of English is necessary. The application of females is encouraged as affirmative-action measures to ensure gender equality in the recruitment process are applied.
The candidate will be ranked on the basis of the following criteria:
• Topic, content, and score of evaluation of the degree thesis.
• Curriculum of studies and research. Publications (if any).
• Recommendation letters. Colloquium.
The selected candidate will be required to move to Clermont-Ferrand or its vicinities at the beginning of the contract and start attending Ph. D courses at the university. This is a mandatory requirement.

How to apply
1) An email with a zip folder attached including:
– A short curriculum-vitae (max 2 pages)
– A letter of motivation
– A scanned copy of a valid identification document (Passport or ID card)
– A copy of education certificates and transcripts of records.
– A copy of the degree thesis and publications (if any)
Subject of the email should be:
FIRST NAME FAMILY NAME APPLICATION.
The total size of emails to the above address cannot exceed 10 megabytes. If the provided material does not fit in 10 megabytes, candidates are allowed to submit it in multiple emails.
2) At least two letters of recommendation must be sent to the addresses below by the deadline, in a separate email directly by the referees of choice of the candidate
Subject of the email should be:
FIRST NAME FAMILY NAME LETTER OF REFERENCE
Applications must be sent on or before May 31, 2019 to the following contact persons:
Prof. Vincent BARRA (LIMOS): vincent.barra@isima.fr, +33 4 73 40 74 92
Prof. Julien DONINI (LPC): julien.donini@uca.fr, +33 4 73 40 73 02
Incomplete applications or applications sent after the above deadline will not be considered.

Formation et compétences requises :
Candidates with a background of particle physics and / or with strong programming skills (C++, Python) will be considered seriously for this position.

Adresse d’emploi :
LIMOS / LPC
Scientific Campus
63173 AUBIERE, FRANCE

Document attaché :

Categories: theses

Jun

Mon

2019

Analyse de motifs et comportements de trajectoires maritimes

Tickets

Jun 10 – Jun 11 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Institut de Recherche de l’École navale (IRENav)
Durée : 3 ans, prolongeable 1 an
Contact : cyril.ray@ecole-navale.fr
Date limite de publication : 2019-06-10

Contexte :
Le développement de larges bases de données de trajectoires maritimes offre de nouvelles possibilités et de champs de recherche pour l’analyse de patrons de déplacements, et ce, à différents niveaux d’échelles spatiales et temporelles. Si les technologies et les capteurs automatisés (AIS, satellitaires, radar, …) permettent en effet de disposer de nombreuses sources offrant la disponibilité de larges volumes de trajectoires des navires en environnement marin, ces données restent cependant essentiellement quantitatives et nécessitent encore à être enrichies du point de vue sémantique et structurel en imaginant notamment de les confronter à des informations beaucoup plus sémantiques et de les contextualiser afin de mieux comprendre les comportements sous-jacents et les différentes types d’activités qui émergent dans ces environnements maritimes.

Un tel objectif impose cependant le développement d’outils de représentation beaucoup plus sémantiques et de véritables solutions opérationnelles de traitement, d’analyse et de visualisation des patrons émergents des données. Une telle démarche devrait permettre une meilleure compréhension qualitative des déplacements réguliers, des cycles de vie et de leurs effets et impact à différentes échelles tant locales que régionales, et au final une meilleure lecture et compréhension des dynamiques et de la structuration du monde maritime perçu comme un réseau global d’interactions de transport maritime.

Sujet :
Le sujet de thèse proposé s’inscrit dans la continuité des travaux développés au sein du groupe de recherche MOTIM (Modélisation et Traitement de l’Information Maritime) et de plusieurs projets de recherche nationaux et européens (e.g. datAcron, CISE DMS) dans le domaine du ‘big data maritime’ récemment mis en œuvre au sein de l’IRENav. Il s’agira plus spécifiquement dans le cadre de cette thèse d’explorer les verrous scientifiques suivants :

– Développer un modèle sémantique de représentation de trajectoires maritimes basé sur des modalités déplacements-activités et inspiré des concepts de ‘patterns of life’ et de la ‘Time Geography’.

– Catégoriser les comportements types à différents niveaux d’abstractions spatiales et temporelles

– Mettre en œuvre une structure logique de représentation et de stockage de larges volumes de données

– Développer des outils de manipulation et de traitement de données orientés événements et patrons

– Explorer et mettre en œuvre des outils de caractérisation des patrons et ‘outlyers’ à partir de mesures de graphes ou d’opérateurs statistiques à différents niveaux d’abstraction et de granularité, et des structures réseaux émergentes à différents niveaux d’abstraction
– Mettre en œuvre des interfaces visuelles de présentation des résultats

L’ensemble des développements conceptuels et théoriques seront expérimentés et mis en œuvre dans le cadre d’un prototypage basé sur des données de trajectoires maritimes disponibles au sein du groupe de recherche.

Profil du candidat :
– Intérêt pour la recherche scientifique et pour l’enseignement
– Disposer de solides bases en modélisation et en programmation
– Intérêt pour les aspects théoriques et expérimentaux liés à l’application visée
– Bonnes capacités relationnelles, dynamisme, bonne capacité rédactionnelle, bon niveau en anglais.

Formation et compétences requises :
Ingénieur ou Master en informatique (ou équivalent)

Adresse d’emploi :
Ecole Navale, Lanvéoc, Bretagne

Document attaché : 2019-DFS-5-AER-INFO_0.pdf

Categories: theses

Jun

Sun

2019

CentraleSupelec PhD Thesis: Robust Clustering for Satellite Images Time-Series

Tickets

Jun 30 – Jun 29 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CentraleSupélec SONDRA Lab
Durée : 3 years
Contact : jean-philippe.ovarlez@onera.fr et Guillaume Ginolhac
Date limite de publication : 2019-06-30

Contexte :
Remote sensing data from Synthetic Aperture Radar (SAR) sensors offers a unique opportunity to record, to analyze, and to predict the evolution of the Earth. In the last decade, numerous satellite remote sensing missions have been launched (Sentinel-1, UAVSAR, TerraSAR X, etc.). This resulted in a dramatic improvement in the Earth image acquisition capability and accessibility. The growing number of observation systems allows now to build high temporal/spatial-resolution Earth surface images data- sets. This new scenario significantly raises the interest in time-series processing to monitor changes occurring over large areas. On the other hand, developing new algorithms to process such a huge volume of data represents a current challenge. Notably, the modern trend of deep-learning approaches shows its limits since most of this data is not annotated and corrupted by a problematic speckle noise (inherent to SAR images). Thus, statistical learning methods, that are able to leverage physical prior knowledge, appear suited to the task and lead to good performance in practice.
The derivation of novel statistical data processing techniques within this framework is of huge interest to the scientific community for applications such as deforestation assessment, urbanization monitoring, or land activity surveillance. A steering issue concerns the clustering (i.e., automatically sort) of spatial zones in the SAR images, which drives many current research works. However, exploiting the full spatio- temporal diversity of times-series is still an opened question we aim to address in this Ph.D. thesis.

Sujet :
The objective of this thesis is to develop and study new clustering methods for satellite image time- series (ITS). The proposed approach hinges on the robust estimation framework and differential geometry for the design of relevant distance between stacks of images. Indeed, robust statistical processing appears well suited to SAR ITS. Notably, we have shown its use for change detection in [1]. Additionally, distances built from a differential geometry perspective achieve outstanding performance for clustering purposes [2], but this approach has not been brought to the robust framework yet.

a. Design metrics to cluster

Clustering techniques are usually based on a choice of metrics/distance between objects of interest [3], that has a decisive impact on the clustering accuracy. In the framework of robust statistics [4], our aim
is to use the information theory perspective to build meaningful distances on feature manifolds (such as local covariance matrices and textures). Notably, we aim to extend our work [5] for structured covariance manifolds (e.g. low-rank and/or Kronecker structured), as these parameters can efficiently reflect the underlying physics of SAR data. From a computational point of view, an interesting prospect will also be to consider the use of metric learning techniques [6] for manifolds that are too complex to handle theoretically.

b. Clustering in image time-series

Using the aforementioned metrics/distances this part aims to develop new clustering algorithms. Two approaches will be considered, depending on which dimension is to be clustered in the image stack:

– Temporal clustering with respect to space: cluster the pixels according to the patterns of evolution (impulsive, periodic or slow changes). In this case, the focus is not on the different objects present in the scene, but rather in their temporal behavior. The output of this process can be used for Change Detection (CD) purposes [1].

– Spatial clustering with respect to time: cluster the objects present in the scene using spatial and temporal data. In this case, the objective is twofold: distinguishing zones corresponding to different objects while taking into account their temporal evolution [7]. Such approach will be possible by appropriately integrating the structure of the image stack in the distances.

The methodologies developed will be assessed on real image time-series obtained from Sentinel-1, UAVSAR and TerraSAR-X missions [8][9].

Keywords : machine learning, statistics, geoscience, earth observation

References
[1] A. Mian, G. Ginolhac, J. Ovarlez et A. Atto, «New robust statistics for change detection in time series of multivariate SAR images,» IEEE Transactions on Signal Processing, 2018.
[2] S Said, H Hajri, L Bombrun, BC Vemuri, “Gaussian distributions on Riemannian symmetric spaces: statistical learning with structured covariance matrices”, IEEE Transactions on Information Theory 64 (2), 752-772
[3] A. Singh, A. Yadav et A. Rana, «K-means with Three different Distance Metrics,» International Journal of Computer Applications, vol. 67, n° %110, 2013.
[4] E. Ollila, D. Tyler, V. Koivunen, and H. Poor, Complex Elliptically Symmetric Distributions: Survey, New Results and Applications, IEEE Transactions on Signal Processing, vol.60, issue.11, pp.5597-5625, 2012.
[5] A. Breloy, G. Ginolhac, A. Renaux, F. Bouchard, “Intrinsic Cramer-Rao Bounds for Scatter and Shape Matrices Estimation in CES Distributions”, IEEE Sig. Proc. Letters, vol. 26(2), pp 262-266, 2019.
[6] M. Harandi, M. Salzmann, R. Hartley, “Joint Dimensionality Reduction and Metric Learning: A Geometric Take”, Proceedings of the 34th International Conference on Machine Learning, PMLR 70:1404-1413, 2017.
[7] Alice Le Brigant, “Computing distances and geodesics between manifold-valued curves in the SRV framework”, arXiv:1601.02358v4
[8] UAVSAR https://uavsar.jpl.nasa.gov/
[9] SDMS https://www.sdms.afrl.af.mil/index.php?collection=ccd_challenge

Profil du candidat :
The candidate must own a master/engineering degree with knowledge in statistics and machine learning (having followed courses and/or an internship on these topics is strongly advised). Good coding skills in either Python or Matlab will also be required.

Formation et compétences requises :
The candidate must own a master/engineering degree with knowledge in statistics and machine learning (having followed courses and/or an internship on these topics is strongly advised). Good coding skills in either Python or Matlab will also be required.

Adresse d’emploi :
CentraleSupélec SONDRA Lab

Director: Jean-Philippe OVARLEZ, SONDRA and ONERA
Co-director: Guillaume GINOLHAC, University of Savoie Mont- Blanc
Co-supervisor: Chengfang REN, SONDRA, CentraleSupélec
Co-supervisor: Arnaud BRELOY, University of Paris X

Document attaché : SONDRAThesis_RobustClusteringSITS.pdf

Categories: theses

Génération respectueuse de la vie privée de logs synthétiques pour les outils de cyber-sécurité

Tickets

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Orange Labs
Durée : 3 ans
Contact : baptiste.olivier@orange.com
Date limite de publication : 2019-06-30

Contexte :
Votre rôle est d’effectuer un travail de thèse sur la génération de logs synthétiques pour les outils de cyber-sécurité à partir de logs réels par des réseaux de neurones artificiels de type GAN, et sur l’analyse en termes de protection des données personnelles de l’utilisation des modèles de type GAN.

Orange a en effet choisi la cyber-sécurité comme un de ses axes majeurs de développement. En ce sens, de nombreux outils de détection et de management des menaces cyber sont audités, testés, et utilisés dans des contextes opérationnels. Aujourd’hui, le fonctionnement de la plupart de ces outils, tels que des SIEMs, repose sur l’analyse et la corrélation de gros volumes de logs (logs de firewall, logs de proxy). Néanmoins, les logs analysés comportent généralement beaucoup d’informations personnelles et sensibles, qui ne peuvent pas être divulguées, ce qui complique leur analyse par des experts sécurité et data-scientists. Les bonnes pratiques en termes de protection des données personnelles imposent d’utiliser des logs synthétiques plutôt que des logs réels dans certaines situations.

Au sein des Orange Labs, la thèse sera intégré au département Sécurité. Ces équipes sont en charge de maintenir un haut niveau d’expertise en sécurité pour le Groupe Orange, notamment autour des infrastructures et des services. Ces équipes traitent tout particulièrement le cas de la sécurité du cloud computing, la détection/protection contre les intrusions, l’authentification forte, la cryptographie, la cyber-sécurité et la protection des données personnelles (anonymisation, traçabilité, …). Elles sont basées sur les sites d’Orange Labs à Caen, à Cesson-Sévigné, et à Châtillon.

Qu’est ce qui fait la valeur ajoutée de cette offre ?

Notre partenariat avec OCD permet d’une part de pouvoir apprendre les GAN sur des données réelles (donc réalistes), et d’utiliser les logs synthétiques résultants avec des outils standards de cyber-défense tels que des SIEMs, des IDS. Les différentes collaborations d’Orange avec des partenaires académiques réputés pour leurs travaux en privacy (UQAM, UC3M, Imperial College of London) offrent un avantage certain pour développer l’étude de l’anonymat des solutions proposées.

Sujet :
D’un côté, le développement rapide des réseaux de neurones artificiels a mis en avant une famille de réseaux, appelés Generative Adversarial Networks (GAN), offrant des méthodes très flexibles pour générer des données synthétiques. D’un autre côté, il convient de s’assurer qu’à la fois le processus d’apprentissage, et les logs résultants de l’apprentissage du GAN, satisfont des garanties prouvées de protection des données personnelles, comme par exemple des garanties de confidentialité différentielle.

La partie génération de logs synthétiques pourra s’appuyer sur les travaux [4]-[5], dont l’objectif est de produire des logs réseaux synthétiques avec à la fois du trafic sain et du trafic d’attaque. Une comparaison entre ces méthodes de l’état de l’art et des modèles génératifs de type GAN sera nécessaire.

La partie d’évaluation du niveau d’anonymat de la génération de logs avec des GANs s’appuiera sur des travaux récents suivants, qui étudient le potentiel des réseaux de neurones artificiels en termes de confidentialité différentielle [1] [3], et certaines de leurs limites pour ces modèles de privacy [2]. Une comparaison pourra être aussi menée avec des travaux sur la génération de logs synthétiques respectueux de la vie privée réalisés par ailleurs à Orange Labs [6], en utilisant des techniques de co-clustering.

Objectif scientifique – verrous à lever

Les principales contributions vers la communauté scientifique attendues sont les suivantes :

Nouvelles méthodes de génération de logs synthétiques pour la cyber-sécurité, à l’aide de GAN
Etude approfondie de ce genre de méthodes de données d’apprentissage en termes de protection des données personnelles. Quelles sont les garanties théoriques raisonnables (niveau de confidentialité différentielle par exemple) étant donné une situation d’apprentissage donnée (par exemple, apprentissage collaboratif sur plusieurs SI de clients) ?
Orange Cyber-Défense pourra exploiter un générateur de logs réseaux adapté à leurs besoins (données réalistes et confidentielles).

Approche méthodologique-planning

La méthodologie adoptée sera la suivante :

Etat de l’art sur les différentes méthodes de génération de logs réseaux synthétiques
Etat de l’art sur la privacy des modèles de type GAN
Modélisations de générateurs de logs avec des GAN (sans garantie de privacy au début) pour la détection d’attaques dans un réseau d’entreprise
Expérimentations des générateurs sur des outils de cyber-défense
Modélisations de générateurs de logs avec des GAN avec des garanties prouvées de confidentialité différentielle (ou autre garantie si plus raisonable)
Expérimentations des générateurs préservant la privacy sur des outils de cyber-défense
Ecriture d’articles scientifiques sur la privacy dans l’utilisation des GAN en cyber-sécurité.

[1] Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., & Zhang, L. (2016, October). Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (pp. 308-318). ACM.

[2] Hitaj, B., Ateniese, G., & Perez-Cruz, F. (2017, October). Deep models under the GAN: information leakage from collaborative deep learning. In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (pp. 603-618). ACM.

[3] Dwork, C., & Roth, A. (2014). The algorithmic foundations of differential privacy. Foundations and Trends® in Theoretical Computer Science, 9(3-4), 211-407.

[4] Sharafaldin, I., Lashkari, A. H., & Ghorbani, A. A. (2018, January). Toward Generating a New Intrusion Detection Dataset and Intrusion Traffic Characterization. In ICISSP (pp. 108-116).

[5] Shiravi, A., Shiravi, H., Tavallaee, M., & Ghorbani, A. A. (2012). Toward developing a systematic approach to generate benchmark datasets for intrusion detection. computers & security, 31(3), 357-374

[6] Benkhelif, T., Fessant, F., Clérot, F., & Raschia, G. (2017, September). Co-clustering for differentially private synthetic data generation. In International Workshop on Personal Analytics and Privacy (pp. 36-47). Springer, Cham.

Profil du candidat :
Master 2 et disposez des compétences scientifiques et techniques ainsi que des qualités personnelles nécessaires à la poursuite en thèse.

Formation et compétences requises :
Compétences en mathématiques

Des notions sur les éléments théoriques liés aux réseaux de neurones artificiels
Programmation avec des langages standards : Python, Java, Scala
Programmation orientée analyse de données avec utilisation de langages ou librairies adaptées : Scikit-learn, ou R ou tensor-flow.
Vous disposez des expériences suivantes :

stage en anonymisation et/ou data science
premières expériences projets en data-science (data-mining, machine-learning)
première expérience projet avec des réseaux de neurones artificiels.

Adresse d’emploi :
4 rue du clos Courtel 35510 CESSON SEVIGNE – France
Leaflet

Document attaché :

Categories: theses

March – June 2019 Mar – Jun 2019

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :