
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : Inria Rennes/ PEReN
Durée : 3 years
Contact : gtredan@laas.fr
Date limite de publication : 2022-12-31
Contexte :
AI-based decision-making systems are now pervasive, serving populations in most parts of their online interactions (i.e., curation such as recommendation [3], pricing [1] or search algorithms [5]). These systems have demonstrated high level performances lately [10], so it comes with no surprise that having AI-based models to face users is now a common ground for the tech industry (called the platforms hereafter).
Yet, the massive use of AI-based model raises concerns, for instance regarding their potentially unfair and/or discriminatory decisions. It is then of a societal interest to develop methods to audit the behavior of an online model, to verify its lack of bias [12], proper use of user data [11], or compliance to laws [7]. The growing list of known audit methods is slowly consolidating into the emerging field of algorithmic audit of AI-based decision making algorithms, and multiple directions are yet to be explored for expanding that nascent field.
*Contact*
Lucas Verney, PEReN, lucas.verney@finances.gouv.fr
Erwan Le Merrer, Inria, erwan.le-merrer@inria.fr
Gilles Tredan, LAAS-CNRS, gtredan@laas.fr
Sujet :
*The notion of mutation and the distance to a landmark model*
While audits are by essence punctual, the audited models often continuously evolve, for instance because of reinforcement learning, retraining on new user inputs, or simply because of code updates pushed by the platform operators. An unexplored direction of interest, that might be crucial for instance to regulators, is to provide means to observe the mutation of an online model. Assume a platform model under scrutiny, and an auditor that has only access to that model solely by means of queries/responses. This is coined as a black-box access to a model in the literature. Through these basic actions, an open research question is the proper definition of what is a stable model,i.e., a model that is consistent in time with regards to its decisions, (and consequently does not mutate). While there has been a couple of approaches to define techniques of tampering-detection of a model [6, 4], this definition is bound to classifiers and to the sole capability of checking if the model is the same or if it is different.
*Objectives*
A more refined way would be to provide a quantification for mutation, that is a notion of a distance between two instances, one being a model, possibly owned locally by an auditor, the other being a variant of the model that has already mutated. How to define and design a practical and robust distance measure is the topic of this Ph.D thesis. This opens up multiple questions:
•How should such a setup be modeled (statistical modeling, use of information theory, similarities from the datamining field, etc), so that we are able to provide a well defined measure for that problem. Moreover, while standard approaches exist to evaluate the divergence between two models, those need to be adapted to the context. In particular, we seek practical approaches that estimate divergence using few requests.
An example of a modeling can rely on graphs. One can indeed structure the data collected from the observed model under relations forming a graph (see e.g., [8] in the context of the YouTube recommender), and compare that graph to the structure of a desirable graph with respect to the properties that are awaited from the platform.
•Such AI models are nowadays used in a large variety of tasks (such as classification, recommendation or search). How does the nature of the tasks influences the deviation estimation/detection ?
•Considering that the auditor tracks deviation tracking, with regards to a reference point, is it possible to identify the directionin the mutation? That is particularly interesting in order to assess if a model evolves towards compliance with law requirements.
•Taking the opposite (platform) side: are there ways to make this distance measurements impossible, or at least noisy, so that it is impossible for the auditor to issue valuable observations? (we will relate this to impossibility proofs). In other words, can we model adversarial platform behaviours that translateinto increased auditing difficulty ?
Profil du candidat :
*Work Plan*
•A state of the art will review past approaches to observe algorithms in a black-box. This relates to the fields of security (reverse engineering), machine learning (with e.g., adversarial examples), and computability [9].
•We plan to approach the problem by leveraging a large AI model made public (e.g.,https://pytorch.org/torchrec/), and mutate it by fine-tuning for instance, so that we can get intuition about the problem, and to allow testing the first distances we have identifed.
•Provide a first consistent benchmark from these various distances. In particular, an important aspectwill be their precision depending on the query budget necessary to obtain them (precision/cost tradeoffin the requests to the black-box)
•Once the optimum distance for our problem has been found, the followup work will be devoted to prevent its construction by designing countermeasures on the platform side. In short, design an adversary capable to create important noise in the measurement by the auditor. This can relate for instance to the notion of randomized smoothing in the domain of classifiers [2].
•This cat-and-mouse game between the auditor and the platform will structure and help create the impossibility proofs we are seeking to propose, in order to provide algorithmic landmarks for scientists and regulators.
*Ph.D. Thesis Supervision and Location*
The Ph.D. student will be welcomed in teams that are activelyworking on the topic of algorithmic auditing of AI models (both from the practical and theoretical sides),in Paris and/or in Rennes. The supervisory team will be the WIDE team in Inria Rennes. In particular, the Ph.D. student will have the opportunity to be welcomed for extended periods at PEReN (https://www.peren.gouv.fr/en/), a French government service developing and implementing algorithmic audit methods, conjointly with Inria, in order to enable benchmarking digital platforms compliance to legislations.
Formation et compétences requises :
*Desired skills for the Ph.D. candidate*
•Advanced skills in machine learning (classification, regression, adversarial examples)
•A strong formal and theoretical background. Interest in the design of algorithms is a plus.
•Good scripting skills (e.g., Python) and/or familiar with statistical analysis tools (e.g., R)
Adresse d’emploi :
Inria Rennes
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube – T&S
Durée : 3 ans
Contact : lafabregue@unistra.fr
Date limite de publication : 2022-12-31
Contexte :
Industry 4.0 is the novel industrial revolution, where objects are connected to a global network infrastructure. Fieldbus (e.g., CAN, modbus, TSN) interconnect the different devices to controllers. These objects are constrained in memory and computational capacity and may endanger the network infrastructure if they are corrupted. They may even jeopardize the safety of industrial applications.
Thus, cybersecurity for the Industrial Internet of Things is a major concern, while most of the technologies in this area have not been designed with this problem in mind. For instance, CAN communications are neither ciphered, nor authenticated.
We need to deploy Intrusion Detection Systems able to detect anomalies, i.e., when the infrastructure doesn’t behave as expected. It may come from e.g., a human misconfiguration, an attack.
Sujet :
Penetration testing already exploits Machine Learning techniques to detect and identify attacks. Indeed, signature-based solutions are not sufficient since they may disguise themselves into a legal traffic flow but inserting noise.
We want to go there further, to identify anomalies that may be e.g., attacks, misconfigurations, faults. Industrial networks are known to be predictable and we must identify outliers. Some work exists that consider the spatial and temporal correlations but they are application specific, i.e., they need to manipulate directly data chunks. Approaches exist that exploit a RNN to identify anomalies but we are convinced that industrial networks are predictable, and techniques that exploit this predictability should be more accurate. The network controller that has a complete knowledge of the network topology may efficiently detect intrusions.
The objective of this PhD thesis is to first propose techniques to identify automatically patterns when exploiting the list of packets transmitted in the network infrastructure. Indeed, a networked control application relies on a control loop (sensor to controller to actuator) to control the Cyber Physical System (CPS). It is important to characterize each of these control loops (period, source / destination, correlations, etc.). The PhD student will both exploit existing datasets as well as the networked control system testbed deployed at Technology & Strategy.
Then, we will derive Network Intrusion Detection Systems (IDS) to identify anomalies for each of these control loops, extending what has been done for home networks, or generic IP networks. We need to propose techniques to define what corresponds to a normal state, and what corresponds to an outlier / anomaly. The proposition must be sufficiently robust to detect sophisticated attacks such as the Schedule-Based Attacks.
Profil du candidat :
Master in computer science or similar fields, with an affinity for Machine Learning.
Formation et compétences requises :
Applicants should have solid skills in:
• Excellent knowledge of Machine Learning techniques (not only as a user);
• Excellent data science language skills (R, or Python);
• Background knowledge to implement measurements in a real production line;
• Excellent communication and writing skills. Note that knowledge of French is not required for this position.
Knowledge of the following technologies is not mandatory but will be considered as a plus:
• Knowledges in industrial networking protocols and stacks;
• Knowledges of embedded software
Adresse d’emploi :
The PhD student will be co-hosted by Technology & Strategy and the University of Strasbourg, both located in Strasbourg, France.
Technology & Strategy was created in 2008 in Strasbourg. Specialized in Engineering, IT, Digital and Project Management, Technology & Strategy is a reference partner for its customers in the development of innovative projects. Technology & Strategy also has an integrated engineering service to meet the requirements of its customers who are primarily R&D departments of industrial companies.
With a strong international focus and a Franco-German DNA, Technology & Strategy is proud of its 1,800 employees and is present with more than 40 nationalities in 16 offices in 6 countries (France, Germany, Switzerland, Belgium, UK, South East Asia). Technology & Strategy is proud to keep its headquarters in the East of France, near Strasbourg.
Founded in the 16th century, the University of Strasbourg has a long history of excellence in higher education, rooted in Renaissance humanism. The University of Strasbourg is a public research university located in Strasbourg, with over 52,000 students. You will integrate the ICube laboratory attached to the University.
Applications should be submitted by email to tands-cifre@icube.unistra.fr.
They must include:
• A Curriculum Vitae;
• List of 2 or 3 references to contact (position, email address);
• Transcripts of undergraduate and graduate studies;
• Link to MSc thesis, and publications if applicable;
• Link to personal software repositories (e.g. GitHub)
Please prefix the filenames of your application with your lastname.
Document attaché : 202207070957_Fichier_TS-cybersec-iiot.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : Ecole Navale
Durée : 48 mois
Contact : cyril.ray@ecole-navale.fr
Date limite de publication : 2022-12-31
Contexte :
La thèse s’effectuera au sein de l’équipe de recherche MoTIM de l’ecole navale dans l’objectif de contribuer au domaine du Traitement de l’Information Maritime issue de sources hétérogènes (données capteurs, signaux, images, vidéos, informations géographiques, données textuelles) à l’aide d’algorithme d’intelligence artificielle.
La personne recrutée assure une charge d ’enseignement
annuelle maximale de 96 heures sous forme de travaux pratiques (TP), travaux dirigés (TD) ou encadrement de projets. Ces interventions s’effectuent dans le cadre de la formation d’ingénieur des élèves-officiers de l’Ecole Navale (niveau L3, M1 et M2). Elles peuvent aussi concerner les masters soutenus par l’Ecole Navale (niveau M1 et M2).
Sujet :
La génération de données et de jeux données pseudo-synthétiques est utilisée pour un large éventail d’activités, notamment comme données de test pour de nouveaux outils ou algorithmes, pour la validation de modèles et dans la formation de modèles d’IA [1]. Plus récemment la génération de données synthétiques créées artificiellement plutôt que générées par des événements réels a pris un essor avec l’apparition de modèles génératifs. Les données synthétiques constituent un type d’augmentation de données pour lequel les « Generative Adversarial Nets (GAN) » [2] ont montré des performances prometteuses sur divers types de données. Dans le domaine maritime, le suivi et l’analyse des mobilités a été accéléré avec l’apparition du Système Automatiquement d’Identification (AIS) qui permet la localisation des navires équipés en temps-réel et à travers tous les océans. Les données produites sont des séries spatio-temporelles impactées par
des données manquantes, des problèmes d’intégrité issues des capteurs et/ou de la transmission, et des malv ers ations de
natures diverses telles que la falsification de localisation, de trajectoire ou encore d’identité [3]. Dans ce contexte,
l’objectif de cette thèse est d’aborder la génération de données synthétiques et l’annotation sémantique d e c e tte d o nné e.
Les travaux de thèse pourront s’articuler notamment au travers des objectifs suivants :
− Développer un modèle génératif pour les données de mobilités maritimes permettant de produire des jeux de données
− Évaluer la prise en compte de données hétérogènes complémentaires ; eg. État de la mer.
− Aborder la scénarisation / annotation des jeux de données et évaluer l’utilité et l’impact de techniques « classiques »
d’imputation de données pour aborder la variabilité de scénarios conçus.
− Considérer le problème de classification et de détection de nouveauté en simultanée, notamment pour la prise en
compte de données falsifiées.
− Évaluer les performances / généricité de la démarche en fonction de la localisation géographique des données
produites.
Ressources : La recherche sera essentiellement basée sur les données issues par le système AIS qui fournit la localisation
des navires sur le globe (~ 4 TO / an) ainsi que des informations nominatives [4]. La plateforme TIM (Traitement de
l’Information Maritime) dispose de stations de travail (24 à 112 threads, 64 à 578 Go RAM), un serveur GPU 8*Nvidia
A100, un serveur GPU 8* Nvidia V100.
[1] C. Iphar, A.-L. Jousselme, C. Ray, Pseudo-synthetic datasets in support to maritime surveillance algorithms
assessment, 12 pages, In proceedings of VERITA, 19ème Journées Francophones Extraction et Gestion des
Connaissances (EGC) 2019, RNTI, Marie-Christine Rousset, Lydia Boudjeloud-Assala (eds.), 22 Jan 2019, Metz, France
[2] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio.
Generative adversarial nets. Advances in neural information processing systems, 27, 2014
[3] C. Iphar, B. Costé, A. Napoli, C. Ray, R. Devillers, Integrity and Trust of Geographic Information, Chapter 4, pages
45-72, Geographic Data Imperfection 1: From Theory to Applications, Mireille Batton-Hubert, Eric Desjardin and
François Pinet (eds.), ISTE éditions, August 2019
[4] C. Ray, R. Dréo, E. Camossi, A.-L. Jousselme, C. Iphar, Heterogeneous Integrated Dataset for Maritime Intelligence,
Surveillance, and Reconnaissance, Data in Brief, Elsevier, 17 pages, Volume 25, August 2019
Profil du candidat :
Master (ou équivalent) en informatique.
Formation et compétences requises :
bonne connaissance des outils et des modèles de base de l’Intelligence Artificielle (apprentissage automatique / profond, etc.) et des techniques de représentation et de traitement de données (géographiques) hétérogènes (corrélation de données, analyse de séries temporelles, imputation de données, etc.)
Intérêt pour l’enseignement.
Adresse d’emploi :
Ecole Navale
Lanveoc
France
Document attaché : 202211090956_FDP_2022_DFS_DDR_AER_IA.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : PETRUS team – INRIA/UVSQ
Durée : 3 ans
Contact : luc.bouganim@inria.fr
Date limite de publication : 2022-12-31
Contexte :
The PETRUS team (Inria/UVSQ), in association with the Hippocad company (a subsidiary of La Poste group) and the Yvelines District, is currently deploying secure home boxes for 10,000 patients. These boxes, based on the team’s research results (DBMS embedded in secure hardware), include a personal medical-social database to improve care coordination for dependent people at home. Medical and social workers interact with these secure boxes via a smartphone application. Our objective is to enhance these boxes with the ability to communicate with IoT sensors measuring e.g., luminosity, movement, and temperature to improve patient monitoring. The sensors’ raw data will be analyzed by Machine Learning (ML) techniques to identify the patient’s activities and thus, detect risk situations like depression or illness. These raw data are however very intrusive. The originality of our approach is to process these raw data inside each box, within the hardware security element, in order to externalize only the relevant information: alerts, aggregated values, and patient dashboards.
Sujet :
Data Mining (e.g., [2]) and ML models (e.g., [4]) have already been proposed in the Daily Activity Recognition and Discovery field. The accuracy of these models highly depends on the presence and on the quality of a labeled training dataset. In our context (see above), obtaining a reliable labeled dataset from elderly people is definitely unrealistic. However, datasets labeled by healthy individuals dedicated to daily activity discovery (e.g., [1]) already exist and could be used as a baseline. Our expectation is to use online/semi-supervised learning approaches [3, 4] to derive an elderly daily activity model from a healthy daily activity model and dynamically adapt its behavior to each patient. The challenge is then twofold: (1) define the best strategy to build such a customizable elderly daily activity model and (2) make its execution compatible with the highly constrained RAM and computing resources of a secure microcontroller (i.e., a secure box).
Methodology and expected results
– State of the art of relevant ML strategies, supervised learning, semi-supervised learning, analysis of a real dataset and of a synthetic dataset. Evaluation of preliminary strategies to discover daily activities
– Capitalize on previous results to answer the scientific challenge described above. Besides these scientific challenges, an experimental work is expected and should lead to a real Proof of Concept that can be demonstrated in the medical/social field.
Benefits package
– Subsidized meals, Partial reimbursement of public transport costs
– Leave: 7 weeks of annual leave + 10 extra days off due to RTT (statutory reduction in working hours) + possibility of exceptional leave (sick children, moving home, etc.)
– Possibility of teleworking and flexible organization of working hours
– Social, cultural and sports events and activities
– Access to vocational training
Remuneration
– 1st and 2nd year monthly gross salary : 2.051 euros
– 3rd year monthly gross salary : 2.158 euros
References.
[1] Alemdar, Hande & Ertan, Halil & Incel, Ozlem & Ersoy, Cem. (2013). ARAS Human Activity Datasets in Multiple Homes with Multiple Residents. 232-235. pdf: https://tinyurl.com/DADref1
[2] Jérémie Saives, Clément Pianon, Gregory Faraut. Activity Discovery and Detection of Behavioural Deviations of an Inhabitant from Binary Sensors. IEEE Transactions on Automation Science and Engineering, Institute of Electrical and Electronics Engineers, 2015, 12 (4), pp.1211 – 1224. pdf: https://tinyurl.com/DADref2
[3] van Engelen, J.E., Hoos, H.H. A survey on semi-supervised learning. Mach Learn 109, 373–440 (2020). pdf: https://tinyurl.com/DADref3
[4] Diane Cook and Narayanan Krishnan. Activity learning: Discovering, recognizing, and predicting human behavior from sensor data. Wiley publishing. Feb. 2015
Profil du candidat :
Master2 (Bac + 5)
Formation et compétences requises :
– ML algorithm knowledge
– DBMS algorithm knowledge
– Basic knowledge in data security, secure hardware, embedded programming is a plus (but not mandatory)
– Programming language: Python, C or Rust will be appreciated
Adresse d’emploi :
PETRUS team
INRIA/UVSQ
45 avenue des Etats Unis
78035 Versailles
Document attaché : 202210050930_PhD_IOT_ML.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Equipe SyCoSMA (Laboratoire LIRIS) / entreprise Re
Durée : 3 ans
Contact : frederic.armetta@univ-lyon1.fr
Date limite de publication : 2023-01-01
Contexte :
La recherche appliquée aux agents conversationnels s’est beaucoup développée ces dernières années depuis l’avènement des méthodes à base de réseaux de neurones et des méthodes
attentionnelles, avec de nombreuses applications (suivi de commandes, gestion de réservations, administration des ventes, etc.). La société Reecall est spécialisée dans l’automatisation de ces traitements, depuis l’identification de la requête de l’utilisateur (Natural Language Understanding), au recueil d’informations utiles pour la tâche identifiée
(Dialogue Manager), à la restitution en langage naturel pour l’utilisateur (Natural Language Generation). L’équipe SyCoSMA (Systèmes Cognitifs et Systèmes Multi-Agents) du laboratoire LIRIS est spécialisée dans la modélisation de systèmes intelligents dans différents domaines2
qui nécessitent des représentations sémantiques adaptées (robotique, apprentissage, réseaux de neurones, systèmes multi-agents, etc.).
Sujet :
Sujet détaillé : https://perso.liris.cnrs.fr/frederic.armetta/sujetTheseNLP-2022.pdf
Dans le cadre de ce travail de thèse, on souhaite améliorer la fiabilité des agents conversationnels en proposant différents modèles innovants. Parmi les différentes perspectives, une attention particulière est portée sur la qualité et la quantité des informations disponibles pour l’apprentissage, et les façons d’optimiser leur utilisation. Différentes méthodes sont en cours d’étude (few shot learning, active learning, mixture of expert agents, Goal-oriented dialog systems, etc.), avec de nombreuses possibilités de propositions et initiatives sur l’ensemble de la chaine de traitements pour le candidat. L’environnement d’exploitation peut permettre l’apport de données complémentaires à travers les intéractions
avec les utilisateurs du système. Ce projet intervient dans la continuité de la collaboration entre l’équipe SyCoSMA du LIRIS et la société Reecall. Une première étude a été menée au sein de la collaboration concernant l’efficacité des différentes architectures NLU pour
détecter différents types de requêtes utilisateur (Out Of Scope, Near Out Of Scope, etc.). La thèse est financée dans le cadre d’un format CIFRE (financement ANRT préaccepté).
Profil du candidat :
– autonomie concernant le développement de modèles d’apprentissage (pytorch, etc.)
– capacités d’analyse, curiosité scientifique
Formation et compétences requises :
– une connaissance des différentes méthodes du machine learning et de l’IA (master spécialisé,
écoles d’ingénieurs)
– une première expérience dans le développement de réseaux de neurones profonds
Adresse d’emploi :
Laboratoire LIRIS, Bâtiment Nautibus
Campus de la Doua 25 avenue Pierre de Coubertin 69622 Villeurbanne Cedex / Entreprise Reecall à Lyon
Document attaché : 202209121433_sujetTheseNLP-2022.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire de recherche de l’EPITA (LRE)
Durée : 36 mois
Contact : mark.angoustures@epita.fr
Date limite de publication : 2023-02-01
Contexte :
Les menaces persistantes avancées sont difficiles à détecter en raison de leurs schémas d’attaque en plusieurs étapes s’accompagnant de phases lentes et rapides.
Ces types d’attaques impliquent généralement des moyens de persistances d’accès et des mouvements latéraux vers d’autres environnements.
Détecter une campagne d’APT revient à identifier des patterns d’attaques dans des données de natures très hétérogènes, sur différentes échelles temporelles.
Diverses techniques ont été récemment mises au point pour représenter ces patterns, notamment la représentation des interconnexions entre les noeuds du système d’information sous forme de graphes.
Différentes métriques et centralités de graphes sont sujettes à une corrélation des différentes phases des APT.
Sujet :
L’objectif de la thèse est de proposer une méthode de détection des menaces persistances avancées basées sur des réseaux complexes statiques et dynamiques. La thèse mesurera l’impact et la corrélation entre différentes métriques de réseaux complexes (centralités, dynamique temporelle, etc.) et les phases d’attaques des APT. Le deuxième objectif de la thèse sera d’établir une méthode pour prédire une phase d’attaque par des calcul de métriques et de centralités. La piste des Graph Neural Networks (GNN) pour apprendre et prédire ces métriques et centralités dans les réseaux complexes sera étudiée.
* Axe 1 :
La première approche de la thèse consistera à évaluer les méthodes de détection d’APT. Cette première étape permettra d’identifier les problématiques liées à ces méthodes.
Ensuite la thèse visera à construire une représentation des données sous forme de graphes statiques et dynamiques. Cette représentation devra prendre en compte les propriétés liées aux phases d’APT. L’état de l’art de la thèse incorpora des différentes représentations existantes en graphes liées à la sécurité.
* Axe 2 :
La thèse abordera la mesure entre différentes centralités dynamique et statiques (closeness, betweenness, eigenvector…) sur les réseaux complexes des données contenant les attaques.
Au début, Il s’agira de se concentrer sur une ou deux métriques et attaques pour pouvoir produire une publication et du code associé dans la première année de thèse.
* Axe 3 :
Enfin, la thèse visera à proposer une méthode pour approximer ces centralités pertinentes selon les différentes attaques. Au vu de la forte volumétrie et haute intensité des données, les modèles basées sur les réseaux de neurones sur les graphes peuvent être une piste à envisager pour approximer les différentes valeurs de centralités. Cette approche sera comparée à d’autres pistes d’approximation algorithmique de métriques de graphes. L’objectif est d’optimiser la qualité de la détection et le compromis temps vs précision.
Profil du candidat :
Le candidat a une formation initiale (ingénieur ou master universitaire) en informatique avec une spécialisation dans le domaine de la cybersécurité.
Idéalement, le candidat à des connaissances en l’apprentissage automatique et idéalement de bonnes notions de graphes.
La maîtrise d’un langage de programmation est indispensable.
Formation et compétences requises :
cf ‘Profil du candidat’
Adresse d’emploi :
14-16 Rue Voltaire, 94270 Le Kremlin-Bicêtre
Document attaché : 202211281059_Detection_dattaque_par_graphe.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LAMSADE/Cr2D – Université Paris-Dauphine
Durée : 3 ans
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2023-02-15
Contexte :
Doctorat en Informatique avec cas d’usage en Droit.
Il y aura une encadrante en Droit et une encadrante en Informatique.
Financement assujetti au dépôt d’un dossier Sujet+Candidat.
Sujet :
L’objet de ce projet de recherche doctorale serait d’imaginer un système décisionnel (aide à la décision) en s’appuyant sur l’analyse de la manière dont un texte juridique a été adopté puis interprété. Le point de départ serait donc d’accéder, de traiter et d’analyser/interpréter une grande masse de données juridiques comportant l’ensemble des travaux préparatoires à l’élaboration d’un texte juridique.
Un système décisionnel tout comme le droit repose sur différentes étapes pouvant aider les parties prenantes à trouver, entre autres, de l’information pertinente pour améliorer leur prise de décision. Il s’agit donc d’une aide automatisée à la prise de décision qui, elle, reste à la charge de la partie prenante.
Un tel projet part du paradigme qu’un système décisionnel, tout comme l’analyse juridique, suppose d’extraire d’une masse de données, des informations, et de créer de la connaissance. Il s’agira donc de voir dans quelle mesure un système décisionnel pourrait venir en support des analyses de droit.
Profil du candidat :
Candidat.e possédant un M2 en informatique à dominante décisionnel (et éventuellement text mining), avec un attrait fort pour le Droit.
Formation et compétences requises :
M2 en informatique à dominante décisionnel (et éventuellement text mining).
Adresse d’emploi :
Université Paris-Dauphine
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Centre de Recherche en Automatique de Nancy, UMR 7
Durée : 36 mois
Contact : herve.panetto@univ-lorraine.fr
Date limite de publication : 2023-02-28
Contexte :
Focusing on digital sciences, the CRAN laboratory (Research Centre for Automatic Control, https://www.cran.univ-lorraine.fr) is internationally recognised for its activities in the fields of signal and image processing, control and computer engineering. It is also known for its work in the field of health in relation to biology and neuroscience. Today, its fundamental and applied research enables it to accompany the changes in society and to go beyond the traditional society and industrial issues.
You‘d like to contribute as a PhD candidate? Join our Sustainable Systems Engineering department
This PhD project is part of a bilateral research project between the CRAN, the ITIS department of the Luxembourg Institute of Science and Technology (LIST -http://www.list.lu), in Luxembourg, and the ORISUN company, Strasbourg, France, dealing with applications of artificial intelligence for cognitive interoperability in cyber-physical enterprises: AI4C2PS. The candidate will be registered at the University of Lorraine (doctoral school IAEM Lorraine) as a PhD candidate and will be integrated in the ISET research department of CRAN with strong collaboration with the HUMOD research group of ITIS/LIST. The main workplace will be in CRAN offices in Nancy, while some time will be spent in in Esch/Alzette, Luxembourg, in LIST offices.
The Sustainable Systems Engineering (ISET) department, with its 50 researchers and engineers, studies the digital transformation of complex sustainable systems, which are mainly in the application fields of industry 4.0 (also called the Industry of the Future), communication networks, transport, building and energy, and the future of so called digital twins (DT). The average annual gross salary of a DT expert is 190K€ (source glassdoor.com, 2022) and the DT is expected to reach 183B€ in 2031 (source Gartner). ISET research focuses on the development of methods, models and tools associated with assessment and decision-making processes. Their purpose: to steer, control and maintain and maintain systems of interest, in a framework that goes beyond performance requirements, connectivity and operational requirements, also takes into account the emerging issues of the responsible economy.
Sujet :
Recent works on Cognitive Cyber-Physical Systems (C2PS) and Cognitive Digital Twins (CDT) focus on bringing Artificial Intelligence (AI) features to CPS to mainly give them reasoning and learning capabilities. Making them smart enough to become autonomous or helping humans in decision-making. The Digital Twin (DT) is used as a convenient tool to embed the cognitive functions and allowing for simulations before applying to the real system. A step forward for cognitive interoperability would be to take a human-centric approach, as integrated now into the Trustworthy AI , including knowledge formalisation and explainability for better human understanding. At its heart, there is the combination of symbolic AI based on knowledge/rule reasoning and statistical methods, with machine learning AI based on neural networks, leading to the Neuro-symbolic AI and Neural-Symbolic Computing, new trends that are considered by a part of the research community on the future of AI. Experiments made so far with deep learning have highlighted the two main advantages of neuro-symbolic approaches: less training data is required, and the reasoning process and its conclusions are explainable and understandable for humans. Finally, these approaches allow to build AI systems that are semantically sound, explainable, and trustworthy. Given these capabilities, neuro-symbolic approaches have a high potential for building interoperable C2PS, with adaptive interactions between C2PS and human workers, and automated reconfigurations of C2PS understandable to the human supervisor thanks to explainable AI. This is what we investigate in the AI4C2PS project as a step towards cognitive interoperability, building on the CDT concept.
The PhD candidate will analyse and demonstrate how bridging the reality gap in the emulation of CPS-CPS and CPS-HUMAN interactions to formalize a so-called ‘cognitive interoperability’ in the Cyber-Physical Enterprise (CPE). .. To ensure semantic interoperability across the different components and to build cognitive interoperability on top of it, industry standards will be identified and used where required. The project will be driven by pilots, which will (1) feed the research tasks by providing access to real world requirements and data and will (2) offer the opportunity to deploy and assess the technologies developed from research works in real production environments. To validate the integration capability, the developed technologies will be integrated into Orisun’s existing platform. This integration will create a complete Proof-Of-Concept (POC) for our vision of a CPE platform implementing the high-level architecture. This POC will be deployed and validated in real-world scenarios. Our French pilot will be AIPL S.MART, a Smart industry 4.0 platform and workshop at UL.
Activities
• Participation to the AI4C2PS project as a full member, integrating the models, algorithms, and prototypes in collaboration with the project’s team of researchers, and the Orisun company, and participating to project’s meeting and contributing to deliverables
• Presentation of papers at academic conferences
• Writing of research papers and publication of peer-reviewed journal articles
• Write a PhD thesis in the field of computer engineering
• Participation to outreach activities of CRAN, LIST and ORISUN.
Profil du candidat :
• Good knowledge and experience of artificial intelligence methods including machine learning and knowledge representation and reasoning
• Knowledge or experience of cyber-physical systems, digital twin and their cognitive version
• Knowledge or experience in systems interoperability
• Knowledge or experience with programming human-in-the-loop control systems
• Good programming skills
Formation et compétences requises :
Master’s degree or diploma in computer science, engineering science (control), or data science
Adresse d’emploi :
Centre de Recherche en Automatique de Nancy,
Université de Lorraine
Vandoeuvre-les-Nancy, France
Document attaché : 202211221527_AI4C2PS_CDT_PhDOffer_2022 CRAN.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Lab-STICC – IMT Atlantique campus de Brest et INTE
Durée : 3 ans
Contact : gregory.smits@irisa.fr
Date limite de publication : 2023-02-28
Contexte :
La société INTESCIA est un éditeur de logiciels spécialisé dans la Business Intelligence (BI) et la science des données. Créée en avril 2013, INTESCIA GROUP a pour ambition de devenir un acteur majeur de la Data Economy. Son cœur de métier est l’exploitation de l’information afin de lui donner de la valeur et sa mission dans l’environnement Smart Data : Offrir aux entreprises des outils et des services business performants et en avance, adaptés à leurs exigences.
Le Lab-STICC est une Unité Mixte de Recherche rattachée à 6 tutelles, à savoir le CNRS, l’ENIB, l’ENSTA Bretagne, IMT Atlantique, l’Université de Bretagne Occidentale, l’Université de Bretagne Sud. Ce laboratoire de Recherche pluridisciplinaire est implanté sur plusieurs sites géographiques, en l’occurence sur Brest (campus d’IMT Atlantique, de l’ENSTA Bretagne, de l’ENIB et de l’UBO), sur Quimper (IUT de quimper / UBO) et sur Lorient/Vannes (Campus de l’UBS).
Au sein du pôle SHM (Sciences Humaines et Sociales), l’équipe MOTEL vise à proposer des outils, des méthodes et des modèles centrés humains pour faciliter les interactions entre un utilisateur et un système informatique, d’apprentissage en ligne généralement.
Le projet de thèse proposé s’inscrit dans le cadre d’un partenariat entre INTESCIA GROUP et l’équipe MOTEL dont l’objectif est de concevoir de nouvelles fonctionnalités analytiques et prédictives à l’intersection entre IA et BI.
Sujet :
DoubleTrade est une solution logicielle de veille business permettant aux utilisateurs (sociétés clientes) d’explorer les offres de marchés publics et privés, en France et à l’étranger.
Un enjeu majeur pour l’entreprise INTESCIA est d’augmenter la valeur ajoutée de sa solution DoubleTrade avec des fonctionnalités analytiques et prédictives qui soient novatrices et pragmatiques. L’objectif est à la fois de fournir des vues concises et interprétables des marchés en cours et de leur évolution, mais surtout d’être en mesure de recommander à un client les marchés les plus adaptés à ses activités.
Pour atteindre cet objectif fonctionnel, quatre verrous scientifiques seront adressés lors de cette thèse :
1. Définir des algorithmes de résumé des appels d’offre [Smits et al., 2018] et des mesures de comparaison entre résumés pour mettre en exergue les évolutions des caractéristiques de ces appels d’offre [Dong and Li, 1999].
2. Enrichir un modèle métier (type graphe de connaissances [Ji et al., 2021]) défini a priori à l’aide de connaissances acquises automatiquement des données reflétant les dépendances entre offres de marchés, les liens entre les différents acteurs (entreprises, collectivités, décisionnaires), etc.
3. Concevoir une stratégie de recommandation d’appels d’offres guidée par le modèle métier [Guo et al., 2020] ainsi que des techniques d’explication des raisons de la recommandation. Cette dernière fonctionnalité s’appuiera sur les travaux existants en intelligence artificielle explicable et notamment la génération d’explications contrastives entre la classe des appels d’offres adaptés à un profil d’entreprise et ceux qui ne le sont pas [Došilović et al, 2018].
4. Proposer et développer des tableaux de bord combinant des vues « classiques » de métriques, des visualisations des résumés de données ainsi que des recommandations d’appels d’offre et leurs explications associées.
Profil du candidat :
Le candidat doit posséder un diplôme de Master recherche ou un diplôme d’ingénieur en informatique. Outre le fait de disposer d’une capacité à travailler en équipe et d’un réel goût pour la recherche scientifique, on attend du candidat une formation et une expérience en sciences de données et en apprentissage automatique. Des compétences en business intelligence seraient un plus très apprécié.
Formation et compétences requises :
Master ou ingénieur en informatique
Adresse d’emploi :
La thèse pourra se dérouler soit dans les locaux de l’entreprise INTESCIA (Issy-les-Moulineaux) soit au Lab-STICC (IMT Atlantique campus de Brest) avec des possibilités de télétravail partiel. L’ensemble des personnes impliquées dans le projet (INTESCIA + Lab-STICC) se réunira mensuellement pour s’assurer de la bonne conduite du projet.
Document attaché : 202210201248_Sujet-de-thèse_CIFRE_INTESCIA.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Centre de Recherche en Automatique de Nancy, UMR 7
Durée : 36 mois
Contact : herve.panetto@univ-lorraine.fr
Date limite de publication : 2023-02-28
Contexte :
This PhD project is part of a bilateral research project between ITIS, the Research Center for Automatic Control (CRAN http://www.cran.univ-lorraine.fr –University of Lorraine, CNRS) and the ORISUN enterprise, in France, dealing with applications of artificial intelligence for cognitive interoperability in cyber-physical enterprises: AI4C2PS. The candidate will be registered at the University of Lorraine (doctoral school IAEM Lorraine) as a PhD student and will be integrated in the HUMOD research group of ITIS and the ISET research department of CRAN. The main workplace will be in LIST offices in Esch/Alzette, Luxembourg, while some time will be spent in Nancy, France, in CRAN offices.
Sujet :
The introduction of Cyber-Physical Systems (CPS), together with advances in Information and Communication Technologies (ICT), has been the major driving force for the 4th industrial revolution. The 5th revolution calls now for a better integration of human and social / societal factors, transforming progressively CPS into Cyber-Physical-Social Systems (CPSS). A Cyber-Physical Enterprise (CPE) consists of autonomous and cooperative technical elements, humans and sub-organisations that are connected based on the context within and across all levels of the global organisation, from processes, through machines and up to enterprises and supply-chains networks. Today ontology-based solutions ensure that technological components (CPS) of a CPE share a common vocabulary and can reason on exchanged knowledge. However, this is not enough to build CPSS components, ensuring CPS and human agents understand each other enough to collaborate efficiently. The next generation of CPE must reach a satisfactory level of flexibility and efficiency that better integrates humans and give human-machine teams complete autonomy for some tasks including ad-hoc reconfigurations and non-predefined problem-solving.
In this context, you will address the research challenge of building a Human Digital Twin (HDT) based on ontological, neural and stochastic models, that is realistic enough to serve as a computational model for CPS adaptation to humans. The PhD objective is to build a theoretical framework for the HDT in industry and implement it as an intelligent software agent that can support human workers to collaborate with CPSS of an enterprise. Synchronous and asynchronous contexts will be both considered, where in the first the digital twin takes part of simulations for prediction objectives and in the latter the digital twin reflects the human state and behaviour. The work will focus on:
1- The cognitive aspects of human modelling and human-CPSS collaboration, exploring the theory of cognitive architectures.
2- Exploring HDT models combining Knowledge Reasoning and Representation with Artificial Neural Network -based Machine Learning, able to explain their state and behaviours (i.e., implementing explainable artificial intelligence).
Activities
• Participation to the AI4C2PS project as a full member, integrating the models, algorithms, and prototypes in collaboration with the project’s team of researchers, participating to project’s meeting and contributing to deliverables
• Presentation of papers at academic conferences
• Writing of research papers and publication of peer-reviewed journal articles
• Write a PhD thesis in the field of computer engineering
• Participation to outreach activities of LIST and CRAN
Profil du candidat :
You hold a Master’s degree or diploma in computer science, cognitive science, engineering science (control), or data science.
Formation et compétences requises :
Good knowledge and experience of user modelling or the modelling of human factors in industry 4.0, as well as good knowledge and experience of Artificial Intelligence methods including Machine Learning and Knowledge Representation and Reasoning.
You have a clear understanding of Cyber-Physical Systems and Digital Twin in industry; you have experienced the implementation of human agents in Multi-Agent Systems or human-in-the-loop control systems.
Finally, you are interested by cognitive systems and cognitive architectures, which you have maybe explored.
Good programming skills will be welcome.
Adresse d’emploi :
LIST,Esch/Alzette, Luxembourg
CRAN, Université de Lorraine, Nancy, France
Document attaché : 202211221531_AI4C2PS_HDT_PhDOffer_2022 LIST.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : Département Intelligence Artificielle du laboratoi
Durée : 3 ans
Contact : francis.faux@univ-jfc.fr
Date limite de publication : 2023-03-02
Contexte :
1) PhD Thèse : “Hybrid AI based on Spiking Neural Networks (SNNs)”
2) Durée: 36 mois
3)Début : Septembre 2023
4) Rémunération: €1975 par mois
Sujet :
“Hybrid AI based on Spiking Neural Networks (SNNs)”
L’objectif de cette thèse est de développer une intelligence artificielle hybride basée sur les SNNs. Différentes formes de mémoire seront étudiées. Le réseau sera construit à partir du modèle simple d’Izhikevich qui permet de reproduire jusqu’à 23 types de comportements neuronaux, dont les neurones corticaux excitateurs et corticaux inhibiteurs, et de stocker des motifs via la construction de réseaux d’oscillateurs. De nouvelles formes d’apprentissage
seront également étudiées sur la base de méthodes temps-fréquence.
Enfin, nous prévoyons d’étudier le lien entre les réseaux de neurones et la logique. En effet, peu de travaux appliquent les réseaux de neurones aux données relationnelles et au raisonnement symbolique. ( voir https://cloud.irit.fr/index.php/s/7yA7u9LibIWGZaW pour plus de détails).
Profil du candidat :
Niveau d’étude : Master 2 Mathématiques, Informatique, Data Science
Formation et compétences requises :
Nous recherchons un candidat avec des connaissances en représentation des connaissances et/ou en apprentissage , une bonne culture mathématique et un intérêt pour modéliser et exploiter les réseaux de neurones à impulsions
Adresse d’emploi :
Laboratoire IRIT à Toulouse
Document attaché : 202302031156_Thesis_AI_Spiking_Neurons.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Mines Saint-Etienne
Durée : 3 ans
Contact : victor.charpenay@fau.de
Date limite de publication : 2023-03-31
Contexte :
The thesis is equally funding by ANR (Agence Nationale de la Recherche) and elm.leblanc, one of the leading home automation system vendors. One of the main technical challenges in modern home automation is to using Artificial Intelligence (AI) to minimize the energy consumption of technical systems without loss of comfort. For instance, the production of hot water can be optimized by dynamically adapting the temperature of water and the time of use of the boiler based on activities monitored in the home. The general objective of the thesis is to monitor human activities without ubiquitous sensing capabilities.
Sujet :
The domain of research of the thesis is knowledge representation and reasoning, a subfield of AI. Its objective is to evaluate abductive reasoning methods over sensor measurements performed in a home environment. Abductive reasoning in this context consists in finding logically sound hypotheses (e.g. ‘the dishwasher is on’) that explain observed sensor measurements (‘electric consumption has risen in the last two hours’) according to a model of human activity in a home.
The baseline assumption of the thesis is that only minimal sensing is available in the home, as is the case in most homes today: smart meters provide aggregated values (every hour/day) but no information is available per room. Abductive reasoning is expected to help optimize home automation systems without relying on some ubiquitous sensing apparatus (which raises environmental, technical and privacy-preservation questions).
Several abduction mechanisms will be evaluated, including Abductive Logic Programming (for an exhaustive exploration of hypothesis space) and neural-symbolic integration methods (for a probabilistic exploration of hypothesis space).
Profil du candidat :
Prior knowledge in AI is expected, either in neural networks or in computational logics, logic programming and/or Semantic Web technologies. Basic understanding of statistical inference methods and linear programming is also considered important. Technical skills required for the thesis include: multi-paradigm programming (Java, Lisp, R, Prolog, …), data modeling (UML, OWL, E/R, BPMN, …), Linux system administration (Bash, SSH, Docker, …).
Autonomy and curiosity are important soft skills to compete a PhD thesis.
Formation et compétences requises :
Holder of a Master’s degree in computer science or data science. Prior knowledge in AI is expected, either in neural networks or in computational logics, logic programming and/or Semantic Web technologies. Basic understanding of statistical inference methods and linear programming is also considered important. Technical skills required for the thesis include: multi-paradigm programming (Java, Lisp, R, Prolog, …), data modeling (UML, OWL, E/R, BPMN, …), Linux system administration (Bash, SSH, Docker, …).
Adresse d’emploi :
Espace Fauriel, Saint-Etienne
Document attaché : 202302151304_phd-offer.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube (Université de Strasbourg / CNRS)
Durée : 36 mois
Contact : fabrice.theoleyre@cnrs.fr
Date limite de publication : 2023-03-31
Contexte :
== Environment ==
Founded in the 16th century, the University of Strasbourg has a long history of excellence in higher education, rooted in Renaissance humanism. The University of Strasbourg is a public research university located in Strasbourg, France, with over 52,000 students. With around 650 members, the ICube lab is a major driving force for research in Strasbourg whose main areas of application are computer science, robotics, and engineering science.
== Equal Employment Opportunity ==
We aim to increase the proportion of women and therefore qualified female applicants are explicitly encouraged to apply. We prohibit any type of discrimination (gender, ethnicity, religion or ideology, age, sexual orientation). ICube has set-up anti-discrimination and anti-harassment committees.
Sujet :
Several PhD positions require strong skills in Machine Learning, and Data Science for experimental analysis:
– Cybersecurity through Digital Twins for the Industrial Internet of Things, under the supervision of Fabrice Théoleyre (CNRS)
– Energy-efficient routing in multi-technology low-power and lossy wireless networks, under the supervision of Julien Montavont and Pascal Mérindol
– Inter-domain monitoring and predictions for service orchestration in 5G, under the supervision of Fabrice Théoleyre (CNRS) and Julien Montavont
– Software-defined low-power and lossy wireless networks, under the supervision of Thomas Noël and Julien Montavont
– AI-Powered Reliable and Available Wireless Mesh Networks for the Factory of the Future, under the supervision of Fabrice Theoleyre (CNRS), Quentin Lampin, and Marion Dumay (Orange Labs).
– Better Algorithms for Secure and Efficient Blockchains, under the supervision of Quentin Bramas
A detailed description for each position is available online at https://reseaux.icube.unistra.fr/en/index.php/Job_opportunities
Profil du candidat :
Computer Scientist with the willingness to develop his/her skills in networking.
Applications will be closed on January 20, 2023.
Formation et compétences requises :
— Excellent programming skills in C, and embedding programming;
— Distributed algorithms;
— Wireless networks (protocols and radio propagation), energy efficiency;
— Applicants should possess good verbal and written English skills. French is not a requirement;
— Holding an MSc in Computer Science (CS) or Electrical and Computer Engineering (ECE), or Electrical and
Computer Engineering (ECE) is mandatory
Adresse d’emploi :
Illkirch-Graffenstaden (Starsbourg)
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : Université de Caen Normandie / laboratoire GREYC U
Durée : 3 ans
Contact : olivier.lezoray@unicaen.fr
Date limite de publication : 2023-03-31
Contexte :
Offre de thèse en Informatique à l’Université de Caen Normandie / laboratoire GREYC UMR CNRS 6072
Titre : Apprentissage profond d’arbres binaires de partitions pour l’analyse d’images
Mots-Clés : Représentation hiérarchiques, Arbres binaires de partition, Apprentissage Profond, Ultramétriques.
Sujet :
Sujet
—–
Il existe de nombreuses représentations des images numériques, chacune adaptée à différents contextes. Dans cette thèse nous nous intéressons aux représentations hiérarchiques des images. Ces dernières permettent, à partir d’une sur-segmentation d’une image en super-pixels, de procéder à des fusions de régions à différentes échelles. De telles représentations hiérarchiques permettent donc de capturer les caractéristiques des images à différentes échelles simultanément, et sont facilement interprétables et manipulables par un humain. Construire des représentations hiérarchiques de bonne qualité est alors une étape très importante de l’analyse des images. En analyse d’images, les arbres binaires de partitions (ABP) sont une représentation hiérarchique populaire. Leur construction repose sur plusieurs éléments clés: une partition initiale, un modèle de région, un critère de fusion, un ordre de fusion. Cette construction de l’ABP repose alors souvent sur des descripteurs de régions peu adaptés aux données et sur des méthodes heuristiques et gloutonnes de clustering hiérarchique. Nous proposons de tirer parti de l’apprentissage profond pour la construction et la manipulation d’ABPs. La construction de l’arbre pourra alors exploiter des descripteurs profond de super-pixels, apprendre la similarité entre ces descripteurs et enfin disposer d’un critère de fusion appris. Une ultramétrique étant une représentation duale d’une représentation hiérarchique, des méthodes d’apprentissage profond peuvent être envisagées pour apprendre non pas l’ABP mais directement l’ultramétrique à partir d’un graphe représentant la sur-segmentation et en minimisant explicitement une fonction de coût. La segmentation sémantique d’une image pourra être ensuite vue comme soit une labelisation apprise des sommets de l’ABP, soit l’apprentissage d’une coupe dans l’ABP. Un arbre étant un graphe, des réseaux de neurones à convolution sur graphes pourront être envisagés pour cela (la convolution et le pooling étant là très particuliers étant donné la structure d’arbre du graphe). Enfin, Des applications en santé (mélanome de la peau) et en imagerie satellitaire seront effectuées.
Profil du candidat :
Les candidats doivent être titulaires d’un master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation (en particulier avec des cadres d’apprentissage profond). Une expérience dans le domaine du traitement des images sera un atout. Les candidats doivent être capables de rédiger des rapports scientifiques et de communiquer les résultats de leurs recherches lors de conférences en anglais.
Formation et compétences requises :
Adresse d’emploi :
Caen
Document attaché : 202302151546_sujetTheseLezoray2023_fr.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 3 ans
Contact : lampert@unistra.fr
Date limite de publication : 2023-03-31
Contexte :
L’équipe SDC du laboratoire ICube (Université de Strasbourg) en collaboration avec le CNES propose un contrat doctoral sur l’apprentissage de représentation enanalyse de séries temporelles d’images de télédétection.
https://recrutement.cnes.fr/fr/annonce/2035525-23-111-representation-learning-for-geographic-spatiotemporal-generalisation-67400-illkirch-graffenstaden
La date limite de candidature est fixée au 16 mars et doit se faire via le site du CNES (lien donné ci-dessus).
Si vous êtes intéressé, veuillez prendre contact avec nous le plus rapidement possible en envoyant un mail (joindre votre CV, lettre de motivation et relevés de notes, avec si possible vos classements en L3, M1 et éventuellement M2, … ) à lampert@unistra.fr et gancarski@unistra.fr
Sujet :
Titre du thèse : Representation Learning for Geographic Spatio-Temporal Generalisation
Description du sujet : Time-series are becoming prevalent in many fields, particularly when monitoring environmental changes of the Earth’s surface in the long term (climate change, urbanisation, etc), medium term (annual crop cycle, etc) or short term (earthquakes, floods, etc). With the current and future satellite constellations satellite image time-series (SITS) expand remote sensing’s impact. The project’s goal is to develop domain invariant representations using deep learning for SITS analysis. Such methods will enable geographic generalisation, which consists of reusing information from the analysis of one geographic area to analyse others by using, or not, the same sensors, as proposed in [5]. Current approaches work for single images because they generally originate from the computer vision community. The internship will start the evaluation of the state-of-the-art and to implement and extend approaches already developed in ICube [5,6]. Current work on domain adaptation (DA) for time-series uses either weak supervision [1] or attention-based mechanisms [2,3] for classification or focus on the related problem of time-series forecasting [4]. However, none of these approaches tackle the problem of learning DIRs that can be applied to several geographical locations simultaneously. The work has two benefits: on the one hand, to reduce the burden of ground truth collection when sensors of different characteristics are used; and on the other to exploit the information contained in each data modality to learn representations that are more robust and general, i.e. to detect crops, land cover evolution, etc in different countries that exhibit different characteristics. Your contributions will be part of the global work of the SDC researchers and will be validated through the partnership with CNES and potential collaboration with Tour du Valat. SDC’s aim is to propose and implement new generic methods and tools to exploit large sets of reference data from one domain/modality (sufficient to train an accurate detector) to train a multi-modal/domain detector that can be applied to imagery taken from another sensor for which there exists no reference data. As such, the work tackles key problems in many machine learning & computer vision applications.
Profil du candidat :
Master en Informatique ou équivalent.
Formation et compétences requises :
Compétences fortes en machine learning et analyse d’images. Une expérience en apprentissage profond est un plus indéniable.
Adresse d’emploi :
ICube
Université de Strasbourg
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LASTIG
Durée : 36 mois
Contact : clement.mallet@ign.fr
Date limite de publication : 2023-03-31
Contexte :
Face à l’érosion de la biodiversité et au réchauffement climatique, des mesures s’imposent pour préserver l’état de la planète. Ces mesures de préservation nécessitent de connaître l’état de la planète mais aussi d’être capable d’en suivre l’évolution avec la meilleure actualité possible.
Les données d’observation de la Terre (OT) sont désormais abondantes grâce à des efforts internationaux tels que le déploiement de la constellation européenne Sentinel-2, qui acquiert des images en couleur de toutes les zones du globe tous les cinq jours avec une résolution de 10 mètres. Des images de plus haute résolution peuvent être obtenues en France grâce à des programmes nationaux tels que SPOT-6/7 (Airbus/CNES, 1,5$:$m/pixel), Pléiades-Pléiades Néo (Airbus, 0,3m/px) ou la BDORTHO (IGN, 0,2m/px). Cependant ces images aériennes et satellites ne sont acquis qu’avec une fréquence allant d’un à trois ans.
Ainsi, l’observation de la Terre et le traitement des images sont une des sources d’information pour la mise en place de nombreuses politiques de protection des espaces naturels terrestres et marins. Cependant, l’annotation des images satellites ou aériennes est une tâche longue, coûteuse et fastidieuse qui doit être continuellement renouvelée.
Maintenant, qu’on était constitué de larges bases d’informations décrivant le territoire de différentes manières (tel que la BD Topo ou la BD Forêt de l’IGN), se pose la question de leur mise à jour.
Ainsi la tâche principale est d’être capable de détecter une différence entre une information présente dans une base de connaissances cartographique d’une région donnée et une nouvelle acquisition.
D’une part, les changements sont des phénomènes visuellement très variés mais aussi très rares. Par exemple, au sein de l’IGN, il a été montré que sur le département du Gers, seulement 5% du territoire avait été notablement modifié en 3 ans. Cependant, le parcours exhaustif de la totalité des acquisition est nécessaire pour de ne pas manquer un changement important.
L’investigation complète d’un département requièrent environ 300 heures de travail.
C’est pourquoi il est crucial de fournir de nouvelles méthodes pour assister et accélérer la mise à jour de la donnée géographique.
Le domaine de l’analyse d’image a connu cette dernière décennie une progression fulgurante, grâce au renouveau d’outils relativement anciens de l’intelligence artificielle, notamment les réseaux de neurones. Les réseaux convolutionnels ont permis d’obtenir des performances inédites en terme de reconnaissance d’objets, au prix d’apprentissages supervisés massifs. Cependant, l’apprentissage automatique pour l’observation de la Terre est presque toujours confronté à un manque d’ensembles de données annotées. Une grande partie des données disponibles est non annotée, c’est à dire sans information sémantique associée. Cette immense ensemble de données pourrait être utilisé comme une source d’information complémentaire pour l’apprentissage de modèles pour des applications telles que la surveillance de l’artificialisation des sols, de la déforestation ou du suivi des cultures.
Un point positif est que l’OT n’est pas le seul domaine où les annotations sont rares. L’annotation d’événements événements rares est un problème majeur dans la plupart, sinon la totalité, des applications d’apprentissage automatique. Une combinaison de deux solutions est adoptée pour pallier ce problème : l’augmentation de données (pour générer de nouvelles données annotées) et le pré-entraînement non supervisé ou auto-supervisé (pour exploiter des données non étiquetées).
Sujet :
Le travail de thèse consistera à développer des outils de détection de changements pour l’observation de la Terre reposant sur les progrès récents de l’apprentissage automatique. Contrairement à la plupart des travaux de détection de changements, le sujet:
– reposera sur des problématiques réelles opérationnelles issues de la surveillance du territoire, en particulier en lien avec la mise à jour des bases de données géographiques de l’IGN,
– identifiera les défis méthodologiques à relever pour bénéficier des progrès récents dans le domaine de l’apprentissage automatique, en particulier en ce qui concerne des problématiques d’augmentation de données et de pré-apprentissage mais dans le cadre de la télédétection.
Notons que la détection de changements regroupent plusieurs cas d’application.
Trois cas d’usage différents seront considérés :
– La comparaison de deux images d’une même zone obtenus par le même capteur;
– La comparaison de deux images d’une même zone obtenus par deux capteurs différents (aérienne et satellite par exemple);
– La comparaison entre une image et l’état de la connaissance passée de la zone (par exemple représentation sémantique de la zone).
Méthodologiquement, ce dernier cas est le plus complexe et le plus intéressant car il permet de mettre à jour la base de connaissances que l’on a du territoire et qui a pu déjà être mise à jour partiellement par d’autres voies. Cette base de connaissances peut aussi contenir des erreurs de saisies passées qui seront alors corrigées.
Profil du candidat :
– Familiarité avec la vision par ordinateur, l’apprentissage machine et l’apprentissage profond;
– Maîtrise de Python et familiarité avec PyTorch;
– Curiosité, rigueur, motivation;
– (Optionnel) Familiarité avec l’apprentissage auto/faiblement supervisé et contrastif;
– (Optionnel) Expérience avec l’imagerie aérienne ou satellite et la classification pour l’occupation des sols.
Formation et compétences requises :
Master 2 en informatique, computer sciences, mathématiques appliquées ou télédétection
Adresse d’emploi :
IGN, 73 avenue de Paris, 94160 Saint-Mandé
Document attaché : 202301111249_These2023_LASTIG_change_detection.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LAMSADE – PSL Research University – Universit{
Durée : 3 ans
Contact : maude.manouvrier@lamsade.dauphine.fr
Date limite de publication : 2023-04-15
Contexte :
Knowledge graphs are gaining ground as a means of encapsulating and sharing domain knowledge. Large companies,
such as Amazon, Bosch, Google, Microsoft and Zalando, have already adopted knowledge graphs to represent and store
their knowledge bases. In addition to enabling the sharing, querying and retrieval of facts of interest to a business or
community, knowledge graphs have recently gained recognition and are becoming the backbone of cognitive artificial
intelligence. Gartner predicts that the application of knowledge graphs and graph mining will grow by 100% per year to
enable more complex and adaptive data science.
Sujet :
In the context of this thesis, we will focus on RDF knowledge graphs, probably the most widely used class of knowledge
graphs. A number of problems arise when managing these knowledge graphs, ranging from their construction to their
exploration and exploitation. We will mainly focus on the management of dynamic knowledge graphs. Indeed, knowledge
is intrinsically dynamic: the sources that feed the knowledge graph can undergo changes that have an impact on the
knowledge graph itself. Moreover, new promising sources can be added to the list of sources used to enrich the knowledge
graph, and other sources that are no longer relevant can be dropped, which in turn has an impact on the facts (nodes and
relations) composing the knowledge graph. The general objective of the thesis is therefore: To design new solutions to
assist knowledge graph providers and users to better handle the effects of dynamic knowledge graphs.
To achieve the above goal, a number of tasks will be undertaken, from state of the art review to design and implementation
of algorithmic solutions to:
1. Characterize the changes a knowledge graph, may undergo,
2. Identify the maintenance actions that can be undertaken to smoothly manage these changes, and
3. Assess and manage the impact on the applications that utilize the knowledge graph.
A 3-year fully funded PhD scholarship is proposed.
An internship is also possible on the same project (April to August 2023) – see http://www.madics.fr/event/offre983/
Profil du candidat :
Interested candidates are invited to send the following to khalid.belhajjame@dauphine.fr and maude.manouvrier@lamsade.dauphine.fr:
– academic CV
– academic transcripts of BSc and MSc
– one page motivation letter explaining why the candidate is suitable for the position
– contact details of two referees
Formation et compétences requises :
Master in Data or Computer Science or equivalent.
Solid skills in databases and knowledge graphs are required.
A good knowledge in algorithmic, programming and machine learning is appreciated.A good knowledge in algorithmic, programming and machine learning is appreciated.
Adresse d’emploi :
Paris Dauphine University, located in the city of Paris, and member of PSL (Paris Sciences et Lettres).
Document attaché : 202302211043_ManagingDynamicKnowledgeGraphs_PhDPositionParisDauphineLamsade.pdf
Offre en lien avec l’Action/le Réseau : RoCED/– — –
Laboratoire/Entreprise : LAMSADE – PSL – Université Paris Dauphine
Durée : 3 ans
Contact : kbelhajj@googlemail.com
Date limite de publication : 2023-04-15
Contexte :
The crucial role of data protection in safeguarding personal information, preventing malicious use of data, and ensuring responsible handling of data by organizations is now widely acknowledged. We have an opening on this subject for a PhD position with the objective to develop new solutions to help data providers who wish to share their data to better understand it, and to choose the best-suited data protection policies
Sujet :
The PhD Student will be investigating techniques for profiling and linking datasets that would help data providers to gain insight into their data and to choose data protection strategies that go beyond privacy protection to take into account the protection of the data provider’s economic assets. We aim to provide an end-to-end solution that helps data providers understand their data, identify the links that connect them as well as the links that connect them to external datasets, identify links that could be used maliciously to obtain privacy-intrusive information, and protect their datasets accordingly before sharing. The problems investigated and solutions developed will be guided and validated within case studies in the fields of health and economics.
Profil du candidat :
The successful candidate will enroll as a PhD student in the Computer Science department of the Paris Dauphine University-PSL (under the co-direction of Khalid Belhajjame and Daniela Grigori) and will become a member of the Data Science team of the same university. Paris Dauphine University is located in the city of Paris, and is a member of PSL (Paris Sciences et Lettres). PSL is the first French university in Times Higher Education ranking.
Formation et compétences requises :
We seek strongly motivated candidates prepared to dedicate to high quality research.
The candidate should have (or be close to obtaining) a Master’s degree or equivalent in
computer science or applied mathematics.
Adresse d’emploi :
Interested candidates are invited to send the following to khalid.belhajjame@dauphine.fr and
daniela.grigori@lamsade.dauphine.fr
– academic CV
– academic transcripts of BSc and MSc
– one page motivation letter explaining why the candidate is suitable for the position
– contact details of two referees
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : LS2N, Nantes
Durée : 3 ans
Contact : Sebastien.Bourguignon@ec-nantes.fr
Date limite de publication : 2023-04-23
Contexte :
URGENT la date limite de candidature est dans deux semaines (le 23 avril).
Le sujet est ici : https://box.ec-nantes.fr/index.php/s/L2MrRy67bk3Q9Qq
Site de candidature : https://theses.doctorat-bretagneloire.fr/sis/campagne-2023/optimisation-exacte-parcimonie-et-contra/++add++Candidate
Contact : Sébastien Bourguignon
Sujet :
Cette thèse financée vise à formuler le problème d’analyse de données hyperspectrales dans le formalisme de l’optimisation MIP (Mixed Integer Programming). Cette nouvelle approche permettra la résolution exacte des problèmes d’estimation sous-jacents par des algorithmes dédiés, là où les méthodes existantes cumulent erreur de modèle et erreur d’estimation par approches sous-optimales. La forte originalité de ces travaux réside en un changement de paradigme où, plutôt que de réaliser l’estimation au sens classique de l’optimisation d’un critère à solution unique (laquelle s’avère souvent ininterprétable en raison du trop fort niveau de bruit sur les données), les méthodes développées retourneront l’ensemble de solutions acceptables, par exemple l’ensemble exhaustif des solutions parcimonieuses compatibles avec le niveau de bruit donné. Ces outils seront appliqués à des données de télédétection spatiale de la planète Mars.
Profil du candidat :
Master en traitement du signal / science des données / optimisation / recherche opérationnelle
Formation et compétences requises :
Programmation, Mathématique appliquée
Adresse d’emploi :
LS2N, Ecole Centrale, Nantes
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIMAS (équipe MSD), Université Haute-Alsace
Durée : 3 ans
Contact : maxime.devanne@uha.fr
Date limite de publication : 2023-04-30
Contexte :
Similarly to various fields like imagery, the last few years have seen the explosion in the amount of temporal data. These time series correspond to ordered sequences of numerical values or discrete events that evolve over time. Data ordering is a crucial element that makes it possible to characterize time series in order to study the similarity between a set of sequences. This then allows, for example, to recognize time series (classification), to group them together by similarity (clustering) or to detect anomalies in the series. In order to analyze time series, a technique mainly used considers small temporal windows to detect patterns representative of the temporal evolution. For several years now, the community of researchers in the field has been interested in approaches based on deep learning through the development of neural networks dedicated to time series.
Sujet :
The objective of this thesis will thus be to study and develop new advanced deep learning methods for the analysis of time series and in particular for their classification. Initially, new deep architectures such as Transformers or diffusion models will be considered. Once a deep neural network is trained on a task from a dataset, its deployment and adaptation on different data (and potentially new tasks) is not easy. In a second step, we will therefore focus on transfer learning and knowledge distillation approaches in the context of time series analysis. Finally, one of the major challenges in deep learning concerns the interpretability and explainability of the decisions made by a neural network. In this thesis, we will finally study this problem and propose solutions to better understand the decisions made by deep models. This is particularly useful in a medical context, in the case of sequences of surgical acts analysis or rehabilitation movement analysis. Thus, the theoretical approaches developed during the thesis will also be evaluated in the context of application cases mentioned above.
This research topic is the heart of the work of the MSD team from IRIMAS Institute at Université de Haute-Alsace. The candidate will benefit from a suitable research environment, rich in experience and skills on time series analysis. This PhD will be supervised by Prof. Germain Forestier, Dr. Jonathan Weber and Dr. Maxime Devanne.
For applying, please send a curriculum, a cover letter and Master transcripts to germain.forestier@uha.fr, jonathan.weber@uha.fr and maxime.devanne@uha.fr
Application deadline: April 30th 2023
Profil du candidat :
Good skills in Python programming
Experience in Machine/Deep Learning
Formation et compétences requises :
Master in Computer Science (or equivalent)
Adresse d’emploi :
IRIMAS, Université de Haute-Alsace, Mulhouse France
Document attaché : 202303221640_PhD_DeepLearningTSC_2023.pdf
