Présentation Générale

 



           
Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026 2 avril 2026
  • Retour : 9 avril 2026
  • Date limite d’inscription : 30 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Jul
14
Thu
2022
Détection d’anomalies dans les textes par analyse statistique des distributions lexicales (Statistical analyses of lexical distributions with an application to anomaly detection in natural texts)
Jul 14 – Jul 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN (Paris Saclay) et ILLS (Montréal)
Durée : 36 mois
Contact : francois.yvon@limsi.fr
Date limite de publication : 2022-07-14

Contexte :
Le LISN (Laboratoire Interdisciplinaire des Sciences du Numérique) de
l’université Paris-Saclay et le laboratoire ILLS (International
Laboratory on Learning Systems) de l’université McGill conjointement
avec l’ETS Montréal et le MILA (Institut québécois d’intelligence
artificielle) au Canada(Plus d’information:
https://www.mcgill.ca/channels/fr/channels/news/un-laboratoire-international-dintelligence-artificielle-voit-le-jour-montreal-339253)
recherchent un.e candidat.e pour effectuer une thèse en cotutelle.

Titre de la thèse : Détection d’anomalies dans les textes par analyse
statistique des distributions lexicales (Statistical analyses of
lexical distributions with an application to anomaly detection in
natural texts)

L’encadrement de la thèse sera assuré par François Yvon (LISN, CNRS),
Pablo Piantanida (ILLS, CNRS – Université Paris-Saclay).

Sujet :
Les textes falsifiés, la désinformation et les mécanismes d’enfermement dans des bulles informationnelles apparaissent des problèmes de plus en plus critiques posés par l’algorithmisation de notre accès à l’information numérique. Des algorithmes de traitement automatique des langues médiatisent notre accès aux informations, en les triant, les classant, les filtrant selon des procédures opaques, avec pour objectif de susciter des réactions émotionnelles et conforter nos opinions. Sur les plateformes de médias sociaux, ces méthodes sont utilisées par des États, des entreprises et des particuliers malveillants pour produire des informations erronées, amplifier les doutes sur des données factuelles ou ternir la réputation de leurs concurrents ou adversaires, renforçant ainsi leurs propres positions stratégiques ou économiques. Ces pratiques de désinformation généralisées peuvent être le résultat de différents facteurs et incitations; cependant, toutes posent le même problème fondamental à l’humanité en brouillant la compréhension de ce qui est vrai et de ce qui est faux.

L’utilisation de modèles d’apprentissage profond, comme le modèle GPT-3 de OpenAI, pour la génération de textes à grande échelle, s’est généralisée ces dernières années. Avec ces méthodes, la génération du texte est effectuée par le biais d’une procédure autorégressive qui échantillonne des suites de mots à partir d’une distribution apprise pour imiter la “vraie” distribution de textes naturels. Ces modèles s’avèrent très supérieurs aux méthodes de génération traditionnelles, et ont démontré leur capacité à produire des textes cohérents et pertinents, parfois difficiles à distinguer de productions humaines. Employées de manière malveillante ou criminelle, elles sont donc susceptibles de constituer des armes de désinformation massive.

Pour lutter contre ces phénomènes, la première étape est le repérage des contenus les plus problèmatiques; nous nous focalisons dans cette thèse sur les contenus générés automatiquement. La détection de textes artificiels peut être considérée comme un cas particulier de la détection d’anomalies, définie au sens large comme la tâche consistant à identifier des exemples qui s’écartent des exemples habituels à un degré tel qu’ils éveillent les soupçons. Les recherches actuelles en matière de détection d’anomalies se concentrent en grande partie sur les classificateurs profonds (par exemple, la détection de points abberants, les attaques adverses) ou s’appuient sur la sortie de grands modèles de langue (LM) lorsque les étiquettes ne sont pas disponibles. Bien que ces axes de recherche soient attrayants, les faire passer à l’échelle exige une très grande quantité de calculs. En outre, ces méthodes reposent sur les hypothèses fondamentales suivantes : (1) les informations statistiques nécessaires à l’identification des anomalies sont disponibles dans le modèle entraîné, (2) l’incertitude du modèle est fiable, ce qui n’est généralement pas le cas, comme l’illustre la présence d’un petit changement dans la distribution des données d’entrée. Les approches basées sur les LMs ne sont pas performantes lorsqu’elles sont utilisées sur des grands fragments de texte, comme cela peut être nécessaire dans des applications pratiques (par exemple, la génération de longs documents, d’histoires ou de nouvelles), en raison du contexte de longueur fixe utilisé lors de l’entraînement du modèle de langue.

Cette thèse de doctorat se concentre sur le développement de méthodes hybrides de détection des anomalies en utilisant des techniques basées sur des réseaux de neurones profonds et des distributions de fréquence de mots qui sont linguistiquement fondées. La plupart des recherches menées à ce jour sur les modèles de langue se concentrent sur le traitement au niveau de la phrase et ne parviennent pas à capturer les dépendances à long terme au niveau du discours. Pour pallier ce problème, nous nous appuierons sur les distributions de fréquence de mots et les mesures d’information pour caractériser les longs documents, en modélisant des phénomènes tels que le très grand nombre de mots rares, ce qui conduit souvent à des phénomènes statistiques étranges comme les variations systématiques des fréquences moyennes lorsque le nombre d’observations augmente. Des concepts avancés de statistiques et de mesures d’information sont nécessaires pour comprendre l’analyse des distributions de fréquences de mots et pour capturer l’information au niveau du document. Des expériences approfondies sur des ensembles de données du monde réel seront réalisées pour démontrer la viabilité de notre approche.

Profil du candidat :
Pour consulter le sujet complet et déposer une candidature:
https://emploi.cnrs.fr/Offres/Doctorant/UMR9015-FRAYVO-009/Default.aspx

Le dossier de candidature devra contenir :
– CV détaillé,
– Lettre de motivation,
– Détails des relevés de notes (notamment M1 et M2),
– Éléments de bibliographie ou de réalisations personnelles
relevant d’une activité de recherche (ex projet de master,
sujet de stage recherche, etc),
– 2 lettres de recommandation.

Formation et compétences requises :
Master 2 ou équivalent avec une spécialisation dans un des domaines suivants: Mathématiques appliquées, Apprentissage Automatique, Intelligence Artificielle, Traitement automatique des langues.

Adresse d’emploi :
Laboratoire Interdisciplinaire des Sciences du Numérique, Campus de l’Université Paris Saclay

avec des périodes de séjour à Montréal.

Jul
15
Fri
2022
Modèle génératif pour les données de mobilité maritime
Jul 15 – Jul 16 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Ecole navale
Durée : 4 ans
Contact : cyril.ray@ecole-navale.fr
Date limite de publication : 2022-07-15

Contexte :
L’École Navale est une grande école d’ingénieur (statut d’EPSCP-GE) dont la mission principale est la formation initiale des officiers de la marine nationale. Les élèves officiers de carrière suivent un cursus d’ingénieur ou de master. Des formations supérieures (masters, mastères spécialisés, formation continue) sont également délivrées à des étudiants civils ou militaires dans les domaines de l’ingénierie maritime.

L’Institut de Recherche de l’École navale (IRENav) est le support de la recherche et de la formation scientifique et technique de l’Ecole navale. Institut pluridisciplinaire, l’IRENav est labellisé par l’HCERES dans le cadre de la contractualisation des laboratoires Arts et Métiers. Ses équipes de recherche s’inscrivent dans deux domaines liés au secteur maritime : la modélisation et le traitement de l’information maritime (équipe MOTIM), la mécanique et l’énergie en environnement naval (équipe M2EN).

L’École navale recherche une/un doctorant(e) en informatique / science des données. En complément de ses travaux de recherche, elle/il interviendra dans les domaines de formation des élèves officiers ingénieurs et des étudiants de masters de l’Ecole navale.

Titulaire d’un master (ou équivalent) en informatique, la personne recrutée devra s’investir dans les activités d’enseignement et au sein du laboratoire dans des travaux de recherche liés au traitement de l’information maritime, à l’intelligence artificielle et plus généralement aux sciences des données. La thèse s’effectuera au sein de l’équipe de recherche MoTIM dans l’objectif de contribuer au domaine du Traitement de l’Information Maritime issue de sources hétérogènes (données capteurs, signaux, images, vidéos, informations géographiques, données textuelles) à l’aide d’algorithme d’intelligence artificielle.

Sujet :
La génération de données et de jeux données pseudo-synthétiques est utilisée pour un large éventail d’activités, notamment comme données de test pour de nouveaux outils ou algorithmes, pour la validation de modèles et dans la formation de modèles d’IA [1]. Plus récemment la génération de données synthétiques créées artificiellement plutôt que générées par des événements réels a pris un essor avec l’apparition de modèles génératifs. Les données synthétiques constituent un type d’augmentation de données pour lequel les « Generative Adversarial Nets (GAN) » [2] ont montré des performances prometteuses sur divers types de données. Dans le domaine maritime, le suivi et l’analyse des mobilités a été accéléré avec l’apparition du Système Automatiquement d’Identification (AIS) qui permet la localisation des navires équipés en temps-réel et à travers tous les océans. Les données produites sont des séries spatio-temporelles impactées par des données manquantes, des problèmes d’intégrité issues des capteurs et/ou de la transmission, et des malversations de natures diverses telles que la falsification de localisation, de trajectoire ou encore d’identité [3]. Dans ce contexte, l’objectif de cette thèse est d’aborder la génération de données synthétiques et l’annotation sémantique de cette donnée. Les travaux de thèse pourront s’articuler notamment au travers des objectifs suivants :

– Développer un modèle génératif pour les données de mobilités maritimes permettant de produire des jeux de données
– Évaluer la prise en compte de données hétérogènes complémentaires ; eg. État de la mer.
– Aborder la scénarisation / annotation des jeux de données et évaluer l’utilité et l’impact de techniques « classiques » d’imputation de données pour aborder la variabilité de scénarios conçus.
– Considérer le problème de classification et de détection de nouveauté en simultanée, notamment pour la prise en compte de données falsifiées.
– Évaluer les performances / généricité de la démarche en fonction de la localisation géographique des données produites.

Profil du candidat :
Master (ou équivalent) en informatique

Intérêt pour l’enseignement.
Intérêt pour un travail de recherche sur les problématiques maritimes et navales.
Compétences techniques en traitement de l’information.
Bonnes capacités de rédaction scientifique.
Bonnes capacités relationnelles et humaines, dynamisme et charisme.

Formation et compétences requises :
bonne connaissance des outils et des modèles de base de l’Intelligence Artificielle (apprentissage automatique / profond, etc.) et des techniques de représentation et de traitement de données (géographiques) hétérogènes (corrélation de données, analyse de séries temporelles, imputation de données, etc.)

Adresse d’emploi :
Ecole Navale

Document attaché : 202206200958_FDP_2022_DFS_DDR_AER_IA.pdf

Offre de thèse : Graph Neural Networks for morpho-functional analysis a
Jul 15 – Jul 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT Tours France
Durée : 3 ans
Contact : jyramel@univ-tours.fr
Date limite de publication : 2022-07-15

Contexte :
PhD Title: Graph Neural Networks for morphofunctional analysis and comparison of brain structures

Supervisors
● Jean-Yves Ramel (PR HDR) – LIFAT Université de Tours
● Elodie Chaillou (CR HC HDR) – INRAE PRC
● En collaboration avec l’équipe iBrain, INSERM (C. Destrieux, F. Anderson)

Description
Nowadays, the development of brain imaging methods generates a considerable amount of morphological and
functional data. However, their exploration and comparison over time for an individual (development and aging),
between individuals (variability within the species), and even more so between different species have been done only
partially. We propose to model these data in the form of graphs, then to use recent approaches of artificial intelligence
to better analyze them.
This approach has already been initiated by a multidisciplinary consortium of researchers in neuroanatomy, biology
and computer science as well as neurosurgeons during the Regional projects NeuroGéo and Neuro2Co (LIFAT, INRAE,
INSERM). It led to the creation of SILA3D, a software platform (in free access) allowing the representation of anatomo-
functional data in the form of graphs thanks to an interactive semantic segmentation of images [1, 2].

Sujet :
In this context, the proposed thesis aims to create new algorithms for anatomical and functional analysis and
comparison of brain structures using recent deep neural networks techniques dedicated to graphs (GNN, geometric
deep learning …).
The general objectives of this thesis are:
– To specify different strategies for modeling the brain data as graphs. For this, morphological and functional data from
different imaging modalities, including structural MRI and tractography, will be combined using different approaches
to be defined. The PhD student will use two datasets already acquired: a) ex vivo high field MRI of the human brainstem
(iBrain and NeuroSpin) [5, 10]; b) in vivo MRI of growing lambs (PRC and PIXANIM) [8].
– To Investigate differences between individuals (human brainstem variability) and over time (monitoring lamb brain
development from birth to adulthood [7,8,9]). The PhD student will propose several graph comparison methods
exploiting recent advances in Deep Learning on Graphs (GNN) [3, 4, 11].
The scientific challenges associated with these objectives are (1) to develop new graph-based deep learning methods
for the detection and classification of particular substructures in an encephalon (semi-supervised classification of
nodes) [3, 11]; (2) to develop new graph-based deep learning methods for the comparison, discrimination, and
classification of encephalon (supervised or unsupervised classification of graphs) [4,11].

More information: https://lifat.univ-tours.fr/medias/fichier/offre-phd-gnnbrain2022_1648463721506-pdf

Profil du candidat :
Candidates must have an MSc or engineering degree in a field related to computer science or applied mathematics,
with strong programming skills (in particular with deep learning frameworks). Experience with medical image analysis
or brain analysis will be a plus. Candidates are expected to have abilities to write scientific reports and communicate
research results at conferences in English

Formation et compétences requises :
Applications should include the following documents in electronic format: i) A short motivation letter stating why you
are interested in this project, ii) A detailed CV describing your past education and research background related to the
position. iii) The transcripts for master degrees. iv) The contact information for references (do not include the
reference letters with your applications as we will only ask for the reference letters for short-listed candidates).
Please send your application package to jean-yves.ramel@univ-tours.fr and elodie.chaillou@inrae.fr
A first selection will occur and then interviews will be proposed between April and the end of May.

Adresse d’emploi :
The position will start in October 2022 with a salary of 1975 euros gross/month (legal amount for doctoral contracts
in France) and will be located in Tours, France (LIFAT Lab). Ideally located in the heart of France (Loire Valley), one hour from Paris
and 2.5 hours away from the Atlantic Ocean, Tours is a lively and dynamic city.

PhD AI-Powered Reliable and Available Wireless Mesh Networks for the Factory of the Future F/M
Jul 15 – Jul 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Orange Labs / ICube
Durée : 36M
Contact : fabrice.theoleyre@cnrs.fr
Date limite de publication : 2022-07-15

Contexte :
You will participate to experiment-based research, developing prototypes to assess the performance of your ideas in realistic environments, with concrete scientific productions. You will have the opportunity to run experiments on large-scale testbeds (with hundreds of devices). A participation to the IETF is also expected, with concrete propositions and possibilities to push ideas to standards, through the novel RAW working group.

You will be involved in an exciting environment, with several key French academic and industrial players in the Internet of Things. In particular, you will be an active participant of the future ANR CONNECT project, expected to bootstrap in 2022.

You will also be integrated in the Network research group at ICube, where several researchers have a strong experience in Internet of Things, and Internet in general. The group hosts also one part of the large-scale FIT IoT-Lab platform and you will benefit from the strong skills in experimental research and reproducibility of the group.

Orange Innovation brings together the research and innovation activities and expertise of the Group’s entities and countries. We work every day to ensure that Orange is recognized as an innovative operator by its customers and we create value for the Group and the Brand in each of our projects. With 740 researchers, thousands of marketers, developers, designers and data analysts, it is the expertise of our 6,000 employees that fuels this ambition every day.

Orange Innovation anticipates technological breakthroughs and supports the Group’s countries and entities in making the best technological choices to meet the needs of our consumer and business customers.

Within Innovation, you will join a research team in the department « Machine To Machine, Internet of Things and Smart Cities” specialized in IoT connectivity technologies. The team has about fifteen engineers and researchers and also hosts doctoral and post-doctoral students working on various cutting edge topics such as 6G physical layer design, Artificial Intelligence and communication protocols for the IoT like 802.15.4 TSCH.

Sujet :
Your role is to carry out a thesis work on “AI at the service of Reliable and Available Wireless Mesh Networks for the Factory of the Future”.

The industry is amid an in-depth transformation with the pervasive integration of sensors and actuators in the manufacturing process. So-called Industry 4.0 involves the agile combination of reliable process monitoring, data analysis and timely operational adaptation of production lines and Industrial Internet of Things (IIoT) networks, such as 5G-URLLC and IEEE 802.15.4 networks, are critical enablers to this transformation.
The later IIoT networks operate on license-free frequency bands and allow for low-power and low-cost device implementations. However, achieving latency and delivery requirements of Industry 4.0 use-cases with state-of-the-art IEEE 802.15.4 networks is still an open challenge, largely due to interference and harsh radio propagation environments.

Novel enablers at the physical layer – such as IEEE 802.15.4g radio waveforms and modulations – or at the MAC layer, i.e. IEEE 802.15.4e TSCH, are stepping stones to bridge the gap between IIoT networks capabilities on unlicensed spectrum and Industry 4.0 requirements. The new radio waveforms and modulation offer a wide range of range and bit-rate vs link budget operating points, allowing the adaptation of data-rate to link quality, while Time Slotted Channel Hopping (TSCH) mechanisms and the IETF 6TOP protocol lay the basis for a centralized orchestration of the network, enabling time-sensitive, high-availability uses-cases.

In this context, the main objective of this thesis is to define a complete toolbox allowing to orchestrate the radio communications in a wireless mesh network through a combination of centralized and distributed decision making based on Reinforcement Learning (RL) algorithms, in order to meet the reliability and latency requirements for the FoF applications.
In order to achieve this goal, you will study RL-based resource allocation and scheduling algorithms and their application to wireless mesh networks. Specifically, DQN (Deep Q Learning) algorithms for centralized long-term resource allocation, and MAB (Multi-Armed Bandit) algorithms for connectivity restoration in case of connectivity topology change, and for continuous optimization to accommodate possible variations.
The main challenges to be addressed are the modeling of endogenous/exogenous interference in a mesh network, the establishment of a constrained schedule (half-duplex radios, delay, energy consumption, etc.) and the restoration of the connectivity under constraints (respect of deadlines and delivery rate).

The main expected achievements are the design algorithms allowing the calculation of communication schedules in multi-hop networks and the establishment of backup routes in case of transmission failure according to the calculated schedule, and their integration in a PCE (Path Computation Element) network controller and demonstrator.

Profil du candidat :
You have a Master’s degree in Computer Science or Data Science.

You are creative and innovative, have good interpersonal skills and a high motivation for research. Curiosity, critical thinking, open-mindedness, autonomy, and ability to organize one’s work according to the objectives to be reached are qualities particularly appreciated for research work. Dynamism, proactiveness and communication skills are also qualities that would be appreciated. You want to transform your ideas in concrete prototypes, and to play with large-scale experiments.

Formation et compétences requises :
It is required to have some experience and in-depth knowledge of wireless networks, and to be familiar with reinforcement learning techniques. Skills in low-power radio technologies would be a plus.

You have good programming skills (C, Python) and a previous experience in embedded development, preferably on a board including a radio circuit.

Excellent level of English is mandatory. Conversational French is also desirable.

Adresse d’emploi :
Orange Labs Meylan, with frequent visits at ICube, Strasbourg

PhD Position – Apprentissage d’embeddings de codes : Applications à l’enseignement de la programmation
Jul 15 – Jul 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO (Laboratoire d’Informatique Fondamentale d’
Durée : 3 ans
Contact : guillaume.cleuziou@univ-orleans.fr
Date limite de publication : 2022-07-15

Contexte :
Improving the pedagogical efficiency of programming training platforms is a fast-growing problem that requires the construction of fine-grained and exploitable representations of learners’ programs. In this PhD thesis, we are interested in learning representations (or embeddings) of programs for pedagogical purposes.

Two main strategies for learning program embeddings have been proposed so far: approaches based on the observation of program execution results (Wang et al., 2018) and those based on the syntactic analysis of programs (Alon, 2019). In this thesis, we will consider an original approach at the intersection of these two strategies based on a representation of programs via an abstract execution sequence and thus aiming to jointly take advantage of both functional and syntactic descriptions of programs (Cleuziou&Flouvat, 2021).

Sujet :
In order to carry out this work, it will be necessary to draw inspiration from models developed for text mining purpose and to study their adaptability for computer programs. Given the specificities of this type of data (restricted vocabulary, importance of ‘words’ order, etc.), it will be interesting to consider either simple (e.g. word2vec), recurrent (e.g. LSTM, GRU), convolutive or Transformer-like (e.g. BERT) neural models.

The fundamental part of the thesis will be backed up by applicative concerns on educational data, aiming at the development of ‘Augmented Pedagogy’ environments for teachers. The aim will be to identify support tasks on which the teacher could be assisted (e.g. detection of learner ‘drop-outs’, suggestion of feedbacks, etc.) and to implement them in a Research & Development process integrated with the digital tools used by the institution’s training courses.

Profil du candidat :
Proficiency (speaking and writing) in French or in English.

Strong skills in programming languages such as Java and Python.

Experience in machine learning, data mining and deep learning.

Interest in Educational data analysis is appreciated.

Formation et compétences requises :
Master’s degree and/or engineering school degree in Mathematics/Computer Science.

Adresse d’emploi :
LIFO (Laboratoire d’Informatique Fondamentale d’Orléans)
Université d’Orléans
France

Document attaché : 202205301010_IA4CSE_PhD_Proposal_2022.pdf

Self-supervised learning for the detection of brain anomalies in MRI imaging
Jul 15 – Jul 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Collaboration GIN/CREATIS/INRIA
Durée : 36 mois
Contact : carole.lartizien@creatis.insa-lyon.fr
Date limite de publication : 2022-07-15

Contexte :
Key words: Machine learning, Deep Learning; Multidimensional data, Segmentation, Neuroimaging, Self-supervised learning, Anomaly detection, Unsupervised representation learning

The vast majority of deep learning architectures for medical image analysis are based on supervised models requiring the collection of large datasets of annotated examples. Building such annotated datasets, which requires skilled medical experts, is time consuming and hardly achievable, especially for some specific tasks, including the detection of small and subtle lesions that are sometimes impossible to visually detect and thus manually outline. This critical aspect significantly impairs performances of supervised models and hampers their deployment in clinical neuroimaging applications, especially for brain pathologies that require the detection of small size lesions (e.g. multiple sclerosis, microbleeds) or subtle structural or morphological changes (e.g. Parkinson disease).

Sujet :
To solve this challenging issue, the objective of this thesis is to develop and evaluate deep self-supervised detection and segmentation approaches whose training does not require any fine semantic annotations of the anomalies localization.
During the PhD thesis, new methodological research axes will be considered based on the prolific literature in this field. We will explore different categories of self-supervised methods, including : novel unsupervised auto-encoder based anomaly detection models leveraging on the recent developments in visual transformers blocks (ViT) or vector quantized variational autoencoders (VQ-VAE), scalability of Gaussian mixture models as well as weakly supervised models based on scarce annotations.
In a first step, we will focus on Parkinson disease and micro hemorrhage imaging data and fuse different MR modalities.

Environment : We offer a stimulating research environment gathering experts in Image processing, Neurosciences & Neuroimaging, Advanced Statistical and Machine Learning methods. The PhD position is granted by the “Défi IA” program sponsored by la Région Auvergne Rhône-Alpes.

How to apply: Send an email directly to the supervisors with your CV and persons to contact. Interviews of the selected applicants will be done on an ongoing basis. Applications will be accepted up to the 30st of June.
(see attached file for details)

Profil du candidat :
We are looking for an enthusiastic and autonomous student with strong motivation and interest in multidisciplinary research (image processing and machine learning in a medical context).

Formation et compétences requises :
Candidate should have strong background either in machine learning and/or deep learning or image processing and some experience in both fields as well as good programming skills.

Adresse d’emploi :
Location: Grenoble Neurosciences Institute: https://neurosciences.univ-grenoble-alpes.fr & CREATIS – Villeurbanne: https://www.creatis.insa-lyon.fr/. Time sharing in the two laboratories will be discussed with the selected candidates.

Document attaché : 202203281242_PhD_proposal_Self_Supervised_Learning_Neuroimaging_CREATIS_GIN_INRIA.pdf

Jul
18
Mon
2022
Cooperation between Human and AI-based system: support for organization and communication
Jul 18 – Jul 19 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LAMIH-CNRS 8201
Durée : 36 months
Contact : marie-pierre.pacaux@uphf.fr
Date limite de publication : 2022-07-18

Contexte :
The PhD study takes part in a collaboration in the international laboratory CROSSING: French-Australian Laboratory for Humans / Autonomous Agents Teaming

CROSSING addresses the Human-Autonomous agents cooperation topic with a multidisciplinary approach. The project results from 2 years of interaction of Cognitive Psychology, Artificial Intelligence and Robotics experts of the IRL. More precisely, the PhD subject takes part in the 4th section of the IRL roadmap about managing hybrid teams in which multidiscipline cooperation is required. The study implies a mirror duo in Crossing, with Anna Ma-Wyatt (Univ. of Adelaide, Cognitive Psychology) et Paulo Santos (Flinders, AI). Several stays in Adelaide will be planned.

Sujet :
As the maturity level of technology is increasing, we can now envision a real complementarity between humans and machines. The so-called “Human automation” highlighted the numerous possible combinations of complementary or shared tasks between human and machine. However, the levels of automation provided by this field focus on specific application domains and restrain combinations to rigid forms of cooperation. They do not take into account neither human capacity of adaptation, nor new abilities of technology based on artificial intelligence [1]. Human-Machine Cooperation approaches have instigated research studies addressing the definition of adaptive levels of automation. A methodology has been proposed with the objective to consider in the similar way human and artificial agents’ competences (know-how, expertise, skills) and their capacity (workload, fatigue, energy consumption) to design and adapt cooperation according to situations) [2]. The adaptation concerns changes in agents’ capacity and competence to control situations, but also changes in agents’ capacity and competence to control cooperation (know-how-to-cooperate) [2]. The models proposed by the Human-Machine Cooperation field are now ready to be translated to models proposed by the Multi-Agent Systems field, and then implemented by the Artificial Intelligence field.

The objective of the PhD is to merge the advances of automation dealing with the integration of human decision making and control with the advances of artificial intelligence dealing with system ability to learn from human. The goal is, for human and machine, to learn from each other functions to control situations, but also to learn about each other to build up efficient cooperation. This topic aims at emphasizing the agents’ abilities to communicate and to exploit knowledge reasoning in order to support building and updating a representation of the other agent. The machine must be able to explain its abilities, but also what it understands from/about human’s abilities. The design of a Common Work Space can be the support of such a communication, by enabling and making easier information sharing about situation, but most importantly information sharing about agents [3]. Agents would be able to develop “Team Situation Awareness” and would be “transparent” to each other. Human may be more confident in machine, even if overconfidence and Human-out-of-the-loop risks must be carefully monitored and controlled. Studies dealing with ethic aspects start to provide interesting clues to reach this goal [4].

The application field is crisis management, and more precisely how humans and robots may share or trade functions to control crisis situations, like the control of a fire in an open environment. Works from a previous LAMIH project so-called “SUCRé” may be continued by implementing cooperation between human and artificial agents, involved at tactical decision levels (support for decision making) or at operational decisional levels (robots).

[1] M.-P. Pacaux-Lemoine, Human-Machine Cooperation: Adaptability of shared functions between Humans and Machines – Design and evaluation aspects. Valenciennes: Habilitation à Diriger des Recherches, Université Polytechnique Hauts-de-France, France, 2020.
[2] L. Habib, M. P. Pacaux-Lemoine, and P. Millot, “A method for designing levels of automation based on a human-machine cooperation model,” IFAC-PapersOnLine, vol. 50, no. 1, pp. 1372–1377, 2017.
[3] P. Millot and M. P. Pacaux-Lemoine, “A common work space for a mutual enrichment of human-machine cooperation and team-situation awareness,” IFAC Proc. Vol., vol. 12, no. PART 1, pp. 387–394, 2013.
[4] M.-P. Pacaux-Lemoine and D. Trentesaux, “ETHICAL RISKS of HUMAN-MACHINE SYMBIOSIS in INDUSTRY 4.0: INSIGHTS from the HUMAN-MACHINE COOPERATION APPROACH,” in IFAC-PapersOnLine, 2019, vol. 52, no. 19.

Profil du candidat :
The candidate should have knowledge or experience in the human factors domain. The candidate must be able to communicate in English.

Formation et compétences requises :
Master of Science or Diploma in Computer Science, Automation or Robotics.

Adresse d’emploi :
Valenciennes, France, with several stays in Adelaide, Australia.

Jul
20
Wed
2022
Document Analysis in Legal Marketing
Jul 20 – Jul 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Vasa (http://vasa.fr)
Durée : 3 ans
Contact : Jean-sebastien.lefevre@vasa.fr
Date limite de publication : 2022-07-20

Contexte :
Dans le cadre de vos recherches, vous aurez à définir une méthodologie permettant de rendre accessible à la compréhension le contenu des graphiques, tableaux et descriptions de chacun les documents de protection sociale via des algorithmes, puis à la déployer, et ensuite à valider la pertinence de cette méthodologie par une stratégie continue d’A/B testing.

Sujet :
Analyse de documents numérisés ou nativement numériques (pdf) composites (textes, graphiques, tableaux) pour l’extraction d’informations complexes pertinentes.

Profil du candidat :
Vous disposez donc d’un niveau bac +5 en Mathématiques Appliqués, en Traitement et Analyse de données, Machine Learning ou similaire
Vous avez un intérêt marqué pour la digitalisation de l’économie et aux nouvelles technologies.

Envie de développer ses connaissances et compétences en :

• Natural Language Processing (NLP) ;
• Heterogenous Data ;
• Image Analysis ;
• Deep Neural Networks for Document Analysis.

Vous parlez couramment français et anglais. Vous savez vulgariser des notions complexes.

Vous travaillerez avec l’équipe de développeurs et de chercheurs pour transformer vos sujets de recherches en solutions commercialisables.

Formation et compétences requises :
bac +5 en Mathématiques Appliqués, en Traitement et Analyse de données, Machine Learning ou similaire

anglais et français courant

Adresse d’emploi :
PINEY (10)

Document attaché : 202206031624_Offre Thèse CIFRE IA V3.docx

PhD position on Data Profiling, Protection and Sharing
Jul 20 – Jul 21 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : LAMSADE, Université Paris Dauphine
Durée : 3 ans
Contact : kbelhajj@googlemail.com
Date limite de publication : 2022-07-20

Contexte :
The PhD thesis is part of an interdisciplinary project involving another PhD thesis on data governance in the field of management sciences. We anticipate that the interaction between the two doctoral students will lead to interdisciplinary contributions in addition to computer science-focused solutions.

The PhD candidate will work in close collaboration with members of the data science team of the Paris Dauphine University. The problems investigated and solutions developed will be guided and validated within case studies in the fields of health and economics.

Sujet :
We have an opening for a PhD position with the objective to develop new solutions to help data providers who wish to share their data to better understand it, and to choose the best-suited data protection policies. To do so, the PhD Student will be investigating techniques for profiling and linking datasets that would help data providers to gain insight into their data, to estimate its (economic) value, and to choose data protection strategies that go beyond privacy protection to take into account the protection of the data provider’s economic assets.

Profil du candidat :
We seek strongly motivated candidates prepared to dedicate to high quality research. The candidate should have (or be close to obtaining) a Master’s degree or equivalent in computer science or applied mathematics. Starting date September/2022.

The successful candidate will enroll as a PhD student in the Computer Science department of the Paris-Dauphine University (under the co-direction of myself and Prof. Daniela Grigori) and will become a member of the Data Science team of the same university. Paris Dauphine University is located in the city of Paris, and is a member of PSL (Paris Sciences et Lettres).

Formation et compétences requises :
Interested candidates are invited to send the following to khalid.belhajjame@dauphine.fr and
daniela.grigori@lamsade.dauphine.fr

– academic CV
– academic transcripts of BSc and MSc
– one page motivation letter explaining why the candidate is suitable for the position
– contact details of two referees

Adresse d’emploi :
Université Paris Dauphine, Paris

khalid.belhajjame@dauphine.fr
daniela.grigori@lamsade.dauphine.fr

Document attaché : 202206040950_annoce_phd_position.txt

Jul
31
Sun
2022
Abductive Reasoning with Minimal Sensing in a Home Environment
Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS / Mines Saint-Étienne
Durée : 3 ans
Contact : victor.charpenay@emse.fr
Date limite de publication : 2022-07-31

Contexte :
The thesis is equally funding by ANR (Agence Nationale de la Recherche) and elm.leblanc, one of the leading home automation system vendors. One of the main technical challenges in modern home automation is to using Artificial Intelligence (AI) to minimize the energy consumption of technical systems without loss of comfort. For instance, the production of hot water can be optimized by dynamically adapting the temperature of water and the time of use of the boiler based on activities monitored in the home. The general objective of the thesis is to monitor human activities without ubiquitous sensing capabilities.

Sujet :
The domain of research of the thesis is knowledge representation and reasoning, a subfield of AI. Its objective is to evaluate abductive reasoning methods over sensor measurements performed in a home environment. The baseline assumption of the thesis is that only minimal sensing is available in the home, as is the case in most homes today: smart meters provide aggregated values (every hour/day) but no information is available per room. Abductive reasoning is expected to help optimize home automation systems without relying on some ubiquitous sensing apparatus (which raises environmental, technical and privacy-preservation questions). Several abduction mechanisms will be evaluated, including Abductive Logic Programming (for an exhaustive exploration of hypothesis space) and neural-symbolic integration methods (for a probabilistic exploration of hypothesis space).

Profil du candidat :
Candidates are expected to have prior knowledge in AI, especially in computational logics, logic programming and/or Semantic Web technologies. Basic understanding of statistical inference methods and linear programming is also considered relevant.

Candidates whose background is machine learning may apply as well. A cover letter exposing the candidate’s motivation to combine (neural) learning methods with symbolic AI is however expected.

Formation et compétences requises :
Holder of a Master’s degree in computer science or data science. Technical skills required for the thesis include: multi-paradigm programming (Java, Lisp, R, Prolog, …), data modeling (UML, OWL, E/R, BPMN, …), Linux system administration (Bash, SSH, Docker, …).

Adresse d’emploi :
Saint-Étienne (with stays in Paris and/or Lille-Douai)

Document attaché : 202206071402_phd-offer.pdf

Fine-grained, multimodal speech anonymization
Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Inria Nancy & Lille
Durée : 36 mois
Contact : emmanuel.vincent@inria.fr
Date limite de publication : 2022-07-31

Contexte :
This PhD is part of the “Personal data protection” project of PEPR Cybersécurité, which aims to advance privacy preservation technology for various application sectors. It will be co-supervised by Emmanuel Vincent and Marc Tommasi. The PhD student will have the opportunity to spend time in both the Multispeech and Magnet teams, to collaborate with 9 other research teams in France and with the French data protection authority CNIL, and to contribute to the project’s overall goals including the organization of an anonymization challenge.

Sujet :
Large-scale collection, storage, and processing of speech data poses severe privacy threats [1]. Indeed, speech encapsulates a wealth of personal data (e.g., age and gender, ethnic origin, personality traits, health and socio-economic status, etc.) which can be linked to the speaker’s identity via metadata or via automatic speaker recognition. Speech data may also be used for voice spoofing using voice cloning software. With firm backing by privacy legislations such as the European general data protection regulation (GDPR), several initiatives are emerging to develop and evaluate privacy preservation solutions for speech technology. These include voice anonymization methods [2] which aim to conceal the speaker’s voice identity without degrading the utility for downstream tasks, and speaker re-identification attacks [3] which aim to assess the resulting privacy guarantees, e.g., in the scope of the VoicePrivacy challenge series [4].

The first objective of this PhD is to improve the privacy-utility tradeoff by better disentangling speaker identity from other attributes, and better decorrelating the underlying dimensions. Solutions may rely on suitable generative or self-supervised models [5, 6] or on adversarial learning [7]. The resulting privacy guarantees will be evaluated via stronger attackers, e.g., taking metadata into account.

The second objective is to extend the proposed audio-only approach to multimodal speech (audio, facial video, and gestures). Solutions will exploit existing facial anonymization technology [8]. A key difficulty will be to preserve the correlations between modalities, which are essential for training multimodal voice processing systems.

Depending on the PhD student’s skills, additional directions may also be explored, e.g., evaluating the proposed anonymization solutions in the context of federated learning.

[1] A. Nautsch, A. Jimenez, A. Treiber, J. Kolberg, C. Jasserand, E. Kindt, H. Delgado, M. Todisco, M. A. Hmani, M. A. Mtibaa, A. Abdelraheem, A. Abad, F. Teixeira, M. Gomez-Barrero, D. Petrovska, N. Chollet, G. Evans, T. Schneider, J.-F. Bonastre, B. Raj, I. Trancoso, and C. Busch, “Preserving privacy in speaker and speech characterisation,” Computer Speech and Language, vol. 58, pp. 441–480, 2019.

[2] B. M. L. Srivastava, M. Maouche, M. Sahidullah, E. Vincent, A. Bellet, M. Tommasi, N. Tomashenko, X. Wang, and J. Yamagishi, “Privacy and utility of x-vector based speaker anonymization,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, to appear.

[3] B. M. L. Srivastava, N. Vauquier, M. Sahidullah, A. Bellet, M. Tommasi, and E. Vincent, “Evaluating voice conversion-based privacy protection against informed attackers,” in 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2802–2806, 2020.

[4] N. Tomashenko, X. Wang, E. Vincent, J. Patino, B. M. L. Srivastava, P.-G. Noé, A. Nautsch, N. Evans, J. Yamagishi, B. O’Brien, A. Chanclu, J.-F. Bonastre, M. Todisco, and M. Maouche, “The VoicePrivacy 2020 Challenge: Results and findings,” Computer Speech and Language, vol. 74, pp. 101362, 2022.

[5] L. Girin, S. Leglaive, X. Bie, J. Diard, T. Hueber, and X. Alameda-Pineda, “Dynamical variational autoencoders: A comprehensive review,” Now Foundations and Trends, 2021.

[6] A. Baevski, H. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A framework for self-supervised learning of speech representations,” in Advances in Neural Information Processing Systems, pp. 12449–12460, 2020.

[7] B. M. L. Srivastava, A. Bellet, M. Tommasi, and E. Vincent, “Privacy-preserving adversarial representation learning in ASR: Reality or illusion?” in Interspeech, pp. 3700–3704, 2019.

[8] T. Ma, D. Li, W. Wang, and J. Dong, “CFA-Net: Controllable face anonymization network with identity representation manipulation,” arXiv preprint arXiv:2105.11137, 2021.

Profil du candidat :
Strong programming skills in Python/Pytorch.
Prior experience in speech and video processing will be an asset.

Formation et compétences requises :
MSc in computer science, machine learning, or signal processing.

Adresse d’emploi :
https://jobs.inria.fr/public/classic/en/offres/2022-05013

PhD in machine learning/signal processing
Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRIStAL (Lille, France), NUS (Singapore)
Durée : 3 years
Contact : remi.bardenet@gmail.com
Date limite de publication : 2022-07-31

Contexte :
URL: http://rbardenet.github.io/pdf/phd-proposal.pdf
Context: “Baccarat” AI chair.
Supervisors: Rémi Bardenet (CNRS, Univ. Lille) and Subhro Ghosh (NUS, Singapore).

A point process is a random discrete set of points in a generic space. A broad interest has emerged in ML and signal processing around point processes that exhibit a regular, repulsive arrangement of their points. For instance, sampling repulsive (i.e., diverse) minibatches yields variance reduction in stochastic gradient descent (Bardenet, Ghosh, and Lin, NeurIPS 2021). As another example, moments of pure silence in the musical score of white noise are a repulsive point process that can be leveraged for signal detection (Bardenet, Flamant, and Chainais, ACHA 2020).

Sujet :
To get acquainted with the interdisciplinary topic of repulsive point processes, we shall start with a project that fits in ongoing collaboration between the two supervisors. Ideally, this project shall be tackled during a master’s level internship prior to starting the PhD. Depending on the student’s background and taste, this can be, e.g., (i) topological data analysis applied to the zeros of random spectrograms (the technical for a time-frequency musical score). Alternately, the internship could revolve around (ii) negatively dependent subsampling for large-scale machine learning. For instance, how can we efficiently build repulsive minibatches in stochastic gradient descent?

After this first project, the three of us will pick an ambitious open problem in line with the objectives of the Baccarat AI chair, according to the student’s interest. Candidate problems include identifying and studying repulsive point processes for high-dimensional Monte Carlo integration, fast sampling algorithms for determinantal point processes in machine learning, dictionary learning for signal processing, or studying zeros of wavelet transforms of random signals to use them in filtering tasks.

Profil du candidat :
The ideal candidate has a strong background in either probability, statistics, ML, or signal processing, and a taste for interdisciplinarity.

Formation et compétences requises :
A master in either probability, statistics, ML, or signal processing.

Adresse d’emploi :
Centre de recherche en informatique, signal et automatique de Lille; Department of Statistics and Data Science, National University of Singapore.

PhD Position on Datalog Reasoning – INRIA/LIRMM
Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : INRIA/LIRMM
Durée : 3 ans
Contact : david.carral@inria.fr
Date limite de publication : 2022-07-31

Contexte :
This PhD proposal is funded by the bilateral project R4Agri (https://www.dfki.de/en/web/news/ai-supported-decision-making-systems-for-agriculture-german-french-project-r4agri-launched). The goal of the projet is to carry fundamental research on hybrid IA techniques which will have later a potential for technological transfert, in particular in the context for automatized agronomy.

Sujet :
The topic of the PhD revolves around Datalog reasoning on Knowledge Graphs. Targeted issues include explanations and probabilistic reasoning.

Profil du candidat :
The ideal candidate for this position has a strong interest in symbolic AI, together with solid skills in theoretical computer science. A background on programming is also very much appreciated.

Topic description :
https://www-sop.inria.fr/members/David.Carral/files/r4agri-phd-topic.pdf

Formation et compétences requises :
Technical topics include (among others) first order logic, symbolic reasoning, and databases.

Adresse d’emploi :
Inria Montpellier
860 Rue de St – Priest
Montpellier

Document attaché : 202205190832_r4agri-phd-topic.pdf

Sujet de thèse en IA appliquée à l’hydroacoustique
Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université de Brest
Durée : 3 ans
Contact : dorian.cazau@ensta-bretagne.fr
Date limite de publication : 2022-07-31

Contexte :
cf Présentation du projet du pdf joint

Sujet :
Application de l’intelligence artificielle à la détection automatique d’évènements pour les observat

Profil du candidat :
Le candidat doit avoir une solide expérience en programmation et en AI, et en éventuellement mathématiques et physique (traitement du signal et propagation des ondes).

Formation et compétences requises :
Formation universitaire ou école d’ingénieurs niveau master 2 en informatique, mathématiques ET/OU en océanographie, physique, sismologie

Adresse d’emploi :
Laboratoire Geo-Ocean (https://www.geo-ocean.fr/), Technopôle Brest-Iroise, Brest 29200

Document attaché : 202203041050_Bazin_LGO_IACOUSA_fr.pdf

Aug
20
Sat
2022
Détection d’anomalies en apprentissage machine
Aug 20 – Aug 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : UTT/LIST3N
Durée : 3 ans
Contact : alexandre.baussard@utt.fr
Date limite de publication : 2022-08-20

Contexte :
L’apprentissage machine et plus particulièrement l’apprentissage profond (deep learning) permettent d’obtenir des performances très élevées lorsqu’on cherche par exemple à détecter et reconnaitre des objets ou encore à classifier des zones d’intérêt dans des images ou des vidéos. Cependant, en utilisation réelle, il faut décider si une nouvelle observation appartient à la même distribution que les observations existantes (utilisées lors de l’apprentissage), ou si elle doit être considérée comme différentes. Ce type de distinctions peut intervenir à deux niveaux selon les contextes. Dans un premier cas les données d’apprentissage contiennent des observations aberrantes qui sont définies comme des observations éloignées des autres. Les estimateurs de détection des aberrations tentent donc d’ajuster les régions où les données d’apprentissage sont les plus concentrées, en ignorant les observations déviantes. Dans le second cas, les données d’apprentissage ne sont pas polluées par des valeurs aberrantes, mais ces dernières peuvent survenir lors de la phase de te. Dans ce cas, nous sommes intéressés à adjoindre aux méthodes de reconnaissance une aptitude à écarter les nouvelles observations aberrantes. Nous sommes donc intéressés à détecter si une nouvelle observation est une valeur aberrante. Il s’agit notamment d’éviter que le système prenne une décision, à tort, avec une grande confiance. Dans ce contexte, la détection d’une observation aberrante peut avoir différents intérêts car elle pourrait par exemple être liée à une information pertinente jamais rencontrée ou non apprise jusqu’ici. Il apparaît donc important de pouvoir détecter dans un premier temps ces anomalies et, dans un deuxième temps, d’essayer de les exploiter pour mettre en évidence d’éventuelles nouvelles données utiles.

Sujet :
Dans le cadre de ce projet, nous allons nous focaliser sur le deuxième cas, à savoir la détection d’anomalies en condition d’utilisation réelle. Notre objectif en développant ces méthodes de détection est double. Il s’agit d’éviter les erreurs et de progresser vers une meilleure compréhension du processus de prise de décision par ces systèmes souvent considérés comme des « boîtes noires », dont le fonctionnement interne n’est pas explicable. Cela pourra aussi contribuer à caractériser les éléments conduisant à la prise de décision, par exemple via un niveau de confiance dans la décision.

Profil du candidat :
Le candidat recherché est de niveau master ou équivalent avec des compétences en mathématiques appliquées, programmation (python), traitement de l’information, analyse de données.

Formation et compétences requises :
Une première expérience dans le domaine de l’apprentissage machine (notamment deep learning) et en programmation avec TensorFlow ou Pytorch seront un plus.

Adresse d’emploi :
Université de Technologie de Troyes

Aug
31
Wed
2022
Artificial Intelligence for Agrigulture
Aug 31 – Sep 1 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Univ. de Brashov (Roumanie) / Univ. de Toulouse (I
Durée : 36
Contact : josiane.mothe@irit.fr
Date limite de publication : 2022-08-31

Contexte :
IA4AGRI is a European project where the Universities of Toulouse, Rome and Brashov work together.

Sujet :
The overall context is Artificial intelligence for agriculture; it includes working with Earth observation data, factual and textual data.

Profil du candidat :
You are interested on these topics?
You have a Master on related topics (Artificial intelligence, computer science, Earth observation, …)
Please send an email to Josiane.Mothe@irit.fr, along with your CV (inclusing your rank and awards), the topic you would like to work on, an any other information you find relevant (e.g. motivation).
Applications to be sent to Josiane.Mothe@irit.fr

Formation et compétences requises :
– Top ranked in your master degree
– At least B2 English
– Modules on Machine learning, Artificial intelligence, Image or data analysis

Adresse d’emploi :
You would like working in collaboration with Romania and Italy or France?

Coverage Measures for Machine Learning Enabled Cyber-Physical Systems
Aug 31 – Sep 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université Grenoble Alpes (UGA), Verimag Laborato
Durée : 3 ans
Contact : thao.dang@univ-grenoble-alpes.fr
Date limite de publication : 2022-08-31

Contexte :
The thesis is fully funded for three years by a grant from region Auvergne-Rhône-Alpes starting in 2022.
The description of the topic can be found at https://www.decyphir.com/PhD_Position_DETAI22.html

Cyber Physical Systems (CPS) are systems mixing software and hardware (cyber) components in interaction with their (physical) environment. Typical examples includ autonomous cars, robots, medical devices. Mathematically, they are modelled with so-called hybrid systems, which are dynamical systems with multiple modes, which can be continuous or discrete in nature. Since the modelisation includes the physical/biological environment, the models can be of arbitrary complexity, from trivial (not all models need be complex to be useful) to untractable for nowadays computational resources due to the infiniteness of input and state spaces of these systems. Hence new methods and tools are always needed to manage and handle the type of heterogeneous computations and data generated by the analysis and design of hybrid systems.

Sujet :
In this thesis, we want to tackle this issue from the angle of coverage measures. Given a CPS problem and some data and/or models (e.g., a hybrid system) associated to it, the question is: what is the mathematical domain that can represent all possible data that can be observed, and can we measure how well the given data represent this domain? This question is of primordial theoretical and practical interest in many contexts. One popular contemporaneous instance is that of machine learning (ML). It is well-known that ML-based algorithms, which are more and more used for CPS design, are only as good as the data used to train them. However it is much less well understood how to formally define the “goodness” of the data at our disposal. Hence there is a need for meaningful measures that can be computed and used not only to quantify the quality of a set, but also to fix it by, e.g., shrinking or augmenting it to better represent a domain to learn.
The questions of coverage, sampling, data augmentation, ML, CPS, etc are not new and topics that have attracted a lot of interest recently. The originality of this thesis will be to tackle these problems from the perspective of hybrid systems and formal methods, which are two research directions in which Verimag and Decyphir are specialized into and internationally recognized for. The intrinsic hybrid nature of data and systems considered in machine learning for CPS is often overlooked and we believed there is a need to study it in a more systematic and explicit way. Formal methods makes it possible to derive more rigorous guarantees and the hope is also that through the use of specification languages such as, e.g., Signal Temporal Logics (STL), they can help in the development of “explainable” measures, i.e., measures that are directly related to precisely formulated requirements as opposed to some hard to interpret mean squared error quantity as is the most frequent practice.

Profil du candidat :
We are looking for candidates with a Master degree in computer science or control engineering interested in CPS, artificial intelligence and machine learning. The thesis is expected to feature a strong experimental and development component but opportunities to developping theoretical contributions will also be likely. As a consequence, candidates with both theoretical and practical inclinations are welcome to apply.

Formation et compétences requises :
Master degree in computer science or control engineering

Adresse d’emploi :
Verimag Laboratory, Université Grenoble Alpes (UGA),
700 avenue centrale
38400 Saint Martin D’Hères

Sep
4
Sun
2022
Non-Stationary and robust Reinforcement Learning methodologies for surveillance applications
Sep 4 – Sep 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire des signaux et systèmes (L2S), Univers
Durée : 3 ans
Contact : stefano.fortunati@centralesupelec.fr
Date limite de publication : 2022-09-04

Contexte :
Reinforcement Learning (RL) methodologies are currently adopted in different context requiring sequential decision-making tasks under uncertainty [1]. The RL paradigm is based on the perception-action cycle, characterized by the presence of an agent that senses and explores the unknown environment, tracks the evolution of the system state and intelligently adapts its behaviour in order to fulfil a specific mission. This is accomplished through a sequence of actions aiming at optimizing a pre-assigned performance metric (reward). There are countless applications that can benefit from this perception-action cycle (traffic signal control, robots interactions the physical objects, just to cite a few), each of which is characterized by a peculiar definition of “uncertainty” or “unknown environment”. A more precise definition of this uncertainty strongly depends on the particular domain considered. However, there is at least one crucial assumption underlying the majority of classical RL algorithms: the stationarity of the environment, i.e. the statistical and physical characterization of the scenario, is assumed to be time-invariant. This is clearly a quite restrictive limitation in many real-world RL applications, where the agent is usually embedded in a changing scenario whose both statistical and physical characterization may evolve over time. Due to the crucial importance of including the non-stationarity in the RL framework, both theoretical and application-oriented non-stationary approaches have been proposed recently in the RL literature (e.g. [2], [3]). Among the numerous potential applications, in this project we will focus on the problem of Cognitive Radar (CR) detection in unknown and non-stationary environment. Specifically, building upon the previous works [4], [5], we will aim at proposing an RL based algorithm for cognitive multi-target detection in the presence of unknown, non-stationary disturbance statistics. The radar acts as an agent that continuously senses the unknown environment (i.e., targets and disturbance) and consequently optimizes transmitted waveforms in order to maximize the probability of detection (PD) by focusing the energy in specific range-angle cells.

Sujet :
The scientific goal of the proposed PhD thesis is twofold. Firstly, the PhD candidate will get familiar and develop original RL-based algorithms for non-stationary environments. These theoretical outcomes will be then applied to a specific scenario of great interest nowadays: the radar detection of drones. More specifically, the PhD thesis will be structured in two steps:
1. Theoretical foundation of non-stationary RL algorithms: The aim of this first step is to develop an original theoretical foundation of non-stationary Markov Decision Processes (MDP) [2]. In particular, the candidate will investigate the possibility to generalize classical RL methodologies to MDP characterized by a time-varying sets of states, actions and reward functions. This non-stationary generalization is of crucial importance for a wide variety of applications and it is an almost unexplored research field.
2. Surveillance applications and drone detection: The theoretical results obtained in the first part of the PhD thesis will then be used to derive and implement new algorithms for drones detection and tracking using radar systems [4], [5]. Specifically, we will consider a co-located Multiple-Input-Multiple-Output (MIMO) radar with a large (“massive”) number of transmitters and receivers. It has been shown, in fact, that this massive MIMO configuration allows one to dispense with unrealistic assumptions about the a-priori knowledge of the statistical model of the disturbance [4].

[1] R. S. Sutton, A. G. Barto (2018). Reinforcement Learning: An Introduction. MIT press, Cambridge,
[2] E. Lecarpentier, E. Rachelson, “Non-Stationary Markov Decision Processes, a Worst-Case Approach using Model-Based Reinforcement Learning,” Advances in Neural Information Processing Systems 32 (NeurIPS 2019), 2019, pp. 7214–7223.
[3] S. Padakandla, K. J. Prabuchandran, S. Bhatnagar, “Reinforcement learning algorithm for non-stationary environments,” Applied Intelligence 50, 3590–3606 (2020).
[4] S. Fortunati, L. Sanguinetti, F. Gini, M. S. Greco, and B. Himed, “Massive MIMO radar for target detection,” IEEE Transactions on Signal Processing, vol. 68, pp. 859–871, 2020.
[5] A. M. Ahmed, A. A. Ahmad, S. Fortunati, A. Sezgin, M. S. Greco, and F. Gini, “A reinforcement
learning based approach for multitarget detection in massive MIMO radar,” IEEE Transactions on Aerospace and Electronic Systems, vol. 57, no. 5, pp. 2622–2636, 2021.

Profil du candidat :
This interdisciplinary project requires skills in statistical signal processing and machine learning, with specifical focus on Reinforcement Learning. Basic knowledge of radar principles may be useful but not required. Concerning the programming languages, the candidate should have a good knowledge of Matlab and possibly of Python.

Formation et compétences requises :
1) Statistics,
2) Reinforcement Learning,
3) Statistical Signal processing.

Adresse d’emploi :
Laboratoire des signaux et systèmes (L2S),
bât. Bréguet, 3, rue Joliot Curie,
91190 Gif-sur-Yvette.

Document attaché : 202206030915_PhD_Proposal_Fortunati.pdf

Sep
15
Thu
2022
Apprentissage automatique de la dynamique des utilisateurs dans les bâtiments intelligents
Sep 15 – Sep 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : L@bISEN Yncréa Ouest, Equipe Vision-AD/KARDHAM
Durée : 3 ans
Contact : matthieu.saumard@isen-ouest.yncrea.fr
Date limite de publication : 2022-09-15

Contexte :
En France, la consommation énergétique dans le secteur du bâtiment (résidentiel et tertiaire) représente 44% de la consommation globale, loin devant celle dans l’industrie et les transports [1]. Cette consommation est équivalente à 1,1 tonne de pétrole par an et par habitant. Cette part de consommation ne cesse d’augmenter pour totaliser une hausse de 30% sur les dernières 3 décennies. Entretemps, les bâtiments modernes intègrent de plus en plus des composantes digitales comme les capteurs, microcontrôleurs et moyens de communications. Les objets connectés deviennent une composante nécessaire dans les nouvelles constructions et les cas d’usages de ces objets dans les bâtiments fusent avec un objectif global de contribuer à la maitrise de la consommation dans les bâtiments et à leur réduction. De nouveaux systèmes ont vu le jour pour (i) être informé de l’état du bâtiment ou pour (ii) agir sur les bâtiments comme les solutions EcoStrcuture ou Gapéo dédiée au pilotage du confort et de la performance environnementale et énergétique.
L’usage des nouvelles technologies dans le bâtiment n’est pas exclusivement dédié aux réductions des énergies. La sécurité, l’amélioration du confort thermique, la gestion intelligente des espaces de travail sont un exemple de réalisations récentes. Plus particulièrement, la combinaison des techniques de captation de données avec les avancées récentes dans le domaine de l’intelligence artificielle peut contribuer à la mise en place d’application permettant la fluidification du parcours du collaborateur en entreprise. En effet, avec les nouvelles tendances regroupées dans un paradigme connu sous le nom du New World of Work (NWOW), il est intéressant pour l’entreprise de connaitre l’occupation temps réel de ses espaces de travail et de faire des profils d’utilisation selon l’activité, le collaborateur, l’espace de travail, la temporalité, etc. L’objectif étant de pouvoir réserver aux éventuels espaces sous-utilisés un nouvel usage ou de les rentabiliser avec de la location ce qui permet également des économies financières pour l’entreprise et énergétique pour la ville.

Sujet :
Face à ce paysage concurrentiel, le groupe Kardham Digital souhaite proposer des solutions innovantes pour permettre à l’industrie de l’immobilier de l’entreprise une meilleure efficacité économique. Le constat que nous faisons est que les bâtiments intelligents reposent sur peu d’algorithmes, qui de surcroît, manquent d’interaction avec les usagers. Ces derniers souhaitent reprendre le contrôle sur le bâtiment en ajoutant des services innovants. Par conséquent, la prise en compte du comportement de l’occupant de l’espace connecté présente un enjeu majeur et nécessite des études plus approfondies.
Plus particulièrement, à travers cette thèse, nous cherchons à répondre à des nouvelles questions posées par ce contexte. Des questions prosaïques telles que :
– Comment réduire les espaces tout en maximisant le confort des utilisateurs ?
– Quelles applications pouvons-nous proposer pour faciliter la vie à l’intérieur du bâtiment ?
– Comment répondre au mieux aux demandes des propriétaires des immeubles qui cherchent à augmenter l’attractivité de leur bien en proposant des services innovants et performants ?
– Quels services pouvons-nous rendre aux locataires pour fluidifier l’expérience des utilisateurs et collaborateurs ?
– Quels usages pouvons-nous tirer des capteurs générant des données ? Quels capteurs nous donneront accès à des cas d’usage plus pertinents ? Cet usage compensera-t-il le cout énergétique de fabrication du capteur ?
– Peut-on avoir une cartographie sur les flux des données échangés dans le bâtiment connecté et comment utiliser ces données massives ?
– Quelle différentiation entre l’occupation des salles de réunion et de bureaux individuels ?
– Dans quelles mesures les services proposés sont dynamiques ?
Finalement, par cette thèse nous souhaitons proposer une solution logicielle à base d’algorithmes capables de manipuler et analyser des données dans le cadre du bâtiment tertiaire intelligent. A travers ces algorithmes, de nouveaux services seront proposés exploitant la prédiction du comportement de l’occupant de l’environnement connecté. Les données collectées dans le bâtiment intelligent de Kardham feront l’objet d’observations sur le terrain, puis à l’aide de modèles mathématiques (Machine Learning) seront éprouvées et expérimentées. Les algorithmes sous-jacents seront alors déployés en phase de test avec retour d’expérience et amélioration des méthodes.

Profil du candidat :
Pour cette thèse, nous recherchons un(e) jeune doctorant(e) fortement motivé(e) et ayant un goût prononcé pour l’innovation. Il/elle devra participer au développement de la solution qui s’intègre dans les offres proposées Kardham Digital.

Formation et compétences requises :
Concernant les aspects liés à la recherche, le/la candidat(e) devra être titulaire d’un Master ou d’un diplôme d’ingénieurs avec des compétences en Machine Learning, intelligence artificielle et/ou gestion des données massives. Il/elle est aussi nécessaire qu’il/elle ait une expérience réussie dans le développement informatique. Un recul sur les questions sociales liées aux bâtiments et à la ville intelligents est nécessaire. Un excellent niveau d’expression en français à l’écrit et à l’oral est exigé.

Adresse d’emploi :
– 10 Rue du Débarcadère 75017 Paris, France
– 33 quarter chemin du champ de manoeuvre, Carquefou, France

Document attaché : 202205110720_Sujet_Kardham_ISEN_10052022 (002).pdf

Asynchronous MCMC algorithms for fast Bayesian inference
Sep 15 – Sep 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRIStAL UMR 9189 (Lille)
Durée : 3 ans
Contact : pierre.chainais@centralelille.fr
Date limite de publication : 2022-09-15

Contexte :
The project is part of the ANR Chaire IA SHERLOCK (Fast inference with controlled uncertainty: application to astro- physical observations) led by Pierre Chainais (co-funded by Agence Nationale de la Recherche (ANR), ISITE, Centrale Lille Institut and Région Haut-de-France). The succesful candidate will be jointly supervised by Pierre Chainais and Pierre-Antoine Thouvenin in the CRIStAL lab (UMR 9189), Lille, France.
This work will be conducted in the continuity of an ongoing collaboration initiated by Pierre-Antoine Thouvenin with Audrey Repetti – research associate at Heriot-Watt University – and Pierre Chainais. There will be opportunities for short or longer stays at Heriot-Watt University.
The successful candidate will have access to the medium scale computing center from the Universtiy of Lille, and the national flagship Jean Zay supercomputer.

Sujet :
1 Project overview
This project is aimed at accelerating MCMC algorithms for fast Bayesian inference in large scale problems. Applications in astronomy (e.g., hyperspectral imaging) or in remote sensing (e.g., multimodal multi-temporal source separation) could be considered. The project is part of the ANR Chaire IA SHERLOCK led by Pierre Chainais (co-funded by ISITE, Centrale Lille Institut and Région Haut-de-France).
Many signal and image processing applications, ranging from astronomy (Abdulaziz et al. 2019; Cai et al. 2018) to remote sensing (Borsoi et al. 2021; Ghamisi et al. 2019), involve large datasets. In absence of ground truth, fast parameter inference under controlled uncertainty is critical to guarantee the quality of the resulting predictions.
Asynchronous (parallel or distributed) optimization algorithms have recently regained interest due to their potential of acceleration, in comparison with their synchronous counterparts (Hannah et al. 2017). However, optimization algorithms only bring a point estimate, such as the maximum a posteriori (MAP) estimator. Markov-chain Monte Carlo (MCMC) methods bring a richer information by sampling the posterior distribution of the model. MCMC methods are known to induce larger computational costs compared to optimization algorithms. Nevertheless, recent works at the interface between deterministic and stochastic optimization have introduced efficient samplers to address larger datasets (Durmus et al. 2018; Vono et al. 2020). With the exception of (Simsekli et al. 2018; Terenin et al. 2020), asynchronous MCMC algorithms largely remain to be investigated.
This PhD project is aimed at studying the potential of asynchronous MCMC algorithms for fast Bayesian inference in high dimensional problems.
Keywords. Bayesian inference, MCMC algorithms, asynchronous algorithms.

Profil du candidat :
Master 2 or last year engineering school students with major in applied mathematics, computer science or electrical engineering. The project requires a strong background in data science and/or machine learning (statistics, optimization), signal & image processing. Very good Python coding skills are expected. A B2 English level is mandatory.
Knowledge in C++ programming, as well as experience or interest in parallel/distributed code development (MPI, OpenMP, CUDA, …) will be appreciated.

Formation et compétences requises :
A B2 English level is mandatory.
Knowledge in C++ programming, as well as experience or interest in parallel/distributed code development (MPI, OpenMP, CUDA, …) will be appreciated.

Adresse d’emploi :
CRIStAL, Cité Scientifique, 59651 Villeneuve d’Ascq Cedex

Document attaché : 202201242015_phd_project_2022.pdf