
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ETIS, MAP
Durée : 3 ans
Contact : dan.vodislav@u-cergy.fr
Date limite de publication : 2024-12-31
Contexte :
Cette thèse est financée par la Fondation des Sciences du Patrimoine (FSP), qui soutient des projets de recherche transdisciplinaires sur le patrimoine culturel matériel. La FSP est également coordinatrice de l’EquipEx+ ESPADON, dont l’objectif est la création d’une plateforme instrumentale d’étude des objets du patrimoine matériel, associée à une plateforme numérique qui assure l’interopérabilité et la gestion efficace des données produites par cette plateforme et par les études sur les objets, tout au long de leur cycle de vie.
L’un des objectifs centraux d’ESPADON est la création de l’objet patrimonial augmenté (OPA), qui associe à l’objet matériel l’ensemble des données produites lors des études sur cet objet: données descriptives, d’analyse instrumentale, de spatialisation, de transformation, etc., mais aussi des données spécifiques à divers domaines d’application: art, conservation-restauration, études historiques, médiation culturelle, etc., qui enrichissent continuellement les connaissances sur l’objet et les possibilités d’étude multi-aspects.
La création de l’OPA implique la conception de modèles de données communs et modulables, de méthodes de production, intégration, pérennisation, enrichissement, partage, consultation de données, ainsi que la réalisation d’outils efficaces et intuitifs mettant en pratique ces méthodes. Une attention particulière sera accordée à la formalisation explicite des protocoles de recherche. Cette démarche vise à documenter et harmoniser les processus scientifiques et méthodologiques sous-jacents à la production, l’intégration et la validation des données, tout en assurant leur traçabilité et leur réutilisation.
Dans un contexte proche, le projet européen ECHOES a pour objectif de concevoir et réaliser une infrastructure européenne de cloud collaboratif pour le stockage des données du patrimoine culturel, qui servent de base à un écosystème numérique de partage, recherche, enrichissement, etc. des connaissances dans ce domaine.
La thèse se situe dans le contexte de ces deux projets phares de la communauté des sciences du patrimoine, pour proposer des modèles et méthodes pour la représentation, la production, la consultation et l’exploitation distribuées des données des OPA. La thèse s’appuiera sur des travaux déjà initiés par la communauté et sur un dialogue avec différents acteurs du projet, représentatifs de la diversité des sciences du patrimoine. En parallèle, une formalisation explicite des protocoles de recherche permettra de structurer les échanges et d’assurer une cohérence méthodologique entre les acteurs, tout en renforçant l’interopérabilité des données et des pratiques.
Sujet :
Les principaux objectifs scientifiques de la thèse sont :
– L’élaboration d’un modèle de données pour l’objet patrimonial augmenté, capable d’intégrer l’extrême hétérogénéité des données pour différents types d’objets et de domaines d’études. Le modèle doit articuler des représentations communes, basées sur les graphes de connaissances utilisant les ontologies autour de CIDOC-CRM [2] et autres extensions [1][3][5], avec la possibilité d’intégrer des données de sources qui suivent des modèles spécifiques. Une attention particulière sera accordée aux approches narratives de représentation des connaissances pour produire des modèles génériques communs.
– La définition de protocoles de production [4], de gestion, d’intégration [6], d’interrogation et d’enrichissement des données dans un environnement distribué de sources d’information, en s’appuyant sur les modèles de données mentionnés ci-dessus. Cet objectif concerne les problématiques de gestion de graphes de connaissances distribués [8] et semi-homogènes, représentant des OPA.
– La conception de méthodes automatiques pour l’extraction de connaissances à partir de données peu structurées [7], guidées par le modèle d’OPA, en vue de l’intégration distribuée des données de sources diverses autour des OPA.
Profil du candidat :
Titulaire d’un diplôme de Master recherche en informatique ou équivalent, avec une spécialisation en systèmes d’information ou en gestion de données et de connaissances, si possible avec une ouverture interdisciplinaire vers les humanités numériques ou les applications numériques à la documentation du patrimoine.
Formation et compétences requises :
Adresse d’emploi :
ETIS, CY Cergy Paris Université, 2 avenue Adolphe Chauvin, 95000 Pontoise
Document attaché : 202411191334_Mediapat2-fr.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CReSTIC & MEDyC
Durée : 36 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2024-12-31
Contexte :
Projet ANR MODELAGE
Cette thèse est proposée dans le cadre du projet ANR MODELAGE (Modélisation de l’évolution des microstructures
vasculaires par imagerie synchrotron à très haute résolution – Prédiction du vieillissement
normal vs accéléré), mené en partenariat entre l’Université de Reims Champagne-Ardenne, l’Université de
Technologie de Troyes et le Synchrotron SOLEIL (Saclay).
Contexte
Le vieillissement vasculaire se caractérise par des altérations lentes et asymptomatiques des microstructures
vasculaires. Parmi celles-ci, les lamelles élastiques de la paroi vasculaire sont les premières concernées.
Néanmoins, les événements précoces prévoyant ces altérations restent pour la plupart non documentés.
En effet, les méthodes d’exploration actuelles n’atteignent pas une résolution suffisante. L’exploration des
caractéristiques vasculaires à l’aide de la microtomographie à rayons X synchrotron haute résolution (μCT) a
révélé l’existence d’un réseau en forme de treillis construit à l’intérieur des lamelles élastiques chez la souris.
Les images μCT acquises sur synchrotron peuvent ainsi fournir de nouveaux indices pour comprendre le
processus de vieillissement vasculaire [1]. En effet, leur résolution, leur contraste et leur champ de vision sont
si élevés qu’ils révèlent de nouveaux détails structurels fins dans la paroi aortique. Cependant,
la recherche, l’extraction et l’analyse de ces données massives et riches en informations constituent un
véritable défi.
Sujet :
Objectifs
Les images μCT sont des données 3D de très haute résolution (voxels de 0.65 μm de côté) de très grande
taille (4000 x 4000 x 2000 voxels) pouvant de plus être empilées jusqu’à former des structure de l’ordre du
tera-octet. Il est, en l’état, impossible de naviguer dans ces données et de les analyser dans leur globalité.
Les solutions actuellement développées les manipulent par coupes 2D et/ou par tranches 3D épaisses [2].
Le premier but de cette thèse est de développer de nouvelles structures de données hiérarchiques (arbres)
qui permettent de modéliser les images à différents niveaux d’échelle en adaptant le niveau d’échelle local
au niveau de détail dans les images. Une telle politique repose de manière conjointe sur deux paradigmes :
les espaces d’échelles [3] et les modèles de décomposition de type quadtree/octree [5]. Contrairement aux
stratégies usuellement considérées pour les espaces d’échelles (approximation gaussienne) et pour les octrees
(subdivisions régulières), l’idée est ici de tirer parti de la connaissance a priori sur le contenu des images pour
développer un modèle hiérarchique morphologique [4] qui puisse représenter les images avec un minimum
de perte d’information, tout en maximisant la compacité des structures, afin de permettre leur gestion en
mémoire et une navigation complète sans recours à des architectures matérielles lourdes.
Les objectifs de cette thèse seront ainsi d’explorer des stratégies pour :
• définir de tels modèles hiérarchiques ;
• les construire de manière efficace ;
• développer de nouveaux descripteurs d’images dédiés aux images μCT ;
• développer des politiques de calcul efficaces de ces descripteurs sur les modèles hiérarchiques développés.
Ces travaux viendront s’interfacer avec des méthodes et outils récemment développés pour l’analyse des
images synchrotron, dans le cadre du projet ANR MODELAGE. Le(la) candidat(e) aura aussi l’opportunité
de participer aux campagnes d’acquisition des images lors des expériences synchrotron.
Profil du candidat :
Compétences requises
Le(la) candidat(e) sera titulaire d’un diplôme de Master 2 et/ou d’un diplôme d’ingénieur. Il(elle) aura
des compétences solides en informatique, mathématiques, et une capacité à travailler dans un contexte
collaboratif et pluridisciplinaire.
Compétences impératives :
• Programmation C++ et Python
• Traitement et analyse d’images
Compétences souhaitées mais non-indispensables :
• Imagerie
Formation et compétences requises :
Compétences requises
Le(la) candidat(e) sera titulaire d’un diplôme de Master 2 et/ou d’un diplôme d’ingénieur. Il(elle) aura
des compétences solides en informatique, mathématiques, et une capacité à travailler dans un contexte
collaboratif et pluridisciplinaire.
Compétences impératives :
• Programmation C++ et Python
• Traitement et analyse d’images
Compétences souhaitées mais non-indispensables :
• Imagerie
Adresse d’emploi :
Lieu d’exercice
Université de Reims Champagne-Ardenne, Campus Moulin de la Housse
Laboratoires CReSTIC et MEDyC
Document attaché : 202405211157_MODELAGE_PhD.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Criteo AI Lab Paris / Sorbonne Universite
Durée : 36 mois
Contact : patrick.gallinari@sorbonne-universite.fr
Date limite de publication : 2025-01-15
Contexte :
New paradigms like Generative Information Retrieval (GenIR) and Generative Recommendation (GenREC), built on foundation models, aim to transform how information is accessed. GenIR combines all components of traditional IR systems into one model that generates responses directly from user queries, while GenREC does something similar for recommendations. The goal of this PhD project is to explore the convergence of generative models for search, recommendation and related downstream tasks.
Sujet :
A first step will be to develop a unified generative engine for both search and recommendation, allowing for seamless alternation between the two modes during interactive sessions using a single engine. This is also a step toward realizing foundation models that offer a variety of functions to enhance user interactions. The second step will involve adapting this model to the large-scale, dynamic corpora characteristic of recommendation systems in the adtech industry, which presents additional research challenges. A brief description of the two directions is provided below.
Task 1: Unifying Generative IR and Recommendation
This task aims to develop a unified engine for search and recommendation, allowing for alternating between the two modes in interactive sessions. The goal is to enhance performance in both domains through a multi-task framework, enriching training data for both. While search and recommendation share similarities, they also have key differences, such as query intent. Search is driven by user queries, while recommendation relies on past user behavior. We aim to address these differences by defining a joint architecture and multi-task training strategy that captures the semantic distinctions between search (similarity-based) and recommendation (collaborative).
Task 2: Enhancing ID Associations for Large and Dynamic Collections
In this task, the goal is to improve document and item ID representations in large-scale, dynamic collections for a joint search/recommendation system. We will explore methods such as hierarchical structures and prior knowledge (e.g., product taxonomies) to optimize ID design. By leveraging additional information like brands or categorizations, we aim to improve the retrieval and recommendation process, particularly for large and evolving datasets.
Profil du candidat :
Computer science or applied mathematics. Good programming skills.
Formation et compétences requises :
Master degree in computer science or applied mathematics, Engineering school. Good background and experience in machine learning.
Adresse d’emploi :
Criteo AI Lab Paris
Document attaché : 202410031512_2024-09-PhD position-description-Generative-IR-Criteo.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : 7 universités différentes en Europe
Durée : 36 mois
Contact : emmanuel.vincent@inria.fr
Date limite de publication : 2025-01-26
Contexte :
Sujet :
PSST! – Privacy for Smart Speech Technology
Call for applicants – PhD students (12 positions)
“Privacy for Smart Speech Technology” (PSST) is a joint doctoral training programme and Horizon Europe Marie Skłodowska-Curie Action, the European Union’s flagship funding programme for doctoral training. We are a consortium of 7 European universities and 11 industrial partners searching for 12 PhD students to work on the protection and evaluation of privacy for smart speech technology. PSST is a unique opportunity, as it is the largest international project focusing on privacy in speech technology and because the importance of privacy has only recently gained wider appreciation.
This is no ordinary PhD programme.
The structured PSST doctoral training programme combines training in cutting-edge research, transferable skills and career-enhancing skills with exposure to multiple sectors and disciplines.
Join us and put your expertise in deep learning / machine learning, speech processing, information privacy and security, and user studies into practice and gain your PhD degree from TWO leading European Universities (listed below)!
See more information and PhD topics at https://psst-doctoralnetwork.eu/
We are looking for 12 PhD candidates who hold a master’s degree. We value diversity and plan to hire 12 fellows with a balanced background and skillset, and an excellent academic track record. We especially encourage applications from members of under-represented groups.
10.12.2024 Call opens
26.1.2025 Application deadline
28.2.2025 Shortlisted candidates informed
17.-18.3.2025 Recruitment event in Finland for shortlisted candidates
May 2025 Notification of acceptance
August 2025 Planned start of employment
PSST follows a double-degree model whereby, during their 45-month employment, each PhD student will work in collaboration with two universities towards PhD degrees from both institutions! Each PhD student will also spend 6 months on secondment to one of our Associate Partners, all leading European SMEs, large industrials or regulatory bodies active in speech privacy:. – CNIL (France), ELDA (France), ki:elements (Germany), Loihde (Finland), Naver (France), Omilia (Greece), Orange (France), Vocapia (France), VoiceInteraction (Portugal), Voice INTER connect (Germany), and VoiceMod (Spain).
Applications should include:
– Curriculum Vitae (including countries of residence in the past 36 months).
– Academic transcripts for completed courses and degrees.
– Motivation letter explaining why you want to pursue a PhD degree and why you believe you are an outstanding candidate to pursue your PhD researching PSST topics.
– Reference letter from Master’s thesis supervisor/advisor or similar.
– (Optional) Preferences for 1-3 research topics (see webpage) and universities.
Requirements
– A master’s degree in electrical engineering, computer science or related area (degree must be completed before employment can start).
– Mobility: The fellow must not have resided or carried out their main activity (work, studies, etc.) in the country of the first recruiting organisation for more than 12 months in the 36 months immediately before their recruitment date.
– Fluent written and verbal communication skills in English are required, knowledge of the local language is an advantage.
– Candidates cannot hold a doctoral degree.
Desirable skills
– Knowledge and skills in deep learning, programming, speech processing, user studies, privacy.
– Ability to work independently and a critical mindset.
– Pro-activeness and eagerness to participate in network-wide training events, international mobility, and public dissemination activities.
Submit your application at https://www.aalto.fi/en/open-positions/doctoral-researchers-12-positions-privacy-for-smart-speech-technology-psst
PhD students receive a regular salary and social benefits according to national regulations, and if applicable, also family leave, long-term leave, and special needs allowances. The gross salaries we offer, including both a living allowance and a mobility allowance, are
3500 €/month Aalto University (Espoo, Finland)
3261 €/month EURECOM (Sophia Antipolis, France) [1]
2680 €/month INESC-ID (Lisbon, Portugal) [2]
3261 €/month INRIA (Nancy or Saclay, France) [1]
Salary group TV-L E13 Ruhr University Bochum (Germany) [3]
Salary scale P Radboud University Nijmegen (Netherlands) [4]
Salary group TV-L E13 Technical University of Berlin (Germany) [3]
[1] https://www.horizon-europe.gouv.fr/sites/default/files/2022-02/horizon-europe—dn-pf—french-salary-explained-5762.pdf
[2] includes: base salary + food allowance + holiday allowance
[3] https://oeffentlicher-dienst.info/c/t/rechner/tv-l/allg?id=tv-l-2024&g=E_13&s=1
[4] https://www.ru.nl/sites/default/files/2024-09/Overview%20salary%20scales%201%20sept%202024.pdf
For queries, contact info@psst-doctoralnetwork.eu.
Marie Skłodowska-Curie Actions, Doctoral Networks (MSCA-DN) , 101168193 – PSST.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
7 universités différentes en Europe
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISIC
Durée : 36 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2025-02-01
Contexte :
This Ph.D. thesis is funded within the “BLeRIOT” ANR ASTRID project (Jan. 2025 – Dec. 2027). The BLeRIOT consortium is a balanced group of research laboratories—located in Toulouse (IRIT) and Longuenesse (LISIC)—and of French authorities in charge of aircraft accident or incident (BEA, RESEDA, both being located near Paris).
Sujet :
Public and state transportation aircraft are fitted with two crash-survival flight recorders—also known as “black boxes”—i.e., the Cockpit Voice Recorder (CVR) and the Flight Data Recorder. Both need to be retrieved and analyzed by air accident authorities in case of incident or accident. The audio service of BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) and RESEDA are the French authorities in charge of CVR investigations, for civil and State aircrafts, respectively. CVR contents are “manually” transcribed by specialized investigators (a.k.a. audio analysts) for the benefits of the safety investigation.
In a CVR recording, the causes of speech intelligibility degradation are numerous. In particular, the CVR design itself generates a significant amount of superimposed—a.k.a. mixed—speech signals over the audio channels which are simultaneously recorded. Moreover, in case of an aircraft accident or incident, superimposed speech signals are more likely to occur—since voice and cockpit sound activities become denser—which may yield to the loss of crucial information for the safety investigators. In our recent work [1], we reverse-engineered the CVR audio mixing model and we found that state-of-the-art blind source separation (BSS) algorithms could be applied. BSS is a generic problem which aims to estimate unknown source signals from observed ones while the propagation channels from the sources to the sensors are also unknown [2]. We noticed that classical BSS algorithms1 could help the
audio analyst to transcribe a CVR recording. In particular, allowing the audio analyst to listen the outputs of different methods significantly helped him in his tasks. However, there remained some cases where these classical techniques were not helpful.
The objective of this Ph.D. thesis is two-fold.
1. First, we aim to develop BSS methods which are providing a sufficient performance while not requiring too much energy to that end [5]. For that purpose, we will propose Human-in-the-Loop BSS methods which will be based on the audio-analyst—BSS interactions. In particular, the goal is to first let the analyst use simple yet efficient BSS algorithms, and then to complexify the BSS method (and allow it more computational time) if the obtained BSS output is unsatisfactory. The latter will be measured by both objective and subjective criteria. Adding information in BSS will be the first way to improve the BSS method, as it was found to be useful for other applications [6–8].
2. The second objective of the Ph.D. thesis is to be able to jointly process all the CVR channels. Indeed, one microphone named Cockpit Area Microphone (CAM) was not investigated in [1], mainly because it is sampled at 12 kHz while the other CVR signals are sampled at 7 kHz. However, the CAM channel provides additional information (e.g., mechanical noise)—mixed with the other sounds in the cockpit—which is usually not recorded in the other channels while being crucial to analyze. While jointly processing data with different resolutions is quite classical for other applications—e.g., hyperspectral imaging [9]—it has been much less investigated for audio signals.
References:
[1] Matthieu Puigt, Benjamin Bigot, and Hélène Devulder. Introducing the “cockpit party problem”: Blind source separation enhances aircraft cockpit speech transcription. Journal of the Audio Engineering Society, to appear.
[2] Pierre Comon and Christian Jutten, editors. Handbook of Blind Source Separation: Independent Component Analysis and Applications. Elsevier, 2010.
[3] DeLiang Wang and Jitong Chen. Supervised speech separation based on deep learning: An overview. IEEE/ACM Trans. Audio, Speech, Language Process., 26(10):1702–1726, Oct. 2018.
[4] Hendrik Purwins, Bo Li, Tuomas Virtanen, Jan Schlüter, Shuo-Yiin Chang, and Tara Sainath. Deep learning for audio signal processing. IEEE J. Sel. Topics Signal Process., 13(2):206–219, May 2019.
[5] Romain Couillet, Denis Trystram, and Thierry Ménissier. The submerged part of the AI-ceberg. IEEE Signal Process. Mag., 39(5):10–17, 2022.
[6] Clément Dorffer, Matthieu Puigt, Gilles Delmaire, and Gilles Roussel. Informed nonnegative matrix factorization methods for mobile sensor network calibration. IEEE Trans. Signal Inf. Process. Netw., 4(4):667–682, 2018.
[7] Gilles Delmaire, Mahmoud Omidvar, Matthieu Puigt, Frédéric Ledoux, Abdelhakim Limem, Gilles Roussel, and Dominique Courcot. Informed weighted non-negative matrix factorization using αβ-divergence applied to source apportionment. Entropy, 21(3):253, 2019.
[8] Sarah Roual, Claude Sensiau, and Gilles Chardon. Informed source separation for turbofan broadband noise using non-negative matrix factorization. In Forum Acousticum 2023, 2023.
[9] Laetitia Loncan, Luis B De Almeida, José M Bioucas-Dias, Xavier Briottet, Jocelyn Chanussot, Nicolas Dobigeon, Sophie Fabre, Wenzhi Liao, Giorgio A Licciardi, Miguel Simoes, et al. Hyperspectral pansharpening: A review. IEEE Geosci. Remote Sens. Mag., 3(3):27–46, 2015.
Profil du candidat :
Recently or nearly graduated in the field of data sciences (signal and image processing, computer science with a focus in artificial intelligence / machine learning, applied mathematics), you are curious and are very comfortable in programming (Matlab, Python). You read and speak fluent English with ease. You also own communication skills so that you can explain your work to non-experts of your field, e.g., during project meetings. Although not compulsory, speaking French as well as a first experience in low-rank approximation—e.g., matrix or tensor
decomposition, blind source separation, dictionary learning—will be appreciated.
Applicants must be French or citizens of Member State of the European Union, or of a State forming part of the European Economic Area, or of the Swiss Confederation.
To apply, please send an e-mail to {gilles.delmaire, matthieu.puigt} [at] univ-littoral.fr while attaching the documents that can support your application:
• your resume;
• a cover letter;
• your transcripts from the last year of B.Sc to the last year of M.Sc. (if the latter is already available);
• two reference letters or the names and means of contact of two academic advisers.
Applications will be reviewed on a rolling basis until the position is filled.
Formation et compétences requises :
Adresse d’emploi :
Laboratoire d’Informatique, SIgnal, Image de la Côte d’Opale (LISIC)
Université du Littoral Côte d’Opale
EILCO – Campus de la Malassise
62228 Longuenesse
Document attaché : 202411011651_These_ANR_BLeRIOT_2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : CRAN-Université de LOrraine
Durée : 36
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2025-02-01
Contexte :
Causality and more generally eXplainable AI (XAI) is one of the hot current topics of the AI scientific community, with many applications in medicine, material sciences, environment, marketing…
.
We invite for applications for a PhD thesis position within the CAUSALI-T-AI project of PEPR IA project funded by the ANR (2023-2029) about tensorial approaches for causal discovery (more details below). The thesis will take place in the Simul Research Group of Centre de Recherche en Automatique de Nancy. International scientific collaborations with Canada, Japan and Germany can also be planned. We have strong connections with Elina Robeva’s research group in British Columbia (Canada) , Joscha Diehl’s research group in Greifswald University (Germany) and N. Siugara group in JAMSTEC (Japan)
Sujet :
Causal discovery is a problem of finding causal (directional) relationships between random variables, and is a challenging problem. A particular difficulty is the presence of latent (unobserved) variables. The methods we consider in this topic, use the higher-order statistics (for example, cumulants or moments) to perform these tasks. Many of those methods rely on the non-Gaussianity assumption.
Some potential tracks for this research project:
1) Methods based on cumulants for models with multidirected edges ( algorithm for a particular case: [Liu, Robeva, Wang, 2020] , theoretical foundation: [Robeva, Seby, 2020])
2) Structural equation models with latent variables viewed as mixtures of independent component analysis models [Shimizu, 2007], and also [Liu et al., 2021] for linear dependencies.
3) Advanced topic: methods based on the signature tensors for causal discovery in time series [Chevyrev, Kormilitzin, 2016].
Profil du candidat :
Master student in Machine Learning/Data Science/applied Math
Formation et compétences requises :
Adresse d’emploi :
Simul Research Group @CRAN
Faculté des Sciences et Technologies
Campus, Boulevard des Aiguillettes
54506 Vandœuvre-lès-Nancy
Website : https://cran-simul.github.io/
Document attaché : 202411011609_TensorCausalDiscovery.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ISEA/UNC
Durée : 3 ans
Contact : loic.salmon@unc.nc
Date limite de publication : 2025-02-25
Contexte :
Sujet :
Les graphes dynamiques attribués sont omniprésents dans de nombreux domaines, tels que les réseaux sociaux, la biologie moléculaire, ou les systèmes de recommandation. Cette thèse vise à explorer l’utilisation des Graph Neural Networks (GNN) pour l’extraction de motifs dans les graphes, avec un focus sur la génération de règles de classification formelles et explicables. Les travaux incluront la modélisation des motifs, l’apprentissage des motifs, la génération de règles de classification, et leur validation formelle.
Profil du candidat :
Nous recherchons un(e) candidat(e) motivé(e) avec :
1. Un diplôme de niveau Bac+5 en informatique, mathématiques appliquées, ou domaine connexe.
2. Des compétences en apprentissage automatique, en particulier sur les réseaux de neurones et les GNN.
3. Une appétence pour la théorie des graphes, l’extraction de motifs, et les méthodes formelles.
4. Un bon niveau d’anglais (lu, écrit, parlé).
Formation et compétences requises :
Adresse d’emploi :
Université de la Nouvelle-Calédonie,- BP R4 98851 Nouméa Cedex, Nouvelle-Calédonie ISEA (Institut des Sciences Exactes et Appliquées)
Document attaché : 202502110731_Proposition_de_thèse_GNN_et_extraction_de_motifs.pdf
Offre en lien avec l’Action/le Réseau : SIMDAC/– — –
Laboratoire/Entreprise : LIFO
Durée : 3 ans
Contact : Patrick.Marcel@univ-orleans.fr
Date limite de publication : 2025-02-26
Contexte :
De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g. stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.
Par exemple, le groupement de patients suivis sur de longues périodes peut être vu comme un problème de recherche et calcul de similarité sur des séquences complexes : les séquences sont apériodiques (la fréquence des rendez-vous médicaux n’étant pas fixe), multivariées (plusieurs informations sont enregistrées à chaque rendez-vous), incomplètes (les informations enregistrées peuvent varier d’un patient à l’autre).
Il est souvent nécessaire d’optimiser du calcul de similarités sur ces gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC (calcul haute performance) et analyse et exploration de données. Il recouvre différents challenges scientifiques : prise en compte de la spécificité des données (séquences, séries, trajectoires, etc.), définition de méthodes de réduction de dimensionalité et indexation, parallélisation des étapes du calcul de similarité, adaptation d’approches existantes (par exemple, sur séries temporelles ou données spatio-temporelles), etc.
Sujet :
Dans ce contexte, l’objectif de cette thèse est d’étudier différentes approches de recherche approximative pour le calcul de similarité de séquences complexes sur architecture HPC avec accélération GPU.
Parmi les approches, on s’intéressera plus particulièrement à utiliser et combiner des approches de Locality Sensitive Hashing (LSH), de réduction de dimensionalité, d’indexation, et d’échantillonage.
Profil du candidat :
Les candidats devront posséder un Master en informatique ou un niveau équivalent. Ils devront posséder un bon niveau en programmation, base de données, parallélisme et mathématique.
Formation et compétences requises :
Adresse d’emploi :
LIFO, Université d’Orléans
Document attaché : 202502261521_Sujet_de_th_se___approches_stochastiques_pour_le_calcul_de_similarit_s__de_s_quences_complexes (4).pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Connected Health Lab (Ecole d’ingénieurs ISIS) Ca
Durée : 36
Contact : francis.faux@univ-jfc.fr
Date limite de publication : 2025-02-28
Contexte :
The aim of the project is to trace the toxic products “inhaled” by firefighters during their various interventions.
Sujet :
The first stage of the thesis will be to make the real-time acquisition system operational and reliable,
and to contextualize it according to the type of fire (apartment, forest).
The second objective of the thesis will be:
– to study hybrid online and multi-source learning models for modeling the toxicity of different types of fire, in order to infer the duration
of exposure to different toxic products (taking into account the randomness of the context)
– to develop a medical decision support tool under uncertainty to identify at-risk firefighter profiles.
Given a firefighter’s history, it will be possible to deduce the arguments that point to a certain level
of risk associated with the development of different diseases. To this end, work on Bipolar Layered argumentative
Frameworks could be adapted to temporal data and, if necessary, enriched.
Profil du candidat :
We are looking for a candidate with a strong AI background, particularly in machine learning. Knowledge of uncertainty modeling in AI will be highly appreciated.
Formation et compétences requises :
Master2
Adresse d’emploi :
Ecole d’ingénieurs ISIS, rue Firmin Oulès, 81100 Castres (france)
Document attaché : 202501061422_Thesis-AI_hybrid.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire MIS – Université de Picardie Jules Ver
Durée : 3 ans
Contact : corinne.lucet@u-picardie.fr
Date limite de publication : 2025-02-28
Contexte :
Sujet :
Ce projet de recherche vise à développer un outil d’intelligence artificielle (IA) capable de proposer des
scénarios pour le problème de localisation et de dimensionnement des unités mobiles de soins médicaux,
afin d’améliorer l’accès aux soins dans les déserts médicaux. L’objectif est de maximiser la couverture du
territoire tout en tenant compte des besoins des patients, de la disponibilité des soignants et de
l’incertitude de la demande en services de santé. L’outil proposera une solution acceptable, dans la
mesure où elle répondra aux besoins de la population.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Université de Picardie Jules Verne, Amiens
Laboratoire Modélisation, Information & Systèmes (UR UPJV MIS 4290)
Document attaché : 202502031300_LOCMED_2025_stage_diffusion_fr.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CRISTAL et PhLAM
Durée : 36 mois
Contact : remy.boyer@univ-lille.fr
Date limite de publication : 2025-02-28
Contexte :
Abstract: Quantum computing is at the cutting edge of technological innovation, offering the potential to solve complex problems that classical “binary” computers cannot address. Ten- sor algebra, with its comprehensive mathematical framework, offers crucial tools for modeling and approximating large multidimensional datasets. This thesis seeks to investigate the interplay between tensor networks and quantum computing by proposing original, robust (to decoherence of qubits) quantum algorithms that utilize tensor structures to improve computational efficiency and capabilities. This research requires a multidisciplinary understanding of quantum physics and linear algebra. This thesis topic will benefit from the complementary expertises of Remy Boyer (CRISTAL/SIGMA) for the multilinear algebra aspect and Giuseppe Patera (PhLAM, Quantum Information team) for the quantum physics aspect.
Key-words: quantum processor, low-rank decomposition, tensor network, qubits, coherence, curse of dimensionality
Contact: For application, please contact
• Remy BOYER, University of Lille, CRISTAl Lab. , remy.boyer@univ-lille.fr
• Giuseppe PATERA, University of Lille, PhLAM Lab. , giuseppe.patera@univ-lille.fr
Sujet :
Why quantum processors are attractive solutions ?
1. Quantum processors are based on the superposition principle [1]. In brief, unlike classical bit-based processor where the information is encoded in two states “0 excluding 1” or “1 excluding 0”, quantum bits (qubits) |0⟩ and |1⟩ can exist in multiple states simultaneously according to a linear combination of the qubits alphabet α|0⟩ + β|1⟩
2. Quantum processors are based on the entanglement principle. Qubits can be entangled or correlated, meaning the state of one qubit is directly related to the state of another, regardless of a phase parameter. Consequently, α and β cannot be reduced to a probabilistic point of view as the qubit probabilities but include the relative interdependence in the form of a phase-relation between the two states |0⟩ and |1⟩. This means that knowing the state of one qubit allows to instantly deduce the state of the other.
The two above principles (superposition and entanglement) allow quantum algorithms to perform many calculations in parallel. This leads to potential speed-ups for many important problems.
Tensor-based processing
Tensor algebra is a powerful mathematical framework [6] that extends the concepts of scalars, vectors, and matrices to higher dimensions, known as tensors. Tensor algebra allows the compact (i.e. low-rank) representation of massive data in multidimensional arrays. The applications are for instance Physics, Machine Learning, Data Science, Computer Graphics, Robotics and Control Systems, etc.
Multi-Linear algebra and quantum systems
1. Entanglement and Singular Value Decomposition (SVD) are strongly linked [3]. SVD gives the degree of communication between two subsystems and the entanglement is measured by the number of nonzero singular values of a particular matrix associated to the reshaping of the quantum state.
2. TNs and quantum computing are highly interconnected concepts [2]. They provide an efficient way to graphically represent complex quantum states into connected core tensors (3-order tensors). A quantum state of multiple qubits can be expressed as a graph of core tensors, capturing entanglements between qubits in a more compact form. Some quantum algorithms can benefit from the structure of tensor networks. For example, Matrix Product States (MPS) [7] and Projected Entangled Pair States (PEPS) utilize tensor networks to efficiently represent and manipulate quantum.
Quantum architecture and decoherence
A typical Quantum architecture is composed by three main steps:
1. Data encoding via Tensor Networks (quantum state preparation),
2. data processing (multi-qubit quantum gates),
3. measurement (quantum state tomography).
The proposed work will be mainly focused on step 1 with respect to the constraints of the two other steps. A major drawback of the quantum framework is the decoherence of qubits. Qubits are highly susceptible to environmental interference, which can cause them to lose their quantum state or also their coherence. This phenomenon is known as decoherence [10]. Briefly, decoherent quantum computing is classical “bit”-based computing.
Research Objectives
1. Investigate TN in the context of the curse of dimensionality: One of the objectifs of this work is to explore the interest of the different TN topologies focusing on their capability to mitigate the “curse of dimensionality” [4].
2. Develop novel on-line/streaming algorithms: Batch-mode processing is quite inefficient for streaming data. So, there is a need to propose adaptive (over time) implementation of TN [8].
3. Propose new TN-based algorithm robust to qubits decoherence. Robustness allows to increase the number of qubits in a quantum system while maintaining performance (“scal- ability”).
4. The SVD is the basic building block of TN algorithms. Recently, randomized methods [9] also known under the name of “compressed sensing” [5] allow to speed-up the SVD at the price of a bounded error.
References
[1] A. Steane, Quantum computing. Reports on Progress in Physics, 61(2), 117, 1998.
[2] R. Orus, Tensor networks for complex quantum systems. Nature Reviews Physics, 1(9), 2019.
[3] R. Orus, A practical introduction to tensor networks: Matrix product states and projected entangled pair states, Annals of Physics, Vol. 349, 2014.
[4] A. Cichocki; N. Lee; I. Oseledets; A.-H. Phan; Q. Zhao; D. P. Mandic, Tensor Networks for Dimensionality Reduction and Large-scale Optimization, Foundations and Trends in Machine Learning, Vol. 9, No. 4-5, 2016.
[5] D.L. Donoho, Compressed sensing, IEEE Transactions on IT. 52 (4), 2006.
[6] T. G. Kolda and B. W. Bader, Tensor Decompositions and Applications, SIAM REVIEW, Vol. 51, No. 3, 2009.
[7] Y. Zniyed, R. Boyer, A. De Almeida, and G. Favier. A TT-based hierarchical framework for decomposing high-order tensors. SIAM Journal on Scientific Computing, vol. 42, 2020.
[8] L. T. Thanh, K. Abed-Meraim, N. L. Trung and R. Boyer, “Adaptive Algorithms for Track- ing Tensor-Train Decomposition of Streaming Tensors,” 28th European Signal Processing Conference (EUSIPCO), 2021.
[9] N. Halko, P.G. Martinsson, and J.A. Tropp, Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions. SIAM review, 53(2), 2011.
[10] M. L., Hu, and H. Fan, Robustness of quantum correlations against decoherence. Annals of Physics, 327(3), 2012.
Profil du candidat :
This research requires a multidisciplinary understanding of quantum physics and linear algebra.
Formation et compétences requises :
Adresse d’emploi :
Campus Scientifique de Lille
Document attaché : 202412170930_phd_tensor_quantum.tex
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFAT – Symhonics
Durée : 3 ans
Contact : chanson@univ-tours.fr
Date limite de publication : 2025-03-01
Contexte :
L’équipe Recherche Opérationnelle, Ordonnancement et Transport, l’équipe Bases de Données et
Traitement des Langues Naturelles (BDTLN) et la société Symphonics proposent un financement de
thèse de doctorat à temps plein pour un début au printemps 2025. La thèse sera basée à Tours avec la
moitié du temps dans les locaux de l’entreprise et l’autre moitié au sein du laboratoire.
La gestion d’un système électrique suppose un équilibre à chaque instant entre production et
consommation. Cela ne peut se faire qu’en modifiant soit la production, soit la consommation ; c’est
ce que l’on dénomme flexibilités dans le système électrique. L’introduction croissante des énergies
renouvelables impose l’augmentation du gisement de flexibilités et notamment celles se trouvant chez
les consommateurs représentant une source peu coûteuse pour satisfaire le besoin de décarbonation
du mix énergétique, enjeu majeur aussi bien sur le plan écologique, qu’économique et social.
C’est le créneau choisi par La société Symphonics qui se positionne sur le marché en proposant de
transformer les bâtiments résidentiels et tertiaires en batteries par le pilotage à la hausse et à la baisse
des équipements énergivores dont la consommation peut être déplacée dans la journée (par ex.
Chauffe-eau, chargeur de véhicule, etc.).
Sujet :
Cette thèse CIFRE propose de s’attaquer à l’optimisation sous contraintes des équipements
consommateurs d’électricité dans les secteurs résidentiel et tertiaire, un enjeu crucial à l’ère de la
transition énergétique et de la digitalisation. L’objectif est de développer des modèles et des
algorithmes qui permettent de maximiser l’efficacité énergétique et la flexibilité des systèmes tout en
respectant les contraintes spécifiques (confort, stabilité du réseau, coûts) associées à ces
environnements.
L’ensemble des modélisations permettant de définir les meilleurs optimums temps réel
possibles nécessite la résolution de plusieurs verrous relevant de l’hybridation de méthodes
issues de la science des contraintes et de la science des données.
Ces verrous sont abordés sous l’angle de l’optimisation qui peut être formulée comme un problème
multi-agents en recherche opérationnelle. Plusieurs agents (la société Symphonics, les clients, les
acteurs du réseau électrique) interviennent dans le processus et leurs objectifs propres sont à prendre
en compte. Par exemple, certains clients voudront optimiser un niveau de confort en termes de
chauffage, et garantir la charge d’un véhicule électrique. A l’échelle du système, la société Symphonics
peut vouloir réduire les émissions de CO2 ou les coûts de livraison de l’électricité. Il faut donc optimiser
la consommation d’électricité tout en tenant compte des différents objectifs des agents. Dans le
contexte de cette thèse, les verrous pour résoudre un tel problème sont nombreux :
– Le passage à l’échelle : l’entreprise vise une application pour des centaines de milliers de
clients, ce qui reste une difficulté majeure pour une résolution efficace du problème en
recherche opérationnelle, dans des temps compatibles avec le scénario industriel (moins de
15 minutes) ;
– Cette optimisation doit s’appuyer sur des informations qui devront être prédites au niveau de
chaque client au fil du temps, sur la base de la connaissance contextuelle et de préférences
(par exemple, prédire la consommation électrique d’un chauffe-eau en hiver heure par heure
pour un client donné) ;
Comme toute approche reposant sur des modèles prédictifs, une attention particulière devra être
apportée à l’explicabilité des solutions proposées.
Enfin, l’hybridation de la recherche opérationnelle et de l’apprentissage artificiel prendra son sens
pour définir des algorithmes de résolution efficaces du problème. Les méthodes d’apprentissage
artificiel pourront notamment permettre de rechercher les meilleurs paramètres de la méthode multi-
agents, ou réduire le nombre de clients en utilisant des approches de clustering de flux de données
pour obtenir des groupes homogènes des clients au cours du temps.
Les modèles et algorithmes feront l’objet de phases de validation empiriques avec les partenaires
équipementiers et fabricants de la société Symphonics et seront pilotées par le Doctorant.
Profil du candidat :
BAC+5. Jeune diplômé ou première expérience
Le candidat recruté devra avoir des connaissances solides en Recherche Opérationnelle (complexité,
méthodes exactes et heuristiques, programmation mathématique) et en apprentissage artificiel et
architectures profondes. Des connaissances en explicabilité seront appréciées.
La maîtrise de certains outils logiciels est un plus : Python, Google Cloud Platform, PostgreSQL, Solveur
MILP.
Formation et compétences requises :
Adresse d’emploi :
Tours: partage du temps entre Symphonics et le LIFAT.
Document attaché : 202411181233_Offre Thèse Symphonics .pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IGN-ENSG, LASTIG, Université Gustave Eiffel
Durée : 36 mois
Contact : nicolas.audebert@ign.fr
Date limite de publication : 2025-03-16
Contexte :
L’entraînement de modèles d’apprentissage profond pour l’interprétation d’images aériennes et satellitaires requiert de grandes quantités de données annotées. Toutefois, si d’importants volumes de données d’Observation de la Terre (OT) sont disponibles grâce aux satellites européens Sentinel-2 et aux programmes français d’imagerie SPOT et BDORTHO, cette masse de données est non-étiquetée. En effet, peu d’images de télédétection sont annotées avec des information sémantiques utiles pour entraîner des modèles profonds. Ce phénomène est d’autant plus critique pour la cartographie d’urgence: les catastrophes naturelles sont des événements rares, ce qui réduit d’autant les images disponibles.
Pour pallier ces difficultés, la recherche en intelligence artificielle s’est intéressée à la génération de bases de données d’images synthétiques. La popularisation de l’intelligence artificielle dite générative permet ainsi de produire des jeux de données annotés, en générant des images diverses dans des configurations connues. La génération procédurale est en outre un procédé historiquement bien connu dans la communauté du jeu vidéo, permettant de produire rapidement de grands mondes virtuels en trois dimensions.
Sujet :
L’objectif principal de cette thèse est de combiner les forces de l’apprentissage profond et de la génération procédurale basée grammaire pour les données géospatiales.
La génération procédurale désigne les algorithmes de création de contenu, en particulier pour le jeu vidéo. Ces techniques permettent de créer des mondes virtuels cohérents , notamment pour la modélisation et la simulation du réel, La génération procédurale connaît un regain de popularité car elle permet de produire de grands volumes de données synthétiques annotées, sur lesquels entraîner des réseaux de neurones profonds . Historiquement, la génération procédurale s’est appuyé sur quatre grande familles de méthodes: les approches basées exploration, les approches par satisfaction de contraintes, les méthodes basées grammaire et les approches par apprentissage.
Les approches basées grammaire (ou assimilées, par exemple basées système-L ) sont particulièrement intéressantes. Elles se fondent sur un langage formel qui définit quelles sont les instances acceptables des objets à générer. Cette grammaire permet d’inclure une connaissance experte et peut être considérée comme interprétable. Cependant, définir manuellement une grammaire requiert une certaine expertise et implique souvent une approche itérative par essai-erreur. En comparaison, la génération procédurale par apprentissage statistique permet d’apprendre à générer des objets à partir d’un corpus existant. Toutefois, les modèles appris sont susceptibles de générer des objets inacceptables (par exemple, des maisons sans aucune porte). Par ailleurs, les approches récentes, notamment par apprentissage profond, nécessitent des jeux de données de grande taille pour exceller, ce qui n’est pas toujours possible. En particulier, les entités géographiques urbaines (typiquement les routes et les bâtiments) doivent respecter des a priori géométriques forts qui peuvent être complexes à satisfaire.
Ce sujet de thèse s’intéresse ainsi à l’hybridation entre la génération procédurale symbolique, en particulier exploitant les grammaires, et l’apprentissage profond. Des approches hybrides peuvent permettre d’apprendre à partir de moins d’exemples, tout en respectant mieux les contraintes imposées sur les données par une grammaire.
L’objectif est double:
1. Dans un premier temps, il s’agit de concevoir des architectures génératives de réseaux de neurones dont les sorties sont contraintes par une grammaire. Ainsi, le modèle sera garanti de ne générer que des objets acceptables vis à vis d’une grammaire fournie par l’usager . Plus précisément, on s’intéressera:
• à contraindre les cartes de segmentation d’un modèle prédictif à respecter une grammaire sur l’agencement spatial des objets,
• ou bien à des modèles génératifs qui ne peuvent produire que des objets acceptables selon une grammaire imposée, par exemple de bâtiments.
2. Dans un second temps, de développer des modèles capables d’inférer tout ou partie d’une grammaire à partir d’un corpus d’exemples (génération procédurale inverse et inférence de grammaire). En particulier, on cherchera:
• des méthodes capables d’apprendre automatiquement les symboles terminaux du langage, notamment à l’aide de l’apprentissage de prototypes ,
• puis à des méthodes capables de déduire les règles de production de la grammaire .
Ces techniques de génération seront appliquées à divers types de données géospatiales en 2D et 3D pour la génération de villes . En particulier, les applications pourront inclure les plans cadastraux (emprises au sol de parcelles et de bâtiments), des modèles 3D de bâtiments (produits manuellement ou extraits du Lidar HD) ou des cartes d’occupation du sol.
Profil du candidat :
Le ou la candidate idéale dispose d’une formation de niveau bac+5 (master ou ingénieur) dans l’un des domaines suivants: science des données, jeu vidéo, géomatique. Il ou elle démontre une expérience de la programmation, en particulier avec le langage Python. Une connaissance des outils de gestion projet informatique, notamment Git, sera appréciée. Une bonne maîtrise de l’anglais (écrit et oral) est un pré-requis. Sans être indispensable, une première expérience avec la génération procédurale, les modèles profonds génératifs ou les données géospatiales est un plus.
Formation et compétences requises :
Adresse d’emploi :
LASTIG, IGN-ENSG, 6-8 avenue Blaise Pascal, Champs-sur-Marne
Document attaché : 202501071048_doctorant.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IMT Atlantique LabSTICC CNRS (Brest); AIRBUS DS (É
Durée : 3 years
Contact : cecile.bothorel@imt-atlantique.fr
Date limite de publication : 2025-03-20
Contexte :
Summary: This thesis focuses on anomaly detection, explanation, and labeling in complex networks. We would like to explore and to propose a new adaptive and hybrid explanation method that incorporates interactions with domain experts using preference models from the MCDA field.
Location: IMT Atlantique LabSTICC CNRS (Brest); AIRBUS DS (Élancourt)
Keywords: Complex Networks, Graphs Autoencoders, Anomaly Detection, Explainable AI (XAI), Multi-Criteria Decision Aiding (MCDA)
Supervisors : Cécile Bothorel, Lina Fahed, Arwa Khannoussi, Guillaume Gadek
Funding: COFUND SEED (Co-funded by the European Union) https://www.imt-atlantique.fr/en/research-innovation/phd/seed
Eligibility rules: (1) Did not spend more than 12 months in France since 20 March 2022 (last 36 months). (2) Is / will be awarded a master-level diploma or equivalent for Phd start (from September 2025) (he/she can be graduated during summer) and does not already have a doctoral degree.
To apply: https://seed-apply.imt-atlantique.fr
Application deadline: March 20, 2025
Detailed subject: https://www.imt-atlantique.fr/sites/default/files/recherche/doctorat/seed/research-topics/4-anomaly-detection.html
Starting date: fall 2025
For any question: please contact supervisors cecile.bothorel@imt-atlantique.fr & guillaume.gadek@airbus.com
Sujet :
1. Definition
Keywords: Complex Networks, Graphs Autoencoders, Anomaly Detection, Explainable AI (XAI), Multi-Criteria Decision Aiding (MCDA)
1.1. Domain and scientific/technical context
Temporal graphs, representing interactions over time, are crucial for analyzing datasets in areas like Industry 4.0, finance, transportation, biology, social networks, cybersecurity, and defence and intelligence. Detecting anomalies in temporal networks reveals unusual patterns and events, thus providing deep insights into the system behavior over time. Such graphs or networks typically grow every second and gather millions of attributed nodes and edges. Relevant behaviors are grounded in the nodes and edges characteristics as well as in higher-level patterns (local neighborhood, temporal similarities). Operational needs are based on constant monitoring (anomaly detection, alerts), for which there is a very strong need for tools: for the detection in itself, but also for the understanding of the detected anomalies in order to enable quick and relevant responses and preventive measures. Notions of traceability and actionability of the alert are also key to the adoption of the technology.
1.2. Scientific/technical challenges
This thesis focuses on anomaly detection, understanding, and labeling in complex networks for socially impactful applications such as social networks, financial exchange, health, defence, energy, etc. The two main challenges are: (i) the limited access to labeled data for anomaly detection, (ii) and when labels are obtained, they are often incorrect or unusable due to errors made by domain experts in labeling anomalies. To address these challenges, we propose to take advantage of three research areas: anomaly detection (for graphs), explainable AI (XAI), multi-criteria decision aiding (MCDA).
In order to detect anomalies, we will study the GNNs (Graph Neural Networks), and the use of auto-encoders de-signed for semi-supervised tasks with a small training set even if it contains labeling errors [1]. Several graph explanations methods have been proposed in the literature [2] that focus on different graph elements (nodes, edges, features). Both graph elements describing anomalies and explanations are criteria that experts can use to label anomalies. However, this may not provide actionable insights as experts may focus on intuitions derived from previous expertise. The challenge here is to provide experts with intuitive graph elements and explanations allowing to understand the anomalies.
1.3. Considered methods, targeted results and impacts
We propose a new adaptive and hybrid explanation method that incorporates interactions with experts. This can be done using preference models from the MCDA field, which allow the representation of decision strategies and human behaviour [3]. We expect to:
Provide explanations generated from traditional XAI methods [8] and a combination of dedicated eval-uation metrics.
Enrich and adapt explanations with multiple criteria related to multiple domain experts. Such criteria include the experts’ decision strategies, their behaviours, and insights into their prior expertise.
Iteratively involve experts in the loop, i.e., the interaction between the explanation method and the experts can be performed iteratively in such a way that at the end the experts are given the intuitive graph elements and explanations they need to understand the anomalies well and to label them correctly.
In this project, we plan to develop an experimental protocol on both synthetic and real-world impact datasets. This work will be an important step forward in the field of anomaly detection and understanding, and will open important perspectives related to the intersection of our different research domains.
1.4. Environment (partners, places, specific tools and hardware)
The academic partners are members of the DECIDE team at Lab-STICC (CNRS) and IMT Atlantique’s Data Science Department (DSD) in Brest, where interdisciplinary research exploit synergies between decision support and data science to address scientific, industrial and societal issues arising from decision-making problems in complex sys- tems (environment, transport, energy, social networks, health, defence).
The industrial partner, Airbus Defence and Space, is participating through its team of Artificial Intelligence for De- fence Digital. The team, based in Elancourt near Paris, is constituted of 20 data scientists, and contributes on re- search, technology development and deployment of AI assets within Airbus products, mainly in the Defence & In- telligence areas.
Airbus provides 3 use cases with datasets and interaction with business experts related to the use cases, all dir- ectly related to the Intelligence business. A) detecting coordinated behaviour in social networks for Cyber Inform- ation Warfare. B) highlighting patterns and edges of interest in communication interceptions (COMINT), most likely through simulated data. C) Smart assistant for investigation analyst on Knowledge Graphs: the product Massive Intelligence extracts & generates high-level data under the form of entities and relations, through the IKDB software. The tool would help the end-user to raise alerts on the extracted knowledge itself, highlighting suspicious cases and connections.
1.5. Interdisciplinarity aspects
The work combines 3 research domains: anomaly detection (for graphs), explainable AI (XAI), and multi-criteria decision aiding (MCDA). This thesis involves both theoretical, experimental and technical research to to serve the industrial interests and applications of Airbus Defence&Space.
1.6. References
[1] GILES, Bastien, JEUDY, Baptiste, LARGERON, Christine, et al. Suspicious: a Resilient Semi-Supervised Framework for Graph Fraud Detection. IEEE 35th International Conference on Tools with Artificial Intelligence (ICTAI), 2023.
[2] YUAN, Hao, YU, Haiyang, GUI, Shurui, et al. Explainability in graph neural networks: A taxonomic survey. IEEE transactions on pattern analysis and machine intelligence, 2022.
[3] KHANNOUSSI, Arwa, OLTEANU, Alexandru-Liviu, MEYER, Patrick, et al. A metaheuristic for inferring a ranking model based on multiple reference profiles. Annals of Mathematics and Artificial Intelligence, 2024.
[4] GADEK, Guillaume. “From community detection to topical, interactive group detection in Online Social Networks.” IEEE/WIC/ACM International Conference on Web Intelligence-Companion Volume. 2019.
[5] PRIEUR, Maxime, et al. “Shadowfax: Harnessing textual knowledge base population.” Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2024.
[6] BAUTISTA, Esteban, BRISSON, Laurent, BOTHOREL, Cécile, SMITS, Grégory. “MAD: Multi-Scale Anomaly Detection in Link Streams”. The 17th ACM International Conference on Web Search and Data Mining, Mar 2024, Mérida (Yucatan), Mexico.
[7] DAO, Vinh-Loc, BOTHOREL, Cécile, LENCA, Philippe. Community structure: A comparative evaluation of community detection methods. Network Science, 2020, 8 (1), pp.1-41.
[8] CHRAIBI-KAADOUD, Ikram , FAHED, Lina, LENCA, Philippe. Explainable AI: a narrative review at the crossroad of Knowledge Discovery, Knowledge Representation and Representation Learning. MRC@IJCAI 2021: Twelfth International Workshop Modelling and Reasoning in Context, 2021, pp.28-40.
2. Partners and study periods
2.1. Supervisors and study periods
IMT Atlantique: Prof.Cécile Bothorel, Assoc.-Prof. Lina Fahed and Assoc.-Prof. Arwa Khannoussi, IMT Atlantique, Brest, France.
Industrial partner: Dr. Guillaume Gadek, Airbus Defence and Space, Versailles, France
The PhD student will stay 9 months at Airbus Defence and Space.
Academic international partner(s): The PhD student will also spent 3 months at an international academic partner, probably LUT University, Finland (to be confirmed).
2.2. Hosting organizations
2.2.1. IMT Atlantique
IMT Atlantique, internationally recognized for the quality of its research, is a leading French technological university under the supervision of the Ministry of Industry and Digital Technology. IMT Atlantique maintains privileged relationships with major national and international industrial partners, as well as with a dense network of SMEs, start-ups, and innovation networks. With 290 permanent staff, 2,200 students, including 300 doctoral students, IMT Atlantique produces 1,000 publications each year and raises 18€ million in research funds.
2.2.2. Airbus Space and Defence
Airbus Space and Defence purpose is to improve life on Earth and beyond through our cutting-edge space technologies. From in-orbit delivery of satellites and spacecraft equipment to the smallest electronic components, Airbus provides products and services to customers around the world. We deliver telecommunications and navigation satellites that enable people to connect everywhere and navigate safely on Earth. The data from Airbus-built Earth observation satellites, such as Sentinel-2 or MetOp, bring insight that helps us to better understand and protect our planet.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
IMT Atlantique, campus Brest
Document attaché : 202502251404_4-anomaly-detection.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IMT Atlantique
Durée : 36 mois
Contact : seed-contact@imt-atlantique.fr
Date limite de publication : 2025-03-21
Contexte :
Domain and scientific/technical context
This project aims to develop computational imaging methods for low-field MRI [Arnold2023, Hennig2023]. Its aim is to develop low-cost, portable neuroimaging systems that integrate artificial intelligence (AI) [Iglesias2022] with low-field MRI technology. Unlike conventional MRI systems that rely on high magnetic fields (1.5-7T), this approach aims to democratise access to MRI by enabling imaging at the patient’s bedside.
The project is highly interdisciplinary, combining expertise in medical imaging, image processing, AI and neuroscience. It targets perinatal neuroimaging, in particular for premature newborns, for whom traditional MRI remains complex. By combining hardware development (in collaboration with the company Multiwave) and AI-driven image reconstruction, this project could redefine neuroimaging and improve its accessibility in clinical settings.
Scientific/technical challenges
The project tackles fundamental challenges in low-field MRI and computational imaging, necessitating a multidisciplinary approach. One of the very first challenges is related to signal-to-noise ratio limitations. The weak magnetic fields in low-field MRI produce inherently noisier signals, demanding innovative AI-driven denoising and reconstruction strategies tailored to low SNR conditions. A second challenge is related to the optimization of hardware design: developing a portable, cost-efficient MRI system requires a careful trade-off between coil design, acquisition protocols, and system portability while maintaining sufficient imaging resolution.
Our scientific objective will focus mainly on advanced AI methodologies. Incorporating physics-guided deep learning models that explicitly integrate the underlying MRI signal formation process to enhance reconstruction reliability and interpretability. To this end, part of the project will be dedicated to the development of efficient computational strategies: Achieving real-time image reconstruction necessitates optimized numerical solvers and meta-learning techniques for rapid inference at the point of care.
Sujet :
The project will leverage physics-informed deep learning for image reconstruction, integrating prior knowledge of MRI signal formation to enhance image quality. Variational optimization techniques [Fablet2021] will be explored to control the balance between acquired data and reconstructed images [Crockett2022], minimizing artifacts and improving clinical reliability. Meta-learning algorithms [Andrychowicz2016] will be implemented to optimize reconstruction efficiency for real-time bedside applications.
The expected results include the development of a fully functional image reconstruction prototype for low-field MRI, achieving millimetric resolution and demonstrating feasibility for neonatal brain imaging. The impact of the project extends beyond neonatal imaging, offering a scalable and accessible MRI solution for broader applications such as stroke detection [Yuen2022] and point-of-care diagnostics, particularly in low-resource settings. By bridging advances in AI and medical imaging, such a project has the potential to transform clinical neuroimaging and improve patient care worldwide.
Profil du candidat :
The skills required to carry out this work include machine learning, image processing and applied mathematics. Knowledge of computer science and programming (Python) will also be required in order to develop the associated algorithms.
Formation et compétences requises :
Master / Engineering school. Machine Learning, Deep Learning, Image Processing, Medical Imaging.
Adresse d’emploi :
IMT Atlantique, Campus de Brest.
The PhD student will stay 3 months each at an international academic and an industrial partners, respectively at University of Lausanne and Multiwave enterprise.
Document attaché : 202503101503_2025-SEED-image-reconstruction.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : DIG team, Télécom Paris, Institut Polytechnique de
Durée : 3 years
Contact : nils.holzenberger@telecom-paris.fr
Date limite de publication : 2025-04-04
Contexte :
Sujet :
Hello,
We are hiring 2 PhD students to work on combining language models with structured data, starting from September 2025, at Telecom Paris, Institut Polytechnique de Paris.
Large Language Models are amazing, and with our research project, we aim to make them even more amazing! Our project will connect large language models to structured knowledge such as knowledge bases or databases. With this,
1. language models will stop hallucinating
2. language models can be audited and updated reliably
3. language models will become smaller and thus more eco-friendly and deployable
We work in the DIG team at Telecom Paris, one of the finest engineering schools in France, and part of Institute Polytechnique de Paris — ranked 38th in the world by the QS ranking. The institute is 45 min away from Paris by public transport, and located in the green of the Plateau de Saclay.
Excited about joining us? Tick these boxes:
1. Have a good background in natural language processing, machine learning, and knowledge representation
2. Have a master’s degree (or equivalent)
3. Be of European nationality (imposed by our sponsor, the French Ministry of Armed Forces)
Check out our Web site to apply: https://suchanek.name/work/research/kb-lm/index.html
Fabian Suchanek & Nils Holzenberger
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
19 place Marguerite Perey, 91120 Palaiseau, France
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS
Durée : 36 mois
Contact : Sebastien.Adam@univ-rouen.fr
Date limite de publication : 2025-04-30
Contexte :
Nous proposons une thèse financée au laboratoire LITIS sur le sujet décrit dans la pièce jointe.
Sujet :
Cf. PJ
Profil du candidat :
Cf PJ
Formation et compétences requises :
cf PJ
Adresse d’emploi :
Laboratoire LITIS, UFR ST, Site du Madrillet
76800 Saint Etienne du Rouvray
Document attaché : 202504091055_TheseGapHIX.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : CNAM/Sorbonne Université
Durée : 36 mois
Contact : cedric.du_mouza@cnam.fr
Date limite de publication : 2025-04-30
Contexte :
Encadrants:
Cédric du MOUZA (dumouza@cnam.fr, lab. CEDRIC, CNAM Paris)
Raphaël FOURNIER-S’NIEHOTTA (Raphael.Fournier@lip6.fr, LIP6-ComplexNetworks, Sorbonne Université)
Camelia CONSTANTIN (camelia.constantin@lip6.fr, LIP6-Équipe BD, Sorbonne Université)
Sujet :
L’objectif de la thèse est d’améliorer l’enrichissement de graphes de connaissances en utilisant des techniques avancées issues des domaines des algorithmes de graphes, de la sémantique et de l’apprentissage automatique. Cette démarche vise à améliorer la qualité et l’utilité du graphe en découvrant et en intégrant des informations qui ne sont
pas explicitement présentes mais qui peuvent être inférées à partir des relations et des attributs existants.
L’enrichissement des graphes de connaissances s’appuie sur une approche hybride combinant algorithmes de graphes, NLP et apprentissage automatique, qui permet d’extraire et d’intégrer des informations implicites en exploitant les structures et relations existantes. Un défi majeur réside dans le liage d’entités, étape souvent imprécise qui entraîne une fragmentation due au manque de relations explicites et à la diversité des formulations. L’objectif est d’améliorer cette phase en détectant et fusionnant les entités redondantes via un post-traitement reposant sur des modèles de similarité et des techniques de clustering. Ainsi, l’approche renforce la qualité structurelle et sémantique du graphe, le rendant plus exploitable pour la recherche et la gestion des connaissances. Pour atteindre ces objectifs, nous combinons : (i) des algorithmes de graphes pour identifier motifs récurrents, connexions et communautés, (ii) des modèles d’apprentissage profond (BERT, GPT) pour évaluer la similarité sémantique, et (iii) des modèles prédictifs entraînés pour inférer de nouvelles relations.
Ce sujet propose une approche exploratoire pour la construction et l’enrichissement de graphes de connaissances en combinant méthodes d’intelligence artificielle (IA), sur graphes (GraphML) ou autour du texte, avec des algorithmes classiques de graphes, se plaçant ainsi au cœur des thématiques de recherche de institut Sorbonne Center for Artificial Intelligence. Les contributions attendues visent à développer et adapter des méthodes IA faisant un usage hybride d’algorithmes de graphe et d’apprentissage automatique, tout en apportant des solutions pour enrichir les graphes de connaissances dans le domaine des bases de données. Les résultats de cette recherche seront appliqués à la base Studium (http://studium.univ-paris1.fr/) de l’Université Panthéon-Sorbonne, dans le cadre d’une collaboration existante entre les Laboratoires LIP6 (SU), CEDRIC (CNAM) et LAMOP (Université Panthéon-Sorbonne) qui s’inscrit dans le projet ANR Laura en cours de soumission.
Profil du candidat :
Master 2 ou bac+5 en informatique
Formation et compétences requises :
Nous recherchons un.e candidat.e motivé.e avec avec de solides bases en informatique et en apprentissage automatique et idéalement de bonnes notions de graphes. La maîtrise d’un langage de programmation (comme Python) est indispensable. Des connaissances en bases de données (SQL, indexation) et algorithmique sont un plus.
Adresse d’emploi :
CNAM Paris – 2, Rue Conté 75003 Paris
Document attaché : 202503312054_theseSCAI.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS
Durée : 36 mois
Contact : Sebastien.Adam@univ-rouen.fr
Date limite de publication : 2025-04-30
Contexte :
Nous proposons une thèse financée au LITIS de l’INSA de Rouen.
Sujet :
cf PJ
Profil du candidat :
cf PJ
Formation et compétences requises :
cf PJ
Adresse d’emploi :
Laboratoire LITIS, INSA de rouen
76800 Saint Etienne du Rouvray
Document attaché : 202504091057_TheseDGNN.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFAT & LIFO
Durée : 3 ans
Contact : alexandre.chanson@univ-tours.fr
Date limite de publication : 2025-05-12
Contexte :
In the era of data-driven decision-making, extracting insights from large datasets is crucial. Data narration refers to transforming data insights into interactive visual stories to enhance understanding and communication. While recent advances in AI and LLMs have introduced automation in data exploration and storytelling, challenges remain in personalization, user intent recognition, and interactive data narration.
*** Detailed subject attached ***
Sujet :
Key Research Questions :
– User Intent & Interaction: How can user preferences and feedback guide LLM-driven data storytelling?
– Personalization: How can data stories be adapted to different audience profiles, knowledge levels, and presentation styles?
– Exploration-Narration Interplay: How can data exploration and storytelling be seamlessly integrated to allow iterative user intervention?
– Quality Assessment: How can we evaluate and benchmark the effectiveness of generated data stories?
The candidate is expected to contribute to one of the first three research questions while considering the fourth as a transversal aspect.
*** Detailed subject attached ***
Profil du candidat :
Master’s degree in Computer Science :
– Strong background in databases and machine learning
– Interest in data exploration, storytelling, or NLP
Formation et compétences requises :
— Application Deadline: May 12, 2025 —
To apply, please email the following documents to the supervisors:
– CV
– Master’s transcripts
– Cover letter
– Reference letters, if any
Adresse d’emploi :
Université de Tours site de Blois
Document attaché : 202502191608_phd-llm-storytelling.pdf
