Multimodal GraphRAG for the Semantic Querying of Scientific Publications

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 3 ans
Contact : bernd.amann@lip6.fr
Date limite de publication : 2026-05-31

Contexte :
Les publications scientifiques modernes sont intrinsèquement multimodales : elles combinent texte, figures et tableaux, tout en s’inscrivant dans un réseau de références bibliographiques. Pour interroger ces archives, les systèmes de Génération Augmentée par la Recherche (RAG), fondés sur les Grands Modèles de Langage (LLM), remplacent progressivement les moteurs de recherche classiques grâce à leur capacité à représenter le contenu sémantique des articles et à inférer des relations implicites. Néanmoins, ces approches atteignent aujourd’hui leurs limites, notamment face à des requêtes exigeant une compréhension globale et relationnelle du domaine.

Sujet :
Ce projet de thèse vise à concevoir un cadre GraphRAG multimodal pour l’interrogation sémantique de la littérature scientifique. Il s’agit d’unifier l’analyse du contenu (texte, figures, tableaux) et des métadonnées contextuelles (citations, benchmarks) pour modéliser les relations complexes entre fragments d’information. La méthodologie repose sur trois piliers : l’adaptation d’encodeurs multimodaux, l’alignement des données dans un espace latent commun, et la construction d’un graphe documentaire hétérogène augmenté par des ressources externes.

La problématique centrale de cette thèse se formule ainsi : Comment aligner et intégrer sémantiquement des représentations issues de modèles hétérogènes (texte, tableaux, figures) au sein d’un espace unifié, afin de démultiplier les capacités de raisonnement des LLM via une architecture GraphRAG multimodale ?

Les travaux s’articuleront autour de trois objectifs :

1. Identifier et adapter les modèles d’encodage existants pour les structures complexes (tableaux, figures). Il s’agira de valider leur capacité à préserver l’information topologique et visuelle sur des tâches de référence, afin de garantir la qualité des embeddings en entrée du système.

2. Faire de l’alignement inter-modalités un objet d’étude à part entière, fortement couplé à la modélisation en aval. Cet objectif vise à concevoir, comparer et évaluer différents paradigmes de fusion afin d’identifier l’architecture optimale en fonction des exigences topologiques des graphes cibles.

3. Modéliser le graphe documentaire intégrant ces modalités comme des nœuds enrichis, et déployer l’architecture GraphRAG en exploitant les mécanismes des graphes hétérogènes pour la contextualisation inter-modale. L’impact du système global sera mesuré sur des cas d’usage de compréhension scientifique complexe à l’aide de jeux de données de référence.

Profil du candidat :
Le poste s’adresse à une candidate ou un candidat motivé(e) par la recherche interdisciplinaire à l’interface entre traitement automatique des langues, vision par ordinateur et graphes de connaissances.

– Compétences scientifiques : bases solides en apprentissage automatique, en représentation de données et en évaluation expérimentale ; une appétence pour les approches multimodales et les LLM est attendue.

– Compétences techniques : bonne maîtrise de Python ; expérience appréciée avec les bibliothèques de deep learning, le traitement de documents et les bases de données graphes.

– Méthodologie de recherche : capacité à concevoir des protocoles expérimentaux rigoureux, à analyser les résultats de manière critique et à documenter les travaux dans une logique de reproductibilité.

– Compétences transversales : autonomie, esprit d’initiative, capacité de travail collaboratif et communication scientifique en français et en anglais (rédaction, présentations, échanges internatio-
naux).

Formation et compétences requises :

Adresse d’emploi :
LIP6-Sorbonne Université

Document attaché : 202604161652_sujet_aiko_heterogeneous_data_encoding_EN.pdf

Development of a Family of Hybrid Models for Prognostics

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut FEMTO-ST
Durée : 36 mois
Contact : zeina.almasry@femto-st.fr
Date limite de publication : 2026-05-31

Contexte :
Context: The increasing complexity of power electronic systems and the diversity of their operating conditions make it challenging to predict component health under poorly represented or previously untested conditions. Modern prognostics approaches rely either on physics-based models or on data-driven methods, which are flexible but often fail in out-of-distribution scenarios. Hybrid approaches combining both paradigms have emerged as a promising direction to overcome these limitations. This thesis is conducted within the framework of the ANR PRCE {Power-Twin} project, which aims to develop a digital twin for the diagnosis and prognosis of power module components, with particular attention to bonding wire degradation under variable load profiles.

Sujet :
Objectives The main objective of this thesis is to extend the health state prediction capabilities of prognostic models to conditions that are poorly represented in training data or entirely unseen. This will be achieved through three complementary research directions, each structured around a core research question and a set of concrete tasks.
Task 1: Modern machine learning approaches are increasingly exploited to automate and optimize fault detection and classification. We propose to investigate methods that improve diagnostics under under-represented conditions, with a particular emphasis on distribution-free approaches.
Task 2: Building upon prior work on RUL estimation for power modules under variable load profiles combining experimental data, finite element simulations, and Markov chain-based models [1], two complementary approaches will be developed: Physics-stochastic hybrid approach [2]) and Physics-Informed Neural Networks (PINNs) [3].
Task 3: The objective of this task is to develop a decision-support model to assist in the selection of diagnostic and prognostic algorithms by jointly optimizing energy and computational costs. Two goals are pursued: (i) quantify the energy impact of model choices, and (ii) develop a model selection indicator integrating model accuracy, data quality, and computation time. The approach will draw on sensitivity analysis over the models of Tasks 1 and 2, followed by a multi-criteria decision-making framework [4] that supports users in prioritizing dimensions through hierarchical structuring and expert pairwise comparisons.

References
[1] M. Ghrabli, M. Bouarroudj, L. Chamoin, and E. Aldea, “Physics-informed Markov chains for remaining useful life prediction of wire bonds in power electronic modules,” Microelectronics Reliability, vol. 167, p. 115644, Mar. 2025. https://doi.org/10.1016/j.microrel.2025.115644
[2] A. Bender, “A Multi-Model-Particle Filtering-Based Prognostic Approach to Consider Uncertainties in RUL Predictions,” Machines, vol. 9, no. 10, p. 210, Sep. 2021. https://doi.org/10.3390/machines9100210
[3] L. Podina, M. Torabi Rad, and M. Kohandel, “Conformalized Physics-Informed Neural Networks,” arXiv preprint arXiv:2405.08111, 2024. https://doi.org/10.48550/arXiv.2405.08111
[4] R. Ketfi, Z. Al Masry, N. Zerhouni, C. Devalland, “MS-DQI: A methodology for data quality assessment in medical sensor networks with a case study on a temperature sensor network for breast cancer detection,“ Biomedical Signal Processing and Control, vol. 117, 2026, 109650, ISSN 1746-8094, https://doi.org/10.1016/j.bspc.2026.109650

Profil du candidat :
• Master’s degree (or equivalent) in data science, applied mathematics, electrical engineering, or a related field.
• Strong background in machine learning and/or statistical modeling.
• Good written and oral communication skills in English.

Formation et compétences requises :

Adresse d’emploi :
SUPMICROTECH-ENSMM
FEMTO-ST/AS2M, UMR CNRS 6174
24 rue Alain Savary, 25000 Besançon

Document attaché : 202604150925_PhDOFFER.pdf

Effective Generation of Structured Data using LLMs

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne University
Durée : 36 mois
Contact : mohamed-amine.baazizi@lip6.fr
Date limite de publication : 2026-05-03

Contexte :

Sujet :
LLMs, Structured Data generation

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
https://adum.fr/as/ed/voirproposition.pl?site=adumR&matricule_prop=73229#version

Document attaché : 202604120959_Thesis_SU_2026.pdf

proposition de thèse CNAM-Sorbonne Université-Université Panthéon Sorbonne en IA et Humanités numériques

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : CEDRIC@CNAM – LIP6@Sorbonne Université
Durée : 36 mois
Contact : cedric.du_mouza@cnam.fr
Date limite de publication : 2026-04-30

Contexte :
Le passage des sources historiques manuscrites vers des formats
numériques a longtemps été marqué par la dépendance aux bases de données relationnelles. Si le format tabulaire a permis
de quantifier certains phénomènes et de soutenir l’histoire sérielle, il se révèle peu adapté pour représenter des parcours
biographiques complexes ou des questionnements qui évoluent au fil du temps. L’adoption de graphes de connaissances
(KG) marque ainsi un tournant méthodologique majeur, en offrant un modèle où l’information n’est plus conçue comme
un enregistrement isolé, mais comme un réseau de relations dynamiques entre personnes, lieux, événements et documents
au sein de corpus historiques. Pour l’historien, le graphe devient un véritable outil d’enquête, capable de faire émerger
des structures de parenté, des réseaux de sociabilité et des configurations relationnelles qui restent difficiles à appréhender
dans une organisation purement tabulaire.
Cependant, cette modélisation se heurte à la nature même du document historique : l’incomplétude des archives et la
fragmentation des séries constituent une contrainte structurelle qui limite la complétude des graphes de connaissances
construits à partir de ces sources. À cela s’ajoutent l’ambiguïté des noms de personnes, les homonymies, la variabilité
orthographique et la présence d’identités partiellement attestées, qui rendent la désambiguïsation et le chaînage d’entités
particulièrement délicats dans les corpus historiques. Le défi n’est plus seulement de stocker l’information, mais de
représenter fidèlement le flou et l’incertitude [6] qui l’entourent sans trahir la rigueur de la critique historique.

Sujet :
La problématique de l’incertitude : une difficulté scientifique nouvelle. La problématique centrale de cette thèse
réside dans l’extraction et la quantification de l’incertitude, une dimension souvent ignorée par les systèmes de gestion de
données classiques qui privilégient un modèle déterministe et supposent des faits complets et certains. Dans un contexte
médiéval, l’incertitude est omniprésente : elle affecte les propriétés d’un noeud, comme une date de naissance approximative
ou un statut social mal attesté, mais aussi l’existence même d’une relation, par exemple une filiation simplement
supposée ou discutée dans des sources divergentes. La difficulté est ici double et constitue une nouveauté scientifique dans
le champ des graphes de connaissances appliqués aux sources historiques. D’une part, il faut pouvoir établir des stratégies
de liage d’entités dans un environnement où les données sont instables, fragmentaires et parfois contradictoires. Comment
affirmer que deux mentions de noms proches dans des documents différents désignent la même personne physique alors
que leurs attributs, tels que les lieux ou les dates, sont partiels, bruités ou incompatibles, tout en contrôlant explicitement
les taux d’erreur de liage ? D’autre part, la thèse devra résoudre le problème de l’agrégation : comment fusionner deux
noeuds représentant potentiellement la même entité tout en mettant à jour, de manière cohérente, les scores d’incertitude
associés aux faits et aux relations du graphe ? Il s’agit de traiter mathématiquement le renforcement, lorsque deux sources
indépendantes concordent, ou au contraire la contradiction, en modélisant la confiance dans les triplets et en intégrant des
mécanismes de fusion incertaine, tout en gardant une traçabilité fine des entités et des sources d’origine pour permettre à
l’historien de remonter systématiquement à la source primaire [4].
L’apport de l’Intelligence Artificielle : du NLP aux GNN. L’Intelligence Artificielle constitue le levier technologique
indispensable pour lever ces verrous en intervenant à chaque étape de la chaîne de traitement. Dans un premier temps,
les modèles de traitement du langage naturel (NLP) et les grands modèles de langage (LLM) seront mobilisés pour extraire
l’information tout en détectant les marqueurs linguistiques de l’incertitude, en s’appuyant sur les travaux de détection
automatique des hedge cues et des segments spéculatifs dans les textes. Cette approche dépasse le simple repérage d’entités
pour devenir une véritable évaluation de la fiabilité de l’information brute, où l’IA associe à chaque affirmation textuelle
un score de certitude ou de spéculation afin de distinguer les faits établis des informations hypothétiques ou douteuses.
Ensuite, l’IA appliquée aux graphes, et plus particulièrement les Graph Neural Networks (GNN), permettra de transformer le
liage d’entités en une tâche d’apprentissage profond exploitant le contexte relationnel global du graphe plutôt que les seuls
attributs locaux. Contrairement aux méthodes classiques, les GNN peuvent apprendre des représentations qui intègrent la
position d’un individu dans le réseau social et la structure des relations qui l’entourent, facilitant ainsi la réconciliation de
noeuds même lorsque leurs attributs textuels divergent ou sont incomplets. Enfin, l’apprentissage automatique sera utilisé
pour l’inférence de connaissances, permettant à la fois de découvrir des relations manquantes et de propager les scores
d’incertitude à travers le graphe, dans l’esprit des approches de knowledge graph completion.

Données. Le travail de recherche s’appuiera sur les données prosopographiques des bases Studium et Fasti, offrant un
terrain d’expérimentation d’une richesse rare sur les élites universitaires et ecclésiastiques médiévales. Ces corpus ne sont
pas seulement des réservoirs biographiques ; ils constituent des structures relationnelles complexes où le silence des sources et les contradictions documentaires sont la norme plutôt que l’exception. En mobilisant ces données, l’enjeu sera de transcender
le modèle déterministe traditionnel pour modéliser des graphes de connaissances intégrant la notion d’incrtitude.
Les bases Studium et Fasti recèlent en effet des attributs fragiles, tels que des dates de décès exprimées par des fourchettes
incertaines ou des fonctions dont la chronologie se chevauche de manière incohérente, qui serviront de variables pour
tester des algorithmes de liage d’entités sous contrainte d’incertitude.
Méthodologie : Extraction, Liage et Agrégation sous Incertitude. Le doctorant devra en premier lieu développer
des méthodes innovantes fondées sur le traitement du langage naturel (NLP) et l’apprentissage profond pour extraire non
seulement les entités nommées, mais aussi des indices de confiance et d’incertitude finement calibrés, en s’inspirant des
approches de détection de spéculation et de modélisation probabiliste des affirmations textuelles. Ces scores ne dépendront
pas uniquement de la clarté du texte, mais seront corrélés au contexte sémantique global et à une évaluation de la qualité
des sources historiques, suivant les travaux qui intègrent des métriques de fiabilité contextuelles dans l’extraction d’informations
incertaines. Cette étape est cruciale pour transformer une donnée textuelle brute en un objet probabiliste riche,
capable d’être intégré dans la structure du graphe de connaissances, comme le proposent les pipelines d’extraction enrichis
en incertitude pour des applications en KG.
Dans un second temps, les travaux porteront sur l’élaboration d’algorithmes de liage et d’agrégation spécifiquement
conçus pour être « uncertainty-aware », en ligne avec les cadres récents de entity resolution probabiliste et de fusion
sous incertitude. Plusieurs types d’approches sont envisagées pour relever ce défi. L’algorithmique de graphe couplée
à l’IA, notamment à travers les Graph Neural Networks (GNN), sera mobilisée pour capturer la topologie du réseau et
l’utiliser comme levier de réconciliation, en exploitant les représentations structurelles pour résoudre les ambiguïtés même
en présence de données bruitées ou partielles. Parallèlement, d’autres approches d’IA comme l’apprentissage par métrique
(metric learning) ou les modèles de bi‑encodeurs seront explorées pour le liage d’entités, en adaptant des techniques qui
génèrent des embeddings tenant compte de l’incertitude ou de la variabilité des sources.
La difficulté majeure, et l’un des verrous scientifiques de la thèse, résidera dans la nécessité d’adapter ces modèles, traditionnellement
déterministes, pour qu’ils intègrent nativement l’incertitude, comme le soulignent les analyses des limites
des approches classiques face à des données historiques fragmentaires. Il s’agira de proposer des fonctions de similarité
avancées capables de traiter des valeurs floues ou des intervalles de confiance, et de définir des opérateurs d’agrégation
aptes à gérer le renforcement ou l’atténuation de la confiance lors de la fusion de sources multiples. Ces opérateurs permettront
de mettre à jour dynamiquement les connaissances du graphe de connaissances (KG), en répercutant chaque
nouvelle information sur l’ensemble du réseau relationnel tout en préservant la traçabilité indispensable à l’analyse historienne,
conformément aux principes de provenance et de vérification probabiliste dans les KG.

Profil du candidat :
Titulaire d’un M2 ou ingénieur, avec de solides bases en informatique et en apprentissage automatique et idéalement de bonnes notions de graphes et une appétence pour l’histoire. La maîtrise d’un langage
de programmation (comme Python) est indispensable.

Formation et compétences requises :

Adresse d’emploi :
laboratoire CEDRIC, CNAM, 2 rue Conté 75003 Paris
laboratoire LIP6, 3 place Jussieur, 75005 Paris

Document attaché : 202604081251_sujetTheseSCAI2026.pdf

Poste MdC au fil de l’eau en IA visuelle @ETIS/ENSEA

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS/ENSEA
Durée : CDI de droit public
Contact : vassilis.christophides@ensea.fr
Date limite de publication : 2026-04-20

Contexte :
L’ENSEA est une grande école d’ingénieurs en électronique (au sens moderne du terme) si-tuée à Cergy-Pontoise (95). L’école est un établissement public, qui délivre près de 240 di-plômes par an, et accueille des étudiant.es préparant des diplômes de niveau Bac+3 (Bache-lor Human-IT), Bac + 5 (diplômes d’ingénieur ENSEA sous statut d’étudiant ou d’apprenti, diplômes de Master spécialisé et Master orienté recherche) et bac+8 (Doctorat en partenariat avec CY Paris Cergy Université). Depuis 1952, elle a formé plus de 8400 ingénieur·es. La mission de l’ENSEA est de former des diplômé·es capables de penser “au-delà” de l’ingénie-rie, polyvalent·es, ouvert·es sur le monde, expert·es dans leur domaine, passionné·es et cons-cient·es des responsabilités environnementales et sociétales. Les domaines d’excellence sont ceux de l’électronique, de l’informatique, des télécommunications, de l’IA et des systèmes embarqués. Les étudiant.es sont encouragé.es à personnaliser leur cursus par le choix de nombreuses options, parcours à l’international et double-diplômes en accord avec des univer-sités étrangères, et en participant activement à la vie de l’école au niveau associatif. L’ENSEA héberge également 10 équipes de recherche regroupées dans deux laboratoires de renommée internationale : ETIS, UMR CNRS spécialisée dans le traitement de l’information et des systèmes, et Quartz, laboratoire commun consacré aux sciences de l’ingénierie et, au sein de l’ENSEA, spécialisé dans le contrôle des systèmes, la mécatronique et l’électronique très haut débit.

Le laboratoire ETIS, UMR 8051 (CY Cergy Paris Université, ENSEA, CNRS) est un acteur majeur du traitement de l’information et des systèmes intelligents. Avec plus de 170 membres, ETIS mène des recherches interdisciplinaires au croisement du traitement du si-gnal, des sciences des données, de l’intelligence artificielle, de la robotique, des réseaux du futur, de la cybersécurité, de la conception de circuits et des systèmes cyber-physiques.
Les activités scientifiques du laboratoire s’inscrivent pleinement dans les grands enjeux sociétaux et technologiques portés par la Stratégie Nationale de Recherche et France 2030, en lien avec les transformations numériques, écologiques, sanitaires et sécuritaires qui traversent nos sociétés.
ETIS développe des approches allant de la modélisation théorique des systèmes complexes (systèmes cognitifs, réseaux hétérogènes, interactions multimodales) à la conception de méthodes d’apprentissage pour des systèmes autonomes et adaptatifs (IoT, robots interactifs, dispositifs biomédicaux, capteurs distribués, etc.). Sa dynamique s’appuie sur une démarche bottom-up, où chaque équipe fait émerger ses problématiques fondamentales tout en répondant à des besoins concrets issus de partenariats académiques ou industriels.
Le laboratoire est fortement impliqué dans les Programmes d’Investissement d’Avenir (Labex, Equipex, Equipex+, PEPR 5G et O2R), dans des projets ANR, Horizon Europe, CIFRE, ainsi que dans de nombreux partenariats industriels. Il accueille chaque année une dizaine de chercheurs invités et mène une politique affirmée de valorisation, incluant la création de spin-off et le développement de plateformes technologiques.
Les activités scientifiques sont organisées autour de quatre équipes — CELL, ICI, Data&AI, NeuroCyber, ainsi que d’un groupe transversal Design-STS articulant sciences de l’ingénieur, sciences humaines et design. Les activités expérimentales s’appuient sur sept plateformes thématiques couvrant capteurs, robotique, mouvement, images, réseaux, circuits.

Sujet :
Profil Recherche
L’intelligence artificielle visuelle (ou IA visuelle en abrégé) vise à tirer des enseignements utiles de données visuelles telles que des images et des vidéos intégrées dans de nombreuses applications
allant de la recherche scientifique à la fabrication industrielle. L’intelligence artificielle visuelle s’est traditionnellement concentrée sur la détection et la reconnaissance d’objets grâce à des architectures d’apprentissage profond, afin d’identifier et de catégoriser les objets du monde réel dans les données visuelles. Au-delà de la reconnaissance d’objets spécifiques, elle s’intéresse
également à l’interprétation des relations spatiales et du contexte d’une scène. Cette capacité lui permet de comprendre non seulement ce qui est présent, mais aussi comment ces éléments
interagissent entre eux et avec leur environnement. En effet, dans les environnements dynamiques, il est crucial de suivre les objets en mouvement et leurs évolutions au fil du temps. L’analyse du
mouvement permet aux systèmes d’IA de surveiller ces changements, qu’il s’agisse du déplacement d’un véhicule ou d’une personne dans un contexte de sécurité. Les capacités d’IA visuelle, qui permettent non seulement de voir mais aussi de percevoir l’environnement réel, sont essentielles pour combler le fossé d’intelligence entre les machines et les humains et développer des systèmes d’IA fiables pour une utilisation en monde ouvert. Les techniques d’IA générative sont de plus en plus précieuses à cet égard pour la compréhension, la reconstruction et la synthèse d’images dans des contextes hétérogènes.

Profil du candidat :
Nous recherchons notre futur⋅e collègue dont les travaux témoignent d’une reconnaissance scientifique au niveau international et d’un engagement fort en faveur de l’intégrité scientifique.
Le.a candidat.e contribuera au développement de méthodologies fondamentales en intelligence artificielle. Leurs travaux devront contribuer à la création de systèmes autonomes capables de s’adapter à des conditions changeantes et d’atteindre des objectifs sans intervention humaine. Les approches d’IA basées sur la vision explicable seront particulièrement appréciées pour identifier les raccourcis d’apprentissage visuel et favoriser une résolution de problèmes interdisciplinaire avec des experts dans différents domaines.
Des applications dans des domaines innovants, tels que l’analyse du mouvement humain, la médecine computationnelle, la découverte moléculaire, la surveillance de l’état de santé des machines ou le contrôle de qualité industriel seront appréciés.
Plus largement, le ou la candidat.e retenu devra contribuer activement à la stratégie quinquennale du laboratoire, qui privilégie le développement d’une IA embarquée, frugale et fiable, avec un fort accent sur les applications liées à la santé et le déploiement en conditions réelles dans des environnements aux ressources limitées. Une ouverture aux collaborations entre les équipes DATA&AI, CELL et NEUROCYBER sera particulièrement appréciée
L’équipe Data&AI recherche un.e candidat.e pour mener des recherches innovantes sur l’ IA visuelle en prenant en compte les interactions potentielles du contenu visuel (images, vidéo) avec
d’autres modalités (texte, audio) ainsi que sur des techniques de reconnaissance visuel intégrés dans des systèmes de l’IA Agentique qui nous permettent non seulement de comprendre mais aussi
d’agir de façon autonome dans des contextes complexes.

Formation et compétences requises :
Profil Enseignement
Le.a maître.sse de conférences recruté.e s’investira dans les enseignements plus spécifiques en traitement d’images et de vidéos (chaîne de traitement, algorithme, deep learning…) des spécialités Signal Intelligence Artificielle et Electronique pour le Vivant et les Ecosystèmes de la formation d’ingénieur sous statut étudiant. La personne recrutée sera aussi amenée à intervenir dans les enseignements de traitement des images du cycle ingénieur plus globalement, y compris en anglais, et du Bachelor « Human-IT ». Par ailleurs, le.a candidat.e recruté.e participera aux réflexions menées dans les départements pédagogiques y compris dans les réflexions sur l’intégration des enjeux de transition environnementale et de sobriété dans les différents cursus de l’école. Il.elle pourra s’investir dans des missions liées aux activités pédagogiques ou dans des missions variées en lien avec le développement de l’établissement au niveau national et international.

Adresse d’emploi :
6 Avenue du Ponceau, 95000, CERGY

Thèse en Intelligence Artificielle dans le cadre du projet ANR IARISQ (2026-2030)

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : CRISTAL UMR CNRS 9189
Durée : 36 mois
Contact : hayfa.zgaya-biau@univ-lille.fr
Date limite de publication : 2026-06-02

Contexte :
Dans le cadre du projet ANR IARISQ : https://anr.fr/Project-ANR-25-CE56-3679 : “CONCEPTION ET DEVELOPPEMENT D’UN SYSTEME D’AIDE A LA DECISION A BASE D’INTELLIGENCE ARTIFICIELLE POUR LA PREDICTION DE LA QUALITE DE L’AIR ET LA DETERMINATION DES RISQUES SANITAIRES DES PARTICULES”, nous cherchons un doctorant pour la modélisation et prévision temporelle de la composition chimique des particules atmosphériques ; et la prédiction des seuils de toxicité associés, en intégrant ces variables physico-chimiques.

Sujet :
Prédiction temporelle de la composition physico-chimique des particules atmosphériques et estimation dynamique de leurs seuils de toxicité par Intelligence Artificielle

Profil du candidat :
Titulaire d’un Master en Intelligence Artificielle, avec une bonne maîtrise de l’anglais et de solides compétences en rédaction scientifique. Une expérience de publication (article soumis et/ou publié) constitue un atout.

Formation et compétences requises :
– Formation en informatique avec spécialisation en Intelligence Artificielle (Master ou équivalent)
– Excellentes compétences en développement informatique (Python et bibliothèques associées)
– Bonne maîtrise des approches d’IA symbolique et sub-symbolique
– Expérience en modélisation et en prédiction de séries temporelles

Adresse d’emploi :
UMR CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
59655 Villeneuve d’Ascq

Document attaché : 202604020557_Projet ANR IARISQ Sujet de thèse.pdf

Appel à contribution orale pour les workshops EXMIA et DSCHEM @MADICS 2026

Date : 2026-06-02 => 2026-06-03
Lieu : Symposium MADICS, Avignon

Bonjour,

MaDICS est un GdR informatique centré autour des “Masses de Données, Informations et Connaissances en Sciences” (https://www.madics.fr/). Orienté vers l’interdisciplinarité, MaDICS accorde une place spécifique au traitement de l’information chimique et biologique notamment au travers des actions EXMIA (https://www.madics.fr/actions/exmia/) et DSChem (https://www.madics.fr/actions/dschem/).

Nous organisons deux sessions centrées autour des thématiques du traitement de l’information chimique et biologique, et plus particulièrement sur la mise au point de modèles multimodaux et de l’explicabilité de ces modèles lors du prochain Symposium du GdR Madics qui se déroulera les 2 et 3 juin à Avignon.

La participation au workshop est gratuite, seule une inscription est nécessaire.

Vous pouvez proposer vos travaux pour un exposé oral en adressant un résumé à celine.robardet@insa-lyon.fr et sebastien.fiorucci@univ-cotedazur.fr avant le 22 avril 2025.

Nous pouvons financer la mission d’un jeune chercheur ou d’une jeune chercheuse.
Il est possible de candidater jusqu’au 8/05/2026. Vous pouvez nous envoyer vos candidatures par email.
Faire parvenir en un seul fichier pdf votre CV à jour (1 page max.) et une lettre (1 page max.) expliquant votre intérêt pour le symposium.
La bourse permettra de couvrir les frais de mission à hauteur maximale de 500€ pour participer au symposium du GDR Madics 2026.

N’hésitez pas à nous contacter à celine.robardet@insa-lyon.fr ou sebastien.fiorucci@univ-cotedazur.fr

A bientôt,

—
Les porteurs d’EXMIA et DSChem

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Étude, conception et exploitation de modèles de Knowledge Tracing multi-sources

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique Fondamentale d’Orléans
Durée : 4 à 6 mois
Contact : guillaume.cleuziou@univ-orleans.fr
Date limite de publication : 2026-04-17

Contexte :

Sujet :
Le Knowledge Tracing est un domaine d’étude à l’intersection de l’Educational Data Mining (EDM), du Learning Analytics (LA) et de l’IA en Education (AIED) qui renferme un ensemble de méthodes de modélisation des connaissances d’un apprenant à partir de l’analyse de ses activités pédagogiques dans un environnement pédagogique digital. Ces modélisations sont utilisées dans des tâches de prédiction de la réussite et permettent alors de concevoir des parcours personnalisés d’apprentissage (ITS -Intelligent Tutoring Systems). Ces méthodes reposent aujourd’hui principalement sur des modèles de Machine Learning et plus particulièrement d’apprentissage profond (deep learning). Ces approches ont conduit à l’émergence du Deep Knowledge Tracing depuis les travaux de PIECH et al. (2015).

Les recherches existantes exploitent principalement les activités pédagogiques prenant la forme d’exercices, généralement dédiés à l’acquisition d’une compétence cible, dont la réussite ou l’échec aide à estimer le niveau de maîtrise de l’apprenant à cette compétence. Plus récemment des travaux proposent d’exploiter non plus seulement les exercices mais également les dialogues tuteur/apprenant issus par exemple d’un chatbot, au moyen de LLMs (SCARLATOS, BAKER et LAN 2025). Ces avancées prometteuses tirent avantage des progrès récents en IA et offrent des opportunités nouvelles en terme d’innovations dans le domaine du Knowledge Tracing.

L’objectif du stage est d’une part de dresser un état de l’art du domaine (Knowledge Tracing) et en particulier une revue des approches récentes mettant en oeuvre une exploitation des dialogues tuteur/apprenant. Il s’agira également d’étudier les solutions d’exploitation conjointe de plusieurs sources d’information (exercices, dialogues, traces d’activités, etc.) au sein d’un modèle de Knowledge Tracing unifié. Une étude expérimentale sur données réelles est attendue. Dans cette optique, le·a stagiaire collaborera avec ses encadrants et l’équipe e-INSPE :
– dans la mise en place de la collecte des données sur les formations de la plateforme
– sur l’information aux usagers concernés par ce projet de recherche> en informant des objectifs et de l’état d’avancement de son projet
– en initiant aux fondamentaux des champs concernés (knowledge tracing, apprentissage automatique, deep learning)

Ce stage pourra donner lieu à une poursuite en thèse.

Références

PIECH, Chris et al. (2015). “Deep knowledge tracing”. In : Advances in neural information processing systems 28.

SCARLATOS, Alexander, Ryan S BAKER et Andrew LAN (2025). “Exploring knowledge tracing in tutor-student dialogues using llms”. In : Proceedings of the 15th international learning analytics and knowledge conference, p. 249-259.

Profil du candidat :
Vous manifestez un intérêt pour les sciences de l’éducation.

Une expertise Moodle serait un plus mais des modalités de formation (via l’Université d’Orléans ou de Tours et Réseau Canopé) seront envisageables.

Formation et compétences requises :
Vous êtes étudiant·e en master ou en école d’ingénieur en Informatique.

Vous disposez d’une culture scientifique en Apprentissage Automatique et d’une expérience dans la mise en œuvre de modèles de Deep Learning.

Adresse d’emploi :
DT Canopé (en fonction de la domiciliation du candidat) ; réunions en présentiel à prévoir au LIFO (Orléans)

Document attaché : 202603261753_Stage_M2_2026_eINSPE_LIFO.pdf

CfP: MACLEAN: MAChine Learning for EArth ObservatioN (workshop @ECML/PKDD2026)

Date : 2026-09-7 => 2026-06-30
Lieu : Naples, Italie

MACLEAN: MAChine Learning for EArth ObservatioN

https://sites.google.com/view/maclean26

September 2026

Best paper prize sponsored by ESA

KEY DATES

Paper submission deadline: June 14, 2026
Paper acceptance notification: July 14, 2026
Paper camera-ready deadline: July 30, 2026

CONTEXT

The huge amount of data currently produced by modern Earth Observation (EO) missions has raised up new challenges for the Remote Sensing communities. EO sensors are now able to offer (very) high spatial resolution images with revisit time frequencies never achieved before considering different kind of signals, e.g., multi-(hyper)spectral optical, radar, LiDAR and Digital Surface Models.
In this context, modern machine learning techniques can play a crucial role to deal with such amount of heterogeneous, multi-scale and multi-modal data. Some examples of techniques that are gaining attention in this domain include deep learning, domain adaptation, semi-supervised approach, time series analysis and active learning.
Even though the use of machine learning and the development of ad-hoc techniques are gaining increasing popularity in the EO domain, we can witness that a significant lack of interaction between domain experts and machine learning researchers still exists.
The objective of this workshop is to supply an international forum where machine learning researchers and domain-experts can meet each other, in order to exchange, debate and draw short and long term research objectives around the exploitation and analysis of EO data via Machine Learning techniques. Among the workshop’s objectives, we want to give an overview of the current machine learning researches dealing with EO data, and, on the other hand, we want to stimulate concrete discussions to pave the way to new machine learning frameworks especially tailored to deal with such data.

TOPICS

– Supervised Classification of Multi(Hyper)-spectral data
– Supervised Classification of Satellite Image Time Series data
– Unsupervised Learning of EO Data
– Deep Learning approaches to deal with EO Data
– Machine Learning approaches for the analysis of multi-scale EO Data
– Machine Learning approaches for the analysis of multi-source EO Data
– Semi-supervised classification approaches for EO Data
– Active learning for EO Data
– Transfer Learning and Domain Adaptation for EO Data
– Interpretability and explainability of machine learning methods in the context of EO data analysis
– Bayesian machine learning for EO Data
– Dimensionality Reduction and Feature Selection for EO Data
– Graphicals models for EO Data
– Structured output learning for EO Data
– Multiple instance learning for EO Data
– Multi-task learning for EO Data
– Online learning for EO Data
– Embedding and Latent factor for EO Data
– Foundation Models for Earth Observation
– Multi-Modal approaches for EO Data
– Self-supervised learning for EO Data

INVITED SPEAKERS:

TBA

SUBMISSION

We welcome original contributions, either theoretical or empirical, describing ongoing projects or completed work. Contributions can be of two types: either short position papers (up to 6 pages including references) or full research papers (up to 10 pages including references). Papers must be written in LNCS format, i.e., accordingly to the ECML-PKDD 2026 submission format. Accepted contributions will be made available electronically through the Workshop web page.
Post-proceedings will be also published at the CCIS (Communications in Computer and Information Science) series.

WORKSHOP WEBSITE:

https://sites.google.com/view/maclean26

SUBMISSION WEBSITE:

https://cmt3.research.microsoft.com/ECMLPKDDWT2026/Track/10/Submission/Create

PC-CHAIRS

Thomas Corpetti, CNRS, LETG-Rennes COSTEL UMR 6554 CNRS, Rennes, France, thomas.corpetti@cnrs.fr
Roberto Interdonato, CIRAD, UMR Tetis, Montpellier, France, roberto.interdonato@cirad.fr
Cassio Fraga Dantas, INRAE, UMR Tetis, Montpellier, France, cassio.fraga-dantas@inrae.fr
Giuseppe Guarino, INRAE, UMR Tetis, Montpellier, France, dino.ienco@inrae.fr
Minh-Tan Pham, Univ. Bretagne-Sud, UMR 6074, IRISA, Vannes, France, minh-tan.pham@irisa.fr

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

CFP AI For Human Resources and Public Employment Services (AI4HR&PES@ECML-PKDD 2026)

Date : 2026-09-07 => 2026-09-11
Lieu : University of Naples Federico II

Call for Papers for the *AI4HR&PES workshop*, which will take place *in conjunction with ECML-PKDD 2026 in Naples*, Italy.

This workshop aims to explore the challenges of the contemporary job market and human resources management through data-driven solutions.

*Important Dates:*

● Paper Submission Deadline: June 5th, 2026 – AoE at 23:59

● Notification of Acceptance: June 26th, 2026 – AoE at 23:59

● Workshop date: Sept 7 or Sept 11, 2026

*Topics of Interest:*

We invite contributions on all aspects of data-driven solutions or AI in human resources and labor market contexts, including but not limited to:

● Job market analytics

● Job recommender systems

● Applications of large language models (LLMs) in HR

● Skill extraction and forecasting

● Ethical and legal issues in AI for HR management

● Inclusion of vulnerable groups in the job market

We welcome submissions from academia, industry, and government agencies, focusing on both theoretical and practical aspects of the topics mentioned above. We encourage ethical considerations to be explicitly addressed in all contributions.

Accepted paper types include:

1. Recent results published elsewhere.

2. Previously unpublished novel research results.

3. Previously unpublished position papers.

4. Previously unpublished concise surveys.

Submissions will be handled via CMT.

The submission link will be made available through the Workshop website: https://ai4hrpes.github.io/ecmlpkdd2026/

For any inquiries, please contact at: ai4hrpes.ecmlpkdd@gmail.com

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Multimodal GraphRAG for the Semantic Querying of Scientific Publications

Development of a Family of Hybrid Models for Prognostics

Effective Generation of Structured Data using LLMs

proposition de thèse CNAM-Sorbonne Université-Université Panthéon Sorbonne en IA et Humanités numériques

Poste MdC au fil de l’eau en IA visuelle @ETIS/ENSEA

Thèse en Intelligence Artificielle dans le cadre du projet ANR IARISQ (2026-2030)

Appel à contribution orale pour les workshops EXMIA et DSCHEM @MADICS 2026

Étude, conception et exploitation de modèles de Knowledge Tracing multi-sources

CfP: MACLEAN: MAChine Learning for EArth ObservatioN (workshop @ECML/PKDD2026)

CFP AI For Human Resources and Public Employment Services (AI4HR&PES@ECML-PKDD 2026)