Offres d’emploi

Offres d’emploi

 Postes    Thèses    Stages 

Postes/PostDocs/CDD

Apr
30
Thu
2026
Recrutement d’un MdC en IA et cybersécurité à Télécom Paris
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : Télécom Paris – LTCI
Durée : CDI
Contact : sebastien.canard@telecom-paris.fr
Date limite de publication : 2026-04-30

Contexte :
Télécom Paris, centre international pluridisciplinaire de formation, recherche et innovation, est une référence dans le monde du numérique.
Dans un contexte fortement d’actualité, où l’essor simultané de l’intelligence artificielle (IA) et de la cybersécurité transforme profondément les systèmes numériques et crée un besoin croissant d’expertise à leur interface. L’IA est aujourd’hui à la fois un outil, une cible, une menace, et un levier de protection.
C’est pourquoi le département Informatique et Réseaux (INFRES) et plus particulièrement l’équipe Cybersécurité et Cryptographie (C2) a besoin de se renforcer grâce au recrutement d’un ou une maître.sse de conférence en IA et cybersécurité, capable de travailler dans ce domaine avec les nombreuses équipes de l’École telles que Systèmes embarqués critiques autonomes (ACES), Données, Intelligence et Graphes (DIG) à INFRES ou également Statistique, Signal et Apprentissage (S2A) à IDS, mais aussi avec d’autres équipes de l’Institut Polytechnique de Paris à l’École Polytechnique ou à Télécom SudParis. Ce recrutement vise à renforcer la formation et la recherche sur ces enjeux émergents, en intégrant des compétences transversales allant des techniques d’apprentissage automatique à la sécurité des systèmes et des données.

Sujet :
Les expertises attendues couvrent un spectre large mais cohérent situé au cœur des interactions entre intelligence artificielle et cybersécurité :
– la compréhension et la modélisation des attaques exploitant l’IA (techniques d’apprentissage génératif : phishing avancé, reconnaissance de vulnérabilités, génération de trafic ou de charges malveillantes)
– la conception et l’évaluation de méthodes d’IA pour la détection d’intrusions, l’analyse comportementale, la corrélation d’événements massifs, la détection d’anomalies, la classification de malwares, le traitement de flux distribués (edge computing, apprentissage fédéré)
– la sécurité intrinsèque de l’IA, notamment la robustesse des modèles (défense contre-attaques adversariales, résistance aux manipulations et aux corruptions de données), la protection des données utilisées pour l’entraînement ou l’inférence (confidentialité, anonymisation, préservation de la vie privée, techniques cryptographiques ou fédérées), la traçabilité et la confiance dans les modèles (certification, explicabilité, auditabilité), ainsi que la sécurité des chaînes d’apprentissage et des environnements d’exécution.

Profil du candidat :
Vos missions seront donc celles-ci :
– Recherche : les candidats et candidates pourront se positionner sur une ou plusieurs de ces dimensions, et une attention particulière sera portée à la capacité à articuler l’IA et la cybersécurité, avec des contributions théoriques, méthodologiques ou expérimentales permettant d’éclairer et de renforcer la sûreté, la robustesse et la résilience des systèmes numériques contemporains. Le poste s’adresse à la fois à des chercheurs et chercheuses en IA disposant d’une forte appétence pour la cybersécurité, et à des profils présentant une double compétence IA–cybersécurité, capables de contribuer au développement de travaux académiques de haut niveau dans ce domaine en pleine structuration.
– Enseignement : la future personne pourrait être amenée à intervenir dans les enseignements fondamentaux (algorithmique, structures de données, probabilités, statistiques, optimisation, programmation, réseaux, systèmes) qui constituent la base indispensable à la maîtrise des approches modernes en IA et en sécurité numérique. Parallèlement, l’ouverture récente d’un parcours dédié à l’IA et à la cybersécurité crée un besoin important d’expertise pédagogique sur l’apprentissage automatique, sécurité des réseaux et des systèmes, détection d’intrusions, sécurité et robustesse des modèles, protection des données, cryptographie appliquée, etc. Le ou la candidat·e recruté·e aura ainsi un rôle structurant dans la coordination et l’articulation des enseignements du domaine, en participant à la conception de nouveaux modules, en veillant à l’intégration harmonieuse des compétences IA et cybersécurité dans les cursus.
– Animation et participation à la notoriété de l’école et de l’institut Polytechnique de Paris : la personne participera à des séminaires, soutenances, etc, et développera des relations étroites avec les institutions académiques, les centres de recherche et les entreprises.

Formation et compétences requises :
Pour réussir dans ce rôle, vous devrez également disposer d’un doctorat et maîtriser l’anglais.

Adresse d’emploi :
Pour candidater : https://institutminestelecom.recruitee.com/o/enseignante-chercheuse-ou-enseignant-chercheur-en-ia-et-cybersecurite

Télécom Paris
19 place Marguerite Perey
91120 Palaiseau

May
22
Fri
2026
Poste McF 27
May 22 – May 23 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC / Polytech Annecy Chambéry
Durée : cdi
Contact : flavien.vernier@univ-smb.fr
Date limite de publication : 2026-05-22

Contexte :
MCF 27 – Informatique

E : Informatique, IA symbolique, Big Data, DevOps, Maths discrètes.
R : Apprentissage automatique, Hybridation, Frugalité.

E : Computer science, Symbolic AI, Big Data, DevOps, Discrete Mathematics
R : Machine Learning, Hybrid IA, Frugality

Poste Vacant

Sujet :
La personne recrutée interviendra dans des cours de base de l’informatique (programmation, algorithmique,
base de données) et prendra en charge des cours de la spécialité Informatique, Données, Usages (IDU) soit
dans le domaine du DevOps (git, linter, qualité, IC…), soit dans le domaine des mathématiques discrètes et
de l’IA symbolique.
La personne recrutée s’intégrera à l’équipe pédagogique et participera aux APP (apprentissages par projets)
IDU en qualité d’expert pour assister et former les étudiants, et en qualité de client en proposant des sujets
pédagogiques.
L’enseignement s’effectuera à Polytech Annecy-Chambéry, principalement sur le site d’Annecy avec des
déplacements ponctuels sur le site du Bourget.
La personne recrutée pourra être amenée à dispenser des cours en anglais en dernière année de la spécialité
IDU et devra intégrer les enjeux du DDRS au sein de ses enseignements.
Contact : Flavien Vernier – Responsable de la spécialité IDU – resp-idu-polytech@univ-smb.fr

L’activité de recherche de la personne recrutée s’inscrira dans l’un des deux thèmes du LISTIC : le thème
AFuTé (Apprentissage, Fusion et Télédétection) ou le thème ReGaRD (Représentation, Gestion et tRaitement
des Données pour l’humain). Le thème AFuTé développe des approches méthodologiques en apprentissage
automatique, traitement du signal, fusion de données et télédétection. Le thème ReGaRD est spécialisé en
traitement des données humaines, aide à la décision, systèmes distribués, réseau et sécurité. Pour ce poste,
des profils orientés vers le développement de modèles d’apprentissage automatique hybride seront privilégiés.
Ces modèles se distinguent des pipelines classiques car ils prennent en compte une information a priori qui
peut venir soit d’informations physiques (réseaux PINNS par exemple), de la structure d’algorithmes
d’optimisation (réseaux unrolled ou PnP) ou provenant d’une connaissance experte. Le développement de ce
type de modèles a pour but d’avoir une grande robustesse et une meilleure frugalité. La personne recrutée
devra s’impliquer à court terme dans la recherche de financements.
Contact : Sébastien Monnet et Guillaume Ginolhac – Direction du LISTIC – recrutement.listic@univ-smb.fr

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Polytech Annecy Chambéry
Annecy – 74000

Document attaché : 202602051025_2026_44mcf27_pac_listic_short.pdf

May
31
Sun
2026
Postdoc proposition: Privacy-preserving and ressource-efficient federated learning for ship detection from satellite imagery
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA-UBS
Durée : 18 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2026-05-31

Contexte :

Sujet :
For more information: https://www-obelix.irisa.fr/files/2026/02/2026_Postdoc_Axolotl.pdf

Profil du candidat :
PhD in Computer Science or related domain with experience and strong publications in image processing, computer vision and applied machine learning

Formation et compétences requises :

Adresse d’emploi :
IRISA-UBS, Vannes 56000, France

Document attaché : 202602050217_2026_Postdoc_Axolotl.pdf

Jun
1
Mon
2026
Poste de Professeur⋅e des Universités va être ouvert en section 27 au laboratoire VERIMAG et à Grenoble-INP Ensimag
Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : VERIMAG / Grenoble INP-Ensimag, UGA
Durée : poste permanent
Contact : david.monniaux@univ-grenoble-alpes.fr
Date limite de publication : 2026-06-01

Contexte :

Sujet :
Un poste de Professeur⋅e des Universités va être ouvert en section 27
au laboratoire VERIMAG et à Grenoble-INP Ensimag pour la campagne
synchronisée 2026.

Contacts :
– David Monniaux pour la
recherche ;
– Christophe Picard et Emmanuel
Maître pour l’enseignement.

Profil du candidat :
Le profil recherche de ce poste est à l’intersection entre
l’intelligence artificielle et les sciences du logiciel et les méthodes
formelles. Parmi les thématiques possibles, on pourra citer :

* l’apprentissage automatique de confiance
* l’apprentissage automatique explicable
* le monitoring de systèmes issus de l’apprentissage automatique
* la vérification de propriétés sur des systèmes issus de
l’apprentissage automatique
* l’apprentissage automatique de lois de commandes
* l’utilisation de l’apprentissage automatique pour le développement de
logiciels vérifiés
* l’utilisation de l’apprentissage automatique pour la preuve
automatisée de théorèmes
* recherche de vulnérabilités de sécurité aidée par l’apprentissage
automatique
* sûreté et sécurité des modèles de langage

Cette liste n’est pas exhaustive et toute proposition de thème connexe
en lien avec les domaines de recherche du laboratoire pourra être
considérée.

Côté enseignement, outre les enseignements d’informatique traditionnels
de cycle ingénieur (en algorithmique et programmation notamment), il
est attendu de la personne recrutée qu’elle s’investisse en particulier
dans l’enseignement et l’animation des parcours autour de
l’intelligence artificielle, à la fois en cycle ingénieur et en master,
en développant également des enseignements autour des enjeux
socio-environnementaux de l’IA et de l’explicabilité.

Formation et compétences requises :

Adresse d’emploi :
Ensimag
681 rue de la Passerelle
38400 Saint Martin d’Hères

Laboratoire VERIMAG
150 place du Torrent
38400 Saint MArtin d’Hères

Jun
15
Mon
2026
L’IUT Grand Ouest Normandie, composaenseignant-chercheur en intelligence artificielle pour la science des données
Jun 15 – Jun 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Groupe de REcherche en Informatique, Image, Automa
Durée : 1 an
Contact : bertrand.cuissart@unicaen.fr
Date limite de publication : 2026-06-15

Contexte :
L’IUT Grand Ouest Normandie, composante de l’université de Caen Normandie, recrute un enseignant-chercheur en informatique : intelligence artificielle pour la science des données.
Le contrat est un contrat d’un an, du 1er septembre 2026 au 31 août 2027.
L’annonce est publiée sur le site de l’université à https://www.unicaen.fr/universite/travailler-a-luniversite/personnels-enseignants-et-chercheurs/enseignants-contractuels/

Sujet :

Au niveau de l’enseignement, la personne recrutée enseignera dans le BUT Science des Données, diplôme régi par un programme national.
Elle renforcera l’équipe pédagogique sur les aspects d’intelligence artificielle pour la science des données.
Le diplôme est situé sur le campus universitaire de Lisieux.

Profil du candidat :
La personne recrutée disposera d’une bonne connaissance pratique en algorithmique et en Programmation de scripts (Python).
De plus, elle possède les connaissances suffisantes pour intégrer puis dispenser des enseignements en système de gestion de base de données relationnelles ou NoSQL (MongoDB), en technologies informatiques pour l’intelligence artificielle orientée données (fouille de données, apprentissage automatique), en Big Data (cloud computing). En collaboration avec l’équipe pédagogique du BUT, elle participera à l’intégration de l’enseignement des techniques d’intelligence artificielle pour la science des données.

Une part importante des enseignements sera dispensée de manière directement pratique, notamment via l’encadrement et le suivi de projets de groupe appelés “Situations d’apprentissage et d’évaluation”.
Spécifiquement, la personne recrutée pourra transmettre des compétences concernant les systèmes d’informations (entreposage, bases de données NoSQL, techniques ETL), l’apprentissage automatique (apprentissage profond, techniques NLP), ou le traitement de données massives via le cloud computing.

Au niveau de la recherche, la personne recrutée intégrera le laboratoire GREYC (CNRS UMR 6072, https://www.greyc.fr/).

La personne recrutée se concentrera sur la transmission des connaissances et des techniques liées à l’intelligence artificielle à destination d’un public de spécialistes, étudiants ou professionnels en activité. Par exemple, la personne recrutée pourrait coordonner la mise en place d’un module innovant concernant le cloud computing. Le public visé peut dépasser le public des étudiants en formation initiale. Elle aura la responsabilité d’animer de manière innovante la transmission de notions d’intelligence artificielle aux spécialistes de la science des données.

Formation et compétences requises :

Adresse d’emploi :
Campus de Lisieux
11 Bd Jules Ferry, 14100 Lisieux

Document attaché : 202604280918_IUT_GON_Normanthiia_EC_Informatique_SD.pdf

Offres de thèses

Apr
30
Thu
2026
3 thèses à pourvoir en IA et télédétection (Vannes, France et Ispra, Italie)
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA Vannes (équipe OBELIX) et European Commissio
Durée : 36 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Nous proposons trois thèses dans le domaine de la vision par ordinateur appliquée à l’observation de la terre avec des applications en soutien aux politiques européennes. Elles seront conduites au sein de l’équipe OBELIX de l’IRISA à Vannes (Bretagne), en partenariat avec le Centre de Recherche Commun de la Commission Européenne (Ispra, Italie), et le soutien du cluster IA SequoIA. Les thèses se dérouleront en Italie pour 2026 et 2027, et en France pour 2028, 2029.

1) Global multi-task learning for mapping and characterizing human settlements from EO data (lien pour plus d’infos et candidater: https://amethis.doctorat.org/amethis-client/prd/consulter/offre/2588)

2) Backcasting anthropogenic infrastructures over a century of historical EO data and maps (lien pour plus d’infos et candidater: https://amethis.doctorat.org/amethis-client/prd/consulter/offre/2591)

3) Explainable multimodal AI using geospatial data for rapid estimation of displacement and people in need in crises (lien pour plus d’infos et candidater: https://amethis.doctorat.org/amethis-client/prd/consulter/offre/2592)

Attention, des contraintes de nationalité sont imposées pour les trois sujets (plus de détails dans les descriptifs des sujets).

Date limite pour candidature: 15 janvier 2026 pour un démarrage à partir d’avril 2026.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Ispra, Italie en 2026 et 2027
Vannes, France en 208 et 2029

Offre de thèse en intelligence artificielle pour la gestion des ressources halieutiques
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire de Génie Informatique et d’Automatique
Durée : 36 mois
Contact : sebastien.ramel@univ-artois.fr
Date limite de publication : 2026-04-30

Contexte :
* TITRE

Quantification de l’incertitude prédictive, fondée sur la théorie de l’évidence, appliquée à l’estimation des traits de vie des poissons à partir d’images d’otolithes 3D

* THEMATIQUE

Intelligence Artificielle, Apprentissage Automatique, Science des Données

* MOTS CLES

Théorie de Dempster-Shafer, Quantification de l’incertitude, Traits de vie, Écosystèmes marins, Otolithe.

* DATE DE DEBUT ET DUREE

Septembre/Octobre 2026, 36 mois

* FINANCEMENT

50% IFSEA / 50% Université d’Artois (demandé)

* LOCALISATION

Les travaux seront menés en collaboration entre le Laboratoire de Génie Informatique et d’Automatique de l’Artois (LGI2A) à Béthune et le Laboratoire d’Informatique Signal et Image de la Côte d’Opale (LISIC) à Calais.

* ENCADREMENT

Directeur : Prof. Frédéric Pichon (frederic.pichon@univ-artois.fr), Université d’Artois, LGI2A
Co-directrice : Prof. Emilie Poisson Caillault (emilie.caillault@univ-littoral.fr), Université du Littoral Côte d’Opale, LISIC
Co-encadrant : Dr. Sébastien Ramel (sebastien.ramel@univ-artois.fr), Université d’Artois, LGI2A

Sujet :
La connaissance des traits de vie des poissons (habitat, âge, croissance, reproduction, longévité, position dans la colonne d’eau…) est un aspect essentiel pour une gestion efficace et durable des stocks de poissons marins. Les pièces calcifiées, et précisément les otolithes qui sont les seules pièces métaboliquement inertes, sont une source d’information précieuse à cette fin. Notamment, leur forme externe, caractérisée historiquement à partir d’images en 2D et plus récemment étudiée en 3D, permet de prédire de façon très précise ces différents traits de vie. Les images 3D, si elles sont plus informatives, sont néanmoins plus coûteuses et récentes et par conséquent moins nombreuses. Il convient donc d’utiliser au mieux cette source d’information riche mais restreinte, afin d’obtenir les prédictions les plus fiables et précises possibles. La théorie de l’évidence, aussi appelée théorie de Dempster-Shafer ou théorie des fonctions de croyance, est une généralisation du cadre probabiliste pour le raisonnement sous incertitudes. Son utilisation dans le cadre de la quantification des incertitudes dans des prédictions est particulièrement indiquée pour le cas où le nombre de données est faible. Ce projet de thèse vise ainsi à développer des méthodes prédictives fondées sur cette théorie et adaptées aux approches actuelles en matière de prédiction des traits de vie des poissons à partir d’images d’otolithes 3D. Étant donné la nature de ce type d’application, au niveau méthodologique, la prédiction de variables ordinales sera au centre du projet.

Plus de détails disponibles ici: https://www.lgi2a.univ-artois.fr/spip/fr/postes_ouverts/poste-ouvert-32

Profil du candidat :
La candidate ou le candidat devra être titulaire d’un master ou d’un titre d’ingénieur en informatique, mathématiques appliquées ou champ connexe. Des connaissances en intelligence artificielle (apprentissage automatique) et/ou en traitement de l’image seront un atout, ainsi qu’une sensibilisation aux méthodes de gestion de l’incertitude. Les qualités permettant de mener à terme un programme de doctorat telles que la curiosité, la créativité, l’autonomie, l’esprit critique et l’enthousiasme, seront nécessaires.

Formation et compétences requises :
Master ou d’un titre d’ingénieur en informatique, mathématiques appliquées ou champ connexe.

Adresse d’emploi :
LGI2A – Laboratoire de Génie Informatique et d’Automatique de l’Artois – UR 3926
Faculté des Sciences Appliquées
Technoparc Futura
62400 – BÉTHUNE Cedex
France

proposition de thèse CNAM-Sorbonne Université-Université Panthéon Sorbonne en IA et Humanités numériques
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : CEDRIC@CNAM – LIP6@Sorbonne Université
Durée : 36 mois
Contact : cedric.du_mouza@cnam.fr
Date limite de publication : 2026-04-30

Contexte :
Le passage des sources historiques manuscrites vers des formats
numériques a longtemps été marqué par la dépendance aux bases de données relationnelles. Si le format tabulaire a permis
de quantifier certains phénomènes et de soutenir l’histoire sérielle, il se révèle peu adapté pour représenter des parcours
biographiques complexes ou des questionnements qui évoluent au fil du temps. L’adoption de graphes de connaissances
(KG) marque ainsi un tournant méthodologique majeur, en offrant un modèle où l’information n’est plus conçue comme
un enregistrement isolé, mais comme un réseau de relations dynamiques entre personnes, lieux, événements et documents
au sein de corpus historiques. Pour l’historien, le graphe devient un véritable outil d’enquête, capable de faire émerger
des structures de parenté, des réseaux de sociabilité et des configurations relationnelles qui restent difficiles à appréhender
dans une organisation purement tabulaire.
Cependant, cette modélisation se heurte à la nature même du document historique : l’incomplétude des archives et la
fragmentation des séries constituent une contrainte structurelle qui limite la complétude des graphes de connaissances
construits à partir de ces sources. À cela s’ajoutent l’ambiguïté des noms de personnes, les homonymies, la variabilité
orthographique et la présence d’identités partiellement attestées, qui rendent la désambiguïsation et le chaînage d’entités
particulièrement délicats dans les corpus historiques. Le défi n’est plus seulement de stocker l’information, mais de
représenter fidèlement le flou et l’incertitude [6] qui l’entourent sans trahir la rigueur de la critique historique.

Sujet :
La problématique de l’incertitude : une difficulté scientifique nouvelle. La problématique centrale de cette thèse
réside dans l’extraction et la quantification de l’incertitude, une dimension souvent ignorée par les systèmes de gestion de
données classiques qui privilégient un modèle déterministe et supposent des faits complets et certains. Dans un contexte
médiéval, l’incertitude est omniprésente : elle affecte les propriétés d’un noeud, comme une date de naissance approximative
ou un statut social mal attesté, mais aussi l’existence même d’une relation, par exemple une filiation simplement
supposée ou discutée dans des sources divergentes. La difficulté est ici double et constitue une nouveauté scientifique dans
le champ des graphes de connaissances appliqués aux sources historiques. D’une part, il faut pouvoir établir des stratégies
de liage d’entités dans un environnement où les données sont instables, fragmentaires et parfois contradictoires. Comment
affirmer que deux mentions de noms proches dans des documents différents désignent la même personne physique alors
que leurs attributs, tels que les lieux ou les dates, sont partiels, bruités ou incompatibles, tout en contrôlant explicitement
les taux d’erreur de liage ? D’autre part, la thèse devra résoudre le problème de l’agrégation : comment fusionner deux
noeuds représentant potentiellement la même entité tout en mettant à jour, de manière cohérente, les scores d’incertitude
associés aux faits et aux relations du graphe ? Il s’agit de traiter mathématiquement le renforcement, lorsque deux sources
indépendantes concordent, ou au contraire la contradiction, en modélisant la confiance dans les triplets et en intégrant des
mécanismes de fusion incertaine, tout en gardant une traçabilité fine des entités et des sources d’origine pour permettre à
l’historien de remonter systématiquement à la source primaire [4].
L’apport de l’Intelligence Artificielle : du NLP aux GNN. L’Intelligence Artificielle constitue le levier technologique
indispensable pour lever ces verrous en intervenant à chaque étape de la chaîne de traitement. Dans un premier temps,
les modèles de traitement du langage naturel (NLP) et les grands modèles de langage (LLM) seront mobilisés pour extraire
l’information tout en détectant les marqueurs linguistiques de l’incertitude, en s’appuyant sur les travaux de détection
automatique des hedge cues et des segments spéculatifs dans les textes. Cette approche dépasse le simple repérage d’entités
pour devenir une véritable évaluation de la fiabilité de l’information brute, où l’IA associe à chaque affirmation textuelle
un score de certitude ou de spéculation afin de distinguer les faits établis des informations hypothétiques ou douteuses.
Ensuite, l’IA appliquée aux graphes, et plus particulièrement les Graph Neural Networks (GNN), permettra de transformer le
liage d’entités en une tâche d’apprentissage profond exploitant le contexte relationnel global du graphe plutôt que les seuls
attributs locaux. Contrairement aux méthodes classiques, les GNN peuvent apprendre des représentations qui intègrent la
position d’un individu dans le réseau social et la structure des relations qui l’entourent, facilitant ainsi la réconciliation de
noeuds même lorsque leurs attributs textuels divergent ou sont incomplets. Enfin, l’apprentissage automatique sera utilisé
pour l’inférence de connaissances, permettant à la fois de découvrir des relations manquantes et de propager les scores
d’incertitude à travers le graphe, dans l’esprit des approches de knowledge graph completion.

Données. Le travail de recherche s’appuiera sur les données prosopographiques des bases Studium et Fasti, offrant un
terrain d’expérimentation d’une richesse rare sur les élites universitaires et ecclésiastiques médiévales. Ces corpus ne sont
pas seulement des réservoirs biographiques ; ils constituent des structures relationnelles complexes où le silence des sources et les contradictions documentaires sont la norme plutôt que l’exception. En mobilisant ces données, l’enjeu sera de transcender
le modèle déterministe traditionnel pour modéliser des graphes de connaissances intégrant la notion d’incrtitude.
Les bases Studium et Fasti recèlent en effet des attributs fragiles, tels que des dates de décès exprimées par des fourchettes
incertaines ou des fonctions dont la chronologie se chevauche de manière incohérente, qui serviront de variables pour
tester des algorithmes de liage d’entités sous contrainte d’incertitude.
Méthodologie : Extraction, Liage et Agrégation sous Incertitude. Le doctorant devra en premier lieu développer
des méthodes innovantes fondées sur le traitement du langage naturel (NLP) et l’apprentissage profond pour extraire non
seulement les entités nommées, mais aussi des indices de confiance et d’incertitude finement calibrés, en s’inspirant des
approches de détection de spéculation et de modélisation probabiliste des affirmations textuelles. Ces scores ne dépendront
pas uniquement de la clarté du texte, mais seront corrélés au contexte sémantique global et à une évaluation de la qualité
des sources historiques, suivant les travaux qui intègrent des métriques de fiabilité contextuelles dans l’extraction d’informations
incertaines. Cette étape est cruciale pour transformer une donnée textuelle brute en un objet probabiliste riche,
capable d’être intégré dans la structure du graphe de connaissances, comme le proposent les pipelines d’extraction enrichis
en incertitude pour des applications en KG.
Dans un second temps, les travaux porteront sur l’élaboration d’algorithmes de liage et d’agrégation spécifiquement
conçus pour être « uncertainty-aware », en ligne avec les cadres récents de entity resolution probabiliste et de fusion
sous incertitude. Plusieurs types d’approches sont envisagées pour relever ce défi. L’algorithmique de graphe couplée
à l’IA, notamment à travers les Graph Neural Networks (GNN), sera mobilisée pour capturer la topologie du réseau et
l’utiliser comme levier de réconciliation, en exploitant les représentations structurelles pour résoudre les ambiguïtés même
en présence de données bruitées ou partielles. Parallèlement, d’autres approches d’IA comme l’apprentissage par métrique
(metric learning) ou les modèles de bi‑encodeurs seront explorées pour le liage d’entités, en adaptant des techniques qui
génèrent des embeddings tenant compte de l’incertitude ou de la variabilité des sources.
La difficulté majeure, et l’un des verrous scientifiques de la thèse, résidera dans la nécessité d’adapter ces modèles, traditionnellement
déterministes, pour qu’ils intègrent nativement l’incertitude, comme le soulignent les analyses des limites
des approches classiques face à des données historiques fragmentaires. Il s’agira de proposer des fonctions de similarité
avancées capables de traiter des valeurs floues ou des intervalles de confiance, et de définir des opérateurs d’agrégation
aptes à gérer le renforcement ou l’atténuation de la confiance lors de la fusion de sources multiples. Ces opérateurs permettront
de mettre à jour dynamiquement les connaissances du graphe de connaissances (KG), en répercutant chaque
nouvelle information sur l’ensemble du réseau relationnel tout en préservant la traçabilité indispensable à l’analyse historienne,
conformément aux principes de provenance et de vérification probabiliste dans les KG.

Profil du candidat :
Titulaire d’un M2 ou ingénieur, avec de solides bases en informatique et en apprentissage automatique et idéalement de bonnes notions de graphes et une appétence pour l’histoire. La maîtrise d’un langage
de programmation (comme Python) est indispensable.

Formation et compétences requises :

Adresse d’emploi :
laboratoire CEDRIC, CNAM, 2 rue Conté 75003 Paris
laboratoire LIP6, 3 place Jussieur, 75005 Paris

Document attaché : 202604081251_sujetTheseSCAI2026.pdf

May
2
Sat
2026
Fusion d’images SAR réelles et simulées pour une reconnaissance de cibles ultra-robuste par IA
May 2 – May 3 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ONERA-DEMR, UTT-LIST3N
Durée : 3 ans
Contact : alexandre.baussard@utt.fr
Date limite de publication : 2026-05-02

Contexte :

Sujet :
https://w3.onera.fr/formationparlarecherche/sites/w3.onera.fr.formationparlarecherche/files/phy-demr-2026-05.pdf

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
ONERA, site Palaiseau

Réseaux neuronaux basés sur la physique en imagerie par tomographie d’impédance électrique
May 2 – May 3 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEA Cadarache / UTT-LIST3N
Durée : 3 ans
Contact : alexandre.baussard@utt.fr
Date limite de publication : 2026-05-02

Contexte :
Dans le cadre de l’utilisation durable de l’énergie nucléaire pour un mix énergétique décarboné en association avec les énergies renouvelables, les réacteurs de IVe génération à neutrons rapides sont cruciaux pour la fermeture du cycle du combustible et la maîtrise de la ressource en uranium. La maîtrise de la sûreté d’un tel réacteur à caloporteur sodium repose notamment sur la détection précoce de vides gazeux dans les circuits. Dans ces milieux opaques et métalliques, les méthodes d’imagerie optiques sont inopérantes, d’où la nécessité de développer des techniques innovantes.
Cette thèse s’inscrit dans le développement de la tomographie d’impédance électrique (EIT) appliquée aux métaux liquides, une approche non intrusive permettant d’imager la distribution de conductivité dans un écoulement.

Les réseaux neuronaux informés par la physique (PINN, pour Physical informed neural network) sont récemment apparus comme une technique d’apprentissage automatique prometteuse pour résoudre les équations différentielles partielles (EDP) en intégrant directement les lois physiques dans la fonction de perte. Ils ont déjà démontré leur potentiel dans la résolution de problèmes inverses pour de nombreuses applications. Il est possible de définir une fonction de perte intégrant uniquement les équations physiques mais aussi d’intégrer, en plus de la physique, des données (simulées, expérimentales ou réelles), sans donc faire de l’apprentissage purement guidé par les données (dit data-driven) comme avec des réseaux de neurones convolutionnels classiques.
Si les PINN ont déjà été utilisés en inversion, il existe cependant très peu de publications qui traitent de la résolution du problème inverse en tomographie d’impédance électrique. Ces dernières sont de plus très récentes et se limitent généralement à des géométries de reconstruction relativement simples et elles peuvent reposer sur des hypothèses assez restrictives pour des scénarios réels.
Ainsi différentes contributions pourront émerger de ce travail à la fois méthodologique sur les PINN mais aussi applicatives par l’exploitation de données expérimentales.

Sujet :
L’objectif de cette thèse est de développer un système complet de tomographie de résistivité électrique pour la détection et la cartographie en temps réel des écoulements diphasiques métal liquide/argon en vue de l’appliquer à des écoulements de circuits de Génération IV.

Des approches d’intelligence artificielle, notamment les réseaux neuronaux informés par la physique, seront explorées pour combiner apprentissage numérique et contraintes physiques. Elles seront comparées à l’utilisation de simulations numériques. L’objectif est d’établir des modèles physiques adaptés au contexte et de concevoir des méthodes d’inversion robustes vis-à-vis des bruits de mesure.

Le sujet s’articulera autour de quatre axes :
1. Lois physiques et modélisation (électromagnétique et hydrodynamique) des signaux de tomographie dans le sodium.
2. La reconstruction d’image à partir des mesures de conductivité, en 2D et en 3D spatial, avec tensions sinusoïdales. On se tournera pour cela vers des méthodes de Machine-Learning.
3. Développement expérimental : mesures avec du galinstan (de conductivité proche de celle su sodium liquide).
4. Amélioration de la reconstruction tomographique en présence de bruit de défauts des capteurs et de perturbations de fond.

Profil du candidat :
Etudiant(e) de niveau master ou ingénieur ayant suivi une formation en mathématique appliquée, en apprentissage machine (deep learning) ou en physique (électromagnétisme). Il est nécessaire de maîtriser Python et de connaître si possible PyTorch.
Le travail attendu nécessite rigueur, autonomie et un intérêt pour les sujets à la frontière de plusieurs disciplines.

Formation et compétences requises :

Adresse d’emploi :
CEA Cadarache

Contacts :
– Encadrant CEA : michel.frederic@cea.fr
– Directeur de thèse : alexandre.baussard@utt.fr

May
3
Sun
2026
Effective Generation of Structured Data using LLMs
May 3 – May 4 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne University
Durée : 36 mois
Contact : mohamed-amine.baazizi@lip6.fr
Date limite de publication : 2026-05-03

Contexte :

Sujet :
LLMs, Structured Data generation

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
https://adum.fr/as/ed/voirproposition.pl?site=adumR&matricule_prop=73229#version

Document attaché : 202604120959_Thesis_SU_2026.pdf

May
11
Mon
2026
FUSION-KG: Framework for Unified multimodal Semantic extractION for Knowledge Graphs construction
May 11 – May 12 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube Strasbourg
Durée : 3 ans
Contact : franco.giustozzi@insa-strasbourg.fr
Date limite de publication : 2026-05-11

Contexte :
Environmental restoration projects generate large volumes of heterogeneous documentation, including technical reports, project plans, cartographic materials, engineering drawings, and photographic records. These materials contain valuable but fragmented knowledge describing intervention strategies, environmental contexts, technical constraints, and outcomes.
Within the TETRA project (ANR-22-FAI2-0006), previous research efforts primarily concentrated on text-based knowledge extraction using Large Language Models (LLMs), enabling the structuring of restoration knowledge from technical and narrative reports. While this approach demonstrated the potential of large language models for semantic modeling and ontology enrichment, it remained largely confined to textual sources. However, restoration documentation increasingly includes rich visual materials, such as maps, technical drawings, aerial imagery, and photographic records that contain complementary and sometimes critical information not explicitly described in text. This PhD builds upon the foundations established in TETRA by extending the extraction paradigm toward a unified multimodal framework. The central hypothesis is that integrating textual and visual understanding through advanced Vision-Language Models (VLMs) can substantially improve the completeness, semantic consistency, and interpretability of structured environmental knowledge graphs.

Sujet :
The FUSION-KG PhD aims to design a unified multimodal semantic extraction framework capable of transforming heterogeneous environmental documentation into structured, interpretable, and queryable knowledge graphs. The ambition is not only to extract information from text and images, but to develop a coherent framework in which multimodal understanding and structured external knowledge
jointly contribute to reliable and semantically consistent knowledge graph construction.
The work involves the systematic modeling and characterization of heterogeneous documentary sources, including technical reports, maps, engineering drawings, aerial and satellite imagery, and photographic
records of restoration interventions. These materials provide complementary yet often fragmented accounts of intervention types, spatial configurations, temporal phases, environmental parameters, constraints, and outcomes. A major challenge lies in ensuring that information extracted from visual and textual modalities is semantically aligned and represented within a shared conceptual framework.

Profil du candidat :
The doctoral contract is awarded by the doctoral school’s selection committee through a competitive process in which the candidates’ merit is a key factor

Formation et compétences requises :
Education: Student about to graduate a Master or Engineer (Bac + 5) with a specialization in Computer Science.

Specific knowledge: Knowledge on data science methods, knowledge representation and reasoning, knowledge graphs.
Languages: Python, java, owl/sparql.
Ability to work with experts who are not computer scientists. Interest in the application domain would be appreciated.

Adresse d’emploi :
ICube laboratory (CNRS UMR 7357),
300 boulevard Sebastien Brant
BP 10413
67412 ILLKIRCH cedex

Document attaché : 202603151916_Sujet_These_ED_VLM.pdf

Learning poorly known and observed large scale complex systems
May 11 – May 12 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire Interdisciplinaire des Sciences du Num
Durée : 36 mois
Contact : semeraro@limsi.fr
Date limite de publication : 2026-05-11

Contexte :
‘Governing is forecasting”. This proverbial saying is relevant to many situations of engineering interest where decisions must be taken based on predictions or when devising a suitable sequence of actions to achieve some goal requires a good knowledge of the effect of these actions onto the system under consideration. Such predictions usually rely on a simulation of a model of the system at hand and/or observations collected over time. A reliable model may however not be available, or be too computationally costly to be useful. Observations, on the other hand, are often scarce and do not provide a complete picture of the state of the system.

Sujet :
In this thesis, we aim at deriving a principled approach to predict the time-evolution of quantities of interest associated with a system observed only via a few noisy sensors active at unpredictable times. To this end, we leverage the history of the information one can collect. This paradigm of predicting the future from whatever available knowledge over a past horizon is rigorously justified by the Mori-Zwanzig framework developed in the statistical physics community in the late 60s.
A particular focus will be on developing scalable approaches, suited for large-scale systems, such as those encountered in haemodynamics.
Describing and predicting the dynamics of complex systems remains a fundamental challenge across many scientific domains. These systems are commonly described by dynamical systems in the form of differential equations.
While this formulation is principled, it assumes that the model is known and tractable. In practice, however, the dynamics are often partially unknown, computationally expensive, or only valid within limited regimes. This limitation has led to the development of data-driven approaches that infer system dynamics directly from observations.
A key difficulty arises from partial observability. In many applications, only a subset of the system variables is accessible, and observations are often noisy, sparse, or irregular. As a result, the system cannot be accurately described as a Markovian process depending solely on the current observation. Instead, its evolution depends on past states, leading naturally to a non–Markovian formulation.
Several modeling strategies explicitly incorporate memory effects, such as autoregressive models such as ARMAX [5], while recurrent neural networks (RNNs), including LSTMs [9, 17, 7], introduce latent memory variables. Reservoir computing and echo state networks [8, 11] offer computationally efficient alternatives capable of capturing long-term dependencies [19]. More recent developments include Latent ODEs [16], which combine Neural ODEs with RNN encoders, augmented Neural ODEs [3], and Transformer architectures [18]. Despite their empirical success, these approaches inherently involve a trade-off between expressivity and interpretability or tend to operate as black boxes. A natural first approach to incorporate non–Markovian effects is by explicitly including past states, leading to delay differential equations (DDEs). Neural State-Dependent Delayed Differential Equations [8] introduced a flexible framework allowing multiple delays that depend on both time and state.

While these approaches are purely data-driven, they do not explicitly exploit the physical structure of the underlying system. We aim at leveraging a theoretically grounded approach to efficiently predict quantities of interest or (approximation of) the state of a system. We rely on the Mori-Zwanzig framework developed in the statistical physics community in the late 60s, [13,20]. In a nutshell, it formalizes the time-evolution of a set of variables x(t) related to the system as a function of their history, without requiring knowledge of the other variables describing the system.
Accounting for the past essentially allows to isolate the dynamics of these observables. This framework is general and applies widely. For instance, when the whole state of the system is not accessible, the dynamics of the observables can be described with a non-Markovian model via this framework. It similarly provides a principled closure for coarse models which can be effectively complemented with a history-based term, [14,12,6].

In this thesis, we will explore the potential of Signatures to efficiently approximate the history of the observations, [2,4,15]. The Signature transform introduced in [1,10] has recently been used in several areas, including rough path theory, finance, stochastic control, and machine learning. It has proven to be an effective tool to summarize the information of paths and dependencies across different dimensions, with high computational efficiency. Signatures consist of iterated integrals of the history of its inputs and enjoys interpretability. They provide a way to linearize all possible functions of their input and exhibit nice theoretical properties. In particular, owing to tensor algebra, they can be efficiently updated when new observations become available, without recomputing the whole object.

Many open questions however remain and will be the focus of this thesis. In particular, how are the different time scales of the physical system preserved across the Signature of its observations? What are the properties of the time series to retain in order to allow for a reliable and efficient prediction based on Signatures? How large should the truncation order be for a given performance? How frugal can the Signature-based term in the Mori-Zwanzig framework be in terms of training data, a critical point in many situations? Does the Mori-Zwanzig solution has a structure that can be exploited, such as low rankness, sparsity or multi-dependence which can be captured with tensor formats, etc.?
These methodological developments will first be illustrated on low-dimensional dynamical systems before, if time allows, being demonstrated on large scale real data from geophysics.

[1] Chen K.-T., Integration of paths, geometric invariants and a generalized Baker-Hausdorff formula, Annals of Mathematics. 2nd ser., 65, p. 163–178, 1957.

[2] Chevyrev Ilya & Kormilitzin Andrey, 2025 A Primer on the Signature Method in Machine Learning.

[3] Dupont E., Doucet A. & Teh Y.W., Augmented neural ODEs, Adv. Neural Inf. Process. Syst., 32, p. 3140–3150, 2019.

[4] Fermanian A., Learning time-dependent data with the signature transform, Theses, Sorbonne Université, 2021.

[5] Guidorzi R., Multivariable system identification: from observations to models, Bononia University Press, 2003.

[6] Gupta P., Schmid P., Sipp D., Sayadi T. & Rigas G., Mori–Zwanzig latent space Koopman closure for nonlinear autoencoder, Proc. R. Soc. A, 481 (2313), p. 20240259, 2025.

[7] Hochreiter S. & Schmidhuber J., Long short-term memory, Neural Comput., 9 (8), p. 1735–1780, 1997.

[8] Jaeger H. & Haas H., Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication, Science, 304 (5667), p. 78–80, 2004.

[9] Jordan M.I., Serial order: a parallel distributed processing approach. Technical report, California Univ., San Diego, La Jolla (USA). Inst. for Cognitive Science, Tech. Rep., 1986.

[10] Lyons T., Caruana M. & Lévy T., Differential equations driven by rough paths, In Lecture notes in Mathematics, École d’été de probabilités de Saint-Flour XXXIV-2004 , 2007.

[11] Maass W., Natschläger T. & Markram H., Real-time computing without stable states: A new framework for neural computation based on perturbations, Neural Comput., 14 (11), p. 2531–2560, 2002.

[12] Menier E., Bucci M.A., Yagoubi M., Mathelin L. & Schoenauer M., CD-ROM: Complemented Deep-Reduced Order Model, Computer Methods in Applied Mechanics and Engineering, 410, p. 115985, 2023.

[13] Mori H., A Continued-Fraction Representation of the Time-Correlation Functions, Prog. Theor. Phys., 34 (3), p. 399–416, 1965.

[14] Parish E. J. & Duraisamy K., Non-Markovian closure models for large eddy simulations using the Mori-Zwanzig formalism, Phys. Rev. Fluids, 2 (1), p. 014604, 2017.

[15] Pradeleix E., Hosseinkhan-Boucher R., Shilova A., Semeraro O. & Mathelin L., 2025 Learning non-Markovian dynamical systems with signature-based encoders. ECAI 2025 – 2nd ECAI Workshop on “Machine Learning Meets Differential Equations: From Theory to Applications”.

[16] Rubanova Y., Chen R.T.Q. & Duvenaud D.K., Latent ODEs for irregularly-sampled time series, In Advances in Neural Information Processing Systems 32 (NeurIPS 2019) (ed. H. M. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alché Buc, E. B. Fox & R. Garnett), p. 5320–5330, 2019.

[17] Rumelhart D. E., Hinton G. E. & Williams R. J., 1986 Learning internal representations by error propagation, p. 318–362. Cambridge, MA, USA: MIT Press.

[18] Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L. & Polosukhin I., Attention is All you Need, In Advances in Neural Information Processing Systems, , vol. 30, 2017.

[19] Vlachas P.-R., Pathak J., Hunt B.R., Sapsis T.P., Girvan M., Ott E. & Koumoutsakos P., Back-propagation algorithms and reservoir computing in recurrent neural networks for the forecasting of complex spatiotemporal dynamics, Neural Netw., 126, p. 191–217, 2020.

[20] Zwanzig R., Nordholm K.S. J. & Mitchell W.C., Memory Effects in Irreversible Thermodynamics: Corrected Derivation of Transport Equations, Phys. Rev. A, 5, p. 2680–2682, 1972.

Profil du candidat :
Le candidat devra avoir une bonne formation en apprentissage automatique, mathématiques appliquées et/ou statistiques. La connaissance d’un framework d’apprentissage machine (par exemple PyTorch, Jax ou Julia) est un plus.

Formation et compétences requises :

Adresse d’emploi :
The work will take place at the Laboratoire Interdisciplinaire des Sciences du Numérique (LISN – https://www.lisn.upsaclay.fr/) on the campus of Université Paris-Saclay, benefiting from expertise of the research team in machine learning, applied mathematics, computer science, statistical physics, fluid mechanics and dynamical systems.

The PhD student will be integrated in a vibrant research team focused on scientific machine learning, deep learning, applied mathematics and statistical physics. He/She will be advised by Lionel Mathelin and Onofrio Semeraro, both CNRS researchers involved in the topic for several years. In addition to the rich scientific environment of the Paris-Saclay, the student will benefit from the numerous interactions within the team, in particular with other PhD students
and postdocs, and from the weekly seminars which provide exposition to a wide state-of-the-art research.

In addition to the rich scientific environment of the Paris-Saclay, the student will benefit from the numerous interactions within the team, in particular with other PhD students and postdocs, and from the weekly seminar which provides exposition to a wide state-of-the-art research.

This thesis will be carried-out in close collaboration with the INRIA Commedia team in Paris (Dr. D. Lombardi) and the INRIA Odyssey team in Rennes (Dr. E. Memin and G. Tissot). Visits to these teams will be organized on a regular basis.

Document attaché : 202604240826_Laplace.pdf

May
31
Sun
2026
CIFRE – Alignement, raisonnement normatif et robustesse cognitive dans les petits modèles de langage juridiques
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC
Durée : 3 ans
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2026-05-31

Contexte :
L’essor des grands modèles de langage (Large Language Models, LLM) a profondément transformé le traitement automatique du langage naturel, ouvrant des perspectives inédites pour de nombreux secteurs d’activité. Le domaine juridique constitue à cet égard un terrain d’application stratégique : il est caractérisé par une production normative croissante, une complexité textuelle élevée et des exigences fortes en matière de fiabilité, de traçabilité et de justification argumentative.
Les professionnels du droit, avocats, juristes d’entreprise, services de conformité, sont quotidiennement confrontés à l’analyse de volumes importants de textes normatifs, de contrats et de décisions jurisprudentielles. Cette réalité opérationnelle crée une demande croissante pour des outils d’assistance capables d’automatiser partiellement ces processus tout en garantissant une fiabilité juridique suffisante pour un usage professionnel.
Les solutions génériques actuelles fondées sur des LLM (GPT-4, Claude, Gemini) permettent des tâches élémentaires ,recherche d’information, résumé, rédaction assistée, mais présentent des limites structurelles importantes dans ce contexte :
– un manque de spécialisation dans le raisonnement juridique normatif, caractérisé par des hiérarchies de normes, des exceptions et des conflits réglementaires ;
– une fiabilité juridique insuffisante, se traduisant par des hallucinations factuelles et des erreurs d’interprétation normative ;
– une incapacité à justifier explicitement les conclusions produites, pourtant essentielle à l’usage professionnel ;
– une empreinte computationnelle et énergétique élevée, incompatible avec une intégration directe dans des workflows SaaS ou des environnements à ressources contraintes.
Ces constats soulignent l’intérêt de développer des modèles de langage spécialisés, plus compacts ,désignés Small Legal Models (SLM) ,capables d’intégrer les structures logiques et normatives propres au droit tout en étant économes en ressources et directement intégrables dans des logiciels métiers. C’est dans ce contexte que s’inscrit le projet de recherche et développement porté par Contractzlab.
Ce projet répond à un besoin industriel concret : améliorer l’efficacité des cabinets juridiques et des entreprises soumises à des obligations réglementaires strictes, tout en proposant une alternative fiable, sécurisée et économe en énergie aux grands modèles généralistes. Il s’inscrit également dans une perspective scientifique plus large, visant à
comprendre comment la spécialisation et l’apprentissage progressif permettent à un modèle compact d’atteindre des performances comparables à celles de modèles massifs sur des tâches de raisonnement normatif complexes.

Sujet :
L’objectif principal de cette thèse est de concevoir, d’entraîner et de valider un Small Legal
Model (SLM) spécialisé dans le raisonnement juridique, capable de surperformer les
modèles généralistes commerciaux sur des tâches normatives complexes tout en restant
économe en ressources computationnelles.
Ce modèle doit fonctionner comme un assistant expert pour les professionnels du droit
,juristes, avocats, services de conformité ,en les aidant à analyser, interpréter et mettre en
relation des textes normatifs, aussi bien pour des consultations rapides que pour des cas
nécessitant un raisonnement structuré et une justification explicite.
Les travaux de recherche s’articulent autour de quatre axes scientifiques originaux,
chacun répondant à un verrou identifié dans la littérature :
Conception de méthodes d’alignement adaptées au raisonnement juridique normatif
Les approches classiques d’alignement par préférences (RLHF, DPO, ORPO) sont
conçues pour améliorer la conformité comportementale des modèles, non pour structurer
leur raisonnement formel. L’objectif est de proposer de nouvelles méthodes d’alignement
intégrant des contraintes logiques explicites, respectant la hiérarchie des normes
(constitution, loi, règlement, jurisprudence) et permettant la traçabilité des chaînes
d’inférence juridique. Cela implique notamment de définir des signaux de récompense
capables de représenter la cohérence normative et la validité argumentative des réponses
produites.

Construction d’un cadre d’évaluation unifié pour le raisonnement juridique
L’absence de benchmark représentatif, multilingue et orienté vers la structure
argumentative constitue un frein majeur à la progression scientifique dans ce domaine.
L’objectif est de construire un cadre d’évaluation unifié couvrant plusieurs niveaux de
raisonnement juridique qualification, interprétation, mise en relation de normes, résolution
de conflits ,applicable à plusieurs systèmes juridiques européens, et s’appuyant sur des
métriques capables de mesurer la cohérence logique interne et la validité normative au-
delà de la simple correspondance textuelle.

Développement d’une stratégie d’entraînement progressif pour modèle compact
La réduction du nombre de paramètres d’un modèle limite mécaniquement sa capacité à
encoder des connaissances juridiques étendues et des chaînes de raisonnement
profondes. L’objectif est de concevoir une stratégie d’entraînement progressif (continual /
curriculum learning) permettant à un SLM d’acquérir des compétences juridiques
croissantes sans subir d’oubli catastrophique, tout en conservant la cohérence globale de
son raisonnement. Des approches telles que DUMP (Dynamic Upper-confidence-based
Model Progression) constituent des pistes prometteuses qui seront explorées et adaptées
au contexte juridique.

Analyse de la robustesse cognitive sous alignement par préférences
L’impact de l’alignement par préférences sur la diversité argumentative et la robustesse
cognitive des modèles en contexte juridique reste largement inexploré. L’objectif est de
caractériser empiriquement et théoriquement les effets de différentes méthodes
d’alignement (DPO, ORPO, KTO, RLAIF) sur la capacité d’un modèle compact à maintenir
une pluralité interprétative, à résister aux ambiguïtés normatives et à justifier ses
conclusions dans des cas complexes ou contradictoires. Cette analyse vise à établir les
fondements d’un alignement à la fois conforme et cognitivement robuste pour les
domaines régulés.

Profil du candidat :
Ingénieurs / Master 2, spécialisé en science des données, Intelligence Artificielle, NLP
Personnes à contacter par mail : envoyez votre candidature avant le 25 avril avec vos
bulletins de notes M1/M2, une lettre de motivation, des lettres de recommandation

Formation et compétences requises :

Adresse d’emploi :
Paris La défense & Paris 11°

Document attaché : 202604162208_Sujet_These_Cifre_Contractzlab.pdf

Development of a Family of Hybrid Models for Prognostics
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut FEMTO-ST
Durée : 36 mois
Contact : zeina.almasry@femto-st.fr
Date limite de publication : 2026-05-31

Contexte :
Context: The increasing complexity of power electronic systems and the diversity of their operating conditions make it challenging to predict component health under poorly represented or previously untested conditions. Modern prognostics approaches rely either on physics-based models or on data-driven methods, which are flexible but often fail in out-of-distribution scenarios. Hybrid approaches combining both paradigms have emerged as a promising direction to overcome these limitations. This thesis is conducted within the framework of the ANR PRCE {Power-Twin} project, which aims to develop a digital twin for the diagnosis and prognosis of power module components, with particular attention to bonding wire degradation under variable load profiles.

Sujet :
Objectives The main objective of this thesis is to extend the health state prediction capabilities of prognostic models to conditions that are poorly represented in training data or entirely unseen. This will be achieved through three complementary research directions, each structured around a core research question and a set of concrete tasks.
Task 1: Modern machine learning approaches are increasingly exploited to automate and optimize fault detection and classification. We propose to investigate methods that improve diagnostics under under-represented conditions, with a particular emphasis on distribution-free approaches.
Task 2: Building upon prior work on RUL estimation for power modules under variable load profiles combining experimental data, finite element simulations, and Markov chain-based models [1], two complementary approaches will be developed: Physics-stochastic hybrid approach [2]) and Physics-Informed Neural Networks (PINNs) [3].
Task 3: The objective of this task is to develop a decision-support model to assist in the selection of diagnostic and prognostic algorithms by jointly optimizing energy and computational costs. Two goals are pursued: (i) quantify the energy impact of model choices, and (ii) develop a model selection indicator integrating model accuracy, data quality, and computation time. The approach will draw on sensitivity analysis over the models of Tasks 1 and 2, followed by a multi-criteria decision-making framework [4] that supports users in prioritizing dimensions through hierarchical structuring and expert pairwise comparisons.

References
[1] M. Ghrabli, M. Bouarroudj, L. Chamoin, and E. Aldea, “Physics-informed Markov chains for remaining useful life prediction of wire bonds in power electronic modules,” Microelectronics Reliability, vol. 167, p. 115644, Mar. 2025. https://doi.org/10.1016/j.microrel.2025.115644
[2] A. Bender, “A Multi-Model-Particle Filtering-Based Prognostic Approach to Consider Uncertainties in RUL Predictions,” Machines, vol. 9, no. 10, p. 210, Sep. 2021. https://doi.org/10.3390/machines9100210
[3] L. Podina, M. Torabi Rad, and M. Kohandel, “Conformalized Physics-Informed Neural Networks,” arXiv preprint arXiv:2405.08111, 2024. https://doi.org/10.48550/arXiv.2405.08111
[4] R. Ketfi, Z. Al Masry, N. Zerhouni, C. Devalland, “MS-DQI: A methodology for data quality assessment in medical sensor networks with a case study on a temperature sensor network for breast cancer detection,“ Biomedical Signal Processing and Control, vol. 117, 2026, 109650, ISSN 1746-8094, https://doi.org/10.1016/j.bspc.2026.109650

Profil du candidat :
• Master’s degree (or equivalent) in data science, applied mathematics, electrical engineering, or a related field.
• Strong background in machine learning and/or statistical modeling.
• Good written and oral communication skills in English.

Formation et compétences requises :

Adresse d’emploi :
SUPMICROTECH-ENSMM
FEMTO-ST/AS2M, UMR CNRS 6174
24 rue Alain Savary, 25000 Besançon

Document attaché : 202604150925_PhDOFFER.pdf

Label-scarce VHR Disaster Mapping in the Era of Geospatial Foundation Models
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA-UBS
Durée : 3 ans
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2026-05-31

Contexte :

Sujet :
For more information, please visit: https://www-obelix.irisa.fr/files/2026/02/2026_PhD_Dreams.pdf

Profil du candidat :
MSc or Engineering degree with excellent academic track and proven research experience in one of the following fields: computer science, applied maths, signal and image processing;

Formation et compétences requises :

Adresse d’emploi :
IRISA-UBS, Vannes, 56000

Document attaché : 202602050215_2026_PhD_Dreams.pdf

Multimodal GraphRAG for the Semantic Querying of Scientific Publications
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 3 ans
Contact : bernd.amann@lip6.fr
Date limite de publication : 2026-05-31

Contexte :
Les publications scientifiques modernes sont intrinsèquement multimodales : elles combinent texte, figures et tableaux, tout en s’inscrivant dans un réseau de références bibliographiques. Pour interroger ces archives, les systèmes de Génération Augmentée par la Recherche (RAG), fondés sur les Grands Modèles de Langage (LLM), remplacent progressivement les moteurs de recherche classiques grâce à leur capacité à représenter le contenu sémantique des articles et à inférer des relations implicites. Néanmoins, ces approches atteignent aujourd’hui leurs limites, notamment face à des requêtes exigeant une compréhension globale et relationnelle du domaine.

Sujet :
Ce projet de thèse vise à concevoir un cadre GraphRAG multimodal pour l’interrogation sémantique de la littérature scientifique. Il s’agit d’unifier l’analyse du contenu (texte, figures, tableaux) et des métadonnées contextuelles (citations, benchmarks) pour modéliser les relations complexes entre fragments d’information. La méthodologie repose sur trois piliers : l’adaptation d’encodeurs multimodaux, l’alignement des données dans un espace latent commun, et la construction d’un graphe documentaire hétérogène augmenté par des ressources externes.

La problématique centrale de cette thèse se formule ainsi : Comment aligner et intégrer sémantiquement des représentations issues de modèles hétérogènes (texte, tableaux, figures) au sein d’un espace unifié, afin de démultiplier les capacités de raisonnement des LLM via une architecture GraphRAG multimodale ?

Les travaux s’articuleront autour de trois objectifs :

1. Identifier et adapter les modèles d’encodage existants pour les structures complexes (tableaux, figures). Il s’agira de valider leur capacité à préserver l’information topologique et visuelle sur des tâches de référence, afin de garantir la qualité des embeddings en entrée du système.

2. Faire de l’alignement inter-modalités un objet d’étude à part entière, fortement couplé à la modélisation en aval. Cet objectif vise à concevoir, comparer et évaluer différents paradigmes de fusion afin d’identifier l’architecture optimale en fonction des exigences topologiques des graphes cibles.

3. Modéliser le graphe documentaire intégrant ces modalités comme des nœuds enrichis, et déployer l’architecture GraphRAG en exploitant les mécanismes des graphes hétérogènes pour la contextualisation inter-modale. L’impact du système global sera mesuré sur des cas d’usage de compréhension scientifique complexe à l’aide de jeux de données de référence.

Profil du candidat :
Le poste s’adresse à une candidate ou un candidat motivé(e) par la recherche interdisciplinaire à l’interface entre traitement automatique des langues, vision par ordinateur et graphes de connaissances.

– Compétences scientifiques : bases solides en apprentissage automatique, en représentation de données et en évaluation expérimentale ; une appétence pour les approches multimodales et les LLM est attendue.

– Compétences techniques : bonne maîtrise de Python ; expérience appréciée avec les bibliothèques de deep learning, le traitement de documents et les bases de données graphes.

– Méthodologie de recherche : capacité à concevoir des protocoles expérimentaux rigoureux, à analyser les résultats de manière critique et à documenter les travaux dans une logique de reproductibilité.

– Compétences transversales : autonomie, esprit d’initiative, capacité de travail collaboratif et communication scientifique en français et en anglais (rédaction, présentations, échanges internatio-
naux).

Formation et compétences requises :

Adresse d’emploi :
LIP6-Sorbonne Université

Document attaché : 202604161652_sujet_aiko_heterogeneous_data_encoding_EN.pdf

Jun
2
Tue
2026
Thèse en Intelligence Artificielle dans le cadre du projet ANR IARISQ (2026-2030)
Jun 2 – Jun 3 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : CRISTAL UMR CNRS 9189
Durée : 36 mois
Contact : hayfa.zgaya-biau@univ-lille.fr
Date limite de publication : 2026-06-02

Contexte :
Dans le cadre du projet ANR IARISQ : https://anr.fr/Project-ANR-25-CE56-3679 : “CONCEPTION ET DEVELOPPEMENT D’UN SYSTEME D’AIDE A LA DECISION A BASE D’INTELLIGENCE ARTIFICIELLE POUR LA PREDICTION DE LA QUALITE DE L’AIR ET LA DETERMINATION DES RISQUES SANITAIRES DES PARTICULES”, nous cherchons un doctorant pour la modélisation et prévision temporelle de la composition chimique des particules atmosphériques ; et la prédiction des seuils de toxicité associés, en intégrant ces variables physico-chimiques.

Sujet :
Prédiction temporelle de la composition physico-chimique des particules atmosphériques et estimation dynamique de leurs seuils de toxicité par Intelligence Artificielle

Profil du candidat :
Titulaire d’un Master en Intelligence Artificielle, avec une bonne maîtrise de l’anglais et de solides compétences en rédaction scientifique. Une expérience de publication (article soumis et/ou publié) constitue un atout.

Formation et compétences requises :
– Formation en informatique avec spécialisation en Intelligence Artificielle (Master ou équivalent)
– Excellentes compétences en développement informatique (Python et bibliothèques associées)
– Bonne maîtrise des approches d’IA symbolique et sub-symbolique
– Expérience en modélisation et en prédiction de séries temporelles

Adresse d’emploi :
UMR CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
59655 Villeneuve d’Ascq

Document attaché : 202604020557_Projet ANR IARISQ Sujet de thèse.pdf

Sep
1
Tue
2026
PHD position : Meta-Learning and Artificial General Intelligence for a Computational Theory of Assistance to Human Learning
Sep 1 – Sep 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LITIS-INSA Rouen
Durée : 3 ans
Contact : aomar.osmani@insa-rouen.fr
Date limite de publication : 2026-09-01

Contexte :
Thèse financée dans le cadre des allocations de recherche état/région.

Sujet :
Meta-Learning and Artificial General Intelligence for a
Computational Theory of Assistance to Human Learning

Profil du candidat :
Nous recherchons un(e) candidat(e) issu(e) d’un M2 ou diplôme d’ingénieur en informatique, data science, IA ou sciences cognitives computationnelles, en mathématiques avec une forte appétence pour
la recherche.

Compétences souhaitées :
— bases solides en ML/DL ;
— intérêt pour les sciences cognitives, les sciences de l’éducation, ou l’optimisation ;
— goût pour la modélisation mathématique et pour la modélisation et la programmation ;

— des connaissances en méta-apprentissage, RL, modèles séquentiels (RNN/Transformers) consti-
tuent un plus.

Environnement :
— Projet pluridisciplinaire (IA, sciences cognitives, ingénierie pédagogique) à fort impact sociétal ;
— ressources de calcul et données pour des expérimentations à grande échelle ;
— valorisation attendue dans des conférences internationales (NeurIPS, ICLR, AIED, etc.).

Formation et compétences requises :
ML/DL, programmation (Python), expérience PyTorch/TensorFlow appréciée ;

intérêt pour éducation/cognition ; méta-learning/RL/modèles séquentiels

Adresse d’emploi :
INSA de Rouen
685 Avenue de l’Université 76800 Saint-Etienne-du-Rouvray

Document attaché : 202602171414_sujetAnglais(1).pdf

Offres de stages

Apr
30
Thu
2026
Argumentative Graph-RAG for Participatory Democracy
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne University
Durée : 5-6 months
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Participatory democracy platforms (Make, Decidim, Cap Collectif, Consul) enable thousands of citizens to propose and discuss ideas for public policies. However, the large volume of textual contributions produces severe information overload: citizens struggle to identify similar or opposing proposals, while decision-makers face difficulty in detecting consensus or disagreement.

Recent research at LIP6 has shown that Natural Language Processing (NLP) can detect argumentative relations between citizen proposals (equivalence, contradiction, neutrality). These relations can be structured into argumentative graphs, which help organize debates and improve navigation within large participatory datasets.

This internship aims to extend these ideas using Graph Retrieval-Augmented Generation (Graph-RAG). By combining graph-based retrieval with language generation, the project seeks to build intelligent tools capable of summarizing debates, identifying conflicting or redundant proposals, and assisting citizens in writing balanced contributions.

Profil du candidat :
Master 2 / Final-year engineering

Formation et compétences requises :
– Programming: Python, PyTorch or TensorFlow

– NLP / ML: Experience with large language models, embeddings, or NLP tasks

– Data Science: Text preprocessing, vector representations, evaluation metrics

– Research: Ability to conduct literature reviews, design small experiments, and analyze results

– Participatory democracy: Interest in participatory democracy or computational argumentation

Adresse d’emploi :
Sorbonne University, 4 place Jussieu 75005 Paris.

Document attaché : 202511121059_Stage_LIP6_2025_2026.pdf

Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRESTIC (URCA) / Institut Godinot (Reims)
Durée : 6 mois
Contact : Arnaud.BEDDOK@reims.unicancer.fr
Date limite de publication : 2026-04-30

Contexte :
Cf. Fiche

Sujet :
Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)

Cf. fiche.

Profil du candidat :
Cf. fiche.

Formation et compétences requises :
Cf. fiche.

Adresse d’emploi :
CRESTIC (URCA) / Institut Godinot (Reims)

Document attaché : 202512180752_Offre de stage M2 20250926.pdf

Efficient self-supervised learning using dataset distillation
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
The performance of supervised deep learning methods in computer vision heavily depends on the availability of
labeled data, whose annotation is both time-consuming and requires expert knowledge. To overcome this limitation,
Self-Supervised Learning (SSL) has emerged as a promising alternative to address the challenge of limited annotations.
In this paradigm, models learn from unlabeled data by generating their own supervisory signals. The resulting pre-
trained models can then be fine-tuned on various downstream tasks such as image classification, object detection, and
semantic segmentation. However, achieving performance comparable to supervised learning often requires large-scale
datasets and high training costs, which significantly increase computational and storage demands. This internship
aims to alleviate these constraints by exploring data distillation techniques to make SSL training more efficient.

Sujet :
Dataset Distillation (DD) [1] aims to condense a large-scale training dataset into a much smaller synthetic one
such that models trained on the distilled data achieve performance comparable to those trained on the original
dataset (see figure 1). Most existing DD methods are designed for efficient supervised learning and can be broadly
classified into three main categories [2] : (1) Performance Matching, which minimizes the loss on the synthetic
dataset by aligning the performance of models trained on real and synthetic data, (2) Parameter Matching, which
trains two neural networks respectively on real and synthetic data and encourages similarity in their parameters and
(3) Distribution Matching, which generates synthetic data that closely mimics the distribution of the original dataset.
In this internship, we will focus on the Parameter Matching approach. Building upon the work of Cazenavette et al.
[3], the authors of [4] extended this concept to SSL using knowledge distillation [5, 6, 7], particularly employing SSL
methods such as Barlow Twins and SimCLR. In the same vein, this internship will explore the DINO (self-DIstillation
with NO labels, MetaAI) SSL method [8], which naturally produces teacher–student parameter trajectories that can
be leveraged for Parameter Matching. The different steps of the internship are :
▷ Step 1 – Literature review : Review recent dataset distillation methods applied to computer vision, with a
focus on parameter matching and SSL-based approaches.
▷ Step 2 – Trajectory Observation : Analyze and visualize the teacher–student parameter trajectories generated
by DINO during SSL training.
▷ Step 3 – Integration into Data Distillation Frameworks : Design a trajectory matching loss based on
DINO’s teacher–student dynamics and train a student model on synthetic data guided by these trajectories.
▷ Step 4 – Test on down-stream computer vision tasks : Assess the effectiveness of the proposed approach
on tasks such as image classification
– Bibliography
[1] Tongzhou Wang et al. “Dataset distillation”. In : arXiv preprint arXiv :1811.10959 (2018).
[2] Ruonan Yu, Songhua Liu et Xinchao Wang. “Dataset distillation : A comprehensive review”. In : IEEE transactions on pattern analysis and machine
intelligence 46.1 (2023), p. 150-170.
[3] George Cazenavette et al. “Dataset distillation by matching training trajectories”. In : Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2022, p. 4750-4759.
[4] Siddharth Joshi, Jiayi Ni et Baharan Mirzasoleiman. “Dataset Distillation via Knowledge Distillation : Towards Efficient Self-Supervised Pre-training
of Deep Networks”. In : The Thirteenth International Conference on Learning Representations. 2025. url : https://openreview.net/forum?id=c61unr33XA.
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocomputing
649 (oct. 2025), p. 130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. url : https://hal.science/hal-04488459.
[8] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025)

Profil du candidat :
The ideal
candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
machine/deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science.

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111324_2025_Internship_DD_SSL.pdf

Interprétabilité en IA des séries temporelles radar
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : christophe.lin-kwong-chon@univ-smb.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Interprétabilité en IA des séries temporelles radar

(descriptions détaillées dans la fiche attachée)

Profil du candidat :
Des compétences en machine learning sont attendues.
Le stage portera exclusivement sur la programmation en Python.
Une expérience en télédétection radar, géophysique des volcans
ou en explicabilité/interprétabilité de l’IA serait un atout.

Formation et compétences requises :

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux

Document attaché : 202510060816_Sujet – Interprétabilité en IA des séries temporelles radar.pdf

Knowledge Distillation from Large Vision Foundation Models for Efficient Dense Prediction
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
Recently, several Large Vision Foundation Models (LVFMs) have been proposed in the literature [1]. They are
trained through a Self-Supervised Learning (SSL) paradigm on large-scale unlabeled datasets and evaluated on small
labeled datasets (fine-tuning). These models have achieved state-of-the-art performance across a wide range of
downstream computer vision tasks, including both non-dense tasks (e.g., image classification, image retrieval) and
dense tasks (e.g., semantic segmentation, object detection). However, the growing size and computational demands of
the LVFMs significantly constrain their applicability in resource-limited devices (e.g., drone, smarphone). For instance,
CLIP (Contrastive Language–Image Pretraining, OpenAI) [2] comprises up to 0.4 billion parameters, DINOv3 (self-
DIstillation with NO labels, MetaAI) [3] includes models with up to 7 billion parameters, and the SAM 2 (Segment
Anything Model, Meta AI) [4] exceeds 224 million parameters. To reduce the computational demands of such massive
architectures, this internship will focus on investigating knowledge distillation techniques.

Sujet :
The knowledge distillation (KD) technique [5, 6, 7] transfers knowledge from a powerful teacher network to a
smaller student model, enabling the student to achieve significantly improved performance with lower computational
cost. In this process, the student is trained on the same dataset as the teacher, allowing it to directly leverage the
teacher’s learned representations. However, directly applying KD to LVFMs presents several challenges. First, the
most performant LVFMs are developed by large tech companies, and their training datasets are often not publicly
available. Second, these LVFMs typically employ Vision Transformer (ViT) architectures [8] as encoders, whereas
convolutional neural networks (CNNs) are generally lighter and more computationally efficient, making them strong
candidates for student models on edge devices. Third, there are significant discrepancies in capacity between LVFMs
and smaller edge models. The latter two challenges are partially addressed by Lee et al. [9], who propose a method
to customize the well-generalized features of LVFMs for a given student model. Despite promising results, this work
does not thoroughly address the issues of unavailable source datasets and cross-architecture knowledge transfer.
Additionally, only the image classification task is considered. In this internship, we aim to tackle these challenges by
investigating state-of-the-art methods for cross-architecture KD [10], data-free KD [11] and adaptive KD [12]. As
illustrated in figure 1, we will focus on two dense down-stream tasks : semantic segmentation and object detection.
The different steps of the internship are :
▷ Step 1 – Literature review on KD from foundation models
▷ Step 2 – Compare different methods of cross-architecture KD, data-free KD and adaptive KD : The
teacher will be a LVFM such as CLIP, DINOv3 and SAM2. The student encoder should be a CNN one like ResNet18.
▷ Step 3 – Test the student model on different semantic segmentation and object detection datasets :
A comparison is to be done with classical KD methods dedicated to dense prediction.
– Bibliography
[1] Muhammad Awais et al. “Foundation models defining a new era in vision : a survey and outlook”. In : IEEE Transactions on Pattern Analysis and
Machine Intelligence (2025).
[2] Alec Radford et al. “Learning transferable visual models from natural language supervision”. In : International conference on machine learning. PmLR.
2021, p. 8748-8763.
[3] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025).
[4] Nikhila Ravi et al. “Sam 2 : Segment anything in images and videos”. In : arXiv preprint arXiv :2408.00714 (2024)
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocom-
puting 649 (oct. 2025), p. 130791. doi : 10.1016/j.neucom.2025.130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. doi : 10.1016/j.patrec.2024.02.027. url : https://hal.science/hal-04488459.
[8] Alexey Dosovitskiy et al. “An Image is Worth 16×16 Words : Transformers for Image Recognition at Scale”. In : International Conference on Learning
Representations. 2021. url : https://openreview.net/forum?id=YicbFdNTTy.
[9] Jungsoo Lee et al. “Customkd : Customizing large vision foundation for edge model improvement via knowledge distillation”. In : Proceedings of the
Computer Vision and Pattern Recognition Conference. 2025, p. 25176-25186.
[10] Weijia Zhang et al. “Cross-Architecture Distillation Made Simple with Redundancy Suppression”. In : Proceedings of the IEEE/CVF International Confe-
rence on Computer Vision. 2025, p. 23256-23266.
[11] Qianlong Xiang et al. “Dkdm : Data-free knowledge distillation for diffusion models with any architecture”. In : Proceedings of the Computer Vision and
Pattern Recognition Conference. 2025, p. 2955-2965.
[12] Yichen Zhu et Yi Wang. “Student customized knowledge distillation : Bridging the gap between student and teacher”. In : Proceedings of the IEEE/CVF
International Conference on Computer Vision. 2021, p. 5057-5066.

Profil du candidat :
The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111320_2025_Internship_KD_LVFM.pdf

Régression symbolique pour la modélisation en volcanologie
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : argheesh.bhanot@univ-smb.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
En sciences naturelles, la modélisation des phénomènes physiques constitue toujours un sujet difficile. Les formules existantes ne suffisent parfois pas à représenter adéquatement les mécanismes complexes, notamment ceux qui ne sont pas directement observables. Il arrive également que ces formules ne correspondent pas parfaitement aux observations issues des données. Ces problèmes ont, par exemple, été rencontrés dans le suivi de la concentration des polluants, l’étalement de la végétation ou encore les coulées de lave.
Dans ce projet, nous nous concentrons sur la modélisation volcanique. En volcanologie, par exemple, les scientifiques disposent de mesures de déplacements en surface, obtenues grâce à l’imagerie SAR, induits par une source volcanique en profondeur, et utilisent ces mesures pour estimer les paramètres physiques d’un modèle volcanique.
Dans un premier temps, nous sommes partis d’un modèle simple sous forme d’une expression analytique : le modèle Mogi. Dans ce modèle, deux paramètres clés, la variation du volume et la profondeur de la chambre magmatique ont été modifiés pour générer des données synthétiques. En utilisant la régression symbolique, nous avons exploré des expressions mathématiques directement à partir des données. La
pertinence de l’approche et la sensibilité de la modélisation à la variété de l’activité volcanique, sur des données synthétiques et des sites volcaniques réels, ont été mesurées et comparées au modèle Mogi original. L’approche fonctionne bien jusqu’à un certain niveau de bruit, notamment sur les données
synthétiques. L’objectif du stage consiste à utiliser les méthodes de régression symbolique pour affiner le modèle Mogi, car il reste une vision simplifiée de la physique sous-jacente. Des travaux supplémentaires sont encore nécessaires pour améliorer les résultats sur les données réelles en proposant des nouvelles techniques en régression symbolique. En s’appuyant sur des travaux d’IA classique développés au laboratoire sur
l’inversion de modèles géophysiques, trois types de données sont disponibles pour créer un cadre expérimental et de validation : 1) des déplacements simulés à partir du modèle Mogi ; 2) des déplacements simulés avec un bruit ajouté ; 3) des déplacements réels sur des volcans africains. Selon
l’avancement du projet, cette étude pourra être étendue à un modèle volcanique plus sophistiqué, par exemple le modèle Okada, qui décrit le mécanisme de fonctionnement d’un volcan à l’aide d’un plus grand nombre de paramètres et s’appuie sur des équations différentielles. Le stagiaire appuiera entre autres sur les articles suivants :
– Cranmer, M. (2023). Interpretable machine learning for science with PySR and SymbolicRegression. jl.
arXiv preprint arXiv:2305.01582.
– Tenachi, W., et al. (2023). Physical Symbolic Optimization. arXiv preprint arXiv:2312.03612.
– Albino, F., & Biggs, J. (2021). Magmatic processes in the East African Rift system: insights from a 2015–
2020 Sentinel‐1 InSAR survey. Geochemistry, Geophysics, Geosystems, 22(3), e2020GC009488.
– Dzurisin, D. (2007), Volcano Deformation: Geodetic Monitoring Techniques. Mogi, K. (1958), Bull. Earthq.
Inst. U. Tokyo, 36, 99‐134 Delaney, P., McTigue, D. (1994) Bull. Volcanology, 56 417‐42
– Lopez-Uroz L, Yan Y., Benoit A., Albino F., Bouygues P., Giffard-Roisin S., Pinel V., Exploring Deep Learning
for Volcanic Source Inversion, IEEE Transactions on Geosciences & Remote Sensing.
– Petersen, B. K., et al. (2019). Deep symbolic regression: Recovering mathematical expressions from data
via risk-seeking policy gradients. arXiv preprint arXiv:1912.04871.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux, France.

Document attaché : 202510221322_stage_regressionsymbolique_2026.pdf

Transformer-based methods for cluster detection in astronomical images
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE & APC
Durée : 6 mois
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Deep Learning techniques have revolutionized artificial intelligence. Their application to astrophysics and cosmology permits us to analyze the large quantity of data obtained with
current surveys and expected from future surveys with the aim of improving our understanding of the cosmological model.
The internship is in the context of the data acquired by Vera Rubin Observatory (https://www.lsst.org/about) LLST (Legacy Survey of Space and Time), in particular in the context of the Dark Energy (DESC) and Galaxies Rubin Science Collaborations
(https://rubinobservatory.org/for-scientists/science-collaborations), and of the Euclid space mission (https://sci.esa.int/web/euclid). Galaxy clusters are powerful probes for cosmological models. LSST and Euclid will reach
unprecedented depths and, thus, they require highly complete and pure cluster catalogs, with a well-defined selection function. In this internship, we will focus on analysing astronomical
images through deep learning. Our team have developed a new cluster detection algorithm named YOLO for CLuster detection
(YOLO-CL), which is a modified version of the state-of-the-art object detection deep convolutional network named You only look once (YOLO) that has been optimized for the
detection of galaxy clusters [1,2]. The YOLO approach is a convolution-based method that primarily captures local features. In this internship, we aim to investigate transformer-based methods to model global relationships across entire astronomical images. These models are capable of capturing spatial and contextual interactions between multiple objects, which is expected to enhance detection performance compared to YOLO in our target application. In this context, we focus on the Detection Transformer (DETR) framework [3], an end-to-end
architecture that employs a transformer encoder–decoder network.
– Bibliography
[1] Grishin, Kirill, Simona Mei, and Stéphane Ilić. “YOLO–CL: Galaxy cluster detection in the SDSS with deep machine learning.” Astronomy & Astrophysics 677 (2023): A101.
[2] Grishin, Kirill, Simona Mei, Stephane Ilic, Michel Aguena, Dominique Boutigny, and Marie
Paturel. “YOLO-CL cluster detection in the Rubin/LSST DC2 simulations.” Astronomy & Astrophysics 695 (2025): A246.
[3] Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. “End-to-end object detection with transformers.” In European conference on computer vision, pp. 213-229. Cham: Springer International Publishing, 2020.

Profil du candidat :
The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in handling astronomical images. We have already obtained funding for the internship for 3-6 months.

Formation et compétences requises :
Master 2 or final year of MSc, or engineering school students in computer science.

Adresse d’emploi :
10 rue A.Domon et Léonie Duquet, 75205 Paris and/or 45 rue des
Saints-Pères, 75006, Paris

Document attaché : 202511111316_2025_Internship_Transformer-ClusterDetection.pdf

Jun
1
Mon
2026
NeOWL4j : création d’un éditeur d’ontologie moderne basé sur l’environnement Neo4j
Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes
Durée : 3 à 6 mois
Contact : alexis.guyot@lis-lab.fr
Date limite de publication : 2026-06-01

Contexte :
L’ingénierie des connaissances vise à modéliser, structurer et exploiter des savoirs pour les rendre manipulables par des systèmes informatiques. Au cœur de cette démarche, une ontologie est une représentation formelle d’un domaine : elle définit des concepts (classes), leurs relations (propriétés)
et des contraintes/axiomes (p. ex. hiérarchies, cardinalités). Les ontologies favorisent l’interopérabilité sémantique entre systèmes hétérogènes, facilitent l’intégration des données, soutiennent le raisonnement (inférences, vérification de cohérence) et encadrent la gouvernance des connaissances au moyen de référentiels partagés. Des outils comme Protégé font aujourd’hui autorité pour l’édition d’ontologies.

Le stage consiste à prototyper une alternative à Protégé en développant une surcouche d’édition et de raisonnement au-dessus du SGBD orienté graphe Neo4j, combinant ergonomie moderne, exploitation riche de graphe et compatibilité OWL (OWL API, moteurs de raisonnement standards). L’enjeu est de livrer une expérience contemporaine et efficace, sans réinventer les composants qui existent déjà lorsqu’ils sont adaptés.

Sujet :
**But du stage**
Concevoir et prototyper une application moderne (plutôt web, mais desktop possible) servant de sur-couche à Neo4j pour créer, éditer, valider et raisonner sur des ontologies (OWL/SWRL), avec une attention forte portée à l’UX et à l’esthétique. L’application doit ester interopérable avec l’écosystème existant (dont Protégé) tout en capitalisant sur les forces de Neo4j.

**Objectifs et missions**
Le/la stagiaire commencera par cadrer formellement le projet : étude de Protégé (exploration libre de l’outil, lecture de la documentation, entretiens avec des experts pour cerner besoins et limites de l’existant) ; rapide panorama des fonctionnalités des autres éditeurs d’ontologies, éventuellement complété par un album de captures pour comparer l’UX ; identification des contraintes techniques de l’existant (écosystème Neo4j, briques OWL/SWRL, validation et raisonnement) et repérage des bonnes pratiques UX 2025 pour guider la conception.

Sur cette base, il/elle rédigera des spécifications fonctionnelles et techniques pour le nouvel outil, puis développera un prototype de manière incrémentale : éditeur de d’ontologies ergonomique connecté à Neo4j, import/export assurant l’interopérabilité, mécanismes de validation, etc. Selon la durée et le profil,
le stage pourra s’étendre à l’édition d’axiomes et de règles, à l’intégration d’un raisonneur standard et à la création d’un démonstrateur complet sur une ontologie de référence.

**Technologies envisagées**
Côté interface, l’option prioritaire est une application web en TypeScript s’appuyant sur React ou SvelteKit, avec un composant d’édition de graphes adapté (par ex. React Flow ou Cytoscape.js), des moteurs de layout (elkjs/dagre) et un système de design moderne (Tailwind avec composants accessibles type Radix/shadcn). Cette combinaison permet de viser une UX actuelle : thèmes (y compris dark mode), accessibilité, performance (virtualisation), micro-interactions sobres.

En alternative desktop, on pourra empaqueter l’interface web via Electron ou Tauri, ou opter pour une interface native en JavaFX (Java) ou JetBrains Compose for Desktop (Kotlin), afin de faciliter l’intégration directe avec les bibliothèques web sémantique de l’écosystème Java.

Pour le backend, une pile Java avec Spring Boot est privilégiée afin d’intégrer naturellement OWL API/Apache Jena, de s’interfacer avec un raisonneur standard (HermiT, Pellet, Fact++), et de dialoguer avec Neo4j via le driver Java et neosemantics (n10s) pour les échanges RDF/OWL. La validation pourra
s’appuyer sur SHACL. L’API sera exposée simplement (REST/JSON ou gRPC) et restera découpée de façon à pouvoir évoluer (microservice dédié aux fonctions ontologiques si nécessaire).

Profil du candidat :
— Niveau : Bac+3 à Bac+5 (informatique / BD / IA / génie logiciel / IHM).
— Dominantes possibles : développement front moderne (TS + React/SvelteKit), Java et conception d’API, bases de données, graphes, web sémantique (OWL/RDF, SWRL, SHACL), UX/UI.
— Qualités attendues : autonomie, rigueur, curiosité, sens de l’ergonomie, communication.

Formation et compétences requises :

Adresse d’emploi :
LIS UMR 7020 CNRS / AMU / UTLN, équipe IACD
Aix Marseille Université – Campus de Saint Jérôme – Bat. Polytech
52 Av. Escadrille Normandie Niemen
13397 Marseille Cedex 20

Document attaché : 202510011418_2025_Sujet_Stage_NeOWL4J.pdf