Postes/PostDocs/CDD
Apr 30 Thu 2026 Offre en lien avec l’Action/le Réseau : – — –/Innovation Laboratoire/Entreprise : Télécom Paris – LTCI Durée : CDI Contact : sebastien.canard@telecom-paris.fr Date limite de publication : 2026-04-30 Contexte : Télécom Paris, centre international pluridisciplinaire de formation, recherche et innovation, est une référence dans le monde du numérique. Dans un contexte fortement d’actualité, où l’essor simultané de l’intelligence artificielle (IA) et de la cybersécurité transforme profondément les systèmes numériques et crée un besoin croissant d’expertise à leur interface. L’IA est aujourd’hui à la fois un outil, une cible, une menace, et un levier de protection. C’est pourquoi le département Informatique et Réseaux (INFRES) et plus particulièrement l’équipe Cybersécurité et Cryptographie (C2) a besoin de se renforcer grâce au recrutement d’un ou une maître.sse de conférence en IA et cybersécurité, capable de travailler dans ce domaine avec les nombreuses équipes de l’École telles que Systèmes embarqués critiques autonomes (ACES), Données, Intelligence et Graphes (DIG) à INFRES ou également Statistique, Signal et Apprentissage (S2A) à IDS, mais aussi avec d’autres équipes de l’Institut Polytechnique de Paris à l’École Polytechnique ou à Télécom SudParis. Ce recrutement vise à renforcer la formation et la recherche sur ces enjeux émergents, en intégrant des compétences transversales allant des techniques d’apprentissage automatique à la sécurité des systèmes et des données. Sujet : Les expertises attendues couvrent un spectre large mais cohérent situé au cœur des interactions entre intelligence artificielle et cybersécurité : – la compréhension et la modélisation des attaques exploitant l’IA (techniques d’apprentissage génératif : phishing avancé, reconnaissance de vulnérabilités, génération de trafic ou de charges malveillantes) – la conception et l’évaluation de méthodes d’IA pour la détection d’intrusions, l’analyse comportementale, la corrélation d’événements massifs, la détection d’anomalies, la classification de malwares, le traitement de flux distribués (edge computing, apprentissage fédéré) – la sécurité intrinsèque de l’IA, notamment la robustesse des modèles (défense contre-attaques adversariales, résistance aux manipulations et aux corruptions de données), la protection des données utilisées pour l’entraînement ou l’inférence (confidentialité, anonymisation, préservation de la vie privée, techniques cryptographiques ou fédérées), la traçabilité et la confiance dans les modèles (certification, explicabilité, auditabilité), ainsi que la sécurité des chaînes d’apprentissage et des environnements d’exécution. Profil du candidat : Vos missions seront donc celles-ci : – Recherche : les candidats et candidates pourront se positionner sur une ou plusieurs de ces dimensions, et une attention particulière sera portée à la capacité à articuler l’IA et la cybersécurité, avec des contributions théoriques, méthodologiques ou expérimentales permettant d’éclairer et de renforcer la sûreté, la robustesse et la résilience des systèmes numériques contemporains. Le poste s’adresse à la fois à des chercheurs et chercheuses en IA disposant d’une forte appétence pour la cybersécurité, et à des profils présentant une double compétence IA–cybersécurité, capables de contribuer au développement de travaux académiques de haut niveau dans ce domaine en pleine structuration. – Enseignement : la future personne pourrait être amenée à intervenir dans les enseignements fondamentaux (algorithmique, structures de données, probabilités, statistiques, optimisation, programmation, réseaux, systèmes) qui constituent la base indispensable à la maîtrise des approches modernes en IA et en sécurité numérique. Parallèlement, l’ouverture récente d’un parcours dédié à l’IA et à la cybersécurité crée un besoin important d’expertise pédagogique sur l’apprentissage automatique, sécurité des réseaux et des systèmes, détection d’intrusions, sécurité et robustesse des modèles, protection des données, cryptographie appliquée, etc. Le ou la candidat·e recruté·e aura ainsi un rôle structurant dans la coordination et l’articulation des enseignements du domaine, en participant à la conception de nouveaux modules, en veillant à l’intégration harmonieuse des compétences IA et cybersécurité dans les cursus. – Animation et participation à la notoriété de l’école et de l’institut Polytechnique de Paris : la personne participera à des séminaires, soutenances, etc, et développera des relations étroites avec les institutions académiques, les centres de recherche et les entreprises. Formation et compétences requises : Pour réussir dans ce rôle, vous devrez également disposer d’un doctorat et maîtriser l’anglais. Adresse d’emploi : Pour candidater : https://institutminestelecom.recruitee.com/o/enseignante-chercheuse-ou-enseignant-chercheur-en-ia-et-cybersecurite Télécom Paris 19 place Marguerite Perey 91120 Palaiseau May 22 Fri 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LISTIC / Polytech Annecy Chambéry Durée : cdi Contact : flavien.vernier@univ-smb.fr Date limite de publication : 2026-05-22 Contexte : MCF 27 – Informatique E : Informatique, IA symbolique, Big Data, DevOps, Maths discrètes. R : Apprentissage automatique, Hybridation, Frugalité. E : Computer science, Symbolic AI, Big Data, DevOps, Discrete Mathematics R : Machine Learning, Hybrid IA, Frugality Poste Vacant Sujet : La personne recrutée interviendra dans des cours de base de l’informatique (programmation, algorithmique, base de données) et prendra en charge des cours de la spécialité Informatique, Données, Usages (IDU) soit dans le domaine du DevOps (git, linter, qualité, IC…), soit dans le domaine des mathématiques discrètes et de l’IA symbolique. La personne recrutée s’intégrera à l’équipe pédagogique et participera aux APP (apprentissages par projets) IDU en qualité d’expert pour assister et former les étudiants, et en qualité de client en proposant des sujets pédagogiques. L’enseignement s’effectuera à Polytech Annecy-Chambéry, principalement sur le site d’Annecy avec des déplacements ponctuels sur le site du Bourget. La personne recrutée pourra être amenée à dispenser des cours en anglais en dernière année de la spécialité IDU et devra intégrer les enjeux du DDRS au sein de ses enseignements. Contact : Flavien Vernier – Responsable de la spécialité IDU – resp-idu-polytech@univ-smb.fr L’activité de recherche de la personne recrutée s’inscrira dans l’un des deux thèmes du LISTIC : le thème AFuTé (Apprentissage, Fusion et Télédétection) ou le thème ReGaRD (Représentation, Gestion et tRaitement des Données pour l’humain). Le thème AFuTé développe des approches méthodologiques en apprentissage automatique, traitement du signal, fusion de données et télédétection. Le thème ReGaRD est spécialisé en traitement des données humaines, aide à la décision, systèmes distribués, réseau et sécurité. Pour ce poste, des profils orientés vers le développement de modèles d’apprentissage automatique hybride seront privilégiés. Ces modèles se distinguent des pipelines classiques car ils prennent en compte une information a priori qui peut venir soit d’informations physiques (réseaux PINNS par exemple), de la structure d’algorithmes d’optimisation (réseaux unrolled ou PnP) ou provenant d’une connaissance experte. Le développement de ce type de modèles a pour but d’avoir une grande robustesse et une meilleure frugalité. La personne recrutée devra s’impliquer à court terme dans la recherche de financements. Contact : Sébastien Monnet et Guillaume Ginolhac – Direction du LISTIC – recrutement.listic@univ-smb.fr Profil du candidat : Formation et compétences requises : Adresse d’emploi : Polytech Annecy Chambéry Annecy – 74000 Document attaché : 202602051025_2026_44mcf27_pac_listic_short.pdf May 31 Sun 2026 Offre en lien avec l’Action/le Réseau : – — –/Doctorants Laboratoire/Entreprise : IRISA-UBS Durée : 18 mois Contact : minh-tan.pham@irisa.fr Date limite de publication : 2026-05-31 Contexte : Sujet : For more information: https://www-obelix.irisa.fr/files/2026/02/2026_Postdoc_Axolotl.pdf Profil du candidat : PhD in Computer Science or related domain with experience and strong publications in image processing, computer vision and applied machine learning Formation et compétences requises : Adresse d’emploi : IRISA-UBS, Vannes 56000, France Document attaché : 202602050217_2026_Postdoc_Axolotl.pdf Jun 1 Mon 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : VERIMAG / Grenoble INP-Ensimag, UGA Durée : poste permanent Contact : david.monniaux@univ-grenoble-alpes.fr Date limite de publication : 2026-06-01 Contexte : Sujet : Un poste de Professeur⋅e des Universités va être ouvert en section 27 au laboratoire VERIMAG et à Grenoble-INP Ensimag pour la campagne synchronisée 2026. Contacts : – David Monniaux pour la recherche ; – Christophe Picard et Emmanuel Maître pour l’enseignement. Profil du candidat : Le profil recherche de ce poste est à l’intersection entre l’intelligence artificielle et les sciences du logiciel et les méthodes formelles. Parmi les thématiques possibles, on pourra citer : * l’apprentissage automatique de confiance * l’apprentissage automatique explicable * le monitoring de systèmes issus de l’apprentissage automatique * la vérification de propriétés sur des systèmes issus de l’apprentissage automatique * l’apprentissage automatique de lois de commandes * l’utilisation de l’apprentissage automatique pour le développement de logiciels vérifiés * l’utilisation de l’apprentissage automatique pour la preuve automatisée de théorèmes * recherche de vulnérabilités de sécurité aidée par l’apprentissage automatique * sûreté et sécurité des modèles de langage Cette liste n’est pas exhaustive et toute proposition de thème connexe en lien avec les domaines de recherche du laboratoire pourra être considérée. Côté enseignement, outre les enseignements d’informatique traditionnels de cycle ingénieur (en algorithmique et programmation notamment), il est attendu de la personne recrutée qu’elle s’investisse en particulier dans l’enseignement et l’animation des parcours autour de l’intelligence artificielle, à la fois en cycle ingénieur et en master, en développant également des enseignements autour des enjeux socio-environnementaux de l’IA et de l’explicabilité. Formation et compétences requises : Adresse d’emploi : Ensimag 681 rue de la Passerelle 38400 Saint Martin d’Hères Laboratoire VERIMAG 150 place du Torrent 38400 Saint MArtin d’Hères Jun 15 Mon 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Groupe de REcherche en Informatique, Image, Automa Durée : 1 an Contact : bertrand.cuissart@unicaen.fr Date limite de publication : 2026-06-15 Contexte : L’IUT Grand Ouest Normandie, composante de l’université de Caen Normandie, recrute un enseignant-chercheur en informatique : intelligence artificielle pour la science des données. Le contrat est un contrat d’un an, du 1er septembre 2026 au 31 août 2027. L’annonce est publiée sur le site de l’université à https://www.unicaen.fr/universite/travailler-a-luniversite/personnels-enseignants-et-chercheurs/enseignants-contractuels/ Sujet : Au niveau de l’enseignement, la personne recrutée enseignera dans le BUT Science des Données, diplôme régi par un programme national. Elle renforcera l’équipe pédagogique sur les aspects d’intelligence artificielle pour la science des données. Le diplôme est situé sur le campus universitaire de Lisieux. Profil du candidat : La personne recrutée disposera d’une bonne connaissance pratique en algorithmique et en Programmation de scripts (Python). De plus, elle possède les connaissances suffisantes pour intégrer puis dispenser des enseignements en système de gestion de base de données relationnelles ou NoSQL (MongoDB), en technologies informatiques pour l’intelligence artificielle orientée données (fouille de données, apprentissage automatique), en Big Data (cloud computing). En collaboration avec l’équipe pédagogique du BUT, elle participera à l’intégration de l’enseignement des techniques d’intelligence artificielle pour la science des données. Une part importante des enseignements sera dispensée de manière directement pratique, notamment via l’encadrement et le suivi de projets de groupe appelés “Situations d’apprentissage et d’évaluation”. Spécifiquement, la personne recrutée pourra transmettre des compétences concernant les systèmes d’informations (entreposage, bases de données NoSQL, techniques ETL), l’apprentissage automatique (apprentissage profond, techniques NLP), ou le traitement de données massives via le cloud computing. Au niveau de la recherche, la personne recrutée intégrera le laboratoire GREYC (CNRS UMR 6072, https://www.greyc.fr/). La personne recrutée se concentrera sur la transmission des connaissances et des techniques liées à l’intelligence artificielle à destination d’un public de spécialistes, étudiants ou professionnels en activité. Par exemple, la personne recrutée pourrait coordonner la mise en place d’un module innovant concernant le cloud computing. Le public visé peut dépasser le public des étudiants en formation initiale. Elle aura la responsabilité d’animer de manière innovante la transmission de notions d’intelligence artificielle aux spécialistes de la science des données. Formation et compétences requises : Adresse d’emploi : Campus de Lisieux 11 Bd Jules Ferry, 14100 Lisieux Document attaché : 202604280918_IUT_GON_Normanthiia_EC_Informatique_SD.pdf
|
Offres de thèses
Apr 30 Thu 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : IRISA Vannes (équipe OBELIX) et European Commissio Durée : 36 mois Contact : sebastien.lefevre@irisa.fr Date limite de publication : 2026-04-30 Contexte : Sujet : Nous proposons trois thèses dans le domaine de la vision par ordinateur appliquée à l’observation de la terre avec des applications en soutien aux politiques européennes. Elles seront conduites au sein de l’équipe OBELIX de l’IRISA à Vannes (Bretagne), en partenariat avec le Centre de Recherche Commun de la Commission Européenne (Ispra, Italie), et le soutien du cluster IA SequoIA. Les thèses se dérouleront en Italie pour 2026 et 2027, et en France pour 2028, 2029. 1) Global multi-task learning for mapping and characterizing human settlements from EO data (lien pour plus d’infos et candidater: https://amethis.doctorat.org/amethis-client/prd/consulter/offre/2588) 2) Backcasting anthropogenic infrastructures over a century of historical EO data and maps (lien pour plus d’infos et candidater: https://amethis.doctorat.org/amethis-client/prd/consulter/offre/2591) 3) Explainable multimodal AI using geospatial data for rapid estimation of displacement and people in need in crises (lien pour plus d’infos et candidater: https://amethis.doctorat.org/amethis-client/prd/consulter/offre/2592) Attention, des contraintes de nationalité sont imposées pour les trois sujets (plus de détails dans les descriptifs des sujets). Date limite pour candidature: 15 janvier 2026 pour un démarrage à partir d’avril 2026. Profil du candidat : Formation et compétences requises : Adresse d’emploi : Ispra, Italie en 2026 et 2027 Vannes, France en 208 et 2029 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Laboratoire de Génie Informatique et d’Automatique Durée : 36 mois Contact : sebastien.ramel@univ-artois.fr Date limite de publication : 2026-04-30 Contexte : * TITRE Quantification de l’incertitude prédictive, fondée sur la théorie de l’évidence, appliquée à l’estimation des traits de vie des poissons à partir d’images d’otolithes 3D * THEMATIQUE Intelligence Artificielle, Apprentissage Automatique, Science des Données * MOTS CLES Théorie de Dempster-Shafer, Quantification de l’incertitude, Traits de vie, Écosystèmes marins, Otolithe. * DATE DE DEBUT ET DUREE Septembre/Octobre 2026, 36 mois * FINANCEMENT 50% IFSEA / 50% Université d’Artois (demandé) * LOCALISATION Les travaux seront menés en collaboration entre le Laboratoire de Génie Informatique et d’Automatique de l’Artois (LGI2A) à Béthune et le Laboratoire d’Informatique Signal et Image de la Côte d’Opale (LISIC) à Calais. * ENCADREMENT Directeur : Prof. Frédéric Pichon (frederic.pichon@univ-artois.fr), Université d’Artois, LGI2A Co-directrice : Prof. Emilie Poisson Caillault (emilie.caillault@univ-littoral.fr), Université du Littoral Côte d’Opale, LISIC Co-encadrant : Dr. Sébastien Ramel (sebastien.ramel@univ-artois.fr), Université d’Artois, LGI2A Sujet : La connaissance des traits de vie des poissons (habitat, âge, croissance, reproduction, longévité, position dans la colonne d’eau…) est un aspect essentiel pour une gestion efficace et durable des stocks de poissons marins. Les pièces calcifiées, et précisément les otolithes qui sont les seules pièces métaboliquement inertes, sont une source d’information précieuse à cette fin. Notamment, leur forme externe, caractérisée historiquement à partir d’images en 2D et plus récemment étudiée en 3D, permet de prédire de façon très précise ces différents traits de vie. Les images 3D, si elles sont plus informatives, sont néanmoins plus coûteuses et récentes et par conséquent moins nombreuses. Il convient donc d’utiliser au mieux cette source d’information riche mais restreinte, afin d’obtenir les prédictions les plus fiables et précises possibles. La théorie de l’évidence, aussi appelée théorie de Dempster-Shafer ou théorie des fonctions de croyance, est une généralisation du cadre probabiliste pour le raisonnement sous incertitudes. Son utilisation dans le cadre de la quantification des incertitudes dans des prédictions est particulièrement indiquée pour le cas où le nombre de données est faible. Ce projet de thèse vise ainsi à développer des méthodes prédictives fondées sur cette théorie et adaptées aux approches actuelles en matière de prédiction des traits de vie des poissons à partir d’images d’otolithes 3D. Étant donné la nature de ce type d’application, au niveau méthodologique, la prédiction de variables ordinales sera au centre du projet. Plus de détails disponibles ici: https://www.lgi2a.univ-artois.fr/spip/fr/postes_ouverts/poste-ouvert-32 Profil du candidat : La candidate ou le candidat devra être titulaire d’un master ou d’un titre d’ingénieur en informatique, mathématiques appliquées ou champ connexe. Des connaissances en intelligence artificielle (apprentissage automatique) et/ou en traitement de l’image seront un atout, ainsi qu’une sensibilisation aux méthodes de gestion de l’incertitude. Les qualités permettant de mener à terme un programme de doctorat telles que la curiosité, la créativité, l’autonomie, l’esprit critique et l’enthousiasme, seront nécessaires. Formation et compétences requises : Master ou d’un titre d’ingénieur en informatique, mathématiques appliquées ou champ connexe. Adresse d’emploi : LGI2A – Laboratoire de Génie Informatique et d’Automatique de l’Artois – UR 3926 Faculté des Sciences Appliquées Technoparc Futura 62400 – BÉTHUNE Cedex France Offre en lien avec l’Action/le Réseau : – — –/Doctorants Laboratoire/Entreprise : CEDRIC@CNAM – LIP6@Sorbonne Université Durée : 36 mois Contact : cedric.du_mouza@cnam.fr Date limite de publication : 2026-04-30 Contexte : Le passage des sources historiques manuscrites vers des formats numériques a longtemps été marqué par la dépendance aux bases de données relationnelles. Si le format tabulaire a permis de quantifier certains phénomènes et de soutenir l’histoire sérielle, il se révèle peu adapté pour représenter des parcours biographiques complexes ou des questionnements qui évoluent au fil du temps. L’adoption de graphes de connaissances (KG) marque ainsi un tournant méthodologique majeur, en offrant un modèle où l’information n’est plus conçue comme un enregistrement isolé, mais comme un réseau de relations dynamiques entre personnes, lieux, événements et documents au sein de corpus historiques. Pour l’historien, le graphe devient un véritable outil d’enquête, capable de faire émerger des structures de parenté, des réseaux de sociabilité et des configurations relationnelles qui restent difficiles à appréhender dans une organisation purement tabulaire. Cependant, cette modélisation se heurte à la nature même du document historique : l’incomplétude des archives et la fragmentation des séries constituent une contrainte structurelle qui limite la complétude des graphes de connaissances construits à partir de ces sources. À cela s’ajoutent l’ambiguïté des noms de personnes, les homonymies, la variabilité orthographique et la présence d’identités partiellement attestées, qui rendent la désambiguïsation et le chaînage d’entités particulièrement délicats dans les corpus historiques. Le défi n’est plus seulement de stocker l’information, mais de représenter fidèlement le flou et l’incertitude [6] qui l’entourent sans trahir la rigueur de la critique historique. Sujet : La problématique de l’incertitude : une difficulté scientifique nouvelle. La problématique centrale de cette thèse réside dans l’extraction et la quantification de l’incertitude, une dimension souvent ignorée par les systèmes de gestion de données classiques qui privilégient un modèle déterministe et supposent des faits complets et certains. Dans un contexte médiéval, l’incertitude est omniprésente : elle affecte les propriétés d’un noeud, comme une date de naissance approximative ou un statut social mal attesté, mais aussi l’existence même d’une relation, par exemple une filiation simplement supposée ou discutée dans des sources divergentes. La difficulté est ici double et constitue une nouveauté scientifique dans le champ des graphes de connaissances appliqués aux sources historiques. D’une part, il faut pouvoir établir des stratégies de liage d’entités dans un environnement où les données sont instables, fragmentaires et parfois contradictoires. Comment affirmer que deux mentions de noms proches dans des documents différents désignent la même personne physique alors que leurs attributs, tels que les lieux ou les dates, sont partiels, bruités ou incompatibles, tout en contrôlant explicitement les taux d’erreur de liage ? D’autre part, la thèse devra résoudre le problème de l’agrégation : comment fusionner deux noeuds représentant potentiellement la même entité tout en mettant à jour, de manière cohérente, les scores d’incertitude associés aux faits et aux relations du graphe ? Il s’agit de traiter mathématiquement le renforcement, lorsque deux sources indépendantes concordent, ou au contraire la contradiction, en modélisant la confiance dans les triplets et en intégrant des mécanismes de fusion incertaine, tout en gardant une traçabilité fine des entités et des sources d’origine pour permettre à l’historien de remonter systématiquement à la source primaire [4]. L’apport de l’Intelligence Artificielle : du NLP aux GNN. L’Intelligence Artificielle constitue le levier technologique indispensable pour lever ces verrous en intervenant à chaque étape de la chaîne de traitement. Dans un premier temps, les modèles de traitement du langage naturel (NLP) et les grands modèles de langage (LLM) seront mobilisés pour extraire l’information tout en détectant les marqueurs linguistiques de l’incertitude, en s’appuyant sur les travaux de détection automatique des hedge cues et des segments spéculatifs dans les textes. Cette approche dépasse le simple repérage d’entités pour devenir une véritable évaluation de la fiabilité de l’information brute, où l’IA associe à chaque affirmation textuelle un score de certitude ou de spéculation afin de distinguer les faits établis des informations hypothétiques ou douteuses. Ensuite, l’IA appliquée aux graphes, et plus particulièrement les Graph Neural Networks (GNN), permettra de transformer le liage d’entités en une tâche d’apprentissage profond exploitant le contexte relationnel global du graphe plutôt que les seuls attributs locaux. Contrairement aux méthodes classiques, les GNN peuvent apprendre des représentations qui intègrent la position d’un individu dans le réseau social et la structure des relations qui l’entourent, facilitant ainsi la réconciliation de noeuds même lorsque leurs attributs textuels divergent ou sont incomplets. Enfin, l’apprentissage automatique sera utilisé pour l’inférence de connaissances, permettant à la fois de découvrir des relations manquantes et de propager les scores d’incertitude à travers le graphe, dans l’esprit des approches de knowledge graph completion. Données. Le travail de recherche s’appuiera sur les données prosopographiques des bases Studium et Fasti, offrant un terrain d’expérimentation d’une richesse rare sur les élites universitaires et ecclésiastiques médiévales. Ces corpus ne sont pas seulement des réservoirs biographiques ; ils constituent des structures relationnelles complexes où le silence des sources et les contradictions documentaires sont la norme plutôt que l’exception. En mobilisant ces données, l’enjeu sera de transcender le modèle déterministe traditionnel pour modéliser des graphes de connaissances intégrant la notion d’incrtitude. Les bases Studium et Fasti recèlent en effet des attributs fragiles, tels que des dates de décès exprimées par des fourchettes incertaines ou des fonctions dont la chronologie se chevauche de manière incohérente, qui serviront de variables pour tester des algorithmes de liage d’entités sous contrainte d’incertitude. Méthodologie : Extraction, Liage et Agrégation sous Incertitude. Le doctorant devra en premier lieu développer des méthodes innovantes fondées sur le traitement du langage naturel (NLP) et l’apprentissage profond pour extraire non seulement les entités nommées, mais aussi des indices de confiance et d’incertitude finement calibrés, en s’inspirant des approches de détection de spéculation et de modélisation probabiliste des affirmations textuelles. Ces scores ne dépendront pas uniquement de la clarté du texte, mais seront corrélés au contexte sémantique global et à une évaluation de la qualité des sources historiques, suivant les travaux qui intègrent des métriques de fiabilité contextuelles dans l’extraction d’informations incertaines. Cette étape est cruciale pour transformer une donnée textuelle brute en un objet probabiliste riche, capable d’être intégré dans la structure du graphe de connaissances, comme le proposent les pipelines d’extraction enrichis en incertitude pour des applications en KG. Dans un second temps, les travaux porteront sur l’élaboration d’algorithmes de liage et d’agrégation spécifiquement conçus pour être « uncertainty-aware », en ligne avec les cadres récents de entity resolution probabiliste et de fusion sous incertitude. Plusieurs types d’approches sont envisagées pour relever ce défi. L’algorithmique de graphe couplée à l’IA, notamment à travers les Graph Neural Networks (GNN), sera mobilisée pour capturer la topologie du réseau et l’utiliser comme levier de réconciliation, en exploitant les représentations structurelles pour résoudre les ambiguïtés même en présence de données bruitées ou partielles. Parallèlement, d’autres approches d’IA comme l’apprentissage par métrique (metric learning) ou les modèles de bi‑encodeurs seront explorées pour le liage d’entités, en adaptant des techniques qui génèrent des embeddings tenant compte de l’incertitude ou de la variabilité des sources. La difficulté majeure, et l’un des verrous scientifiques de la thèse, résidera dans la nécessité d’adapter ces modèles, traditionnellement déterministes, pour qu’ils intègrent nativement l’incertitude, comme le soulignent les analyses des limites des approches classiques face à des données historiques fragmentaires. Il s’agira de proposer des fonctions de similarité avancées capables de traiter des valeurs floues ou des intervalles de confiance, et de définir des opérateurs d’agrégation aptes à gérer le renforcement ou l’atténuation de la confiance lors de la fusion de sources multiples. Ces opérateurs permettront de mettre à jour dynamiquement les connaissances du graphe de connaissances (KG), en répercutant chaque nouvelle information sur l’ensemble du réseau relationnel tout en préservant la traçabilité indispensable à l’analyse historienne, conformément aux principes de provenance et de vérification probabiliste dans les KG. Profil du candidat : Titulaire d’un M2 ou ingénieur, avec de solides bases en informatique et en apprentissage automatique et idéalement de bonnes notions de graphes et une appétence pour l’histoire. La maîtrise d’un langage de programmation (comme Python) est indispensable. Formation et compétences requises : Adresse d’emploi : laboratoire CEDRIC, CNAM, 2 rue Conté 75003 Paris laboratoire LIP6, 3 place Jussieur, 75005 Paris Document attaché : 202604081251_sujetTheseSCAI2026.pdf May 2 Sat 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : ONERA-DEMR, UTT-LIST3N Durée : 3 ans Contact : alexandre.baussard@utt.fr Date limite de publication : 2026-05-02 Contexte : Sujet : https://w3.onera.fr/formationparlarecherche/sites/w3.onera.fr.formationparlarecherche/files/phy-demr-2026-05.pdf Profil du candidat : Formation et compétences requises : Adresse d’emploi : ONERA, site Palaiseau Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : CEA Cadarache / UTT-LIST3N Durée : 3 ans Contact : alexandre.baussard@utt.fr Date limite de publication : 2026-05-02 Contexte : Dans le cadre de l’utilisation durable de l’énergie nucléaire pour un mix énergétique décarboné en association avec les énergies renouvelables, les réacteurs de IVe génération à neutrons rapides sont cruciaux pour la fermeture du cycle du combustible et la maîtrise de la ressource en uranium. La maîtrise de la sûreté d’un tel réacteur à caloporteur sodium repose notamment sur la détection précoce de vides gazeux dans les circuits. Dans ces milieux opaques et métalliques, les méthodes d’imagerie optiques sont inopérantes, d’où la nécessité de développer des techniques innovantes. Cette thèse s’inscrit dans le développement de la tomographie d’impédance électrique (EIT) appliquée aux métaux liquides, une approche non intrusive permettant d’imager la distribution de conductivité dans un écoulement. Les réseaux neuronaux informés par la physique (PINN, pour Physical informed neural network) sont récemment apparus comme une technique d’apprentissage automatique prometteuse pour résoudre les équations différentielles partielles (EDP) en intégrant directement les lois physiques dans la fonction de perte. Ils ont déjà démontré leur potentiel dans la résolution de problèmes inverses pour de nombreuses applications. Il est possible de définir une fonction de perte intégrant uniquement les équations physiques mais aussi d’intégrer, en plus de la physique, des données (simulées, expérimentales ou réelles), sans donc faire de l’apprentissage purement guidé par les données (dit data-driven) comme avec des réseaux de neurones convolutionnels classiques. Si les PINN ont déjà été utilisés en inversion, il existe cependant très peu de publications qui traitent de la résolution du problème inverse en tomographie d’impédance électrique. Ces dernières sont de plus très récentes et se limitent généralement à des géométries de reconstruction relativement simples et elles peuvent reposer sur des hypothèses assez restrictives pour des scénarios réels. Ainsi différentes contributions pourront émerger de ce travail à la fois méthodologique sur les PINN mais aussi applicatives par l’exploitation de données expérimentales. Sujet : L’objectif de cette thèse est de développer un système complet de tomographie de résistivité électrique pour la détection et la cartographie en temps réel des écoulements diphasiques métal liquide/argon en vue de l’appliquer à des écoulements de circuits de Génération IV. Des approches d’intelligence artificielle, notamment les réseaux neuronaux informés par la physique, seront explorées pour combiner apprentissage numérique et contraintes physiques. Elles seront comparées à l’utilisation de simulations numériques. L’objectif est d’établir des modèles physiques adaptés au contexte et de concevoir des méthodes d’inversion robustes vis-à-vis des bruits de mesure. Le sujet s’articulera autour de quatre axes : 1. Lois physiques et modélisation (électromagnétique et hydrodynamique) des signaux de tomographie dans le sodium. 2. La reconstruction d’image à partir des mesures de conductivité, en 2D et en 3D spatial, avec tensions sinusoïdales. On se tournera pour cela vers des méthodes de Machine-Learning. 3. Développement expérimental : mesures avec du galinstan (de conductivité proche de celle su sodium liquide). 4. Amélioration de la reconstruction tomographique en présence de bruit de défauts des capteurs et de perturbations de fond. Profil du candidat : Etudiant(e) de niveau master ou ingénieur ayant suivi une formation en mathématique appliquée, en apprentissage machine (deep learning) ou en physique (électromagnétisme). Il est nécessaire de maîtriser Python et de connaître si possible PyTorch. Le travail attendu nécessite rigueur, autonomie et un intérêt pour les sujets à la frontière de plusieurs disciplines. Formation et compétences requises : Adresse d’emploi : CEA Cadarache Contacts : – Encadrant CEA : michel.frederic@cea.fr – Directeur de thèse : alexandre.baussard@utt.fr May 3 Sun 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIP6, Sorbonne University Durée : 36 mois Contact : mohamed-amine.baazizi@lip6.fr Date limite de publication : 2026-05-03 Contexte : Sujet : LLMs, Structured Data generation Profil du candidat : Formation et compétences requises : Adresse d’emploi : https://adum.fr/as/ed/voirproposition.pl?site=adumR&matricule_prop=73229#version Document attaché : 202604120959_Thesis_SU_2026.pdf May 11 Mon 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : ICube Strasbourg Durée : 3 ans Contact : franco.giustozzi@insa-strasbourg.fr Date limite de publication : 2026-05-11 Contexte : Environmental restoration projects generate large volumes of heterogeneous documentation, including technical reports, project plans, cartographic materials, engineering drawings, and photographic records. These materials contain valuable but fragmented knowledge describing intervention strategies, environmental contexts, technical constraints, and outcomes. Within the TETRA project (ANR-22-FAI2-0006), previous research efforts primarily concentrated on text-based knowledge extraction using Large Language Models (LLMs), enabling the structuring of restoration knowledge from technical and narrative reports. While this approach demonstrated the potential of large language models for semantic modeling and ontology enrichment, it remained largely confined to textual sources. However, restoration documentation increasingly includes rich visual materials, such as maps, technical drawings, aerial imagery, and photographic records that contain complementary and sometimes critical information not explicitly described in text. This PhD builds upon the foundations established in TETRA by extending the extraction paradigm toward a unified multimodal framework. The central hypothesis is that integrating textual and visual understanding through advanced Vision-Language Models (VLMs) can substantially improve the completeness, semantic consistency, and interpretability of structured environmental knowledge graphs. Sujet : The FUSION-KG PhD aims to design a unified multimodal semantic extraction framework capable of transforming heterogeneous environmental documentation into structured, interpretable, and queryable knowledge graphs. The ambition is not only to extract information from text and images, but to develop a coherent framework in which multimodal understanding and structured external knowledge jointly contribute to reliable and semantically consistent knowledge graph construction. The work involves the systematic modeling and characterization of heterogeneous documentary sources, including technical reports, maps, engineering drawings, aerial and satellite imagery, and photographic records of restoration interventions. These materials provide complementary yet often fragmented accounts of intervention types, spatial configurations, temporal phases, environmental parameters, constraints, and outcomes. A major challenge lies in ensuring that information extracted from visual and textual modalities is semantically aligned and represented within a shared conceptual framework. Profil du candidat : The doctoral contract is awarded by the doctoral school’s selection committee through a competitive process in which the candidates’ merit is a key factor Formation et compétences requises : Education: Student about to graduate a Master or Engineer (Bac + 5) with a specialization in Computer Science. Specific knowledge: Knowledge on data science methods, knowledge representation and reasoning, knowledge graphs. Languages: Python, java, owl/sparql. Ability to work with experts who are not computer scientists. Interest in the application domain would be appreciated. Adresse d’emploi : ICube laboratory (CNRS UMR 7357), 300 boulevard Sebastien Brant BP 10413 67412 ILLKIRCH cedex Document attaché : 202603151916_Sujet_These_ED_VLM.pdf Offre en lien avec l’Action/le Réseau : – — –/Doctorants Laboratoire/Entreprise : Laboratoire Interdisciplinaire des Sciences du Num Durée : 36 mois Contact : semeraro@limsi.fr Date limite de publication : 2026-05-11 Contexte : ‘Governing is forecasting”. This proverbial saying is relevant to many situations of engineering interest where decisions must be taken based on predictions or when devising a suitable sequence of actions to achieve some goal requires a good knowledge of the effect of these actions onto the system under consideration. Such predictions usually rely on a simulation of a model of the system at hand and/or observations collected over time. A reliable model may however not be available, or be too computationally costly to be useful. Observations, on the other hand, are often scarce and do not provide a complete picture of the state of the system. Sujet : In this thesis, we aim at deriving a principled approach to predict the time-evolution of quantities of interest associated with a system observed only via a few noisy sensors active at unpredictable times. To this end, we leverage the history of the information one can collect. This paradigm of predicting the future from whatever available knowledge over a past horizon is rigorously justified by the Mori-Zwanzig framework developed in the statistical physics community in the late 60s. A particular focus will be on developing scalable approaches, suited for large-scale systems, such as those encountered in haemodynamics. Describing and predicting the dynamics of complex systems remains a fundamental challenge across many scientific domains. These systems are commonly described by dynamical systems in the form of differential equations. While this formulation is principled, it assumes that the model is known and tractable. In practice, however, the dynamics are often partially unknown, computationally expensive, or only valid within limited regimes. This limitation has led to the development of data-driven approaches that infer system dynamics directly from observations. A key difficulty arises from partial observability. In many applications, only a subset of the system variables is accessible, and observations are often noisy, sparse, or irregular. As a result, the system cannot be accurately described as a Markovian process depending solely on the current observation. Instead, its evolution depends on past states, leading naturally to a non–Markovian formulation. Several modeling strategies explicitly incorporate memory effects, such as autoregressive models such as ARMAX [5], while recurrent neural networks (RNNs), including LSTMs [9, 17, 7], introduce latent memory variables. Reservoir computing and echo state networks [8, 11] offer computationally efficient alternatives capable of capturing long-term dependencies [19]. More recent developments include Latent ODEs [16], which combine Neural ODEs with RNN encoders, augmented Neural ODEs [3], and Transformer architectures [18]. Despite their empirical success, these approaches inherently involve a trade-off between expressivity and interpretability or tend to operate as black boxes. A natural first approach to incorporate non–Markovian effects is by explicitly including past states, leading to delay differential equations (DDEs). Neural State-Dependent Delayed Differential Equations [8] introduced a flexible framework allowing multiple delays that depend on both time and state. While these approaches are purely data-driven, they do not explicitly exploit the physical structure of the underlying system. We aim at leveraging a theoretically grounded approach to efficiently predict quantities of interest or (approximation of) the state of a system. We rely on the Mori-Zwanzig framework developed in the statistical physics community in the late 60s, [13,20]. In a nutshell, it formalizes the time-evolution of a set of variables x(t) related to the system as a function of their history, without requiring knowledge of the other variables describing the system. Accounting for the past essentially allows to isolate the dynamics of these observables. This framework is general and applies widely. For instance, when the whole state of the system is not accessible, the dynamics of the observables can be described with a non-Markovian model via this framework. It similarly provides a principled closure for coarse models which can be effectively complemented with a history-based term, [14,12,6]. In this thesis, we will explore the potential of Signatures to efficiently approximate the history of the observations, [2,4,15]. The Signature transform introduced in [1,10] has recently been used in several areas, including rough path theory, finance, stochastic control, and machine learning. It has proven to be an effective tool to summarize the information of paths and dependencies across different dimensions, with high computational efficiency. Signatures consist of iterated integrals of the history of its inputs and enjoys interpretability. They provide a way to linearize all possible functions of their input and exhibit nice theoretical properties. In particular, owing to tensor algebra, they can be efficiently updated when new observations become available, without recomputing the whole object. Many open questions however remain and will be the focus of this thesis. In particular, how are the different time scales of the physical system preserved across the Signature of its observations? What are the properties of the time series to retain in order to allow for a reliable and efficient prediction based on Signatures? How large should the truncation order be for a given performance? How frugal can the Signature-based term in the Mori-Zwanzig framework be in terms of training data, a critical point in many situations? Does the Mori-Zwanzig solution has a structure that can be exploited, such as low rankness, sparsity or multi-dependence which can be captured with tensor formats, etc.? These methodological developments will first be illustrated on low-dimensional dynamical systems before, if time allows, being demonstrated on large scale real data from geophysics. [1] Chen K.-T., Integration of paths, geometric invariants and a generalized Baker-Hausdorff formula, Annals of Mathematics. 2nd ser., 65, p. 163–178, 1957. [2] Chevyrev Ilya & Kormilitzin Andrey, 2025 A Primer on the Signature Method in Machine Learning. [3] Dupont E., Doucet A. & Teh Y.W., Augmented neural ODEs, Adv. Neural Inf. Process. Syst., 32, p. 3140–3150, 2019. [4] Fermanian A., Learning time-dependent data with the signature transform, Theses, Sorbonne Université, 2021. [5] Guidorzi R., Multivariable system identification: from observations to models, Bononia University Press, 2003. [6] Gupta P., Schmid P., Sipp D., Sayadi T. & Rigas G., Mori–Zwanzig latent space Koopman closure for nonlinear autoencoder, Proc. R. Soc. A, 481 (2313), p. 20240259, 2025. [7] Hochreiter S. & Schmidhuber J., Long short-term memory, Neural Comput., 9 (8), p. 1735–1780, 1997. [8] Jaeger H. & Haas H., Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication, Science, 304 (5667), p. 78–80, 2004. [9] Jordan M.I., Serial order: a parallel distributed processing approach. Technical report, California Univ., San Diego, La Jolla (USA). Inst. for Cognitive Science, Tech. Rep., 1986. [10] Lyons T., Caruana M. & Lévy T., Differential equations driven by rough paths, In Lecture notes in Mathematics, École d’été de probabilités de Saint-Flour XXXIV-2004 , 2007. [11] Maass W., Natschläger T. & Markram H., Real-time computing without stable states: A new framework for neural computation based on perturbations, Neural Comput., 14 (11), p. 2531–2560, 2002. [12] Menier E., Bucci M.A., Yagoubi M., Mathelin L. & Schoenauer M., CD-ROM: Complemented Deep-Reduced Order Model, Computer Methods in Applied Mechanics and Engineering, 410, p. 115985, 2023. [13] Mori H., A Continued-Fraction Representation of the Time-Correlation Functions, Prog. Theor. Phys., 34 (3), p. 399–416, 1965. [14] Parish E. J. & Duraisamy K., Non-Markovian closure models for large eddy simulations using the Mori-Zwanzig formalism, Phys. Rev. Fluids, 2 (1), p. 014604, 2017. [15] Pradeleix E., Hosseinkhan-Boucher R., Shilova A., Semeraro O. & Mathelin L., 2025 Learning non-Markovian dynamical systems with signature-based encoders. ECAI 2025 – 2nd ECAI Workshop on “Machine Learning Meets Differential Equations: From Theory to Applications”. [16] Rubanova Y., Chen R.T.Q. & Duvenaud D.K., Latent ODEs for irregularly-sampled time series, In Advances in Neural Information Processing Systems 32 (NeurIPS 2019) (ed. H. M. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alché Buc, E. B. Fox & R. Garnett), p. 5320–5330, 2019. [17] Rumelhart D. E., Hinton G. E. & Williams R. J., 1986 Learning internal representations by error propagation, p. 318–362. Cambridge, MA, USA: MIT Press. [18] Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L. & Polosukhin I., Attention is All you Need, In Advances in Neural Information Processing Systems, , vol. 30, 2017. [19] Vlachas P.-R., Pathak J., Hunt B.R., Sapsis T.P., Girvan M., Ott E. & Koumoutsakos P., Back-propagation algorithms and reservoir computing in recurrent neural networks for the forecasting of complex spatiotemporal dynamics, Neural Netw., 126, p. 191–217, 2020. [20] Zwanzig R., Nordholm K.S. J. & Mitchell W.C., Memory Effects in Irreversible Thermodynamics: Corrected Derivation of Transport Equations, Phys. Rev. A, 5, p. 2680–2682, 1972. Profil du candidat : Le candidat devra avoir une bonne formation en apprentissage automatique, mathématiques appliquées et/ou statistiques. La connaissance d’un framework d’apprentissage machine (par exemple PyTorch, Jax ou Julia) est un plus. Formation et compétences requises : Adresse d’emploi : The work will take place at the Laboratoire Interdisciplinaire des Sciences du Numérique (LISN – https://www.lisn.upsaclay.fr/) on the campus of Université Paris-Saclay, benefiting from expertise of the research team in machine learning, applied mathematics, computer science, statistical physics, fluid mechanics and dynamical systems. The PhD student will be integrated in a vibrant research team focused on scientific machine learning, deep learning, applied mathematics and statistical physics. He/She will be advised by Lionel Mathelin and Onofrio Semeraro, both CNRS researchers involved in the topic for several years. In addition to the rich scientific environment of the Paris-Saclay, the student will benefit from the numerous interactions within the team, in particular with other PhD students and postdocs, and from the weekly seminars which provide exposition to a wide state-of-the-art research. In addition to the rich scientific environment of the Paris-Saclay, the student will benefit from the numerous interactions within the team, in particular with other PhD students and postdocs, and from the weekly seminar which provides exposition to a wide state-of-the-art research. This thesis will be carried-out in close collaboration with the INRIA Commedia team in Paris (Dr. D. Lombardi) and the INRIA Odyssey team in Rennes (Dr. E. Memin and G. Tissot). Visits to these teams will be organized on a regular basis. Document attaché : 202604240826_Laplace.pdf May 31 Sun 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : DVRC Durée : 3 ans Contact : nicolas.travers@devinci.fr Date limite de publication : 2026-05-31 Contexte : L’essor des grands modèles de langage (Large Language Models, LLM) a profondément transformé le traitement automatique du langage naturel, ouvrant des perspectives inédites pour de nombreux secteurs d’activité. Le domaine juridique constitue à cet égard un terrain d’application stratégique : il est caractérisé par une production normative croissante, une complexité textuelle élevée et des exigences fortes en matière de fiabilité, de traçabilité et de justification argumentative. Les professionnels du droit, avocats, juristes d’entreprise, services de conformité, sont quotidiennement confrontés à l’analyse de volumes importants de textes normatifs, de contrats et de décisions jurisprudentielles. Cette réalité opérationnelle crée une demande croissante pour des outils d’assistance capables d’automatiser partiellement ces processus tout en garantissant une fiabilité juridique suffisante pour un usage professionnel. Les solutions génériques actuelles fondées sur des LLM (GPT-4, Claude, Gemini) permettent des tâches élémentaires ,recherche d’information, résumé, rédaction assistée, mais présentent des limites structurelles importantes dans ce contexte : – un manque de spécialisation dans le raisonnement juridique normatif, caractérisé par des hiérarchies de normes, des exceptions et des conflits réglementaires ; – une fiabilité juridique insuffisante, se traduisant par des hallucinations factuelles et des erreurs d’interprétation normative ; – une incapacité à justifier explicitement les conclusions produites, pourtant essentielle à l’usage professionnel ; – une empreinte computationnelle et énergétique élevée, incompatible avec une intégration directe dans des workflows SaaS ou des environnements à ressources contraintes. Ces constats soulignent l’intérêt de développer des modèles de langage spécialisés, plus compacts ,désignés Small Legal Models (SLM) ,capables d’intégrer les structures logiques et normatives propres au droit tout en étant économes en ressources et directement intégrables dans des logiciels métiers. C’est dans ce contexte que s’inscrit le projet de recherche et développement porté par Contractzlab. Ce projet répond à un besoin industriel concret : améliorer l’efficacité des cabinets juridiques et des entreprises soumises à des obligations réglementaires strictes, tout en proposant une alternative fiable, sécurisée et économe en énergie aux grands modèles généralistes. Il s’inscrit également dans une perspective scientifique plus large, visant à comprendre comment la spécialisation et l’apprentissage progressif permettent à un modèle compact d’atteindre des performances comparables à celles de modèles massifs sur des tâches de raisonnement normatif complexes. Sujet : L’objectif principal de cette thèse est de concevoir, d’entraîner et de valider un Small Legal Model (SLM) spécialisé dans le raisonnement juridique, capable de surperformer les modèles généralistes commerciaux sur des tâches normatives complexes tout en restant économe en ressources computationnelles. Ce modèle doit fonctionner comme un assistant expert pour les professionnels du droit ,juristes, avocats, services de conformité ,en les aidant à analyser, interpréter et mettre en relation des textes normatifs, aussi bien pour des consultations rapides que pour des cas nécessitant un raisonnement structuré et une justification explicite. Les travaux de recherche s’articulent autour de quatre axes scientifiques originaux, chacun répondant à un verrou identifié dans la littérature : Conception de méthodes d’alignement adaptées au raisonnement juridique normatif Les approches classiques d’alignement par préférences (RLHF, DPO, ORPO) sont conçues pour améliorer la conformité comportementale des modèles, non pour structurer leur raisonnement formel. L’objectif est de proposer de nouvelles méthodes d’alignement intégrant des contraintes logiques explicites, respectant la hiérarchie des normes (constitution, loi, règlement, jurisprudence) et permettant la traçabilité des chaînes d’inférence juridique. Cela implique notamment de définir des signaux de récompense capables de représenter la cohérence normative et la validité argumentative des réponses produites. Construction d’un cadre d’évaluation unifié pour le raisonnement juridique L’absence de benchmark représentatif, multilingue et orienté vers la structure argumentative constitue un frein majeur à la progression scientifique dans ce domaine. L’objectif est de construire un cadre d’évaluation unifié couvrant plusieurs niveaux de raisonnement juridique qualification, interprétation, mise en relation de normes, résolution de conflits ,applicable à plusieurs systèmes juridiques européens, et s’appuyant sur des métriques capables de mesurer la cohérence logique interne et la validité normative au- delà de la simple correspondance textuelle. Développement d’une stratégie d’entraînement progressif pour modèle compact La réduction du nombre de paramètres d’un modèle limite mécaniquement sa capacité à encoder des connaissances juridiques étendues et des chaînes de raisonnement profondes. L’objectif est de concevoir une stratégie d’entraînement progressif (continual / curriculum learning) permettant à un SLM d’acquérir des compétences juridiques croissantes sans subir d’oubli catastrophique, tout en conservant la cohérence globale de son raisonnement. Des approches telles que DUMP (Dynamic Upper-confidence-based Model Progression) constituent des pistes prometteuses qui seront explorées et adaptées au contexte juridique. Analyse de la robustesse cognitive sous alignement par préférences L’impact de l’alignement par préférences sur la diversité argumentative et la robustesse cognitive des modèles en contexte juridique reste largement inexploré. L’objectif est de caractériser empiriquement et théoriquement les effets de différentes méthodes d’alignement (DPO, ORPO, KTO, RLAIF) sur la capacité d’un modèle compact à maintenir une pluralité interprétative, à résister aux ambiguïtés normatives et à justifier ses conclusions dans des cas complexes ou contradictoires. Cette analyse vise à établir les fondements d’un alignement à la fois conforme et cognitivement robuste pour les domaines régulés. Profil du candidat : Ingénieurs / Master 2, spécialisé en science des données, Intelligence Artificielle, NLP Personnes à contacter par mail : envoyez votre candidature avant le 25 avril avec vos bulletins de notes M1/M2, une lettre de motivation, des lettres de recommandation Formation et compétences requises : Adresse d’emploi : Paris La défense & Paris 11° Document attaché : 202604162208_Sujet_These_Cifre_Contractzlab.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Institut FEMTO-ST Durée : 36 mois Contact : zeina.almasry@femto-st.fr Date limite de publication : 2026-05-31 Contexte : Context: The increasing complexity of power electronic systems and the diversity of their operating conditions make it challenging to predict component health under poorly represented or previously untested conditions. Modern prognostics approaches rely either on physics-based models or on data-driven methods, which are flexible but often fail in out-of-distribution scenarios. Hybrid approaches combining both paradigms have emerged as a promising direction to overcome these limitations. This thesis is conducted within the framework of the ANR PRCE {Power-Twin} project, which aims to develop a digital twin for the diagnosis and prognosis of power module components, with particular attention to bonding wire degradation under variable load profiles. Sujet : Objectives The main objective of this thesis is to extend the health state prediction capabilities of prognostic models to conditions that are poorly represented in training data or entirely unseen. This will be achieved through three complementary research directions, each structured around a core research question and a set of concrete tasks. Task 1: Modern machine learning approaches are increasingly exploited to automate and optimize fault detection and classification. We propose to investigate methods that improve diagnostics under under-represented conditions, with a particular emphasis on distribution-free approaches. Task 2: Building upon prior work on RUL estimation for power modules under variable load profiles combining experimental data, finite element simulations, and Markov chain-based models [1], two complementary approaches will be developed: Physics-stochastic hybrid approach [2]) and Physics-Informed Neural Networks (PINNs) [3]. Task 3: The objective of this task is to develop a decision-support model to assist in the selection of diagnostic and prognostic algorithms by jointly optimizing energy and computational costs. Two goals are pursued: (i) quantify the energy impact of model choices, and (ii) develop a model selection indicator integrating model accuracy, data quality, and computation time. The approach will draw on sensitivity analysis over the models of Tasks 1 and 2, followed by a multi-criteria decision-making framework [4] that supports users in prioritizing dimensions through hierarchical structuring and expert pairwise comparisons. References [1] M. Ghrabli, M. Bouarroudj, L. Chamoin, and E. Aldea, “Physics-informed Markov chains for remaining useful life prediction of wire bonds in power electronic modules,” Microelectronics Reliability, vol. 167, p. 115644, Mar. 2025. https://doi.org/10.1016/j.microrel.2025.115644 [2] A. Bender, “A Multi-Model-Particle Filtering-Based Prognostic Approach to Consider Uncertainties in RUL Predictions,” Machines, vol. 9, no. 10, p. 210, Sep. 2021. https://doi.org/10.3390/machines9100210 [3] L. Podina, M. Torabi Rad, and M. Kohandel, “Conformalized Physics-Informed Neural Networks,” arXiv preprint arXiv:2405.08111, 2024. https://doi.org/10.48550/arXiv.2405.08111 [4] R. Ketfi, Z. Al Masry, N. Zerhouni, C. Devalland, “MS-DQI: A methodology for data quality assessment in medical sensor networks with a case study on a temperature sensor network for breast cancer detection,“ Biomedical Signal Processing and Control, vol. 117, 2026, 109650, ISSN 1746-8094, https://doi.org/10.1016/j.bspc.2026.109650 Profil du candidat : • Master’s degree (or equivalent) in data science, applied mathematics, electrical engineering, or a related field. • Strong background in machine learning and/or statistical modeling. • Good written and oral communication skills in English. Formation et compétences requises : Adresse d’emploi : SUPMICROTECH-ENSMM FEMTO-ST/AS2M, UMR CNRS 6174 24 rue Alain Savary, 25000 Besançon Document attaché : 202604150925_PhDOFFER.pdf Offre en lien avec l’Action/le Réseau : – — –/Doctorants Laboratoire/Entreprise : IRISA-UBS Durée : 3 ans Contact : minh-tan.pham@irisa.fr Date limite de publication : 2026-05-31 Contexte : Sujet : For more information, please visit: https://www-obelix.irisa.fr/files/2026/02/2026_PhD_Dreams.pdf Profil du candidat : MSc or Engineering degree with excellent academic track and proven research experience in one of the following fields: computer science, applied maths, signal and image processing; Formation et compétences requises : Adresse d’emploi : IRISA-UBS, Vannes, 56000 Document attaché : 202602050215_2026_PhD_Dreams.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIP6 – Sorbonne Université Durée : 3 ans Contact : bernd.amann@lip6.fr Date limite de publication : 2026-05-31 Contexte : Les publications scientifiques modernes sont intrinsèquement multimodales : elles combinent texte, figures et tableaux, tout en s’inscrivant dans un réseau de références bibliographiques. Pour interroger ces archives, les systèmes de Génération Augmentée par la Recherche (RAG), fondés sur les Grands Modèles de Langage (LLM), remplacent progressivement les moteurs de recherche classiques grâce à leur capacité à représenter le contenu sémantique des articles et à inférer des relations implicites. Néanmoins, ces approches atteignent aujourd’hui leurs limites, notamment face à des requêtes exigeant une compréhension globale et relationnelle du domaine. Sujet : Ce projet de thèse vise à concevoir un cadre GraphRAG multimodal pour l’interrogation sémantique de la littérature scientifique. Il s’agit d’unifier l’analyse du contenu (texte, figures, tableaux) et des métadonnées contextuelles (citations, benchmarks) pour modéliser les relations complexes entre fragments d’information. La méthodologie repose sur trois piliers : l’adaptation d’encodeurs multimodaux, l’alignement des données dans un espace latent commun, et la construction d’un graphe documentaire hétérogène augmenté par des ressources externes. La problématique centrale de cette thèse se formule ainsi : Comment aligner et intégrer sémantiquement des représentations issues de modèles hétérogènes (texte, tableaux, figures) au sein d’un espace unifié, afin de démultiplier les capacités de raisonnement des LLM via une architecture GraphRAG multimodale ? Les travaux s’articuleront autour de trois objectifs : 1. Identifier et adapter les modèles d’encodage existants pour les structures complexes (tableaux, figures). Il s’agira de valider leur capacité à préserver l’information topologique et visuelle sur des tâches de référence, afin de garantir la qualité des embeddings en entrée du système. 2. Faire de l’alignement inter-modalités un objet d’étude à part entière, fortement couplé à la modélisation en aval. Cet objectif vise à concevoir, comparer et évaluer différents paradigmes de fusion afin d’identifier l’architecture optimale en fonction des exigences topologiques des graphes cibles. 3. Modéliser le graphe documentaire intégrant ces modalités comme des nœuds enrichis, et déployer l’architecture GraphRAG en exploitant les mécanismes des graphes hétérogènes pour la contextualisation inter-modale. L’impact du système global sera mesuré sur des cas d’usage de compréhension scientifique complexe à l’aide de jeux de données de référence. Profil du candidat : Le poste s’adresse à une candidate ou un candidat motivé(e) par la recherche interdisciplinaire à l’interface entre traitement automatique des langues, vision par ordinateur et graphes de connaissances. – Compétences scientifiques : bases solides en apprentissage automatique, en représentation de données et en évaluation expérimentale ; une appétence pour les approches multimodales et les LLM est attendue. – Compétences techniques : bonne maîtrise de Python ; expérience appréciée avec les bibliothèques de deep learning, le traitement de documents et les bases de données graphes. – Méthodologie de recherche : capacité à concevoir des protocoles expérimentaux rigoureux, à analyser les résultats de manière critique et à documenter les travaux dans une logique de reproductibilité. – Compétences transversales : autonomie, esprit d’initiative, capacité de travail collaboratif et communication scientifique en français et en anglais (rédaction, présentations, échanges internatio- naux). Formation et compétences requises : Adresse d’emploi : LIP6-Sorbonne Université Document attaché : 202604161652_sujet_aiko_heterogeneous_data_encoding_EN.pdf Jun 2 Tue 2026 Offre en lien avec l’Action/le Réseau : – — –/Innovation Laboratoire/Entreprise : CRISTAL UMR CNRS 9189 Durée : 36 mois Contact : hayfa.zgaya-biau@univ-lille.fr Date limite de publication : 2026-06-02 Contexte : Dans le cadre du projet ANR IARISQ : https://anr.fr/Project-ANR-25-CE56-3679 : “CONCEPTION ET DEVELOPPEMENT D’UN SYSTEME D’AIDE A LA DECISION A BASE D’INTELLIGENCE ARTIFICIELLE POUR LA PREDICTION DE LA QUALITE DE L’AIR ET LA DETERMINATION DES RISQUES SANITAIRES DES PARTICULES”, nous cherchons un doctorant pour la modélisation et prévision temporelle de la composition chimique des particules atmosphériques ; et la prédiction des seuils de toxicité associés, en intégrant ces variables physico-chimiques. Sujet : Prédiction temporelle de la composition physico-chimique des particules atmosphériques et estimation dynamique de leurs seuils de toxicité par Intelligence Artificielle Profil du candidat : Titulaire d’un Master en Intelligence Artificielle, avec une bonne maîtrise de l’anglais et de solides compétences en rédaction scientifique. Une expérience de publication (article soumis et/ou publié) constitue un atout. Formation et compétences requises : – Formation en informatique avec spécialisation en Intelligence Artificielle (Master ou équivalent) – Excellentes compétences en développement informatique (Python et bibliothèques associées) – Bonne maîtrise des approches d’IA symbolique et sub-symbolique – Expérience en modélisation et en prédiction de séries temporelles Adresse d’emploi : UMR CRIStAL Université de Lille – Campus scientifique Bâtiment ESPRIT Avenue Henri Poincaré 59655 Villeneuve d’Ascq Document attaché : 202604020557_Projet ANR IARISQ Sujet de thèse.pdf Sep 1 Tue 2026 Offre en lien avec l’Action/le Réseau : – — –/Doctorants Laboratoire/Entreprise : LITIS-INSA Rouen Durée : 3 ans Contact : aomar.osmani@insa-rouen.fr Date limite de publication : 2026-09-01 Contexte : Thèse financée dans le cadre des allocations de recherche état/région. Sujet : Meta-Learning and Artificial General Intelligence for a Computational Theory of Assistance to Human Learning Profil du candidat : Nous recherchons un(e) candidat(e) issu(e) d’un M2 ou diplôme d’ingénieur en informatique, data science, IA ou sciences cognitives computationnelles, en mathématiques avec une forte appétence pour la recherche. Compétences souhaitées : — bases solides en ML/DL ; — intérêt pour les sciences cognitives, les sciences de l’éducation, ou l’optimisation ; — goût pour la modélisation mathématique et pour la modélisation et la programmation ; — des connaissances en méta-apprentissage, RL, modèles séquentiels (RNN/Transformers) consti- tuent un plus. Environnement : — Projet pluridisciplinaire (IA, sciences cognitives, ingénierie pédagogique) à fort impact sociétal ; — ressources de calcul et données pour des expérimentations à grande échelle ; — valorisation attendue dans des conférences internationales (NeurIPS, ICLR, AIED, etc.). Formation et compétences requises : ML/DL, programmation (Python), expérience PyTorch/TensorFlow appréciée ; intérêt pour éducation/cognition ; méta-learning/RL/modèles séquentiels Adresse d’emploi : INSA de Rouen 685 Avenue de l’Université 76800 Saint-Etienne-du-Rouvray Document attaché : 202602171414_sujetAnglais(1).pdf
|
Offres de stages
Apr 30 Thu 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIP6, Sorbonne University Durée : 5-6 months Contact : rafael.angarita@lip6.fr Date limite de publication : 2026-04-30 Contexte : Sujet : Participatory democracy platforms (Make, Decidim, Cap Collectif, Consul) enable thousands of citizens to propose and discuss ideas for public policies. However, the large volume of textual contributions produces severe information overload: citizens struggle to identify similar or opposing proposals, while decision-makers face difficulty in detecting consensus or disagreement. Recent research at LIP6 has shown that Natural Language Processing (NLP) can detect argumentative relations between citizen proposals (equivalence, contradiction, neutrality). These relations can be structured into argumentative graphs, which help organize debates and improve navigation within large participatory datasets. This internship aims to extend these ideas using Graph Retrieval-Augmented Generation (Graph-RAG). By combining graph-based retrieval with language generation, the project seeks to build intelligent tools capable of summarizing debates, identifying conflicting or redundant proposals, and assisting citizens in writing balanced contributions. Profil du candidat : Master 2 / Final-year engineering Formation et compétences requises : – Programming: Python, PyTorch or TensorFlow – NLP / ML: Experience with large language models, embeddings, or NLP tasks – Data Science: Text preprocessing, vector representations, evaluation metrics – Research: Ability to conduct literature reviews, design small experiments, and analyze results – Participatory democracy: Interest in participatory democracy or computational argumentation Adresse d’emploi : Sorbonne University, 4 place Jussieu 75005 Paris. Document attaché : 202511121059_Stage_LIP6_2025_2026.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : CRESTIC (URCA) / Institut Godinot (Reims) Durée : 6 mois Contact : Arnaud.BEDDOK@reims.unicancer.fr Date limite de publication : 2026-04-30 Contexte : Cf. Fiche Sujet : Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics) Cf. fiche. Profil du candidat : Cf. fiche. Formation et compétences requises : Cf. fiche. Adresse d’emploi : CRESTIC (URCA) / Institut Godinot (Reims) Document attaché : 202512180752_Offre de stage M2 20250926.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIPADE Durée : 6 months Contact : ayoub.karine@u-paris.fr Date limite de publication : 2026-04-30 Contexte : The performance of supervised deep learning methods in computer vision heavily depends on the availability of labeled data, whose annotation is both time-consuming and requires expert knowledge. To overcome this limitation, Self-Supervised Learning (SSL) has emerged as a promising alternative to address the challenge of limited annotations. In this paradigm, models learn from unlabeled data by generating their own supervisory signals. The resulting pre- trained models can then be fine-tuned on various downstream tasks such as image classification, object detection, and semantic segmentation. However, achieving performance comparable to supervised learning often requires large-scale datasets and high training costs, which significantly increase computational and storage demands. This internship aims to alleviate these constraints by exploring data distillation techniques to make SSL training more efficient. Sujet : Dataset Distillation (DD) [1] aims to condense a large-scale training dataset into a much smaller synthetic one such that models trained on the distilled data achieve performance comparable to those trained on the original dataset (see figure 1). Most existing DD methods are designed for efficient supervised learning and can be broadly classified into three main categories [2] : (1) Performance Matching, which minimizes the loss on the synthetic dataset by aligning the performance of models trained on real and synthetic data, (2) Parameter Matching, which trains two neural networks respectively on real and synthetic data and encourages similarity in their parameters and (3) Distribution Matching, which generates synthetic data that closely mimics the distribution of the original dataset. In this internship, we will focus on the Parameter Matching approach. Building upon the work of Cazenavette et al. [3], the authors of [4] extended this concept to SSL using knowledge distillation [5, 6, 7], particularly employing SSL methods such as Barlow Twins and SimCLR. In the same vein, this internship will explore the DINO (self-DIstillation with NO labels, MetaAI) SSL method [8], which naturally produces teacher–student parameter trajectories that can be leveraged for Parameter Matching. The different steps of the internship are : ▷ Step 1 – Literature review : Review recent dataset distillation methods applied to computer vision, with a focus on parameter matching and SSL-based approaches. ▷ Step 2 – Trajectory Observation : Analyze and visualize the teacher–student parameter trajectories generated by DINO during SSL training. ▷ Step 3 – Integration into Data Distillation Frameworks : Design a trajectory matching loss based on DINO’s teacher–student dynamics and train a student model on synthetic data guided by these trajectories. ▷ Step 4 – Test on down-stream computer vision tasks : Assess the effectiveness of the proposed approach on tasks such as image classification – Bibliography [1] Tongzhou Wang et al. “Dataset distillation”. In : arXiv preprint arXiv :1811.10959 (2018). [2] Ruonan Yu, Songhua Liu et Xinchao Wang. “Dataset distillation : A comprehensive review”. In : IEEE transactions on pattern analysis and machine intelligence 46.1 (2023), p. 150-170. [3] George Cazenavette et al. “Dataset distillation by matching training trajectories”. In : Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022, p. 4750-4759. [4] Siddharth Joshi, Jiayi Ni et Baharan Mirzasoleiman. “Dataset Distillation via Knowledge Distillation : Towards Efficient Self-Supervised Pre-training of Deep Networks”. In : The Thirteenth International Conference on Learning Representations. 2025. url : https://openreview.net/forum?id=c61unr33XA. [5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015). [6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocomputing 649 (oct. 2025), p. 130791. url : https://hal.science/hal-05144692. [7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition Letters 180 (avr. 2024), p. 48-54. url : https://hal.science/hal-04488459. [8] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025) Profil du candidat : The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient machine/deep learning. Formation et compétences requises : Master 2 student or final year of MSc, or engineering school in computer science. Adresse d’emploi : 45 rue des Saints-Pères, 75006, Paris Document attaché : 202511111324_2025_Internship_DD_SSL.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LISTIC Durée : 4-6 mois Contact : christophe.lin-kwong-chon@univ-smb.fr Date limite de publication : 2026-04-30 Contexte : Sujet : Interprétabilité en IA des séries temporelles radar (descriptions détaillées dans la fiche attachée) Profil du candidat : Des compétences en machine learning sont attendues. Le stage portera exclusivement sur la programmation en Python. Une expérience en télédétection radar, géophysique des volcans ou en explicabilité/interprétabilité de l’IA serait un atout. Formation et compétences requises : Adresse d’emploi : LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux Document attaché : 202510060816_Sujet – Interprétabilité en IA des séries temporelles radar.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIPADE Durée : 6 months Contact : ayoub.karine@u-paris.fr Date limite de publication : 2026-04-30 Contexte : Recently, several Large Vision Foundation Models (LVFMs) have been proposed in the literature [1]. They are trained through a Self-Supervised Learning (SSL) paradigm on large-scale unlabeled datasets and evaluated on small labeled datasets (fine-tuning). These models have achieved state-of-the-art performance across a wide range of downstream computer vision tasks, including both non-dense tasks (e.g., image classification, image retrieval) and dense tasks (e.g., semantic segmentation, object detection). However, the growing size and computational demands of the LVFMs significantly constrain their applicability in resource-limited devices (e.g., drone, smarphone). For instance, CLIP (Contrastive Language–Image Pretraining, OpenAI) [2] comprises up to 0.4 billion parameters, DINOv3 (self- DIstillation with NO labels, MetaAI) [3] includes models with up to 7 billion parameters, and the SAM 2 (Segment Anything Model, Meta AI) [4] exceeds 224 million parameters. To reduce the computational demands of such massive architectures, this internship will focus on investigating knowledge distillation techniques. Sujet : The knowledge distillation (KD) technique [5, 6, 7] transfers knowledge from a powerful teacher network to a smaller student model, enabling the student to achieve significantly improved performance with lower computational cost. In this process, the student is trained on the same dataset as the teacher, allowing it to directly leverage the teacher’s learned representations. However, directly applying KD to LVFMs presents several challenges. First, the most performant LVFMs are developed by large tech companies, and their training datasets are often not publicly available. Second, these LVFMs typically employ Vision Transformer (ViT) architectures [8] as encoders, whereas convolutional neural networks (CNNs) are generally lighter and more computationally efficient, making them strong candidates for student models on edge devices. Third, there are significant discrepancies in capacity between LVFMs and smaller edge models. The latter two challenges are partially addressed by Lee et al. [9], who propose a method to customize the well-generalized features of LVFMs for a given student model. Despite promising results, this work does not thoroughly address the issues of unavailable source datasets and cross-architecture knowledge transfer. Additionally, only the image classification task is considered. In this internship, we aim to tackle these challenges by investigating state-of-the-art methods for cross-architecture KD [10], data-free KD [11] and adaptive KD [12]. As illustrated in figure 1, we will focus on two dense down-stream tasks : semantic segmentation and object detection. The different steps of the internship are : ▷ Step 1 – Literature review on KD from foundation models ▷ Step 2 – Compare different methods of cross-architecture KD, data-free KD and adaptive KD : The teacher will be a LVFM such as CLIP, DINOv3 and SAM2. The student encoder should be a CNN one like ResNet18. ▷ Step 3 – Test the student model on different semantic segmentation and object detection datasets : A comparison is to be done with classical KD methods dedicated to dense prediction. – Bibliography [1] Muhammad Awais et al. “Foundation models defining a new era in vision : a survey and outlook”. In : IEEE Transactions on Pattern Analysis and Machine Intelligence (2025). [2] Alec Radford et al. “Learning transferable visual models from natural language supervision”. In : International conference on machine learning. PmLR. 2021, p. 8748-8763. [3] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025). [4] Nikhila Ravi et al. “Sam 2 : Segment anything in images and videos”. In : arXiv preprint arXiv :2408.00714 (2024) [5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015). [6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocom- puting 649 (oct. 2025), p. 130791. doi : 10.1016/j.neucom.2025.130791. url : https://hal.science/hal-05144692. [7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition Letters 180 (avr. 2024), p. 48-54. doi : 10.1016/j.patrec.2024.02.027. url : https://hal.science/hal-04488459. [8] Alexey Dosovitskiy et al. “An Image is Worth 16×16 Words : Transformers for Image Recognition at Scale”. In : International Conference on Learning Representations. 2021. url : https://openreview.net/forum?id=YicbFdNTTy. [9] Jungsoo Lee et al. “Customkd : Customizing large vision foundation for edge model improvement via knowledge distillation”. In : Proceedings of the Computer Vision and Pattern Recognition Conference. 2025, p. 25176-25186. [10] Weijia Zhang et al. “Cross-Architecture Distillation Made Simple with Redundancy Suppression”. In : Proceedings of the IEEE/CVF International Confe- rence on Computer Vision. 2025, p. 23256-23266. [11] Qianlong Xiang et al. “Dkdm : Data-free knowledge distillation for diffusion models with any architecture”. In : Proceedings of the Computer Vision and Pattern Recognition Conference. 2025, p. 2955-2965. [12] Yichen Zhu et Yi Wang. “Student customized knowledge distillation : Bridging the gap between student and teacher”. In : Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021, p. 5057-5066. Profil du candidat : The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient deep learning. Formation et compétences requises : Master 2 student or final year of MSc, or engineering school in computer science Adresse d’emploi : 45 rue des Saints-Pères, 75006, Paris Document attaché : 202511111320_2025_Internship_KD_LVFM.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LISTIC Durée : 4-6 mois Contact : argheesh.bhanot@univ-smb.fr Date limite de publication : 2026-04-30 Contexte : Sujet : En sciences naturelles, la modélisation des phénomènes physiques constitue toujours un sujet difficile. Les formules existantes ne suffisent parfois pas à représenter adéquatement les mécanismes complexes, notamment ceux qui ne sont pas directement observables. Il arrive également que ces formules ne correspondent pas parfaitement aux observations issues des données. Ces problèmes ont, par exemple, été rencontrés dans le suivi de la concentration des polluants, l’étalement de la végétation ou encore les coulées de lave. Dans ce projet, nous nous concentrons sur la modélisation volcanique. En volcanologie, par exemple, les scientifiques disposent de mesures de déplacements en surface, obtenues grâce à l’imagerie SAR, induits par une source volcanique en profondeur, et utilisent ces mesures pour estimer les paramètres physiques d’un modèle volcanique. Dans un premier temps, nous sommes partis d’un modèle simple sous forme d’une expression analytique : le modèle Mogi. Dans ce modèle, deux paramètres clés, la variation du volume et la profondeur de la chambre magmatique ont été modifiés pour générer des données synthétiques. En utilisant la régression symbolique, nous avons exploré des expressions mathématiques directement à partir des données. La pertinence de l’approche et la sensibilité de la modélisation à la variété de l’activité volcanique, sur des données synthétiques et des sites volcaniques réels, ont été mesurées et comparées au modèle Mogi original. L’approche fonctionne bien jusqu’à un certain niveau de bruit, notamment sur les données synthétiques. L’objectif du stage consiste à utiliser les méthodes de régression symbolique pour affiner le modèle Mogi, car il reste une vision simplifiée de la physique sous-jacente. Des travaux supplémentaires sont encore nécessaires pour améliorer les résultats sur les données réelles en proposant des nouvelles techniques en régression symbolique. En s’appuyant sur des travaux d’IA classique développés au laboratoire sur l’inversion de modèles géophysiques, trois types de données sont disponibles pour créer un cadre expérimental et de validation : 1) des déplacements simulés à partir du modèle Mogi ; 2) des déplacements simulés avec un bruit ajouté ; 3) des déplacements réels sur des volcans africains. Selon l’avancement du projet, cette étude pourra être étendue à un modèle volcanique plus sophistiqué, par exemple le modèle Okada, qui décrit le mécanisme de fonctionnement d’un volcan à l’aide d’un plus grand nombre de paramètres et s’appuie sur des équations différentielles. Le stagiaire appuiera entre autres sur les articles suivants : – Cranmer, M. (2023). Interpretable machine learning for science with PySR and SymbolicRegression. jl. arXiv preprint arXiv:2305.01582. – Tenachi, W., et al. (2023). Physical Symbolic Optimization. arXiv preprint arXiv:2312.03612. – Albino, F., & Biggs, J. (2021). Magmatic processes in the East African Rift system: insights from a 2015– 2020 Sentinel‐1 InSAR survey. Geochemistry, Geophysics, Geosystems, 22(3), e2020GC009488. – Dzurisin, D. (2007), Volcano Deformation: Geodetic Monitoring Techniques. Mogi, K. (1958), Bull. Earthq. Inst. U. Tokyo, 36, 99‐134 Delaney, P., McTigue, D. (1994) Bull. Volcanology, 56 417‐42 – Lopez-Uroz L, Yan Y., Benoit A., Albino F., Bouygues P., Giffard-Roisin S., Pinel V., Exploring Deep Learning for Volcanic Source Inversion, IEEE Transactions on Geosciences & Remote Sensing. – Petersen, B. K., et al. (2019). Deep symbolic regression: Recovering mathematical expressions from data via risk-seeking policy gradients. arXiv preprint arXiv:1912.04871. Profil du candidat : Formation et compétences requises : Adresse d’emploi : LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux, France. Document attaché : 202510221322_stage_regressionsymbolique_2026.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIPADE & APC Durée : 6 mois Contact : ayoub.karine@u-paris.fr Date limite de publication : 2026-04-30 Contexte : Sujet : Deep Learning techniques have revolutionized artificial intelligence. Their application to astrophysics and cosmology permits us to analyze the large quantity of data obtained with current surveys and expected from future surveys with the aim of improving our understanding of the cosmological model. The internship is in the context of the data acquired by Vera Rubin Observatory (https://www.lsst.org/about) LLST (Legacy Survey of Space and Time), in particular in the context of the Dark Energy (DESC) and Galaxies Rubin Science Collaborations (https://rubinobservatory.org/for-scientists/science-collaborations), and of the Euclid space mission (https://sci.esa.int/web/euclid). Galaxy clusters are powerful probes for cosmological models. LSST and Euclid will reach unprecedented depths and, thus, they require highly complete and pure cluster catalogs, with a well-defined selection function. In this internship, we will focus on analysing astronomical images through deep learning. Our team have developed a new cluster detection algorithm named YOLO for CLuster detection (YOLO-CL), which is a modified version of the state-of-the-art object detection deep convolutional network named You only look once (YOLO) that has been optimized for the detection of galaxy clusters [1,2]. The YOLO approach is a convolution-based method that primarily captures local features. In this internship, we aim to investigate transformer-based methods to model global relationships across entire astronomical images. These models are capable of capturing spatial and contextual interactions between multiple objects, which is expected to enhance detection performance compared to YOLO in our target application. In this context, we focus on the Detection Transformer (DETR) framework [3], an end-to-end architecture that employs a transformer encoder–decoder network. – Bibliography [1] Grishin, Kirill, Simona Mei, and Stéphane Ilić. “YOLO–CL: Galaxy cluster detection in the SDSS with deep machine learning.” Astronomy & Astrophysics 677 (2023): A101. [2] Grishin, Kirill, Simona Mei, Stephane Ilic, Michel Aguena, Dominique Boutigny, and Marie Paturel. “YOLO-CL cluster detection in the Rubin/LSST DC2 simulations.” Astronomy & Astrophysics 695 (2025): A246. [3] Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. “End-to-end object detection with transformers.” In European conference on computer vision, pp. 213-229. Cham: Springer International Publishing, 2020. Profil du candidat : The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in handling astronomical images. We have already obtained funding for the internship for 3-6 months. Formation et compétences requises : Master 2 or final year of MSc, or engineering school students in computer science. Adresse d’emploi : 10 rue A.Domon et Léonie Duquet, 75205 Paris and/or 45 rue des Saints-Pères, 75006, Paris Document attaché : 202511111316_2025_Internship_Transformer-ClusterDetection.pdf Jun 1 Mon 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes Durée : 3 à 6 mois Contact : alexis.guyot@lis-lab.fr Date limite de publication : 2026-06-01 Contexte : L’ingénierie des connaissances vise à modéliser, structurer et exploiter des savoirs pour les rendre manipulables par des systèmes informatiques. Au cœur de cette démarche, une ontologie est une représentation formelle d’un domaine : elle définit des concepts (classes), leurs relations (propriétés) et des contraintes/axiomes (p. ex. hiérarchies, cardinalités). Les ontologies favorisent l’interopérabilité sémantique entre systèmes hétérogènes, facilitent l’intégration des données, soutiennent le raisonnement (inférences, vérification de cohérence) et encadrent la gouvernance des connaissances au moyen de référentiels partagés. Des outils comme Protégé font aujourd’hui autorité pour l’édition d’ontologies. Le stage consiste à prototyper une alternative à Protégé en développant une surcouche d’édition et de raisonnement au-dessus du SGBD orienté graphe Neo4j, combinant ergonomie moderne, exploitation riche de graphe et compatibilité OWL (OWL API, moteurs de raisonnement standards). L’enjeu est de livrer une expérience contemporaine et efficace, sans réinventer les composants qui existent déjà lorsqu’ils sont adaptés. Sujet : **But du stage** Concevoir et prototyper une application moderne (plutôt web, mais desktop possible) servant de sur-couche à Neo4j pour créer, éditer, valider et raisonner sur des ontologies (OWL/SWRL), avec une attention forte portée à l’UX et à l’esthétique. L’application doit ester interopérable avec l’écosystème existant (dont Protégé) tout en capitalisant sur les forces de Neo4j. **Objectifs et missions** Le/la stagiaire commencera par cadrer formellement le projet : étude de Protégé (exploration libre de l’outil, lecture de la documentation, entretiens avec des experts pour cerner besoins et limites de l’existant) ; rapide panorama des fonctionnalités des autres éditeurs d’ontologies, éventuellement complété par un album de captures pour comparer l’UX ; identification des contraintes techniques de l’existant (écosystème Neo4j, briques OWL/SWRL, validation et raisonnement) et repérage des bonnes pratiques UX 2025 pour guider la conception. Sur cette base, il/elle rédigera des spécifications fonctionnelles et techniques pour le nouvel outil, puis développera un prototype de manière incrémentale : éditeur de d’ontologies ergonomique connecté à Neo4j, import/export assurant l’interopérabilité, mécanismes de validation, etc. Selon la durée et le profil, le stage pourra s’étendre à l’édition d’axiomes et de règles, à l’intégration d’un raisonneur standard et à la création d’un démonstrateur complet sur une ontologie de référence. **Technologies envisagées** Côté interface, l’option prioritaire est une application web en TypeScript s’appuyant sur React ou SvelteKit, avec un composant d’édition de graphes adapté (par ex. React Flow ou Cytoscape.js), des moteurs de layout (elkjs/dagre) et un système de design moderne (Tailwind avec composants accessibles type Radix/shadcn). Cette combinaison permet de viser une UX actuelle : thèmes (y compris dark mode), accessibilité, performance (virtualisation), micro-interactions sobres. En alternative desktop, on pourra empaqueter l’interface web via Electron ou Tauri, ou opter pour une interface native en JavaFX (Java) ou JetBrains Compose for Desktop (Kotlin), afin de faciliter l’intégration directe avec les bibliothèques web sémantique de l’écosystème Java. Pour le backend, une pile Java avec Spring Boot est privilégiée afin d’intégrer naturellement OWL API/Apache Jena, de s’interfacer avec un raisonneur standard (HermiT, Pellet, Fact++), et de dialoguer avec Neo4j via le driver Java et neosemantics (n10s) pour les échanges RDF/OWL. La validation pourra s’appuyer sur SHACL. L’API sera exposée simplement (REST/JSON ou gRPC) et restera découpée de façon à pouvoir évoluer (microservice dédié aux fonctions ontologiques si nécessaire). Profil du candidat : — Niveau : Bac+3 à Bac+5 (informatique / BD / IA / génie logiciel / IHM). — Dominantes possibles : développement front moderne (TS + React/SvelteKit), Java et conception d’API, bases de données, graphes, web sémantique (OWL/RDF, SWRL, SHACL), UX/UI. — Qualités attendues : autonomie, rigueur, curiosité, sens de l’ergonomie, communication. Formation et compétences requises : Adresse d’emploi : LIS UMR 7020 CNRS / AMU / UTLN, équipe IACD Aix Marseille Université – Campus de Saint Jérôme – Bat. Polytech 52 Av. Escadrille Normandie Niemen 13397 Marseille Cedex 20 Document attaché : 202510011418_2025_Sujet_Stage_NeOWL4J.pdf
|