Modélisation et Planification adaptative par apprentissage profond actif des blocs opératoires dans les systèmes hospitaliers

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique Bioinformatique et Sys
Durée : 36 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2026-06-11

Contexte :
Cette thèse vise à développer une approche innovante de planification des blocs opératoires en environnement incertain, en combinant des méthodes de recherche opérationnelle et d’apprentissage automatique. Les contributions porteront sur l’intégration de modèles prédictifs dans des modèles d’optimisation afin d’améliorer la prise de décision, ainsi que sur le développement de méthodes de planification adaptative capables de gérer les aléas en temps réel. Des approches algorithmiques efficaces seront proposées pour résoudre des problèmes de grande taille, et les modèles développés seront validés sur des données réelles issues du milieu hospitalier. Cette thèse contribuera ainsi à l’émergence d’outils d’aide à la décision performants pour le pilotage des blocs opératoires.

La supervision sera assurée par le Prof. Khalifa DJEMAL et Dr. Melek RODOPLU (laboratoire IBISC). En effet, ce projet de thèse s’inscrit naturellement dans les actions du laboratoire, notamment à travers ses deux équipes impliquées : IRA2 et AROBAS.

Sujet :
Les systèmes hospitaliers nécessitent, de plus en plus, d’être assistés par des outils informatisés d’aide à la décision. Ces outils d’aide à la décision vont s’appuyer aussi bien sur des approches et des modèles formels que sur les technologies innovantes. Ceci aidera le système hospitalier à assurer aux patients un service de qualité, agile, au moindre coût et dans le respect des limites de ressources humaines et matérielles.
La planification des tâches pour des blocs opératoires comme les admissions, est un problème complexe compte tenu de l’intervention humaine et en particulier des événements aléatoires perturbateurs. Dans ce domaine, de nombreuses recherches ont été menées ces dernières années [1, 2, 3, 4], la plupart de ces travaux sont basés sur des modèles stochastiques.
Des approches hybrides combinant optimisation mathématique et apprentissage automatique ont été proposées pour améliorer la robustesse et la performance des solutions [5, 6].
L’intelligence artificielle a montré son efficacité pour résoudre des systèmes complexes dans différents domaines d’applications. Dans ce contexte, des modèles de planification peuvent s’appuyer sur les approches de l’apprentissage automatique. En effet, ces techniques permettent de développer des modèles d’ordonnancement prédictif et de l’optimisation des entrepôts de données.
Les avancées récentes incluent l’utilisation de l’apprentissage automatique, notamment des méthodes d’apprentissage profond (deep learning), pour la prédiction des durées opératoires, permettant d’améliorer significativement la précision par rapport aux approches traditionnelles [7, 8].
Par ailleurs, ces modèles sont de plus en plus intégrés dans des approches décisionnelles, notamment dans des schémas predict-then-optimize pour améliorer la planification des blocs opératoires [9]. Enfin, la question de l’explicabilité des modèles d’intelligence artificielle devient centrale dans le domaine médical afin de favoriser leur adoption en pratique clinique.
L’objectif de la thèse consiste dans le développement d’une approche de prédiction et de planification adaptative du bloc opératoire. Basée sur le principe de l’apprentissage automatique, la méthode de planification permettra le pilotage temps réel du bloc opératoire. Une attention particulière pourra être portée à l’intégration de modèles prédictifs dans des schémas d’optimisation prescriptive (predict-then-optimize) ainsi qu’à la gestion des incertitudes via des approches robustes ou distributionnellement robustes.
Les travaux seront réalisés dans un cadre d’application pratique ce qui permettra d’évaluer les performances des approches proposées dans un contexte opérationnel, en lien avec les problématiques actuelles de transformation numérique des systèmes hospitaliers.

[1] Steven Breslawski, Diane Hamilton, Operating Room Scheduling: Choosing the Best System AORN Jounal, Vol. 53, issue 5, 1991.

[2] Brecht Cardoen, Erik Demeulemeeste, Jeroen Beliën. Operating room planning and scheduling: A literature review, European Journal of Operational Research, Volume 201, Issue 3, Pages 921-932, 2010.

[3] Addis, B., Carello, G., Grosso, A., & Tànfani, E. Operating room scheduling and rescheduling: a rolling horizon approach. Flexible Services and Manufacturing Journal, 1-27. doi: 10.1007/s10696-015-9213-7, 2016.

[4] Liu H, Zhang T, Luo S, Xu D, Operating room scheduling and surgeon assignment problem under surgery durations uncertainty. Technol Health Care, 26(2):297-304. doi: 10.3233/THC-170825, 2018.

[5] Bertsimas D, Kallus N, From predictive to prescriptive analytics. Management Science, 66(3):1025–1044, 2020.

[6] Van Essen, J. T., Hans, E. W., Hurink, J. L., & Oversberg, A., Minimizing the waiting time for emergency surgery. Operations research for health care, 1(2-3), 34-44, 2012.

[7] Spence, C., Shah, O. A., Cebula, A., Tucker, K., Sochart, D., Kader, D., & Asopa, V,. Machine learning models to predict surgical case duration compared to current industry standards: scoping review. BJS open, 7(6), zrad113, 2023.

[8] Park, R. T., Stucky, C. H., & Moser, C. H., Machine learning surgery duration predictions compared to traditional methods: A systematic review. Perioperative Care and Operating Room Management, 41, 100581, 2025.

[9] Lex, J. R., Abbas, A., Mosseri, J., Toor, J. S., Simone, M., Ravi, B., … & Khalil, E. B., Using machine learning to predict-then-optimize elective orthopedic surgery scheduling to improve operating room utilization: Retrospective study. JMIR Medical Informatics, 13(1), e70857, 2025.

Profil du candidat :
De formation Master ou équivalent, le(la) candidat(e) doit posséder des compétences en informatique, avec des connaissances en algorithmes d’apprentissage statistique et en traitement de données.
Des bases en modélisation mathématique et en optimisation sont souhaitées. Une sensibilité aux approches hybrides combinant apprentissage automatique et optimisation constituera un atout.
Une expérience en programmation (Python, C++ ou équivalent), ainsi qu’une familiarité avec des outils scientifiques et des environnements de calcul, seront appréciées.
Un fort intérêt pour la recherche, le travail en équipe et les échanges pluridisciplinaires est attendu.
Le(la) candidat(e) devra également faire preuve d’autonomie, de rigueur scientifique et d’une capacité à aborder des problématiques appliquées complexes, notamment dans le domaine des systèmes de santé.

Formation et compétences requises :

Adresse d’emploi :
Laboratoire IBISC
40 rue du Pelvoux
91020 Evry
France

Similarité entre exercice d’apprentissage de l’algorithmique et de la programmation

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DICEN
Durée : 5-6 mois
Contact : olivier.champalle@univ-eiffel.fr
Date limite de publication : 2026-07-01

Contexte :

Sujet :
Nous nous intéressons à la notion de similarité entre exercice dans le cadre des enseignements algorithmique et de programmation informatique quelque soit le langage.
L’idée est de comprendre si il est possible d’identifier des exercices (énoncé + correction) « proches » ou « distants » entre-eux et comment caractériser cette distance de manière à créer une classification réutilisable.
Cette classification pourrait prendre en compte :
– les concepts ou notions d’algorithmique et leur maîtrise nécessaire
pour répondre correctement à l’exercice
– les compétences propre au langage (python, java, C, ..) et leur niveau de
maîtrise

Une telle classification permettrait de recommander et/ou substituer des exercices à d’autres en garantissant que les étudiants devront mobiliser, et donc renforcer, des notions et concepts proches attendus pour la bonne réalisation de l’exercice.

Les applications potentielles d’une telle recherche (sur le long terme), pourraient être déployées dans des EIAH de type exerciseur pour permettre à des étudiants de s’entraîner sur des exercices auto-corrigés, mais aussi d’assister les enseignants dans la réutilisation d’exercice sur étagère.
Un autre terrain d’application pourrait être de faciliter la validation ou l’invalidation d’exercices générés par IA.

Attendu :

– Une analyse de l’état de l’art de la littérature scientifique sur la notion de similarité entre exercices, algorithmes, code, ainsi que les moyens utilisés et leurs terrains d’application: similarité entre algorithme, AST [ZS89], ML, TAL [RG19], …
– Création / adaptation / réutilisation (en fonction de la littérature) d’une ou de plusieurs méthodes de détection de similarité entre exercicies
– Validation et calibration sur des données expérimentales

Le ou la candidate pourra s’appuyer sur un travail préliminaire de M1 qui a déjà permis de construire une base de données d’exercices et d’explorer quelques premières méthodes automatique de détection de similarité [A.Ziani25].

Références :

[RG19] Nils Reimers and Iryna Gurevych. Sentence-bert : Sentence embeddings using siamese bert-networks. arXiv preprint arXiv :1908.10084, 2019.

[A.Ziani25] Adel Ziani, Détection automatique d’exercices de programmation similaires, rapport de stage de M1 informatique, 2025

[ZS89] Kaizhong Zhang and Dennis Shasha. Simple fast algorithms for the editing distance between trees and related problems. SIAM journal on computing, 18(6) :1245–1262, 1989.

Profil du candidat :
M2 informatique profil IA (ML & TAL) ainsi qu’ un intérêt pour la recherche

Formation et compétences requises :
A minima :
– Langage Python,
– bibliothèque d’analyse de données et de ML (pandas, scikit-learn, …)
– connaissance en TAL (vectorisation, …)

Adresse d’emploi :
UNIVERSITE GUSTAVE EIFFEL,
Campus de marne la vallée 5 BD Descartes 77454 CHAMPS-SUR-MARNE FRANCE

Document attaché : 202605040736_Dicen_Similarite_M2.pdf

Postdoc FAILLES: Finding AI solutions to decipher Large fault networks in Earth Surface images

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA et GéoAzur
Durée : 24 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2026-07-01

Contexte :
Le travail proposé s’inscrit dans un vaste projet intitulé Intelligent_Mapping, lui-même inscrit dans
le projet PEPR Risques IRIMA financé en 2024 par l’Agence Nationale de la Recherche (ANR)
dans le cadre du programme national PIA4 France 2030 (voir https://www.pepr-
risques.fr/fr/programme-de-recherche-risques-irima). IRIMA est piloté par le CNRS, l’Université
Grenoble Alpes et le BRGM, et vise à structurer et renforcer la science des aléas et des risques en
France. Intelligent_Mapping est une composante d’IRIMA, soutenue et hébergée par Université
Côte d’Azur (Responsable : Isabelle Manighetti, Géoazur ; co-responsable : Elena Di Bernardino,
LJAD). Plus spécifiquement, Intelligent_Mapping est intégré au Consortium « Plateformes » porté
par le BRGM. L’objectif principal d’Intelligent_Mapping est de développer des algorithmes
d’Intelligence Artificielle (IA) capables d’identifier, cartographier et mesurer dans des images
aériennes et satellitaires de la Terre, les aléas et risques naturels et socio-environnementaux étudiés
dans IRIMA (tremblements de terre, tsunamis, éruptions volcaniques, glissements de terrain,
avalanches, inondations, incendies de forêt, zones végétalisées détruites, érosion et modifications
des zones littorales, etc.) Le travail de post-doctorat FAILLES se concentre sur l’un des objectifs
d’Intelligent_Mapping : le développement d’algorithmes d’IA pour identifier et cartographier, dans
les images de la Terre, les réseaux de failles à l’origine des tremblements de terre dévastateurs qui
nous affectent.

Sujet :
Les fractures et les failles sont très répandues dans la croûte terrestre et sont associées à des risques
telluriques, notamment les séismes, la sismicité induite, les glissements de terrain, la fracturation
des réservoirs rocheux, entre autres. Alors que les fractures sont généralement de petite taille, peu
profondes et planes, les failles couvrent une large gamme d’échelles de longueur (10⁻⁶ à 10³ km) et
de largeur en profondeur (1 à 10² km), et présentent une architecture 3D complexe (e.g.,
Giampietro et al., 2025). À toutes les échelles, les failles forment des réseaux denses (aussi appelés
zones de failles) comprenant une faille principale et une myriade de fractures et de failles
secondaires qui dissèquent intensément la roche autour de la faille principale. Qu’il s’agisse d’une
faille principale ou secondaire, la faille est rarement plane mais se compose plutôt de sections
déconnectées. Entre autres, la complexité géométrique des failles et des zones de failles a un impact
important sur le comportement de la rupture sismique de ces failles : elle contrôle en partie le
déclenchement et l’arrêt de la rupture, et donc l’étendue de celle-ci, mais aussi l’amplitude des
déplacements et des accélérations du sol, et donc la magnitude du séisme et son potentiel de
dommages (e.g., Manighetti et al., 2007 ; Radiguet et al., 2009). Une quantification précise de la
géométrie et de l’architecture des failles est donc d’une importance capitale pour mieux comprendre
et anticiper les risques sismiques.
La plupart des plans de faille coupent la surface du sol, où ils forment généralement des traces
nettes, laissant souvent une empreinte dans la topographie. Ces traces en surface fournissent des
informations précieuses sur l’architecture de la zone de faille en profondeur. C’est pourquoi un
volume considérable d’observations de failles a été réalisé à la surface du sol au cours du siècle
dernier et traduit en cartes 2D reproduisant les traces de failles en surface. Au cours des dernières
décennies, l’augmentation rapide du volume de données satellitaires et d’autres données de
télédétection a grandement facilité la cartographie des traces de failles. La cartographie est
généralement effectuée manuellement : l’expert identifie visuellement les traces de fractures et de
failles dans les images de télédétection et les données topographiques, puis reproduit ces traces
sous forme de lignes tracées à la main dans un environnement de système d’information
géographique (SIG). Ces environnements permettent d’étiqueter de diverses manières les attributs
2
des failles, tels que l’épaisseur des traces, l’importance hiérarchique, les interruptions, les
connexions et le mode de glissement, tandis que le niveau de confiance de l’expert dans la
reconnaissance des failles peut être évalué qualitativement. Cependant, la cartographie manuelle est
extrêmement chronophage, et l’expertise nécessaire n’est pas toujours disponible, ce qui empêche
l’analyse de vastes zones de failles à haute résolution et limite considérablement le nombre de cartes
de failles précises disponibles.
Récemment, plusieurs approches ont été mises au point pour tenter d’automatiser la cartographie
des failles et des fractures à partir de données de télédétection (Mattéo et al., 2021 ; Esmaeili et al.,
2025). L’apprentissage profond a été utilisé pour réaliser cette cartographie à partir de données
provenant de drones (Batista et al., 2025 ; Chudasama et al., 2024 ; Lambert et al., 2025) ou d’images
satellitaires (Mattéo et al., 2021), tant à très haute résolution (Choi et al., 2023 ; Pousse-Beltran et
al., 2025) qu’à haute résolution (Gannouni et al., 2025). Le développement de ces nouveaux
modèles d’IA est soutenu par la mise à disposition de jeux de données publics (Yaqoob et al., 2024).
Dans un contexte plus large, la détection des fissures a fait l’objet de nombreuses études et, depuis
certaines tentatives préliminaires telles que DeepCrack (Liu et al., 2019), de nombreuses méthodes
utilisant l’apprentissage profond ont été développées (Gupta & Dixit, 2022 ; Pandey & Mishra,
2025). Bien que ces méthodes ne soient pas spécifiquement adaptées aux failles et fractures de la
Terre, elles fournissent une bibliographie riche et un ensemble de références pour le projet.
Cependant, aucune des approches existantes ne s’est jusqu’à présent révélée pleinement
satisfaisante. Cela s’explique principalement par la grande complexité des traces de failles et des
réseaux qu’elles forment à grande échelle : chaque trace de faille est un mélange de sections
sublinéaires et curvilignes ; ces sections peuvent être entièrement connectées ou déconnectées ; les
traces de failles peuvent se croiser, parfois en se ramifiant les unes vers les autres, parfois en
s’interrompant mutuellement. De plus, ces caractéristiques se manifestent différemment selon
l’échelle à laquelle les traces de failles sont analysées : alors qu’une trace de faille peut paraître
continue et simple à une échelle donnée, elle se révèle très segmentée et complexe à une échelle
plus petite. Enfin, bien que les réseaux de failles aient une organisation complexe, il a été démontré
que certaines lois d’échelle contrôlent en partie cette organisation, ce qui suggère que certains
principes physiques sous-tendent les motifs des réseaux de failles (e.g., Perrin et al., 2016).

Profil du candidat :
Le/la candidat(e) doit être titulaire d’une thèse en informatique ou dans un domaine connexe (traitement du signal et des images, mathématiques appliquées), ou en en géosciences avec des contributions méthodologiques avérées en IA.

Nous recherchons un/une candidat(e) fortement motivé(e) par les questions de risques naturels et
par devenir un expert dans les développements IA les plus poussés.
Le/la candidat(e) aura également une excellente maîtrise dans les domaines suivants :
• Programmation Python
• Cadre d’apprentissage profond (de préférence Pytorch)
• Utilisation de serveurs GPU Linux en ligne de commande
• Anglais scientifique écrit et parlé
Une expérience avec les SIG et la télédétection serait un plus.

Formation et compétences requises :

Adresse d’emploi :
IRISA, site UBS, campus de Tohannic, 56000 Vannes

Document attaché : 202605020914_postdoc-IRIMA-failles.pdf

SEEDS@MaDICS 2026

Date : 2026-06-22 => 2026-05-26
Lieu : Univerité Technologique de Troyes (https://www.utt.fr/)

Description Sujets

Inscription

L’inscription, gratuite, se fait via ce formulaire.
Deadline : 1er juin 2026

Qu’est-ce qu’une SEEDS@MaDICS ?

Les Semaines Études Entreprises en Data Sciences du GDR CNRS MaDICS (SEEDS@MaDICS) visent à créer des échanges entre les milieux industriels et le monde académique par le biais d’une semaine de travail (du lundi au vendredi) sur des problèmes posés par des industriels et nécessitant des approches informatiques et mathématiques innovantes.

Les problèmes, présentés et discutés le premier jour (le lundi matin), sont abordés par des groupes de 3 à 5 jeunes chercheurs (doctorant·es et poѕt-doctorant·es). Les avancées sont présentées oralement le dernier jour (le vendredi matin). Chaque groupe peut éventuellement être épaulé par des chercheurs plus expérimentés, mais garde une totale liberté quant à l’orientation de ses travaux.
La participation à l’intégralité de la semaine (du lundi matin au vendredi midi) est obligatoire.

Une synthèse écrite est remise à l’entreprise en fin de semaine. Dans les mois qui suivent, un rapport est rédigé et mis à disposition du public.

Ces semaines s’inspirent du modèle des SEME (Semaine d’Etude Mathématiques – Entreprise) de l’AMIES.

Qui peut participer ?

Les SEEDS@MaDICS s’adressent aux doctorant·es, post-doctorant·es et ATER, quelque soit leurs domaines de recherche, qu’ils correspondent ou non aux problèmes proposés.

Le nombre de places est limité à 20 participant·es.

Attention

Les pauses café, les repas du midi et le logement des participantes et participants qui ne résident pas à Troyes sont pris en charge par le GDR MaDICS. Le trajet aller-retour reste à la charge de l’institution des participantes et participants qui doivent obtenir l’accord de leur directrice/directeur de thèse (ou responsable postdoc) par mail (seeds@madics.fr) au préalable.
L’inscription définitive sera effective dès l’accord de participation reçu du Directeur / de la Directrice de thèse.

Comité d’organisation

Myriam Maumy (Prof. École des Hautes Études en Santé Publique, site parisien)
Frédéric Bertrand (Professeur des Universités, UTT)

Pour toute question ou information, veuillez contacter seeds@madics.fr

Sujets proposés

Agent IA pour la gestion intelligente des e-mails (Groupe Joya)
Exploitation de la base de données ACCORDS (CHU de Rennes)
Système IA de production de contenu de multi-plateformes (Groupe Joya)
Système intelligent de sourcing et de scoring (Groupe Joya)
Système de recommandations (Vertigo)

Workshop Econom’IA

Annonce en lien avec l’Action/le Réseau :

Thème :

IA en économie

Présentation :

Econom\’IA rassemble des chercheurs du monde académique ainsi que des entrepreneurs qui utilisent des techniques innovantes pour analyser les données économiques.

Cet atelier de 2 jours propose en matinée, des sessions de formation pour découvrir de nouveaux outils et techniques. L\’après-midi, lui, est consacré à des présentations et des discussions d\’articles utilisant au moins une des techniques innovantes abordées en formation.

Les 2 journées sont animées par des chercheurs reconnus dans le domaine.

Du : 2026-01-27

Au : 2026-01-28

Lieu : Université Cergy, France

Site Web : https://economia.sciencesconf.org/

16ème Atelier sur la Protection de la Vie Privée (APVP 2026)

Annonce en lien avec l’Action/le Réseau :

Thème :

Protection de la vie privée

Présentation :

Le but principal de l\’atelier est de rassembler les chercheur·euse·s de la communauté francophone dont les travaux portent sur la protection de la vie privée et des données personnelles, et de leur offrir un forum privilégié pour pouvoir présenter et échanger leurs idées sur cette thématique. L\’atelier est pluri-disciplinaire, et a vocation à rassembler notamment des chercheur·euse·s en informatique, droit, économie, sociologie et statistiques.

Du : 2026-06-01

Au : 2026-06-04

Lieu : Le Castel Sainte-Anne à Trégastel

Site Web : https://apvp2026.sciencesconf.org/

L’IUT Grand Ouest Normandie, composaenseignant-chercheur en intelligence artificielle pour la science des données

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Groupe de REcherche en Informatique, Image, Automa
Durée : 1 an
Contact : bertrand.cuissart@unicaen.fr
Date limite de publication : 2026-06-15

Contexte :
L’IUT Grand Ouest Normandie, composante de l’université de Caen Normandie, recrute un enseignant-chercheur en informatique : intelligence artificielle pour la science des données.
Le contrat est un contrat d’un an, du 1er septembre 2026 au 31 août 2027.
L’annonce est publiée sur le site de l’université à https://www.unicaen.fr/universite/travailler-a-luniversite/personnels-enseignants-et-chercheurs/enseignants-contractuels/

Sujet :

Au niveau de l’enseignement, la personne recrutée enseignera dans le BUT Science des Données, diplôme régi par un programme national.
Elle renforcera l’équipe pédagogique sur les aspects d’intelligence artificielle pour la science des données.
Le diplôme est situé sur le campus universitaire de Lisieux.

Profil du candidat :
La personne recrutée disposera d’une bonne connaissance pratique en algorithmique et en Programmation de scripts (Python).
De plus, elle possède les connaissances suffisantes pour intégrer puis dispenser des enseignements en système de gestion de base de données relationnelles ou NoSQL (MongoDB), en technologies informatiques pour l’intelligence artificielle orientée données (fouille de données, apprentissage automatique), en Big Data (cloud computing). En collaboration avec l’équipe pédagogique du BUT, elle participera à l’intégration de l’enseignement des techniques d’intelligence artificielle pour la science des données.

Une part importante des enseignements sera dispensée de manière directement pratique, notamment via l’encadrement et le suivi de projets de groupe appelés “Situations d’apprentissage et d’évaluation”.
Spécifiquement, la personne recrutée pourra transmettre des compétences concernant les systèmes d’informations (entreposage, bases de données NoSQL, techniques ETL), l’apprentissage automatique (apprentissage profond, techniques NLP), ou le traitement de données massives via le cloud computing.

Au niveau de la recherche, la personne recrutée intégrera le laboratoire GREYC (CNRS UMR 6072, https://www.greyc.fr/).

La personne recrutée se concentrera sur la transmission des connaissances et des techniques liées à l’intelligence artificielle à destination d’un public de spécialistes, étudiants ou professionnels en activité. Par exemple, la personne recrutée pourrait coordonner la mise en place d’un module innovant concernant le cloud computing. Le public visé peut dépasser le public des étudiants en formation initiale. Elle aura la responsabilité d’animer de manière innovante la transmission de notions d’intelligence artificielle aux spécialistes de la science des données.

Formation et compétences requises :

Adresse d’emploi :
Campus de Lisieux
11 Bd Jules Ferry, 14100 Lisieux

Document attaché : 202604280918_IUT_GON_Normanthiia_EC_Informatique_SD.pdf

Learning poorly known and observed large scale complex systems

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire Interdisciplinaire des Sciences du Num
Durée : 36 mois
Contact : semeraro@limsi.fr
Date limite de publication : 2026-05-11

Contexte :
‘Governing is forecasting”. This proverbial saying is relevant to many situations of engineering interest where decisions must be taken based on predictions or when devising a suitable sequence of actions to achieve some goal requires a good knowledge of the effect of these actions onto the system under consideration. Such predictions usually rely on a simulation of a model of the system at hand and/or observations collected over time. A reliable model may however not be available, or be too computationally costly to be useful. Observations, on the other hand, are often scarce and do not provide a complete picture of the state of the system.

Sujet :
In this thesis, we aim at deriving a principled approach to predict the time-evolution of quantities of interest associated with a system observed only via a few noisy sensors active at unpredictable times. To this end, we leverage the history of the information one can collect. This paradigm of predicting the future from whatever available knowledge over a past horizon is rigorously justified by the Mori-Zwanzig framework developed in the statistical physics community in the late 60s.
A particular focus will be on developing scalable approaches, suited for large-scale systems, such as those encountered in haemodynamics.
Describing and predicting the dynamics of complex systems remains a fundamental challenge across many scientific domains. These systems are commonly described by dynamical systems in the form of differential equations.
While this formulation is principled, it assumes that the model is known and tractable. In practice, however, the dynamics are often partially unknown, computationally expensive, or only valid within limited regimes. This limitation has led to the development of data-driven approaches that infer system dynamics directly from observations.
A key difficulty arises from partial observability. In many applications, only a subset of the system variables is accessible, and observations are often noisy, sparse, or irregular. As a result, the system cannot be accurately described as a Markovian process depending solely on the current observation. Instead, its evolution depends on past states, leading naturally to a non–Markovian formulation.
Several modeling strategies explicitly incorporate memory effects, such as autoregressive models such as ARMAX [5], while recurrent neural networks (RNNs), including LSTMs [9, 17, 7], introduce latent memory variables. Reservoir computing and echo state networks [8, 11] offer computationally efficient alternatives capable of capturing long-term dependencies [19]. More recent developments include Latent ODEs [16], which combine Neural ODEs with RNN encoders, augmented Neural ODEs [3], and Transformer architectures [18]. Despite their empirical success, these approaches inherently involve a trade-off between expressivity and interpretability or tend to operate as black boxes. A natural first approach to incorporate non–Markovian effects is by explicitly including past states, leading to delay differential equations (DDEs). Neural State-Dependent Delayed Differential Equations [8] introduced a flexible framework allowing multiple delays that depend on both time and state.

While these approaches are purely data-driven, they do not explicitly exploit the physical structure of the underlying system. We aim at leveraging a theoretically grounded approach to efficiently predict quantities of interest or (approximation of) the state of a system. We rely on the Mori-Zwanzig framework developed in the statistical physics community in the late 60s, [13,20]. In a nutshell, it formalizes the time-evolution of a set of variables x(t) related to the system as a function of their history, without requiring knowledge of the other variables describing the system.
Accounting for the past essentially allows to isolate the dynamics of these observables. This framework is general and applies widely. For instance, when the whole state of the system is not accessible, the dynamics of the observables can be described with a non-Markovian model via this framework. It similarly provides a principled closure for coarse models which can be effectively complemented with a history-based term, [14,12,6].

In this thesis, we will explore the potential of Signatures to efficiently approximate the history of the observations, [2,4,15]. The Signature transform introduced in [1,10] has recently been used in several areas, including rough path theory, finance, stochastic control, and machine learning. It has proven to be an effective tool to summarize the information of paths and dependencies across different dimensions, with high computational efficiency. Signatures consist of iterated integrals of the history of its inputs and enjoys interpretability. They provide a way to linearize all possible functions of their input and exhibit nice theoretical properties. In particular, owing to tensor algebra, they can be efficiently updated when new observations become available, without recomputing the whole object.

Many open questions however remain and will be the focus of this thesis. In particular, how are the different time scales of the physical system preserved across the Signature of its observations? What are the properties of the time series to retain in order to allow for a reliable and efficient prediction based on Signatures? How large should the truncation order be for a given performance? How frugal can the Signature-based term in the Mori-Zwanzig framework be in terms of training data, a critical point in many situations? Does the Mori-Zwanzig solution has a structure that can be exploited, such as low rankness, sparsity or multi-dependence which can be captured with tensor formats, etc.?
These methodological developments will first be illustrated on low-dimensional dynamical systems before, if time allows, being demonstrated on large scale real data from geophysics.

[1] Chen K.-T., Integration of paths, geometric invariants and a generalized Baker-Hausdorff formula, Annals of Mathematics. 2nd ser., 65, p. 163–178, 1957.

[2] Chevyrev Ilya & Kormilitzin Andrey, 2025 A Primer on the Signature Method in Machine Learning.

[3] Dupont E., Doucet A. & Teh Y.W., Augmented neural ODEs, Adv. Neural Inf. Process. Syst., 32, p. 3140–3150, 2019.

[4] Fermanian A., Learning time-dependent data with the signature transform, Theses, Sorbonne Université, 2021.

[5] Guidorzi R., Multivariable system identification: from observations to models, Bononia University Press, 2003.

[6] Gupta P., Schmid P., Sipp D., Sayadi T. & Rigas G., Mori–Zwanzig latent space Koopman closure for nonlinear autoencoder, Proc. R. Soc. A, 481 (2313), p. 20240259, 2025.

[7] Hochreiter S. & Schmidhuber J., Long short-term memory, Neural Comput., 9 (8), p. 1735–1780, 1997.

[8] Jaeger H. & Haas H., Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication, Science, 304 (5667), p. 78–80, 2004.

[9] Jordan M.I., Serial order: a parallel distributed processing approach. Technical report, California Univ., San Diego, La Jolla (USA). Inst. for Cognitive Science, Tech. Rep., 1986.

[10] Lyons T., Caruana M. & Lévy T., Differential equations driven by rough paths, In Lecture notes in Mathematics, École d’été de probabilités de Saint-Flour XXXIV-2004 , 2007.

[11] Maass W., Natschläger T. & Markram H., Real-time computing without stable states: A new framework for neural computation based on perturbations, Neural Comput., 14 (11), p. 2531–2560, 2002.

[12] Menier E., Bucci M.A., Yagoubi M., Mathelin L. & Schoenauer M., CD-ROM: Complemented Deep-Reduced Order Model, Computer Methods in Applied Mechanics and Engineering, 410, p. 115985, 2023.

[13] Mori H., A Continued-Fraction Representation of the Time-Correlation Functions, Prog. Theor. Phys., 34 (3), p. 399–416, 1965.

[14] Parish E. J. & Duraisamy K., Non-Markovian closure models for large eddy simulations using the Mori-Zwanzig formalism, Phys. Rev. Fluids, 2 (1), p. 014604, 2017.

[15] Pradeleix E., Hosseinkhan-Boucher R., Shilova A., Semeraro O. & Mathelin L., 2025 Learning non-Markovian dynamical systems with signature-based encoders. ECAI 2025 – 2nd ECAI Workshop on “Machine Learning Meets Differential Equations: From Theory to Applications”.

[16] Rubanova Y., Chen R.T.Q. & Duvenaud D.K., Latent ODEs for irregularly-sampled time series, In Advances in Neural Information Processing Systems 32 (NeurIPS 2019) (ed. H. M. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alché Buc, E. B. Fox & R. Garnett), p. 5320–5330, 2019.

[17] Rumelhart D. E., Hinton G. E. & Williams R. J., 1986 Learning internal representations by error propagation, p. 318–362. Cambridge, MA, USA: MIT Press.

[18] Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L. & Polosukhin I., Attention is All you Need, In Advances in Neural Information Processing Systems, , vol. 30, 2017.

[19] Vlachas P.-R., Pathak J., Hunt B.R., Sapsis T.P., Girvan M., Ott E. & Koumoutsakos P., Back-propagation algorithms and reservoir computing in recurrent neural networks for the forecasting of complex spatiotemporal dynamics, Neural Netw., 126, p. 191–217, 2020.

[20] Zwanzig R., Nordholm K.S. J. & Mitchell W.C., Memory Effects in Irreversible Thermodynamics: Corrected Derivation of Transport Equations, Phys. Rev. A, 5, p. 2680–2682, 1972.

Profil du candidat :
Le candidat devra avoir une bonne formation en apprentissage automatique, mathématiques appliquées et/ou statistiques. La connaissance d’un framework d’apprentissage machine (par exemple PyTorch, Jax ou Julia) est un plus.

Formation et compétences requises :

Adresse d’emploi :
The work will take place at the Laboratoire Interdisciplinaire des Sciences du Numérique (LISN – https://www.lisn.upsaclay.fr/) on the campus of Université Paris-Saclay, benefiting from expertise of the research team in machine learning, applied mathematics, computer science, statistical physics, fluid mechanics and dynamical systems.

The PhD student will be integrated in a vibrant research team focused on scientific machine learning, deep learning, applied mathematics and statistical physics. He/She will be advised by Lionel Mathelin and Onofrio Semeraro, both CNRS researchers involved in the topic for several years. In addition to the rich scientific environment of the Paris-Saclay, the student will benefit from the numerous interactions within the team, in particular with other PhD students
and postdocs, and from the weekly seminars which provide exposition to a wide state-of-the-art research.

In addition to the rich scientific environment of the Paris-Saclay, the student will benefit from the numerous interactions within the team, in particular with other PhD students and postdocs, and from the weekly seminar which provides exposition to a wide state-of-the-art research.

This thesis will be carried-out in close collaboration with the INRIA Commedia team in Paris (Dr. D. Lombardi) and the INRIA Odyssey team in Rennes (Dr. E. Memin and G. Tissot). Visits to these teams will be organized on a regular basis.

Document attaché : 202604240826_Laplace.pdf

EDBT 2027 – Call for Papers

Date : 2027-04-06 => 2027-09-04
Lieu : Lille, France

EDBT 2027 : 30th International Conference on Extending Database Technology

Lille, France, 6th-9th April, 2027

CALL FOR PAPERS

The annual International Conference on Extending Database Technology (EDBT) is a leading international forum for researchers, developers, and users to present and discuss cutting-edge ideas, and to exchange techniques, tools, and experiences related to data management. The conference invites submissions of original research contributions related to all aspects of data management.

The 30th edition is planned to take place in Lille, France, from April 6th to 9th 2027.

Full information on the conference and submission guidelines is available here: https://edbticdt2027.github.io

* Topics of interest

– Data Infrastructure & Systems Architecture (Cloud data management, High-availability systems, Data management on modern hardware, Distributed and parallel data management, Storage, indexing, and physical database design, Middleware and workflow management, Sustainable and energy-efficient data management)

– Data Processing & Query Management (Query processing and optimization techniques, Concurrency control, recovery, and transaction management, Complex event processing and data streams, Benchmarking and performance evaluation)

-Data Models, Integration & Quality (Data models and semantics, Data integration, heterogeneous data management, Schema mapping, matching, and integration, Data quality, data profiling, data preparation, and data cleaning, Data lakes and data discovery, Metadata management and standards, Query languages, Provenance, Uncertain, probabilistic, and approximate data)

– Data management and AI (Machine learning methods for data and database tuning, Data-intensive and data-driven systems for ML/AI, Tabular foundation models and LLMs, Natural language processing for databases, Multi-modal data, Data management for ML/AI models)

– Specialized Data Types & Domains (Data lakes, Graph data, Spatial and temporal data, Sensor, IoT, and mobile data, Text data, extraction, and information retrieval, Unstructured data and multimedia data, Scientific and statistical data)

– Analytics, Intelligence & Discovery (Data mining and knowledge discovery, Data warehousing, large-scale analytics, and ETL tools, Process mining, Knowledge graphs and knowledge management, Semantic web and social networks)

– Governance, Ethics & Human Interaction (Privacy, security, and access control, Responsible data management and ethics, Data economy, data markets, data sovereignty, Crowdsourced and collaborative data management, Human-data interaction, Data visualization, exploration, and user interfaces, Usability, automaticity, interpretability, and explainability of data systems)

* Paper types

New: EDBT limits submissions to three papers per author and submission cycle, for up to nine papers per year.

The conference invites the submission of regular Research papers (long or short), Experiment & Analysis papers, and Vision papers. All papers are reviewed by the EDBT program committee

– Research papers present original contributions related to all aspects of data management. The submissions can be long (12p) or short (6p). Titles of short paper submissions must start with the phrase “[Short Paper]”.

– Experiments & Analysis (E&A) submissions focus on a comprehensive and detailed performance evaluation, on methodology, and on an assessment of the strengths and weaknesses of ideas published in previous work. The scientific contribution of an E&A paper lies in providing new insights into the strengths and weaknesses of existing methods rather than in providing new methods. Papers proposing new solutions should be submitted to the regular research track. Titles of E&A paper submissions must start with the phrase “[Experiments & Analysis]”. .

– Vision submissions describe emerging areas of research or new applications of data management technology. Papers in this track are not required to present research results. Rather, they may articulate a vision for future research in an important new area, identify challenging technical problems to be addressed, and explain potential technical or social impact. Titles of Vision paper submissions must start with the phrase “[Vision Paper]”. They are limited to 6 pages.

* Inclusion and Diversity in Writing and Presentation

Authors are strongly encouraged to be inclusive in the writing and presentation of their work. Please visit the webpage Inclusion and Diversity in Writing and Presentations for details.

* Submission cycles and dates

EDBT 2027 will have three annual research paper submission rounds. Each author is limited to three (3) submissions per round. Each round includes an opportunity to submit a revision if the paper receives a ‘revise’ decision upon the first review phase. The final decision for papers that receive a ‘revise’ will be reached after a second phase of reviews within the corresponding submission round. All times are 5pm PST.

Papers accepted during all three submission rounds will be presented at EDBT 2027.

– EDBT Research track 1st cycle
Paper submission: 4-Feb-2026
Author feedback: 19-Mar-2026
Notification Acc/Rej/Rev: 4-Apr-2026
Revised paper submission: 4-May-2026
Notification Acc/Rej: 27-May-2026
Camera-Ready copy: 10-Jun-2026

– EDBT Research track 2nd cycle
Paper submission: 10-Jun-2026
Author feedback: 23-Jul-2026
Notification Acc/Rej/Rev: 8-Aug-2026
Revised paper submission: 7-Sep-2026
Notification Acc/Rej: 30-Sep-2026
Camera-Ready copy: 14-Oct-2026

– EDBT Research track 3rd cycle
Paper submission: 7-Oct-2026
Author feedback: 19-Nov-2026
Notification Acc/Rej/Rev: 5-Dec-2026
Revised paper submission: 4-Jan-2027
Notification Acc/Rej: 27-Jan-2027
* Camera-Ready copy: 10-Feb-2027

Full information on the conference and submission guidelines is available here: https://edbticdt2027.github.io

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

CIFRE – Alignement, raisonnement normatif et robustesse cognitive dans les petits modèles de langage juridiques

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC
Durée : 3 ans
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2026-05-31

Contexte :
L’essor des grands modèles de langage (Large Language Models, LLM) a profondément transformé le traitement automatique du langage naturel, ouvrant des perspectives inédites pour de nombreux secteurs d’activité. Le domaine juridique constitue à cet égard un terrain d’application stratégique : il est caractérisé par une production normative croissante, une complexité textuelle élevée et des exigences fortes en matière de fiabilité, de traçabilité et de justification argumentative.
Les professionnels du droit, avocats, juristes d’entreprise, services de conformité, sont quotidiennement confrontés à l’analyse de volumes importants de textes normatifs, de contrats et de décisions jurisprudentielles. Cette réalité opérationnelle crée une demande croissante pour des outils d’assistance capables d’automatiser partiellement ces processus tout en garantissant une fiabilité juridique suffisante pour un usage professionnel.
Les solutions génériques actuelles fondées sur des LLM (GPT-4, Claude, Gemini) permettent des tâches élémentaires ,recherche d’information, résumé, rédaction assistée, mais présentent des limites structurelles importantes dans ce contexte :
– un manque de spécialisation dans le raisonnement juridique normatif, caractérisé par des hiérarchies de normes, des exceptions et des conflits réglementaires ;
– une fiabilité juridique insuffisante, se traduisant par des hallucinations factuelles et des erreurs d’interprétation normative ;
– une incapacité à justifier explicitement les conclusions produites, pourtant essentielle à l’usage professionnel ;
– une empreinte computationnelle et énergétique élevée, incompatible avec une intégration directe dans des workflows SaaS ou des environnements à ressources contraintes.
Ces constats soulignent l’intérêt de développer des modèles de langage spécialisés, plus compacts ,désignés Small Legal Models (SLM) ,capables d’intégrer les structures logiques et normatives propres au droit tout en étant économes en ressources et directement intégrables dans des logiciels métiers. C’est dans ce contexte que s’inscrit le projet de recherche et développement porté par Contractzlab.
Ce projet répond à un besoin industriel concret : améliorer l’efficacité des cabinets juridiques et des entreprises soumises à des obligations réglementaires strictes, tout en proposant une alternative fiable, sécurisée et économe en énergie aux grands modèles généralistes. Il s’inscrit également dans une perspective scientifique plus large, visant à
comprendre comment la spécialisation et l’apprentissage progressif permettent à un modèle compact d’atteindre des performances comparables à celles de modèles massifs sur des tâches de raisonnement normatif complexes.

Sujet :
L’objectif principal de cette thèse est de concevoir, d’entraîner et de valider un Small Legal
Model (SLM) spécialisé dans le raisonnement juridique, capable de surperformer les
modèles généralistes commerciaux sur des tâches normatives complexes tout en restant
économe en ressources computationnelles.
Ce modèle doit fonctionner comme un assistant expert pour les professionnels du droit
,juristes, avocats, services de conformité ,en les aidant à analyser, interpréter et mettre en
relation des textes normatifs, aussi bien pour des consultations rapides que pour des cas
nécessitant un raisonnement structuré et une justification explicite.
Les travaux de recherche s’articulent autour de quatre axes scientifiques originaux,
chacun répondant à un verrou identifié dans la littérature :
Conception de méthodes d’alignement adaptées au raisonnement juridique normatif
Les approches classiques d’alignement par préférences (RLHF, DPO, ORPO) sont
conçues pour améliorer la conformité comportementale des modèles, non pour structurer
leur raisonnement formel. L’objectif est de proposer de nouvelles méthodes d’alignement
intégrant des contraintes logiques explicites, respectant la hiérarchie des normes
(constitution, loi, règlement, jurisprudence) et permettant la traçabilité des chaînes
d’inférence juridique. Cela implique notamment de définir des signaux de récompense
capables de représenter la cohérence normative et la validité argumentative des réponses
produites.

Construction d’un cadre d’évaluation unifié pour le raisonnement juridique
L’absence de benchmark représentatif, multilingue et orienté vers la structure
argumentative constitue un frein majeur à la progression scientifique dans ce domaine.
L’objectif est de construire un cadre d’évaluation unifié couvrant plusieurs niveaux de
raisonnement juridique qualification, interprétation, mise en relation de normes, résolution
de conflits ,applicable à plusieurs systèmes juridiques européens, et s’appuyant sur des
métriques capables de mesurer la cohérence logique interne et la validité normative au-
delà de la simple correspondance textuelle.

Développement d’une stratégie d’entraînement progressif pour modèle compact
La réduction du nombre de paramètres d’un modèle limite mécaniquement sa capacité à
encoder des connaissances juridiques étendues et des chaînes de raisonnement
profondes. L’objectif est de concevoir une stratégie d’entraînement progressif (continual /
curriculum learning) permettant à un SLM d’acquérir des compétences juridiques
croissantes sans subir d’oubli catastrophique, tout en conservant la cohérence globale de
son raisonnement. Des approches telles que DUMP (Dynamic Upper-confidence-based
Model Progression) constituent des pistes prometteuses qui seront explorées et adaptées
au contexte juridique.

Analyse de la robustesse cognitive sous alignement par préférences
L’impact de l’alignement par préférences sur la diversité argumentative et la robustesse
cognitive des modèles en contexte juridique reste largement inexploré. L’objectif est de
caractériser empiriquement et théoriquement les effets de différentes méthodes
d’alignement (DPO, ORPO, KTO, RLAIF) sur la capacité d’un modèle compact à maintenir
une pluralité interprétative, à résister aux ambiguïtés normatives et à justifier ses
conclusions dans des cas complexes ou contradictoires. Cette analyse vise à établir les
fondements d’un alignement à la fois conforme et cognitivement robuste pour les
domaines régulés.

Profil du candidat :
Ingénieurs / Master 2, spécialisé en science des données, Intelligence Artificielle, NLP
Personnes à contacter par mail : envoyez votre candidature avant le 25 avril avec vos
bulletins de notes M1/M2, une lettre de motivation, des lettres de recommandation

Formation et compétences requises :

Adresse d’emploi :
Paris La défense & Paris 11°

Document attaché : 202604162208_Sujet_These_Cifre_Contractzlab.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Modélisation et Planification adaptative par apprentissage profond actif des blocs opératoires dans les systèmes hospitaliers

Similarité entre exercice d’apprentissage de l’algorithmique et de la programmation

Postdoc FAILLES: Finding AI solutions to decipher Large fault networks in Earth Surface images

SEEDS@MaDICS 2026

SEEDS@MaDICS 2026

Inscription

Qu’est-ce qu’une SEEDS@MaDICS ?

Qui peut participer ?

Comité d’organisation

Sujets proposés

Workshop Econom’IA

16ème Atelier sur la Protection de la Vie Privée (APVP 2026)

L’IUT Grand Ouest Normandie, composaenseignant-chercheur en intelligence artificielle pour la science des données

Learning poorly known and observed large scale complex systems

EDBT 2027 – Call for Papers

CIFRE – Alignement, raisonnement normatif et robustesse cognitive dans les petits modèles de langage juridiques