[M2] Vol en formation rapprochée pour des drones (close formation flight for small drone teams)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : USIS, ENSTA
Durée : jusqu’à 6 mois
Contact : mario.gleirscher@ensta.fr
Date limite de publication : 2026-01-11

Contexte :
De petites équipes d’autonomous aerial vehicles (AAVs) peuvent être utilisées pour collaborer sur des tâches qui ne conviennent pas à un seul AAV. Ces tâches peuvent impliquer la livraison collaborative de colis ou le partage de ressources (e.g., fusion de capteurs distribués, coordination basée sur la durée de vie des batteries ou les capacités de charge utile). De plus, les équipes AAV fonctionnent avec un niveau d’autonomie accru. Une plus grande autonomie impose des exigences plus strictes en matière de critères de performance et de garanties d’exactitude des systèmes de détection et de contrôle de chaque membre de l’équipe. Par exemple, lors d’une tâche de livraison, un vol en formation précis et fiable à proximité immédiate peut être nécessaire.

Sujet :
Ce stage de fin d’études s’inscrit dans le cadre de coordination et contrôle des systèmes robotiques multi-agents et vise à developper une approche pour l’estimation consensuelle des informations pertinentes, la communication entre les membres de l’équipe et la coordination des tâches axée sur les objectifs.

Profil du candidat :
* Diplôme d’ingénieur ou Master 2 en contrôle, mécatronique, systèmes cyber-physiques, systèmes embarqués, ou informatique.
* Niveau d’étude : Bac+5 (M2 ou 3A Diplôme d’ingénieur)
* Bonnes compétences en programmation en C, C++ et Python
* Maîtrise de l’anglais, écrit et parlé. Connaissance préalable du français souhaitable.

Formation et compétences requises :
Compétences recherchées :

* Systèmes multi-agents, contrôle robuste
* Modélisation dynamique, approximation numérique
* Raisonnement automatisé sur les garanties d’exactitude
* Programmation : C, C++, Python

Adresse d’emploi :
Période de démarrage : entre fevrier et mars 2026
Candidature : Merci d’envoyer un CV, une lettre de motivation ainsi que vos relevés de notes à mario.gleirscher@ensta.fr.

Document attaché : 202512081106_stage-vol-en-formation-gleirscher.pdf

Stage M2 (+ thèse) : Approches apprentissage pour la complétion informée de données : Détection multi-échelle spectrale de vers de Roscoff.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique, Signal et Image de la
Durée : 6 mois
Contact : claire.guilloteau@univ-littoral.fr
Date limite de publication : 2026-01-11

Contexte :

Sujet :
Description du sujet :
Le ver de Roscoff (Symsagittifera roscoffensis) est un petit organisme marin vivant en photosymbiose avec une microalgue verte (Tetraselmis convolutae), ce qui en fait à la fois un modèle d’étude de la symbiose et un bioindicateur de l’état des écosystèmes côtiers [1]. Actuellement, la détection et le suivi des vers de Roscoff reposent sur l’observation directe. L’identification et le suivi de cette espèce à distance restent un défi scientifique et technologique. Le développement de méthodes automatiques d’identification et de suivi permettrait d’évaluer les facteurs environnementaux influençant leur présence et leur répartition ou encore leur dynamique au cours d’un cycle de marée ou lors d’événements météorologiques extrêmes. Ces avancées contribueraient également à mieux comprendre le rôle écologique du ver de Roscoff, qui participe aux flux de matière organique, favorise la capture de CO2 par ses algues symbiotiques et contribue à la production d’O2 dans les zones littorales.
Les approches d’imagerie spectrale permettent de caractériser la signature optique d’organismes ou d’habitats, ouvrant la voie à leur télédétection [2]. Dans ce stage, le ver de Roscoff constitue donc un cas d’étude idéal pour développer des méthodes de détection multi-échelle et de traitement de données hyperspectrales.

Ce projet de stage cherche à répondre à deux verrous scientifiques principaux :
* L’échelle d’observation. La détection en champ proche et contrôlé est faisable en laboratoire, mais la généralisation aux échelles aéroportées et satellitaires reste à confirmer, notamment pour des raisons de résolution spatiale [3].
* La complétion informée des données multi-sources. La complétion informée est le fait de combiner intelligemment des données fines mais locales (airborne) avec des données grossières mais globales (satellite) pour reconstituer une information complète et cohérente. Cette tâche constitue un défi méthodologique.

L’objectif est de développer une approche multi-échelle de détection spectrale des vers de Roscoff. Le projet s’articule autour des 3 étapes suivantes :
1. Identifier les bandes spectrales pertinentes pour la détection des vers de Roscoff en champ proche (laboratoire) et en milieu contrôlé. Cette étape permettra la sélection méticuleuse des instruments satellitaires et aéroportés à utiliser pour cette étude.
2. Développer et tester des méthodes de complétion de données informée afin d’associer les images à différentes résolutions (aéroporté, satellite).
3. Évaluer la faisabilité de la détection automatique à large échelle des vers de Roscoff dans des environnements côtiers, et l’identification des sites candidats pour des futures campagnes in situ ou par survol aérien.

Le but du projet est de développer un outil capable de produire des cartes exploratoires de présence potentielle des vers de Roscoff à partir de données satellitaires et aéroportées afin de contribuer à la mise en place d’un outil de suivi innovant de la biodiversité du littoral. D’un point de vue méthodologique, le projet comporte une part expérimentale mobilisée dans les différentes étapes du projet. Une première phase exploratoire en laboratoire aura pour but d’acquérir des images hyperspectrales des vers de Roscoff en milieu contrôlé. Une seconde phase expérimentale consistera à acquérir des images aéroportées sur des sites déjà identifiés par les chercheurs du laboratoire UGSF pour tester la capacité de détection en milieu
naturel à une échelle intermédiaire. La majorité du projet concerne le développement d’algorithmes de complétion de données informée à l’aide d’approches de type apprentissage automatique/machine learning. De nombreuses méthodes de complétion de données informée existent dans la littérature. Elles sont cependant développées à partir de cas idéaux ou simulées. Par conséquent, peu répondent aux contraintes de notre problème : potentiel mauvais alignement des images entre elles, connaissance limitée des spécifications instrumentales, pas de données annotées ou « vérité-terrain » disponible, représentativité limitée des données aéroportées, non-linéarité des mélanges spectraux.

Cette thématique fait l’objet d’une demande en cours de financement de thèse pour l’automne 2026. Le cas échéant, le ou la candidate pourra poursuivre ce travail pour la préparation d’une thèse.

Encadement :
Le stage aura lieu dans l’antenne de Longuenesse(62) du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée en 2020, compte actuellement 8 chercheurs permanents, 3 chercheurs postdoctorants et 7 doctorants. Le ou la stagiaire sera encadré(e) par Claire GUILLOTEAU et Gilles ROUSSEL qui apporteront leur expertise respective en traitement des images MS/HS et en machine learning pour l’imagerie satellitaire. Le ou la stagiaire aura également l’occasion de collaborer avec Christophe Colleoni et Anne Créach, chercheurs spécialistes de la biologie intégrative des polysaccharides de réserve au laboratoire UGSF (Unité de Glycobiologie Structurale et Fonctionnelle) de l’Université de Lille. 

[1] Androuin, T., Six, C., Bordeyne, F., de Bettignies, F., Noisette, F., & Davoult, D. (2020). Better off alone? New insights in the symbiotic relationship between the flatworm Symsagittifera roscoffensis and the microalgae Tetraselmis convolutae. Symbiosis.https://doi.org/10.1007/s13199-020-00691-y
[2] Dierssen, H. M., McManus, G. B., & Kudela, R. M. (2021). Living up to the hype of hyperspectral aquatic remote sensing. Frontiers in Environmental Science, 9, 649528. https://doi.org/10.3389/fenvs.2021.649528
[3] Purkis, S. J. (2022). Remote sensing the ocean biosphere. Annual Review of Environment and Resources, 47, 357–383.https://doi.org/10.1146/annurev-environ-112420-013219

Profil du candidat :
Candidater :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python, C). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en traitement d’images satellitaires hyperspectrales ou en deep learning sera appréciée.

Pour candidater, merci d’envoyer un courriel à {claire.guilloteau, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :
* votre CV,
* une lettre de motivation,
* vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
* jusqu’à deux lettres de recommandation ou les noms et moyens de contact de deux référents.

Les candidatures seront étudiées de manière continue jusqu’à ce que le stage soit pourvu.

Formation et compétences requises :

Adresse d’emploi :
Longuenesse (62)

Document attaché : 202512081103_VERDEMES_Stage_2026-FR.pdf

Unified Access and Usage Model for Secured Federation of Knowledge Graphs

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : e year, renewable
Contact : Philippe.Lamarre@insa-lyon.fr
Date limite de publication : 2026-01-11

Contexte :
In today’s increasingly interconnected world, the ability to share data across systems and organisations has become both a necessity and a challenge. From scientific research to business intelligence, collaboration across data unlocks new insights and drives innovation. However, alongside this need for sharing lies a parallel and often conflicting demand: the need to maintain control over data. Organisations and individuals must safeguard sensitive information, uphold privacy regulations, and ensure compliance with legal frameworks, even as they participate in broader decentralised data ecosystems.
Tensions between data sharing and control are creating a data integration nightmare, slowing down data investigations.

In order to enable a researcher to simply formulate in natural language what data is needed, and computers instantly deliver correct and complete results with clear provenance, licensing terms, and usage restrictions, the ANR project SaFE-KG (2025-2028) aims to propose a secure federation of Knowledge Graphs, integrating trusted authentication and authorization mechanisms. Unlike traditional federations that assume public accessibility, SaFE-KG will develop solutions for secure, scalable, and efficient federations. It gathers the efforts of three teams: GDD LS2N Nantes, Wimmics INRIA Sophia Antipolis and Université Côte d’Azure, DB LIRIS Lyon.

Sujet :
The general aim of this post-doctoral position is to contribute to the SaFE-KG framework, with a central focus on an unified model for representing access and usage across a federation of knowledge graphs cite{conf/www/Aimonier-DavatN24}, allowing for consistent data sharing across organisations while maintaining compliance with individual policies. A challenge is to design an authorization model flexible enough to handle different configurations of KG federations and different granularities of policy declarations. Our approach is to externalize authorizations from knowledge graph servers by defining a standard interface that can be used with any engine. The objectives also includes federated engine query log modeling and reasoning for transparency and accounting.

The following objectives should be targeted:

_ Access control abstraction. At the very first relevant technical choices must be made to enforce authentication in the federation. Then, the objective is to define a flexible access control model and language for a KG federation. This model should support the specification of policies at different levels of granularity to better align with the diverse security requirements and models of participating knowledge graph providers. To ensure interoperability and adaptability, we aim to base this model on existing standards such as: OIDC for authentication, UMA (User Managed Access) and/or ODRL (Open Digital Rights Language). Two key challenges arise: designing a model that limits its impact on the performance of a federation engine and enabling the analysis of compliance and potential conflicts among the different policies defined by federation members.

_ Usage control. The objective is to enrich the model with usages. The sources describe their usage policy at some granularity level. Then the federation engine exploits these declarations to restrain the request to be usage compliant. While there already exist several usage control frameworks, in SaFE-KG, in addition to performance, we will pay particular attention to benchmarking, and domain independence which currently lack focus cite{Akaichi25}.

_Query logging for transparency and accounting. The objective is to provide a comprehensive view that enables accounting, auditing and compliance verification. To achieve this, the federation engine must log or more precisely, trace user queries and their meta-data with varying levels of detail, including the issued query, the execution plan used, and a summary of the responses obtained, among other elements. This provides a global view of the queries where the sources’ data are involved, including sensitive data. It allows to analyze and correlate the queries to check their compliance (by also considering their combination) with access requirements set up by the information provider.

The work should be based on existing standards, models and previous results cite{tr/Solid, safe-jbms2017, DBLP:conf/dexa/EndrisALVA18, DBLP:conf/dexa/GoncalvesVE19, CostabelloAndAl12,conf/esws/EkelhartEK21, SAMAVI20181}, keeping pragmatic with respect to SaFE-KG objectives. To define a unifying model, an approach could be to proceed incrementally considering that the federation engine: (i) has minimal involvement in security aspects (integrating identifiers, roles, and profiles); (ii) enforces its own access policy (without the sources revealing their own) ; (iii) (partially) knows the sources’ security policies.

Profil du candidat :
PhD in Computer Science with both both theoretical and applied skills in semantic web and associated tools, logical reasoning with knowledge of access control and/or usage control.

Formation et compétences requises :

Adresse d’emploi :
The work will take place within the database team (DB) of the LIRIS laboratory, in collaboration with the other teams of the ANR project SaFE-KG.

INSA de Lyon – Campus de la Doua
20, avenue Albert Einstein
69 621 VILLEURBANNE CEDEX
FRANCE

Document attaché : 202512081009_SaFE-KG_UnifiedAccessAndUsageModel_PostDocCall.pdf

[Post-doc] Online Optimal Transport

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab
Durée : 18 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2026-01-11

Contexte :

Sujet :
Optimal transport (OT) is a powerful framework to define and compute distances between distributions (a.k.a. Wasserstein or earth mover’s distance), with a tractable computation thanks to the Sinkhorn algorithm [1]. Entropic regularization, which enables fast iterative scaling and GPU-friendly computation of the OT, providing the backbone of modern scalable OT pipelines.

Major challenges arise in exploring OT for domain adaptation on streaming data. While an online Sinkhorn algorithm was introduced in [2] to address the OT distances computation from sample streams, it does not operate in an online manner. The major issue is that the functions are evaluated on an increasing amount of newly available samples. which yields a memory complexity of O(n) and a time complexity of O(n^2). In order to fully operate in an online manner, the evaluations should not rely on all the previously available samples. Some attempts were provided to mitigate this major issue, such as by performing measure compression techniques (which are computationally expensive) [3] and by combining streaming quantile approximation with sliced OT [4].

This post-doc fellowship aims to provide theoretical foundations and algorithmic developments for OT on streaming data, mainly time series. For this purpose, the post-doc fellow will leverage earlier research results and take full advantage of the literature of adaptive signal processing and representation learning with deep learning.

This post-doc is an integral part of the global project OOD (Online Deep anomaly Detection), bringing together 4 PhD students and several permanent researchers from the Machine Learning group of the LITIS Lab.

[1] G. Peyré and M. Cuturi, “Computational optimal transport: With applications to data science,” Foundations and Trends® in Machine Learning, vol. 11, no. 5-6, pp. 355–607, 2019.
[2] A. Mensch and G. Peyré, “Online sinkhorn: Optimal transport distances from sample streams,” in NeurIPS, vol. 33, pp. 1657–1667, 2020.
[3] F. Wang, C. Poon and T. Shardlow, “Compressed online Sinkhorn,” arXiv preprint arXiv:2310.05019, 2023.
[4] K. Nguyen, “Streaming Sliced Optimal Transport,” arXiv preprint arXiv:2505.06835, 2025.

Profil du candidat :
Requirements:
PhD in applied mathematics, machine learning, advanced statistics, computer science or related.
Strong background in advanced optimization and machine learning.
Proficiency in Python.

If interested, please send CV in a motivational email to paul.honeine@univ-rouen.fr, gilles.gasso@insa-rouen.fr, maxime.berar@univ-rouen.fr and fannia.pacheco@univ-rouen.fr

Formation et compétences requises :

Adresse d’emploi :
Rouen (Normandy)

Offre de stage M2 Recherche chez BaaS.sh

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : BaaS.sh en collaboration avec l’IRIT (Toulouse)
Durée : 5 à 6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2026-01-11

Contexte :
BaaS.sh est une startup deeptech qui conçoit une blockchain de nouvelle génération : rapide à déployer, simple à utiliser → pensée pour les devs, optimisée pour la perf.

Sujet :
Rejoins BaaS.sh, en collaboration avec le IRIT, pour contribuer à la mise en place et à l’optimisation de notre infrastructure blockchain. Tu travailleras sur des sujets concrets, techniques et à fort impact :
● Déployer, superviser et automatiser des architectures complexes.
● Concevoir des pipelines robustes (CI/CD, provisioning, monitoring, logging).
● Mener des analyses comparatives de blockchains concurrentes.
● Side projects : serveur MPC, module n8n, plugin VSCode…
Un stage exigeant, encadré, au coeur d’un projet deeptech ambitieux.
Tu évolueras dans un environnement stimulant, entre infrastructure, performance, et blockchain de nouvelle génération.
Si compétences exceptionnelles :
tu pourras également contribuer à des sujets plus avancés : orchestration distribuée, sécurité réseau, scaling dynamique.

Profil du candidat :
Master 2

Formation et compétences requises :
Expérience concrète avec Docker Swarm ou Kubernetes.
CI/CD, base d’un delivery efficace et fiable.
Bonnes notions en observabilité (Grafana, Prometheus…) et en gestion de logs.
Docker, Git et les outils d’automatisation n’ont pas de secrets pour toi.

Adresse d’emploi :
Lieu : 100 % remote, avec interactions virtuelles régulières.
Durée : 5 à 6 mois, début flexible à partir de janvier 2026.
Encadrement : par le CTO de BaaS.sh en collaboration avec un enseignant-chercheur du IRIT.

Document attaché : 202512051336_Stage M2 Recherche chez BaaS.sh.pdf

Quantification d’incertitude appliquée à la détection d’incohérences dans des images

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Loria Nancy / Centralesupélec Metz
Durée : 4-6 mois
Contact : arthur.hoarau@centralesupelec.fr
Date limite de publication : 2026-01-11

Contexte :
Détecter des anomalies ou incohérences locales dans des images grâce à la quantification d’incertitude en apprentissage automatique profond.

Sujet :
En Apprentissage Automatique appliqué à la vision par ordinateur, les cartes de chaleur (heatmaps) sont des outils de visualisation interprétable permettant de comprendre quelles régions d’une image contribuent le plus à la prédiction d’un modèle. Les méthodes les plus répandues, comme Grad-CAM [1], exploitent les gradients des activations internes d’un réseau convolutif pour générer une carte d’importance pondérée.

L’objectif de ce projet est d’obtenir une carte de chaleur des incohérences locales ou anomalies dans une image pour une tâche de classification (e.g., un chat avec des lunettes, un O.V.N.I ou encore une contamination ou impureté sur un aliment) grâce à la quantification d’incertitude du modèle. Quatre grandes familles de méthodes existent dans la littérature pour extraire ces incertitudes : les méthodes bayésiennes, qui modélisent par nature ces différents types d’incertitude [3] ; les méthodes ensemblistes, qui approximent une distribution de probabilités grâce à la variance prédictive des estimateurs [4] ; la minimisation de risque de second ordre, qui modèle l’incertitude du modèle directement dans la fonction de perte ; et les méthodes par densité locale qui s’intéressent au voisinage de l’instance de test.
L’étude pourra en partie s’appuyer sur les récents travaux de [2], qui proposent une méthode pour quantifier l’incertitude liée à l’importance de chaque pixel dans une image.

Voic le document ci-joint pour plus de détails.

[1] R. Selvaraju et. al. Grad-CAM : Visual Explanations from Deep Networks via Gradient-based Localization. IEEE International Conference on Computer Vision (ICCV), 2017.
[2] K. Wickstrom et. al. REPEAT : Improving Uncertainty Estimation in Representation Learning Explainability. Proceedings of the AAAI Conference on Artificial Intelligence, 2025.
[3] A. Kendall et. al. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision ?. Advances in Neural Information Processing Systems, 2017.
[4] B. Lakshminarayanan et. al. Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. Advances in Neural Information Processing Systems, 2017.

Profil du candidat :
– Master 2, préparez une copie de vos notes
– Bon niveau d’anglais
– Appétence pour l’apprentissage automatique

Formation et compétences requises :
– Programmation Python, Machine Learning
– Apprentissage Profond
– Rédaction, Vulgarisation

Adresse d’emploi :
Centralesupélec Metz ou Loria Nancy

Document attaché : 202512051126_sujet_stage.pdf

Ingénieur-e de recherche expert-e en calcul scientifique et intelligence artificielle H/F

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut UTINAM, UMR 6213 CNRS / UMLP
Durée : poste permanent
Contact : jose.lages@univ-fcomte.fr
Date limite de publication : 2025-01-16

Contexte :
L’Institut UTINAM (http://www.utinam.cnrs.fr), UMR 6213, est une unité mixte de recherche sous la double tutelle CNRS et Université Marie et Louis Pasteur (https://www.umlp.fr). Cette unité compte une centaine de personnels et mène des recherches en astrophysique (évolution et structure de la Galaxie, dynamique et composition des petits corps du système solaire), en physique théorique (technologies quantiques, réseaux complexes), en physique moléculaire (calculs ab initio, DFT) et en chimie (matériaux et surfaces fonctionnels, sonochimie et traitement de surfaces).

Le ou la titulaire sera intégré-e à la Plateforme d’Informatique Scientifique de l’Institut UTINAM (PISU), située à Besançon sur le site historique de l’Observatoire des Sciences de l’Univers THETA (https://theta.obs-besancon.fr), et sera sous la responsabilité hiérarchique du responsable de la plateforme. Il ou elle interagira de façon quotidienne avec les chercheurs des 5 équipes de recherche et aura accès aux clusters CPU/GPU de l’unité, de l’Université, ainsi qu’aux supercalculateurs nationaux. Il ou elle bénéficiera d’une visibilité internationale forte via le Modèle de la Galaxie de Besançon (service national d’observation de l’INSU, référence mondiale pour la préparation et l’exploitation des missions spatiales).

Cette fonction ouvre droit à la perception de l’Indemnité de Référence pour les Informaticiens (IRI).
Après 6 mois d’ancienneté, une partie importante des activités sont télétravaillables selon accord avec le responsable et dans le respect de la réglementation CNRS. Formations et accompagnement assurés.

Le poste sur lequel vous candidatez se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST) et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l’autorité compétente du MESR.

Sujet :
L’ingénieur-e de recherche aura pour mission de fournir une expertise de haut niveau en calcul scientifique, calcul haute performance et intelligence artificielle au service des projets de l’unité (astrophysique galactique et du système solaire, physique théorique, physique moléculaire), d’assurer la maintenance, l’optimisation et le développement des codes scientifiques – notamment le Modèle de la Galaxie de Besançon -, et d’apporter un appui numérique transversal aux chercheurs, y compris sur les aspects informatiques généraux de l’unité.

Activités
1. Contribuer à la maintenance, l’optimisation et le développement du Modèle de la Galaxie de Besançon (Service National d’Observation de l’INSU) :
– mise à jour des composantes (dynamique, populations stellaires, chimie, extinction),
– intégration de nouvelles contraintes observationnelles stellaires (Gaia, Euclid, LSST, Roman, etc.) et interstellaires (données hyperspectrales CO, HI4PI, SKA, etc.),
– intégrer de nouveaux outils d’intelligence artificielle (machine learning, deep learning), gestion du service web et du client Python

2. Développer et déployer des méthodes d’intelligence artificielle et d’apprentissage machine pour accélérer les simulations, traiter les grands volumes de données et améliorer les modèles (ex. : réseaux de neurones pour classification/cartographie 3D, ML-DFT, LLM, analyse de réseaux complexes…)

3. Apporter un appui expert en calcul haute performance et calcul scientifique aux chercheurs
– Optimisation de codes (parallélisation MPI/OpenMP/CUDA, GPU, Fortran/C++/Python)
– Participer à la rédaction de propositions de projets (ANR, Europe, GENCI), à la valorisation scientifique et à la formation interne sur les méthodes IA/calcul scientifique
– Traitement et analyse de données massives (LSST, Gaia, Euclid…) et/ou hyperspectrales

4. Concevoir, administrer et maintenir bases de données scientifiques de l’unité, outils de workflow et stockage pour les projets de l’unité

5. Contribuer au support informatique transversal de l’unité :
– aide à la gestion des clusters locaux CPU/GPU,
– aide à l’installation/configuration logicielle,
– maintenance d’outils internes

Profil du candidat :
Savoirs :
– Expertise approfondie en calcul scientifique et HPC (parallélisation, GPU, CUDA, MPI, OpenMP)
– Maîtrise avancée de Python scientifique (numpy, scipy, pandas, jax, workflow) et Fortran/C++ (codes legacy)
– Expertise en intelligence artificielle et apprentissage machine (PyTorch/TensorFlow, scikit-learn, réseaux de neurones…)
– Connaissances solides en bases de données et big data (SQL/NoSQL, HDF5, formats astronomiques)
– Connaissances en astrophysique ou en physique computationnelle appréciées
– Connaissances sur les impacts environnementaux du numérique et des leviers de réduction de ces impacts appréciées
– Anglais technique et scientifique : niveau C1 minimum (lu, écrit, parlé)

Savoir-faire :
– Développer, optimiser et maintenir des codes scientifiques complexes sur clusters et supercalculateurs
– Concevoir et entraîner des modèles IA/ML pour applications astrophysiques et physiques
– Gérer le cycle complet de projets calcul/IA (développement, tests, déploiement, documentation)
– Maîtriser des outils de gestion de versions pour le développement de projets numériques. Une connaissance des outils de développement collaboratifs type GitHub, Jenkins, Travis, etc. est souhaitable
– Assister et former des utilisateurs en calcul numérique et IA
– Rédiger documentation et articles scientifiques en français/anglais

Savoir-être :
– Autonomie et initiative
– Rigueur et fiabilité
– Pédagogie et sens du service
– Capacité d’adaptation rapide
– Excellente aptitude au travail interdisciplinaire

Formation et compétences requises :
Réservé aux agents CNRS (fonctionnaires et CDI) et aux fonctionnaires et CDI de droit public

Adresse d’emploi :
https://emploi.cnrs.fr/

https://emploi.cnrs.fr/Offres/MOBINT/UMR6213-MOBINT-P58005/Default.aspx

Modélisation de séries temporelles interprétable et gestion d’incertitude : exploiter les données multi-sources pour la surveillance avancée des stations d’épuration

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire de Génie Chimique (LGC)
Durée : 6 mois
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2026-02-15

Contexte :
Les stations d’épuration constituent aujourd’hui des infrastructures critiques pour la protection de
l’environnement et la santé publique. Leur fonctionnement, en particulier pour les unités équipées de
bioréacteurs à membranes (MBR), repose sur un suivi continu et de haute précision d’un ensemble
de variables physico-chimiques, hydrauliques et biologiques. Ces installations génèrent désormais
d’importants volumes de données temporelles provenant de capteurs multiples, d’analyses de laboratoire
et de systèmes d’acquisition hétérogènes, avec des pas de temps très variés et souvent
asynchrones.
Dans ce contexte, l’analyse avancée des séries temporelles joue un rôle central. Les procédés biologiques
présentent des dynamiques fortement non linéaires, une variabilité importante des charges
polluantes et des interactions complexes entre débit, température, oxygénation, concentrations azotées
et performances de filtration. Exploiter ces données brutes nécessite de relever plusieurs défis
fondamentaux : bruit instrumental, dérives progressives, valeurs manquantes persistantes, phénomènes
de ruptures (changepoints) liés aux perturbations hydrauliques ou opérationnelles, ainsi que
des structures de dépendance non triviales à différentes échelles temporelles (minute, heure, jour,
semaine). Une analyse robuste de ces séries temporelles est indispensable pour détecter précocement
les dysfonctionnements, anticiper les variations de charge, optimiser l’aération (source majeur de
consommation énergétique) et garantir la stabilité de la qualité des effluents rejetés.
Le projet ANR JCJC FlexMIEE se positionne précisément sur ces enjeux en visant à développer
une nouvelle génération d’outils de modélisation intégrée alliant procédés, statistiques avancées,
modélisation probabiliste et IA explicable. Le Work Package 2 (WP2), coeur du présent stage, a
pour objectif de construire un pipeline méthodologique complet permettant : (i) d’harmoniser et
fusionner les données multi-sources selon différentes résolutions temporelles, (ii) de quantifier et
représenter l’incertitude via des méthodes modernes (processus gaussiens, intervalles, histogrammes
dynamiques), (iii) d’identifier les structures de dépendance, linéaires et non linéaires, à l’aide d’outils
tels que les copules ou les corrélations conditionnelles dynamiques, (iv) de développer des modèles
prédictifs de séries temporelles interprétables (LSTM explicables, modèles structurels, Transformeurs
temporels), et enfin (v) de préparer un socle de données fiable pour la modélisation hybride
des procédés au sein du WP3.
Ainsi, ce stage s’inscrit dans une dynamique de recherche appliquée ambitieuse où la statistique
avancée, la science des données et la modélisation des séries temporelles deviennent des leviers
essentiels pour renforcer la performance, la robustesse et l’efficacité énergétique des systèmes de
traitement des eaux usées. Le travail réalisé contribuera directement à la conception de futures «
stations intelligentes », plus résilientes face aux incertitudes environnementales et opérationnelles.

Objectifs du stage
L’objectif est de construire un cadre méthodologique complet pour traiter, fusionner et analyser
les données hétérogènes issues d’une STEP industrielle, puis développer des modèles temporels
explicables permettant de comprendre l’impact des influents sur les performances énergétiques et
épuratoires.
Les enjeux scientifiques incluent :
— harmonisation temporelle multi-échelles ;
— imputation avancée (processus gaussiens, modèles d’état, MICE) ;
— dépendances non linéaires via copules et corrélations dynamiques ;
— modèles temporels interprétables (ARIMAX, XGBoost, LSTM explicables, TFT) ;
— analyse de sensibilité globale et SHAP temporel ;
— représentation symbolique des données (intervalles, distributions).

Sujet :
Le stage s’inscrit dans le Work Package 2 (WP2) du projet ANR FlexMIEE, consacré à la gestion
avancée des données hétérogènes issues d’une station d’épuration industrielle. Le travail attendu est
structuré en quatre volets complémentaires formant un pipeline méthodologique complet.
Dans un premier temps, le ou la stagiaire réalisera une prise en main approfondie de l’ensemble des
bases de données multi-sources (mesures en ligne, analyses de laboratoire, historiques opératoires
et données biologiques). Cette étape comprendra une revue de littérature ciblée sur les notions
d’incertitude dans les données temporelles, les méthodes modernes de dépendances multivariées ainsi
que les approches d’explicabilité en intelligence artificielle (XAI) appliquées aux modèles de séries
temporelles. L’objectif est d’acquérir rapidement une compréhension globale des caractéristiques
des données et des défis méthodologiques associés.
Le deuxième volet concernera l’harmonisation temporelle des données. Les jeux de données disponibles
présentent des pas de temps distincts, des valeurs manquantes, des dérives instrumentales et
des anomalies locales. Le stagiaire mettra en oeuvre des méthodes robustes de détection de ruptures
(changepoints bayésiens, tests non paramétriques), de fusion temporelle multi-échelles et d’imputation
probabiliste. Une attention particulière sera portée aux processus gaussiens, aux modèles
d’état, aux approches MICE et aux autoencodeurs, avec une analyse comparative de la capacité de
chaque méthode à préserver la cohérence physique et statistique des signaux.
Le troisième volet portera sur l’étude des dépendances entre variables influentes (débit, DCO, NH+4 ,
MES, température. . .) et indicateurs de performance du procédé. Le stagiaire utilisera des outils
avancés tels que les corrélations conditionnelles dynamiques et l’analyse des dépendances retardées.
L’objectif est de caractériser précisément les interactions non linéaires, asymétriques ou à queue
lourde qui gouvernent la variabilité des effluents et les capacités énergétiques du système.
Le quatrième volet consistera à développer et comparer différents modèles de séries temporelles.
Ces modèles incluront des approches statistiques (ARIMAX, modèles structurels), des algorithmes
de machine learning (XGBoost, forêts aléatoires temporelles, N-BEATS) ainsi que des architectures
profondes interprétables (LSTM avec mécanisme d’attention, Temporal Fusion Transformer).
L’évaluation sera réalisée via validation croisée temporelle et critères de robustesse. L’interprétabilité
constituera un axe fort, avec l’utilisation de SHAP temporel, de l’Analyse en Composantes
Principales Fonctionnelle (FPCA) et de méthodes globales de sensibilité. Au terme du stage, le ou la
stagiaire fournira un cadre méthodologique complet comprenant l’harmonisation, la modélisation,
l’interprétabilité et la représentation symbolique des données, constituant une base solide pour une
poursuite en thèse.

Profil du candidat :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.

Formation et compétences requises :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.

Adresse d’emploi :
Laboratoire de Génie Chimique – LGC Labège, 4 Allée Emile Monso CAMPUS INP – ENSIACET, 31400 Toulouse

Document attaché : 202512031402_Demande_Stage_ANR_FlexMIEE_WP2_fr.pdf

Techniques dépliées de factorisation matricielle non-négative pour la séparation de sources audiophoniques dans les enregistrements de « boîtes noires aéronautiques »

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2026-02-15

Contexte :
Ce stage s’inscrit dans le cadre du projet ANR BLeRIOT. Les avions civils et étatiques sont équipés de deux enregistreurs de vol (aussi connus sous le nom de « boîtes noires »), c.-à-d. le Cockpit Voice Recorder (CVR) et le Flight Data Recorder. En cas d’incident ou d’accident, tous deux doivent être retrouvés et analysés par les autorités compétentes. Le service audio du BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) et RESEDA sont les autorités françaises en charge des analyses des CVR des avions respectivement civils et étatiques. Les CVR sont des équipements renforcés protégeant une information importante pour la détermination des facteurs contributifs à la survenue d’un accident ou d’un incident aérien. Pour cette raison la qualité audio des enregistrements, l’audibilité des alarmes du cockpit et l’intelligibilité
des échanges vocaux sont cruciales pour les enquêteurs du BEA et RESEDA. Les contenus des CVR sont alors transcrits par des enquêteurs spécialisés (analystes audio) pour les bénéfices de l’enquête de sécurité.

Les limitations de conception des CVR contraignent les constructeurs d’avion à mélanger les sources sonores audibles dans le cockpit et dans les casques des pilotes (émissions et réceptions radio, échanges sur l’intercom, annonces aux passagers, alarmes sonores, etc) en un nombre réduit de canaux audio envoyés vers le CVR, qui en fait une acquisition numérique et protège cette donnée en cas d’accident. Ainsi l’activation simultanée de plusieurs sources sonores peut conduire à une réduction significative de l’intelligibilité des échanges vocaux, voire un masquage complet d’une ou de plusieurs sources audio.

L’extraction d’informations dans les données CVR s’appuie sur l’expérience des analystes audio du BEA/RESEDA et sur leur capacité à détecter des sources sonores enfouies dans des mélanges audio difficiles. Dans nos récents travaux, nous avons proposé un modèle de mélange audio dans les CVR par rétro-ingénierie et
nous avons montré que les méthodes de la littérature de séparation de sources (SAS) pouvaient être appliquées. La SAS cherche à estimer un ensemble de signaux inconnus à partir de mélanges de ceux-ci, le mélange étant lui-aussi inconnu.

Sujet :

Dans le cadre du projet ANR BLeRIOT qui finance ce sujet de stage, nous ne souhaitons pas développer des méthodes d’apprentissage profond nécessitant une grande base d’apprentissage. Au contraire, les contraintes des enquêtes de sécurité nous poussent à développer des approches qui soient non ou faiblement supervisées et qui soient interprétables.

Les méthodes de factorisation matricielle non-négative (NMF) ont constitué l’état de l’art avant l’apparition du deep learning au début des années 2010, et remplissent les deux critères ci-dessus. Cependant, elles ne fournissent pas toujours de bonnes performances de séparation lorsqu’on les applique à des signaux CVR. Le principe des techniques
déroulées ou dépliées permet de transformer des approches classiques itératives en méthodes d’apprentissage profond et permettent un bon compromis entre performance, interprétabilité du modèle et taille de la base d’apprentissage. Ces techniques ont été combinées à la NMF pour un certain nombre d’applications, avec des spécificités propres aux méthodes proposées.

Dans le cadre de ce stage, nous proposerons des méthodes de NMF dépliées que nous appliquerons aux données issues de CVR. En particulier, nous avons identifié des cas où le modèle proposé dans n’est plus valide, soit à cause d’effets de saturation des canaux audio dûs au système audio avionique, soit à cause d’effets de codage avec
perte dûs à un modèle de CVR particulier. Ces différents effets ont pu être étudiés séparément dans la littérature – par exemple pour le déclippage audio ou pour les effets de codage sur la qualité de séparation – mais jamais à notre connaissance conjointement ni pour les signaux CVR. Un point important du stage consistera à comparer les performances de méthodes classiques ou dépliées de NMF pour de tels scénarios.

Profil du candidat :
Etudiant en sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées), vous êtes curieux et très à l’aise en programmation (Matlab et/ou Python). Vous lisez et parlez l’anglais courant sans difficulté. Vous êtes capable d’expliquer clairement vos travaux, même à des publics non-experts. Bien que non requis, une première expérience en factorisation matricielle (par exemple, en décomposition matricielle ou tensorielle, en séparation de sources, en apprentissage de dictionnaire) sera appréciée.

Les candidats doivent impérativement être de nationalité française ou citoyens d’un état membre de l’Union Européenne, d’un état faisant parti de l’Espace Economique Européen ou de la Confédération Suisse.

Formation et compétences requises :
Sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées)

Adresse d’emploi :
LISIC, antenne de Longuenesse, Campus de la Malassise, 62219 Longuenesse, France

Document attaché : 202512031320_Stage_ANR_BLeRIOT_2026.pdf

Ingénieur·e administrateur·trice de bases de données et développeur.se Python au sein de la Plateforme d’Épidémiosurveillance en Santé Végétale

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : INRAE – BioSP
Durée : 12 mois
Contact : jean-baptiste.louvet@inrae.fr
Date limite de publication : 2026-01-10

Contexte :
La Plateforme d’Épidémiosurveillance en Santé Végétale (Plateforme ESV), créée en 2018, est le premier réseau
fondé par les plus grands acteurs français de la santé du végétal dont l’objectif est d’améliorer la surveillance sanitaire
et biologique du territoire face aux dangers sanitaires ou phénomènes phytosanitaires ayant un impact sur l’état
sanitaire des végétaux. Dans le cadre de cette plateforme, l’unité BioSP héberge la composante INRAE de l’équipe
opérationnelle qui compte 7 ingénieur-e-s. La Plateforme ESV apporte aux services compétents de l’État et, à leur
demande, aux autres responsables de dispositifs de surveillance, un appui méthodologique et opérationnel pour la
conception, le déploiement, l’animation, la valorisation et l’évaluation des dispositifs de surveillance sanitaire, ainsi
qu’en ce qui concerne l’investigation épidémiologique de phénomènes sanitaires propres aux végétaux. Des travaux
sont menés en appui à la surveillance officielle des organismes nuisibles réglementés ou émergents, dont la
surveillance de Xylella fastidiosa, du Nématode du pin, mais également la surveillance de la maladie du
HuangLongBing, de la Fusariose Tropicale Race 4 et du dépérissement de la vigne.
Depuis la création de la plateforme, différents outils ont été développés pour permettre à ses membre de mener leurs
missions à bien. Un outil de collecte et de mise à disposition de connaissances expertes pour la reconnaissance des
organismes nuisibles réglementés et émergents et mise à disposition du grand public a été mis en service en 2022.
Différents développements ont été réalisés pour le projet de Veille Sanitaire Internationale (VSI) : une pipeline de
collecte et de pré-traitement de données, une application web pour le traitement manuel des données, un ORM pour
faciliter les lectures et écritures dans notre base de données.

Sujet :
Au sein de l’équipe opérationnelle, vous aurez pour mission de développer, administrer, maintenir et faire évoluer
les systèmes de gestion de données de la Plateforme ESV. Vous en garantirez la cohérence, l’interopérabilité, la
qualité et la sécurité. Vous participerez également à la définition, à la mise en oeuvre et à l’évolution des bases de
données et des progiciels utilisés par la Plateforme ESV.
Vous prendrez part à l’implémentation, à l’évolution et à la maintenance du système d’information, en particulier
dans ses composantes liées aux bases de données et aux services associés, tels que les services Web sécurisés,
les pipelines de collecte et de traitement des données. Les technologies employées et les développements réalisés
devront tenir compte de la grande hétérogénéité des données traitées par la plateforme. Vous veillerez à concevoir
des solutions suffisamment flexibles pour intégrer de nouveaux formats de données.
Dans le cadre de vos activités, vous assurerez également le développement et la mise en oeuvre d’outils adaptés
aux besoins de la plateforme. Vous veillerez au suivi, au monitoring et à la performance des services mis en ligne,
tout en assurant la maintenance évolutive et corrective des outils et applications existants.
Votre travail se fera en étroite collaboration avec l’ingénieur architecte du système d’information, ainsi qu’avec les
épidémiologistes, les statisticiens et l’ensemble de l’équipe opérationnelle. Vous serez également amené à
interagir avec des informaticien-nes d’unités de recherche d’INRAE, ainsi qu’avec des partenaires de la Plateforme
ESV impliqués dans des systèmes d’information comparables. Enfin, d’autres missions pourront vous être confiées
en fonction des besoins de l’équipe opérationnelle, dans une logique d’adaptabilité et de soutien à la dynamique
collective de la plateforme (exemple : l’administration du plan de gestion de données et du dataverse de la
plateforme).

Profil du candidat :
Nous recherchons une personne titulaire d’un diplôme de licence, maîtrise ou master (bac+3/+5) avec une
spécialisation en informatique, administration de bases de données ou ingénierie logicielle. La capacité de mise en
oeuvre de progiciels, la maîtrise de technologies Web et des connaissances en visualisation des données seront des
atouts certains ; des expériences de travail dans des environnements duals de pré-production (tests et
développements) et de production (services en ligne) seront appréciées.

Formation et compétences requises :
Savoir-faire :
• Compétences nécessaires :
o Maîtrise du langage python
o Connaissances en développement web
o Connaissances en administration PostgreSQL
o Développement : algorithmique, tests
o Connaissance de Git
o Connaissance de Linux
o Rédaction de documentation
• Compétences appréciées :
o Connaissance de GitLab
o Connaissance du framework web Django
o Connaissance de la librairie SQLalchemy
o Expérience en webscraping
o Gestion de projet informatique (cahier des charges, spécifications techniques…)
Savoir-être :
• Compétences nécessaires :
o Être rigoureux, méthodique, savoir s’organiser et planifier son travail
o Être rigoureux, méthodique, savoir s’organiser et planifier son travail
o Savoir communiquer et vulgariser auprès d’un public d’informaticiens et de non-informaticiens
o Faire preuve d’initiative et être force de proposition
o Savoir travailler en équipe
• Compétences appréciées :
o Être à l’aise en anglais
o Avoir des connaissances en santé végétale
o Avoir une appétence pour l’aspect opérationnel

Adresse d’emploi :
Unité : BioSP (Biostatistique et Processus Spatiaux)
Équipe : Équipe OPE (opérationnelle INRAE pour la Plateforme nationale d’Épidémiosurveillance en Santé Végétale)
Lieu d’exercice : INRAE, Centre PACA, 228 route de l’aérodrome, 84000 Avignon

Document attaché : 202512031311_Fiche poste IE BDD 2025_VF.pdf