Quantification d’incertitude appliquée à la détection d’incohérences dans des images

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Loria Nancy / Centralesupélec Metz
Durée : 4-6 mois
Contact : arthur.hoarau@centralesupelec.fr
Date limite de publication : 2026-01-11

Contexte :
Détecter des anomalies ou incohérences locales dans des images grâce à la quantification d’incertitude en apprentissage automatique profond.

Sujet :
En Apprentissage Automatique appliqué à la vision par ordinateur, les cartes de chaleur (heatmaps) sont des outils de visualisation interprétable permettant de comprendre quelles régions d’une image contribuent le plus à la prédiction d’un modèle. Les méthodes les plus répandues, comme Grad-CAM [1], exploitent les gradients des activations internes d’un réseau convolutif pour générer une carte d’importance pondérée.

L’objectif de ce projet est d’obtenir une carte de chaleur des incohérences locales ou anomalies dans une image pour une tâche de classification (e.g., un chat avec des lunettes, un O.V.N.I ou encore une contamination ou impureté sur un aliment) grâce à la quantification d’incertitude du modèle. Quatre grandes familles de méthodes existent dans la littérature pour extraire ces incertitudes : les méthodes bayésiennes, qui modélisent par nature ces différents types d’incertitude [3] ; les méthodes ensemblistes, qui approximent une distribution de probabilités grâce à la variance prédictive des estimateurs [4] ; la minimisation de risque de second ordre, qui modèle l’incertitude du modèle directement dans la fonction de perte ; et les méthodes par densité locale qui s’intéressent au voisinage de l’instance de test.
L’étude pourra en partie s’appuyer sur les récents travaux de [2], qui proposent une méthode pour quantifier l’incertitude liée à l’importance de chaque pixel dans une image.

Voic le document ci-joint pour plus de détails.

[1] R. Selvaraju et. al. Grad-CAM : Visual Explanations from Deep Networks via Gradient-based Localization. IEEE International Conference on Computer Vision (ICCV), 2017.
[2] K. Wickstrom et. al. REPEAT : Improving Uncertainty Estimation in Representation Learning Explainability. Proceedings of the AAAI Conference on Artificial Intelligence, 2025.
[3] A. Kendall et. al. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision ?. Advances in Neural Information Processing Systems, 2017.
[4] B. Lakshminarayanan et. al. Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. Advances in Neural Information Processing Systems, 2017.

Profil du candidat :
– Master 2, préparez une copie de vos notes
– Bon niveau d’anglais
– Appétence pour l’apprentissage automatique

Formation et compétences requises :
– Programmation Python, Machine Learning
– Apprentissage Profond
– Rédaction, Vulgarisation

Adresse d’emploi :
Centralesupélec Metz ou Loria Nancy

Document attaché : 202512051126_sujet_stage.pdf

Ingénieur-e de recherche expert-e en calcul scientifique et intelligence artificielle H/F

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut UTINAM, UMR 6213 CNRS / UMLP
Durée : poste permanent
Contact : jose.lages@univ-fcomte.fr
Date limite de publication : 2025-01-16

Contexte :
L’Institut UTINAM (http://www.utinam.cnrs.fr), UMR 6213, est une unité mixte de recherche sous la double tutelle CNRS et Université Marie et Louis Pasteur (https://www.umlp.fr). Cette unité compte une centaine de personnels et mène des recherches en astrophysique (évolution et structure de la Galaxie, dynamique et composition des petits corps du système solaire), en physique théorique (technologies quantiques, réseaux complexes), en physique moléculaire (calculs ab initio, DFT) et en chimie (matériaux et surfaces fonctionnels, sonochimie et traitement de surfaces).

Le ou la titulaire sera intégré-e à la Plateforme d’Informatique Scientifique de l’Institut UTINAM (PISU), située à Besançon sur le site historique de l’Observatoire des Sciences de l’Univers THETA (https://theta.obs-besancon.fr), et sera sous la responsabilité hiérarchique du responsable de la plateforme. Il ou elle interagira de façon quotidienne avec les chercheurs des 5 équipes de recherche et aura accès aux clusters CPU/GPU de l’unité, de l’Université, ainsi qu’aux supercalculateurs nationaux. Il ou elle bénéficiera d’une visibilité internationale forte via le Modèle de la Galaxie de Besançon (service national d’observation de l’INSU, référence mondiale pour la préparation et l’exploitation des missions spatiales).

Cette fonction ouvre droit à la perception de l’Indemnité de Référence pour les Informaticiens (IRI).
Après 6 mois d’ancienneté, une partie importante des activités sont télétravaillables selon accord avec le responsable et dans le respect de la réglementation CNRS. Formations et accompagnement assurés.

Le poste sur lequel vous candidatez se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST) et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l’autorité compétente du MESR.

Sujet :
L’ingénieur-e de recherche aura pour mission de fournir une expertise de haut niveau en calcul scientifique, calcul haute performance et intelligence artificielle au service des projets de l’unité (astrophysique galactique et du système solaire, physique théorique, physique moléculaire), d’assurer la maintenance, l’optimisation et le développement des codes scientifiques – notamment le Modèle de la Galaxie de Besançon -, et d’apporter un appui numérique transversal aux chercheurs, y compris sur les aspects informatiques généraux de l’unité.

Activités
1. Contribuer à la maintenance, l’optimisation et le développement du Modèle de la Galaxie de Besançon (Service National d’Observation de l’INSU) :
– mise à jour des composantes (dynamique, populations stellaires, chimie, extinction),
– intégration de nouvelles contraintes observationnelles stellaires (Gaia, Euclid, LSST, Roman, etc.) et interstellaires (données hyperspectrales CO, HI4PI, SKA, etc.),
– intégrer de nouveaux outils d’intelligence artificielle (machine learning, deep learning), gestion du service web et du client Python

2. Développer et déployer des méthodes d’intelligence artificielle et d’apprentissage machine pour accélérer les simulations, traiter les grands volumes de données et améliorer les modèles (ex. : réseaux de neurones pour classification/cartographie 3D, ML-DFT, LLM, analyse de réseaux complexes…)

3. Apporter un appui expert en calcul haute performance et calcul scientifique aux chercheurs
– Optimisation de codes (parallélisation MPI/OpenMP/CUDA, GPU, Fortran/C++/Python)
– Participer à la rédaction de propositions de projets (ANR, Europe, GENCI), à la valorisation scientifique et à la formation interne sur les méthodes IA/calcul scientifique
– Traitement et analyse de données massives (LSST, Gaia, Euclid…) et/ou hyperspectrales

4. Concevoir, administrer et maintenir bases de données scientifiques de l’unité, outils de workflow et stockage pour les projets de l’unité

5. Contribuer au support informatique transversal de l’unité :
– aide à la gestion des clusters locaux CPU/GPU,
– aide à l’installation/configuration logicielle,
– maintenance d’outils internes

Profil du candidat :
Savoirs :
– Expertise approfondie en calcul scientifique et HPC (parallélisation, GPU, CUDA, MPI, OpenMP)
– Maîtrise avancée de Python scientifique (numpy, scipy, pandas, jax, workflow) et Fortran/C++ (codes legacy)
– Expertise en intelligence artificielle et apprentissage machine (PyTorch/TensorFlow, scikit-learn, réseaux de neurones…)
– Connaissances solides en bases de données et big data (SQL/NoSQL, HDF5, formats astronomiques)
– Connaissances en astrophysique ou en physique computationnelle appréciées
– Connaissances sur les impacts environnementaux du numérique et des leviers de réduction de ces impacts appréciées
– Anglais technique et scientifique : niveau C1 minimum (lu, écrit, parlé)

Savoir-faire :
– Développer, optimiser et maintenir des codes scientifiques complexes sur clusters et supercalculateurs
– Concevoir et entraîner des modèles IA/ML pour applications astrophysiques et physiques
– Gérer le cycle complet de projets calcul/IA (développement, tests, déploiement, documentation)
– Maîtriser des outils de gestion de versions pour le développement de projets numériques. Une connaissance des outils de développement collaboratifs type GitHub, Jenkins, Travis, etc. est souhaitable
– Assister et former des utilisateurs en calcul numérique et IA
– Rédiger documentation et articles scientifiques en français/anglais

Savoir-être :
– Autonomie et initiative
– Rigueur et fiabilité
– Pédagogie et sens du service
– Capacité d’adaptation rapide
– Excellente aptitude au travail interdisciplinaire

Formation et compétences requises :
Réservé aux agents CNRS (fonctionnaires et CDI) et aux fonctionnaires et CDI de droit public

Adresse d’emploi :
https://emploi.cnrs.fr/

https://emploi.cnrs.fr/Offres/MOBINT/UMR6213-MOBINT-P58005/Default.aspx

Modélisation de séries temporelles interprétable et gestion d’incertitude : exploiter les données multi-sources pour la surveillance avancée des stations d’épuration

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire de Génie Chimique (LGC)
Durée : 6 mois
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2026-02-15

Contexte :
Les stations d’épuration constituent aujourd’hui des infrastructures critiques pour la protection de
l’environnement et la santé publique. Leur fonctionnement, en particulier pour les unités équipées de
bioréacteurs à membranes (MBR), repose sur un suivi continu et de haute précision d’un ensemble
de variables physico-chimiques, hydrauliques et biologiques. Ces installations génèrent désormais
d’importants volumes de données temporelles provenant de capteurs multiples, d’analyses de laboratoire
et de systèmes d’acquisition hétérogènes, avec des pas de temps très variés et souvent
asynchrones.
Dans ce contexte, l’analyse avancée des séries temporelles joue un rôle central. Les procédés biologiques
présentent des dynamiques fortement non linéaires, une variabilité importante des charges
polluantes et des interactions complexes entre débit, température, oxygénation, concentrations azotées
et performances de filtration. Exploiter ces données brutes nécessite de relever plusieurs défis
fondamentaux : bruit instrumental, dérives progressives, valeurs manquantes persistantes, phénomènes
de ruptures (changepoints) liés aux perturbations hydrauliques ou opérationnelles, ainsi que
des structures de dépendance non triviales à différentes échelles temporelles (minute, heure, jour,
semaine). Une analyse robuste de ces séries temporelles est indispensable pour détecter précocement
les dysfonctionnements, anticiper les variations de charge, optimiser l’aération (source majeur de
consommation énergétique) et garantir la stabilité de la qualité des effluents rejetés.
Le projet ANR JCJC FlexMIEE se positionne précisément sur ces enjeux en visant à développer
une nouvelle génération d’outils de modélisation intégrée alliant procédés, statistiques avancées,
modélisation probabiliste et IA explicable. Le Work Package 2 (WP2), coeur du présent stage, a
pour objectif de construire un pipeline méthodologique complet permettant : (i) d’harmoniser et
fusionner les données multi-sources selon différentes résolutions temporelles, (ii) de quantifier et
représenter l’incertitude via des méthodes modernes (processus gaussiens, intervalles, histogrammes
dynamiques), (iii) d’identifier les structures de dépendance, linéaires et non linéaires, à l’aide d’outils
tels que les copules ou les corrélations conditionnelles dynamiques, (iv) de développer des modèles
prédictifs de séries temporelles interprétables (LSTM explicables, modèles structurels, Transformeurs
temporels), et enfin (v) de préparer un socle de données fiable pour la modélisation hybride
des procédés au sein du WP3.
Ainsi, ce stage s’inscrit dans une dynamique de recherche appliquée ambitieuse où la statistique
avancée, la science des données et la modélisation des séries temporelles deviennent des leviers
essentiels pour renforcer la performance, la robustesse et l’efficacité énergétique des systèmes de
traitement des eaux usées. Le travail réalisé contribuera directement à la conception de futures «
stations intelligentes », plus résilientes face aux incertitudes environnementales et opérationnelles.

Objectifs du stage
L’objectif est de construire un cadre méthodologique complet pour traiter, fusionner et analyser
les données hétérogènes issues d’une STEP industrielle, puis développer des modèles temporels
explicables permettant de comprendre l’impact des influents sur les performances énergétiques et
épuratoires.
Les enjeux scientifiques incluent :
— harmonisation temporelle multi-échelles ;
— imputation avancée (processus gaussiens, modèles d’état, MICE) ;
— dépendances non linéaires via copules et corrélations dynamiques ;
— modèles temporels interprétables (ARIMAX, XGBoost, LSTM explicables, TFT) ;
— analyse de sensibilité globale et SHAP temporel ;
— représentation symbolique des données (intervalles, distributions).

Sujet :
Le stage s’inscrit dans le Work Package 2 (WP2) du projet ANR FlexMIEE, consacré à la gestion
avancée des données hétérogènes issues d’une station d’épuration industrielle. Le travail attendu est
structuré en quatre volets complémentaires formant un pipeline méthodologique complet.
Dans un premier temps, le ou la stagiaire réalisera une prise en main approfondie de l’ensemble des
bases de données multi-sources (mesures en ligne, analyses de laboratoire, historiques opératoires
et données biologiques). Cette étape comprendra une revue de littérature ciblée sur les notions
d’incertitude dans les données temporelles, les méthodes modernes de dépendances multivariées ainsi
que les approches d’explicabilité en intelligence artificielle (XAI) appliquées aux modèles de séries
temporelles. L’objectif est d’acquérir rapidement une compréhension globale des caractéristiques
des données et des défis méthodologiques associés.
Le deuxième volet concernera l’harmonisation temporelle des données. Les jeux de données disponibles
présentent des pas de temps distincts, des valeurs manquantes, des dérives instrumentales et
des anomalies locales. Le stagiaire mettra en oeuvre des méthodes robustes de détection de ruptures
(changepoints bayésiens, tests non paramétriques), de fusion temporelle multi-échelles et d’imputation
probabiliste. Une attention particulière sera portée aux processus gaussiens, aux modèles
d’état, aux approches MICE et aux autoencodeurs, avec une analyse comparative de la capacité de
chaque méthode à préserver la cohérence physique et statistique des signaux.
Le troisième volet portera sur l’étude des dépendances entre variables influentes (débit, DCO, NH+4 ,
MES, température. . .) et indicateurs de performance du procédé. Le stagiaire utilisera des outils
avancés tels que les corrélations conditionnelles dynamiques et l’analyse des dépendances retardées.
L’objectif est de caractériser précisément les interactions non linéaires, asymétriques ou à queue
lourde qui gouvernent la variabilité des effluents et les capacités énergétiques du système.
Le quatrième volet consistera à développer et comparer différents modèles de séries temporelles.
Ces modèles incluront des approches statistiques (ARIMAX, modèles structurels), des algorithmes
de machine learning (XGBoost, forêts aléatoires temporelles, N-BEATS) ainsi que des architectures
profondes interprétables (LSTM avec mécanisme d’attention, Temporal Fusion Transformer).
L’évaluation sera réalisée via validation croisée temporelle et critères de robustesse. L’interprétabilité
constituera un axe fort, avec l’utilisation de SHAP temporel, de l’Analyse en Composantes
Principales Fonctionnelle (FPCA) et de méthodes globales de sensibilité. Au terme du stage, le ou la
stagiaire fournira un cadre méthodologique complet comprenant l’harmonisation, la modélisation,
l’interprétabilité et la représentation symbolique des données, constituant une base solide pour une
poursuite en thèse.

Profil du candidat :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.

Formation et compétences requises :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.

Adresse d’emploi :
Laboratoire de Génie Chimique – LGC Labège, 4 Allée Emile Monso CAMPUS INP – ENSIACET, 31400 Toulouse

Document attaché : 202512031402_Demande_Stage_ANR_FlexMIEE_WP2_fr.pdf

Techniques dépliées de factorisation matricielle non-négative pour la séparation de sources audiophoniques dans les enregistrements de « boîtes noires aéronautiques »

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2026-02-15

Contexte :
Ce stage s’inscrit dans le cadre du projet ANR BLeRIOT. Les avions civils et étatiques sont équipés de deux enregistreurs de vol (aussi connus sous le nom de « boîtes noires »), c.-à-d. le Cockpit Voice Recorder (CVR) et le Flight Data Recorder. En cas d’incident ou d’accident, tous deux doivent être retrouvés et analysés par les autorités compétentes. Le service audio du BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) et RESEDA sont les autorités françaises en charge des analyses des CVR des avions respectivement civils et étatiques. Les CVR sont des équipements renforcés protégeant une information importante pour la détermination des facteurs contributifs à la survenue d’un accident ou d’un incident aérien. Pour cette raison la qualité audio des enregistrements, l’audibilité des alarmes du cockpit et l’intelligibilité
des échanges vocaux sont cruciales pour les enquêteurs du BEA et RESEDA. Les contenus des CVR sont alors transcrits par des enquêteurs spécialisés (analystes audio) pour les bénéfices de l’enquête de sécurité.

Les limitations de conception des CVR contraignent les constructeurs d’avion à mélanger les sources sonores audibles dans le cockpit et dans les casques des pilotes (émissions et réceptions radio, échanges sur l’intercom, annonces aux passagers, alarmes sonores, etc) en un nombre réduit de canaux audio envoyés vers le CVR, qui en fait une acquisition numérique et protège cette donnée en cas d’accident. Ainsi l’activation simultanée de plusieurs sources sonores peut conduire à une réduction significative de l’intelligibilité des échanges vocaux, voire un masquage complet d’une ou de plusieurs sources audio.

L’extraction d’informations dans les données CVR s’appuie sur l’expérience des analystes audio du BEA/RESEDA et sur leur capacité à détecter des sources sonores enfouies dans des mélanges audio difficiles. Dans nos récents travaux, nous avons proposé un modèle de mélange audio dans les CVR par rétro-ingénierie et
nous avons montré que les méthodes de la littérature de séparation de sources (SAS) pouvaient être appliquées. La SAS cherche à estimer un ensemble de signaux inconnus à partir de mélanges de ceux-ci, le mélange étant lui-aussi inconnu.

Sujet :

Dans le cadre du projet ANR BLeRIOT qui finance ce sujet de stage, nous ne souhaitons pas développer des méthodes d’apprentissage profond nécessitant une grande base d’apprentissage. Au contraire, les contraintes des enquêtes de sécurité nous poussent à développer des approches qui soient non ou faiblement supervisées et qui soient interprétables.

Les méthodes de factorisation matricielle non-négative (NMF) ont constitué l’état de l’art avant l’apparition du deep learning au début des années 2010, et remplissent les deux critères ci-dessus. Cependant, elles ne fournissent pas toujours de bonnes performances de séparation lorsqu’on les applique à des signaux CVR. Le principe des techniques
déroulées ou dépliées permet de transformer des approches classiques itératives en méthodes d’apprentissage profond et permettent un bon compromis entre performance, interprétabilité du modèle et taille de la base d’apprentissage. Ces techniques ont été combinées à la NMF pour un certain nombre d’applications, avec des spécificités propres aux méthodes proposées.

Dans le cadre de ce stage, nous proposerons des méthodes de NMF dépliées que nous appliquerons aux données issues de CVR. En particulier, nous avons identifié des cas où le modèle proposé dans n’est plus valide, soit à cause d’effets de saturation des canaux audio dûs au système audio avionique, soit à cause d’effets de codage avec
perte dûs à un modèle de CVR particulier. Ces différents effets ont pu être étudiés séparément dans la littérature – par exemple pour le déclippage audio ou pour les effets de codage sur la qualité de séparation – mais jamais à notre connaissance conjointement ni pour les signaux CVR. Un point important du stage consistera à comparer les performances de méthodes classiques ou dépliées de NMF pour de tels scénarios.

Profil du candidat :
Etudiant en sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées), vous êtes curieux et très à l’aise en programmation (Matlab et/ou Python). Vous lisez et parlez l’anglais courant sans difficulté. Vous êtes capable d’expliquer clairement vos travaux, même à des publics non-experts. Bien que non requis, une première expérience en factorisation matricielle (par exemple, en décomposition matricielle ou tensorielle, en séparation de sources, en apprentissage de dictionnaire) sera appréciée.

Les candidats doivent impérativement être de nationalité française ou citoyens d’un état membre de l’Union Européenne, d’un état faisant parti de l’Espace Economique Européen ou de la Confédération Suisse.

Formation et compétences requises :
Sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées)

Adresse d’emploi :
LISIC, antenne de Longuenesse, Campus de la Malassise, 62219 Longuenesse, France

Document attaché : 202512031320_Stage_ANR_BLeRIOT_2026.pdf

Ingénieur·e administrateur·trice de bases de données et développeur.se Python au sein de la Plateforme d’Épidémiosurveillance en Santé Végétale

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : INRAE – BioSP
Durée : 12 mois
Contact : jean-baptiste.louvet@inrae.fr
Date limite de publication : 2026-01-10

Contexte :
La Plateforme d’Épidémiosurveillance en Santé Végétale (Plateforme ESV), créée en 2018, est le premier réseau
fondé par les plus grands acteurs français de la santé du végétal dont l’objectif est d’améliorer la surveillance sanitaire
et biologique du territoire face aux dangers sanitaires ou phénomènes phytosanitaires ayant un impact sur l’état
sanitaire des végétaux. Dans le cadre de cette plateforme, l’unité BioSP héberge la composante INRAE de l’équipe
opérationnelle qui compte 7 ingénieur-e-s. La Plateforme ESV apporte aux services compétents de l’État et, à leur
demande, aux autres responsables de dispositifs de surveillance, un appui méthodologique et opérationnel pour la
conception, le déploiement, l’animation, la valorisation et l’évaluation des dispositifs de surveillance sanitaire, ainsi
qu’en ce qui concerne l’investigation épidémiologique de phénomènes sanitaires propres aux végétaux. Des travaux
sont menés en appui à la surveillance officielle des organismes nuisibles réglementés ou émergents, dont la
surveillance de Xylella fastidiosa, du Nématode du pin, mais également la surveillance de la maladie du
HuangLongBing, de la Fusariose Tropicale Race 4 et du dépérissement de la vigne.
Depuis la création de la plateforme, différents outils ont été développés pour permettre à ses membre de mener leurs
missions à bien. Un outil de collecte et de mise à disposition de connaissances expertes pour la reconnaissance des
organismes nuisibles réglementés et émergents et mise à disposition du grand public a été mis en service en 2022.
Différents développements ont été réalisés pour le projet de Veille Sanitaire Internationale (VSI) : une pipeline de
collecte et de pré-traitement de données, une application web pour le traitement manuel des données, un ORM pour
faciliter les lectures et écritures dans notre base de données.

Sujet :
Au sein de l’équipe opérationnelle, vous aurez pour mission de développer, administrer, maintenir et faire évoluer
les systèmes de gestion de données de la Plateforme ESV. Vous en garantirez la cohérence, l’interopérabilité, la
qualité et la sécurité. Vous participerez également à la définition, à la mise en oeuvre et à l’évolution des bases de
données et des progiciels utilisés par la Plateforme ESV.
Vous prendrez part à l’implémentation, à l’évolution et à la maintenance du système d’information, en particulier
dans ses composantes liées aux bases de données et aux services associés, tels que les services Web sécurisés,
les pipelines de collecte et de traitement des données. Les technologies employées et les développements réalisés
devront tenir compte de la grande hétérogénéité des données traitées par la plateforme. Vous veillerez à concevoir
des solutions suffisamment flexibles pour intégrer de nouveaux formats de données.
Dans le cadre de vos activités, vous assurerez également le développement et la mise en oeuvre d’outils adaptés
aux besoins de la plateforme. Vous veillerez au suivi, au monitoring et à la performance des services mis en ligne,
tout en assurant la maintenance évolutive et corrective des outils et applications existants.
Votre travail se fera en étroite collaboration avec l’ingénieur architecte du système d’information, ainsi qu’avec les
épidémiologistes, les statisticiens et l’ensemble de l’équipe opérationnelle. Vous serez également amené à
interagir avec des informaticien-nes d’unités de recherche d’INRAE, ainsi qu’avec des partenaires de la Plateforme
ESV impliqués dans des systèmes d’information comparables. Enfin, d’autres missions pourront vous être confiées
en fonction des besoins de l’équipe opérationnelle, dans une logique d’adaptabilité et de soutien à la dynamique
collective de la plateforme (exemple : l’administration du plan de gestion de données et du dataverse de la
plateforme).

Profil du candidat :
Nous recherchons une personne titulaire d’un diplôme de licence, maîtrise ou master (bac+3/+5) avec une
spécialisation en informatique, administration de bases de données ou ingénierie logicielle. La capacité de mise en
oeuvre de progiciels, la maîtrise de technologies Web et des connaissances en visualisation des données seront des
atouts certains ; des expériences de travail dans des environnements duals de pré-production (tests et
développements) et de production (services en ligne) seront appréciées.

Formation et compétences requises :
Savoir-faire :
• Compétences nécessaires :
o Maîtrise du langage python
o Connaissances en développement web
o Connaissances en administration PostgreSQL
o Développement : algorithmique, tests
o Connaissance de Git
o Connaissance de Linux
o Rédaction de documentation
• Compétences appréciées :
o Connaissance de GitLab
o Connaissance du framework web Django
o Connaissance de la librairie SQLalchemy
o Expérience en webscraping
o Gestion de projet informatique (cahier des charges, spécifications techniques…)
Savoir-être :
• Compétences nécessaires :
o Être rigoureux, méthodique, savoir s’organiser et planifier son travail
o Être rigoureux, méthodique, savoir s’organiser et planifier son travail
o Savoir communiquer et vulgariser auprès d’un public d’informaticiens et de non-informaticiens
o Faire preuve d’initiative et être force de proposition
o Savoir travailler en équipe
• Compétences appréciées :
o Être à l’aise en anglais
o Avoir des connaissances en santé végétale
o Avoir une appétence pour l’aspect opérationnel

Adresse d’emploi :
Unité : BioSP (Biostatistique et Processus Spatiaux)
Équipe : Équipe OPE (opérationnelle INRAE pour la Plateforme nationale d’Épidémiosurveillance en Santé Végétale)
Lieu d’exercice : INRAE, Centre PACA, 228 route de l’aérodrome, 84000 Avignon

Document attaché : 202512031311_Fiche poste IE BDD 2025_VF.pdf

An NLP framework to automatically evaluate the adequacy and relevance of assessment items

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SAMOVAR, Télécom SudParis, IP Paris
Durée : 6 Months
Contact : luca.benedetto@telecom-sudparis.eu
Date limite de publication : 2026-01-10

Contexte :

Sujet :
This project proposes developing an NLP framework to automatically evaluate the adequacy and relevance of assessment items in relation to their associated learning content. While existing research in Question Difficulty Estimation from Text (QDET) has focused primarily on analyzing exam items in isolation, this work addresses a critical gap by evaluating questions within the context of course lectures and learning paths. The framework will employ a combination of traditional machine learning, Information Retrieval techniques, semantic embeddings, and Large Language Models to assess newly created exam questions for validity, relevance, and difficulty.

Profil du candidat :
Previous experience with Python and Machine Learning is required.

Formation et compétences requises :

Adresse d’emploi :
19 place Marguerite Perey, 91120 Palaiseau France

9 rue Charles Fourier, 91011 Evry-Courcouronnes France

Document attaché : 202512031306_2025_11___Proposal_Stage_M2.pdf

Generative AI for Ransomware Time‑Series Detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire DVRC
Durée : 4-6 mois
Contact : christophe.rodrigues@devinci.fr
Date limite de publication : 2026-02-02

Contexte :

Sujet :
M2 Research Internship

Generative AI for Ransomware Time‑Series Detection

The context of the work is Owlyshield, a behavioral time‑series dataset built from Endpoint Detection and Response (EDR) logs to detect ransomware attacks. We aim to generate realistic synthetic sequences that preserve temporal structure and inter‑feature dependencies to improve anomaly detection (benign or ransomware) on this dataset.
Missions
The intern will:

review deep generative models for time series (with a focus on transformer‑style methods);
design and implement conditional generative models (e.g., TimeGAN‑like architectures) to produce labeled multivariate sequences consistent with Owlyshield statistics;
define quality metrics (distributional similarity, temporal coherence, correlation structures);
evaluate the impact of synthetic data on downstream ransomware/anomaly detection performance.

Profile
M2 student in Computer Science, Data/AI, or Applied Mathematics. Solid background in machine learning and Python; experience with deep learning (PyTorch or TensorFlow) and time‑series data. Knowledge of generative models (GANs/VAEs) and transformers, cybersecurity is a plus. Autonomy, rigor, and good written English are expected.
Practical information
Duration: 4-6 months (full-time, 2026).
Location: ESILV, Paris
Supervision: Sourav Rai, Christophe Rodrigues and Nga Nguyen
Application
Send CV, cover letter, grades and recommendation letters to christophe.rodrigues@devinci.fr and nga.nguyen@devinci.fr with subject: “M2 Internship – Generative Time‑Series”.
Dataset/ References
[1] SitInCloud, “Ransomware Detection (Owlyshield documentation),” https://docs.sitincloud.com/concepts/ransomware-detection.html
[2] J. Yoon, D. Jarrett, M. van der Schaar, “Time‑series Generative Adversarial Networks,” NeurIPS, 2019.
[3] X. Li, V. Metsis, H. Wang, A. H. H. Ngu, “TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network,” in Proc. 20th Int. Conf. on Artificial Intelligence in Medicine (AIME), 2022.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Paris, La Défense

Generative AI for Ransomware Time‑Series Detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire DVRC
Durée : 4-6 mois
Contact : christophe.rodrigues@devinci.fr
Date limite de publication : 2026-02-02

Contexte :

Sujet :
M2 Research Internship

Generative AI for Ransomware Time‑Series Detection

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Paris, La Défense

Construction de graphes de connaissances historiques à l’aide d’algorithmes de graphes, LLMs et RAG

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 mois
Contact : camelia.constantin@lip6.fr
Date limite de publication : 2025-12-27

Contexte :
Nos recherches portent sur les bases prosopographiques ayant pour objet la période médiévale. La prosopographie est une méthode des sciences sociales (sociologie, histoire) dans laquelle on cherche à analyser un groupe à partir d’une étude systématique des itinéraires singuliers des individus qui le composent. Pour cela les chercheurs collectent tous les faits (factoïdes) possibles sur chaque individu. En histoire médiévale, ces données sont rares, discontinues, incertaines et souvent d’une qualité médiocre. En effet, les experts de ces disciplines gèrent la qualité et l’incertitude dans le temps et l’espace. Ainsi, les personnes sont désignées par plusieurs noms, les lieux changent de noms et de frontières avec le temps ou selon l’auteur et un parcours de diplomation peut changer en fonction de l’époque, du lieu ou de la classe sociale de la personne. En raison de cette complexité, de nombreuses règles restent opaques pour les historiens médiévistes. En organisant ces données sous forme de graphe de connaissances, nous pouvons représenter des concepts, des personnes, des lieux ou des objets sous forme des nœuds et des interactions entre ceux-ci, comme telles que des affiliations ou des localisations comme arêtes avec des propriétés. Cela permet une organisation sémantique des données qui aide à mieux comprendre les contextes et les relations complexes entre les entités mentionnées dans les textes et de visualiser clairement l’interconnexion entre les différents éléments d’un ensemble de données.
La construction de graphes de connaissances à partir de sources de données ambiguës soulève plusieurs difficultés majeures liées à la nature imparfaite, hétérogène et souvent imprécise des textes ou bases d’origine. Les principales sources de complexité résident dans l’ambiguïté des entités (lorsqu’un même nom peut désigner plusieurs objets distincts ou, inversement, lorsqu’une entité apparaît sous des formes lexicales variées (abréviations, translittérations, synonymes). S’ajoutent à cela l’imprécision ou l’incomplétude des informations (par exemple, des dates approximatives ou des localisations vagues), qui favorisent la duplication d’entités lors de l’intégration : plusieurs nœuds représentant en réalité la même entité peuvent être créés. Les textes peuvent également contenir des relations implicites difficiles à extraire automatiquement, ou des contradictions entre sources multiples.

Parmi ces problèmes, certains peuvent être atténués par l’usage de modèles de langage de grande taille (LLMs), capables d’intégrer des indices sémantiques complexes et de désambiguïser les entités en tenant compte du contexte global. Les LLMs améliorent la reconnaissance des relations implicites et la cohérence sémantique entre textes hétérogènes. Cependant, plusieurs défis demeurent : les modèles ne résolvent pas les ambiguïtés lorsque deux entités très similaires apparaissent dans le texte sans marqueurs de distinction, ni les contradictions entre sources (le LLM peut les reconnaître mais ne garantit pas de choisir la bonne version, ou peut donner une confiance excessive à l’une sans justification). Ils n’éliminent pas non plus les duplications induites par des informations incomplètes ou imprécises, et peuvent introduire de nouveaux biais, notamment par hallucination d’entités ou surestimation de leur confiance. Dans des domaines historiques, le LLM peut manquer de données de formation spécifiques, ce qui réduit sa performance. Ces limites exigent l’intégration de méthodes complémentaires, telles que la reconnaissance d’entités nommées (NER), qui impose un typage explicite et stable des entités (personne, organisation, lieu, date, etc.), en permettant ainsi de filtrer les entités erronées ou inventées. En s’appuyant sur des lexiques, ontologies ou dictionnaires de référence, elle facilite la normalisation et l’alignement des entités, limitant ainsi la création d’alias ou de doublons. Des méthodes complémentaires, comme entity linking ou l’utilisation de règles symboliques peuvent aider à l’alignement des entités obtenues par des LLMs.

L’ajout de réseaux de neurones de graphes (GNN) améliore la désambiguïsation d’entités lorsque le contexte textuel seul est insuffisant, en s’appuyant sur les voisins et les motifs relationnels pour identifier la bonne correspondance, en exploitant la structure relationnelle du graphe. Ils renforcent également la détection de doublons et la fusion d’entités similaires en apprenant des représentations qui intègrent à la fois les attributs et les connexions locales.

Sujet :
Afin de pouvoir améliorer le liage d’entités, il est important d’avoir le maximum d’information pour chaque entité, et notamment ses liens avec les autres entités. L’objectif de ce stage est la mise en œuvre d’une architecture RAG-GNN intégrée, destinée à la construction, à la détection des duplicats et à la fusion d’entités d’un graphe de connaissances construit à partir de données prosopographiques Studium ambigües. Ces données existent sous forme de fiches où les mêmes individus ou lieux apparaissent plusieurs fois avec une description très différente suivant la source (donc des propriétés et relations différentes) voire des noms parfois très différents. Cette démarche vise à améliorer la qualité et l’utilité du graphe en découvrant et en intégrant des informations qui ne sont pas explicitement présentes mais qui peuvent être inférées à partir des relations et des attributs existants. D’autres jeux de données comme KnowledgeNet pourront être également utilisés.
Méthodologie : La méthodologie combine des modèles de langage préentraînés, recherche contextuelle, et apprentissage de représentations de graphes pour la construction et la consolidation de graphes de connaissances à partir de données historiques ambiguës. Dans une première étape, un modèle de langage de grande taille (LLM) est utilisé pour extraire automatiquement des entités, relations et attributs (dates, lieux, personnes) à partir des textes. Cette extraction est renforcée par des méthodes de reconnaissance d’entités nommées (NER), assurant une détection typée et une segmentation fiable des mentions, conformément aux principes décrits dans [1]. Le graphe ainsi obtenu sera stocké dans une base de données graphe (Neo4j) avec traçabilité des chunks sources et va constituer une base brute soumise à un processus d’enrichissement et de validation des liens de duplication( sameAs)). Un module de Retrieval-Augmented Generation (RAG) sera utilisé dans une première phase pour une décision sameAs ou notSame pour chaque paire d’entités candidate, accompagnée de preuves textuelles. Le LLM reçoit le contexte enrichi (entité A, entité B, leurs propriétés, leurs relations adjacentes dans le graphe et leurs chunks sources) pour prendre une décision de fusion, en fournisant la provenance factuelle pour la décision de résolution d’entité [2]. Les Graph Neural Networks (GNNs) sont ensuite utilisés pour exploiter la structure relationnelle du graphe et apprendre des représentations topologiques capables d’identifier les clusters d’entités équivalentes [3]. Le GNN sélectionne et connecte des sous-graphes d’un graphe de connaissances qui sont ensuite convertis en entrées textuelles pour un LLM [4], permettant la mise en place d’une boucle de rétroaction LLM–GNN afin d’affiner progressivement les décisions de fusion : les inférences structurelles issues du GNN guident le LLM dans ses réévaluations contextuelles, tandis que les jugements linguistiques du LLM enrichissent les représentations structurelles apprises par le GNN.

Profil du candidat :
Etudiant en Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :
Connaissances en python et en machine learning.

Adresse d’emploi :
LIP6 (Sorbonne Université),
Équipe Bases de Données http://www-bd.lip6.fr/

Document attaché : 202511272002_sujetStageKG_2026.pdf

Appel à soumission d’articles pour l’atelier XAI4Sciences @EDBT2026

Date : 2026-03-24
Lieu : Tampere, Finland

Dear Colleagues,
We are pleased to announce the Call for Papers for XAI4Science2026 workshop, to be held on 24th March 2026 at Tampere (Finland) in conjunction with EDBT.

We invite scholars, researchers, and practitioners to share innovative work, present new findings, and engage in meaningful discussions on emerging developments in the field of Explainable Machine Learning (XAI)

Research topics include, but are not limited to:

-Generative AI methods for automatically propose new hypothesis compatible with the available scientific data and domain knowledge
-Explanation methods for validating or contrasting scientific hypotheses by uncovering cause-effect relationships
-Interpretable AI methods to discover spatial and temporal dynamics in complex systems
-Formal verification to bridge the gap between data-driven decisions and domain-specific constraints
-Multimodal Explanations using graphical (visual), symbolic (equations), and sentential (verbal) interfaces
-Quantitative evaluation of explanations utility in scientific domains
-Exploratory processes of explanations involving complex interactions between human, technical, and organizational factors

We are welcoming submissions of short papers (4 pages limit) and regular papers (6 pages limit), including all figures and tables. Unlimited pages are allowed for references and appendices in the same PDF as the main paper.

Submission Deadline : 05/01/2026
Notification : 02/02/2026
Camera-ready: 17/02/2026

Please find all the details of the workshop below:

International Workshop on Explainable Data Science and Machine Learning for the Sciences (XAI4Science)
24 March 2026, Tampere, Finland In conjunction with EDBT/ICDT 2026
https://www.etis-lab.fr/XAI4Science2026

Over the last couple of decades, the increasing availability of advanced computational resources and big scientific data boosted data-driven methods in scientific discovery and innovation. From neuroscience and astrophysics, to medicine and pharmaceutics, chemistry and material sciences up to weather and climate sciences, scientists currently process large volumes of experimental data and employ data science and machine learning techniques to validate and generate scientific hypotheses. Unfortunately, existing AI systems used to engineer and analyse data are mainly opaque, i.e., it is difficult to understand why they return a specific output or what they could return if input data were slightly different. They typically made automated decisions by fixating on a particular hypothesis under investigation without providing evidence for or against it. Recent advances in explainable artificial intelligence (XAI) aim to bridge the gap between a human cognitive decision-making process and AI systems. However, XAI methods mainly focus on understanding AI model behavior rather than how to exploit it for discovering new human knowledge. Their impact in complex problem solving is currently limited by the lack of completeness, robustness and universality across AI models, data modalities and scientific pipelines. The XAI4Science workshop aims to bring together researchers, practitioners, and domain experts working at the intersection of data science, machine learning and scientific disciplines for discussing advances in XAI methods that can effectively and efficiently support scientific discovery. The workshop will include a wide range of explanation techniques (i) for analysing diverse data modalities (e.g., from image, to time series and graphs) (ii) using several AI models of increasing generality (e.g., trained from scratch, pre-trained or foundation models) (iii) via complex laboratory pipelines with scientists in the loop.

Organizers:
Vassilis Christophides (ETIS, CNRS, ENSEA), Jin-Song Dong (National University of Singapore), Nicolas Labroche (Univ. of Tours), Evaggelia Pitoura (Univ. of Ioannina, Archimedes Research Unit of Athena RC), Céline Robardet (INSA Lyon, LIRIS), Yongfeng Zhang (Rutgers University)

PC:
Julien Aligon (Université Toulouse Capitole, IRIT Lab, SIG Team)
Alexandre Chanson (Université de Tours, LIFAT Lab)
Emmanuel Doumard (Université de Tours, LIFAT Lab)
Moncef Garouani (Université Toulouse Capitole, IRIT Lab, SIG Team)
Leilani Gilpin (University of California Santa Cruz, AIEA Lab)
Riccardo Guidotti (University of Pisa, KDD Lab)
Matthijs van Leeuwen (Leiden University, LIACS Lab)
Michele Linardi (CY Cergy Paris Université / ENSEA, ETIS Lab)
Marie-Jeanne Lesot (Sorbonne Université / LIP6)
Patrick Marcel (Université d’Orléans, LIFO Lab)
Christophe Marsala (Sorbonne Université / LIP6)
Guillaume Renton (ENSEA, ETIS Lab)
Konstantinos Stefanidis (Tampere University, Data Science Subunit)
Simone Stumpf (University of Glasgow, School of Computing Science)
Juntao Tan (Rutgers University, Computer Science Department)
Aikaterini Tzompanaki (CY Cergy Paris Université / ENSEA, ETIS Lab)
Eirini Ntoutsi (Bundeswehr University Munich, AIML)

Best Regards,
Katerina Tzompanaki (on behalf of the organizers).

Lien direct

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Quantification d’incertitude appliquée à la détection d’incohérences dans des images

Ingénieur-e de recherche expert-e en calcul scientifique et intelligence artificielle H/F

Modélisation de séries temporelles interprétable et gestion d’incertitude : exploiter les données multi-sources pour la surveillance avancée des stations d’épuration

Techniques dépliées de factorisation matricielle non-négative pour la séparation de sources audiophoniques dans les enregistrements de « boîtes noires aéronautiques »

Ingénieur·e administrateur·trice de bases de données et développeur.se Python au sein de la Plateforme d’Épidémiosurveillance en Santé Végétale

An NLP framework to automatically evaluate the adequacy and relevance of assessment items

Generative AI for Ransomware Time‑Series Detection

Generative AI for Ransomware Time‑Series Detection

Construction de graphes de connaissances historiques à l’aide d’algorithmes de graphes, LLMs et RAG

Appel à soumission d’articles pour l’atelier XAI4Sciences @EDBT2026