Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GeoKIF HELP Musiscale RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
15
Sun
2026
Modélisation de séries temporelles interprétable et gestion d’incertitude : exploiter les données multi-sources pour la surveillance avancée des stations d’épuration
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire de Génie Chimique (LGC)
Durée : 6 mois
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2026-02-15

Contexte :
Les stations d’épuration constituent aujourd’hui des infrastructures critiques pour la protection de
l’environnement et la santé publique. Leur fonctionnement, en particulier pour les unités équipées de
bioréacteurs à membranes (MBR), repose sur un suivi continu et de haute précision d’un ensemble
de variables physico-chimiques, hydrauliques et biologiques. Ces installations génèrent désormais
d’importants volumes de données temporelles provenant de capteurs multiples, d’analyses de laboratoire
et de systèmes d’acquisition hétérogènes, avec des pas de temps très variés et souvent
asynchrones.
Dans ce contexte, l’analyse avancée des séries temporelles joue un rôle central. Les procédés biologiques
présentent des dynamiques fortement non linéaires, une variabilité importante des charges
polluantes et des interactions complexes entre débit, température, oxygénation, concentrations azotées
et performances de filtration. Exploiter ces données brutes nécessite de relever plusieurs défis
fondamentaux : bruit instrumental, dérives progressives, valeurs manquantes persistantes, phénomènes
de ruptures (changepoints) liés aux perturbations hydrauliques ou opérationnelles, ainsi que
des structures de dépendance non triviales à différentes échelles temporelles (minute, heure, jour,
semaine). Une analyse robuste de ces séries temporelles est indispensable pour détecter précocement
les dysfonctionnements, anticiper les variations de charge, optimiser l’aération (source majeur de
consommation énergétique) et garantir la stabilité de la qualité des effluents rejetés.
Le projet ANR JCJC FlexMIEE se positionne précisément sur ces enjeux en visant à développer
une nouvelle génération d’outils de modélisation intégrée alliant procédés, statistiques avancées,
modélisation probabiliste et IA explicable. Le Work Package 2 (WP2), coeur du présent stage, a
pour objectif de construire un pipeline méthodologique complet permettant : (i) d’harmoniser et
fusionner les données multi-sources selon différentes résolutions temporelles, (ii) de quantifier et
représenter l’incertitude via des méthodes modernes (processus gaussiens, intervalles, histogrammes
dynamiques), (iii) d’identifier les structures de dépendance, linéaires et non linéaires, à l’aide d’outils
tels que les copules ou les corrélations conditionnelles dynamiques, (iv) de développer des modèles
prédictifs de séries temporelles interprétables (LSTM explicables, modèles structurels, Transformeurs
temporels), et enfin (v) de préparer un socle de données fiable pour la modélisation hybride
des procédés au sein du WP3.
Ainsi, ce stage s’inscrit dans une dynamique de recherche appliquée ambitieuse où la statistique
avancée, la science des données et la modélisation des séries temporelles deviennent des leviers
essentiels pour renforcer la performance, la robustesse et l’efficacité énergétique des systèmes de
traitement des eaux usées. Le travail réalisé contribuera directement à la conception de futures «
stations intelligentes », plus résilientes face aux incertitudes environnementales et opérationnelles.

Objectifs du stage
L’objectif est de construire un cadre méthodologique complet pour traiter, fusionner et analyser
les données hétérogènes issues d’une STEP industrielle, puis développer des modèles temporels
explicables permettant de comprendre l’impact des influents sur les performances énergétiques et
épuratoires.
Les enjeux scientifiques incluent :
— harmonisation temporelle multi-échelles ;
— imputation avancée (processus gaussiens, modèles d’état, MICE) ;
— dépendances non linéaires via copules et corrélations dynamiques ;
— modèles temporels interprétables (ARIMAX, XGBoost, LSTM explicables, TFT) ;
— analyse de sensibilité globale et SHAP temporel ;
— représentation symbolique des données (intervalles, distributions).

Sujet :
Le stage s’inscrit dans le Work Package 2 (WP2) du projet ANR FlexMIEE, consacré à la gestion
avancée des données hétérogènes issues d’une station d’épuration industrielle. Le travail attendu est
structuré en quatre volets complémentaires formant un pipeline méthodologique complet.
Dans un premier temps, le ou la stagiaire réalisera une prise en main approfondie de l’ensemble des
bases de données multi-sources (mesures en ligne, analyses de laboratoire, historiques opératoires
et données biologiques). Cette étape comprendra une revue de littérature ciblée sur les notions
d’incertitude dans les données temporelles, les méthodes modernes de dépendances multivariées ainsi
que les approches d’explicabilité en intelligence artificielle (XAI) appliquées aux modèles de séries
temporelles. L’objectif est d’acquérir rapidement une compréhension globale des caractéristiques
des données et des défis méthodologiques associés.
Le deuxième volet concernera l’harmonisation temporelle des données. Les jeux de données disponibles
présentent des pas de temps distincts, des valeurs manquantes, des dérives instrumentales et
des anomalies locales. Le stagiaire mettra en oeuvre des méthodes robustes de détection de ruptures
(changepoints bayésiens, tests non paramétriques), de fusion temporelle multi-échelles et d’imputation
probabiliste. Une attention particulière sera portée aux processus gaussiens, aux modèles
d’état, aux approches MICE et aux autoencodeurs, avec une analyse comparative de la capacité de
chaque méthode à préserver la cohérence physique et statistique des signaux.
Le troisième volet portera sur l’étude des dépendances entre variables influentes (débit, DCO, NH+4 ,
MES, température. . .) et indicateurs de performance du procédé. Le stagiaire utilisera des outils
avancés tels que les corrélations conditionnelles dynamiques et l’analyse des dépendances retardées.
L’objectif est de caractériser précisément les interactions non linéaires, asymétriques ou à queue
lourde qui gouvernent la variabilité des effluents et les capacités énergétiques du système.
Le quatrième volet consistera à développer et comparer différents modèles de séries temporelles.
Ces modèles incluront des approches statistiques (ARIMAX, modèles structurels), des algorithmes
de machine learning (XGBoost, forêts aléatoires temporelles, N-BEATS) ainsi que des architectures
profondes interprétables (LSTM avec mécanisme d’attention, Temporal Fusion Transformer).
L’évaluation sera réalisée via validation croisée temporelle et critères de robustesse. L’interprétabilité
constituera un axe fort, avec l’utilisation de SHAP temporel, de l’Analyse en Composantes
Principales Fonctionnelle (FPCA) et de méthodes globales de sensibilité. Au terme du stage, le ou la
stagiaire fournira un cadre méthodologique complet comprenant l’harmonisation, la modélisation,
l’interprétabilité et la représentation symbolique des données, constituant une base solide pour une
poursuite en thèse.

Profil du candidat :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.

Formation et compétences requises :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.

Adresse d’emploi :
Laboratoire de Génie Chimique – LGC Labège, 4 Allée Emile Monso CAMPUS INP – ENSIACET, 31400 Toulouse

Document attaché : 202512031402_Demande_Stage_ANR_FlexMIEE_WP2_fr.pdf

Techniques dépliées de factorisation matricielle non-négative pour la séparation de sources audiophoniques dans les enregistrements de « boîtes noires aéronautiques »
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2026-02-15

Contexte :
Ce stage s’inscrit dans le cadre du projet ANR BLeRIOT. Les avions civils et étatiques sont équipés de deux enregistreurs de vol (aussi connus sous le nom de « boîtes noires »), c.-à-d. le Cockpit Voice Recorder (CVR) et le Flight Data Recorder. En cas d’incident ou d’accident, tous deux doivent être retrouvés et analysés par les autorités compétentes. Le service audio du BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) et RESEDA sont les autorités françaises en charge des analyses des CVR des avions respectivement civils et étatiques. Les CVR sont des équipements renforcés protégeant une information importante pour la détermination des facteurs contributifs à la survenue d’un accident ou d’un incident aérien. Pour cette raison la qualité audio des enregistrements, l’audibilité des alarmes du cockpit et l’intelligibilité
des échanges vocaux sont cruciales pour les enquêteurs du BEA et RESEDA. Les contenus des CVR sont alors transcrits par des enquêteurs spécialisés (analystes audio) pour les bénéfices de l’enquête de sécurité.

Les limitations de conception des CVR contraignent les constructeurs d’avion à mélanger les sources sonores audibles dans le cockpit et dans les casques des pilotes (émissions et réceptions radio, échanges sur l’intercom, annonces aux passagers, alarmes sonores, etc) en un nombre réduit de canaux audio envoyés vers le CVR, qui en fait une acquisition numérique et protège cette donnée en cas d’accident. Ainsi l’activation simultanée de plusieurs sources sonores peut conduire à une réduction significative de l’intelligibilité des échanges vocaux, voire un masquage complet d’une ou de plusieurs sources audio.

L’extraction d’informations dans les données CVR s’appuie sur l’expérience des analystes audio du BEA/RESEDA et sur leur capacité à détecter des sources sonores enfouies dans des mélanges audio difficiles. Dans nos récents travaux, nous avons proposé un modèle de mélange audio dans les CVR par rétro-ingénierie et
nous avons montré que les méthodes de la littérature de séparation de sources (SAS) pouvaient être appliquées. La SAS cherche à estimer un ensemble de signaux inconnus à partir de mélanges de ceux-ci, le mélange étant lui-aussi inconnu.

Sujet :

Dans le cadre du projet ANR BLeRIOT qui finance ce sujet de stage, nous ne souhaitons pas développer des méthodes d’apprentissage profond nécessitant une grande base d’apprentissage. Au contraire, les contraintes des enquêtes de sécurité nous poussent à développer des approches qui soient non ou faiblement supervisées et qui soient interprétables.

Les méthodes de factorisation matricielle non-négative (NMF) ont constitué l’état de l’art avant l’apparition du deep learning au début des années 2010, et remplissent les deux critères ci-dessus. Cependant, elles ne fournissent pas toujours de bonnes performances de séparation lorsqu’on les applique à des signaux CVR. Le principe des techniques
déroulées ou dépliées permet de transformer des approches classiques itératives en méthodes d’apprentissage profond et permettent un bon compromis entre performance, interprétabilité du modèle et taille de la base d’apprentissage. Ces techniques ont été combinées à la NMF pour un certain nombre d’applications, avec des spécificités propres aux méthodes proposées.

Dans le cadre de ce stage, nous proposerons des méthodes de NMF dépliées que nous appliquerons aux données issues de CVR. En particulier, nous avons identifié des cas où le modèle proposé dans n’est plus valide, soit à cause d’effets de saturation des canaux audio dûs au système audio avionique, soit à cause d’effets de codage avec
perte dûs à un modèle de CVR particulier. Ces différents effets ont pu être étudiés séparément dans la littérature – par exemple pour le déclippage audio ou pour les effets de codage sur la qualité de séparation – mais jamais à notre connaissance conjointement ni pour les signaux CVR. Un point important du stage consistera à comparer les performances de méthodes classiques ou dépliées de NMF pour de tels scénarios.

Profil du candidat :
Etudiant en sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées), vous êtes curieux et très à l’aise en programmation (Matlab et/ou Python). Vous lisez et parlez l’anglais courant sans difficulté. Vous êtes capable d’expliquer clairement vos travaux, même à des publics non-experts. Bien que non requis, une première expérience en factorisation matricielle (par exemple, en décomposition matricielle ou tensorielle, en séparation de sources, en apprentissage de dictionnaire) sera appréciée.

Les candidats doivent impérativement être de nationalité française ou citoyens d’un état membre de l’Union Européenne, d’un état faisant parti de l’Espace Economique Européen ou de la Confédération Suisse.

Formation et compétences requises :
Sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées)

Adresse d’emploi :
LISIC, antenne de Longuenesse, Campus de la Malassise, 62219 Longuenesse, France

Document attaché : 202512031320_Stage_ANR_BLeRIOT_2026.pdf

Feb
28
Sat
2026
Deep Learning Models for Analysis of Satellite Images and Prediction of Natural Disaster Impacts
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS
Durée : 5 mois
Contact : julien.ah-pine@sigma-clermont.fr
Date limite de publication : 2026-02-28

Contexte :
The internship is part of the DLISCES project (Deep Learning Images Satellites et Cartographie d’Indicateurs Économiques et Sociaux), supported by the International Research Center “Natural Disasters and Sustainable Development” (CIR4) of the ISite CAP 2025 in Clermont-Ferrand. The project falls under the “AI for Good” domain and conducts exploratory research aimed at providing maps of various indicators to more robustly assess the vulnerability of populations and territories exposed to climatic hazards (floods, landslides, cyclones, earthquakes, etc.). DLISCES is an interdisciplinary project involving researchers in artificial intelligence, economics, management, and mathematics. The selected candidate will join the LIMOS (Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes) and work closely with AI researchers and economists from CERDI (Centre d’études et de recherches sur le développement international). He or she will focus on leveraging state-of-the-art deep learning models and satellite images to evaluate the impact of natural disasters.

Sujet :
This internship aims to develop and apply deep learning (DL) models and resources for satellite images analysis in the goal of predicting natural disaster impacts. On one hand, the EM-DAT database contains data on the occurrence and impacts of over 27,000 mass disasters worldwide from 1900 to the present day. On the other hand, computer vision techniques utilizing DL enable efficient analysis of Earth Observation data acquired through
remote sensing technologies.

The goal of the internship is twofold :
1. Collect satellite images related to natural disaster events recorded in the EM-DAT database with geolocation provided by Geo-Disasters, from open-access platforms such as Copernicus and Google Earth Engine (GEE).
2. Study, apply, and fine-tune pre-trained DL models (foundation models for Earth Observation) to represent remote sensing information, aiming to predict natural disaster impacts as recorded in the EM-DAT database.

Particular attention will be paid to floods and the related dataset FLODIS, based on EM-DAT. This internship provides a valuable opportunity to work on impactful projects in the field of natural disaster risk management while gaining practical experience in deep learning and satellite image analysis. The opportunity to continue this work with a PhD project is currently under review.

Profil du candidat :
Current master student or recent graduate in Computer Science, AI, Data Science, Computer Vision, or in Social Science with a strong background in Data Science.
Experience using deep learning models in computer vision.
High Interest in inter-disciplinary research works.
Attention to details and rigor in handling large datasets and in programming.
Strong communication skills and ability to work in a team.
Knowledge of satellite imagery and geospatial data would be a plus.

Formation et compétences requises :

Adresse d’emploi :
LIMOS, Aubières (Clermont-Ferrand)

Document attaché : 202512151511_Offre de Stage DLISCES – 2526.pdf

Dynamic Inference in CNNs via Mixture of Experts and Early Exits
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28

Contexte :
The deployment of deep neural networks on edge devices such as smartphones or embedded systems poses significant challenges in terms of computational cost, energy consumption, and latency. Traditional models process all inputs with the same fixed architecture, regardless of their complexity, leading to inefficient use of resources. For instance, a clear image of a cat is processed with the same depth and width as a noisy, ambiguous scene, despite requiring far less computation.
To address this, recent research has explored dynamic neural networks, which adapt their computation based on input content. Two prominent strategies include:
• Mixture of Experts (MoE): activating only a subset of network parameters (e.g., specific convolutional branches) per input, enabling width adaptation.
• Early Exits: allowing simpler inputs to exit the network at intermediate layers, reducing inference depth.
While these approaches have been studied independently—MoE primarily in Transformers and early exits in CNNs—their combination remains underexplored, especially in convolutional architectures. Jointly leveraging both mechanisms could enable dual adaptation in width and depth, significantly improving efficiency without sacrificing accuracy.
This internship aims to design, implement, and evaluate a dynamic CNN architecture that integrates Mixture of Experts blocks with confidence-based early exits, enabling input-adaptive inference for vision tasks such as image classification. The work will contribute to the growing field of efficient and sustainable AI, with potential applications in mobile vision and real-time systems.

Sujet :
The main goal is to design and validate a hybrid dynamic CNN that couples conditional activation (Mixture-of-Experts) with adaptive depth (early-exit). To reach this goal, the intern will first carry out a bibliographic survey on dynamic inference, covering MoE in CNNs, early-exit networks such as BranchyNet, and recent attempts at joint width-and-depth adaptation; key training difficulties—load balancing, confidence estimation, stability—will be identified. Next, a full architecture will be proposed: convolutional MoE blocks whose top-k gating network selects the most relevant experts for each input, and auxiliary classifiers inserted at several depths that can terminate inference as soon as a confidence threshold is exceeded; a single decision rule will be learnt that decides, at every stage, whether to route or to exit. The model will then be implemented in PyTorch on standard backbones (ResNet or VGG variants) and trained on CIFAR-10/100 or Tiny-ImageNet; knowledge distillation and load-balancing losses will be used to stabilise MoE training, while a cost-aware term will encourage both sparse expert selection and early termination. Finally, the system will be evaluated in terms of accuracy, average inference depth, FLOPs and latency and compared against strong baselines (standard CNN, BranchyNet, MoE-CNN without exits); a detailed analysis will correlate input difficulty with the chosen experts and the actual exit layer. If time permits, the intern will explore ultra-lightweight gating for on-device deployment and validate the approach on a mobile-oriented use-case.

Profil du candidat :
Required technical skills:
• Python, PyTorch
• Deep learning (CNNs, optimization)
• Familiarity with vision datasets and evaluation metrics
• (Preferred) Experience with model compression or dynamic networks

Formation et compétences requises :
M2 in computer science or applied mathematics

Adresse d’emploi :
INSA Lyon, Campus de la Doua, Villeurbanne

Document attaché : 202512181058_dynamic_cnn_internship.pdf

Extraction et analyse de transactions issues d’une blockchain locale
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut UTINAM, UMR 6213 CNRS / UMLP
Durée : 4 à 5 mois
Contact : jose.lages@univ-fcomte.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Depuis toujours, les échanges de ressources, de biens et de services structurent les sociétés humaines, révélant inégalités, hiérarchies et formes d’organisation collective. À l’ère numérique, de nouvelles formes de valeur émergent, portées notamment par les technologies blockchain, qui renouvellent nos conceptions de l’échange, de la souveraineté économique et de la territorialité. Ces systèmes d’échange peuvent être étudiés comme des systèmes complexes, caractérisés par des topologies non triviales, l’émergence de comportements collectifs, ainsi que des dynamiques de coopération et de compétition. Les transactions numériques sont enregistrées dans une blockchain, un registre distribué reposant sur des mécanismes cryptographiques assurant l’intégrité et la traçabilité des échanges. L’extraction de ces données permet de reconstruire le réseau d’échanges entre acteurs et d’en analyser la structure. Dans ce projet, nous nous intéressons à un cas d’étude spécifique : la monnaie complémentaire citoyenne PIVE (Jura) et sa version numérique. Le ou la stagiaire aura pour mission, dans un premier temps, d’extraire les données issues de la blockchain associée, puis d’utiliser des outils issus de la physique statistique et de la théorie des graphes afin de caractériser le graphe de transactions sous-jacent. L’objectif est notamment d’identifier des structures centrales ou périphériques, ainsi que d’éventuelles zones de faible connectivité, afin d’apporter des éléments d’analyse sur la santé macroéconomique et territoriale du réseau PIVE. Le ou la stagiaire travaillera au sein de l’équipe de physique théorique de l’Institut UTINAM, UMR 6213 CNRS / Univ. Marie et Louis Pasteur (Besançon) et collaborera avec une équipe de recherche en économie du CRESE, Univ. Marie et Louis Pasteur.

Profil du candidat :
Environnement technique
– Programmation en Python
– Packages recommandés : PySpark, pandas, NumPy, NetworkX

Profil recherché
• Étudiant·e en Master 2 (physique ou informatique), intéressé·e par la data science. Bon niveau en programmation Python
• Des connaissances en blockchain et cryptomonnaies constituent un plus, mais ne sont pas indispensables

Formation et compétences requises :
Étudiant·e en Master 2 (physique ou informatique)

Adresse d’emploi :
Institut UTINAM, UMR 6213 CNRS / Univ. Marie et Louis Pasteur (Besançon)

Extraction et traitement de données spatio-temporelles hydrologiques et météorologiques pour le machine learning
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 3-4 mois
Contact : etienne.lehembre@unicaen.fr
Date limite de publication : 2026-02-28

Contexte :
Le stage se déroule dans le cadre du projet Junon au sein du LIFO (Laboratoire d’Informatique Fondamentale d’Orléans) avec le BRGM (Bureau de Recherches Géologiques et Minières). Le projet Junon a pour but de mettre en place des modèles de Machine Learning afin de prédire le niveau d’eau futur de la nappe phréatique de la Beauce. Pour entraîner ces modèles, le BRGM a fourni au projet 12 séries temporelles correspondant à 12 historiques des mesures d’eau de piézomètre (puits servant à mesurer le niveau de la nappe phréatique).

Sujet :
Afin de pouvoir complexifier les modèles, il est nécessaire d’obtenir davantage de données. Seulement, les séries temporelles des piézomètres sont souvent incomplète, car les relevés journaliers ne sont pas toujours possibles. Ainsi, le stage a pour but d’extraire les séries temporelles d’autres piézomètres, de compléter ces séries temporelles en essayant différents algorithmes d’interpolation, et de compléter ces données avec des données météorologiques issues de SAFRAN.

Profil du candidat :
Ce stage s’adresse aux étudiants en BUT3, M1 ou équivalent. Une expertise en Python (avec les librairies Pandas ou NumPy) est indispensable.

Formation et compétences requises :
Ce stage s’adresse aux étudiants en BUT3, M1 ou équivalent. Une expertise en Python (avec les librairies Pandas ou NumPy) est indispensable.

Adresse d’emploi :
LIFO, 6 Rue Léonard de Vinci, 45067 Orléans

Document attaché : 202512181055_offre-stage-Junon-Data-mining.pdf

Stage M2 : Deep metric learning of 2D shape representations
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28

Contexte :
In the field of 2D or 3D region of interest (ROI) delineation in medical imaging, combining segmentations of anatomical structures from different sources proves beneficial. This is particularly relevant given the development of multimodal and multi-parametric imaging acquisition devices. Furthermore, combining multiple expert tracings of the same ROI can be useful for evaluating segmentation methods to estimate a consensus ground truth, thereby accounting for intra- or inter-expert variability. Finally, combining multiple segmentation methods can help improve results and their reproducibility. Thus, even though deep learning segmentation methods offer highly accurate results, it is sometimes necessary to combine several architectures or parameterizations to pool segmentation results and reduce variability.
To address these various challenges in segmentation method evaluation and fusion, the CREATIS lab and its collaborators have been developing a method for several years to compute a mutual shape from n masks corresponding to n segmentations of the same region. Within this working group, we initially proposed a variational formulation of the foundational STAPLE algorithm, enabling the evaluation of segmentation methods without a gold standard. The mathematical framework we established, based on domain optimization tools, subsequently allowed us to study different shape metrics, including an original shape metric based on information theory concepts. This metric also proved relevant for the robust fusion of 2D or 3D segmentation methods.

Sujet :
Based on this mathematical framework we aim for developing a deep learning based model to combine several segmentation maps and compare it with our analytical methods.
The aim of this internship is to design a new deep learning architecture similar to N. Courty et al. “Learning Wasserstein Embeddings”. It would be composed of a (convolutional) auto-encoder that is trained to reconstruct segmentation maps combined with a contrastive learning framework to structure the embedding space according to the desired properties of the shape distance (e.g. mutual shape). The advantage of such a model is that it may compute distances between shapes in a Euclidean space (i.e. the distance between the embeddings) and thus more easily compute the final reference shape of the n input segmentation maps by combining the n embeddings and reconstructing the corresponding segmentation map.
There are several scientific challenges that need to be addresses, e.g. the way to constrain the latent space according to the target distance measure, the architecture of the neural network and loss function and the way to combine several embeddings.
In the first place, we will work with binary segmentation maps and later, potentially, extend the approach to probability maps. An advantage would be that a combination based on probability maps would better incorporate uncertainty and, in theory, lead to a better fused reference shape. In this regard, the intern will collaborate with another intern working on the mathematical aspects of the extension of the existing method (of mutual shape) to probability maps.

Profil du candidat :
Good skills in python programming and machine learning, in particular deep learning.
Scientific curiosity and autonomy.

Formation et compétences requises :
Student in M2 or engineering school in computer science or applied mathematics.

Adresse d’emploi :
INSA Lyon
7 Avenue Jean Capelle
69621 Villeurbanne

Document attaché : 202511190724_internship_smip_liris_2026.pdf

Mar
1
Sun
2026
Stage M2 — Privacy attacks on synthetic data generation
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire IRISA
Durée : 5-6 mois
Contact : tristan.allard@irisa.fr
Date limite de publication : 2026-03-01

Contexte :
Health data, social networks, electricity consumption… Vast quantities of personal data are collected today by private companies or public organizations. Various legal, monetary, or visibility incentives push data holders to envision sharing versions of the collected datasets that provide both statistical utility and privacy guarantees. Indeed, sharing data at large, e.g., as open data, without jeopardizing privacy, is expected to bring strong benefits (strengthening, e.g., scientific studies, innovation, public policies). Synthetic data generation is a promising approach. First, synthetic data generation algorithms aim at generating datasets that are as close as possible to the original datasets. Either synthetically generated data or the generative models trained over the original data could be shared for supporting elaborate data analysis. Second, substantial progress has been made during the last decade about the privacy guarantees of synthetic data generation algorithms. For example, there exist today synthetic data generation algorithms that satisfy variants of differential privacy, one of the most prominent family of privacy models. However, the wealth of generative algorithms, of privacy models and algorithms, and of parameters makes it hard for non expert users to understand clearly the privacy implications of any given choice. Given the growing number of privacy attacks on machine learning models and especially on generative algorithms, an inappropriate choice can result in catastrophic consequences.

Sujet :
The main goal of this M2 thesis is to design an efficient approach for allowing a data holder to compute the most relevant privacy attacks given the data holder’s choice.

The main tasks of the Master student will be to:
• Study the state-of-the-art about privacy attacks (e.g., membership inference attacks [2, 4, 5]). We will focus on tabular data.
• Formalize the attackers (e.g., adversarial goals, background knowledge, impacts and costs of the attacks, vulnerable algorithms), structure the space of attackers (e.g., generalization/specialization of attackers, implications), and explore efficiently the resulting space for finding the attacks that best illustrate the privacy risks.
• Implement the approach and evaluate its performance.

In addition to the core tasks of the project, the successful candidate will also contribute to the organisation of competitions where the privacy guarantees of synthetic data generation algorithms are challenged.

Profil du candidat :
• The candidate must be in the second year of a master’s degree, or equivalent, in computer science or in a related field.
• The candidate must be curious, autonomous, and rigorous.
• The candidate must be able to communicate in English (oral and written). The knowledge of the French language is not required.
• The candidate must have a strong interest in cybersecurity.
• Skills in machine learning will be appreciated.

Formation et compétences requises :

Adresse d’emploi :
Campus de Beaulieu IRISA/Inria Rennes
263 avenue du Général Leclerc
35042 RENNES cedex

Document attaché : 202511171626_m2-attacks-25_26.pdf

Apr
29
Wed
2026
Estimation du schéma d’acquisition en imagerie par résonnance magnétique (IRM)
Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-04-29

Contexte :

Sujet :
See attached file

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202509111720_sujet stage MRI CS.pdf

Image processing for the enhancement of brain tumor biomarker visualization from images acquired by Stimulated Raman Scattering microscopy
Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-04-29

Contexte :

Sujet :
please see the attached file

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202509111718_sujet stage SRH.pdf

Apr
30
Thu
2026
Argumentative Graph-RAG for Participatory Democracy
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne University
Durée : 5-6 months
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Participatory democracy platforms (Make, Decidim, Cap Collectif, Consul) enable thousands of citizens to propose and discuss ideas for public policies. However, the large volume of textual contributions produces severe information overload: citizens struggle to identify similar or opposing proposals, while decision-makers face difficulty in detecting consensus or disagreement.

Recent research at LIP6 has shown that Natural Language Processing (NLP) can detect argumentative relations between citizen proposals (equivalence, contradiction, neutrality). These relations can be structured into argumentative graphs, which help organize debates and improve navigation within large participatory datasets.

This internship aims to extend these ideas using Graph Retrieval-Augmented Generation (Graph-RAG). By combining graph-based retrieval with language generation, the project seeks to build intelligent tools capable of summarizing debates, identifying conflicting or redundant proposals, and assisting citizens in writing balanced contributions.

Profil du candidat :
Master 2 / Final-year engineering

Formation et compétences requises :
– Programming: Python, PyTorch or TensorFlow

– NLP / ML: Experience with large language models, embeddings, or NLP tasks

– Data Science: Text preprocessing, vector representations, evaluation metrics

– Research: Ability to conduct literature reviews, design small experiments, and analyze results

– Participatory democracy: Interest in participatory democracy or computational argumentation

Adresse d’emploi :
Sorbonne University, 4 place Jussieu 75005 Paris.

Document attaché : 202511121059_Stage_LIP6_2025_2026.pdf

Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRESTIC (URCA) / Institut Godinot (Reims)
Durée : 6 mois
Contact : Arnaud.BEDDOK@reims.unicancer.fr
Date limite de publication : 2026-04-30

Contexte :
Cf. Fiche

Sujet :
Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)

Cf. fiche.

Profil du candidat :
Cf. fiche.

Formation et compétences requises :
Cf. fiche.

Adresse d’emploi :
CRESTIC (URCA) / Institut Godinot (Reims)

Document attaché : 202512180752_Offre de stage M2 20250926.pdf

Efficient self-supervised learning using dataset distillation
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
The performance of supervised deep learning methods in computer vision heavily depends on the availability of
labeled data, whose annotation is both time-consuming and requires expert knowledge. To overcome this limitation,
Self-Supervised Learning (SSL) has emerged as a promising alternative to address the challenge of limited annotations.
In this paradigm, models learn from unlabeled data by generating their own supervisory signals. The resulting pre-
trained models can then be fine-tuned on various downstream tasks such as image classification, object detection, and
semantic segmentation. However, achieving performance comparable to supervised learning often requires large-scale
datasets and high training costs, which significantly increase computational and storage demands. This internship
aims to alleviate these constraints by exploring data distillation techniques to make SSL training more efficient.

Sujet :
Dataset Distillation (DD) [1] aims to condense a large-scale training dataset into a much smaller synthetic one
such that models trained on the distilled data achieve performance comparable to those trained on the original
dataset (see figure 1). Most existing DD methods are designed for efficient supervised learning and can be broadly
classified into three main categories [2] : (1) Performance Matching, which minimizes the loss on the synthetic
dataset by aligning the performance of models trained on real and synthetic data, (2) Parameter Matching, which
trains two neural networks respectively on real and synthetic data and encourages similarity in their parameters and
(3) Distribution Matching, which generates synthetic data that closely mimics the distribution of the original dataset.
In this internship, we will focus on the Parameter Matching approach. Building upon the work of Cazenavette et al.
[3], the authors of [4] extended this concept to SSL using knowledge distillation [5, 6, 7], particularly employing SSL
methods such as Barlow Twins and SimCLR. In the same vein, this internship will explore the DINO (self-DIstillation
with NO labels, MetaAI) SSL method [8], which naturally produces teacher–student parameter trajectories that can
be leveraged for Parameter Matching. The different steps of the internship are :
▷ Step 1 – Literature review : Review recent dataset distillation methods applied to computer vision, with a
focus on parameter matching and SSL-based approaches.
▷ Step 2 – Trajectory Observation : Analyze and visualize the teacher–student parameter trajectories generated
by DINO during SSL training.
▷ Step 3 – Integration into Data Distillation Frameworks : Design a trajectory matching loss based on
DINO’s teacher–student dynamics and train a student model on synthetic data guided by these trajectories.
▷ Step 4 – Test on down-stream computer vision tasks : Assess the effectiveness of the proposed approach
on tasks such as image classification
– Bibliography
[1] Tongzhou Wang et al. “Dataset distillation”. In : arXiv preprint arXiv :1811.10959 (2018).
[2] Ruonan Yu, Songhua Liu et Xinchao Wang. “Dataset distillation : A comprehensive review”. In : IEEE transactions on pattern analysis and machine
intelligence 46.1 (2023), p. 150-170.
[3] George Cazenavette et al. “Dataset distillation by matching training trajectories”. In : Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2022, p. 4750-4759.
[4] Siddharth Joshi, Jiayi Ni et Baharan Mirzasoleiman. “Dataset Distillation via Knowledge Distillation : Towards Efficient Self-Supervised Pre-training
of Deep Networks”. In : The Thirteenth International Conference on Learning Representations. 2025. url : https://openreview.net/forum?id=c61unr33XA.
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocomputing
649 (oct. 2025), p. 130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. url : https://hal.science/hal-04488459.
[8] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025)

Profil du candidat :
The ideal
candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
machine/deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science.

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111324_2025_Internship_DD_SSL.pdf

Interprétabilité en IA des séries temporelles radar
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : christophe.lin-kwong-chon@univ-smb.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Interprétabilité en IA des séries temporelles radar

(descriptions détaillées dans la fiche attachée)

Profil du candidat :
Des compétences en machine learning sont attendues.
Le stage portera exclusivement sur la programmation en Python.
Une expérience en télédétection radar, géophysique des volcans
ou en explicabilité/interprétabilité de l’IA serait un atout.

Formation et compétences requises :

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux

Document attaché : 202510060816_Sujet – Interprétabilité en IA des séries temporelles radar.pdf

Knowledge Distillation from Large Vision Foundation Models for Efficient Dense Prediction
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
Recently, several Large Vision Foundation Models (LVFMs) have been proposed in the literature [1]. They are
trained through a Self-Supervised Learning (SSL) paradigm on large-scale unlabeled datasets and evaluated on small
labeled datasets (fine-tuning). These models have achieved state-of-the-art performance across a wide range of
downstream computer vision tasks, including both non-dense tasks (e.g., image classification, image retrieval) and
dense tasks (e.g., semantic segmentation, object detection). However, the growing size and computational demands of
the LVFMs significantly constrain their applicability in resource-limited devices (e.g., drone, smarphone). For instance,
CLIP (Contrastive Language–Image Pretraining, OpenAI) [2] comprises up to 0.4 billion parameters, DINOv3 (self-
DIstillation with NO labels, MetaAI) [3] includes models with up to 7 billion parameters, and the SAM 2 (Segment
Anything Model, Meta AI) [4] exceeds 224 million parameters. To reduce the computational demands of such massive
architectures, this internship will focus on investigating knowledge distillation techniques.

Sujet :
The knowledge distillation (KD) technique [5, 6, 7] transfers knowledge from a powerful teacher network to a
smaller student model, enabling the student to achieve significantly improved performance with lower computational
cost. In this process, the student is trained on the same dataset as the teacher, allowing it to directly leverage the
teacher’s learned representations. However, directly applying KD to LVFMs presents several challenges. First, the
most performant LVFMs are developed by large tech companies, and their training datasets are often not publicly
available. Second, these LVFMs typically employ Vision Transformer (ViT) architectures [8] as encoders, whereas
convolutional neural networks (CNNs) are generally lighter and more computationally efficient, making them strong
candidates for student models on edge devices. Third, there are significant discrepancies in capacity between LVFMs
and smaller edge models. The latter two challenges are partially addressed by Lee et al. [9], who propose a method
to customize the well-generalized features of LVFMs for a given student model. Despite promising results, this work
does not thoroughly address the issues of unavailable source datasets and cross-architecture knowledge transfer.
Additionally, only the image classification task is considered. In this internship, we aim to tackle these challenges by
investigating state-of-the-art methods for cross-architecture KD [10], data-free KD [11] and adaptive KD [12]. As
illustrated in figure 1, we will focus on two dense down-stream tasks : semantic segmentation and object detection.
The different steps of the internship are :
▷ Step 1 – Literature review on KD from foundation models
▷ Step 2 – Compare different methods of cross-architecture KD, data-free KD and adaptive KD : The
teacher will be a LVFM such as CLIP, DINOv3 and SAM2. The student encoder should be a CNN one like ResNet18.
▷ Step 3 – Test the student model on different semantic segmentation and object detection datasets :
A comparison is to be done with classical KD methods dedicated to dense prediction.
– Bibliography
[1] Muhammad Awais et al. “Foundation models defining a new era in vision : a survey and outlook”. In : IEEE Transactions on Pattern Analysis and
Machine Intelligence (2025).
[2] Alec Radford et al. “Learning transferable visual models from natural language supervision”. In : International conference on machine learning. PmLR.
2021, p. 8748-8763.
[3] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025).
[4] Nikhila Ravi et al. “Sam 2 : Segment anything in images and videos”. In : arXiv preprint arXiv :2408.00714 (2024)
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocom-
puting 649 (oct. 2025), p. 130791. doi : 10.1016/j.neucom.2025.130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. doi : 10.1016/j.patrec.2024.02.027. url : https://hal.science/hal-04488459.
[8] Alexey Dosovitskiy et al. “An Image is Worth 16×16 Words : Transformers for Image Recognition at Scale”. In : International Conference on Learning
Representations. 2021. url : https://openreview.net/forum?id=YicbFdNTTy.
[9] Jungsoo Lee et al. “Customkd : Customizing large vision foundation for edge model improvement via knowledge distillation”. In : Proceedings of the
Computer Vision and Pattern Recognition Conference. 2025, p. 25176-25186.
[10] Weijia Zhang et al. “Cross-Architecture Distillation Made Simple with Redundancy Suppression”. In : Proceedings of the IEEE/CVF International Confe-
rence on Computer Vision. 2025, p. 23256-23266.
[11] Qianlong Xiang et al. “Dkdm : Data-free knowledge distillation for diffusion models with any architecture”. In : Proceedings of the Computer Vision and
Pattern Recognition Conference. 2025, p. 2955-2965.
[12] Yichen Zhu et Yi Wang. “Student customized knowledge distillation : Bridging the gap between student and teacher”. In : Proceedings of the IEEE/CVF
International Conference on Computer Vision. 2021, p. 5057-5066.

Profil du candidat :
The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111320_2025_Internship_KD_LVFM.pdf

Régression symbolique pour la modélisation en volcanologie
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : argheesh.bhanot@univ-smb.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
En sciences naturelles, la modélisation des phénomènes physiques constitue toujours un sujet difficile. Les formules existantes ne suffisent parfois pas à représenter adéquatement les mécanismes complexes, notamment ceux qui ne sont pas directement observables. Il arrive également que ces formules ne correspondent pas parfaitement aux observations issues des données. Ces problèmes ont, par exemple, été rencontrés dans le suivi de la concentration des polluants, l’étalement de la végétation ou encore les coulées de lave.
Dans ce projet, nous nous concentrons sur la modélisation volcanique. En volcanologie, par exemple, les scientifiques disposent de mesures de déplacements en surface, obtenues grâce à l’imagerie SAR, induits par une source volcanique en profondeur, et utilisent ces mesures pour estimer les paramètres physiques d’un modèle volcanique.
Dans un premier temps, nous sommes partis d’un modèle simple sous forme d’une expression analytique : le modèle Mogi. Dans ce modèle, deux paramètres clés, la variation du volume et la profondeur de la chambre magmatique ont été modifiés pour générer des données synthétiques. En utilisant la régression symbolique, nous avons exploré des expressions mathématiques directement à partir des données. La
pertinence de l’approche et la sensibilité de la modélisation à la variété de l’activité volcanique, sur des données synthétiques et des sites volcaniques réels, ont été mesurées et comparées au modèle Mogi original. L’approche fonctionne bien jusqu’à un certain niveau de bruit, notamment sur les données
synthétiques. L’objectif du stage consiste à utiliser les méthodes de régression symbolique pour affiner le modèle Mogi, car il reste une vision simplifiée de la physique sous-jacente. Des travaux supplémentaires sont encore nécessaires pour améliorer les résultats sur les données réelles en proposant des nouvelles techniques en régression symbolique. En s’appuyant sur des travaux d’IA classique développés au laboratoire sur
l’inversion de modèles géophysiques, trois types de données sont disponibles pour créer un cadre expérimental et de validation : 1) des déplacements simulés à partir du modèle Mogi ; 2) des déplacements simulés avec un bruit ajouté ; 3) des déplacements réels sur des volcans africains. Selon
l’avancement du projet, cette étude pourra être étendue à un modèle volcanique plus sophistiqué, par exemple le modèle Okada, qui décrit le mécanisme de fonctionnement d’un volcan à l’aide d’un plus grand nombre de paramètres et s’appuie sur des équations différentielles. Le stagiaire appuiera entre autres sur les articles suivants :
– Cranmer, M. (2023). Interpretable machine learning for science with PySR and SymbolicRegression. jl.
arXiv preprint arXiv:2305.01582.
– Tenachi, W., et al. (2023). Physical Symbolic Optimization. arXiv preprint arXiv:2312.03612.
– Albino, F., & Biggs, J. (2021). Magmatic processes in the East African Rift system: insights from a 2015–
2020 Sentinel‐1 InSAR survey. Geochemistry, Geophysics, Geosystems, 22(3), e2020GC009488.
– Dzurisin, D. (2007), Volcano Deformation: Geodetic Monitoring Techniques. Mogi, K. (1958), Bull. Earthq.
Inst. U. Tokyo, 36, 99‐134 Delaney, P., McTigue, D. (1994) Bull. Volcanology, 56 417‐42
– Lopez-Uroz L, Yan Y., Benoit A., Albino F., Bouygues P., Giffard-Roisin S., Pinel V., Exploring Deep Learning
for Volcanic Source Inversion, IEEE Transactions on Geosciences & Remote Sensing.
– Petersen, B. K., et al. (2019). Deep symbolic regression: Recovering mathematical expressions from data
via risk-seeking policy gradients. arXiv preprint arXiv:1912.04871.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux, France.

Document attaché : 202510221322_stage_regressionsymbolique_2026.pdf

Transformer-based methods for cluster detection in astronomical images
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE & APC
Durée : 6 mois
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Deep Learning techniques have revolutionized artificial intelligence. Their application to astrophysics and cosmology permits us to analyze the large quantity of data obtained with
current surveys and expected from future surveys with the aim of improving our understanding of the cosmological model.
The internship is in the context of the data acquired by Vera Rubin Observatory (https://www.lsst.org/about) LLST (Legacy Survey of Space and Time), in particular in the context of the Dark Energy (DESC) and Galaxies Rubin Science Collaborations
(https://rubinobservatory.org/for-scientists/science-collaborations), and of the Euclid space mission (https://sci.esa.int/web/euclid). Galaxy clusters are powerful probes for cosmological models. LSST and Euclid will reach
unprecedented depths and, thus, they require highly complete and pure cluster catalogs, with a well-defined selection function. In this internship, we will focus on analysing astronomical
images through deep learning. Our team have developed a new cluster detection algorithm named YOLO for CLuster detection
(YOLO-CL), which is a modified version of the state-of-the-art object detection deep convolutional network named You only look once (YOLO) that has been optimized for the
detection of galaxy clusters [1,2]. The YOLO approach is a convolution-based method that primarily captures local features. In this internship, we aim to investigate transformer-based methods to model global relationships across entire astronomical images. These models are capable of capturing spatial and contextual interactions between multiple objects, which is expected to enhance detection performance compared to YOLO in our target application. In this context, we focus on the Detection Transformer (DETR) framework [3], an end-to-end
architecture that employs a transformer encoder–decoder network.
– Bibliography
[1] Grishin, Kirill, Simona Mei, and Stéphane Ilić. “YOLO–CL: Galaxy cluster detection in the SDSS with deep machine learning.” Astronomy & Astrophysics 677 (2023): A101.
[2] Grishin, Kirill, Simona Mei, Stephane Ilic, Michel Aguena, Dominique Boutigny, and Marie
Paturel. “YOLO-CL cluster detection in the Rubin/LSST DC2 simulations.” Astronomy & Astrophysics 695 (2025): A246.
[3] Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. “End-to-end object detection with transformers.” In European conference on computer vision, pp. 213-229. Cham: Springer International Publishing, 2020.

Profil du candidat :
The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in handling astronomical images. We have already obtained funding for the internship for 3-6 months.

Formation et compétences requises :
Master 2 or final year of MSc, or engineering school students in computer science.

Adresse d’emploi :
10 rue A.Domon et Léonie Duquet, 75205 Paris and/or 45 rue des
Saints-Pères, 75006, Paris

Document attaché : 202511111316_2025_Internship_Transformer-ClusterDetection.pdf

Jun
1
Mon
2026
NeOWL4j : création d’un éditeur d’ontologie moderne basé sur l’environnement Neo4j
Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes
Durée : 3 à 6 mois
Contact : alexis.guyot@lis-lab.fr
Date limite de publication : 2026-06-01

Contexte :
L’ingénierie des connaissances vise à modéliser, structurer et exploiter des savoirs pour les rendre manipulables par des systèmes informatiques. Au cœur de cette démarche, une ontologie est une représentation formelle d’un domaine : elle définit des concepts (classes), leurs relations (propriétés)
et des contraintes/axiomes (p. ex. hiérarchies, cardinalités). Les ontologies favorisent l’interopérabilité sémantique entre systèmes hétérogènes, facilitent l’intégration des données, soutiennent le raisonnement (inférences, vérification de cohérence) et encadrent la gouvernance des connaissances au moyen de référentiels partagés. Des outils comme Protégé font aujourd’hui autorité pour l’édition d’ontologies.

Le stage consiste à prototyper une alternative à Protégé en développant une surcouche d’édition et de raisonnement au-dessus du SGBD orienté graphe Neo4j, combinant ergonomie moderne, exploitation riche de graphe et compatibilité OWL (OWL API, moteurs de raisonnement standards). L’enjeu est de livrer une expérience contemporaine et efficace, sans réinventer les composants qui existent déjà lorsqu’ils sont adaptés.

Sujet :
**But du stage**
Concevoir et prototyper une application moderne (plutôt web, mais desktop possible) servant de sur-couche à Neo4j pour créer, éditer, valider et raisonner sur des ontologies (OWL/SWRL), avec une attention forte portée à l’UX et à l’esthétique. L’application doit ester interopérable avec l’écosystème existant (dont Protégé) tout en capitalisant sur les forces de Neo4j.

**Objectifs et missions**
Le/la stagiaire commencera par cadrer formellement le projet : étude de Protégé (exploration libre de l’outil, lecture de la documentation, entretiens avec des experts pour cerner besoins et limites de l’existant) ; rapide panorama des fonctionnalités des autres éditeurs d’ontologies, éventuellement complété par un album de captures pour comparer l’UX ; identification des contraintes techniques de l’existant (écosystème Neo4j, briques OWL/SWRL, validation et raisonnement) et repérage des bonnes pratiques UX 2025 pour guider la conception.

Sur cette base, il/elle rédigera des spécifications fonctionnelles et techniques pour le nouvel outil, puis développera un prototype de manière incrémentale : éditeur de d’ontologies ergonomique connecté à Neo4j, import/export assurant l’interopérabilité, mécanismes de validation, etc. Selon la durée et le profil,
le stage pourra s’étendre à l’édition d’axiomes et de règles, à l’intégration d’un raisonneur standard et à la création d’un démonstrateur complet sur une ontologie de référence.

**Technologies envisagées**
Côté interface, l’option prioritaire est une application web en TypeScript s’appuyant sur React ou SvelteKit, avec un composant d’édition de graphes adapté (par ex. React Flow ou Cytoscape.js), des moteurs de layout (elkjs/dagre) et un système de design moderne (Tailwind avec composants accessibles type Radix/shadcn). Cette combinaison permet de viser une UX actuelle : thèmes (y compris dark mode), accessibilité, performance (virtualisation), micro-interactions sobres.

En alternative desktop, on pourra empaqueter l’interface web via Electron ou Tauri, ou opter pour une interface native en JavaFX (Java) ou JetBrains Compose for Desktop (Kotlin), afin de faciliter l’intégration directe avec les bibliothèques web sémantique de l’écosystème Java.

Pour le backend, une pile Java avec Spring Boot est privilégiée afin d’intégrer naturellement OWL API/Apache Jena, de s’interfacer avec un raisonneur standard (HermiT, Pellet, Fact++), et de dialoguer avec Neo4j via le driver Java et neosemantics (n10s) pour les échanges RDF/OWL. La validation pourra
s’appuyer sur SHACL. L’API sera exposée simplement (REST/JSON ou gRPC) et restera découpée de façon à pouvoir évoluer (microservice dédié aux fonctions ontologiques si nécessaire).

Profil du candidat :
— Niveau : Bac+3 à Bac+5 (informatique / BD / IA / génie logiciel / IHM).
— Dominantes possibles : développement front moderne (TS + React/SvelteKit), Java et conception d’API, bases de données, graphes, web sémantique (OWL/RDF, SWRL, SHACL), UX/UI.
— Qualités attendues : autonomie, rigueur, curiosité, sens de l’ergonomie, communication.

Formation et compétences requises :

Adresse d’emploi :
LIS UMR 7020 CNRS / AMU / UTLN, équipe IACD
Aix Marseille Université – Campus de Saint Jérôme – Bat. Polytech
52 Av. Escadrille Normandie Niemen
13397 Marseille Cedex 20

Document attaché : 202510011418_2025_Sujet_Stage_NeOWL4J.pdf