Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
28
Sat
2026
Deep Learning Models for Analysis of Satellite Images and Prediction of Natural Disaster Impacts
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS
Durée : 5 mois
Contact : julien.ah-pine@sigma-clermont.fr
Date limite de publication : 2026-02-28

Contexte :
The internship is part of the DLISCES project (Deep Learning Images Satellites et Cartographie d’Indicateurs Économiques et Sociaux), supported by the International Research Center “Natural Disasters and Sustainable Development” (CIR4) of the ISite CAP 2025 in Clermont-Ferrand. The project falls under the “AI for Good” domain and conducts exploratory research aimed at providing maps of various indicators to more robustly assess the vulnerability of populations and territories exposed to climatic hazards (floods, landslides, cyclones, earthquakes, etc.). DLISCES is an interdisciplinary project involving researchers in artificial intelligence, economics, management, and mathematics. The selected candidate will join the LIMOS (Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes) and work closely with AI researchers and economists from CERDI (Centre d’études et de recherches sur le développement international). He or she will focus on leveraging state-of-the-art deep learning models and satellite images to evaluate the impact of natural disasters.

Sujet :
This internship aims to develop and apply deep learning (DL) models and resources for satellite images analysis in the goal of predicting natural disaster impacts. On one hand, the EM-DAT database contains data on the occurrence and impacts of over 27,000 mass disasters worldwide from 1900 to the present day. On the other hand, computer vision techniques utilizing DL enable efficient analysis of Earth Observation data acquired through
remote sensing technologies.

The goal of the internship is twofold :
1. Collect satellite images related to natural disaster events recorded in the EM-DAT database with geolocation provided by Geo-Disasters, from open-access platforms such as Copernicus and Google Earth Engine (GEE).
2. Study, apply, and fine-tune pre-trained DL models (foundation models for Earth Observation) to represent remote sensing information, aiming to predict natural disaster impacts as recorded in the EM-DAT database.

Particular attention will be paid to floods and the related dataset FLODIS, based on EM-DAT. This internship provides a valuable opportunity to work on impactful projects in the field of natural disaster risk management while gaining practical experience in deep learning and satellite image analysis. The opportunity to continue this work with a PhD project is currently under review.

Profil du candidat :
Current master student or recent graduate in Computer Science, AI, Data Science, Computer Vision, or in Social Science with a strong background in Data Science.
Experience using deep learning models in computer vision.
High Interest in inter-disciplinary research works.
Attention to details and rigor in handling large datasets and in programming.
Strong communication skills and ability to work in a team.
Knowledge of satellite imagery and geospatial data would be a plus.

Formation et compétences requises :

Adresse d’emploi :
LIMOS, Aubières (Clermont-Ferrand)

Document attaché : 202512151511_Offre de Stage DLISCES – 2526.pdf

Dynamic Inference in CNNs via Mixture of Experts and Early Exits
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28

Contexte :
The deployment of deep neural networks on edge devices such as smartphones or embedded systems poses significant challenges in terms of computational cost, energy consumption, and latency. Traditional models process all inputs with the same fixed architecture, regardless of their complexity, leading to inefficient use of resources. For instance, a clear image of a cat is processed with the same depth and width as a noisy, ambiguous scene, despite requiring far less computation.
To address this, recent research has explored dynamic neural networks, which adapt their computation based on input content. Two prominent strategies include:
• Mixture of Experts (MoE): activating only a subset of network parameters (e.g., specific convolutional branches) per input, enabling width adaptation.
• Early Exits: allowing simpler inputs to exit the network at intermediate layers, reducing inference depth.
While these approaches have been studied independently—MoE primarily in Transformers and early exits in CNNs—their combination remains underexplored, especially in convolutional architectures. Jointly leveraging both mechanisms could enable dual adaptation in width and depth, significantly improving efficiency without sacrificing accuracy.
This internship aims to design, implement, and evaluate a dynamic CNN architecture that integrates Mixture of Experts blocks with confidence-based early exits, enabling input-adaptive inference for vision tasks such as image classification. The work will contribute to the growing field of efficient and sustainable AI, with potential applications in mobile vision and real-time systems.

Sujet :
The main goal is to design and validate a hybrid dynamic CNN that couples conditional activation (Mixture-of-Experts) with adaptive depth (early-exit). To reach this goal, the intern will first carry out a bibliographic survey on dynamic inference, covering MoE in CNNs, early-exit networks such as BranchyNet, and recent attempts at joint width-and-depth adaptation; key training difficulties—load balancing, confidence estimation, stability—will be identified. Next, a full architecture will be proposed: convolutional MoE blocks whose top-k gating network selects the most relevant experts for each input, and auxiliary classifiers inserted at several depths that can terminate inference as soon as a confidence threshold is exceeded; a single decision rule will be learnt that decides, at every stage, whether to route or to exit. The model will then be implemented in PyTorch on standard backbones (ResNet or VGG variants) and trained on CIFAR-10/100 or Tiny-ImageNet; knowledge distillation and load-balancing losses will be used to stabilise MoE training, while a cost-aware term will encourage both sparse expert selection and early termination. Finally, the system will be evaluated in terms of accuracy, average inference depth, FLOPs and latency and compared against strong baselines (standard CNN, BranchyNet, MoE-CNN without exits); a detailed analysis will correlate input difficulty with the chosen experts and the actual exit layer. If time permits, the intern will explore ultra-lightweight gating for on-device deployment and validate the approach on a mobile-oriented use-case.

Profil du candidat :
Required technical skills:
• Python, PyTorch
• Deep learning (CNNs, optimization)
• Familiarity with vision datasets and evaluation metrics
• (Preferred) Experience with model compression or dynamic networks

Formation et compétences requises :
M2 in computer science or applied mathematics

Adresse d’emploi :
INSA Lyon, Campus de la Doua, Villeurbanne

Document attaché : 202512181058_dynamic_cnn_internship.pdf

Étude de l’apport des Prétraitements en imagerie sous-marine pour les approches Convolutives
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LabiISEN – ISEN Ouest
Durée : 4 à 6 mois
Contact : thibault.napoleon@isen-ouest.yncrea.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Dans le cadre de travaux avec Thales Underwater System (UWS), nous cherchons à évaluer la pertinence des prétraitements dans les techniques de vision par ordinateur en milieu sous-marin. En effet, il est d’usage de prétraiter les images issues du capteur (photo ou vidéo) afin de compenser les distorsions colorimétriques induites par le milieu aquatique ainsi que les phénomènes de brumes sous-marines induits par la turbidité. Cependant, ces approches s’appuient depuis quelques années sur des techniques utilisant des réseaux de neurones (souvent convolutifs) dont les architectures sont proches de celles utilisées pour les tâches de vision par ordinateur qui suivent ces prétraitements. Ainsi, cette étude vise à mieux comprendre les avantages et les inconvénients d’enchainer les étapes prétraitement (c.-à-d. approche dissociée) et traitements par vision (classification, détection ou segmentation par exemple) plutôt que de les combiner dans un même réseau de neurones (c.-à-d. approche combinée).

Le but de ce stage est de comparer ces deux approches, dissociée et combinée, dans un cadre unifié où plusieurs méthodes de prétraitements et plusieurs tâches de vision seront étudiées. Le but étant de montrer les avantages et les inconvénients des deux approches. Ainsi, il pourrait être possible de proposer une méthode combinant les avantages de chacune. L’une des pistes envisagées est une approche multi-objectifs dans un réseau de segmentation sémantique. Dans ce cadre, l’un des objectifs serait le débrumage d’image tandis qu’un autre serait la segmentation sémantique des images. Avec cette approche, la capacité d’apprendre à prétraiter les images en même temps qu’en extraire les informations pertinentes, pour plus de robustesse, pourrait apparaitre dans un unique réseau de neurones.

Le stage s’articulera autour des points suivants :
• Sélection des bases de données nécessaires à l’étude comparative.
• Sélection des méthodes de prétraitements utilisées en vision sous-marine.
• Sélection des méthodes de vision par ordinateur adaptées aux tâches de vision sous-marines.
• Étude comparative des approches dissociées et combinées.

Profil du candidat :
Le candidat doit avoir :
• suivi un cursus de Master ou d’Ingénieur dans un des domaines suivants : vision par
ordinateur, science des données, informatique ;
• de solides compétences en algorithmique et en programmation ;
• des connaissances en vision par ordinateur ;
• des connaissances en intelligence artificielle.

Pour candidater, le candidat doit fournir :
• un CV détaillé ;
• les relevées de notes des deux dernières années.

Merci de candidater sur https://isen.softy.pro/offers/186565 ou en envoyant un mail à thibault.napoleon@isen-ouest.yncrea.fr (objet : [Stage EPIC]).

Formation et compétences requises :

Adresse d’emploi :
ISEN Ouest, site de Brest – 20 rue Cuirassé Bretagne, 29200 Brest

Document attaché : 202601070932_Sujet.pdf

Extraction et analyse de transactions issues d’une blockchain locale
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut UTINAM, UMR 6213 CNRS / UMLP
Durée : 4 à 5 mois
Contact : jose.lages@univ-fcomte.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Depuis toujours, les échanges de ressources, de biens et de services structurent les sociétés humaines, révélant inégalités, hiérarchies et formes d’organisation collective. À l’ère numérique, de nouvelles formes de valeur émergent, portées notamment par les technologies blockchain, qui renouvellent nos conceptions de l’échange, de la souveraineté économique et de la territorialité. Ces systèmes d’échange peuvent être étudiés comme des systèmes complexes, caractérisés par des topologies non triviales, l’émergence de comportements collectifs, ainsi que des dynamiques de coopération et de compétition. Les transactions numériques sont enregistrées dans une blockchain, un registre distribué reposant sur des mécanismes cryptographiques assurant l’intégrité et la traçabilité des échanges. L’extraction de ces données permet de reconstruire le réseau d’échanges entre acteurs et d’en analyser la structure. Dans ce projet, nous nous intéressons à un cas d’étude spécifique : la monnaie complémentaire citoyenne PIVE (Jura) et sa version numérique. Le ou la stagiaire aura pour mission, dans un premier temps, d’extraire les données issues de la blockchain associée, puis d’utiliser des outils issus de la physique statistique et de la théorie des graphes afin de caractériser le graphe de transactions sous-jacent. L’objectif est notamment d’identifier des structures centrales ou périphériques, ainsi que d’éventuelles zones de faible connectivité, afin d’apporter des éléments d’analyse sur la santé macroéconomique et territoriale du réseau PIVE. Le ou la stagiaire travaillera au sein de l’équipe de physique théorique de l’Institut UTINAM, UMR 6213 CNRS / Univ. Marie et Louis Pasteur (Besançon) et collaborera avec une équipe de recherche en économie du CRESE, Univ. Marie et Louis Pasteur.

Profil du candidat :
Environnement technique
– Programmation en Python
– Packages recommandés : PySpark, pandas, NumPy, NetworkX

Profil recherché
• Étudiant·e en Master 2 (physique ou informatique), intéressé·e par la data science. Bon niveau en programmation Python
• Des connaissances en blockchain et cryptomonnaies constituent un plus, mais ne sont pas indispensables

Formation et compétences requises :
Étudiant·e en Master 2 (physique ou informatique)

Adresse d’emploi :
Institut UTINAM, UMR 6213 CNRS / Univ. Marie et Louis Pasteur (Besançon)

Extraction et traitement de données spatio-temporelles hydrologiques et météorologiques pour le machine learning
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 3-4 mois
Contact : etienne.lehembre@unicaen.fr
Date limite de publication : 2026-02-28

Contexte :
Le stage se déroule dans le cadre du projet Junon au sein du LIFO (Laboratoire d’Informatique Fondamentale d’Orléans) avec le BRGM (Bureau de Recherches Géologiques et Minières). Le projet Junon a pour but de mettre en place des modèles de Machine Learning afin de prédire le niveau d’eau futur de la nappe phréatique de la Beauce. Pour entraîner ces modèles, le BRGM a fourni au projet 12 séries temporelles correspondant à 12 historiques des mesures d’eau de piézomètre (puits servant à mesurer le niveau de la nappe phréatique).

Sujet :
Afin de pouvoir complexifier les modèles, il est nécessaire d’obtenir davantage de données. Seulement, les séries temporelles des piézomètres sont souvent incomplète, car les relevés journaliers ne sont pas toujours possibles. Ainsi, le stage a pour but d’extraire les séries temporelles d’autres piézomètres, de compléter ces séries temporelles en essayant différents algorithmes d’interpolation, et de compléter ces données avec des données météorologiques issues de SAFRAN.

Profil du candidat :
Ce stage s’adresse aux étudiants en BUT3, M1 ou équivalent. Une expertise en Python (avec les librairies Pandas ou NumPy) est indispensable.

Formation et compétences requises :
Ce stage s’adresse aux étudiants en BUT3, M1 ou équivalent. Une expertise en Python (avec les librairies Pandas ou NumPy) est indispensable.

Adresse d’emploi :
LIFO, 6 Rue Léonard de Vinci, 45067 Orléans

Document attaché : 202512181055_offre-stage-Junon-Data-mining.pdf

Extraction semi-automatique d’annotations sémantiques pour la préservation du patrimoine culturel
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS
Durée : 6 mois
Contact : baron@ensma.fr
Date limite de publication : 2026-02-28

Contexte :
L’étude du patrimoine repose sur des données hétérogènes provenant de sources multiples (mesures, croquis, photographies, acquisitions 3D, etc.), souvent difficiles à manipuler en raison de la fragilité ou de l’inaccessibilité des objets. Le projet ANR DIGITALIS vise à développer des outils numériques dédiés à la gestion, à la pérennisation, à la réutilisation et à la visualisation de ces données. Le laboratoire LIAS, partenaire du projet ANR, travaille sur la conception de méthodes et de structures pour gérer des données complexes de manière interopérable.

Dans le cadre du projet ANR DIGITALIS, cette expertise est utilisée pour proposer un modèle de données dédié au patrimoine, permettant aux experts de partager et d’enrichir leurs annotations sur des objets patrimoniaux. Ce besoin s’inscrit dans la continuité de travaux existants,
comme le modèle sémantique CIDOC CRM, qui vise à assurer la traçabilité et l’annotation des objets numériques dans le domaine historique. Le principal enjeu est d’automatiser l’extraction des données vers ce modèle, une tâche complexe et chronophage, d’autant plus que les historiens maîtrisent peu ce formalisme et que les informaticiens ne sont pas spécialistes du patrimoine.

Le laboratoire LIAS a obtenu des résultats en explorant l’usage de l’IA générative pour transformer des données textuelles issues de fouilles archéologiques en représentations conformes au modèle CIDOC CRM.

Sujet :
Les objectifs du stage sont multiples à vise à compléter les travaux obtenus.

Le premier objectif porte sur le compromis entre précision, performance et impact environnemental, ainsi que sur les enjeux de vie privée liés aux déploiements cloud ou locaux. Le stagiaire devra donc reprendre les résultats existants et les évaluer sur différents modèles d’IA générative, qu’ils soient hébergés dans le cloud ou exécutés localement via des modèles à poids ouverts de plus petite taille. Cela permettra au stagiaire de se familiariser avec les concepts de base de l’IA générative et des travaux développés par le laboratoire LIAS dans ce domaine.

Le deuxième objectif porte sur la capacité à référencer les sources (mesures, croquis, photographies, acquisitions 3D, etc.) utilisées pour produire les annotations. Cette question, non traitée dans nos travaux initiaux, est pourtant essentielle pour assurer la traçabilité des anno-
tations. Le stagiaire devra ainsi explorer des solutions permettant d’intégrer explicitement la notion de source dans le processus de génération des annotations. Cela permettra au stagiaire de se familiariser avec le modèle CIDOC CRM.

Le troisième objectif, qui constitue la contribution principale de ce stage, porte sur l’intégration de vocabulaires contrôlés, tels que des thésaurus, dans le processus de génération des annotations. Cette intégration vise à améliorer la cohérence et la qualité des annotations, notamment
en facilitant la gestion des synonymes (par exemple : église <=> lieu de culte).

Ce stage recherche sera encadré par un doctorant travaillant sur des problématiques similaires, ainsi que deux chercheurs du laboratoire LIAS spécialisés dans le domaine de l’IA générative et du patrimoine. Une publication scientifique serait attendue à l’issue du stage, en fonction des résultats obtenus.

Profil du candidat :
Le candidat doit être en Master 2 en Informatique ou en dernière année de préparation d’un diplôme d’ingénieur spécialité Informatique.

Formation et compétences requises :
Une bonne connaissance du langage de programmation Python et des bibliothèques usuelles d’apprentissage automatique est requise.

Adresse d’emploi :
Le stage se déroulera dans les locaux du LIAS sur le site du Futuroscope.

Document attaché : 202601050906_Sujet_Stage_DigitalisAli_2026.pdf

Offre de stage M2 – Enrichissement d’ontologies par approche neuro-symbolique (LLM)
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : HELP/– — –

Laboratoire/Entreprise : Laboratoire d’Intelligence Artificielle et Sémant
Durée : 4 à 5 mois
Contact : t.mecharnia@iut.univ-paris8.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Ce stage s’inscrit dans des travaux de recherche à l’interface entre intelligence artificielle symbolique, apprentissage automatique et ingénierie des connaissances. Il portera notamment sur l’exploitation de LLM pour la génération, l’alignement et la validation de connaissances ontologiques.

Une description détaillée du sujet, des objectifs scientifiques et du contexte de recherche est disponible dans le document joint.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Équipe EID du LIASD, IUT de Montreuil, 140 Rue de la Nouvelle France,
93100 Montreuil, France

Document attaché : 202601071430_Annonce_Stage_M2.pdf

Offre de stage M2 – Enrichissement d’ontologies par approche neuro-symbolique (LLM)
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Intelligence Artificielle et Sémant
Durée : 4 – 5 mois
Contact : t.mecharnia@iut.univ-paris8.fr
Date limite de publication : 2026-02-28

Contexte :
Les grands modèles de langage (LLM) tels que GPT, Llama ou Mistral sont capables de raisonner sur du texte, d’extraire des entités et d’établir des relations sémantiques complexes. Leur utilisation pour l’enrichissement automatique d’ontologies est un domaine émergent en ingénierie des connaissances.
Toutefois, les informations produites par un LLM ne respectent pas nécessairement la cohérence logique ni la structure formelle d’une ontologie exprimée en OWL. Ce stage s’inscrit dans une démarche de recherche visant à concevoir une approche neuro-symbolique, combinant :
— La créativité sémantique d’un LLM pour proposer de nouveaux concepts et propriétés.
— La rigueur du raisonnement logique via un moteur de raisonnement OWL permet de valider ces propositions.
L’objectif est de développer un cadre d’enrichissement automatique d’ontologies à partir de textes scientifiques, de notices techniques ou de graphes RDF existants.

Sujet :
Ce stage s’inscrit dans des travaux de recherche à l’interface entre intelligence artificielle symbolique, apprentissage automatique et ingénierie des connaissances. Il portera notamment sur l’exploitation de LLM pour la génération, l’alignement et la validation de connaissances ontologiques.

Une description détaillée du sujet, des objectifs scientifiques et du contexte de recherche est disponible dans le document joint.

Les candidats intéressés sont invités à transmettre, exclusivement au format PDF, les documents suivants à l’adresse :
t.mecharnia@iut.univ-paris8.fr

Profil du candidat :
Etudiant·e en 2e année de master ou en dernière année d’école d’ingénieur dans le domaine de l’intelligence artificielle, avec des compétences

Formation et compétences requises :
Techniques :
— Programmation : Python (rdflib, transformers, torch).
— Web sémantique : RDF, OWL, SPARQL, Protégé.
— NLP / LLMs : prompts, pipelines, fine-tuning (un plus).
— Raisonnement symbolique, logiques des descriptions, utilisation de reasoners.

Scientifiques :
— Compréhension des modèles LLM.
— Conception d’ontologies et validation sémantique.

Adresse d’emploi :
Équipe EID du LIASD, IUT de Montreuil, 140 Rue de la Nouvelle France, 93100 Montreuil, France

Document attaché : 202601071543_Annonce_Stage_M2.pdf

Stage M2 : Deep metric learning of 2D shape representations
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28

Contexte :
In the field of 2D or 3D region of interest (ROI) delineation in medical imaging, combining segmentations of anatomical structures from different sources proves beneficial. This is particularly relevant given the development of multimodal and multi-parametric imaging acquisition devices. Furthermore, combining multiple expert tracings of the same ROI can be useful for evaluating segmentation methods to estimate a consensus ground truth, thereby accounting for intra- or inter-expert variability. Finally, combining multiple segmentation methods can help improve results and their reproducibility. Thus, even though deep learning segmentation methods offer highly accurate results, it is sometimes necessary to combine several architectures or parameterizations to pool segmentation results and reduce variability.
To address these various challenges in segmentation method evaluation and fusion, the CREATIS lab and its collaborators have been developing a method for several years to compute a mutual shape from n masks corresponding to n segmentations of the same region. Within this working group, we initially proposed a variational formulation of the foundational STAPLE algorithm, enabling the evaluation of segmentation methods without a gold standard. The mathematical framework we established, based on domain optimization tools, subsequently allowed us to study different shape metrics, including an original shape metric based on information theory concepts. This metric also proved relevant for the robust fusion of 2D or 3D segmentation methods.

Sujet :
Based on this mathematical framework we aim for developing a deep learning based model to combine several segmentation maps and compare it with our analytical methods.
The aim of this internship is to design a new deep learning architecture similar to N. Courty et al. “Learning Wasserstein Embeddings”. It would be composed of a (convolutional) auto-encoder that is trained to reconstruct segmentation maps combined with a contrastive learning framework to structure the embedding space according to the desired properties of the shape distance (e.g. mutual shape). The advantage of such a model is that it may compute distances between shapes in a Euclidean space (i.e. the distance between the embeddings) and thus more easily compute the final reference shape of the n input segmentation maps by combining the n embeddings and reconstructing the corresponding segmentation map.
There are several scientific challenges that need to be addresses, e.g. the way to constrain the latent space according to the target distance measure, the architecture of the neural network and loss function and the way to combine several embeddings.
In the first place, we will work with binary segmentation maps and later, potentially, extend the approach to probability maps. An advantage would be that a combination based on probability maps would better incorporate uncertainty and, in theory, lead to a better fused reference shape. In this regard, the intern will collaborate with another intern working on the mathematical aspects of the extension of the existing method (of mutual shape) to probability maps.

Profil du candidat :
Good skills in python programming and machine learning, in particular deep learning.
Scientific curiosity and autonomy.

Formation et compétences requises :
Student in M2 or engineering school in computer science or applied mathematics.

Adresse d’emploi :
INSA Lyon
7 Avenue Jean Capelle
69621 Villeurbanne

Document attaché : 202511190724_internship_smip_liris_2026.pdf

Mar
1
Sun
2026
Stage M2 — Privacy attacks on synthetic data generation
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire IRISA
Durée : 5-6 mois
Contact : tristan.allard@irisa.fr
Date limite de publication : 2026-03-01

Contexte :
Health data, social networks, electricity consumption… Vast quantities of personal data are collected today by private companies or public organizations. Various legal, monetary, or visibility incentives push data holders to envision sharing versions of the collected datasets that provide both statistical utility and privacy guarantees. Indeed, sharing data at large, e.g., as open data, without jeopardizing privacy, is expected to bring strong benefits (strengthening, e.g., scientific studies, innovation, public policies). Synthetic data generation is a promising approach. First, synthetic data generation algorithms aim at generating datasets that are as close as possible to the original datasets. Either synthetically generated data or the generative models trained over the original data could be shared for supporting elaborate data analysis. Second, substantial progress has been made during the last decade about the privacy guarantees of synthetic data generation algorithms. For example, there exist today synthetic data generation algorithms that satisfy variants of differential privacy, one of the most prominent family of privacy models. However, the wealth of generative algorithms, of privacy models and algorithms, and of parameters makes it hard for non expert users to understand clearly the privacy implications of any given choice. Given the growing number of privacy attacks on machine learning models and especially on generative algorithms, an inappropriate choice can result in catastrophic consequences.

Sujet :
The main goal of this M2 thesis is to design an efficient approach for allowing a data holder to compute the most relevant privacy attacks given the data holder’s choice.

The main tasks of the Master student will be to:
• Study the state-of-the-art about privacy attacks (e.g., membership inference attacks [2, 4, 5]). We will focus on tabular data.
• Formalize the attackers (e.g., adversarial goals, background knowledge, impacts and costs of the attacks, vulnerable algorithms), structure the space of attackers (e.g., generalization/specialization of attackers, implications), and explore efficiently the resulting space for finding the attacks that best illustrate the privacy risks.
• Implement the approach and evaluate its performance.

In addition to the core tasks of the project, the successful candidate will also contribute to the organisation of competitions where the privacy guarantees of synthetic data generation algorithms are challenged.

Profil du candidat :
• The candidate must be in the second year of a master’s degree, or equivalent, in computer science or in a related field.
• The candidate must be curious, autonomous, and rigorous.
• The candidate must be able to communicate in English (oral and written). The knowledge of the French language is not required.
• The candidate must have a strong interest in cybersecurity.
• Skills in machine learning will be appreciated.

Formation et compétences requises :

Adresse d’emploi :
Campus de Beaulieu IRISA/Inria Rennes
263 avenue du Général Leclerc
35042 RENNES cedex

Document attaché : 202511171626_m2-attacks-25_26.pdf

Mar
8
Sun
2026
Offre de stage M2 – Correction de requêtes SPARQL avec LLMs
Mar 8 – Mar 9 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Intelligence Artificielle et Sémantique des Donnée
Durée : 5 – 6 mois
Contact : t.mecharnia@iut.univ-paris8.fr
Date limite de publication : 2026-03-08

Contexte :

Sujet :
Les graphes de connaissances constituent une infrastructure centrale pour la représentation et l’interrogation de données structurées dans de nombreux domaines (Web de données, bases de connaissances ouvertes, systèmes d’aide à la décision). Le langage SPARQL permet d’interroger ces graphes de manière précise, mais sa maîtrise reste complexe, tant pour les utilisateurs humains que pour les systèmes automatisés.

Dans les systèmes récents de traduction du langage naturel vers SPARQL (Text-to-SPARQL), les modèles de langage (LLMs) sont de plus en plus utilisés. Toutefois, ces modèles génèrent fréquemment des requêtes SPARQL erronées, soit sur le plan syntaxique, soit plus souvent sur le plan sémantique (mauvais prédicats/propriétés, incohérences avec l’ontologie).

La correction automatique de requêtes SPARQL constitue donc un enjeu majeur pour améliorer la fiabilité, la robustesse et l’explicabilité des LLMs en les combinant avec des schémas ontologiques.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
IUT de Montreuil, 140 Rue de la Nouvelle France, 93100 Montreuil, France

Document attaché : 202602080855_Stage_M2_EID_2026___Correction_de_requetes_SPARQL_avec_LLMs.pdf

Apr
17
Fri
2026
Modélisation adaptative par apprentissage profond actif des blocs opératoires dans les systèmes hospitaliers
Apr 17 – Apr 18 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique Bioinformatique et Sys
Durée : 5 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2026-04-17

Contexte :
Offre de Stage financée au sein du laboratoire IBISC Université Evry Paris Saclay.

Sujet :
La planification des tâches pour des blocs opératoires comme les admissions, est un problème complexe compte tenu de la l’intervention humaine et en particulier des événements aléatoires perturbatrices. Dans ce domaine, de nombreuses recherches ont été menées ces dernières années, la plupart de ces travaux sont basés sur des modèles stochastiques. L’intelligence artificielle a montré son efficacité pour résoudre des systèmes complexes dans différents domaines d’applications. Dans ce contexte, des modèles de planification peuvent s’appuyer sur les approches de l’apprentissage automatique. En effet, ces techniques permettent de développer des modèles d’ordonnancement prédictif et de l’optimisation des entrepôts de données.

L’objectif de ce stage, consiste dans le développement d’une approche de planification adaptative du bloc opératoire. Basée sur le principe de l’apprentissage automatique, la méthode de planification permettra le pilotage temps-réel du bloc opératoire. Les travaux seront réalisés dans un cadre d’application pratique dans des services de chirurgie faisant partie de l’établissement hospitalier.

Le candidat réalisera une étude de l’état de l’art et se penchera ensuite sur les différentes possibilités de la mise en place d’une stratégie de planification par apprentissage automatique tenant compte des contraintes souvent incertaines qui peuvent surgir à tout instant.

Références:

[1] Valentina Bellini, Michele Russo, Tania Domenichetti, Matteo Panizzi, Simone Allai, Elena Giovanna Bignami, Artificial Intelligence in Operating Room Management, Journal of Medical Systems (2024) 48:19 https://doi.org/10.1007/s10916-024-02038-2

[2] Zhenzhong Liu, Kelong Chen, Shuai Wang, Yijun Xiao, Guobin Zhang, Deep learning in surgical process modeling: A systematic review of workflow recognition, Journal of Biomedical Informatics, Volume 162, February 2025, 104779 https://doi.org/10.1016/j.jbi.2025.104779

[3] Md Mahfuzur Rahman, Rubayet Karim, Md Moniruzzaman, Md Afjal Hossein and Hammad Younes, Modeling Hospital Operating Theater Services: A System Dynamics Approach, Logistics2023, 7(4), 85; https://doi.org/10.3390/logistics7040085

Profil du candidat :

Formation et compétences requises :
De formation Master 2 ou équivalent possédant de préférence les compétences suivantes:
– Programmation Python, Matlab,
– Machine Learning
– Des connaissances de base en modélisation et ordonnancement

Adresse d’emploi :
Laboratoire Informatique, Bioinformatique et Systèmes Complexes – IBISC
40 rue du Pelvoux, 91020 Evry, France.

Document attaché : 202601251431_Sujet-Stage-BO.pdf

Apr
29
Wed
2026
Estimation du schéma d’acquisition en imagerie par résonnance magnétique (IRM)
Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-04-29

Contexte :

Sujet :
See attached file

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202509111720_sujet stage MRI CS.pdf

Image processing for the enhancement of brain tumor biomarker visualization from images acquired by Stimulated Raman Scattering microscopy
Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-04-29

Contexte :

Sujet :
please see the attached file

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202509111718_sujet stage SRH.pdf

Apr
30
Thu
2026
Argumentative Graph-RAG for Participatory Democracy
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne University
Durée : 5-6 months
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Participatory democracy platforms (Make, Decidim, Cap Collectif, Consul) enable thousands of citizens to propose and discuss ideas for public policies. However, the large volume of textual contributions produces severe information overload: citizens struggle to identify similar or opposing proposals, while decision-makers face difficulty in detecting consensus or disagreement.

Recent research at LIP6 has shown that Natural Language Processing (NLP) can detect argumentative relations between citizen proposals (equivalence, contradiction, neutrality). These relations can be structured into argumentative graphs, which help organize debates and improve navigation within large participatory datasets.

This internship aims to extend these ideas using Graph Retrieval-Augmented Generation (Graph-RAG). By combining graph-based retrieval with language generation, the project seeks to build intelligent tools capable of summarizing debates, identifying conflicting or redundant proposals, and assisting citizens in writing balanced contributions.

Profil du candidat :
Master 2 / Final-year engineering

Formation et compétences requises :
– Programming: Python, PyTorch or TensorFlow

– NLP / ML: Experience with large language models, embeddings, or NLP tasks

– Data Science: Text preprocessing, vector representations, evaluation metrics

– Research: Ability to conduct literature reviews, design small experiments, and analyze results

– Participatory democracy: Interest in participatory democracy or computational argumentation

Adresse d’emploi :
Sorbonne University, 4 place Jussieu 75005 Paris.

Document attaché : 202511121059_Stage_LIP6_2025_2026.pdf

Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRESTIC (URCA) / Institut Godinot (Reims)
Durée : 6 mois
Contact : Arnaud.BEDDOK@reims.unicancer.fr
Date limite de publication : 2026-04-30

Contexte :
Cf. Fiche

Sujet :
Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)

Cf. fiche.

Profil du candidat :
Cf. fiche.

Formation et compétences requises :
Cf. fiche.

Adresse d’emploi :
CRESTIC (URCA) / Institut Godinot (Reims)

Document attaché : 202512180752_Offre de stage M2 20250926.pdf

Efficient self-supervised learning using dataset distillation
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
The performance of supervised deep learning methods in computer vision heavily depends on the availability of
labeled data, whose annotation is both time-consuming and requires expert knowledge. To overcome this limitation,
Self-Supervised Learning (SSL) has emerged as a promising alternative to address the challenge of limited annotations.
In this paradigm, models learn from unlabeled data by generating their own supervisory signals. The resulting pre-
trained models can then be fine-tuned on various downstream tasks such as image classification, object detection, and
semantic segmentation. However, achieving performance comparable to supervised learning often requires large-scale
datasets and high training costs, which significantly increase computational and storage demands. This internship
aims to alleviate these constraints by exploring data distillation techniques to make SSL training more efficient.

Sujet :
Dataset Distillation (DD) [1] aims to condense a large-scale training dataset into a much smaller synthetic one
such that models trained on the distilled data achieve performance comparable to those trained on the original
dataset (see figure 1). Most existing DD methods are designed for efficient supervised learning and can be broadly
classified into three main categories [2] : (1) Performance Matching, which minimizes the loss on the synthetic
dataset by aligning the performance of models trained on real and synthetic data, (2) Parameter Matching, which
trains two neural networks respectively on real and synthetic data and encourages similarity in their parameters and
(3) Distribution Matching, which generates synthetic data that closely mimics the distribution of the original dataset.
In this internship, we will focus on the Parameter Matching approach. Building upon the work of Cazenavette et al.
[3], the authors of [4] extended this concept to SSL using knowledge distillation [5, 6, 7], particularly employing SSL
methods such as Barlow Twins and SimCLR. In the same vein, this internship will explore the DINO (self-DIstillation
with NO labels, MetaAI) SSL method [8], which naturally produces teacher–student parameter trajectories that can
be leveraged for Parameter Matching. The different steps of the internship are :
▷ Step 1 – Literature review : Review recent dataset distillation methods applied to computer vision, with a
focus on parameter matching and SSL-based approaches.
▷ Step 2 – Trajectory Observation : Analyze and visualize the teacher–student parameter trajectories generated
by DINO during SSL training.
▷ Step 3 – Integration into Data Distillation Frameworks : Design a trajectory matching loss based on
DINO’s teacher–student dynamics and train a student model on synthetic data guided by these trajectories.
▷ Step 4 – Test on down-stream computer vision tasks : Assess the effectiveness of the proposed approach
on tasks such as image classification
– Bibliography
[1] Tongzhou Wang et al. “Dataset distillation”. In : arXiv preprint arXiv :1811.10959 (2018).
[2] Ruonan Yu, Songhua Liu et Xinchao Wang. “Dataset distillation : A comprehensive review”. In : IEEE transactions on pattern analysis and machine
intelligence 46.1 (2023), p. 150-170.
[3] George Cazenavette et al. “Dataset distillation by matching training trajectories”. In : Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2022, p. 4750-4759.
[4] Siddharth Joshi, Jiayi Ni et Baharan Mirzasoleiman. “Dataset Distillation via Knowledge Distillation : Towards Efficient Self-Supervised Pre-training
of Deep Networks”. In : The Thirteenth International Conference on Learning Representations. 2025. url : https://openreview.net/forum?id=c61unr33XA.
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocomputing
649 (oct. 2025), p. 130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. url : https://hal.science/hal-04488459.
[8] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025)

Profil du candidat :
The ideal
candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
machine/deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science.

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111324_2025_Internship_DD_SSL.pdf

Interprétabilité en IA des séries temporelles radar
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : christophe.lin-kwong-chon@univ-smb.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Interprétabilité en IA des séries temporelles radar

(descriptions détaillées dans la fiche attachée)

Profil du candidat :
Des compétences en machine learning sont attendues.
Le stage portera exclusivement sur la programmation en Python.
Une expérience en télédétection radar, géophysique des volcans
ou en explicabilité/interprétabilité de l’IA serait un atout.

Formation et compétences requises :

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux

Document attaché : 202510060816_Sujet – Interprétabilité en IA des séries temporelles radar.pdf

Knowledge Distillation from Large Vision Foundation Models for Efficient Dense Prediction
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
Recently, several Large Vision Foundation Models (LVFMs) have been proposed in the literature [1]. They are
trained through a Self-Supervised Learning (SSL) paradigm on large-scale unlabeled datasets and evaluated on small
labeled datasets (fine-tuning). These models have achieved state-of-the-art performance across a wide range of
downstream computer vision tasks, including both non-dense tasks (e.g., image classification, image retrieval) and
dense tasks (e.g., semantic segmentation, object detection). However, the growing size and computational demands of
the LVFMs significantly constrain their applicability in resource-limited devices (e.g., drone, smarphone). For instance,
CLIP (Contrastive Language–Image Pretraining, OpenAI) [2] comprises up to 0.4 billion parameters, DINOv3 (self-
DIstillation with NO labels, MetaAI) [3] includes models with up to 7 billion parameters, and the SAM 2 (Segment
Anything Model, Meta AI) [4] exceeds 224 million parameters. To reduce the computational demands of such massive
architectures, this internship will focus on investigating knowledge distillation techniques.

Sujet :
The knowledge distillation (KD) technique [5, 6, 7] transfers knowledge from a powerful teacher network to a
smaller student model, enabling the student to achieve significantly improved performance with lower computational
cost. In this process, the student is trained on the same dataset as the teacher, allowing it to directly leverage the
teacher’s learned representations. However, directly applying KD to LVFMs presents several challenges. First, the
most performant LVFMs are developed by large tech companies, and their training datasets are often not publicly
available. Second, these LVFMs typically employ Vision Transformer (ViT) architectures [8] as encoders, whereas
convolutional neural networks (CNNs) are generally lighter and more computationally efficient, making them strong
candidates for student models on edge devices. Third, there are significant discrepancies in capacity between LVFMs
and smaller edge models. The latter two challenges are partially addressed by Lee et al. [9], who propose a method
to customize the well-generalized features of LVFMs for a given student model. Despite promising results, this work
does not thoroughly address the issues of unavailable source datasets and cross-architecture knowledge transfer.
Additionally, only the image classification task is considered. In this internship, we aim to tackle these challenges by
investigating state-of-the-art methods for cross-architecture KD [10], data-free KD [11] and adaptive KD [12]. As
illustrated in figure 1, we will focus on two dense down-stream tasks : semantic segmentation and object detection.
The different steps of the internship are :
▷ Step 1 – Literature review on KD from foundation models
▷ Step 2 – Compare different methods of cross-architecture KD, data-free KD and adaptive KD : The
teacher will be a LVFM such as CLIP, DINOv3 and SAM2. The student encoder should be a CNN one like ResNet18.
▷ Step 3 – Test the student model on different semantic segmentation and object detection datasets :
A comparison is to be done with classical KD methods dedicated to dense prediction.
– Bibliography
[1] Muhammad Awais et al. “Foundation models defining a new era in vision : a survey and outlook”. In : IEEE Transactions on Pattern Analysis and
Machine Intelligence (2025).
[2] Alec Radford et al. “Learning transferable visual models from natural language supervision”. In : International conference on machine learning. PmLR.
2021, p. 8748-8763.
[3] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025).
[4] Nikhila Ravi et al. “Sam 2 : Segment anything in images and videos”. In : arXiv preprint arXiv :2408.00714 (2024)
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocom-
puting 649 (oct. 2025), p. 130791. doi : 10.1016/j.neucom.2025.130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. doi : 10.1016/j.patrec.2024.02.027. url : https://hal.science/hal-04488459.
[8] Alexey Dosovitskiy et al. “An Image is Worth 16×16 Words : Transformers for Image Recognition at Scale”. In : International Conference on Learning
Representations. 2021. url : https://openreview.net/forum?id=YicbFdNTTy.
[9] Jungsoo Lee et al. “Customkd : Customizing large vision foundation for edge model improvement via knowledge distillation”. In : Proceedings of the
Computer Vision and Pattern Recognition Conference. 2025, p. 25176-25186.
[10] Weijia Zhang et al. “Cross-Architecture Distillation Made Simple with Redundancy Suppression”. In : Proceedings of the IEEE/CVF International Confe-
rence on Computer Vision. 2025, p. 23256-23266.
[11] Qianlong Xiang et al. “Dkdm : Data-free knowledge distillation for diffusion models with any architecture”. In : Proceedings of the Computer Vision and
Pattern Recognition Conference. 2025, p. 2955-2965.
[12] Yichen Zhu et Yi Wang. “Student customized knowledge distillation : Bridging the gap between student and teacher”. In : Proceedings of the IEEE/CVF
International Conference on Computer Vision. 2021, p. 5057-5066.

Profil du candidat :
The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111320_2025_Internship_KD_LVFM.pdf

Régression symbolique pour la modélisation en volcanologie
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : argheesh.bhanot@univ-smb.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
En sciences naturelles, la modélisation des phénomènes physiques constitue toujours un sujet difficile. Les formules existantes ne suffisent parfois pas à représenter adéquatement les mécanismes complexes, notamment ceux qui ne sont pas directement observables. Il arrive également que ces formules ne correspondent pas parfaitement aux observations issues des données. Ces problèmes ont, par exemple, été rencontrés dans le suivi de la concentration des polluants, l’étalement de la végétation ou encore les coulées de lave.
Dans ce projet, nous nous concentrons sur la modélisation volcanique. En volcanologie, par exemple, les scientifiques disposent de mesures de déplacements en surface, obtenues grâce à l’imagerie SAR, induits par une source volcanique en profondeur, et utilisent ces mesures pour estimer les paramètres physiques d’un modèle volcanique.
Dans un premier temps, nous sommes partis d’un modèle simple sous forme d’une expression analytique : le modèle Mogi. Dans ce modèle, deux paramètres clés, la variation du volume et la profondeur de la chambre magmatique ont été modifiés pour générer des données synthétiques. En utilisant la régression symbolique, nous avons exploré des expressions mathématiques directement à partir des données. La
pertinence de l’approche et la sensibilité de la modélisation à la variété de l’activité volcanique, sur des données synthétiques et des sites volcaniques réels, ont été mesurées et comparées au modèle Mogi original. L’approche fonctionne bien jusqu’à un certain niveau de bruit, notamment sur les données
synthétiques. L’objectif du stage consiste à utiliser les méthodes de régression symbolique pour affiner le modèle Mogi, car il reste une vision simplifiée de la physique sous-jacente. Des travaux supplémentaires sont encore nécessaires pour améliorer les résultats sur les données réelles en proposant des nouvelles techniques en régression symbolique. En s’appuyant sur des travaux d’IA classique développés au laboratoire sur
l’inversion de modèles géophysiques, trois types de données sont disponibles pour créer un cadre expérimental et de validation : 1) des déplacements simulés à partir du modèle Mogi ; 2) des déplacements simulés avec un bruit ajouté ; 3) des déplacements réels sur des volcans africains. Selon
l’avancement du projet, cette étude pourra être étendue à un modèle volcanique plus sophistiqué, par exemple le modèle Okada, qui décrit le mécanisme de fonctionnement d’un volcan à l’aide d’un plus grand nombre de paramètres et s’appuie sur des équations différentielles. Le stagiaire appuiera entre autres sur les articles suivants :
– Cranmer, M. (2023). Interpretable machine learning for science with PySR and SymbolicRegression. jl.
arXiv preprint arXiv:2305.01582.
– Tenachi, W., et al. (2023). Physical Symbolic Optimization. arXiv preprint arXiv:2312.03612.
– Albino, F., & Biggs, J. (2021). Magmatic processes in the East African Rift system: insights from a 2015–
2020 Sentinel‐1 InSAR survey. Geochemistry, Geophysics, Geosystems, 22(3), e2020GC009488.
– Dzurisin, D. (2007), Volcano Deformation: Geodetic Monitoring Techniques. Mogi, K. (1958), Bull. Earthq.
Inst. U. Tokyo, 36, 99‐134 Delaney, P., McTigue, D. (1994) Bull. Volcanology, 56 417‐42
– Lopez-Uroz L, Yan Y., Benoit A., Albino F., Bouygues P., Giffard-Roisin S., Pinel V., Exploring Deep Learning
for Volcanic Source Inversion, IEEE Transactions on Geosciences & Remote Sensing.
– Petersen, B. K., et al. (2019). Deep symbolic regression: Recovering mathematical expressions from data
via risk-seeking policy gradients. arXiv preprint arXiv:1912.04871.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux, France.

Document attaché : 202510221322_stage_regressionsymbolique_2026.pdf