Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
15
Sun
2026
Génération de données continues et conditionnelles : application aux séries temporelles
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : TIDS/– — –

Laboratoire/Entreprise : IRIT (Institut de Recherche en Informatique de Tou
Durée : 5 mois
Contact : hugo.boisaubert@irit.fr
Date limite de publication : 2026-02-15

Contexte :
La génération de données synthétiques « en continu » est un challenge important pour différentes applications telles que la simulation ou la prédiction, et dans de nombreux domaines en Industrie 4.0 comme en Santé numérique. Cette génération doit en outre être fidèle autant que
possible aux données réelles ce qui complexifie ce challenge.

Sujet :
Différentes méthodes ont été développées dans ce cadre et pour ces différents types de données. Dans ce stage, même si une compréhension des grandes tendances d’approches proposées indépendamment du type de données est primordiale, un focus particulier sera apporté sur la génération de série temporelle.
Parmi les approches pour ce type de données nous pouvons citer notamment les GAN mais également les approches plus récentes basées sur les modèles LLM. Cependant, selon les contextes applicatifs,
cette génération doit être conditionnée par des « évènements/contraintes ». En effet, ces évènements impliquent une adaptation au fur et à mesure du temps des données générées (exemple : un changement
météo qui aura un impact sur la prédiction de la consommation énergétique). Différentes approches ont été développées pour prendre en compte ces conditions (instantané, fenêtre temporelle, contraintes. . .) dans la génération de données synthétiques.

Les objectifs du stages sont multiples :
1. Construire un état de l’art général des approches récentes [1] sur le domaine de la génération de données conditionnelles en faisant un focus particulier sur la génération conditionnelle de séries
temporelles univariées (TSLLM, TSFM) [2, 4, 5] ;

2. Sur la base de cette étude, au moins deux modèles seront sélectionnés et implantés pour réaliser différentes versions d’un générateur de série temporelle conditionnel. Pour cela l’apprentissage
sera réalisé sur la base de données type « données physiologiques » disponibles. Les données issues notamment du jeu de données MOVER[3] pourront être mobilisées. ;

3. Enfin, suite à la définition d’un protocole expérimental et de l’identification de métriques adaptées, une comparaison objective de ces modèles sera proposée ;

Profil du candidat :
Profil des candidat·e·s Étudiant·e en cycle master ou ingénieur, en Informatique ou mention similaires.

Formation et compétences requises :

Capacités attendues : En complément du niveau de formation défini dans le profil, les éléments
suivants sont souhaitables dans le profil des candidats :
— Capacité de réflexion et d’analyse d’un problème, définition d’un protocole et mise en place d’expérimentations ;
— Rigueur en programmation (Python) et capacité à générer de la documentation, avec usage des outils standard (Git, Doctest, Sphinx ou équivalents) ;
— Maitrise des outils et techniques de l’apprentissage automatique ;
— Capacités de synthèse d’information et à rendre compte de son travail régulièrement ;
— Capacité à produire efficacement des documents de communication scientifique.

Adresse d’emploi :
IUT de Castres – 5 allée du Martinet – 81100 Castres

Document attaché : 202601291558_stage_m2_2026_data_generation-1.pdf

Modélisation de séries temporelles interprétable et gestion d’incertitude : exploiter les données multi-sources pour la surveillance avancée des stations d’épuration
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire de Génie Chimique (LGC)
Durée : 6 mois
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2026-02-15

Contexte :
Les stations d’épuration constituent aujourd’hui des infrastructures critiques pour la protection de
l’environnement et la santé publique. Leur fonctionnement, en particulier pour les unités équipées de
bioréacteurs à membranes (MBR), repose sur un suivi continu et de haute précision d’un ensemble
de variables physico-chimiques, hydrauliques et biologiques. Ces installations génèrent désormais
d’importants volumes de données temporelles provenant de capteurs multiples, d’analyses de laboratoire
et de systèmes d’acquisition hétérogènes, avec des pas de temps très variés et souvent
asynchrones.
Dans ce contexte, l’analyse avancée des séries temporelles joue un rôle central. Les procédés biologiques
présentent des dynamiques fortement non linéaires, une variabilité importante des charges
polluantes et des interactions complexes entre débit, température, oxygénation, concentrations azotées
et performances de filtration. Exploiter ces données brutes nécessite de relever plusieurs défis
fondamentaux : bruit instrumental, dérives progressives, valeurs manquantes persistantes, phénomènes
de ruptures (changepoints) liés aux perturbations hydrauliques ou opérationnelles, ainsi que
des structures de dépendance non triviales à différentes échelles temporelles (minute, heure, jour,
semaine). Une analyse robuste de ces séries temporelles est indispensable pour détecter précocement
les dysfonctionnements, anticiper les variations de charge, optimiser l’aération (source majeur de
consommation énergétique) et garantir la stabilité de la qualité des effluents rejetés.
Le projet ANR JCJC FlexMIEE se positionne précisément sur ces enjeux en visant à développer
une nouvelle génération d’outils de modélisation intégrée alliant procédés, statistiques avancées,
modélisation probabiliste et IA explicable. Le Work Package 2 (WP2), coeur du présent stage, a
pour objectif de construire un pipeline méthodologique complet permettant : (i) d’harmoniser et
fusionner les données multi-sources selon différentes résolutions temporelles, (ii) de quantifier et
représenter l’incertitude via des méthodes modernes (processus gaussiens, intervalles, histogrammes
dynamiques), (iii) d’identifier les structures de dépendance, linéaires et non linéaires, à l’aide d’outils
tels que les copules ou les corrélations conditionnelles dynamiques, (iv) de développer des modèles
prédictifs de séries temporelles interprétables (LSTM explicables, modèles structurels, Transformeurs
temporels), et enfin (v) de préparer un socle de données fiable pour la modélisation hybride
des procédés au sein du WP3.
Ainsi, ce stage s’inscrit dans une dynamique de recherche appliquée ambitieuse où la statistique
avancée, la science des données et la modélisation des séries temporelles deviennent des leviers
essentiels pour renforcer la performance, la robustesse et l’efficacité énergétique des systèmes de
traitement des eaux usées. Le travail réalisé contribuera directement à la conception de futures «
stations intelligentes », plus résilientes face aux incertitudes environnementales et opérationnelles.

Objectifs du stage
L’objectif est de construire un cadre méthodologique complet pour traiter, fusionner et analyser
les données hétérogènes issues d’une STEP industrielle, puis développer des modèles temporels
explicables permettant de comprendre l’impact des influents sur les performances énergétiques et
épuratoires.
Les enjeux scientifiques incluent :
— harmonisation temporelle multi-échelles ;
— imputation avancée (processus gaussiens, modèles d’état, MICE) ;
— dépendances non linéaires via copules et corrélations dynamiques ;
— modèles temporels interprétables (ARIMAX, XGBoost, LSTM explicables, TFT) ;
— analyse de sensibilité globale et SHAP temporel ;
— représentation symbolique des données (intervalles, distributions).

Sujet :
Le stage s’inscrit dans le Work Package 2 (WP2) du projet ANR FlexMIEE, consacré à la gestion
avancée des données hétérogènes issues d’une station d’épuration industrielle. Le travail attendu est
structuré en quatre volets complémentaires formant un pipeline méthodologique complet.
Dans un premier temps, le ou la stagiaire réalisera une prise en main approfondie de l’ensemble des
bases de données multi-sources (mesures en ligne, analyses de laboratoire, historiques opératoires
et données biologiques). Cette étape comprendra une revue de littérature ciblée sur les notions
d’incertitude dans les données temporelles, les méthodes modernes de dépendances multivariées ainsi
que les approches d’explicabilité en intelligence artificielle (XAI) appliquées aux modèles de séries
temporelles. L’objectif est d’acquérir rapidement une compréhension globale des caractéristiques
des données et des défis méthodologiques associés.
Le deuxième volet concernera l’harmonisation temporelle des données. Les jeux de données disponibles
présentent des pas de temps distincts, des valeurs manquantes, des dérives instrumentales et
des anomalies locales. Le stagiaire mettra en oeuvre des méthodes robustes de détection de ruptures
(changepoints bayésiens, tests non paramétriques), de fusion temporelle multi-échelles et d’imputation
probabiliste. Une attention particulière sera portée aux processus gaussiens, aux modèles
d’état, aux approches MICE et aux autoencodeurs, avec une analyse comparative de la capacité de
chaque méthode à préserver la cohérence physique et statistique des signaux.
Le troisième volet portera sur l’étude des dépendances entre variables influentes (débit, DCO, NH+4 ,
MES, température. . .) et indicateurs de performance du procédé. Le stagiaire utilisera des outils
avancés tels que les corrélations conditionnelles dynamiques et l’analyse des dépendances retardées.
L’objectif est de caractériser précisément les interactions non linéaires, asymétriques ou à queue
lourde qui gouvernent la variabilité des effluents et les capacités énergétiques du système.
Le quatrième volet consistera à développer et comparer différents modèles de séries temporelles.
Ces modèles incluront des approches statistiques (ARIMAX, modèles structurels), des algorithmes
de machine learning (XGBoost, forêts aléatoires temporelles, N-BEATS) ainsi que des architectures
profondes interprétables (LSTM avec mécanisme d’attention, Temporal Fusion Transformer).
L’évaluation sera réalisée via validation croisée temporelle et critères de robustesse. L’interprétabilité
constituera un axe fort, avec l’utilisation de SHAP temporel, de l’Analyse en Composantes
Principales Fonctionnelle (FPCA) et de méthodes globales de sensibilité. Au terme du stage, le ou la
stagiaire fournira un cadre méthodologique complet comprenant l’harmonisation, la modélisation,
l’interprétabilité et la représentation symbolique des données, constituant une base solide pour une
poursuite en thèse.

Profil du candidat :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.

Formation et compétences requises :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.

Adresse d’emploi :
Laboratoire de Génie Chimique – LGC Labège, 4 Allée Emile Monso CAMPUS INP – ENSIACET, 31400 Toulouse

Document attaché : 202512031402_Demande_Stage_ANR_FlexMIEE_WP2_fr.pdf

Techniques dépliées de factorisation matricielle non-négative pour la séparation de sources audiophoniques dans les enregistrements de « boîtes noires aéronautiques »
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2026-02-15

Contexte :
Ce stage s’inscrit dans le cadre du projet ANR BLeRIOT. Les avions civils et étatiques sont équipés de deux enregistreurs de vol (aussi connus sous le nom de « boîtes noires »), c.-à-d. le Cockpit Voice Recorder (CVR) et le Flight Data Recorder. En cas d’incident ou d’accident, tous deux doivent être retrouvés et analysés par les autorités compétentes. Le service audio du BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) et RESEDA sont les autorités françaises en charge des analyses des CVR des avions respectivement civils et étatiques. Les CVR sont des équipements renforcés protégeant une information importante pour la détermination des facteurs contributifs à la survenue d’un accident ou d’un incident aérien. Pour cette raison la qualité audio des enregistrements, l’audibilité des alarmes du cockpit et l’intelligibilité
des échanges vocaux sont cruciales pour les enquêteurs du BEA et RESEDA. Les contenus des CVR sont alors transcrits par des enquêteurs spécialisés (analystes audio) pour les bénéfices de l’enquête de sécurité.

Les limitations de conception des CVR contraignent les constructeurs d’avion à mélanger les sources sonores audibles dans le cockpit et dans les casques des pilotes (émissions et réceptions radio, échanges sur l’intercom, annonces aux passagers, alarmes sonores, etc) en un nombre réduit de canaux audio envoyés vers le CVR, qui en fait une acquisition numérique et protège cette donnée en cas d’accident. Ainsi l’activation simultanée de plusieurs sources sonores peut conduire à une réduction significative de l’intelligibilité des échanges vocaux, voire un masquage complet d’une ou de plusieurs sources audio.

L’extraction d’informations dans les données CVR s’appuie sur l’expérience des analystes audio du BEA/RESEDA et sur leur capacité à détecter des sources sonores enfouies dans des mélanges audio difficiles. Dans nos récents travaux, nous avons proposé un modèle de mélange audio dans les CVR par rétro-ingénierie et
nous avons montré que les méthodes de la littérature de séparation de sources (SAS) pouvaient être appliquées. La SAS cherche à estimer un ensemble de signaux inconnus à partir de mélanges de ceux-ci, le mélange étant lui-aussi inconnu.

Sujet :

Dans le cadre du projet ANR BLeRIOT qui finance ce sujet de stage, nous ne souhaitons pas développer des méthodes d’apprentissage profond nécessitant une grande base d’apprentissage. Au contraire, les contraintes des enquêtes de sécurité nous poussent à développer des approches qui soient non ou faiblement supervisées et qui soient interprétables.

Les méthodes de factorisation matricielle non-négative (NMF) ont constitué l’état de l’art avant l’apparition du deep learning au début des années 2010, et remplissent les deux critères ci-dessus. Cependant, elles ne fournissent pas toujours de bonnes performances de séparation lorsqu’on les applique à des signaux CVR. Le principe des techniques
déroulées ou dépliées permet de transformer des approches classiques itératives en méthodes d’apprentissage profond et permettent un bon compromis entre performance, interprétabilité du modèle et taille de la base d’apprentissage. Ces techniques ont été combinées à la NMF pour un certain nombre d’applications, avec des spécificités propres aux méthodes proposées.

Dans le cadre de ce stage, nous proposerons des méthodes de NMF dépliées que nous appliquerons aux données issues de CVR. En particulier, nous avons identifié des cas où le modèle proposé dans n’est plus valide, soit à cause d’effets de saturation des canaux audio dûs au système audio avionique, soit à cause d’effets de codage avec
perte dûs à un modèle de CVR particulier. Ces différents effets ont pu être étudiés séparément dans la littérature – par exemple pour le déclippage audio ou pour les effets de codage sur la qualité de séparation – mais jamais à notre connaissance conjointement ni pour les signaux CVR. Un point important du stage consistera à comparer les performances de méthodes classiques ou dépliées de NMF pour de tels scénarios.

Profil du candidat :
Etudiant en sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées), vous êtes curieux et très à l’aise en programmation (Matlab et/ou Python). Vous lisez et parlez l’anglais courant sans difficulté. Vous êtes capable d’expliquer clairement vos travaux, même à des publics non-experts. Bien que non requis, une première expérience en factorisation matricielle (par exemple, en décomposition matricielle ou tensorielle, en séparation de sources, en apprentissage de dictionnaire) sera appréciée.

Les candidats doivent impérativement être de nationalité française ou citoyens d’un état membre de l’Union Européenne, d’un état faisant parti de l’Espace Economique Européen ou de la Confédération Suisse.

Formation et compétences requises :
Sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées)

Adresse d’emploi :
LISIC, antenne de Longuenesse, Campus de la Malassise, 62219 Longuenesse, France

Document attaché : 202512031320_Stage_ANR_BLeRIOT_2026.pdf

Feb
22
Sun
2026
Stage M2 reconnaissance d’entités nommées dans la littérature en héliophysique
Feb 22 – Feb 23 all-day

Offre en lien avec l’Action/le Réseau : DatAstro/– — –

Laboratoire/Entreprise : LIRA, Observatoire de Paris (Meudon)
Durée : 4 à 6 mois
Contact : liza.fretel@obspm.fr
Date limite de publication : 2026-02-22

Contexte :
L’héliophysique est un sous-domaine de l’astrophysique s’intéressant au vent solaire et à son interaction avec les magnétosphères des planètes du système solaire. Avec l’avènement des Transformers et la démocratisation de l’usage des LLMs, la question du rôle de ces modèles dans l’interprétation de la science est au cœur des enjeux scientifiques, et ce notamment dans la communauté de l’astrophysique (https://arxiv.org/html/2510.24591v1).

L’observatoire de Paris, dont fait partie le LIRA (Laboratoire d’Instrumentation et de la Recherche en Astrophysique), est engagé depuis plus de deux décennies dans le référencement et le partage des données. Ce stage s’encre dans une initiative de vérification de l’intégrité des données d’observation des instruments astronomiques.

L’objectif final de ce stage est d’identifier quelles données sont citées dans les articles en s’appuyant sur des techniques d’extraction d’information (NER, coréférences…)

Pas de continuation en thèse possible.

La ou le stagiaire intègrera le LIRA (Observatoire de Paris, site de Meudon) et sera encadré par Baptiste Cecconi et Liza Fretel, avec un co-encadrement en distanciel par Cyril Grouin (Paris Saclay).

Sujet :
La ou le stagiaire sera en charge:

– de collecter et d’annoter un corpus d’articles d’héliophysique en respectant un guide d’annotations et
– d’appliquer des modèles de langue afin d’effectuer des tâches de classification et d’extraction d’information.

Voici un aperçu du type d’information à extraire des articles:

– Référence du jeu de données (sous forme de citation formalisée, de plein texte ou d’identifiant, par ex: https://doi.org/10.25935/hegh-1r24)
– Nom de l’instrument (ex: Fluxgate Magnetometer (FGM), electrostatic analyzer (ESA), Solid State Telescope (SST))
– Mission (ex: THEMIS-E)
– Plage temporelle (ex: 2009-04-05T09:00:00 à 2009-04-05T10:00:00)
– Région spatiale (ex: Earth.Magnetosphere.Main, solar wind…)
– Intitulé des diagrammes et nature (ex: spectre, graphique…)
– Unités de mesure utilisées dans un diagramme (ex: nPa, min…)
– Observable scientifique représentée dans le diagramme (ex: Dynamic pressure, Magnetic field magnitude, spectral flux density…)

Voici un exemple de document du corpus :
https://doi.org/10.3847/2041-8213/add688

La ou le stagiaire restera informé de l’état de l’art des modèles de langue existants et proposera des métriques d’évaluation afin de comparer les résultats des modèles testés.

Références

Travaux similaires :
– Astro-NER https://doi.org/10.48550/arXiv.2405.02602
– BibHelioTech https://hal.science/hal-04285006v1
– Thèse d’Atilla Kaan Alkan https://theses.fr/2024UPASG114

Modèles de langue :
– AstroBert https://doi.org/10.48550/arXiv.2112.00590
– SciBERT https://doi.org/10.18653/v1/D19-1371
– AstroLlama https://doi.org/10.18653/v1/2023.wiesp-1.7

Profil du candidat :

Formation et compétences requises :
En Master 2 Traitement Automatique des Langues, Informatique, IA ou une formation équivalente, ayant une appétence pour l’astronomie et une certaine rigueur scientifique (présentation des résultats, respect d’un guide d’annotations, regard critique des résultats obtenus).

Démontrer une expérience (non obligatoire mais appréciée) :

– utilisation de modèles de langues (Transformers, LLMs)
– fine-tuning de modèles BERT
– annotation de corpus
– maîtrise des métriques d’évaluation

Adresse d’emploi :
5 Place Jules Janssen, 92190 Meudon

Feb
28
Sat
2026
Deep Learning Models for Analysis of Satellite Images and Prediction of Natural Disaster Impacts
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS
Durée : 5 mois
Contact : julien.ah-pine@sigma-clermont.fr
Date limite de publication : 2026-02-28

Contexte :
The internship is part of the DLISCES project (Deep Learning Images Satellites et Cartographie d’Indicateurs Économiques et Sociaux), supported by the International Research Center “Natural Disasters and Sustainable Development” (CIR4) of the ISite CAP 2025 in Clermont-Ferrand. The project falls under the “AI for Good” domain and conducts exploratory research aimed at providing maps of various indicators to more robustly assess the vulnerability of populations and territories exposed to climatic hazards (floods, landslides, cyclones, earthquakes, etc.). DLISCES is an interdisciplinary project involving researchers in artificial intelligence, economics, management, and mathematics. The selected candidate will join the LIMOS (Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes) and work closely with AI researchers and economists from CERDI (Centre d’études et de recherches sur le développement international). He or she will focus on leveraging state-of-the-art deep learning models and satellite images to evaluate the impact of natural disasters.

Sujet :
This internship aims to develop and apply deep learning (DL) models and resources for satellite images analysis in the goal of predicting natural disaster impacts. On one hand, the EM-DAT database contains data on the occurrence and impacts of over 27,000 mass disasters worldwide from 1900 to the present day. On the other hand, computer vision techniques utilizing DL enable efficient analysis of Earth Observation data acquired through
remote sensing technologies.

The goal of the internship is twofold :
1. Collect satellite images related to natural disaster events recorded in the EM-DAT database with geolocation provided by Geo-Disasters, from open-access platforms such as Copernicus and Google Earth Engine (GEE).
2. Study, apply, and fine-tune pre-trained DL models (foundation models for Earth Observation) to represent remote sensing information, aiming to predict natural disaster impacts as recorded in the EM-DAT database.

Particular attention will be paid to floods and the related dataset FLODIS, based on EM-DAT. This internship provides a valuable opportunity to work on impactful projects in the field of natural disaster risk management while gaining practical experience in deep learning and satellite image analysis. The opportunity to continue this work with a PhD project is currently under review.

Profil du candidat :
Current master student or recent graduate in Computer Science, AI, Data Science, Computer Vision, or in Social Science with a strong background in Data Science.
Experience using deep learning models in computer vision.
High Interest in inter-disciplinary research works.
Attention to details and rigor in handling large datasets and in programming.
Strong communication skills and ability to work in a team.
Knowledge of satellite imagery and geospatial data would be a plus.

Formation et compétences requises :

Adresse d’emploi :
LIMOS, Aubières (Clermont-Ferrand)

Document attaché : 202512151511_Offre de Stage DLISCES – 2526.pdf

Dynamic Inference in CNNs via Mixture of Experts and Early Exits
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28

Contexte :
The deployment of deep neural networks on edge devices such as smartphones or embedded systems poses significant challenges in terms of computational cost, energy consumption, and latency. Traditional models process all inputs with the same fixed architecture, regardless of their complexity, leading to inefficient use of resources. For instance, a clear image of a cat is processed with the same depth and width as a noisy, ambiguous scene, despite requiring far less computation.
To address this, recent research has explored dynamic neural networks, which adapt their computation based on input content. Two prominent strategies include:
• Mixture of Experts (MoE): activating only a subset of network parameters (e.g., specific convolutional branches) per input, enabling width adaptation.
• Early Exits: allowing simpler inputs to exit the network at intermediate layers, reducing inference depth.
While these approaches have been studied independently—MoE primarily in Transformers and early exits in CNNs—their combination remains underexplored, especially in convolutional architectures. Jointly leveraging both mechanisms could enable dual adaptation in width and depth, significantly improving efficiency without sacrificing accuracy.
This internship aims to design, implement, and evaluate a dynamic CNN architecture that integrates Mixture of Experts blocks with confidence-based early exits, enabling input-adaptive inference for vision tasks such as image classification. The work will contribute to the growing field of efficient and sustainable AI, with potential applications in mobile vision and real-time systems.

Sujet :
The main goal is to design and validate a hybrid dynamic CNN that couples conditional activation (Mixture-of-Experts) with adaptive depth (early-exit). To reach this goal, the intern will first carry out a bibliographic survey on dynamic inference, covering MoE in CNNs, early-exit networks such as BranchyNet, and recent attempts at joint width-and-depth adaptation; key training difficulties—load balancing, confidence estimation, stability—will be identified. Next, a full architecture will be proposed: convolutional MoE blocks whose top-k gating network selects the most relevant experts for each input, and auxiliary classifiers inserted at several depths that can terminate inference as soon as a confidence threshold is exceeded; a single decision rule will be learnt that decides, at every stage, whether to route or to exit. The model will then be implemented in PyTorch on standard backbones (ResNet or VGG variants) and trained on CIFAR-10/100 or Tiny-ImageNet; knowledge distillation and load-balancing losses will be used to stabilise MoE training, while a cost-aware term will encourage both sparse expert selection and early termination. Finally, the system will be evaluated in terms of accuracy, average inference depth, FLOPs and latency and compared against strong baselines (standard CNN, BranchyNet, MoE-CNN without exits); a detailed analysis will correlate input difficulty with the chosen experts and the actual exit layer. If time permits, the intern will explore ultra-lightweight gating for on-device deployment and validate the approach on a mobile-oriented use-case.

Profil du candidat :
Required technical skills:
• Python, PyTorch
• Deep learning (CNNs, optimization)
• Familiarity with vision datasets and evaluation metrics
• (Preferred) Experience with model compression or dynamic networks

Formation et compétences requises :
M2 in computer science or applied mathematics

Adresse d’emploi :
INSA Lyon, Campus de la Doua, Villeurbanne

Document attaché : 202512181058_dynamic_cnn_internship.pdf

Étude de l’apport des Prétraitements en imagerie sous-marine pour les approches Convolutives
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LabiISEN – ISEN Ouest
Durée : 4 à 6 mois
Contact : thibault.napoleon@isen-ouest.yncrea.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Dans le cadre de travaux avec Thales Underwater System (UWS), nous cherchons à évaluer la pertinence des prétraitements dans les techniques de vision par ordinateur en milieu sous-marin. En effet, il est d’usage de prétraiter les images issues du capteur (photo ou vidéo) afin de compenser les distorsions colorimétriques induites par le milieu aquatique ainsi que les phénomènes de brumes sous-marines induits par la turbidité. Cependant, ces approches s’appuient depuis quelques années sur des techniques utilisant des réseaux de neurones (souvent convolutifs) dont les architectures sont proches de celles utilisées pour les tâches de vision par ordinateur qui suivent ces prétraitements. Ainsi, cette étude vise à mieux comprendre les avantages et les inconvénients d’enchainer les étapes prétraitement (c.-à-d. approche dissociée) et traitements par vision (classification, détection ou segmentation par exemple) plutôt que de les combiner dans un même réseau de neurones (c.-à-d. approche combinée).

Le but de ce stage est de comparer ces deux approches, dissociée et combinée, dans un cadre unifié où plusieurs méthodes de prétraitements et plusieurs tâches de vision seront étudiées. Le but étant de montrer les avantages et les inconvénients des deux approches. Ainsi, il pourrait être possible de proposer une méthode combinant les avantages de chacune. L’une des pistes envisagées est une approche multi-objectifs dans un réseau de segmentation sémantique. Dans ce cadre, l’un des objectifs serait le débrumage d’image tandis qu’un autre serait la segmentation sémantique des images. Avec cette approche, la capacité d’apprendre à prétraiter les images en même temps qu’en extraire les informations pertinentes, pour plus de robustesse, pourrait apparaitre dans un unique réseau de neurones.

Le stage s’articulera autour des points suivants :
• Sélection des bases de données nécessaires à l’étude comparative.
• Sélection des méthodes de prétraitements utilisées en vision sous-marine.
• Sélection des méthodes de vision par ordinateur adaptées aux tâches de vision sous-marines.
• Étude comparative des approches dissociées et combinées.

Profil du candidat :
Le candidat doit avoir :
• suivi un cursus de Master ou d’Ingénieur dans un des domaines suivants : vision par
ordinateur, science des données, informatique ;
• de solides compétences en algorithmique et en programmation ;
• des connaissances en vision par ordinateur ;
• des connaissances en intelligence artificielle.

Pour candidater, le candidat doit fournir :
• un CV détaillé ;
• les relevées de notes des deux dernières années.

Merci de candidater sur https://isen.softy.pro/offers/186565 ou en envoyant un mail à thibault.napoleon@isen-ouest.yncrea.fr (objet : [Stage EPIC]).

Formation et compétences requises :

Adresse d’emploi :
ISEN Ouest, site de Brest – 20 rue Cuirassé Bretagne, 29200 Brest

Document attaché : 202601070932_Sujet.pdf

Extraction et analyse de transactions issues d’une blockchain locale
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut UTINAM, UMR 6213 CNRS / UMLP
Durée : 4 à 5 mois
Contact : jose.lages@univ-fcomte.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Depuis toujours, les échanges de ressources, de biens et de services structurent les sociétés humaines, révélant inégalités, hiérarchies et formes d’organisation collective. À l’ère numérique, de nouvelles formes de valeur émergent, portées notamment par les technologies blockchain, qui renouvellent nos conceptions de l’échange, de la souveraineté économique et de la territorialité. Ces systèmes d’échange peuvent être étudiés comme des systèmes complexes, caractérisés par des topologies non triviales, l’émergence de comportements collectifs, ainsi que des dynamiques de coopération et de compétition. Les transactions numériques sont enregistrées dans une blockchain, un registre distribué reposant sur des mécanismes cryptographiques assurant l’intégrité et la traçabilité des échanges. L’extraction de ces données permet de reconstruire le réseau d’échanges entre acteurs et d’en analyser la structure. Dans ce projet, nous nous intéressons à un cas d’étude spécifique : la monnaie complémentaire citoyenne PIVE (Jura) et sa version numérique. Le ou la stagiaire aura pour mission, dans un premier temps, d’extraire les données issues de la blockchain associée, puis d’utiliser des outils issus de la physique statistique et de la théorie des graphes afin de caractériser le graphe de transactions sous-jacent. L’objectif est notamment d’identifier des structures centrales ou périphériques, ainsi que d’éventuelles zones de faible connectivité, afin d’apporter des éléments d’analyse sur la santé macroéconomique et territoriale du réseau PIVE. Le ou la stagiaire travaillera au sein de l’équipe de physique théorique de l’Institut UTINAM, UMR 6213 CNRS / Univ. Marie et Louis Pasteur (Besançon) et collaborera avec une équipe de recherche en économie du CRESE, Univ. Marie et Louis Pasteur.

Profil du candidat :
Environnement technique
– Programmation en Python
– Packages recommandés : PySpark, pandas, NumPy, NetworkX

Profil recherché
• Étudiant·e en Master 2 (physique ou informatique), intéressé·e par la data science. Bon niveau en programmation Python
• Des connaissances en blockchain et cryptomonnaies constituent un plus, mais ne sont pas indispensables

Formation et compétences requises :
Étudiant·e en Master 2 (physique ou informatique)

Adresse d’emploi :
Institut UTINAM, UMR 6213 CNRS / Univ. Marie et Louis Pasteur (Besançon)

Extraction et traitement de données spatio-temporelles hydrologiques et météorologiques pour le machine learning
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 3-4 mois
Contact : etienne.lehembre@unicaen.fr
Date limite de publication : 2026-02-28

Contexte :
Le stage se déroule dans le cadre du projet Junon au sein du LIFO (Laboratoire d’Informatique Fondamentale d’Orléans) avec le BRGM (Bureau de Recherches Géologiques et Minières). Le projet Junon a pour but de mettre en place des modèles de Machine Learning afin de prédire le niveau d’eau futur de la nappe phréatique de la Beauce. Pour entraîner ces modèles, le BRGM a fourni au projet 12 séries temporelles correspondant à 12 historiques des mesures d’eau de piézomètre (puits servant à mesurer le niveau de la nappe phréatique).

Sujet :
Afin de pouvoir complexifier les modèles, il est nécessaire d’obtenir davantage de données. Seulement, les séries temporelles des piézomètres sont souvent incomplète, car les relevés journaliers ne sont pas toujours possibles. Ainsi, le stage a pour but d’extraire les séries temporelles d’autres piézomètres, de compléter ces séries temporelles en essayant différents algorithmes d’interpolation, et de compléter ces données avec des données météorologiques issues de SAFRAN.

Profil du candidat :
Ce stage s’adresse aux étudiants en BUT3, M1 ou équivalent. Une expertise en Python (avec les librairies Pandas ou NumPy) est indispensable.

Formation et compétences requises :
Ce stage s’adresse aux étudiants en BUT3, M1 ou équivalent. Une expertise en Python (avec les librairies Pandas ou NumPy) est indispensable.

Adresse d’emploi :
LIFO, 6 Rue Léonard de Vinci, 45067 Orléans

Document attaché : 202512181055_offre-stage-Junon-Data-mining.pdf

Extraction semi-automatique d’annotations sémantiques pour la préservation du patrimoine culturel
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS
Durée : 6 mois
Contact : baron@ensma.fr
Date limite de publication : 2026-02-28

Contexte :
L’étude du patrimoine repose sur des données hétérogènes provenant de sources multiples (mesures, croquis, photographies, acquisitions 3D, etc.), souvent difficiles à manipuler en raison de la fragilité ou de l’inaccessibilité des objets. Le projet ANR DIGITALIS vise à développer des outils numériques dédiés à la gestion, à la pérennisation, à la réutilisation et à la visualisation de ces données. Le laboratoire LIAS, partenaire du projet ANR, travaille sur la conception de méthodes et de structures pour gérer des données complexes de manière interopérable.

Dans le cadre du projet ANR DIGITALIS, cette expertise est utilisée pour proposer un modèle de données dédié au patrimoine, permettant aux experts de partager et d’enrichir leurs annotations sur des objets patrimoniaux. Ce besoin s’inscrit dans la continuité de travaux existants,
comme le modèle sémantique CIDOC CRM, qui vise à assurer la traçabilité et l’annotation des objets numériques dans le domaine historique. Le principal enjeu est d’automatiser l’extraction des données vers ce modèle, une tâche complexe et chronophage, d’autant plus que les historiens maîtrisent peu ce formalisme et que les informaticiens ne sont pas spécialistes du patrimoine.

Le laboratoire LIAS a obtenu des résultats en explorant l’usage de l’IA générative pour transformer des données textuelles issues de fouilles archéologiques en représentations conformes au modèle CIDOC CRM.

Sujet :
Les objectifs du stage sont multiples à vise à compléter les travaux obtenus.

Le premier objectif porte sur le compromis entre précision, performance et impact environnemental, ainsi que sur les enjeux de vie privée liés aux déploiements cloud ou locaux. Le stagiaire devra donc reprendre les résultats existants et les évaluer sur différents modèles d’IA générative, qu’ils soient hébergés dans le cloud ou exécutés localement via des modèles à poids ouverts de plus petite taille. Cela permettra au stagiaire de se familiariser avec les concepts de base de l’IA générative et des travaux développés par le laboratoire LIAS dans ce domaine.

Le deuxième objectif porte sur la capacité à référencer les sources (mesures, croquis, photographies, acquisitions 3D, etc.) utilisées pour produire les annotations. Cette question, non traitée dans nos travaux initiaux, est pourtant essentielle pour assurer la traçabilité des anno-
tations. Le stagiaire devra ainsi explorer des solutions permettant d’intégrer explicitement la notion de source dans le processus de génération des annotations. Cela permettra au stagiaire de se familiariser avec le modèle CIDOC CRM.

Le troisième objectif, qui constitue la contribution principale de ce stage, porte sur l’intégration de vocabulaires contrôlés, tels que des thésaurus, dans le processus de génération des annotations. Cette intégration vise à améliorer la cohérence et la qualité des annotations, notamment
en facilitant la gestion des synonymes (par exemple : église <=> lieu de culte).

Ce stage recherche sera encadré par un doctorant travaillant sur des problématiques similaires, ainsi que deux chercheurs du laboratoire LIAS spécialisés dans le domaine de l’IA générative et du patrimoine. Une publication scientifique serait attendue à l’issue du stage, en fonction des résultats obtenus.

Profil du candidat :
Le candidat doit être en Master 2 en Informatique ou en dernière année de préparation d’un diplôme d’ingénieur spécialité Informatique.

Formation et compétences requises :
Une bonne connaissance du langage de programmation Python et des bibliothèques usuelles d’apprentissage automatique est requise.

Adresse d’emploi :
Le stage se déroulera dans les locaux du LIAS sur le site du Futuroscope.

Document attaché : 202601050906_Sujet_Stage_DigitalisAli_2026.pdf

Offre de stage M2 – Enrichissement d’ontologies par approche neuro-symbolique (LLM)
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Intelligence Artificielle et Sémant
Durée : 4 – 5 mois
Contact : t.mecharnia@iut.univ-paris8.fr
Date limite de publication : 2026-02-28

Contexte :
Les grands modèles de langage (LLM) tels que GPT, Llama ou Mistral sont capables de raisonner sur du texte, d’extraire des entités et d’établir des relations sémantiques complexes. Leur utilisation pour l’enrichissement automatique d’ontologies est un domaine émergent en ingénierie des connaissances.
Toutefois, les informations produites par un LLM ne respectent pas nécessairement la cohérence logique ni la structure formelle d’une ontologie exprimée en OWL. Ce stage s’inscrit dans une démarche de recherche visant à concevoir une approche neuro-symbolique, combinant :
— La créativité sémantique d’un LLM pour proposer de nouveaux concepts et propriétés.
— La rigueur du raisonnement logique via un moteur de raisonnement OWL permet de valider ces propositions.
L’objectif est de développer un cadre d’enrichissement automatique d’ontologies à partir de textes scientifiques, de notices techniques ou de graphes RDF existants.

Sujet :
Ce stage s’inscrit dans des travaux de recherche à l’interface entre intelligence artificielle symbolique, apprentissage automatique et ingénierie des connaissances. Il portera notamment sur l’exploitation de LLM pour la génération, l’alignement et la validation de connaissances ontologiques.

Une description détaillée du sujet, des objectifs scientifiques et du contexte de recherche est disponible dans le document joint.

Les candidats intéressés sont invités à transmettre, exclusivement au format PDF, les documents suivants à l’adresse :
t.mecharnia@iut.univ-paris8.fr

Profil du candidat :
Etudiant·e en 2e année de master ou en dernière année d’école d’ingénieur dans le domaine de l’intelligence artificielle, avec des compétences

Formation et compétences requises :
Techniques :
— Programmation : Python (rdflib, transformers, torch).
— Web sémantique : RDF, OWL, SPARQL, Protégé.
— NLP / LLMs : prompts, pipelines, fine-tuning (un plus).
— Raisonnement symbolique, logiques des descriptions, utilisation de reasoners.

Scientifiques :
— Compréhension des modèles LLM.
— Conception d’ontologies et validation sémantique.

Adresse d’emploi :
Équipe EID du LIASD, IUT de Montreuil, 140 Rue de la Nouvelle France, 93100 Montreuil, France

Document attaché : 202601071543_Annonce_Stage_M2.pdf

Offre de stage M2 – Enrichissement d’ontologies par approche neuro-symbolique (LLM)
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : HELP/– — –

Laboratoire/Entreprise : Laboratoire d’Intelligence Artificielle et Sémant
Durée : 4 à 5 mois
Contact : t.mecharnia@iut.univ-paris8.fr
Date limite de publication : 2026-02-28

Contexte :

Sujet :
Ce stage s’inscrit dans des travaux de recherche à l’interface entre intelligence artificielle symbolique, apprentissage automatique et ingénierie des connaissances. Il portera notamment sur l’exploitation de LLM pour la génération, l’alignement et la validation de connaissances ontologiques.

Une description détaillée du sujet, des objectifs scientifiques et du contexte de recherche est disponible dans le document joint.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Équipe EID du LIASD, IUT de Montreuil, 140 Rue de la Nouvelle France,
93100 Montreuil, France

Document attaché : 202601071430_Annonce_Stage_M2.pdf

Stage M2 : Deep metric learning of 2D shape representations
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28

Contexte :
In the field of 2D or 3D region of interest (ROI) delineation in medical imaging, combining segmentations of anatomical structures from different sources proves beneficial. This is particularly relevant given the development of multimodal and multi-parametric imaging acquisition devices. Furthermore, combining multiple expert tracings of the same ROI can be useful for evaluating segmentation methods to estimate a consensus ground truth, thereby accounting for intra- or inter-expert variability. Finally, combining multiple segmentation methods can help improve results and their reproducibility. Thus, even though deep learning segmentation methods offer highly accurate results, it is sometimes necessary to combine several architectures or parameterizations to pool segmentation results and reduce variability.
To address these various challenges in segmentation method evaluation and fusion, the CREATIS lab and its collaborators have been developing a method for several years to compute a mutual shape from n masks corresponding to n segmentations of the same region. Within this working group, we initially proposed a variational formulation of the foundational STAPLE algorithm, enabling the evaluation of segmentation methods without a gold standard. The mathematical framework we established, based on domain optimization tools, subsequently allowed us to study different shape metrics, including an original shape metric based on information theory concepts. This metric also proved relevant for the robust fusion of 2D or 3D segmentation methods.

Sujet :
Based on this mathematical framework we aim for developing a deep learning based model to combine several segmentation maps and compare it with our analytical methods.
The aim of this internship is to design a new deep learning architecture similar to N. Courty et al. “Learning Wasserstein Embeddings”. It would be composed of a (convolutional) auto-encoder that is trained to reconstruct segmentation maps combined with a contrastive learning framework to structure the embedding space according to the desired properties of the shape distance (e.g. mutual shape). The advantage of such a model is that it may compute distances between shapes in a Euclidean space (i.e. the distance between the embeddings) and thus more easily compute the final reference shape of the n input segmentation maps by combining the n embeddings and reconstructing the corresponding segmentation map.
There are several scientific challenges that need to be addresses, e.g. the way to constrain the latent space according to the target distance measure, the architecture of the neural network and loss function and the way to combine several embeddings.
In the first place, we will work with binary segmentation maps and later, potentially, extend the approach to probability maps. An advantage would be that a combination based on probability maps would better incorporate uncertainty and, in theory, lead to a better fused reference shape. In this regard, the intern will collaborate with another intern working on the mathematical aspects of the extension of the existing method (of mutual shape) to probability maps.

Profil du candidat :
Good skills in python programming and machine learning, in particular deep learning.
Scientific curiosity and autonomy.

Formation et compétences requises :
Student in M2 or engineering school in computer science or applied mathematics.

Adresse d’emploi :
INSA Lyon
7 Avenue Jean Capelle
69621 Villeurbanne

Document attaché : 202511190724_internship_smip_liris_2026.pdf

Mar
1
Sun
2026
Stage M2 — Privacy attacks on synthetic data generation
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire IRISA
Durée : 5-6 mois
Contact : tristan.allard@irisa.fr
Date limite de publication : 2026-03-01

Contexte :
Health data, social networks, electricity consumption… Vast quantities of personal data are collected today by private companies or public organizations. Various legal, monetary, or visibility incentives push data holders to envision sharing versions of the collected datasets that provide both statistical utility and privacy guarantees. Indeed, sharing data at large, e.g., as open data, without jeopardizing privacy, is expected to bring strong benefits (strengthening, e.g., scientific studies, innovation, public policies). Synthetic data generation is a promising approach. First, synthetic data generation algorithms aim at generating datasets that are as close as possible to the original datasets. Either synthetically generated data or the generative models trained over the original data could be shared for supporting elaborate data analysis. Second, substantial progress has been made during the last decade about the privacy guarantees of synthetic data generation algorithms. For example, there exist today synthetic data generation algorithms that satisfy variants of differential privacy, one of the most prominent family of privacy models. However, the wealth of generative algorithms, of privacy models and algorithms, and of parameters makes it hard for non expert users to understand clearly the privacy implications of any given choice. Given the growing number of privacy attacks on machine learning models and especially on generative algorithms, an inappropriate choice can result in catastrophic consequences.

Sujet :
The main goal of this M2 thesis is to design an efficient approach for allowing a data holder to compute the most relevant privacy attacks given the data holder’s choice.

The main tasks of the Master student will be to:
• Study the state-of-the-art about privacy attacks (e.g., membership inference attacks [2, 4, 5]). We will focus on tabular data.
• Formalize the attackers (e.g., adversarial goals, background knowledge, impacts and costs of the attacks, vulnerable algorithms), structure the space of attackers (e.g., generalization/specialization of attackers, implications), and explore efficiently the resulting space for finding the attacks that best illustrate the privacy risks.
• Implement the approach and evaluate its performance.

In addition to the core tasks of the project, the successful candidate will also contribute to the organisation of competitions where the privacy guarantees of synthetic data generation algorithms are challenged.

Profil du candidat :
• The candidate must be in the second year of a master’s degree, or equivalent, in computer science or in a related field.
• The candidate must be curious, autonomous, and rigorous.
• The candidate must be able to communicate in English (oral and written). The knowledge of the French language is not required.
• The candidate must have a strong interest in cybersecurity.
• Skills in machine learning will be appreciated.

Formation et compétences requises :

Adresse d’emploi :
Campus de Beaulieu IRISA/Inria Rennes
263 avenue du Général Leclerc
35042 RENNES cedex

Document attaché : 202511171626_m2-attacks-25_26.pdf

Apr
17
Fri
2026
Modélisation adaptative par apprentissage profond actif des blocs opératoires dans les systèmes hospitaliers
Apr 17 – Apr 18 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique Bioinformatique et Sys
Durée : 5 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2026-04-17

Contexte :
Offre de Stage financée au sein du laboratoire IBISC Université Evry Paris Saclay.

Sujet :
La planification des tâches pour des blocs opératoires comme les admissions, est un problème complexe compte tenu de la l’intervention humaine et en particulier des événements aléatoires perturbatrices. Dans ce domaine, de nombreuses recherches ont été menées ces dernières années, la plupart de ces travaux sont basés sur des modèles stochastiques. L’intelligence artificielle a montré son efficacité pour résoudre des systèmes complexes dans différents domaines d’applications. Dans ce contexte, des modèles de planification peuvent s’appuyer sur les approches de l’apprentissage automatique. En effet, ces techniques permettent de développer des modèles d’ordonnancement prédictif et de l’optimisation des entrepôts de données.

L’objectif de ce stage, consiste dans le développement d’une approche de planification adaptative du bloc opératoire. Basée sur le principe de l’apprentissage automatique, la méthode de planification permettra le pilotage temps-réel du bloc opératoire. Les travaux seront réalisés dans un cadre d’application pratique dans des services de chirurgie faisant partie de l’établissement hospitalier.

Le candidat réalisera une étude de l’état de l’art et se penchera ensuite sur les différentes possibilités de la mise en place d’une stratégie de planification par apprentissage automatique tenant compte des contraintes souvent incertaines qui peuvent surgir à tout instant.

Références:

[1] Valentina Bellini, Michele Russo, Tania Domenichetti, Matteo Panizzi, Simone Allai, Elena Giovanna Bignami, Artificial Intelligence in Operating Room Management, Journal of Medical Systems (2024) 48:19 https://doi.org/10.1007/s10916-024-02038-2

[2] Zhenzhong Liu, Kelong Chen, Shuai Wang, Yijun Xiao, Guobin Zhang, Deep learning in surgical process modeling: A systematic review of workflow recognition, Journal of Biomedical Informatics, Volume 162, February 2025, 104779 https://doi.org/10.1016/j.jbi.2025.104779

[3] Md Mahfuzur Rahman, Rubayet Karim, Md Moniruzzaman, Md Afjal Hossein and Hammad Younes, Modeling Hospital Operating Theater Services: A System Dynamics Approach, Logistics2023, 7(4), 85; https://doi.org/10.3390/logistics7040085

Profil du candidat :

Formation et compétences requises :
De formation Master 2 ou équivalent possédant de préférence les compétences suivantes:
– Programmation Python, Matlab,
– Machine Learning
– Des connaissances de base en modélisation et ordonnancement

Adresse d’emploi :
Laboratoire Informatique, Bioinformatique et Systèmes Complexes – IBISC
40 rue du Pelvoux, 91020 Evry, France.

Document attaché : 202601251431_Sujet-Stage-BO.pdf

Apr
29
Wed
2026
Estimation du schéma d’acquisition en imagerie par résonnance magnétique (IRM)
Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-04-29

Contexte :

Sujet :
See attached file

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202509111720_sujet stage MRI CS.pdf

Image processing for the enhancement of brain tumor biomarker visualization from images acquired by Stimulated Raman Scattering microscopy
Apr 29 – Apr 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-04-29

Contexte :

Sujet :
please see the attached file

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Document attaché : 202509111718_sujet stage SRH.pdf

Apr
30
Thu
2026
Argumentative Graph-RAG for Participatory Democracy
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne University
Durée : 5-6 months
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2026-04-30

Contexte :

Sujet :
Participatory democracy platforms (Make, Decidim, Cap Collectif, Consul) enable thousands of citizens to propose and discuss ideas for public policies. However, the large volume of textual contributions produces severe information overload: citizens struggle to identify similar or opposing proposals, while decision-makers face difficulty in detecting consensus or disagreement.

Recent research at LIP6 has shown that Natural Language Processing (NLP) can detect argumentative relations between citizen proposals (equivalence, contradiction, neutrality). These relations can be structured into argumentative graphs, which help organize debates and improve navigation within large participatory datasets.

This internship aims to extend these ideas using Graph Retrieval-Augmented Generation (Graph-RAG). By combining graph-based retrieval with language generation, the project seeks to build intelligent tools capable of summarizing debates, identifying conflicting or redundant proposals, and assisting citizens in writing balanced contributions.

Profil du candidat :
Master 2 / Final-year engineering

Formation et compétences requises :
– Programming: Python, PyTorch or TensorFlow

– NLP / ML: Experience with large language models, embeddings, or NLP tasks

– Data Science: Text preprocessing, vector representations, evaluation metrics

– Research: Ability to conduct literature reviews, design small experiments, and analyze results

– Participatory democracy: Interest in participatory democracy or computational argumentation

Adresse d’emploi :
Sorbonne University, 4 place Jussieu 75005 Paris.

Document attaché : 202511121059_Stage_LIP6_2025_2026.pdf

Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRESTIC (URCA) / Institut Godinot (Reims)
Durée : 6 mois
Contact : Arnaud.BEDDOK@reims.unicancer.fr
Date limite de publication : 2026-04-30

Contexte :
Cf. Fiche

Sujet :
Développement d’un module radiomique prédictif de la pneumopathie radio-induite après radiothérapie pulmonaire (Projet RP radiomics)

Cf. fiche.

Profil du candidat :
Cf. fiche.

Formation et compétences requises :
Cf. fiche.

Adresse d’emploi :
CRESTIC (URCA) / Institut Godinot (Reims)

Document attaché : 202512180752_Offre de stage M2 20250926.pdf

Efficient self-supervised learning using dataset distillation
Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPADE
Durée : 6 months
Contact : ayoub.karine@u-paris.fr
Date limite de publication : 2026-04-30

Contexte :
The performance of supervised deep learning methods in computer vision heavily depends on the availability of
labeled data, whose annotation is both time-consuming and requires expert knowledge. To overcome this limitation,
Self-Supervised Learning (SSL) has emerged as a promising alternative to address the challenge of limited annotations.
In this paradigm, models learn from unlabeled data by generating their own supervisory signals. The resulting pre-
trained models can then be fine-tuned on various downstream tasks such as image classification, object detection, and
semantic segmentation. However, achieving performance comparable to supervised learning often requires large-scale
datasets and high training costs, which significantly increase computational and storage demands. This internship
aims to alleviate these constraints by exploring data distillation techniques to make SSL training more efficient.

Sujet :
Dataset Distillation (DD) [1] aims to condense a large-scale training dataset into a much smaller synthetic one
such that models trained on the distilled data achieve performance comparable to those trained on the original
dataset (see figure 1). Most existing DD methods are designed for efficient supervised learning and can be broadly
classified into three main categories [2] : (1) Performance Matching, which minimizes the loss on the synthetic
dataset by aligning the performance of models trained on real and synthetic data, (2) Parameter Matching, which
trains two neural networks respectively on real and synthetic data and encourages similarity in their parameters and
(3) Distribution Matching, which generates synthetic data that closely mimics the distribution of the original dataset.
In this internship, we will focus on the Parameter Matching approach. Building upon the work of Cazenavette et al.
[3], the authors of [4] extended this concept to SSL using knowledge distillation [5, 6, 7], particularly employing SSL
methods such as Barlow Twins and SimCLR. In the same vein, this internship will explore the DINO (self-DIstillation
with NO labels, MetaAI) SSL method [8], which naturally produces teacher–student parameter trajectories that can
be leveraged for Parameter Matching. The different steps of the internship are :
▷ Step 1 – Literature review : Review recent dataset distillation methods applied to computer vision, with a
focus on parameter matching and SSL-based approaches.
▷ Step 2 – Trajectory Observation : Analyze and visualize the teacher–student parameter trajectories generated
by DINO during SSL training.
▷ Step 3 – Integration into Data Distillation Frameworks : Design a trajectory matching loss based on
DINO’s teacher–student dynamics and train a student model on synthetic data guided by these trajectories.
▷ Step 4 – Test on down-stream computer vision tasks : Assess the effectiveness of the proposed approach
on tasks such as image classification
– Bibliography
[1] Tongzhou Wang et al. “Dataset distillation”. In : arXiv preprint arXiv :1811.10959 (2018).
[2] Ruonan Yu, Songhua Liu et Xinchao Wang. “Dataset distillation : A comprehensive review”. In : IEEE transactions on pattern analysis and machine
intelligence 46.1 (2023), p. 150-170.
[3] George Cazenavette et al. “Dataset distillation by matching training trajectories”. In : Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2022, p. 4750-4759.
[4] Siddharth Joshi, Jiayi Ni et Baharan Mirzasoleiman. “Dataset Distillation via Knowledge Distillation : Towards Efficient Self-Supervised Pre-training
of Deep Networks”. In : The Thirteenth International Conference on Learning Representations. 2025. url : https://openreview.net/forum?id=c61unr33XA.
[5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015).
[6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocomputing
649 (oct. 2025), p. 130791. url : https://hal.science/hal-05144692.
[7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition
Letters 180 (avr. 2024), p. 48-54. url : https://hal.science/hal-04488459.
[8] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025)

Profil du candidat :
The ideal
candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient
machine/deep learning.

Formation et compétences requises :
Master 2 student or final year of MSc, or engineering school in computer science.

Adresse d’emploi :
45 rue des Saints-Pères, 75006, Paris

Document attaché : 202511111324_2025_Internship_DD_SSL.pdf