
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube
Durée : 5-6 mois
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2026-01-15
Contexte :
The restoration or naturalization of hydro-ecosystems is a major challenge for the coming years in order to protect and preserve the quality and quantity of river water. Many restoration works – both recent and historical – have generated large amounts of textual documentation (reports, archival documents, project plans, regulations, scientific articles) and visual material (maps, drawings, aerial/satellite imagery, photographs, cross-sectional charts). However, that material is often unstructured, scattered across institutions, in multiple languages, and not organized to support comparative analysis, learning, or decision-making effectively.
Sujet :
The main research task involves applying and refining VLMs to extract complementary information from visual and textual data. The VLMs should recognize and describe restoration structures, spatial configurations, and temporal stages (before, during, and after restoration) from images. They should extract objectives, methodologies, outcomes, and environmental parameters from text. A key scientific challenge lies in the multi-modal alignment of information linking visual elements and textual references to produce consistent and interpretable outcomes.
Building on these results, the internship will contribute to the enrichment of an already existing structured knowledge model (ontology), describing restoration cases through key properties including intervention type, environmental context, methods, results, constraints, and costs. In addition to enriching the knowledge model, another key point is populating the knowledge model by constructing knowledge graphs with information extracted from images and text, ensuring querying, comparison, and visualization by researchers and practitioners.
Profil du candidat :
Knowledge on data science methods, knowledge representation and reasoning, knowledge graphs.
Languages: Python, java, owl/sparql.
Interest in the application domain, ability to work with experts who are not computer scientists would be appreciated.
Formation et compétences requises :
Student about to graduate a Master or Engineer (Bac + 5) with a specialization in Computer Science.
Adresse d’emploi :
ICube — 300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex
Meetings at ENGEES, 1 cour des cigarières, Strasbourg.
Document attaché : 202511141617_Sujet_stage_TETRA_VLM.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : PRISME / Université d’Orléans
Durée : 6 mois
Contact : youssef.fouzai@etu.univ-orleans.fr
Date limite de publication : 2026-01-16
Contexte :
Ce stage s’inscrit dans le cadre du projet régional CERES, porté par le BRGM en partenariat avec le laboratoire PRISME de l’Université d’Orléans, Thélem Assurances et l’Agglomération de Blois. L’objectif global du projet est de caractériser grâce à des
techniques d’intelligence artificielle les éléments exposés du territoire du Centre-Val de Loire face aux risques naturels. On s’appuie sur des images satellitaires, d’autres issues de Google Street View (GSV )et des données cartographiques.
Sujet :
Dans le cadre du stage, les travaux à effectuer visent à approfondir l’analyse des façades de bâtiments, afin de produire des éléments exploitables pour caractériser leur
vulnérabilité face aux risques naturels dont le retrait/gonflement argileux qui fissure les constructions. Une façade contient de nombreux indicateurs de vulnérabilité auxquels l’expert attache une grande attention comme la surface et la position des portes et fenêtres ou la géométrie du bâtiment, pour l’affecter à une classe de vulnérabilité.
L’exploitation des images GSV utilisera des modèles deep learning pour détecter les façades dans les images et extraire des caractéristiques permettant d’en déduire un niveau de vulnérabilité Les résultats du stage seront exploités dans le cadre de la thèse du doctorant qui participera à l’encadrement du stagiaire.
Profil du candidat :
BAC+5 (Master 2/ école ingénieur) en informatique.
Formation et compétences requises :
BAC+5 (Master 2/ école ingénieur) en informatique avec de bonnes connaissances en traitement d’images, la maîtrise de la programmation Python (Pandas, NumPy, Scikitlearn, PyTorch/TensorFlow) ainsi qu’en apprentissage profond et un bon niveau d’anglais. Quelques connaissances en Systèmes d’Information Géographique (SIG) seraient également appréciées.
Adresse d’emploi :
Polytech, 12 Rue de Blois, 45100 Orléans
Document attaché : 202510311400_Stage Master_PRISME_CERES_v1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS Lab, Rouen Normandie
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2026-01-23
Contexte :
Sujet :
The foundation model (FM) paradigm is undoubtedly a major breakthrough in Machine Learning (ML) for Artificial Intelligence (AI). An FM is a large-scale neural network pre-trained with self-supervision on a vast unannotated dataset and designed to perform downstream tasks with minimal fine-tuning on small annotated datasets. While FMs have made an outstanding leap in computer vision and large language models, they have not yet emerged in fields where data is more complex, such as hyperspectral imaging and chemical analysis. Unlike traditional cameras with their primary colors (red, green, and blue), hyperspectral cameras capture detailed spectral information at every pixel, providing a detailed description of the properties of the material in the scene. ML methods have been devised to explore hyperspectral images, mainly addressing spectral unmixing, classification, and segmentation tasks. With the FM paradigm reshaping the landscape of ML, there is growing interest in FMs for hyperspectral imaging, with several papers published very recently mainly for image segmentation in airborne or satellite images [1, 2, 3].
This internship, leading to a PhD thesis, is an integral part of the interdisciplinary project HyFoundationS (Hyperspectral Foundation Models for Chemical Soil Analysis). Led by the LITIS Lab, HyFoundationS aims to develop an FM for chemical analysis of soil pollution by hyperspectral imaging. In order to unleash the full potential of FMs in the analysis of soil pollution, HyFoundationS brings together an AI laboratory (LITIS), a chemistry laboratory (Institut CARMeN), and a startup specialized in soil pollution analysis (Tellux). This consortium has been working together for more than 5 years, developing ML and chemical analysis for soil pollution assessment using hyperspectral cameras installed on a bench in lab conditions, allowing full environmental control on a wide variety of pollutants. HyFoundationS aims to provide major innovations to overcome key scientific and technical barriers for soil pollution analysis with FMs.
The intern will work (i) on reviewing the literature of FMs for hyperspectral imaging, focusing on several recently published papers [1, 2, 3], (ii) on providing a solid local implementation of an FM, (iii) on extending it to address chemical analysis tasks, and (iv) on providing experiments and evaluation for a case study. This work will be carried out in close collaboration with post-doc fellows, engineers, and senior researchers in AI, in chemical analysis, and in geoscience.
[1] N. A. A. Braham, C. M. Albrecht, J. Mairal, J. Chanussot, et al., “SpectralEarth: Training hyperspectral foundation models at scale.” IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (2025).
[2] D. Wang, M. Hu, Y. Jin, Y. Miao, et al., “Hypersigma: Hyperspectral intelligence comprehension foundation model.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025.
[3] D. Hong, B. Zhang, X. Li, Y. Li, C. Li, et al., “SpectralGPT: Spectral remote sensing foundation model,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.
Profil du candidat :
We are seeking a highly motivated intern with a strong interest in AI for science. The candidate must be in a Master’s or an engineering program in computer science, applied mathematics, AI, or a related field (including remote sensing), and must have solid technical skills in deep learning, with experience in Python and the common ML libraries.
Candidates with a strong interest in interdisciplinary research and who are able to work in a collaborative environment are strongly encouraged to apply.
If interested in an internship leading to a PhD, please send your CV and transcripts along with a motivational email to paul.honeine@univ-rouen.fr.
We also welcome applications for a PhD or Post-doc within the project HyFoundationS.
Formation et compétences requises :
Adresse d’emploi :
Rouen Normandie
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : LS2N – Nantes Université
Durée : 5-6 months
Contact : yannick.prie@univ-nantes.fr
Date limite de publication : 2026-01-30
Contexte :
In collaboration with the LPPL, we have developed and tested a new embodied and immersive environment for assessing prospective memory. This environment is based on a learning task in which users must remember event- and time-based actions, in order to complete tasks in a large shopping mall.
Last year, a first experiment enabled us to collect user behavioral data from around 50 participants in 3 age categories (young adults, middle-aged, seniors) in this virtual environment. Classical memory scores (e.g., successes, type of failures, times…) were computed to assess the validity of this new virtual environment for evaluating prospective memory. We have designed a second experiment with two additional scenarios in the virtual mall and will test it this year with healthy participants and patients.
A key advantage of using virtual reality for neuropsychological assessment is the ability to use users’ behaviour, from user logs and trajectory data, to personally and accurately characterize users’ performance and cognitive state. A key challenge towards this goal is defining new indicators or metrics that are useful for clinicians and integrating them into clinician dashboards. The complex nature of the behavioral data and the limited number of subjects currently available makes modeling difficult.
Sujet :
The objective of this internship is to develop and assess a framework based on multimodal generative AI models that can visualize and model this behavioral data in order to propose new indicators for clinical use.
Missions
– State of the Art on behavioral indicators for neuropsychological/cognitive assessment
– Design AI-based workflows / architecture for data analysis
– Propose new indicators based on AI-framework
– Construct dashboards
Profil du candidat :
Last year in Engineering / Master’s degree
Duration : 5 / 6 months
Conditions: around 600€ / Month + half public-transportation monthly ticket
Formation et compétences requises :
Computer science or data science
– Knowledge and proficient use of generative AI
– Interest for cognitive sciences et interdisciplinarity
– Proficient in English
Send CV + motivation to yannick.prie@univ-nantes.fr, toinon.vigier@univ-nantes.fr
Adresse d’emploi :
Halle 6 Ouest on Nantes Island (https://halle6ouest.univ-nantes.fr/) and Polytech Nantes
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIT (Institut de Recherche en Informatique de Tou
Durée : 6 mois
Contact : hugo.boisaubert@irit.fr
Date limite de publication : 2026-01-31
Contexte :
La finalité de ce stage est de contribuer à l’amélioration de la qualité des soins et de la vie des patients, tout en optimisant les ressources du système de santé avec des retombées potentielles applicables à d’autres secteurs et contextes cliniques.\
Dans le contexte médical, l’utilisation des modèles de processus ouvre de nouvelles possibilités pour la simulation de patient au bloc opératoire, la prédiction de ses futurs états ou encore la prédiction des besoins en médicaments. D’un point de vue décisionnel, les modèles de processus combinés aux données médicales peuvent permettre de nouvelles prédictions pour orienter un soignant dans les soins les plus adaptés à réaliser les plus adaptés aux patients dans une logique de médecine personnalisée.
Les processus de soins produisent des données qui peuvent être utilisée par des approche de modélisation automatique de processus. Cependant, alors que les données produites sont multi-modales (séries temporelles, textes, images, “mesures terrain”…), cette caractéristique est rarement exploitée.
Sujet :
Pour concrétiser ces possibilités, au cours de ce stage, il s’agira d’abord de constituer un état de l’art des approches de modélisation semi-automatique de processus, avec un focus particulier sur les cas d’application en santé. À partir des éléments identifiés, ce stage explorera de manière expérimentale l’enrichissement de processus par des données multimodales de santé dans un contexte d’anesthésie.
Profil du candidat :
Étudiant.e en cycle master ou ingénieur, en Informatique ou mention similaires, appétence pour la santé-numérique ou la bio-informatique.
Formation et compétences requises :
— Rigueur en programmation et capacité à générer de la documentation, avec usage des outils
standard (Git, Doctest, Sphinx ou équivalents) ;
— Des compétences en bases de données (SQL) sont attendues et une expérience en calcul intensif (ordonnanceur, parallélisation) sera appréciée ;
— Capacités à rendre compte de son travail régulièrement et à produire des outils de suivi et de pilotage ;
— Capacité à produire efficacement des documents de communication scientifique.
Langues : Maîtrise du Français (Niveau A2), conversationnel et écrit ; Maîtrise de l’anglais scientifique, écrit. Les certifications attestant de votre niveau en langues sont vivement encouragées.
Adresse d’emploi :
IRIT – IUT de Castres,
5 allée du Martinet
81100 CASTRES
Document attaché : 202512241517_stage_m2_2026_modele_processus-4.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIAS
Durée : 6 mois
Contact : baron@ensma.fr
Date limite de publication : 2026-01-31
Contexte :
Bimedia, filiale du groupe Orisha, est une entreprise spécialisée dans les solutions destinées aux points de vente de proximité (bureaux de tabac, boulangeries, etc.). Son offre repose sur un ensemble de services comprenant du matériel (caisses enregistreuses à double écran : le premier pour le commerçant et le second pour le client final), un logiciel d’encaissement, des solutions dématérialisées (cartes prépayées, etc.), ainsi que des dispositifs d’animation commerciale via des publicités diffusées sur l’écran client des caisses. Si le point de vente est identifié, le client final, lui, ne l’est pas. Pour pallier cette limite, une initiative récente baptisée BMyShop 1, proposée par Bimedia sous la forme d’une application mobile, permet d’associer certains clients finaux grâce à un programme de fidélité. Les informations collectées se limitent aux données strictement nécessaires (prénom, nom, âge) en conformité avec la réglementation (RGPD). Toutefois, cette base de clients finaux identifiés reste restreinte par rapport au volume de transactions réellement effectuées dans les commerces par des clients finaux anonymes, ce qui pose un défi scientifique pour exploiter des données partielles et anonymisées afin de caractériser, enrichir ou déduire des profils clients représentatifs.
Bimedia s’est associée au laboratoire LIAS, dans le cadre d’un projet de recherche appliquée. Trois enseignants-chercheurs et un ingénieur de recherche encadreront un étudiant de Master 2 (université ou école d’ingénieurs). Le travail attendu visera à développer des techniques d’apprentissage automatique (clustering, apprentissage semi-supervisé, génération de données synthétiques, intégration de données externes, etc.) pour construire des profils représentatifs tout en garantissant l’anonymat des participants. Pour comparer sa proposition avec l’état de l’art, l’étudiant devra identifier des bancs d’essai adaptés ou en définir un nouveau. Un objectif secondaire consistera à calculer un indice de confiance sur le profil établi en utilisant la théorie des modèles probabilistes.
Sujet :
L’objectif de ce stage est d’explorer des approches d’analyse et d’enrichissement de données à partir des bases transactionnelles (l’historique d’achats) issues d’une part des clients identifiés via l’application BMyShop et, d’autre part, des clients anonymes. Le stage visera à définir des techniques permettant de caractériser et d’associer des profils clients à partir de données partielles :
– élaboration de modèles prédictifs basés sur l’état de l’art et adaptés aux besoins spécifiques de Bimedia ;
– évaluation des différents modèles obtenus ;
– calcul d’indices de confiance sur les prédictions.
Si possible, les techniques développées devront mener à des modèles explicables pour que les analystes métiers de Bimedia puisse comprendre et accorder une certaine confiance aux résultats obtenus.
À noter que la réalisation d’un prototype de faisabilité sera demandé. Il ne s’agit pas de développer un logiciel industriel, qui lui sera à la charge de l’entreprise. L’entreprise souhaite juste s’assurer de la faisabilité technique et scientifique de la démarche proposée.
Profil du candidat :
Le candidat doit être en Master 2 en Informatique ou en dernière année de préparation d’un diplôme d’ingénieur spécialité Informatique.
Formation et compétences requises :
Une bonne connaissance du langage de programmation Python et des bibliothèques usuelles d’apprentissage automatique est requise. Un bon niveau en français est fondamental.
Adresse d’emploi :
https://www.lias-lab.fr/jobs/2026_lias_idd_profilsclients_fr.pdf
Document attaché : 202511071103_2026_lias_idd_profilsclients_fr.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes – LIS – UMR
Durée : 5 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2026-01-31
Contexte :
Le stage se déroulera à Marseille essentiellement au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Images & Modèles sur le campus de St Jérôme (https://im.lis-lab.fr).
Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur les activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image. L’apprentissage profond en particulier y est un thème transverse et le LIS dispose d’une plateforme dédiée, un cluster de nœuds GPU ainsi que le personnel de gestion nécessaire.
Sujet :
La modélisation des déformations des organes abdominaux revêt une importance cruciale pour la santé des patients et pour de nombreuses applications cliniques, telles que la planification de la radiothérapie adaptative, le suivi de la progression des maladies ou encore l’analyse biomécanique des tissus. L’imagerie par résonance ma- gnétique (IRM) peut offrir une visualisation spatiale et en coupe des déformations d’organes in vivo. Cependant, l’état de l’art actuel présente plusieurs limitations, notamment en termes de résolution et de reconstruction fidèle de l’évolution tridimensionnelle et dynamique des organes. L’objectif de ce stage est de proposer des solutions innovantes pour pallier ces limites.
Dans le cadre d’un projet de recherche mené en collaboration avec l’AP-HM, nous nous intéressons au suivi des déformations des principaux organes pelviens. L’approche actuelle [1, 4] consiste à détecter un contour sur une série d’images 2D, puis à effectuer un échantillonnage spatial de ce contour initial. Les contours suivants sont ensuite estimés de manière récurrente à l’aide d’un modèle de transport optimal, la déformation finale étant calculée à partir de la distance entre les points d’échantillonnage obtenus. Cependant, cette méthode présente plusieurs faiblesses : la construction de l’échantillonnage est souvent arbitraire, le transport optimal peut introduire des biais difficiles à maîtriser, et la définition même de la distance utilisée reste discutable. Ces éléments limitent la robustesse et la généralisabilité de l’approche, malgré son intérêt scientifique certain.
Afin de dépasser ces limitations, ce stage vise à exploiter des modèles et méthodes récents capables d’apporter plus de cohérence et de précision à la modélisation des déformations. Le premier axe d’amélioration concerne la discrétisation : celle-ci peut être évitée grâce aux représentations neuronales implicites (Implicit Neural Representations, INRs). Ces dernières reposent sur le principe d’approximation universelle des réseaux de neurones, leur permettant de représenter n’importe quelle forme continue. Ainsi, le contour précédemment échantillonné sera alors directement modélisé par un réseau neuronal.
Pour l’estimation des déformations, nous proposons d’utiliser des réseaux de neurones informés par la phyique (Physics-Informed Neural Networks, PINNs). L’idée est d’intégrer des contraintes issues des équations mécaniques de la déformation afin d’estimer à la fois le champ de déformation et les paramètres des lois de comportement des tissus.
En résumé, le stage a pour objectif de combiner les représentations neuronales implicites et les réseaux de neurones informés par la physique afin de modéliser les déformations d’organes alignées sur des données d’imagerie IRM, offrant ainsi une approche plus continue, précise et physiquement cohérente de la dynamique des organes observés.
Réalisation
L’objectif principal de ce stage est de développer et d’évaluer des modèles de déformation d’organes, en s’appuyant sur des approches d’apprentissage profond et de modélisation physique.
Les étapes et objectifs clés sont les suivants :
— Développer une représentation neuronale implicite (INR) des contours de déformation de la vessie en 2D + temps.
— Évaluer les performances de cette représentation en termes de précision et de continuité temporelle.
— Concevoir une approche basée sur les réseaux de neurones informés par la physique afin de reconstruire le champ de déformation et d’estimer les paramètres mécaniques du comportement.
— Évaluer les performances du PINN selon deux perspectives possibles :
— comme modèle hybride, intégrant à la fois les données expérimentales et les contraintes issues des équations physiques, afin de guider l’apprentissage vers des solutions cohérentes avec les lois mécaniques.
— ou comme problème inverse, visant à identifier les paramètres physiques (par ex. propriétés mécaniques des tissus) et les déformations spatiales à partir des données observées, tout en respectant les équations de la mécanique des milieux continus.
— Perspective d’extension vers la 3D+temps
Données
Le projet s’appuiera sur un jeu de données d’IRM dynamiques de la vessie, collecté auprès de 50 patientes. L’échantillonnage temporel, à raison d’une image par seconde, des séquences sagittales dynamiques fournit 12 images par patiente. Les contours de la vessie ont été extraits de manière manuelle ou semi-automatique, sur l’ensemble des images de la séquence dynamique. Au total, 600 contours ont ainsi été obtenus, constituant la base de données utilisée pour l’apprentissage et l’évaluation des performances du modèle.
Profil du candidat :
Le ou la candidat.e sera intéressé.e par un domaine pluridisciplinaire embrassant l’analyse d’image, les mathématiques appliquées, le deep-learning, dans un contexte médical.
Des connaissances en équations aux dérivées partielles (EDP) et en méthodes de résolution par éléments finis constituent un atout supplémentaire pour ce stage.
Formation et compétences requises :
De formation Bac+5 dans une formation concernée par le traitement d’image. Une expérience de la programmation avec l’environnement python est un pré-requis, la connaissance de la bibliothèque JAX serait un plus.
Le stage aura une durée de 4 à 6 mois avec la gratification d’usage (de l’ordre de 600€ par mois).
Adresse d’emploi :
Laboratoire d’Informatique et Systèmes – LIS – UMR CNRS 7020 – Aix-Marseille Université
Campus scientifique de St Jérôme – Av. Escadrille Normandie Niemen -13397 Marseille Cedex 20
www.lis-lab.fr
Document attaché : 202511071339_M2_stage_LIS_PINN.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes LIS – UMR
Durée : 5 à 6 mois
Contact : marc-emmanuel.bellemare@lis-lab.fr
Date limite de publication : 2026-01-31
Contexte :
Le stage se déroulera à Marseille essentiellement au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Images & Modèles sur le campus de St Jérôme (https://im.lis-lab.fr).
Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur les activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image. L’apprentissage profond en particulier y est un thème transverse et le LIS dispose d’une plateforme dédiée, un cluster de nœuds GPU ainsi que le personnel de gestion nécessaire.
Sujet :
Le stagiaire s’attachera à la segmentation des images acquises lors de l’observation par IRM dynamique des déformations des organes pelviens afin de produire des reconstructions 3D des surfaces en mouvement.
Les troubles de la statique pelvienne représentent un enjeu de santé publique. Ils regroupent un ensemble de pathologies associant une perte des rapports anatomiques normaux des organes pelviens, et une altération dramatique de la qualité de vie des malades. Ces pathologies sont handicapantes à des degrés variés mais leur physiopathologie reste encore mal connue ce qui complique leur prise en charge. Dans le cadre d’une collaboration avec le service de chirurgie digestive de l’AP-HM, de nouvelles acquisitions IRM, associées à une reconstruction adaptée, ont permis la visualisation 3D des organes en mouvement. Des résultats probants ont été récemment obtenus et publiés pour l’observation de la vessie (Figure) et il s’agit de s’intéresser aux autres organes pelviens. Des acquisitions multi-planaires ont été réalisées dans des plans non classiques ce qui complique la reconnaissance des organes. Ainsi la segmentation des principaux organes impliqués est une étape primordiale mais difficile. Les partenaires cliniciens ont réalisé des segmentations manuelles des organes sur ces plans ce qui permet de disposer d’une vérité-terrain. Nous envisageons de proposer un nouveau modèle de réseau, adapté à la configuration des plans d’acquisition.
Les problématiques de recalage, de segmentation et de modèles 3D, au cœur du projet, seront abordées selon les compétences et préférences du stagiaire.
Profil du candidat :
Le candidat ou la candidate de niveau Bac+5 dans une formation intégrant le traitement d’images, sera intéressé(e) par un projet pluridisciplinaire et par l’imagerie médicale. Les domaines abordés concernent les réseaux de neurones profonds, la segmentation d’IRM et la reconstruction 3D.
Le stage aura une durée de 4 à 6 mois avec la gratification d’usage (de l’ordre de 600€).
Formation et compétences requises :
La compétence en programmation python est un pré-requis.
Des compétences en mathématiques appliquées seront particulièrement appréciées. Une expérience de la programmation avec l’environnement PyTorch serait un plus.
Adresse d’emploi :
Laboratoire d’Informatique et Systèmes – LIS – UMR CNRS 7020 – Aix-Marseille Université
Campus scientifique de St Jérôme – Av. Escadrille Normandie Niemen -13397 Marseille Cedex 20
www.lis-lab.fr
Document attaché : 202511071329_Sujet_Master2_DL&SegmentationMultiPlan.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IRISA/UBS
Durée : 6 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2026-01-31
Contexte :
Sujet :
Please see the attached PDF file.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
IRISA-UBS, 56000 Vannes
Document attaché : 202510091448_2025_Master_topic_Dreams.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LaSTIG – IGN
Durée : 6 mois
Contact : alexandre.hippert-ferrer@ign.fr
Date limite de publication : 2026-02-01
Contexte :
Sujet :
Voir offre au format pdf.
Profil du candidat :
Niveau Master 2 en Machine Learning / Télédétection / Sciences de la Terre
Formation et compétences requises :
The internship requires a genuine interest and curiosity in Earth sciences (glaciology and climate science in particular). Strong skills in statistical mathematics, deep learning, computer vision, and remote sensing are expected. Proficiency in one or more machine learning libraries in Python (PyTorch, Tensorflow, Keras) is expected. A good level of scientific computing with Python (scipy, scikit-learn, numpy) is also required.
Adresse d’emploi :
LaSTIG Laboratory, IGN/ENSG, 6-8 avenue Blaise Pascal, 77420 Champs-sur-Marne, France.
Document attaché : 202510081015_fiche_stageM2_GlacierDeepLearning_eng.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire DVRC
Durée : 4-6 mois
Contact : christophe.rodrigues@devinci.fr
Date limite de publication : 2026-02-02
Contexte :
Sujet :
M2 Research Internship
Generative AI for Ransomware Time‑Series Detection
The context of the work is Owlyshield, a behavioral time‑series dataset built from Endpoint Detection and Response (EDR) logs to detect ransomware attacks. We aim to generate realistic synthetic sequences that preserve temporal structure and inter‑feature dependencies to improve anomaly detection (benign or ransomware) on this dataset.
Missions
The intern will:
review deep generative models for time series (with a focus on transformer‑style methods);
design and implement conditional generative models (e.g., TimeGAN‑like architectures) to produce labeled multivariate sequences consistent with Owlyshield statistics;
define quality metrics (distributional similarity, temporal coherence, correlation structures);
evaluate the impact of synthetic data on downstream ransomware/anomaly detection performance.
Profile
M2 student in Computer Science, Data/AI, or Applied Mathematics. Solid background in machine learning and Python; experience with deep learning (PyTorch or TensorFlow) and time‑series data. Knowledge of generative models (GANs/VAEs) and transformers, cybersecurity is a plus. Autonomy, rigor, and good written English are expected.
Practical information
Duration: 4-6 months (full-time, 2026).
Location: ESILV, Paris
Supervision: Sourav Rai, Christophe Rodrigues and Nga Nguyen
Application
Send CV, cover letter, grades and recommendation letters to christophe.rodrigues@devinci.fr and nga.nguyen@devinci.fr with subject: “M2 Internship – Generative Time‑Series”.
Dataset/ References
[1] SitInCloud, “Ransomware Detection (Owlyshield documentation),” https://docs.sitincloud.com/concepts/ransomware-detection.html
[2] J. Yoon, D. Jarrett, M. van der Schaar, “Time‑series Generative Adversarial Networks,” NeurIPS, 2019.
[3] X. Li, V. Metsis, H. Wang, A. H. H. Ngu, “TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network,” in Proc. 20th Int. Conf. on Artificial Intelligence in Medicine (AIME), 2022.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Paris, La Défense
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire DVRC
Durée : 4-6 mois
Contact : christophe.rodrigues@devinci.fr
Date limite de publication : 2026-02-02
Contexte :
Sujet :
M2 Research Internship
Generative AI for Ransomware Time‑Series Detection
The context of the work is Owlyshield, a behavioral time‑series dataset built from Endpoint Detection and Response (EDR) logs to detect ransomware attacks. We aim to generate realistic synthetic sequences that preserve temporal structure and inter‑feature dependencies to improve anomaly detection (benign or ransomware) on this dataset.
Missions
The intern will:
review deep generative models for time series (with a focus on transformer‑style methods);
design and implement conditional generative models (e.g., TimeGAN‑like architectures) to produce labeled multivariate sequences consistent with Owlyshield statistics;
define quality metrics (distributional similarity, temporal coherence, correlation structures);
evaluate the impact of synthetic data on downstream ransomware/anomaly detection performance.
Profile
M2 student in Computer Science, Data/AI, or Applied Mathematics. Solid background in machine learning and Python; experience with deep learning (PyTorch or TensorFlow) and time‑series data. Knowledge of generative models (GANs/VAEs) and transformers, cybersecurity is a plus. Autonomy, rigor, and good written English are expected.
Practical information
Duration: 4-6 months (full-time, 2026).
Location: ESILV, Paris
Supervision: Sourav Rai, Christophe Rodrigues and Nga Nguyen
Application
Send CV, cover letter, grades and recommendation letters to christophe.rodrigues@devinci.fr and nga.nguyen@devinci.fr with subject: “M2 Internship – Generative Time‑Series”.
Dataset/ References
[1] SitInCloud, “Ransomware Detection (Owlyshield documentation),” https://docs.sitincloud.com/concepts/ransomware-detection.html
[2] J. Yoon, D. Jarrett, M. van der Schaar, “Time‑series Generative Adversarial Networks,” NeurIPS, 2019.
[3] X. Li, V. Metsis, H. Wang, A. H. H. Ngu, “TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network,” in Proc. 20th Int. Conf. on Artificial Intelligence in Medicine (AIME), 2022.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Paris, La Défense
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : institut Fresnel
Durée : 4 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2026-02-02
Contexte :
Les technologies d’imagerie capables de détecter les processus biologiques précoces in vivo de manière non invasive pour des études longitudinales, avec une haute résolution, représentent un défi pour la recherche biomédicale. Le concept de notre système d’imagerie repose sur un nouveau d’imagerie optique diffuse de fluorescence multicolore pour l’imagerie in vivo du petit animal en trois dimensions (3D) dans la fenêtre NIR-II (1000-2000 nm). La tomographie optique diffuse de fluorescence consiste à injecter au sujet (ici une souris) des substances chimiques qui se fixent sur différents organes. Ces substances chimiques, appelées fluorophores, sont alors excitées par une source lumineuse puis réémettent de la lumière lors de leur relaxation, à plus faible énergie (plus longue longueur d’onde). L’objectif est de reconstruire des images à partir de ce signal de fluorescence. Le signal de fluorescence ainsi que la source d’excitation peuvent être atténués à la fois par l’absorption et la diffusion des différents milieux traversés, ce qui entraîne une distorsion des spectres mesurés. La reconstruction des images est généralement un problème mal-posé nécessitant l’utilisation d’algorithmes d’optimisation exploitant des connaissances apriori sur les volumes à reconstruire.
Sujet :
Le but du stage est le développement d’algorithmes de reconstruction spécifiques aux images hyper-spectrales i.e. lorsque le sujet est excité avec différentes longueurs d’onde et que le signal de fluorescence est échantillonnée à plusieurs longueurs d’onde. Les connaissances apriori sur les volumes à reconstruire seront estimées à l’aide d’algorithmes de deep learning.
Profil du candidat :
Le candidat recruté devra avoir être en dernière année d’école d’ingénieurs ou en Master 2 dans le domaine des mathématiques appliquées, le traitement du signal/images ou dans une formation équivalente. Il devra être particulièrement à l’aise en programmation (python/Matlab) et avoir une réelle appétence pour les interactions entre l’informatique et la physique.
Formation et compétences requises :
Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille
Document attaché : 202509290900_stage tomo hyper spectral.pdf
Offre en lien avec l’Action/le Réseau : TIDS/– — –
Laboratoire/Entreprise : IRIT (Institut de Recherche en Informatique de Tou
Durée : 5 mois
Contact : hugo.boisaubert@irit.fr
Date limite de publication : 2026-02-15
Contexte :
La génération de données synthétiques « en continu » est un challenge important pour différentes applications telles que la simulation ou la prédiction, et dans de nombreux domaines en Industrie 4.0 comme en Santé numérique. Cette génération doit en outre être fidèle autant que
possible aux données réelles ce qui complexifie ce challenge.
Sujet :
Différentes méthodes ont été développées dans ce cadre et pour ces différents types de données. Dans ce stage, même si une compréhension des grandes tendances d’approches proposées indépendamment du type de données est primordiale, un focus particulier sera apporté sur la génération de série temporelle.
Parmi les approches pour ce type de données nous pouvons citer notamment les GAN mais également les approches plus récentes basées sur les modèles LLM. Cependant, selon les contextes applicatifs,
cette génération doit être conditionnée par des « évènements/contraintes ». En effet, ces évènements impliquent une adaptation au fur et à mesure du temps des données générées (exemple : un changement
météo qui aura un impact sur la prédiction de la consommation énergétique). Différentes approches ont été développées pour prendre en compte ces conditions (instantané, fenêtre temporelle, contraintes. . .) dans la génération de données synthétiques.
Les objectifs du stages sont multiples :
1. Construire un état de l’art général des approches récentes [1] sur le domaine de la génération de données conditionnelles en faisant un focus particulier sur la génération conditionnelle de séries
temporelles univariées (TSLLM, TSFM) [2, 4, 5] ;
2. Sur la base de cette étude, au moins deux modèles seront sélectionnés et implantés pour réaliser différentes versions d’un générateur de série temporelle conditionnel. Pour cela l’apprentissage
sera réalisé sur la base de données type « données physiologiques » disponibles. Les données issues notamment du jeu de données MOVER[3] pourront être mobilisées. ;
3. Enfin, suite à la définition d’un protocole expérimental et de l’identification de métriques adaptées, une comparaison objective de ces modèles sera proposée ;
Profil du candidat :
Profil des candidat·e·s Étudiant·e en cycle master ou ingénieur, en Informatique ou mention similaires.
Formation et compétences requises :
Capacités attendues : En complément du niveau de formation défini dans le profil, les éléments
suivants sont souhaitables dans le profil des candidats :
— Capacité de réflexion et d’analyse d’un problème, définition d’un protocole et mise en place d’expérimentations ;
— Rigueur en programmation (Python) et capacité à générer de la documentation, avec usage des outils standard (Git, Doctest, Sphinx ou équivalents) ;
— Maitrise des outils et techniques de l’apprentissage automatique ;
— Capacités de synthèse d’information et à rendre compte de son travail régulièrement ;
— Capacité à produire efficacement des documents de communication scientifique.
Adresse d’emploi :
IUT de Castres – 5 allée du Martinet – 81100 Castres
Document attaché : 202601291558_stage_m2_2026_data_generation-1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire de Génie Chimique (LGC)
Durée : 6 mois
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2026-02-15
Contexte :
Les stations d’épuration constituent aujourd’hui des infrastructures critiques pour la protection de
l’environnement et la santé publique. Leur fonctionnement, en particulier pour les unités équipées de
bioréacteurs à membranes (MBR), repose sur un suivi continu et de haute précision d’un ensemble
de variables physico-chimiques, hydrauliques et biologiques. Ces installations génèrent désormais
d’importants volumes de données temporelles provenant de capteurs multiples, d’analyses de laboratoire
et de systèmes d’acquisition hétérogènes, avec des pas de temps très variés et souvent
asynchrones.
Dans ce contexte, l’analyse avancée des séries temporelles joue un rôle central. Les procédés biologiques
présentent des dynamiques fortement non linéaires, une variabilité importante des charges
polluantes et des interactions complexes entre débit, température, oxygénation, concentrations azotées
et performances de filtration. Exploiter ces données brutes nécessite de relever plusieurs défis
fondamentaux : bruit instrumental, dérives progressives, valeurs manquantes persistantes, phénomènes
de ruptures (changepoints) liés aux perturbations hydrauliques ou opérationnelles, ainsi que
des structures de dépendance non triviales à différentes échelles temporelles (minute, heure, jour,
semaine). Une analyse robuste de ces séries temporelles est indispensable pour détecter précocement
les dysfonctionnements, anticiper les variations de charge, optimiser l’aération (source majeur de
consommation énergétique) et garantir la stabilité de la qualité des effluents rejetés.
Le projet ANR JCJC FlexMIEE se positionne précisément sur ces enjeux en visant à développer
une nouvelle génération d’outils de modélisation intégrée alliant procédés, statistiques avancées,
modélisation probabiliste et IA explicable. Le Work Package 2 (WP2), coeur du présent stage, a
pour objectif de construire un pipeline méthodologique complet permettant : (i) d’harmoniser et
fusionner les données multi-sources selon différentes résolutions temporelles, (ii) de quantifier et
représenter l’incertitude via des méthodes modernes (processus gaussiens, intervalles, histogrammes
dynamiques), (iii) d’identifier les structures de dépendance, linéaires et non linéaires, à l’aide d’outils
tels que les copules ou les corrélations conditionnelles dynamiques, (iv) de développer des modèles
prédictifs de séries temporelles interprétables (LSTM explicables, modèles structurels, Transformeurs
temporels), et enfin (v) de préparer un socle de données fiable pour la modélisation hybride
des procédés au sein du WP3.
Ainsi, ce stage s’inscrit dans une dynamique de recherche appliquée ambitieuse où la statistique
avancée, la science des données et la modélisation des séries temporelles deviennent des leviers
essentiels pour renforcer la performance, la robustesse et l’efficacité énergétique des systèmes de
traitement des eaux usées. Le travail réalisé contribuera directement à la conception de futures «
stations intelligentes », plus résilientes face aux incertitudes environnementales et opérationnelles.
Objectifs du stage
L’objectif est de construire un cadre méthodologique complet pour traiter, fusionner et analyser
les données hétérogènes issues d’une STEP industrielle, puis développer des modèles temporels
explicables permettant de comprendre l’impact des influents sur les performances énergétiques et
épuratoires.
Les enjeux scientifiques incluent :
— harmonisation temporelle multi-échelles ;
— imputation avancée (processus gaussiens, modèles d’état, MICE) ;
— dépendances non linéaires via copules et corrélations dynamiques ;
— modèles temporels interprétables (ARIMAX, XGBoost, LSTM explicables, TFT) ;
— analyse de sensibilité globale et SHAP temporel ;
— représentation symbolique des données (intervalles, distributions).
Sujet :
Le stage s’inscrit dans le Work Package 2 (WP2) du projet ANR FlexMIEE, consacré à la gestion
avancée des données hétérogènes issues d’une station d’épuration industrielle. Le travail attendu est
structuré en quatre volets complémentaires formant un pipeline méthodologique complet.
Dans un premier temps, le ou la stagiaire réalisera une prise en main approfondie de l’ensemble des
bases de données multi-sources (mesures en ligne, analyses de laboratoire, historiques opératoires
et données biologiques). Cette étape comprendra une revue de littérature ciblée sur les notions
d’incertitude dans les données temporelles, les méthodes modernes de dépendances multivariées ainsi
que les approches d’explicabilité en intelligence artificielle (XAI) appliquées aux modèles de séries
temporelles. L’objectif est d’acquérir rapidement une compréhension globale des caractéristiques
des données et des défis méthodologiques associés.
Le deuxième volet concernera l’harmonisation temporelle des données. Les jeux de données disponibles
présentent des pas de temps distincts, des valeurs manquantes, des dérives instrumentales et
des anomalies locales. Le stagiaire mettra en oeuvre des méthodes robustes de détection de ruptures
(changepoints bayésiens, tests non paramétriques), de fusion temporelle multi-échelles et d’imputation
probabiliste. Une attention particulière sera portée aux processus gaussiens, aux modèles
d’état, aux approches MICE et aux autoencodeurs, avec une analyse comparative de la capacité de
chaque méthode à préserver la cohérence physique et statistique des signaux.
Le troisième volet portera sur l’étude des dépendances entre variables influentes (débit, DCO, NH+4 ,
MES, température. . .) et indicateurs de performance du procédé. Le stagiaire utilisera des outils
avancés tels que les corrélations conditionnelles dynamiques et l’analyse des dépendances retardées.
L’objectif est de caractériser précisément les interactions non linéaires, asymétriques ou à queue
lourde qui gouvernent la variabilité des effluents et les capacités énergétiques du système.
Le quatrième volet consistera à développer et comparer différents modèles de séries temporelles.
Ces modèles incluront des approches statistiques (ARIMAX, modèles structurels), des algorithmes
de machine learning (XGBoost, forêts aléatoires temporelles, N-BEATS) ainsi que des architectures
profondes interprétables (LSTM avec mécanisme d’attention, Temporal Fusion Transformer).
L’évaluation sera réalisée via validation croisée temporelle et critères de robustesse. L’interprétabilité
constituera un axe fort, avec l’utilisation de SHAP temporel, de l’Analyse en Composantes
Principales Fonctionnelle (FPCA) et de méthodes globales de sensibilité. Au terme du stage, le ou la
stagiaire fournira un cadre méthodologique complet comprenant l’harmonisation, la modélisation,
l’interprétabilité et la représentation symbolique des données, constituant une base solide pour une
poursuite en thèse.
Profil du candidat :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.
Formation et compétences requises :
Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science,
statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse
statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable.
3
Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement
est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application
des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des
procédés de traitement de l’eau.
Les compétences suivantes sont recherchées :
— Solides bases en analyse statistique, traitement des données et séries temporelles.
— Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou
traitement du signal.
— Excellente maîtrise de Python, Julia et/ou R.
— Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats.
— Intérêt fort pour la recherche appliquée et les enjeux environnementaux.
Adresse d’emploi :
Laboratoire de Génie Chimique – LGC Labège, 4 Allée Emile Monso CAMPUS INP – ENSIACET, 31400 Toulouse
Document attaché : 202512031402_Demande_Stage_ANR_FlexMIEE_WP2_fr.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2026-02-15
Contexte :
Ce stage s’inscrit dans le cadre du projet ANR BLeRIOT. Les avions civils et étatiques sont équipés de deux enregistreurs de vol (aussi connus sous le nom de « boîtes noires »), c.-à-d. le Cockpit Voice Recorder (CVR) et le Flight Data Recorder. En cas d’incident ou d’accident, tous deux doivent être retrouvés et analysés par les autorités compétentes. Le service audio du BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) et RESEDA sont les autorités françaises en charge des analyses des CVR des avions respectivement civils et étatiques. Les CVR sont des équipements renforcés protégeant une information importante pour la détermination des facteurs contributifs à la survenue d’un accident ou d’un incident aérien. Pour cette raison la qualité audio des enregistrements, l’audibilité des alarmes du cockpit et l’intelligibilité
des échanges vocaux sont cruciales pour les enquêteurs du BEA et RESEDA. Les contenus des CVR sont alors transcrits par des enquêteurs spécialisés (analystes audio) pour les bénéfices de l’enquête de sécurité.
Les limitations de conception des CVR contraignent les constructeurs d’avion à mélanger les sources sonores audibles dans le cockpit et dans les casques des pilotes (émissions et réceptions radio, échanges sur l’intercom, annonces aux passagers, alarmes sonores, etc) en un nombre réduit de canaux audio envoyés vers le CVR, qui en fait une acquisition numérique et protège cette donnée en cas d’accident. Ainsi l’activation simultanée de plusieurs sources sonores peut conduire à une réduction significative de l’intelligibilité des échanges vocaux, voire un masquage complet d’une ou de plusieurs sources audio.
L’extraction d’informations dans les données CVR s’appuie sur l’expérience des analystes audio du BEA/RESEDA et sur leur capacité à détecter des sources sonores enfouies dans des mélanges audio difficiles. Dans nos récents travaux, nous avons proposé un modèle de mélange audio dans les CVR par rétro-ingénierie et
nous avons montré que les méthodes de la littérature de séparation de sources (SAS) pouvaient être appliquées. La SAS cherche à estimer un ensemble de signaux inconnus à partir de mélanges de ceux-ci, le mélange étant lui-aussi inconnu.
Sujet :
Dans le cadre du projet ANR BLeRIOT qui finance ce sujet de stage, nous ne souhaitons pas développer des méthodes d’apprentissage profond nécessitant une grande base d’apprentissage. Au contraire, les contraintes des enquêtes de sécurité nous poussent à développer des approches qui soient non ou faiblement supervisées et qui soient interprétables.
Les méthodes de factorisation matricielle non-négative (NMF) ont constitué l’état de l’art avant l’apparition du deep learning au début des années 2010, et remplissent les deux critères ci-dessus. Cependant, elles ne fournissent pas toujours de bonnes performances de séparation lorsqu’on les applique à des signaux CVR. Le principe des techniques
déroulées ou dépliées permet de transformer des approches classiques itératives en méthodes d’apprentissage profond et permettent un bon compromis entre performance, interprétabilité du modèle et taille de la base d’apprentissage. Ces techniques ont été combinées à la NMF pour un certain nombre d’applications, avec des spécificités propres aux méthodes proposées.
Dans le cadre de ce stage, nous proposerons des méthodes de NMF dépliées que nous appliquerons aux données issues de CVR. En particulier, nous avons identifié des cas où le modèle proposé dans n’est plus valide, soit à cause d’effets de saturation des canaux audio dûs au système audio avionique, soit à cause d’effets de codage avec
perte dûs à un modèle de CVR particulier. Ces différents effets ont pu être étudiés séparément dans la littérature – par exemple pour le déclippage audio ou pour les effets de codage sur la qualité de séparation – mais jamais à notre connaissance conjointement ni pour les signaux CVR. Un point important du stage consistera à comparer les performances de méthodes classiques ou dépliées de NMF pour de tels scénarios.
Profil du candidat :
Etudiant en sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées), vous êtes curieux et très à l’aise en programmation (Matlab et/ou Python). Vous lisez et parlez l’anglais courant sans difficulté. Vous êtes capable d’expliquer clairement vos travaux, même à des publics non-experts. Bien que non requis, une première expérience en factorisation matricielle (par exemple, en décomposition matricielle ou tensorielle, en séparation de sources, en apprentissage de dictionnaire) sera appréciée.
Les candidats doivent impérativement être de nationalité française ou citoyens d’un état membre de l’Union Européenne, d’un état faisant parti de l’Espace Economique Européen ou de la Confédération Suisse.
Formation et compétences requises :
Sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées)
Adresse d’emploi :
LISIC, antenne de Longuenesse, Campus de la Malassise, 62219 Longuenesse, France
Document attaché : 202512031320_Stage_ANR_BLeRIOT_2026.pdf
Offre en lien avec l’Action/le Réseau : DatAstro/– — –
Laboratoire/Entreprise : LIRA, Observatoire de Paris (Meudon)
Durée : 4 à 6 mois
Contact : liza.fretel@obspm.fr
Date limite de publication : 2026-02-22
Contexte :
L’héliophysique est un sous-domaine de l’astrophysique s’intéressant au vent solaire et à son interaction avec les magnétosphères des planètes du système solaire. Avec l’avènement des Transformers et la démocratisation de l’usage des LLMs, la question du rôle de ces modèles dans l’interprétation de la science est au cœur des enjeux scientifiques, et ce notamment dans la communauté de l’astrophysique (https://arxiv.org/html/2510.24591v1).
L’observatoire de Paris, dont fait partie le LIRA (Laboratoire d’Instrumentation et de la Recherche en Astrophysique), est engagé depuis plus de deux décennies dans le référencement et le partage des données. Ce stage s’encre dans une initiative de vérification de l’intégrité des données d’observation des instruments astronomiques.
L’objectif final de ce stage est d’identifier quelles données sont citées dans les articles en s’appuyant sur des techniques d’extraction d’information (NER, coréférences…)
Pas de continuation en thèse possible.
La ou le stagiaire intègrera le LIRA (Observatoire de Paris, site de Meudon) et sera encadré par Baptiste Cecconi et Liza Fretel, avec un co-encadrement en distanciel par Cyril Grouin (Paris Saclay).
Sujet :
La ou le stagiaire sera en charge:
– de collecter et d’annoter un corpus d’articles d’héliophysique en respectant un guide d’annotations et
– d’appliquer des modèles de langue afin d’effectuer des tâches de classification et d’extraction d’information.
Voici un aperçu du type d’information à extraire des articles:
– Référence du jeu de données (sous forme de citation formalisée, de plein texte ou d’identifiant, par ex: https://doi.org/10.25935/hegh-1r24)
– Nom de l’instrument (ex: Fluxgate Magnetometer (FGM), electrostatic analyzer (ESA), Solid State Telescope (SST))
– Mission (ex: THEMIS-E)
– Plage temporelle (ex: 2009-04-05T09:00:00 à 2009-04-05T10:00:00)
– Région spatiale (ex: Earth.Magnetosphere.Main, solar wind…)
– Intitulé des diagrammes et nature (ex: spectre, graphique…)
– Unités de mesure utilisées dans un diagramme (ex: nPa, min…)
– Observable scientifique représentée dans le diagramme (ex: Dynamic pressure, Magnetic field magnitude, spectral flux density…)
Voici un exemple de document du corpus :
https://doi.org/10.3847/2041-8213/add688
La ou le stagiaire restera informé de l’état de l’art des modèles de langue existants et proposera des métriques d’évaluation afin de comparer les résultats des modèles testés.
Références
Travaux similaires :
– Astro-NER https://doi.org/10.48550/arXiv.2405.02602
– BibHelioTech https://hal.science/hal-04285006v1
– Thèse d’Atilla Kaan Alkan https://theses.fr/2024UPASG114
Modèles de langue :
– AstroBert https://doi.org/10.48550/arXiv.2112.00590
– SciBERT https://doi.org/10.18653/v1/D19-1371
– AstroLlama https://doi.org/10.18653/v1/2023.wiesp-1.7
Profil du candidat :
Formation et compétences requises :
En Master 2 Traitement Automatique des Langues, Informatique, IA ou une formation équivalente, ayant une appétence pour l’astronomie et une certaine rigueur scientifique (présentation des résultats, respect d’un guide d’annotations, regard critique des résultats obtenus).
Démontrer une expérience (non obligatoire mais appréciée) :
– utilisation de modèles de langues (Transformers, LLMs)
– fine-tuning de modèles BERT
– annotation de corpus
– maîtrise des métriques d’évaluation
Adresse d’emploi :
5 Place Jules Janssen, 92190 Meudon
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIMOS
Durée : 5 mois
Contact : julien.ah-pine@sigma-clermont.fr
Date limite de publication : 2026-02-28
Contexte :
The internship is part of the DLISCES project (Deep Learning Images Satellites et Cartographie d’Indicateurs Économiques et Sociaux), supported by the International Research Center “Natural Disasters and Sustainable Development” (CIR4) of the ISite CAP 2025 in Clermont-Ferrand. The project falls under the “AI for Good” domain and conducts exploratory research aimed at providing maps of various indicators to more robustly assess the vulnerability of populations and territories exposed to climatic hazards (floods, landslides, cyclones, earthquakes, etc.). DLISCES is an interdisciplinary project involving researchers in artificial intelligence, economics, management, and mathematics. The selected candidate will join the LIMOS (Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes) and work closely with AI researchers and economists from CERDI (Centre d’études et de recherches sur le développement international). He or she will focus on leveraging state-of-the-art deep learning models and satellite images to evaluate the impact of natural disasters.
Sujet :
This internship aims to develop and apply deep learning (DL) models and resources for satellite images analysis in the goal of predicting natural disaster impacts. On one hand, the EM-DAT database contains data on the occurrence and impacts of over 27,000 mass disasters worldwide from 1900 to the present day. On the other hand, computer vision techniques utilizing DL enable efficient analysis of Earth Observation data acquired through
remote sensing technologies.
The goal of the internship is twofold :
1. Collect satellite images related to natural disaster events recorded in the EM-DAT database with geolocation provided by Geo-Disasters, from open-access platforms such as Copernicus and Google Earth Engine (GEE).
2. Study, apply, and fine-tune pre-trained DL models (foundation models for Earth Observation) to represent remote sensing information, aiming to predict natural disaster impacts as recorded in the EM-DAT database.
Particular attention will be paid to floods and the related dataset FLODIS, based on EM-DAT. This internship provides a valuable opportunity to work on impactful projects in the field of natural disaster risk management while gaining practical experience in deep learning and satellite image analysis. The opportunity to continue this work with a PhD project is currently under review.
Profil du candidat :
Current master student or recent graduate in Computer Science, AI, Data Science, Computer Vision, or in Social Science with a strong background in Data Science.
Experience using deep learning models in computer vision.
High Interest in inter-disciplinary research works.
Attention to details and rigor in handling large datasets and in programming.
Strong communication skills and ability to work in a team.
Knowledge of satellite imagery and geospatial data would be a plus.
Formation et compétences requises :
Adresse d’emploi :
LIMOS, Aubières (Clermont-Ferrand)
Document attaché : 202512151511_Offre de Stage DLISCES – 2526.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS
Durée : 5-6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2026-02-28
Contexte :
The deployment of deep neural networks on edge devices such as smartphones or embedded systems poses significant challenges in terms of computational cost, energy consumption, and latency. Traditional models process all inputs with the same fixed architecture, regardless of their complexity, leading to inefficient use of resources. For instance, a clear image of a cat is processed with the same depth and width as a noisy, ambiguous scene, despite requiring far less computation.
To address this, recent research has explored dynamic neural networks, which adapt their computation based on input content. Two prominent strategies include:
• Mixture of Experts (MoE): activating only a subset of network parameters (e.g., specific convolutional branches) per input, enabling width adaptation.
• Early Exits: allowing simpler inputs to exit the network at intermediate layers, reducing inference depth.
While these approaches have been studied independently—MoE primarily in Transformers and early exits in CNNs—their combination remains underexplored, especially in convolutional architectures. Jointly leveraging both mechanisms could enable dual adaptation in width and depth, significantly improving efficiency without sacrificing accuracy.
This internship aims to design, implement, and evaluate a dynamic CNN architecture that integrates Mixture of Experts blocks with confidence-based early exits, enabling input-adaptive inference for vision tasks such as image classification. The work will contribute to the growing field of efficient and sustainable AI, with potential applications in mobile vision and real-time systems.
Sujet :
The main goal is to design and validate a hybrid dynamic CNN that couples conditional activation (Mixture-of-Experts) with adaptive depth (early-exit). To reach this goal, the intern will first carry out a bibliographic survey on dynamic inference, covering MoE in CNNs, early-exit networks such as BranchyNet, and recent attempts at joint width-and-depth adaptation; key training difficulties—load balancing, confidence estimation, stability—will be identified. Next, a full architecture will be proposed: convolutional MoE blocks whose top-k gating network selects the most relevant experts for each input, and auxiliary classifiers inserted at several depths that can terminate inference as soon as a confidence threshold is exceeded; a single decision rule will be learnt that decides, at every stage, whether to route or to exit. The model will then be implemented in PyTorch on standard backbones (ResNet or VGG variants) and trained on CIFAR-10/100 or Tiny-ImageNet; knowledge distillation and load-balancing losses will be used to stabilise MoE training, while a cost-aware term will encourage both sparse expert selection and early termination. Finally, the system will be evaluated in terms of accuracy, average inference depth, FLOPs and latency and compared against strong baselines (standard CNN, BranchyNet, MoE-CNN without exits); a detailed analysis will correlate input difficulty with the chosen experts and the actual exit layer. If time permits, the intern will explore ultra-lightweight gating for on-device deployment and validate the approach on a mobile-oriented use-case.
Profil du candidat :
Required technical skills:
• Python, PyTorch
• Deep learning (CNNs, optimization)
• Familiarity with vision datasets and evaluation metrics
• (Preferred) Experience with model compression or dynamic networks
Formation et compétences requises :
M2 in computer science or applied mathematics
Adresse d’emploi :
INSA Lyon, Campus de la Doua, Villeurbanne
Document attaché : 202512181058_dynamic_cnn_internship.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LabiISEN – ISEN Ouest
Durée : 4 à 6 mois
Contact : thibault.napoleon@isen-ouest.yncrea.fr
Date limite de publication : 2026-02-28
Contexte :
Sujet :
Dans le cadre de travaux avec Thales Underwater System (UWS), nous cherchons à évaluer la pertinence des prétraitements dans les techniques de vision par ordinateur en milieu sous-marin. En effet, il est d’usage de prétraiter les images issues du capteur (photo ou vidéo) afin de compenser les distorsions colorimétriques induites par le milieu aquatique ainsi que les phénomènes de brumes sous-marines induits par la turbidité. Cependant, ces approches s’appuient depuis quelques années sur des techniques utilisant des réseaux de neurones (souvent convolutifs) dont les architectures sont proches de celles utilisées pour les tâches de vision par ordinateur qui suivent ces prétraitements. Ainsi, cette étude vise à mieux comprendre les avantages et les inconvénients d’enchainer les étapes prétraitement (c.-à-d. approche dissociée) et traitements par vision (classification, détection ou segmentation par exemple) plutôt que de les combiner dans un même réseau de neurones (c.-à-d. approche combinée).
Le but de ce stage est de comparer ces deux approches, dissociée et combinée, dans un cadre unifié où plusieurs méthodes de prétraitements et plusieurs tâches de vision seront étudiées. Le but étant de montrer les avantages et les inconvénients des deux approches. Ainsi, il pourrait être possible de proposer une méthode combinant les avantages de chacune. L’une des pistes envisagées est une approche multi-objectifs dans un réseau de segmentation sémantique. Dans ce cadre, l’un des objectifs serait le débrumage d’image tandis qu’un autre serait la segmentation sémantique des images. Avec cette approche, la capacité d’apprendre à prétraiter les images en même temps qu’en extraire les informations pertinentes, pour plus de robustesse, pourrait apparaitre dans un unique réseau de neurones.
Le stage s’articulera autour des points suivants :
• Sélection des bases de données nécessaires à l’étude comparative.
• Sélection des méthodes de prétraitements utilisées en vision sous-marine.
• Sélection des méthodes de vision par ordinateur adaptées aux tâches de vision sous-marines.
• Étude comparative des approches dissociées et combinées.
Profil du candidat :
Le candidat doit avoir :
• suivi un cursus de Master ou d’Ingénieur dans un des domaines suivants : vision par
ordinateur, science des données, informatique ;
• de solides compétences en algorithmique et en programmation ;
• des connaissances en vision par ordinateur ;
• des connaissances en intelligence artificielle.
Pour candidater, le candidat doit fournir :
• un CV détaillé ;
• les relevées de notes des deux dernières années.
Merci de candidater sur https://isen.softy.pro/offers/186565 ou en envoyant un mail à thibault.napoleon@isen-ouest.yncrea.fr (objet : [Stage EPIC]).
Formation et compétences requises :
Adresse d’emploi :
ISEN Ouest, site de Brest – 20 rue Cuirassé Bretagne, 29200 Brest
Document attaché : 202601070932_Sujet.pdf
