Offres de stages
Jan 31 Sat 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIAS Durée : 6 mois Contact : baron@ensma.fr Date limite de publication : 2026-01-31 Contexte : Bimedia, filiale du groupe Orisha, est une entreprise spécialisée dans les solutions destinées aux points de vente de proximité (bureaux de tabac, boulangeries, etc.). Son offre repose sur un ensemble de services comprenant du matériel (caisses enregistreuses à double écran : le premier pour le commerçant et le second pour le client final), un logiciel d’encaissement, des solutions dématérialisées (cartes prépayées, etc.), ainsi que des dispositifs d’animation commerciale via des publicités diffusées sur l’écran client des caisses. Si le point de vente est identifié, le client final, lui, ne l’est pas. Pour pallier cette limite, une initiative récente baptisée BMyShop 1, proposée par Bimedia sous la forme d’une application mobile, permet d’associer certains clients finaux grâce à un programme de fidélité. Les informations collectées se limitent aux données strictement nécessaires (prénom, nom, âge) en conformité avec la réglementation (RGPD). Toutefois, cette base de clients finaux identifiés reste restreinte par rapport au volume de transactions réellement effectuées dans les commerces par des clients finaux anonymes, ce qui pose un défi scientifique pour exploiter des données partielles et anonymisées afin de caractériser, enrichir ou déduire des profils clients représentatifs. Bimedia s’est associée au laboratoire LIAS, dans le cadre d’un projet de recherche appliquée. Trois enseignants-chercheurs et un ingénieur de recherche encadreront un étudiant de Master 2 (université ou école d’ingénieurs). Le travail attendu visera à développer des techniques d’apprentissage automatique (clustering, apprentissage semi-supervisé, génération de données synthétiques, intégration de données externes, etc.) pour construire des profils représentatifs tout en garantissant l’anonymat des participants. Pour comparer sa proposition avec l’état de l’art, l’étudiant devra identifier des bancs d’essai adaptés ou en définir un nouveau. Un objectif secondaire consistera à calculer un indice de confiance sur le profil établi en utilisant la théorie des modèles probabilistes. Sujet : L’objectif de ce stage est d’explorer des approches d’analyse et d’enrichissement de données à partir des bases transactionnelles (l’historique d’achats) issues d’une part des clients identifiés via l’application BMyShop et, d’autre part, des clients anonymes. Le stage visera à définir des techniques permettant de caractériser et d’associer des profils clients à partir de données partielles : – élaboration de modèles prédictifs basés sur l’état de l’art et adaptés aux besoins spécifiques de Bimedia ; – évaluation des différents modèles obtenus ; – calcul d’indices de confiance sur les prédictions. Si possible, les techniques développées devront mener à des modèles explicables pour que les analystes métiers de Bimedia puisse comprendre et accorder une certaine confiance aux résultats obtenus. À noter que la réalisation d’un prototype de faisabilité sera demandé. Il ne s’agit pas de développer un logiciel industriel, qui lui sera à la charge de l’entreprise. L’entreprise souhaite juste s’assurer de la faisabilité technique et scientifique de la démarche proposée. Profil du candidat : Le candidat doit être en Master 2 en Informatique ou en dernière année de préparation d’un diplôme d’ingénieur spécialité Informatique. Formation et compétences requises : Une bonne connaissance du langage de programmation Python et des bibliothèques usuelles d’apprentissage automatique est requise. Un bon niveau en français est fondamental. Adresse d’emploi : https://www.lias-lab.fr/jobs/2026_lias_idd_profilsclients_fr.pdf Document attaché : 202511071103_2026_lias_idd_profilsclients_fr.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes – LIS – UMR Durée : 5 à 6 mois Contact : marc-emmanuel.bellemare@univ-amu.fr Date limite de publication : 2026-01-31 Contexte : Le stage se déroulera à Marseille essentiellement au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Images & Modèles sur le campus de St Jérôme (https://im.lis-lab.fr). Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur les activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image. L’apprentissage profond en particulier y est un thème transverse et le LIS dispose d’une plateforme dédiée, un cluster de nœuds GPU ainsi que le personnel de gestion nécessaire. Sujet : La modélisation des déformations des organes abdominaux revêt une importance cruciale pour la santé des patients et pour de nombreuses applications cliniques, telles que la planification de la radiothérapie adaptative, le suivi de la progression des maladies ou encore l’analyse biomécanique des tissus. L’imagerie par résonance ma- gnétique (IRM) peut offrir une visualisation spatiale et en coupe des déformations d’organes in vivo. Cependant, l’état de l’art actuel présente plusieurs limitations, notamment en termes de résolution et de reconstruction fidèle de l’évolution tridimensionnelle et dynamique des organes. L’objectif de ce stage est de proposer des solutions innovantes pour pallier ces limites. Dans le cadre d’un projet de recherche mené en collaboration avec l’AP-HM, nous nous intéressons au suivi des déformations des principaux organes pelviens. L’approche actuelle [1, 4] consiste à détecter un contour sur une série d’images 2D, puis à effectuer un échantillonnage spatial de ce contour initial. Les contours suivants sont ensuite estimés de manière récurrente à l’aide d’un modèle de transport optimal, la déformation finale étant calculée à partir de la distance entre les points d’échantillonnage obtenus. Cependant, cette méthode présente plusieurs faiblesses : la construction de l’échantillonnage est souvent arbitraire, le transport optimal peut introduire des biais difficiles à maîtriser, et la définition même de la distance utilisée reste discutable. Ces éléments limitent la robustesse et la généralisabilité de l’approche, malgré son intérêt scientifique certain. Afin de dépasser ces limitations, ce stage vise à exploiter des modèles et méthodes récents capables d’apporter plus de cohérence et de précision à la modélisation des déformations. Le premier axe d’amélioration concerne la discrétisation : celle-ci peut être évitée grâce aux représentations neuronales implicites (Implicit Neural Representations, INRs). Ces dernières reposent sur le principe d’approximation universelle des réseaux de neurones, leur permettant de représenter n’importe quelle forme continue. Ainsi, le contour précédemment échantillonné sera alors directement modélisé par un réseau neuronal. Pour l’estimation des déformations, nous proposons d’utiliser des réseaux de neurones informés par la phyique (Physics-Informed Neural Networks, PINNs). L’idée est d’intégrer des contraintes issues des équations mécaniques de la déformation afin d’estimer à la fois le champ de déformation et les paramètres des lois de comportement des tissus. En résumé, le stage a pour objectif de combiner les représentations neuronales implicites et les réseaux de neurones informés par la physique afin de modéliser les déformations d’organes alignées sur des données d’imagerie IRM, offrant ainsi une approche plus continue, précise et physiquement cohérente de la dynamique des organes observés. Réalisation L’objectif principal de ce stage est de développer et d’évaluer des modèles de déformation d’organes, en s’appuyant sur des approches d’apprentissage profond et de modélisation physique. Les étapes et objectifs clés sont les suivants : — Développer une représentation neuronale implicite (INR) des contours de déformation de la vessie en 2D + temps. — Évaluer les performances de cette représentation en termes de précision et de continuité temporelle. — Concevoir une approche basée sur les réseaux de neurones informés par la physique afin de reconstruire le champ de déformation et d’estimer les paramètres mécaniques du comportement. — Évaluer les performances du PINN selon deux perspectives possibles : — comme modèle hybride, intégrant à la fois les données expérimentales et les contraintes issues des équations physiques, afin de guider l’apprentissage vers des solutions cohérentes avec les lois mécaniques. — ou comme problème inverse, visant à identifier les paramètres physiques (par ex. propriétés mécaniques des tissus) et les déformations spatiales à partir des données observées, tout en respectant les équations de la mécanique des milieux continus. — Perspective d’extension vers la 3D+temps Données Le projet s’appuiera sur un jeu de données d’IRM dynamiques de la vessie, collecté auprès de 50 patientes. L’échantillonnage temporel, à raison d’une image par seconde, des séquences sagittales dynamiques fournit 12 images par patiente. Les contours de la vessie ont été extraits de manière manuelle ou semi-automatique, sur l’ensemble des images de la séquence dynamique. Au total, 600 contours ont ainsi été obtenus, constituant la base de données utilisée pour l’apprentissage et l’évaluation des performances du modèle. Profil du candidat : Le ou la candidat.e sera intéressé.e par un domaine pluridisciplinaire embrassant l’analyse d’image, les mathématiques appliquées, le deep-learning, dans un contexte médical. Des connaissances en équations aux dérivées partielles (EDP) et en méthodes de résolution par éléments finis constituent un atout supplémentaire pour ce stage. Formation et compétences requises : De formation Bac+5 dans une formation concernée par le traitement d’image. Une expérience de la programmation avec l’environnement python est un pré-requis, la connaissance de la bibliothèque JAX serait un plus. Le stage aura une durée de 4 à 6 mois avec la gratification d’usage (de l’ordre de 600€ par mois). Adresse d’emploi : Laboratoire d’Informatique et Systèmes – LIS – UMR CNRS 7020 – Aix-Marseille Université Campus scientifique de St Jérôme – Av. Escadrille Normandie Niemen -13397 Marseille Cedex 20 www.lis-lab.fr Document attaché : 202511071339_M2_stage_LIS_PINN.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes LIS – UMR Durée : 5 à 6 mois Contact : marc-emmanuel.bellemare@lis-lab.fr Date limite de publication : 2026-01-31 Contexte : Le stage se déroulera à Marseille essentiellement au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Images & Modèles sur le campus de St Jérôme (https://im.lis-lab.fr). Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur les activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image. L’apprentissage profond en particulier y est un thème transverse et le LIS dispose d’une plateforme dédiée, un cluster de nœuds GPU ainsi que le personnel de gestion nécessaire. Sujet : Le stagiaire s’attachera à la segmentation des images acquises lors de l’observation par IRM dynamique des déformations des organes pelviens afin de produire des reconstructions 3D des surfaces en mouvement. Les troubles de la statique pelvienne représentent un enjeu de santé publique. Ils regroupent un ensemble de pathologies associant une perte des rapports anatomiques normaux des organes pelviens, et une altération dramatique de la qualité de vie des malades. Ces pathologies sont handicapantes à des degrés variés mais leur physiopathologie reste encore mal connue ce qui complique leur prise en charge. Dans le cadre d’une collaboration avec le service de chirurgie digestive de l’AP-HM, de nouvelles acquisitions IRM, associées à une reconstruction adaptée, ont permis la visualisation 3D des organes en mouvement. Des résultats probants ont été récemment obtenus et publiés pour l’observation de la vessie (Figure) et il s’agit de s’intéresser aux autres organes pelviens. Des acquisitions multi-planaires ont été réalisées dans des plans non classiques ce qui complique la reconnaissance des organes. Ainsi la segmentation des principaux organes impliqués est une étape primordiale mais difficile. Les partenaires cliniciens ont réalisé des segmentations manuelles des organes sur ces plans ce qui permet de disposer d’une vérité-terrain. Nous envisageons de proposer un nouveau modèle de réseau, adapté à la configuration des plans d’acquisition. Les problématiques de recalage, de segmentation et de modèles 3D, au cœur du projet, seront abordées selon les compétences et préférences du stagiaire. Profil du candidat : Le candidat ou la candidate de niveau Bac+5 dans une formation intégrant le traitement d’images, sera intéressé(e) par un projet pluridisciplinaire et par l’imagerie médicale. Les domaines abordés concernent les réseaux de neurones profonds, la segmentation d’IRM et la reconstruction 3D. Le stage aura une durée de 4 à 6 mois avec la gratification d’usage (de l’ordre de 600€). Formation et compétences requises : La compétence en programmation python est un pré-requis. Des compétences en mathématiques appliquées seront particulièrement appréciées. Une expérience de la programmation avec l’environnement PyTorch serait un plus. Adresse d’emploi : Laboratoire d’Informatique et Systèmes – LIS – UMR CNRS 7020 – Aix-Marseille Université Campus scientifique de St Jérôme – Av. Escadrille Normandie Niemen -13397 Marseille Cedex 20 www.lis-lab.fr Document attaché : 202511071329_Sujet_Master2_DL&SegmentationMultiPlan.pdf Offre en lien avec l’Action/le Réseau : – — –/Doctorants Laboratoire/Entreprise : IRISA/UBS Durée : 6 mois Contact : minh-tan.pham@irisa.fr Date limite de publication : 2026-01-31 Contexte : Sujet : Please see the attached PDF file. Profil du candidat : Formation et compétences requises : Adresse d’emploi : IRISA-UBS, 56000 Vannes Document attaché : 202510091448_2025_Master_topic_Dreams.pdf Feb 1 Sun 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LaSTIG – IGN Durée : 6 mois Contact : alexandre.hippert-ferrer@ign.fr Date limite de publication : 2026-02-01 Contexte : Sujet : Voir offre au format pdf. Profil du candidat : Niveau Master 2 en Machine Learning / Télédétection / Sciences de la Terre Formation et compétences requises : The internship requires a genuine interest and curiosity in Earth sciences (glaciology and climate science in particular). Strong skills in statistical mathematics, deep learning, computer vision, and remote sensing are expected. Proficiency in one or more machine learning libraries in Python (PyTorch, Tensorflow, Keras) is expected. A good level of scientific computing with Python (scipy, scikit-learn, numpy) is also required. Adresse d’emploi : LaSTIG Laboratory, IGN/ENSG, 6-8 avenue Blaise Pascal, 77420 Champs-sur-Marne, France. Document attaché : 202510081015_fiche_stageM2_GlacierDeepLearning_eng.pdf Feb 2 Mon 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Laboratoire DVRC Durée : 4-6 mois Contact : christophe.rodrigues@devinci.fr Date limite de publication : 2026-02-02 Contexte : Sujet : M2 Research Internship Generative AI for Ransomware Time‑Series Detection The context of the work is Owlyshield, a behavioral time‑series dataset built from Endpoint Detection and Response (EDR) logs to detect ransomware attacks. We aim to generate realistic synthetic sequences that preserve temporal structure and inter‑feature dependencies to improve anomaly detection (benign or ransomware) on this dataset. Missions The intern will: review deep generative models for time series (with a focus on transformer‑style methods); design and implement conditional generative models (e.g., TimeGAN‑like architectures) to produce labeled multivariate sequences consistent with Owlyshield statistics; define quality metrics (distributional similarity, temporal coherence, correlation structures); evaluate the impact of synthetic data on downstream ransomware/anomaly detection performance. Profile M2 student in Computer Science, Data/AI, or Applied Mathematics. Solid background in machine learning and Python; experience with deep learning (PyTorch or TensorFlow) and time‑series data. Knowledge of generative models (GANs/VAEs) and transformers, cybersecurity is a plus. Autonomy, rigor, and good written English are expected. Practical information Duration: 4-6 months (full-time, 2026). Location: ESILV, Paris Supervision: Sourav Rai, Christophe Rodrigues and Nga Nguyen Application Send CV, cover letter, grades and recommendation letters to christophe.rodrigues@devinci.fr and nga.nguyen@devinci.fr with subject: “M2 Internship – Generative Time‑Series”. Dataset/ References [1] SitInCloud, “Ransomware Detection (Owlyshield documentation),” https://docs.sitincloud.com/concepts/ransomware-detection.html [2] J. Yoon, D. Jarrett, M. van der Schaar, “Time‑series Generative Adversarial Networks,” NeurIPS, 2019. [3] X. Li, V. Metsis, H. Wang, A. H. H. Ngu, “TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network,” in Proc. 20th Int. Conf. on Artificial Intelligence in Medicine (AIME), 2022. Profil du candidat : Formation et compétences requises : Adresse d’emploi : Paris, La Défense Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Laboratoire DVRC Durée : 4-6 mois Contact : christophe.rodrigues@devinci.fr Date limite de publication : 2026-02-02 Contexte : Sujet : M2 Research Internship Generative AI for Ransomware Time‑Series Detection The context of the work is Owlyshield, a behavioral time‑series dataset built from Endpoint Detection and Response (EDR) logs to detect ransomware attacks. We aim to generate realistic synthetic sequences that preserve temporal structure and inter‑feature dependencies to improve anomaly detection (benign or ransomware) on this dataset. Missions The intern will: review deep generative models for time series (with a focus on transformer‑style methods); design and implement conditional generative models (e.g., TimeGAN‑like architectures) to produce labeled multivariate sequences consistent with Owlyshield statistics; define quality metrics (distributional similarity, temporal coherence, correlation structures); evaluate the impact of synthetic data on downstream ransomware/anomaly detection performance. Profile M2 student in Computer Science, Data/AI, or Applied Mathematics. Solid background in machine learning and Python; experience with deep learning (PyTorch or TensorFlow) and time‑series data. Knowledge of generative models (GANs/VAEs) and transformers, cybersecurity is a plus. Autonomy, rigor, and good written English are expected. Practical information Duration: 4-6 months (full-time, 2026). Location: ESILV, Paris Supervision: Sourav Rai, Christophe Rodrigues and Nga Nguyen Application Send CV, cover letter, grades and recommendation letters to christophe.rodrigues@devinci.fr and nga.nguyen@devinci.fr with subject: “M2 Internship – Generative Time‑Series”. Dataset/ References [1] SitInCloud, “Ransomware Detection (Owlyshield documentation),” https://docs.sitincloud.com/concepts/ransomware-detection.html [2] J. Yoon, D. Jarrett, M. van der Schaar, “Time‑series Generative Adversarial Networks,” NeurIPS, 2019. [3] X. Li, V. Metsis, H. Wang, A. H. H. Ngu, “TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network,” in Proc. 20th Int. Conf. on Artificial Intelligence in Medicine (AIME), 2022. Profil du candidat : Formation et compétences requises : Adresse d’emploi : Paris, La Défense Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : institut Fresnel Durée : 4 à 6 mois Contact : andre@fresnel.fr Date limite de publication : 2026-02-02 Contexte : Les technologies d’imagerie capables de détecter les processus biologiques précoces in vivo de manière non invasive pour des études longitudinales, avec une haute résolution, représentent un défi pour la recherche biomédicale. Le concept de notre système d’imagerie repose sur un nouveau d’imagerie optique diffuse de fluorescence multicolore pour l’imagerie in vivo du petit animal en trois dimensions (3D) dans la fenêtre NIR-II (1000-2000 nm). La tomographie optique diffuse de fluorescence consiste à injecter au sujet (ici une souris) des substances chimiques qui se fixent sur différents organes. Ces substances chimiques, appelées fluorophores, sont alors excitées par une source lumineuse puis réémettent de la lumière lors de leur relaxation, à plus faible énergie (plus longue longueur d’onde). L’objectif est de reconstruire des images à partir de ce signal de fluorescence. Le signal de fluorescence ainsi que la source d’excitation peuvent être atténués à la fois par l’absorption et la diffusion des différents milieux traversés, ce qui entraîne une distorsion des spectres mesurés. La reconstruction des images est généralement un problème mal-posé nécessitant l’utilisation d’algorithmes d’optimisation exploitant des connaissances apriori sur les volumes à reconstruire. Sujet : Le but du stage est le développement d’algorithmes de reconstruction spécifiques aux images hyper-spectrales i.e. lorsque le sujet est excité avec différentes longueurs d’onde et que le signal de fluorescence est échantillonnée à plusieurs longueurs d’onde. Les connaissances apriori sur les volumes à reconstruire seront estimées à l’aide d’algorithmes de deep learning. Profil du candidat : Le candidat recruté devra avoir être en dernière année d’école d’ingénieurs ou en Master 2 dans le domaine des mathématiques appliquées, le traitement du signal/images ou dans une formation équivalente. Il devra être particulièrement à l’aise en programmation (python/Matlab) et avoir une réelle appétence pour les interactions entre l’informatique et la physique. Formation et compétences requises : Adresse d’emploi : 52 Av. Escadrille Normandie Niemen, 13013 Marseille Document attaché : 202509290900_stage tomo hyper spectral.pdf Feb 15 Sun 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Laboratoire de Génie Chimique (LGC) Durée : 6 mois Contact : rachid.ouaret@toulouse-inp.fr Date limite de publication : 2026-02-15 Contexte : Les stations d’épuration constituent aujourd’hui des infrastructures critiques pour la protection de l’environnement et la santé publique. Leur fonctionnement, en particulier pour les unités équipées de bioréacteurs à membranes (MBR), repose sur un suivi continu et de haute précision d’un ensemble de variables physico-chimiques, hydrauliques et biologiques. Ces installations génèrent désormais d’importants volumes de données temporelles provenant de capteurs multiples, d’analyses de laboratoire et de systèmes d’acquisition hétérogènes, avec des pas de temps très variés et souvent asynchrones. Dans ce contexte, l’analyse avancée des séries temporelles joue un rôle central. Les procédés biologiques présentent des dynamiques fortement non linéaires, une variabilité importante des charges polluantes et des interactions complexes entre débit, température, oxygénation, concentrations azotées et performances de filtration. Exploiter ces données brutes nécessite de relever plusieurs défis fondamentaux : bruit instrumental, dérives progressives, valeurs manquantes persistantes, phénomènes de ruptures (changepoints) liés aux perturbations hydrauliques ou opérationnelles, ainsi que des structures de dépendance non triviales à différentes échelles temporelles (minute, heure, jour, semaine). Une analyse robuste de ces séries temporelles est indispensable pour détecter précocement les dysfonctionnements, anticiper les variations de charge, optimiser l’aération (source majeur de consommation énergétique) et garantir la stabilité de la qualité des effluents rejetés. Le projet ANR JCJC FlexMIEE se positionne précisément sur ces enjeux en visant à développer une nouvelle génération d’outils de modélisation intégrée alliant procédés, statistiques avancées, modélisation probabiliste et IA explicable. Le Work Package 2 (WP2), coeur du présent stage, a pour objectif de construire un pipeline méthodologique complet permettant : (i) d’harmoniser et fusionner les données multi-sources selon différentes résolutions temporelles, (ii) de quantifier et représenter l’incertitude via des méthodes modernes (processus gaussiens, intervalles, histogrammes dynamiques), (iii) d’identifier les structures de dépendance, linéaires et non linéaires, à l’aide d’outils tels que les copules ou les corrélations conditionnelles dynamiques, (iv) de développer des modèles prédictifs de séries temporelles interprétables (LSTM explicables, modèles structurels, Transformeurs temporels), et enfin (v) de préparer un socle de données fiable pour la modélisation hybride des procédés au sein du WP3. Ainsi, ce stage s’inscrit dans une dynamique de recherche appliquée ambitieuse où la statistique avancée, la science des données et la modélisation des séries temporelles deviennent des leviers essentiels pour renforcer la performance, la robustesse et l’efficacité énergétique des systèmes de traitement des eaux usées. Le travail réalisé contribuera directement à la conception de futures « stations intelligentes », plus résilientes face aux incertitudes environnementales et opérationnelles. Objectifs du stage L’objectif est de construire un cadre méthodologique complet pour traiter, fusionner et analyser les données hétérogènes issues d’une STEP industrielle, puis développer des modèles temporels explicables permettant de comprendre l’impact des influents sur les performances énergétiques et épuratoires. Les enjeux scientifiques incluent : — harmonisation temporelle multi-échelles ; — imputation avancée (processus gaussiens, modèles d’état, MICE) ; — dépendances non linéaires via copules et corrélations dynamiques ; — modèles temporels interprétables (ARIMAX, XGBoost, LSTM explicables, TFT) ; — analyse de sensibilité globale et SHAP temporel ; — représentation symbolique des données (intervalles, distributions). Sujet : Le stage s’inscrit dans le Work Package 2 (WP2) du projet ANR FlexMIEE, consacré à la gestion avancée des données hétérogènes issues d’une station d’épuration industrielle. Le travail attendu est structuré en quatre volets complémentaires formant un pipeline méthodologique complet. Dans un premier temps, le ou la stagiaire réalisera une prise en main approfondie de l’ensemble des bases de données multi-sources (mesures en ligne, analyses de laboratoire, historiques opératoires et données biologiques). Cette étape comprendra une revue de littérature ciblée sur les notions d’incertitude dans les données temporelles, les méthodes modernes de dépendances multivariées ainsi que les approches d’explicabilité en intelligence artificielle (XAI) appliquées aux modèles de séries temporelles. L’objectif est d’acquérir rapidement une compréhension globale des caractéristiques des données et des défis méthodologiques associés. Le deuxième volet concernera l’harmonisation temporelle des données. Les jeux de données disponibles présentent des pas de temps distincts, des valeurs manquantes, des dérives instrumentales et des anomalies locales. Le stagiaire mettra en oeuvre des méthodes robustes de détection de ruptures (changepoints bayésiens, tests non paramétriques), de fusion temporelle multi-échelles et d’imputation probabiliste. Une attention particulière sera portée aux processus gaussiens, aux modèles d’état, aux approches MICE et aux autoencodeurs, avec une analyse comparative de la capacité de chaque méthode à préserver la cohérence physique et statistique des signaux. Le troisième volet portera sur l’étude des dépendances entre variables influentes (débit, DCO, NH+4 , MES, température. . .) et indicateurs de performance du procédé. Le stagiaire utilisera des outils avancés tels que les corrélations conditionnelles dynamiques et l’analyse des dépendances retardées. L’objectif est de caractériser précisément les interactions non linéaires, asymétriques ou à queue lourde qui gouvernent la variabilité des effluents et les capacités énergétiques du système. Le quatrième volet consistera à développer et comparer différents modèles de séries temporelles. Ces modèles incluront des approches statistiques (ARIMAX, modèles structurels), des algorithmes de machine learning (XGBoost, forêts aléatoires temporelles, N-BEATS) ainsi que des architectures profondes interprétables (LSTM avec mécanisme d’attention, Temporal Fusion Transformer). L’évaluation sera réalisée via validation croisée temporelle et critères de robustesse. L’interprétabilité constituera un axe fort, avec l’utilisation de SHAP temporel, de l’Analyse en Composantes Principales Fonctionnelle (FPCA) et de méthodes globales de sensibilité. Au terme du stage, le ou la stagiaire fournira un cadre méthodologique complet comprenant l’harmonisation, la modélisation, l’interprétabilité et la représentation symbolique des données, constituant une base solide pour une poursuite en thèse. Profil du candidat : Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science, statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable. 3 Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des procédés de traitement de l’eau. Les compétences suivantes sont recherchées : — Solides bases en analyse statistique, traitement des données et séries temporelles. — Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou traitement du signal. — Excellente maîtrise de Python, Julia et/ou R. — Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats. — Intérêt fort pour la recherche appliquée et les enjeux environnementaux. Formation et compétences requises : Le stage est destiné à un(e) étudiant(e) de niveau Bac+5 issu(e) d’une formation en data science, statistiques, mathématiques appliquées, disciplines apparentées. Un intérêt marqué pour l’analyse statistique des données, la modélisation temporelle et les méthodes probabilistes est indispensable. 3 Une sensibilité particulière aux problématiques environnementales et aux enjeux de l’assainissement est fortement attendue. Le ou la candidate devra démontrer un goût prononcé pour l’application des méthodes statistiques à des systèmes réels, complexes et faiblement déterministes, typiques des procédés de traitement de l’eau. Les compétences suivantes sont recherchées : — Solides bases en analyse statistique, traitement des données et séries temporelles. — Connaissances appréciées en IA explicable (SHAP, XAI), modèles probabilistes, copules ou traitement du signal. — Excellente maîtrise de Python, Julia et/ou R. — Autonomie scientifique, rigueur dans l’analyse, capacité à documenter et présenter les résultats. — Intérêt fort pour la recherche appliquée et les enjeux environnementaux. Adresse d’emploi : Laboratoire de Génie Chimique – LGC Labège, 4 Allée Emile Monso CAMPUS INP – ENSIACET, 31400 Toulouse Document attaché : 202512031402_Demande_Stage_ANR_FlexMIEE_WP2_fr.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LISIC Durée : 6 mois Contact : matthieu.puigt@univ-littoral.fr Date limite de publication : 2026-02-15 Contexte : Ce stage s’inscrit dans le cadre du projet ANR BLeRIOT. Les avions civils et étatiques sont équipés de deux enregistreurs de vol (aussi connus sous le nom de « boîtes noires »), c.-à-d. le Cockpit Voice Recorder (CVR) et le Flight Data Recorder. En cas d’incident ou d’accident, tous deux doivent être retrouvés et analysés par les autorités compétentes. Le service audio du BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) et RESEDA sont les autorités françaises en charge des analyses des CVR des avions respectivement civils et étatiques. Les CVR sont des équipements renforcés protégeant une information importante pour la détermination des facteurs contributifs à la survenue d’un accident ou d’un incident aérien. Pour cette raison la qualité audio des enregistrements, l’audibilité des alarmes du cockpit et l’intelligibilité des échanges vocaux sont cruciales pour les enquêteurs du BEA et RESEDA. Les contenus des CVR sont alors transcrits par des enquêteurs spécialisés (analystes audio) pour les bénéfices de l’enquête de sécurité. Les limitations de conception des CVR contraignent les constructeurs d’avion à mélanger les sources sonores audibles dans le cockpit et dans les casques des pilotes (émissions et réceptions radio, échanges sur l’intercom, annonces aux passagers, alarmes sonores, etc) en un nombre réduit de canaux audio envoyés vers le CVR, qui en fait une acquisition numérique et protège cette donnée en cas d’accident. Ainsi l’activation simultanée de plusieurs sources sonores peut conduire à une réduction significative de l’intelligibilité des échanges vocaux, voire un masquage complet d’une ou de plusieurs sources audio. L’extraction d’informations dans les données CVR s’appuie sur l’expérience des analystes audio du BEA/RESEDA et sur leur capacité à détecter des sources sonores enfouies dans des mélanges audio difficiles. Dans nos récents travaux, nous avons proposé un modèle de mélange audio dans les CVR par rétro-ingénierie et nous avons montré que les méthodes de la littérature de séparation de sources (SAS) pouvaient être appliquées. La SAS cherche à estimer un ensemble de signaux inconnus à partir de mélanges de ceux-ci, le mélange étant lui-aussi inconnu. Sujet : Dans le cadre du projet ANR BLeRIOT qui finance ce sujet de stage, nous ne souhaitons pas développer des méthodes d’apprentissage profond nécessitant une grande base d’apprentissage. Au contraire, les contraintes des enquêtes de sécurité nous poussent à développer des approches qui soient non ou faiblement supervisées et qui soient interprétables. Les méthodes de factorisation matricielle non-négative (NMF) ont constitué l’état de l’art avant l’apparition du deep learning au début des années 2010, et remplissent les deux critères ci-dessus. Cependant, elles ne fournissent pas toujours de bonnes performances de séparation lorsqu’on les applique à des signaux CVR. Le principe des techniques déroulées ou dépliées permet de transformer des approches classiques itératives en méthodes d’apprentissage profond et permettent un bon compromis entre performance, interprétabilité du modèle et taille de la base d’apprentissage. Ces techniques ont été combinées à la NMF pour un certain nombre d’applications, avec des spécificités propres aux méthodes proposées. Dans le cadre de ce stage, nous proposerons des méthodes de NMF dépliées que nous appliquerons aux données issues de CVR. En particulier, nous avons identifié des cas où le modèle proposé dans n’est plus valide, soit à cause d’effets de saturation des canaux audio dûs au système audio avionique, soit à cause d’effets de codage avec perte dûs à un modèle de CVR particulier. Ces différents effets ont pu être étudiés séparément dans la littérature – par exemple pour le déclippage audio ou pour les effets de codage sur la qualité de séparation – mais jamais à notre connaissance conjointement ni pour les signaux CVR. Un point important du stage consistera à comparer les performances de méthodes classiques ou dépliées de NMF pour de tels scénarios. Profil du candidat : Etudiant en sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées), vous êtes curieux et très à l’aise en programmation (Matlab et/ou Python). Vous lisez et parlez l’anglais courant sans difficulté. Vous êtes capable d’expliquer clairement vos travaux, même à des publics non-experts. Bien que non requis, une première expérience en factorisation matricielle (par exemple, en décomposition matricielle ou tensorielle, en séparation de sources, en apprentissage de dictionnaire) sera appréciée. Les candidats doivent impérativement être de nationalité française ou citoyens d’un état membre de l’Union Européenne, d’un état faisant parti de l’Espace Economique Européen ou de la Confédération Suisse. Formation et compétences requises : Sciences de données (traitement du signal et des images, informatique avec un focus autour de l’intelligence artificielle / apprentissage automatique, mathématiques appliquées) Adresse d’emploi : LISIC, antenne de Longuenesse, Campus de la Malassise, 62219 Longuenesse, France Document attaché : 202512031320_Stage_ANR_BLeRIOT_2026.pdf Feb 28 Sat 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIRIS Durée : 5-6 mois Contact : stefan.duffner@insa-lyon.fr Date limite de publication : 2026-02-28 Contexte : In the field of 2D or 3D region of interest (ROI) delineation in medical imaging, combining segmentations of anatomical structures from different sources proves beneficial. This is particularly relevant given the development of multimodal and multi-parametric imaging acquisition devices. Furthermore, combining multiple expert tracings of the same ROI can be useful for evaluating segmentation methods to estimate a consensus ground truth, thereby accounting for intra- or inter-expert variability. Finally, combining multiple segmentation methods can help improve results and their reproducibility. Thus, even though deep learning segmentation methods offer highly accurate results, it is sometimes necessary to combine several architectures or parameterizations to pool segmentation results and reduce variability. To address these various challenges in segmentation method evaluation and fusion, the CREATIS lab and its collaborators have been developing a method for several years to compute a mutual shape from n masks corresponding to n segmentations of the same region. Within this working group, we initially proposed a variational formulation of the foundational STAPLE algorithm, enabling the evaluation of segmentation methods without a gold standard. The mathematical framework we established, based on domain optimization tools, subsequently allowed us to study different shape metrics, including an original shape metric based on information theory concepts. This metric also proved relevant for the robust fusion of 2D or 3D segmentation methods. Sujet : Based on this mathematical framework we aim for developing a deep learning based model to combine several segmentation maps and compare it with our analytical methods. The aim of this internship is to design a new deep learning architecture similar to N. Courty et al. “Learning Wasserstein Embeddings”. It would be composed of a (convolutional) auto-encoder that is trained to reconstruct segmentation maps combined with a contrastive learning framework to structure the embedding space according to the desired properties of the shape distance (e.g. mutual shape). The advantage of such a model is that it may compute distances between shapes in a Euclidean space (i.e. the distance between the embeddings) and thus more easily compute the final reference shape of the n input segmentation maps by combining the n embeddings and reconstructing the corresponding segmentation map. There are several scientific challenges that need to be addresses, e.g. the way to constrain the latent space according to the target distance measure, the architecture of the neural network and loss function and the way to combine several embeddings. In the first place, we will work with binary segmentation maps and later, potentially, extend the approach to probability maps. An advantage would be that a combination based on probability maps would better incorporate uncertainty and, in theory, lead to a better fused reference shape. In this regard, the intern will collaborate with another intern working on the mathematical aspects of the extension of the existing method (of mutual shape) to probability maps. Profil du candidat : Good skills in python programming and machine learning, in particular deep learning. Scientific curiosity and autonomy. Formation et compétences requises : Student in M2 or engineering school in computer science or applied mathematics. Adresse d’emploi : INSA Lyon 7 Avenue Jean Capelle 69621 Villeurbanne Document attaché : 202511190724_internship_smip_liris_2026.pdf Mar 1 Sun 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : Laboratoire IRISA Durée : 5-6 mois Contact : tristan.allard@irisa.fr Date limite de publication : 2026-03-01 Contexte : Health data, social networks, electricity consumption… Vast quantities of personal data are collected today by private companies or public organizations. Various legal, monetary, or visibility incentives push data holders to envision sharing versions of the collected datasets that provide both statistical utility and privacy guarantees. Indeed, sharing data at large, e.g., as open data, without jeopardizing privacy, is expected to bring strong benefits (strengthening, e.g., scientific studies, innovation, public policies). Synthetic data generation is a promising approach. First, synthetic data generation algorithms aim at generating datasets that are as close as possible to the original datasets. Either synthetically generated data or the generative models trained over the original data could be shared for supporting elaborate data analysis. Second, substantial progress has been made during the last decade about the privacy guarantees of synthetic data generation algorithms. For example, there exist today synthetic data generation algorithms that satisfy variants of differential privacy, one of the most prominent family of privacy models. However, the wealth of generative algorithms, of privacy models and algorithms, and of parameters makes it hard for non expert users to understand clearly the privacy implications of any given choice. Given the growing number of privacy attacks on machine learning models and especially on generative algorithms, an inappropriate choice can result in catastrophic consequences. Sujet : The main goal of this M2 thesis is to design an efficient approach for allowing a data holder to compute the most relevant privacy attacks given the data holder’s choice. The main tasks of the Master student will be to: • Study the state-of-the-art about privacy attacks (e.g., membership inference attacks [2, 4, 5]). We will focus on tabular data. • Formalize the attackers (e.g., adversarial goals, background knowledge, impacts and costs of the attacks, vulnerable algorithms), structure the space of attackers (e.g., generalization/specialization of attackers, implications), and explore efficiently the resulting space for finding the attacks that best illustrate the privacy risks. • Implement the approach and evaluate its performance. In addition to the core tasks of the project, the successful candidate will also contribute to the organisation of competitions where the privacy guarantees of synthetic data generation algorithms are challenged. Profil du candidat : • The candidate must be in the second year of a master’s degree, or equivalent, in computer science or in a related field. • The candidate must be curious, autonomous, and rigorous. • The candidate must be able to communicate in English (oral and written). The knowledge of the French language is not required. • The candidate must have a strong interest in cybersecurity. • Skills in machine learning will be appreciated. Formation et compétences requises : Adresse d’emploi : Campus de Beaulieu IRISA/Inria Rennes 263 avenue du Général Leclerc 35042 RENNES cedex Document attaché : 202511171626_m2-attacks-25_26.pdf Apr 29 Wed 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : institut Fresnel Durée : 4 à 6 mois Contact : andre@fresnel.fr Date limite de publication : 2026-04-29 Contexte : Sujet : See attached file Profil du candidat : Formation et compétences requises : Adresse d’emploi : 52 Av. Escadrille Normandie Niemen, 13013 Marseille Document attaché : 202509111720_sujet stage MRI CS.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : institut Fresnel Durée : 4 à 6 mois Contact : andre@fresnel.fr Date limite de publication : 2026-04-29 Contexte : Sujet : please see the attached file Profil du candidat : Formation et compétences requises : Adresse d’emploi : 52 Av. Escadrille Normandie Niemen, 13013 Marseille Document attaché : 202509111718_sujet stage SRH.pdf Apr 30 Thu 2026 Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIP6, Sorbonne University Durée : 5-6 months Contact : rafael.angarita@lip6.fr Date limite de publication : 2026-04-30 Contexte : Sujet : Participatory democracy platforms (Make, Decidim, Cap Collectif, Consul) enable thousands of citizens to propose and discuss ideas for public policies. However, the large volume of textual contributions produces severe information overload: citizens struggle to identify similar or opposing proposals, while decision-makers face difficulty in detecting consensus or disagreement. Recent research at LIP6 has shown that Natural Language Processing (NLP) can detect argumentative relations between citizen proposals (equivalence, contradiction, neutrality). These relations can be structured into argumentative graphs, which help organize debates and improve navigation within large participatory datasets. This internship aims to extend these ideas using Graph Retrieval-Augmented Generation (Graph-RAG). By combining graph-based retrieval with language generation, the project seeks to build intelligent tools capable of summarizing debates, identifying conflicting or redundant proposals, and assisting citizens in writing balanced contributions. Profil du candidat : Master 2 / Final-year engineering Formation et compétences requises : – Programming: Python, PyTorch or TensorFlow – NLP / ML: Experience with large language models, embeddings, or NLP tasks – Data Science: Text preprocessing, vector representations, evaluation metrics – Research: Ability to conduct literature reviews, design small experiments, and analyze results – Participatory democracy: Interest in participatory democracy or computational argumentation Adresse d’emploi : Sorbonne University, 4 place Jussieu 75005 Paris. Document attaché : 202511121059_Stage_LIP6_2025_2026.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIPADE Durée : 6 months Contact : ayoub.karine@u-paris.fr Date limite de publication : 2026-04-30 Contexte : The performance of supervised deep learning methods in computer vision heavily depends on the availability of labeled data, whose annotation is both time-consuming and requires expert knowledge. To overcome this limitation, Self-Supervised Learning (SSL) has emerged as a promising alternative to address the challenge of limited annotations. In this paradigm, models learn from unlabeled data by generating their own supervisory signals. The resulting pre- trained models can then be fine-tuned on various downstream tasks such as image classification, object detection, and semantic segmentation. However, achieving performance comparable to supervised learning often requires large-scale datasets and high training costs, which significantly increase computational and storage demands. This internship aims to alleviate these constraints by exploring data distillation techniques to make SSL training more efficient. Sujet : Dataset Distillation (DD) [1] aims to condense a large-scale training dataset into a much smaller synthetic one such that models trained on the distilled data achieve performance comparable to those trained on the original dataset (see figure 1). Most existing DD methods are designed for efficient supervised learning and can be broadly classified into three main categories [2] : (1) Performance Matching, which minimizes the loss on the synthetic dataset by aligning the performance of models trained on real and synthetic data, (2) Parameter Matching, which trains two neural networks respectively on real and synthetic data and encourages similarity in their parameters and (3) Distribution Matching, which generates synthetic data that closely mimics the distribution of the original dataset. In this internship, we will focus on the Parameter Matching approach. Building upon the work of Cazenavette et al. [3], the authors of [4] extended this concept to SSL using knowledge distillation [5, 6, 7], particularly employing SSL methods such as Barlow Twins and SimCLR. In the same vein, this internship will explore the DINO (self-DIstillation with NO labels, MetaAI) SSL method [8], which naturally produces teacher–student parameter trajectories that can be leveraged for Parameter Matching. The different steps of the internship are : ▷ Step 1 – Literature review : Review recent dataset distillation methods applied to computer vision, with a focus on parameter matching and SSL-based approaches. ▷ Step 2 – Trajectory Observation : Analyze and visualize the teacher–student parameter trajectories generated by DINO during SSL training. ▷ Step 3 – Integration into Data Distillation Frameworks : Design a trajectory matching loss based on DINO’s teacher–student dynamics and train a student model on synthetic data guided by these trajectories. ▷ Step 4 – Test on down-stream computer vision tasks : Assess the effectiveness of the proposed approach on tasks such as image classification – Bibliography [1] Tongzhou Wang et al. “Dataset distillation”. In : arXiv preprint arXiv :1811.10959 (2018). [2] Ruonan Yu, Songhua Liu et Xinchao Wang. “Dataset distillation : A comprehensive review”. In : IEEE transactions on pattern analysis and machine intelligence 46.1 (2023), p. 150-170. [3] George Cazenavette et al. “Dataset distillation by matching training trajectories”. In : Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022, p. 4750-4759. [4] Siddharth Joshi, Jiayi Ni et Baharan Mirzasoleiman. “Dataset Distillation via Knowledge Distillation : Towards Efficient Self-Supervised Pre-training of Deep Networks”. In : The Thirteenth International Conference on Learning Representations. 2025. url : https://openreview.net/forum?id=c61unr33XA. [5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015). [6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocomputing 649 (oct. 2025), p. 130791. url : https://hal.science/hal-05144692. [7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition Letters 180 (avr. 2024), p. 48-54. url : https://hal.science/hal-04488459. [8] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025) Profil du candidat : The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient machine/deep learning. Formation et compétences requises : Master 2 student or final year of MSc, or engineering school in computer science. Adresse d’emploi : 45 rue des Saints-Pères, 75006, Paris Document attaché : 202511111324_2025_Internship_DD_SSL.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LISTIC Durée : 4-6 mois Contact : christophe.lin-kwong-chon@univ-smb.fr Date limite de publication : 2026-04-30 Contexte : Sujet : Interprétabilité en IA des séries temporelles radar (descriptions détaillées dans la fiche attachée) Profil du candidat : Des compétences en machine learning sont attendues. Le stage portera exclusivement sur la programmation en Python. Une expérience en télédétection radar, géophysique des volcans ou en explicabilité/interprétabilité de l’IA serait un atout. Formation et compétences requises : Adresse d’emploi : LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux Document attaché : 202510060816_Sujet – Interprétabilité en IA des séries temporelles radar.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIPADE Durée : 6 months Contact : ayoub.karine@u-paris.fr Date limite de publication : 2026-04-30 Contexte : Recently, several Large Vision Foundation Models (LVFMs) have been proposed in the literature [1]. They are trained through a Self-Supervised Learning (SSL) paradigm on large-scale unlabeled datasets and evaluated on small labeled datasets (fine-tuning). These models have achieved state-of-the-art performance across a wide range of downstream computer vision tasks, including both non-dense tasks (e.g., image classification, image retrieval) and dense tasks (e.g., semantic segmentation, object detection). However, the growing size and computational demands of the LVFMs significantly constrain their applicability in resource-limited devices (e.g., drone, smarphone). For instance, CLIP (Contrastive Language–Image Pretraining, OpenAI) [2] comprises up to 0.4 billion parameters, DINOv3 (self- DIstillation with NO labels, MetaAI) [3] includes models with up to 7 billion parameters, and the SAM 2 (Segment Anything Model, Meta AI) [4] exceeds 224 million parameters. To reduce the computational demands of such massive architectures, this internship will focus on investigating knowledge distillation techniques. Sujet : The knowledge distillation (KD) technique [5, 6, 7] transfers knowledge from a powerful teacher network to a smaller student model, enabling the student to achieve significantly improved performance with lower computational cost. In this process, the student is trained on the same dataset as the teacher, allowing it to directly leverage the teacher’s learned representations. However, directly applying KD to LVFMs presents several challenges. First, the most performant LVFMs are developed by large tech companies, and their training datasets are often not publicly available. Second, these LVFMs typically employ Vision Transformer (ViT) architectures [8] as encoders, whereas convolutional neural networks (CNNs) are generally lighter and more computationally efficient, making them strong candidates for student models on edge devices. Third, there are significant discrepancies in capacity between LVFMs and smaller edge models. The latter two challenges are partially addressed by Lee et al. [9], who propose a method to customize the well-generalized features of LVFMs for a given student model. Despite promising results, this work does not thoroughly address the issues of unavailable source datasets and cross-architecture knowledge transfer. Additionally, only the image classification task is considered. In this internship, we aim to tackle these challenges by investigating state-of-the-art methods for cross-architecture KD [10], data-free KD [11] and adaptive KD [12]. As illustrated in figure 1, we will focus on two dense down-stream tasks : semantic segmentation and object detection. The different steps of the internship are : ▷ Step 1 – Literature review on KD from foundation models ▷ Step 2 – Compare different methods of cross-architecture KD, data-free KD and adaptive KD : The teacher will be a LVFM such as CLIP, DINOv3 and SAM2. The student encoder should be a CNN one like ResNet18. ▷ Step 3 – Test the student model on different semantic segmentation and object detection datasets : A comparison is to be done with classical KD methods dedicated to dense prediction. – Bibliography [1] Muhammad Awais et al. “Foundation models defining a new era in vision : a survey and outlook”. In : IEEE Transactions on Pattern Analysis and Machine Intelligence (2025). [2] Alec Radford et al. “Learning transferable visual models from natural language supervision”. In : International conference on machine learning. PmLR. 2021, p. 8748-8763. [3] Oriane Siméoni et al. “Dinov3”. In : arXiv preprint arXiv :2508.10104 (2025). [4] Nikhila Ravi et al. “Sam 2 : Segment anything in images and videos”. In : arXiv preprint arXiv :2408.00714 (2024) [5] Geoffrey Hinton, Oriol Vinyals et Jeff Dean. “Distilling the knowledge in a neural network”. In : arXiv preprint arXiv :1503.02531 (2015). [6] Ayoub Karine, Thibault Napoléon et Maher Jridi. “I2CKD : Intra- and inter-class knowledge distillation for semantic segmentation”. In : Neurocom- puting 649 (oct. 2025), p. 130791. doi : 10.1016/j.neucom.2025.130791. url : https://hal.science/hal-05144692. [7] Ayoub Karine, Thibault Napoléon et Maher Jridi. “Channel-spatial knowledge distillation for efficient semantic segmentation”. In : Pattern Recognition Letters 180 (avr. 2024), p. 48-54. doi : 10.1016/j.patrec.2024.02.027. url : https://hal.science/hal-04488459. [8] Alexey Dosovitskiy et al. “An Image is Worth 16×16 Words : Transformers for Image Recognition at Scale”. In : International Conference on Learning Representations. 2021. url : https://openreview.net/forum?id=YicbFdNTTy. [9] Jungsoo Lee et al. “Customkd : Customizing large vision foundation for edge model improvement via knowledge distillation”. In : Proceedings of the Computer Vision and Pattern Recognition Conference. 2025, p. 25176-25186. [10] Weijia Zhang et al. “Cross-Architecture Distillation Made Simple with Redundancy Suppression”. In : Proceedings of the IEEE/CVF International Confe- rence on Computer Vision. 2025, p. 23256-23266. [11] Qianlong Xiang et al. “Dkdm : Data-free knowledge distillation for diffusion models with any architecture”. In : Proceedings of the Computer Vision and Pattern Recognition Conference. 2025, p. 2955-2965. [12] Yichen Zhu et Yi Wang. “Student customized knowledge distillation : Bridging the gap between student and teacher”. In : Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021, p. 5057-5066. Profil du candidat : The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in efficient deep learning. Formation et compétences requises : Master 2 student or final year of MSc, or engineering school in computer science Adresse d’emploi : 45 rue des Saints-Pères, 75006, Paris Document attaché : 202511111320_2025_Internship_KD_LVFM.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LISTIC Durée : 4-6 mois Contact : argheesh.bhanot@univ-smb.fr Date limite de publication : 2026-04-30 Contexte : Sujet : En sciences naturelles, la modélisation des phénomènes physiques constitue toujours un sujet difficile. Les formules existantes ne suffisent parfois pas à représenter adéquatement les mécanismes complexes, notamment ceux qui ne sont pas directement observables. Il arrive également que ces formules ne correspondent pas parfaitement aux observations issues des données. Ces problèmes ont, par exemple, été rencontrés dans le suivi de la concentration des polluants, l’étalement de la végétation ou encore les coulées de lave. Dans ce projet, nous nous concentrons sur la modélisation volcanique. En volcanologie, par exemple, les scientifiques disposent de mesures de déplacements en surface, obtenues grâce à l’imagerie SAR, induits par une source volcanique en profondeur, et utilisent ces mesures pour estimer les paramètres physiques d’un modèle volcanique. Dans un premier temps, nous sommes partis d’un modèle simple sous forme d’une expression analytique : le modèle Mogi. Dans ce modèle, deux paramètres clés, la variation du volume et la profondeur de la chambre magmatique ont été modifiés pour générer des données synthétiques. En utilisant la régression symbolique, nous avons exploré des expressions mathématiques directement à partir des données. La pertinence de l’approche et la sensibilité de la modélisation à la variété de l’activité volcanique, sur des données synthétiques et des sites volcaniques réels, ont été mesurées et comparées au modèle Mogi original. L’approche fonctionne bien jusqu’à un certain niveau de bruit, notamment sur les données synthétiques. L’objectif du stage consiste à utiliser les méthodes de régression symbolique pour affiner le modèle Mogi, car il reste une vision simplifiée de la physique sous-jacente. Des travaux supplémentaires sont encore nécessaires pour améliorer les résultats sur les données réelles en proposant des nouvelles techniques en régression symbolique. En s’appuyant sur des travaux d’IA classique développés au laboratoire sur l’inversion de modèles géophysiques, trois types de données sont disponibles pour créer un cadre expérimental et de validation : 1) des déplacements simulés à partir du modèle Mogi ; 2) des déplacements simulés avec un bruit ajouté ; 3) des déplacements réels sur des volcans africains. Selon l’avancement du projet, cette étude pourra être étendue à un modèle volcanique plus sophistiqué, par exemple le modèle Okada, qui décrit le mécanisme de fonctionnement d’un volcan à l’aide d’un plus grand nombre de paramètres et s’appuie sur des équations différentielles. Le stagiaire appuiera entre autres sur les articles suivants : – Cranmer, M. (2023). Interpretable machine learning for science with PySR and SymbolicRegression. jl. arXiv preprint arXiv:2305.01582. – Tenachi, W., et al. (2023). Physical Symbolic Optimization. arXiv preprint arXiv:2312.03612. – Albino, F., & Biggs, J. (2021). Magmatic processes in the East African Rift system: insights from a 2015– 2020 Sentinel‐1 InSAR survey. Geochemistry, Geophysics, Geosystems, 22(3), e2020GC009488. – Dzurisin, D. (2007), Volcano Deformation: Geodetic Monitoring Techniques. Mogi, K. (1958), Bull. Earthq. Inst. U. Tokyo, 36, 99‐134 Delaney, P., McTigue, D. (1994) Bull. Volcanology, 56 417‐42 – Lopez-Uroz L, Yan Y., Benoit A., Albino F., Bouygues P., Giffard-Roisin S., Pinel V., Exploring Deep Learning for Volcanic Source Inversion, IEEE Transactions on Geosciences & Remote Sensing. – Petersen, B. K., et al. (2019). Deep symbolic regression: Recovering mathematical expressions from data via risk-seeking policy gradients. arXiv preprint arXiv:1912.04871. Profil du candidat : Formation et compétences requises : Adresse d’emploi : LISTIC, 5 chemin de bellevue, 74944, Annecy le Vieux, France. Document attaché : 202510221322_stage_regressionsymbolique_2026.pdf Offre en lien avec l’Action/le Réseau : – — –/– — – Laboratoire/Entreprise : LIPADE & APC Durée : 6 mois Contact : ayoub.karine@u-paris.fr Date limite de publication : 2026-04-30 Contexte : Sujet : Deep Learning techniques have revolutionized artificial intelligence. Their application to astrophysics and cosmology permits us to analyze the large quantity of data obtained with current surveys and expected from future surveys with the aim of improving our understanding of the cosmological model. The internship is in the context of the data acquired by Vera Rubin Observatory (https://www.lsst.org/about) LLST (Legacy Survey of Space and Time), in particular in the context of the Dark Energy (DESC) and Galaxies Rubin Science Collaborations (https://rubinobservatory.org/for-scientists/science-collaborations), and of the Euclid space mission (https://sci.esa.int/web/euclid). Galaxy clusters are powerful probes for cosmological models. LSST and Euclid will reach unprecedented depths and, thus, they require highly complete and pure cluster catalogs, with a well-defined selection function. In this internship, we will focus on analysing astronomical images through deep learning. Our team have developed a new cluster detection algorithm named YOLO for CLuster detection (YOLO-CL), which is a modified version of the state-of-the-art object detection deep convolutional network named You only look once (YOLO) that has been optimized for the detection of galaxy clusters [1,2]. The YOLO approach is a convolution-based method that primarily captures local features. In this internship, we aim to investigate transformer-based methods to model global relationships across entire astronomical images. These models are capable of capturing spatial and contextual interactions between multiple objects, which is expected to enhance detection performance compared to YOLO in our target application. In this context, we focus on the Detection Transformer (DETR) framework [3], an end-to-end architecture that employs a transformer encoder–decoder network. – Bibliography [1] Grishin, Kirill, Simona Mei, and Stéphane Ilić. “YOLO–CL: Galaxy cluster detection in the SDSS with deep machine learning.” Astronomy & Astrophysics 677 (2023): A101. [2] Grishin, Kirill, Simona Mei, Stephane Ilic, Michel Aguena, Dominique Boutigny, and Marie Paturel. “YOLO-CL cluster detection in the Rubin/LSST DC2 simulations.” Astronomy & Astrophysics 695 (2025): A246. [3] Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. “End-to-end object detection with transformers.” In European conference on computer vision, pp. 213-229. Cham: Springer International Publishing, 2020. Profil du candidat : The ideal candidate should have knowledge in deep learning, computer vision, Python programming and an interest in handling astronomical images. We have already obtained funding for the internship for 3-6 months. Formation et compétences requises : Master 2 or final year of MSc, or engineering school students in computer science. Adresse d’emploi : 10 rue A.Domon et Léonie Duquet, 75205 Paris and/or 45 rue des Saints-Pères, 75006, Paris Document attaché : 202511111316_2025_Internship_Transformer-ClusterDetection.pdf
|