
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIT (Toulouse)
Durée : 5 to 6 months
Contact : henrique.goulart@irit.fr
Date limite de publication : 2025-11-16
Contexte :
Sujet :
We are seeking candidates for a 5- to 6-month internship on the analysis and improvement of estimators of low-rank tensor models, with the possibility of a PhD thesis afterwards (a PhD funding is secured). This subject is situated at the interface between mathematics and computer science, having applications in several domains, notably in data science and machine learning.
A detailed description can be found at: https://cloud.irit.fr/s/hZnoJgiopaqMkdV
Profil du candidat :
M2 student strongly motivated by mathematics and its application to statistical inference and machine learning. Prior knowledge on tensor algebra and on random matrix theory are a strong plus. Good communication skills (both oral and written) in English are required, notably for reading, writing and presenting scientific papers.
Formation et compétences requises :
Adresse d’emploi :
IRIT (Institut de Recherche en Informatique de Toulouse), site ENSEEIHT (2 rue Charles Camichel, Toulouse).
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 4 à 6 mois
Contact : tchernia@iap.fr
Date limite de publication : 2025-11-21
Contexte :
La modélisation et la compréhension de l’histoire de l’Univers, depuis le Big Bang jusqu’à aujourd’hui, reposent sur l’évaluation de nos modèles
cosmologiques à partir des grands relevés astronomiques (Euclid, DESI…). L’un des objectifs est de simuler la formation des grandes structures afin d’évaluer la robustesse des modèles cosmologiques vis-à-vis des observations. L’Institut d’Astrophysique de Paris (IAP), une Unité Mixte de Recherche (UMR) de Sorbonne Université et du Centre National de la Recherche Scientifique (CNRS), est impliqué dans cette activité. En son sein, l’équipe « Grandes structures et Univers profond » à laquelle le.la stagiaire sera affecté.e a développé le code Simbelmynë, qui permet de :
1. Calculer l’évolution de la répartition de matière noire en résolvant les
équations du mouvement de la gravité à l’échelle de l’univers observable
(problème à N corps),
2. En déduire une répartition des galaxies dans le ciel,
3. Produire des relevés cosmologiques simulés.
Cette chaîne de simulation est appelée à être lancée un très grand nombre de fois pour des paramètres d’entrée variés. C’est pourquoi le respect des contraintes du calcul haute performance (HPC) et la parallélisation des tâches sont des enjeux clés de ce code. Grâce à l’approche sCOLA qui divise la portion d’univers à simuler en morceaux indépendants, il est possible d’adopter une approche hybride entre calculs à mémoire distribuée et à mémoire partagée. Nous souhaitons aujourd’hui le rendre portable sur plusieurs architectures cibles (CPU et GPU).
Pour plus de détails sur le contexte scientifique, voici un article de vulgarisation traitant de ce sujet : https://theconversation.com/vers-une-simulation-de-lunivers-sur-un-telephone-portable-137421
Sujet :
La.le stagiaire participera au portage de C vers C++ du code Simbelmÿne ainsi qu’au développement de codes de calcul parallèle utilisant des CPU et GPUs. Il/elle se formera au framework Kokkos et l’utilisera afin de produire un code générique compatible avec toutes les architectures cibles. Il/elle mettra ces codes en œuvre à l’aide du cluster de calcul du laboratoire, mettant à disposition CPUs et GPUs. Il/elle travaillera en équipe et versionnera son code à l’aide de Git et produira les tests unitaires et benchmarks garantissant la qualité, la performance et la robustesse de son code.
Profil du candidat :
Nous recherchons un.e stagiaire de six mois en fin d’études ou césure, en école d’ingénieurs ou master, avec une spécialisation en informatique et si possible en calcul scientifique/HPC.
Formation et compétences requises :
– Maîtrise du langage de programmation C++, connaissance de python
– Savoir adopter une méthodologie de développement collaboratif (Git,
tests unitaires…)
– Connaître les enjeux de la programmation HPC, notamment la
parallélisation des tâches (multithreading, multiprocessing).
– Notions de mathématiques appliquées (Transformées de Fourier,
Équations aux dérivées partielles…)
– Anglais courant (réunions en anglais)
– Une formation en physique serait un plus.
Adresse d’emploi :
98 bis boulevard Arago, 75014 Paris
Document attaché : 202510231604_Fiche de stage HPC Cosmologie.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : (UR 4108 / FR CNRS 3638)
Durée : 6 mois
Contact : asma.dhaouadi@insa-rouen.fr
Date limite de publication : 2026-02-27
Contexte :
Facility Management (FM) encompasses all activities aimed at improving the efficiency of the working
environment (building management, energy consumption, employee comfort, safety, etc.). These practices
directly influence a company’s economic, environmental, and societal performance [1, 2]. However, the
relationships between these indicators are complex, often implicit, and rarely described in clear quantitative
terms. In addition, company executives need to identify these relationships and their influence on
the overall work environment.
The emergence of Large Language Models (LLMs) and qualitative reasoning approaches (qualitative
influence diagrams, fuzzy logic, Bayesian networks) paves the way for more detailed modeling of dependencies
between indicators, facilitating analysis and strategic decision-making.
Sujet :
Goals
• Automatic extraction of indicators from Quality of Life and Working Conditions (QLWC) documents
(scientific publications, reports, CSR documents, audits).
• Identification of qualitative relationships of influence between these indicators using LLM (e.g.,
“better air quality improves employee productivity”).
• Construction of an influence graph representing these relationships in the form of Qualitative Influence
Diagrams (QID) [3], using two different approaches :
• Fuzzy Logic [4]
• Bayesian Networks [5]
• Analysis of the graph to detect key indicators (those that strongly influence others) and their
influences linking FM practices to overall performance (economic, environmental, societal).
• Prototype decision-making tool for visualizing these graphs and simulating the impact of a change
in indicators.
Bibliography
1. AFNOR, “NF EN 15221-1 : Facility Management — Part 1 : Terms and Definitions,” French Standard,
Association Française de Normalisation, Dec. 2006. Withdrawn on Jul. 13, 2018.
2. Mouvement des Entreprises de France (MEDEF), “GUIDE RSE – Introduction à la Qualité de Vie
et des Conditions de Travail (QVCT),” Paris, France : MEDEF, 2023.
3. Renooij, S., & van der Gaag, L. C. (1998, May). Decision Making in Qualitative Influence Diagrams.
In FLAIRS (pp. 410-414).
4. Klir, G. J., & Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic : Theory and Applications. Prentice
Hall.
5. Koller, D., & Friedman, N. (2009). Probabilistic Graphical Models : Principles and Techniques.
MIT Press.
Profil du candidat :
Expected Skills
• Good knowledge of Python 3 and interest in LLMs.
• Basics of Semantic Web (ontologies, RDF, OWL, SPARQL).
• Interest in fuzzy set theory and probabilistic reasoning.
• Strong motivation for collaboration and teamwork.
Formation et compétences requises :
Adresse d’emploi :
INSA Rouen Normandie
Equipe MIND – LITIS (UR 4108 / FR CNRS 3638)
Avenue de l’Université, BP 8, 76801 Saint-Étienne-du-Rouvray cedex, France
Document attaché : 202511201327_2026_stage.pdf
Offre en lien avec l’Action/le Réseau : SaD-2HN/– — –
Laboratoire/Entreprise : Centre de Recherches Historiques (UMR 8558 : EHESS
Durée : 6 mois
Contact : bertrand.dumenieu@ehess.fr
Date limite de publication : 2025-11-26
Contexte :
Le musée Carnavalet – Histoire de Paris et les bibliothèques spécialisées de la ville de Paris conservent d’importantes collections d’éphémères. Il s’agit de documents de la vie quotidienne produits par des commerces, des associations ou des particuliers, qui deviennent très rapidement obsolètes : faire-parts, menus, cartes postales, affiches, prospectus, buvards publicitaires, dépliants touristiques, catalogues de vente, programmes de théâtre, images pieuses, sous-bocks, papiers de fruits, etc. La figure 1 présente un exemple d’affiches et de prospectus créés entre 1873 et 1888 et conservés au musée Carnavalet – Histoire de Paris. Chaque éphémère est indexé par des métadonnées récoltées par le musée, décrivant les acteurs de sa production (artiste dessinateur, imprimeur) et les techniques et matériaux mobilisés. Ces informations permettent quelques analyses explicatives sur la chaîne de création, d’impression et de diffusion de ces éphémères, mais qui restent limitées faute de connaissances suffisantes sur les réseaux professionnels des commerçants, artistes et artisans qui y contribuent.
Pour peu qu’ils exercent à Paris, ces professionnels ont de bonnes chances d’être recensés dans les annuaires commerciaux de la ville (voir figure 2). Ancêtres des « Pages Jaunes », ces ouvrages compilent, classent, datent et localisent les commerçants, artisans et notables parisiens au sein de longues listes nominatives. Celles de la majorité des annuaires édités entre 1797 et 1914 ont été extraites et transformées en une base de données géographique sérielle durant un précédent projet de recherche. Il est désormais possible d’exploiter les 22 millions d’entrées contenues de cette base pour tenter d’identifier les acteurs de la production d’éphémères et les lier aux collections du musée Carnavalet.
Sujet :
Le premier objectif de ce stage est donc de croiser les métadonnées des éphémères avec la base des annuaires du commerce parisien au XIXe siècle pour y retrouver les commerçants et artisans ayant concouru à la production des éphémères du musée. Le second objectif consistera à proposer une méthodologie d’analyse de ces métadonnées enrichies pour comprendre comment la création, l’impression et la diffusion des éphémères s’organisait, selon les commanditaires, les imprimeurs ou les types de supports. On pourra, par exemple, étudier l’éventuelle spécialisation des artistes, des imprimeurs, des rues ou des quartiers dans certains types de production ou bien les critères de choix des artistes ou des imprimeurs par les commanditaires : proximité spatiale, recommandation professionnelle, renommée, etc.
La première difficulté de ce travail réside dans la création et le peuplement du graphe de connaissances initial à partir des deux sources de données hétérogènes, incomplètes, bruitées, spatiales et temporelles que sont la base des annuaires et les métadonnées des éphémères. Il s’agira donc de proposer une ontologie, guidée par les hypothèses d’analyse des historiens de l’art concernant les réseaux professionnels potentiels des commerçants, artistes et imprimeurs impliqués dans la création des éphémères. Celle-ci devra ensuite être peuplée à partir des données disponibles, ce qui nécessitera un travail de désambiguïsation des commerçants, artistes et imprimeurs.
La seconde difficulté sera de proposer une méthodologie d’analyse spatio-temporelle permettant de comprendre le mode de constitution des réseaux professionnels à l’œuvre et leurs dynamiques au cours de la période étudiée.
Profil du candidat :
Master 2 ou équivalent en humanités numériques, sciences de l’information géographique ou informatique.
Le ou la candidat.e doit être un.e étudiant.e inscrit.e dans une université francilienne.
Formation et compétences requises :
– Analyse de données : connaissances pratiques et théoriques en analyse spatiale.
– Web de données : expérience en manipulation de graphes de connaissances, connaissance du liage de données, notions de conception d’ontologies.
– Sciences de l’information géographique : maîtrise opérationnelle de QGIS, connaissance de PostGIS, notions en scripting Python pour les SIG.
– Un goût pour l’histoire urbaine ou l’histoire de l’art est un atout.
Adresse d’emploi :
Centre de recherches historiques (UMR 8558 EHESS – CNRS), 54 boulevard Raspail, 75006 Paris
Document attaché : 202510211306_StageEphemeres&Annuaires.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire des 2 Infinis – Toulouse
Durée : Flexible
Contact : catherine.biscarat@l2it.in2p3.fr
Date limite de publication : 2025-12-02
Contexte :
Le Laboratoire des 2 Infinis – Toulouse (L2IT) est une unité mixte de recherche (UMR) du CNRS et de l’Université de Toulouse, jeune et dynamique, née en janvier 2020. Les objets d’étude des chercheurs et des ingénieurs du L2IT sont les deux infinis – l’infiniment petit et l’infiniment grand – et les relations entre les phénomènes qui régissent chacun d’entre eux. Le laboratoire est organisé en quatre équipes “Calcul, Analyse et Données”, “Physique Nucléaire”, “Physique des particules” et “Ondes Gravitationnelles”. Nous poursuivons nos recherches au sein de collaborations internationales. Nous sommes actuellement 32 membres, dont 15 permanents qui mettent en place les équipes de recherche.
La spécificité du L2IT est son accent sur les méthodes numériques de pointe (IA, calcul HPC, ingénierie logicielle, expertise CUDA) qui accompagnent les travaux d’analyse de données, de modélisation, simulation, et de développements théoriques. Le L2IT est implanté sur un campus dynamique qui regroupe facultés, écoles et laboratoires.
Sujet :
Trois sujets de stage sont actuellement proposés. Ils sont à l’intersection entre l’IA et nos domaines de recherche en physique fondamentale (physique des particules, cosmologie, ondes gravitationnelles). Pour les détails des sujets, veuillez vous référer à notre site internet : https://www.l2it.in2p3.fr/en/emplois-et-stages/internships-2026/
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Laboratoire des 2 Infinis – Toulouse, Maison de la Recherche et de la Valorisation, 75 cours des Sciences, 31400 Toulouse, France
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : Institut de Science des Données de Montpellier / C
Durée : 5-6 mois
Contact : gino.frazzoli@umontpellier.fr
Date limite de publication : 2025-12-10
Contexte :
Le sommeil, bien que d’apparence triviale, constitue un état biologique complexe, difficile à quantifier sans recourir à une approche multimodale intégrant notamment l’enregistrement de l’activité cérébrale (EEG). Cette contrainte technologique rend l’étude du sommeil exigeante en conditions naturelles. Comprendre comment les animaux dorment dans leur environnement, en particulier dans un cadre social, représente ainsi un défi majeur. Chez les espèces grégaires comme le babouin, le sommeil ne se résume pas à un phénomène individuel : il s’organise dans un contexte collectif, influencé par les interactions sociales, la hiérarchie et la vigilance partagée. Le projet ERC COSLEEP (dirigé par Meg Crofoot, Max Planck Institute of Animal Behavior) s’attache à explorer cette dimension sociale du sommeil en conditions écologiques réelles, grâce à des suivis simultanés du comportement, de la position et de l’activité physiologique d’individus vivant à l’état sauvage. Le stage proposé s’inscrit dans cette collaboration entre le Centre d’Écologie Fonctionnelle et Évolutive (CEFE), l’Institut de Science des Données et le Max Planck Institute, et portera sur l’analyse de données de sommeil (activité cérébrale, musculaire, oculaire, accéléromètre et vidéo) afin de caractériser la structure et la qualité du sommeil dans un contexte social et écologique réel, et de développer un modèle prédictif fiable basé sur les signaux accélérométriques.
Sujet :
Le stage aura pour objectif de contribuer à la mise au point d’outils d’analyse automatisée du sommeil chez le babouin à partir de séries temporelles multimodales. Dans un premier temps, le ou la stagiaire évaluera la cohérence du scorage manuel du sommeil réalisé par plusieurs spécialistes à partir d’enregistrements physiologiques (EEG, EMG, EOG, accéléromètre, vidéo), afin de quantifier le niveau d’accord inter-experts et d’établir une base de données de référence. Dans un second temps, il s’agira de tester et d’adapter des modèles d’apprentissage automatique existants (tels que Somnotate ou USleep) pour obtenir un algorithme de scorage automatique capable de s’ajuster aux caractéristiques propres aux signaux enregistrés chez le babouin. Enfin, le stage visera à développer un modèle prédictif du sommeil à partir des signaux d’accéléromètre seuls, en s’appuyant sur les labels dérivés de l’activité cérébrale. Ce modèle permettra à terme d’estimer les phases et sous-états du sommeil à partir de capteurs portés sur collier, ouvrant la voie à une analyse non invasive du sommeil en milieu naturel.
Profil du candidat :
Le ou la candidat(e) devra posséder une formation en analyse de données expérimentales, data science, ou domaine connexe avec une appétence pour les neurosciences, sciences cognitives, bio-informatique, ou l’écophysiologie. Une bonne familiarité avec le traitement de signaux temporels, des compétences en programmation (Python, Matlab ou R) et des compétences en méthodes d’apprentissage automatique (réseaux de neurones, classification supervisée et modèles de deep learning) seraient un atout majeur.
Le ou la stagiaire devra faire preuve de rigueur, d’autonomie et de curiosité scientifique, ainsi que d’un goût marqué pour l’analyse de données et le travail interdisciplinaire, à l’interface entre neurosciences, écologie comportementale et science des données. Une aisance en anglais scientifique (lecture et échanges techniques) sera également souhaitée.
Formation et compétences requises :
• Maîtrise de Python (NumPy, Pandas, Scikit-learn, PyTorch). Des notions en Matlab sont appréciées.
• Connaissances en statistiques, apprentissage automatique et deep learning.
• Intérêt pour les méthodes utilisées dans les modèles de scorage automatique du sommeil :
o USleep : réseau profond combinant CNN inspiré de U-net pour la classification EEG/EMG. https://www.nature.com/articles/s41746-021-00440-5
o Somnotate : approche probabiliste (HMM + LDA) intégrant la dynamique temporelle du sommeil. https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1011793
• Intérêt à développer des compétences en analyse de signaux physiologiques (EEG, EMG, EOG, accélérométrie).
• Notions en validation de modèles et évaluation inter-experts (Kappa, ICC, …).
• Rigueur, autonomie, et intérêt pour les approches interdisciplinaires (neurosciences, écologie, data science).
• Bon niveau d’anglais scientifique (lecture et communication).
Adresse d’emploi :
Case courrier, 13004 Pl. Eugène Bataillon Bât. 4, 34095 Montpellier Cedex 5
Document attaché : 202511030916_Analyse_donnees_physiologiques_babouins_CEFE_ISDM_Montpellier.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : BRGM
Durée : 6 mois
Contact : c.gracianne@brgm.fr
Date limite de publication : 2025-12-15
Contexte :
Rejoindre le Bureau de Recherches Géologiques et Minières (BRGM), c’est intégrer l’établissement public français de référence dans les sciences de la Terre, qui rassemble 1000 experts passionnés dans 29 implantations en France métropolitaine et en Outre-mer. Le BRGM œuvre à la connaissance du sous-sol pour répondre aux grands défis environnementaux, à travers des projets scientifiques innovants et à fort enjeu sociétal.
Dans le cadre d’un programme de recherche dédié à l’aléa sismique à Mayotte, l’objectif est de détecter et cartographier les interfaces géologiques responsables de l’effet de site, phénomène amplifiant localement les ondes sismiques. Après une phase exploratoire sur trois sites pilotes, le projet vise désormais l’automatisation de cette détection à l’échelle de l’île à partir de données électromagnétiques aéroportées (AEM).
Sujet :
Dans le contexte volcanique et sismique de Mayotte, la présence d’interfaces géologiques marquant des contrastes lithologiques importants (passage de couches dures à meubles) joue un rôle majeur dans l’amplification locale des ondes sismiques. Identifier ces interfaces à grande échelle est essentiel pour la cartographie de l’aléa sismique. Le BRGM a conduit une première phase de détection manuelle sur trois zones test via l’analyse de données AEM (résistivités), complétée par une phase d’automatisation sur l’ensemble de l’île.
Les premiers tests sur des modèles supervisés se sont révélés insuffisants, notamment pour prédire les interfaces peu représentées. Une approche alternative consistant à reformuler le problème comme une tâche de segmentation d’image avec un réseau U-Net 2D a permis de mieux exploiter la continuité spatiale des profils AEM. Cependant, la validation de ce modèle a montré des limites,avec une concentration des erreurs dans certaines profondeurs critiques (5-10 m et 20-40 m), rendant les performances trop optimistes.
L’objectif du stage est de continuer ces développements en comparant plusieurs méthodologies avancées pour la détection automatisée de ces interfaces géologiques à partir des profils AEM. Les approches testées incluront :
– des modèles classiques améliorés (RF, CNN) ;
– des approches topologiques (TDA) pour quantifier l’incertitude structurelle ;
– des approches guidées par la physique (PINNs) intégrant des contraintes géologiques
Le ou la stagiaire devra construire des baselines reproductibles, définir un protocole d’évaluation robuste, comparer les performances des modèles sur l’ensemble de l’île, et surtout évaluer leur capacité à corriger les erreurs récurrentes identifiées sur les zones critiques (Dembeni, Longoni). Une attention particulière sera portée à la localisation des faux positifs/négatifs en profondeur. L’analyse des résultats par cartographie d’erreurs enrichira les réflexions sur la généralisation des approches IA en géosciences.
Profil du candidat :
Vous êtes autonome, curieux·se et rigoureux·se, avec une capacité à structurer et documenter vos analyses. Vous êtes à l’aise pour explorer, prétraiter, visualiser et interpréter des jeux de données complexes. Vous accordez une attention particulière à la robustesse méthodologique et êtes capable d’évoluer dans un environnement de recherche.
Doté·e d’un bon relationnel, vous savez collaborer au sein d’une équipe pluridisciplinaire, en lien étroit avec des spécialistes du domaine (géologues, géophysiciens, data scientists). Vous faites preuve de rigueur scientifique, d’esprit critique et de qualités de communication, à l’écrit comme à l’oral.
Formation et compétences requises :
Formation de niveau Bac+5 : Master 2 ou dernière année d’école d’ingénieur, avec spécialisation en data science, intelligence artificielle, mathématiques appliquées ou géosciences numériques.
Solides bases en apprentissage automatique : régression, classification, réseaux de neurones.
Maîtrise du langage Python et des bibliothèques standards en data science : scikit-learn, PyTorch ou TensorFlow, NumPy, Pandas, Matplotlib.
Une première expérience avec des architectures convolutives (CNN) ou de segmentation (U-Net) est un atout.
Une familiarité avec les problématiques de traitement de données géospatiales ou géophysiques est appréciée.
Des connaissances en Topological Data Analysis (TDA) ou en Physics-Informed Neural Networks (PINNs) seraient un plus, mais peuvent être développées durant le stage.
Intérêt pour les notions de validation rigoureuse, d’incertitude, de reproductibilité et de qualité des données.
Adresse d’emploi :
3 avenue Claude Guillemin, 45000 Orléans
Document attaché : 202511060727_Stage_BRGM_2026.pdf
Offre en lien avec l’Action/le Réseau : RECAST/– — –
Laboratoire/Entreprise : LIMOS, UMR 6158 / Mines Saint-Étienne
Durée : 4-6 mois
Contact : maxime.lefrancois@emse.fr
Date limite de publication : 2025-12-15
Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.
Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.
Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.
Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.
The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.
This study should lead to the publication of a scientific paper in a high impact scientific journal.
References
Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.
Profil du candidat :
Master 2 students in computer science
To apply, please submit by email or in an online file repository your CV, motivation letter, university transcripts, and possibly letters of recommendation. The motivation letter must explain why you are interested in this topic and why you are qualified to work on this topic.
Formation et compétences requises :
Equivalent of a M2 level in CS, with knowledge of Semantic Web technologies. Also, the candidate must have either very good programming skills in Java, or very good aptitude in formal and abstract thinking.
Adresse d’emploi :
Mines Saint-Étienne, Institut Henri Fayol, 29 rue Pierre et Dominique Ponchardier, 42100 Saint-Étienne, France
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 mois
Contact : camelia.constantin@lip6.fr
Date limite de publication : 2025-12-27
Contexte :
Nos recherches portent sur les bases prosopographiques ayant pour objet la période médiévale. La prosopographie est une méthode des sciences sociales (sociologie, histoire) dans laquelle on cherche à analyser un groupe à partir d’une étude systématique des itinéraires singuliers des individus qui le composent. Pour cela les chercheurs collectent tous les faits (factoïdes) possibles sur chaque individu. En histoire médiévale, ces données sont rares, discontinues, incertaines et souvent d’une qualité médiocre. En effet, les experts de ces disciplines gèrent la qualité et l’incertitude dans le temps et l’espace. Ainsi, les personnes sont désignées par plusieurs noms, les lieux changent de noms et de frontières avec le temps ou selon l’auteur et un parcours de diplomation peut changer en fonction de l’époque, du lieu ou de la classe sociale de la personne. En raison de cette complexité, de nombreuses règles restent opaques pour les historiens médiévistes. En organisant ces données sous forme de graphe de connaissances, nous pouvons représenter des concepts, des personnes, des lieux ou des objets sous forme des nœuds et des interactions entre ceux-ci, comme telles que des affiliations ou des localisations comme arêtes avec des propriétés. Cela permet une organisation sémantique des données qui aide à mieux comprendre les contextes et les relations complexes entre les entités mentionnées dans les textes et de visualiser clairement l’interconnexion entre les différents éléments d’un ensemble de données.
La construction de graphes de connaissances à partir de sources de données ambiguës soulève plusieurs difficultés majeures liées à la nature imparfaite, hétérogène et souvent imprécise des textes ou bases d’origine. Les principales sources de complexité résident dans l’ambiguïté des entités (lorsqu’un même nom peut désigner plusieurs objets distincts ou, inversement, lorsqu’une entité apparaît sous des formes lexicales variées (abréviations, translittérations, synonymes). S’ajoutent à cela l’imprécision ou l’incomplétude des informations (par exemple, des dates approximatives ou des localisations vagues), qui favorisent la duplication d’entités lors de l’intégration : plusieurs nœuds représentant en réalité la même entité peuvent être créés. Les textes peuvent également contenir des relations implicites difficiles à extraire automatiquement, ou des contradictions entre sources multiples.
Parmi ces problèmes, certains peuvent être atténués par l’usage de modèles de langage de grande taille (LLMs), capables d’intégrer des indices sémantiques complexes et de désambiguïser les entités en tenant compte du contexte global. Les LLMs améliorent la reconnaissance des relations implicites et la cohérence sémantique entre textes hétérogènes. Cependant, plusieurs défis demeurent : les modèles ne résolvent pas les ambiguïtés lorsque deux entités très similaires apparaissent dans le texte sans marqueurs de distinction, ni les contradictions entre sources (le LLM peut les reconnaître mais ne garantit pas de choisir la bonne version, ou peut donner une confiance excessive à l’une sans justification). Ils n’éliminent pas non plus les duplications induites par des informations incomplètes ou imprécises, et peuvent introduire de nouveaux biais, notamment par hallucination d’entités ou surestimation de leur confiance. Dans des domaines historiques, le LLM peut manquer de données de formation spécifiques, ce qui réduit sa performance. Ces limites exigent l’intégration de méthodes complémentaires, telles que la reconnaissance d’entités nommées (NER), qui impose un typage explicite et stable des entités (personne, organisation, lieu, date, etc.), en permettant ainsi de filtrer les entités erronées ou inventées. En s’appuyant sur des lexiques, ontologies ou dictionnaires de référence, elle facilite la normalisation et l’alignement des entités, limitant ainsi la création d’alias ou de doublons. Des méthodes complémentaires, comme entity linking ou l’utilisation de règles symboliques peuvent aider à l’alignement des entités obtenues par des LLMs.
L’ajout de réseaux de neurones de graphes (GNN) améliore la désambiguïsation d’entités lorsque le contexte textuel seul est insuffisant, en s’appuyant sur les voisins et les motifs relationnels pour identifier la bonne correspondance, en exploitant la structure relationnelle du graphe. Ils renforcent également la détection de doublons et la fusion d’entités similaires en apprenant des représentations qui intègrent à la fois les attributs et les connexions locales.
Sujet :
Afin de pouvoir améliorer le liage d’entités, il est important d’avoir le maximum d’information pour chaque entité, et notamment ses liens avec les autres entités. L’objectif de ce stage est la mise en œuvre d’une architecture RAG-GNN intégrée, destinée à la construction, à la détection des duplicats et à la fusion d’entités d’un graphe de connaissances construit à partir de données prosopographiques Studium ambigües. Ces données existent sous forme de fiches où les mêmes individus ou lieux apparaissent plusieurs fois avec une description très différente suivant la source (donc des propriétés et relations différentes) voire des noms parfois très différents. Cette démarche vise à améliorer la qualité et l’utilité du graphe en découvrant et en intégrant des informations qui ne sont pas explicitement présentes mais qui peuvent être inférées à partir des relations et des attributs existants. D’autres jeux de données comme KnowledgeNet pourront être également utilisés.
Méthodologie : La méthodologie combine des modèles de langage préentraînés, recherche contextuelle, et apprentissage de représentations de graphes pour la construction et la consolidation de graphes de connaissances à partir de données historiques ambiguës. Dans une première étape, un modèle de langage de grande taille (LLM) est utilisé pour extraire automatiquement des entités, relations et attributs (dates, lieux, personnes) à partir des textes. Cette extraction est renforcée par des méthodes de reconnaissance d’entités nommées (NER), assurant une détection typée et une segmentation fiable des mentions, conformément aux principes décrits dans [1]. Le graphe ainsi obtenu sera stocké dans une base de données graphe (Neo4j) avec traçabilité des chunks sources et va constituer une base brute soumise à un processus d’enrichissement et de validation des liens de duplication( sameAs)). Un module de Retrieval-Augmented Generation (RAG) sera utilisé dans une première phase pour une décision sameAs ou notSame pour chaque paire d’entités candidate, accompagnée de preuves textuelles. Le LLM reçoit le contexte enrichi (entité A, entité B, leurs propriétés, leurs relations adjacentes dans le graphe et leurs chunks sources) pour prendre une décision de fusion, en fournisant la provenance factuelle pour la décision de résolution d’entité [2]. Les Graph Neural Networks (GNNs) sont ensuite utilisés pour exploiter la structure relationnelle du graphe et apprendre des représentations topologiques capables d’identifier les clusters d’entités équivalentes [3]. Le GNN sélectionne et connecte des sous-graphes d’un graphe de connaissances qui sont ensuite convertis en entrées textuelles pour un LLM [4], permettant la mise en place d’une boucle de rétroaction LLM–GNN afin d’affiner progressivement les décisions de fusion : les inférences structurelles issues du GNN guident le LLM dans ses réévaluations contextuelles, tandis que les jugements linguistiques du LLM enrichissent les représentations structurelles apprises par le GNN.
Profil du candidat :
Etudiant en Master 2 ou en dernière année d’école d’ingénieur.
Formation et compétences requises :
Connaissances en python et en machine learning.
Adresse d’emploi :
LIP6 (Sorbonne Université),
Équipe Bases de Données http://www-bd.lip6.fr/
Document attaché : 202511272002_sujetStageKG_2026.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Centre Génie Industriel, IMT Mines Albi
Durée : 6 mois
Contact : myriam.lamolle@mines-albi.fr
Date limite de publication : 2025-12-30
Contexte :
Ce stage s’inscrit dans le projet TABGHA qui se veut un outil de génération démultiplié de concepts hautement valorisables afin de promouvoir l’innovation avec l’aide du CGI (Centre de Génie Industriel) d’IMT Mines Albi (cgi.mines-albi.fr) et le LIASD, Université Paris 8.
Sujet :
Face à la méconnaissance des cultures innovations susceptibles de créer des ressources et le peu d’étude sur la valorisation économique des recherches (spin off, licence, prestation), le transfert de technologie devient crucial.
Pour cela, il faut, à partir d’une technologie générique (souvent sur étagère), multiplier les cas applicatifs (marchés d’atterrissage) pour accroitre les chances de valorisation (et aussi poursuivre les développements). À ce jour, de nombreuses méthodes existent pour générer ces différents cas applicatifs : design thinking, analyse fonctionnelle… Aucune d’entre elles ne faisant l’unanimité, le projet vise à développer une plateforme open-source en « Knowledge As A Service » (KaaS) comme écosystème digital fondé sur des composants logiciels qui se combinent pour collaborer de façon à permettre une évolution graduelle du système au travers de nouvelles contributions et de nouveaux composants fournis par la communauté.
L’objectif sous-jacent est de découvrir dans la base de connaissance constituée des connaissances cachées et de déterminer des analogies afin d’aider des décideurs à trouver de nouveaux domaines d’application de leur concept/produit ou à créer de nouveaux concept/produit.
Vous contribuerez à lever un des verrous scientifiques du projet : concevoir un ou des algorithmes d’alignement de méthodes de design thinking fondés sur l’analyse structurelle et sémantique de graphes de connaissances (ou ontologie modulaire).
Objectifs concrets :
1. Modéliser sous forme d’une ontologie les méthodes C-K, Vianeo (voire TriZ1) ;
2. En suivant une méthode scientifique, concevoir et implémenter des algorithmes permettant d’aligner semi-automatiquement les méthodes citées : les classes, les relations entre ces classes, etc. en explicitant les règles de transformation. Peupler la base de connaissance et évaluer les algorithmes sur le mini-cas d’étude réaliste ;
3. Créer les IHM pour offrir les services :
a) de choix de la méthode par laquelle le projet d’innovation sera développé ;
b) ou d’hybridation de méthodes pour une approche multi-points de vue ;
4. Rédiger un article de conférence internationale avec l’équipe d’encadrement.
Profil du candidat :
Bac+5 (Master 2 ou dernière année d’école d’ingénieur) en Informatique, Mathématiques Appliquées ou domaine connexe
Formation et compétences requises :
Compétences techniques indispensables :
• Maîtrise des concepts de l’IA neuro-symbolique ;
• Capaciter à conceptualiser des méthodes complexes
• Maîtrise d’outils et méthodes d’analyse de graphes
• Excellente compréhension écrite, bonne expression (lecture/rédaction d’articles) et bonne compréhension orale en anglais
Qualités personnelles attendues
• Capacité à proposer des idées algorithmiques dès l’entretien
• Être moteur dans les échanges scientifiques et la validation d’idées
• Goût pour la formalisation mathématique et l’expérimentation méthodique
• Appréciation pour la recherche bibliographique
Un plus :
• Expérience en recherche (stage labo, projet R&D…)
• Connaissance des ontologies et des logiques de description
• Intérêt pour les systèmes à base de raisonnement
Adresse d’emploi :
IMT Mines Albi (Centre de génie industriel), Albi (81)
Document attaché : 202511171603_offreStageM2_sujet1_2026.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : Université Bourgogne Europe
Durée : 5 à 6 mois
Contact : annabelle.gillet@u-bourgogne.fr
Date limite de publication : 2025-12-31
Contexte :
Dans les réseaux sociaux, la manipulation de l’information est une problématique pouvant avoir des conséquences néfastes importantes. Les stratégies de diffusion d’informations manipulées sont complexes, et peuvent avoir recours à la mise en oeuvre d’armées de robots ayant différents rôles dans le réseau. Par exemple, un groupe de robots peut avoir pour tâche de spammer certains messages ou mots clés afin de manipuler les tendances et de gagner une visibilité importante en peu de temps, d’autres robots peuvent avoir un profil évolué ainsi qu’une activité quotidienne, leur permettant de passer pour des utilisateurs légitimes et de donner plus de poids aux messages qu’ils pourraient diffuser dans certaines communautés. Toutefois, la détection de ces armées de robots est complexe, et l’évolution rapide de leur comportement et de leur organisation restreint les types d’algorithmes utilisables.
Le projet ANR Beelzebot est un projet interdisciplinaire regroupant des chercheurs en informatique, en sciences de la communication et du langage. Il a pour objectif de définir des mécanismes pour détecter les armées de robots sur Twitter en se basant sur des méthodes non-supervisées, ainsi qu’à caractériser les activités de ces armées.
Sujet :
L’objectif du stage, dans le cadre du projet ANR Beelzebot, est de détecter des phénomènes de diffusion sur Twitter et de les caractériser. Pour cela, une approche prometteuse consiste à utiliser des algorithmes s’appuyant sur des tenseurs afin de créer un résumé des données pouvant être exploité pour détecter des zones denses sur le réseau qui peuvent correspondre à des phénomènes de diffusion. Un des avantages des tenseurs est leur aspect multi-dimensionnel, permettant notamment d’intégrer nativement une dimension temporelle aux analyses, contrairement aux approches basées sur les graphes.
Un autre objectif du stage est d’étudier plus en détail les phénomènes de diffusion détectés, en utilisant des analyses complémentaires visant à les caractériser. En effet, certains phénomènes de diffusion sont naturels et résultent de l’utilisation standard du réseau, tandis que d’autres proviennent d’actions de manipulation tentant de profiter des mécanismes du réseau pour diffuser des idées ou perturber son fonctionnement normal. Il s’agit plus particulièrement d’étudier leurs impacts sur les structures communautaires, les utilisateurs frontières, les utilisateurs influents, l’émergence de hashtags, etc.
En plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter sont à disposition, comme par exemple les discussions autour de l’élection présidentielle française de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’Université Bourgogne Europe.
Une poursuite en thèse à la suite du stage est envisageable.
Profil du candidat :
– étudiant en Master 2 avec spécialité informatique ;
– curiosité et rigueur scientifique ;
– compétences en gestion de données ;
– solides connaissances et compétences en algorithmique et développement logiciel.
Formation et compétences requises :
Adresse d’emploi :
Université Bourgogne Europe, Dijon
Document attaché : 202511211319_StageBeelzebot2026.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-12-31
Contexte :
Food systems are highly interconnected between countries on a global scale, as shown by recent disruptions such as the war in Ukraine and the global pandemic. Food flows are vulnerable to shocks, and these disruptions influence food prices, which in turn affect food consumption patterns. This has had a significant impact on people’s diets, particularly in underdeveloped countries where food security is already fragile. However, scientists and policy-makers lack the data and tools to identify weak points in food flows and build food systems resilient to shocks and disruptions. While considerable progress has been made using Earth Observation data to map crop locations and agricultural productivity (e.g. crop yields), little attention has been paid to the intermediate stages of the workflow – distribution, processing and markets – which are key to understanding and modeling how food moves from production to consumption. Additionally, numerous geospatial datasets, such as OpenStreetMap, are publicly accessible and provide valuable information on land use and land cover.
Thanks to advances in artificial intelligence and its application to Earth Observation data, continuously collected satellite images on a global scale, combined with meteorological data, make it possible to monitor food systems in real time. Deep learning models, capable of capturing complex, non-linear relationships, and multimodal algorithms integrating data from a variety of sources, are opening up new perspectives in this field. This internship proposes to exploit multi-temporal and multi-resolution Earth observation data, by combining them with learning models, to monitor food systems, estimate agricultural yields and analyze their links with market prices.
This internship focuses on developing machine learning approaches to analyze food flows in Rwanda, in relation to food security situation in the country, by using comprehensive market data and geospatial information. Food flows often deviate from optimal distribution patterns due to infrastructure constraints, market dynamics, and socio-economic factors. For example, a certain product (e.g., potatoes) grown in northern regions may follow suboptimal routes to reach southern markets. By modeling both ideal and actual food flows, we can identify bottlenecks and opportunities to improve food security.
Sujet :
Missions :
The project aims to understand the relationship between food production locations, distribution networks, and market accessibility to inform food security policies. More specifically, the final task is to build a machine learning model able to predict the probability that a certain item is sold in a specific market, based on production and distribution data.
The project leverages two primary datasets:
· Public Market Dataset: 1.2 million items across 70 markets covering 10 types of food items.
· CGIAR/IITA Survey Database: A dataset collected by the IITA (International Institute of Tropical Agriculture) including monthly data from 7,000 vendors across 67 markets in all districts of Rwanda, including food quality assessments and detailed market information.
These datasets will be complemented by geospatial data including OpenStreetMap (OSM) infrastructure data, land cover information, and Earth observation data (NDVI and other spectral indices).
The main tasks to address during the internship will be:
1. Database Integration and Market Mapping
a. Merge the public market dataset with CGIAR/IITA survey data to create a comprehensive market database
b. Map which specific food items are sold in which markets
2. Geospatial Data Integration
a. Incorporate OpenStreetMap data to understand transportation networks and market accessibility
b. Integrate land cover and agricultural production data to identify food production zones
c. Process Earth observation data (NDVI, meteorological data) to assess agricultural productivity
d. Map the complete food system from production areas to consumption markets
3. Machine Learning Model Development
a. Develop predictive models to estimate the probability that specific food items will be available in particular markets
b. Compare actual food flows with modeled optimal flows to identify inefficiencies
c. Test developed models against baseline methodologies and state-of-the-art approaches
4. Writing of the internship report (in English) to capitalize on the work carried out with a view to a possible scientific publication. If possible, also release associate code and data.
Profil du candidat :
Skills required :
– Programming skills
– Interest in data analysis
– Scientific rigor
– Curiosity and open-mindedness
– Analytical, writing and summarizing skills
How to apply :
Send CV, cover letter and M1 (or 4th year) transcript to :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
specifying as e-mail subject “CANDIDATURE STAGE DIGITAG”.
Additional Information :
– Duration of 6 months, starting February 2025
– Remuneration: CIRAD salary scale, ~600 euros/month
– The internship will take place at CIRAD, in the UMR TETIS (Territory, Environment,
Remote Sensing and Spatial Information), located at the Maison de la
Télédétection in Montpellier.
– The internship will be carried out in collaboration with Assistant Professor
Claudia Paris and Yue Dou, currently working at the ITC Faculty of Geographic Information
Science and Earth Observation, University of Twente, Netherlands.
Formation et compétences requises :
Skills required :
– Programming skills
– Interest in data analysis
– Scientific rigor
– Curiosity and open-mindedness
– Analytical, writing and summarizing skills
How to apply :
Send CV, cover letter and M1 (or 4th year) transcript to :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
specifying as e-mail subject “CANDIDATURE STAGE DIGITAG”.
Additional Information :
– Duration of 6 months, starting February 2025
– Remuneration: CIRAD salary scale, ~600 euros/month
– The internship will take place at CIRAD, in the UMR TETIS (Territory, Environment,
Remote Sensing and Spatial Information), located at the Maison de la
Télédétection in Montpellier.
– The internship will be carried out in collaboration with Assistant Professor
Claudia Paris and Yue Dou, currently working at the ITC Faculty of Geographic Information
Science and Earth Observation, University of Twente, Netherlands.
Adresse d’emploi :
500 rue Jean François Breton, 34090, Montpellier
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Sesstim, Aix Marseille Université
Durée : 6 Mois
Contact : raquel.urena@univ-amu.fr
Date limite de publication : 2025-12-31
Contexte :
Ce stage s’inscrit dans un projet de recherche à l’interface de l’intelligence artificielle et de la santé, mené au sein d’une équipe multidisciplinaire réunissant informaticiens, médecins, biostatisticiens et chercheurs en santé publique.
L’objectif global est de modéliser et d’analyser les parcours de soins longitudinaux des patients à partir de données massives issues des bases médico-administratives (SNDS).
Ces travaux permettront d’identifier des profils de patients, des ruptures de parcours et des facteurs de réhospitalisation, afin d’améliorer la compréhension et la personnalisation de la prise en charge.
Le stage se déroulera au sein de l’équipe CaLIPSo / SESSTIM (Aix–Marseille Université), sur le IPC à Marseille, dans un environnement stimulant à l’interface de l’IA, de la santé et des sciences sociales.
Le stagiaire sera encadré par Raquel URENA, maître de conférences en informatique especialiste en IA et santé, et travaillera en interaction directe avec des chercheurs en IA, des épidémiologistes et des cliniciens de de l’Institut Paoli-Calmettes, sur des données massives réelles à fort impact sociétal.
Sujet :
Objectifs du stage
Le stagiaire participera à la conception et au développement de modèles innovants de modélisation automatique des trajectoires de soins en utilisant des techniques avancées de representation learning et de Large Language Models (LLMs) appliquées aux données de santé.
Les principales missions incluent :
• Extraction et structuration de trajectoires temporelles à partir de données massives (diagnostics, actes, hospitalisations, prescriptions).
• Développement de représentations patient à l’aide de modèles de deep learning.
• Comparaison et évaluation de différentes approches de representation learning.
• Identification de profils de soins, visualisation et interprétation des trajectoires representations.
Profil du candidat :
Compétences requises
• Solides connaissances en machine learning, representation learning et modélisation de séries temporelles.
• Maîtrise de Python (Pandas, NumPy, Scikit-learn, PyTorch/TensorFlow) et des bases de données SQL.
• Langue française indispensable, niveau avancé en anglais (oral et écrit).
• Excellentes capacités de rédaction scientifique et de communication.
• Curiosité, rigueur scientifique, autonomie et goût pour le travail interdisciplinaire.
Environnement de travail
Formation et compétences requises :
M2 Informatique/ IA/ Mathémathiquées appliqués
Adresse d’emploi :
232 Bd de Sainte-Marguerite, 13009 Marseille
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : SAMOVAR, Télécom SudParis, IP Paris
Durée : 6 Months
Contact : luca.benedetto@telecom-sudparis.eu
Date limite de publication : 2026-01-10
Contexte :
Sujet :
This project proposes developing an NLP framework to automatically evaluate the adequacy and relevance of assessment items in relation to their associated learning content. While existing research in Question Difficulty Estimation from Text (QDET) has focused primarily on analyzing exam items in isolation, this work addresses a critical gap by evaluating questions within the context of course lectures and learning paths. The framework will employ a combination of traditional machine learning, Information Retrieval techniques, semantic embeddings, and Large Language Models to assess newly created exam questions for validity, relevance, and difficulty.
Profil du candidat :
Previous experience with Python and Machine Learning is required.
Formation et compétences requises :
Adresse d’emploi :
19 place Marguerite Perey, 91120 Palaiseau France
ou
9 rue Charles Fourier, 91011 Evry-Courcouronnes France
Document attaché : 202512031306_2025_11___Proposal_Stage_M2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : GREYC / ORION SportTech
Durée : 4 à 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2026-01-10
Contexte :
ORION SporTech développe des solutions logicielles basées sur la vidéo et l’intelligence artificielle pour le monde du sport. Au-delà de la performance, ORION SporTech conçoit des solutions pour la Fan Expérience : nos logiciels enrichissent les vidéos avec des effets visuels dynamiques et des contenus interactifs destinés à engager les supporters et valoriser les partenaires.
ORION SporTech est incubée chez Normandie Incubation, au cœur de
l’écosystème startup normand.
Le stage est co-encadré par le laboratoire GREYC – Unicaen – Ensicaen – CNRS.
Sujet :
Le stage concerne la détection automatique des coups portés dans des vidéos de combats, captées via flux broadcast monoculaire (caméra unique, plan fixe ou mobile). L’objectif est de développer un pipeline de vision par ordinateur capable de :
– Détecter les coups portés
– Identifier la latéralité
– Estimer l’impact
Le candidat pourrait montrer des dispositions à maîtriser les techniques
d’estimation de pose et de classification de séquences.
Profil du candidat :
– Formation en informatique, vision par ordinateur, IA ou traitement d’image
– Connaissances en deep learning appliqué à la vidéo
– Intérêt pour le sport, idéalement les sports de combat
– Autonomie, rigueur, esprit de recherche
Formation et compétences requises :
M2 / ingénieur informatique IA – Data – Computer vision
Adresse d’emploi :
17 rue Claude Bloch à Caen
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : BaaS.sh en collaboration avec l’IRIT (Toulouse)
Durée : 5 à 6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2026-01-11
Contexte :
BaaS.sh est une startup deeptech qui conçoit une blockchain de nouvelle génération : rapide à déployer, simple à utiliser → pensée pour les devs, optimisée pour la perf.
Sujet :
Rejoins BaaS.sh, en collaboration avec le IRIT, pour contribuer à la mise en place et à l’optimisation de notre infrastructure blockchain. Tu travailleras sur des sujets concrets, techniques et à fort impact :
● Déployer, superviser et automatiser des architectures complexes.
● Concevoir des pipelines robustes (CI/CD, provisioning, monitoring, logging).
● Mener des analyses comparatives de blockchains concurrentes.
● Side projects : serveur MPC, module n8n, plugin VSCode…
Un stage exigeant, encadré, au coeur d’un projet deeptech ambitieux.
Tu évolueras dans un environnement stimulant, entre infrastructure, performance, et blockchain de nouvelle génération.
Si compétences exceptionnelles :
tu pourras également contribuer à des sujets plus avancés : orchestration distribuée, sécurité réseau, scaling dynamique.
Profil du candidat :
Master 2
Formation et compétences requises :
Expérience concrète avec Docker Swarm ou Kubernetes.
CI/CD, base d’un delivery efficace et fiable.
Bonnes notions en observabilité (Grafana, Prometheus…) et en gestion de logs.
Docker, Git et les outils d’automatisation n’ont pas de secrets pour toi.
Adresse d’emploi :
Lieu : 100 % remote, avec interactions virtuelles régulières.
Durée : 5 à 6 mois, début flexible à partir de janvier 2026.
Encadrement : par le CTO de BaaS.sh en collaboration avec un enseignant-chercheur du IRIT.
Document attaché : 202512051336_Stage M2 Recherche chez BaaS.sh.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire Loria Nancy / Centralesupélec Metz
Durée : 4-6 mois
Contact : arthur.hoarau@centralesupelec.fr
Date limite de publication : 2026-01-11
Contexte :
Détecter des anomalies ou incohérences locales dans des images grâce à la quantification d’incertitude en apprentissage automatique profond.
Sujet :
En Apprentissage Automatique appliqué à la vision par ordinateur, les cartes de chaleur (heatmaps) sont des outils de visualisation interprétable permettant de comprendre quelles régions d’une image contribuent le plus à la prédiction d’un modèle. Les méthodes les plus répandues, comme Grad-CAM [1], exploitent les gradients des activations internes d’un réseau convolutif pour générer une carte d’importance pondérée.
L’objectif de ce projet est d’obtenir une carte de chaleur des incohérences locales ou anomalies dans une image pour une tâche de classification (e.g., un chat avec des lunettes, un O.V.N.I ou encore une contamination ou impureté sur un aliment) grâce à la quantification d’incertitude du modèle. Quatre grandes familles de méthodes existent dans la littérature pour extraire ces incertitudes : les méthodes bayésiennes, qui modélisent par nature ces différents types d’incertitude [3] ; les méthodes ensemblistes, qui approximent une distribution de probabilités grâce à la variance prédictive des estimateurs [4] ; la minimisation de risque de second ordre, qui modèle l’incertitude du modèle directement dans la fonction de perte ; et les méthodes par densité locale qui s’intéressent au voisinage de l’instance de test.
L’étude pourra en partie s’appuyer sur les récents travaux de [2], qui proposent une méthode pour quantifier l’incertitude liée à l’importance de chaque pixel dans une image.
Voic le document ci-joint pour plus de détails.
[1] R. Selvaraju et. al. Grad-CAM : Visual Explanations from Deep Networks via Gradient-based Localization. IEEE International Conference on Computer Vision (ICCV), 2017.
[2] K. Wickstrom et. al. REPEAT : Improving Uncertainty Estimation in Representation Learning Explainability. Proceedings of the AAAI Conference on Artificial Intelligence, 2025.
[3] A. Kendall et. al. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision ?. Advances in Neural Information Processing Systems, 2017.
[4] B. Lakshminarayanan et. al. Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. Advances in Neural Information Processing Systems, 2017.
Profil du candidat :
– Master 2, préparez une copie de vos notes
– Bon niveau d’anglais
– Appétence pour l’apprentissage automatique
Formation et compétences requises :
– Programmation Python, Machine Learning
– Apprentissage Profond
– Rédaction, Vulgarisation
Adresse d’emploi :
Centralesupélec Metz ou Loria Nancy
Document attaché : 202512051126_sujet_stage.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique, Signal et Image de la
Durée : 6 mois
Contact : claire.guilloteau@univ-littoral.fr
Date limite de publication : 2026-01-11
Contexte :
Sujet :
Description du sujet :
Le ver de Roscoff (Symsagittifera roscoffensis) est un petit organisme marin vivant en photosymbiose avec une microalgue verte (Tetraselmis convolutae), ce qui en fait à la fois un modèle d’étude de la symbiose et un bioindicateur de l’état des écosystèmes côtiers [1]. Actuellement, la détection et le suivi des vers de Roscoff reposent sur l’observation directe. L’identification et le suivi de cette espèce à distance restent un défi scientifique et technologique. Le développement de méthodes automatiques d’identification et de suivi permettrait d’évaluer les facteurs environnementaux influençant leur présence et leur répartition ou encore leur dynamique au cours d’un cycle de marée ou lors d’événements météorologiques extrêmes. Ces avancées contribueraient également à mieux comprendre le rôle écologique du ver de Roscoff, qui participe aux flux de matière organique, favorise la capture de CO2 par ses algues symbiotiques et contribue à la production d’O2 dans les zones littorales.
Les approches d’imagerie spectrale permettent de caractériser la signature optique d’organismes ou d’habitats, ouvrant la voie à leur télédétection [2]. Dans ce stage, le ver de Roscoff constitue donc un cas d’étude idéal pour développer des méthodes de détection multi-échelle et de traitement de données hyperspectrales.
Ce projet de stage cherche à répondre à deux verrous scientifiques principaux :
* L’échelle d’observation. La détection en champ proche et contrôlé est faisable en laboratoire, mais la généralisation aux échelles aéroportées et satellitaires reste à confirmer, notamment pour des raisons de résolution spatiale [3].
* La complétion informée des données multi-sources. La complétion informée est le fait de combiner intelligemment des données fines mais locales (airborne) avec des données grossières mais globales (satellite) pour reconstituer une information complète et cohérente. Cette tâche constitue un défi méthodologique.
L’objectif est de développer une approche multi-échelle de détection spectrale des vers de Roscoff. Le projet s’articule autour des 3 étapes suivantes :
1. Identifier les bandes spectrales pertinentes pour la détection des vers de Roscoff en champ proche (laboratoire) et en milieu contrôlé. Cette étape permettra la sélection méticuleuse des instruments satellitaires et aéroportés à utiliser pour cette étude.
2. Développer et tester des méthodes de complétion de données informée afin d’associer les images à différentes résolutions (aéroporté, satellite).
3. Évaluer la faisabilité de la détection automatique à large échelle des vers de Roscoff dans des environnements côtiers, et l’identification des sites candidats pour des futures campagnes in situ ou par survol aérien.
Le but du projet est de développer un outil capable de produire des cartes exploratoires de présence potentielle des vers de Roscoff à partir de données satellitaires et aéroportées afin de contribuer à la mise en place d’un outil de suivi innovant de la biodiversité du littoral. D’un point de vue méthodologique, le projet comporte une part expérimentale mobilisée dans les différentes étapes du projet. Une première phase exploratoire en laboratoire aura pour but d’acquérir des images hyperspectrales des vers de Roscoff en milieu contrôlé. Une seconde phase expérimentale consistera à acquérir des images aéroportées sur des sites déjà identifiés par les chercheurs du laboratoire UGSF pour tester la capacité de détection en milieu
naturel à une échelle intermédiaire. La majorité du projet concerne le développement d’algorithmes de complétion de données informée à l’aide d’approches de type apprentissage automatique/machine learning. De nombreuses méthodes de complétion de données informée existent dans la littérature. Elles sont cependant développées à partir de cas idéaux ou simulées. Par conséquent, peu répondent aux contraintes de notre problème : potentiel mauvais alignement des images entre elles, connaissance limitée des spécifications instrumentales, pas de données annotées ou « vérité-terrain » disponible, représentativité limitée des données aéroportées, non-linéarité des mélanges spectraux.
Cette thématique fait l’objet d’une demande en cours de financement de thèse pour l’automne 2026. Le cas échéant, le ou la candidate pourra poursuivre ce travail pour la préparation d’une thèse.
Encadement :
Le stage aura lieu dans l’antenne de Longuenesse(62) du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée en 2020, compte actuellement 8 chercheurs permanents, 3 chercheurs postdoctorants et 7 doctorants. Le ou la stagiaire sera encadré(e) par Claire GUILLOTEAU et Gilles ROUSSEL qui apporteront leur expertise respective en traitement des images MS/HS et en machine learning pour l’imagerie satellitaire. Le ou la stagiaire aura également l’occasion de collaborer avec Christophe Colleoni et Anne Créach, chercheurs spécialistes de la biologie intégrative des polysaccharides de réserve au laboratoire UGSF (Unité de Glycobiologie Structurale et Fonctionnelle) de l’Université de Lille.
[1] Androuin, T., Six, C., Bordeyne, F., de Bettignies, F., Noisette, F., & Davoult, D. (2020). Better off alone? New insights in the symbiotic relationship between the flatworm Symsagittifera roscoffensis and the microalgae Tetraselmis convolutae. Symbiosis.https://doi.org/10.1007/s13199-020-00691-y
[2] Dierssen, H. M., McManus, G. B., & Kudela, R. M. (2021). Living up to the hype of hyperspectral aquatic remote sensing. Frontiers in Environmental Science, 9, 649528. https://doi.org/10.3389/fenvs.2021.649528
[3] Purkis, S. J. (2022). Remote sensing the ocean biosphere. Annual Review of Environment and Resources, 47, 357–383.https://doi.org/10.1146/annurev-environ-112420-013219
Profil du candidat :
Candidater :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python, C). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en traitement d’images satellitaires hyperspectrales ou en deep learning sera appréciée.
Pour candidater, merci d’envoyer un courriel à {claire.guilloteau, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :
* votre CV,
* une lettre de motivation,
* vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
* jusqu’à deux lettres de recommandation ou les noms et moyens de contact de deux référents.
Les candidatures seront étudiées de manière continue jusqu’à ce que le stage soit pourvu.
Formation et compétences requises :
Adresse d’emploi :
Longuenesse (62)
Document attaché : 202512081103_VERDEMES_Stage_2026-FR.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : USIS, ENSTA
Durée : jusqu’à 6 mois
Contact : mario.gleirscher@ensta.fr
Date limite de publication : 2026-01-11
Contexte :
De petites équipes d’autonomous aerial vehicles (AAVs) peuvent être utilisées pour collaborer sur des tâches qui ne conviennent pas à un seul AAV. Ces tâches peuvent impliquer la livraison collaborative de colis ou le partage de ressources (e.g., fusion de capteurs distribués, coordination basée sur la durée de vie des batteries ou les capacités de charge utile). De plus, les équipes AAV fonctionnent avec un niveau d’autonomie accru. Une plus grande autonomie impose des exigences plus strictes en matière de critères de performance et de garanties d’exactitude des systèmes de détection et de contrôle de chaque membre de l’équipe. Par exemple, lors d’une tâche de livraison, un vol en formation précis et fiable à proximité immédiate peut être nécessaire.
Sujet :
Ce stage de fin d’études s’inscrit dans le cadre de coordination et contrôle des systèmes robotiques multi-agents et vise à developper une approche pour l’estimation consensuelle des informations pertinentes, la communication entre les membres de l’équipe et la coordination des tâches axée sur les objectifs.
Profil du candidat :
* Diplôme d’ingénieur ou Master 2 en contrôle, mécatronique, systèmes cyber-physiques, systèmes embarqués, ou informatique.
* Niveau d’étude : Bac+5 (M2 ou 3A Diplôme d’ingénieur)
* Bonnes compétences en programmation en C, C++ et Python
* Maîtrise de l’anglais, écrit et parlé. Connaissance préalable du français souhaitable.
Formation et compétences requises :
Compétences recherchées :
* Systèmes multi-agents, contrôle robuste
* Modélisation dynamique, approximation numérique
* Raisonnement automatisé sur les garanties d’exactitude
* Programmation : C, C++, Python
Adresse d’emploi :
Période de démarrage : entre fevrier et mars 2026
Candidature : Merci d’envoyer un CV, une lettre de motivation ainsi que vos relevés de notes à mario.gleirscher@ensta.fr.
Document attaché : 202512081106_stage-vol-en-formation-gleirscher.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire Oceanographique de Villefranche-sur-me
Durée : 6 mois
Contact : enza.labourdette@imev-mer.fr
Date limite de publication : 2026-01-15
Contexte :
Le phytoplancton regroupe les micro-organismes marins dérivant au gré des courants et capables de
produire de la matière organique grâce à la photosynthèse.
Il joue un rôle essentiel dans le fonctionnement du système Terre : il contribue à environ la moitié de la
photosynthèse planétaire, participe au stockage du carbone à l’échelle climatique via la pompe
biologique, et constitue la base des réseaux trophiques marins.
Mieux comprendre la répartition et la diversité du phytoplancton, en lien avec les conditions physiques
et biogéochimiques de son environnement, est donc fondamental. Cela permet d’estimer plus finement
sa biomasse, son rôle dans les cycles biogéochimiques et d’anticiper les réorganisations induites par les
changements climatiques et océaniques globaux.
Cependant, l’observation directe du phytoplancton à grande échelle demeure limitée, car elle repose sur
des campagnes en mer et des prélèvements coûteux. Les données HPLC (High Performance Liquid
Chromatography), qui permettent d’analyser les pigments photosynthétiques pour quantifier
précisément les communautés phytoplanctoniques, offrent une référence fiable, mais restent
coûteuses et spatialement limitées.
Pour étendre ces observations ponctuelles à l’échelle globale, les satellites d’observation de la couleur
de l’océan constituent un outil clé. Les algorithmes empiriques actuels permettent d’estimer la
composition du phytoplancton à partir des réflectances optiques , mais ils présentent encore
une marge d’erreur importante et ne capturent pas toujours la complexité spatiale et temporelle des
structures océaniques (fronts, tourbillons, etc.).
Sujet :
Ce stage s’inscrit dans la continuité d’une thèse centrée sur la prédiction des Phytoplankton Functional
Types (PFTs) à partir de la couleur de l’eau et de variables satellitaires à l’aide de méthodes de deep
learning.
L’objectif principal est d’améliorer la robustesse et la précision des prédictions en intégrant explicitement
la dimension temporelle des données au moyen de méthodes avancées de deep learning.
Concrètement, cela consiste à exploiter les images satellites des jours ou des semaines précédentes pour
estimer la quantité et la composition du phytoplancton à un instant t donné. En effet, la croissance du
phytoplancton est un processus dynamique, et son état actuel dépend fortement des états antérieurs du
système.
Un pipeline opérationnel est déjà en place :
– les données satellitaires et in situ ont été extraites et prétraitées,
– des modèles de type MLP (Multi-Layer Perceptron) ont été développés et évalués,
– une première étude de la sensibilité, en termes de qualité des prédictions, aux variables d’entrée
et à l’architecture du modèle a été menée,
– une seconde étude, sur l’intégration de la dimension spatiale dans les données d’entrée, est en
cours.
Le stage consistera à poursuivre et à approfondir ces travaux, notamment en :
– explorant de nouvelles architectures de deep learning (par ex. RNN) permettant de mieux
capturer la structure temporelle des données ;
– évaluant l’impact de cette intégration sur la qualité des prédictions de PFTs ;
– affinant l’interprétation des modèles pour mieux comprendre les liens entre conditions
environnementales et composition des communautés phytoplanctoniques.
Ce travail contribuera directement à l’amélioration des produits satellitaires de distribution
phytoplanctonique à l’échelle globale, utiles pour le suivi de la santé des écosystèmes marins et la
gestion durable des ressources océaniques.
Objectifs du Stage :
– Compréhension de la problématique biologique.
– Étude des relations entre les propriétés optiques de l’eau et les PFTs.
– Prise en main et optimisation du pipeline existant, de la sélection et du traitement des données
jusqu’à leur exploitation dans un modèle de deep learning.
– Analyse de la variabilité spatio-temporelle : quantifier l’impact de l’intégration des dimensions
spatiale et temporelle sur la prédiction des PFTs.
– Mise en forme et valorisation des résultats pour une utilisation dans des travaux de recherche à
publier.
Profil du candidat :
Formation et compétences requises :
– Intérêt marqué pour la recherche et les sciences marines.
– Maîtrise du langage Python.
– Connaissances en deep learning (PyTorch).
– Des notions en écologie, biologie marine ou océanographie seraient un atout.
Adresse d’emploi :
181 chemin du Lazaret Villefranche-sur-Mer, France
Document attaché : 202511140931_STAGE 2026 – ANNONCE.pdf
