Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Dec
15
Mon
2025
Approches data-driven pour la détection d’interfaces géologiques
Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : BRGM
Durée : 6 mois
Contact : c.gracianne@brgm.fr
Date limite de publication : 2025-12-15

Contexte :
Rejoindre le Bureau de Recherches Géologiques et Minières (BRGM), c’est intégrer l’établissement public français de référence dans les sciences de la Terre, qui rassemble 1000 experts passionnés dans 29 implantations en France métropolitaine et en Outre-mer. Le BRGM œuvre à la connaissance du sous-sol pour répondre aux grands défis environnementaux, à travers des projets scientifiques innovants et à fort enjeu sociétal.
Dans le cadre d’un programme de recherche dédié à l’aléa sismique à Mayotte, l’objectif est de détecter et cartographier les interfaces géologiques responsables de l’effet de site, phénomène amplifiant localement les ondes sismiques. Après une phase exploratoire sur trois sites pilotes, le projet vise désormais l’automatisation de cette détection à l’échelle de l’île à partir de données électromagnétiques aéroportées (AEM).

Sujet :
Dans le contexte volcanique et sismique de Mayotte, la présence d’interfaces géologiques marquant des contrastes lithologiques importants (passage de couches dures à meubles) joue un rôle majeur dans l’amplification locale des ondes sismiques. Identifier ces interfaces à grande échelle est essentiel pour la cartographie de l’aléa sismique. Le BRGM a conduit une première phase de détection manuelle sur trois zones test via l’analyse de données AEM (résistivités), complétée par une phase d’automatisation sur l’ensemble de l’île.
Les premiers tests sur des modèles supervisés se sont révélés insuffisants, notamment pour prédire les interfaces peu représentées. Une approche alternative consistant à reformuler le problème comme une tâche de segmentation d’image avec un réseau U-Net 2D a permis de mieux exploiter la continuité spatiale des profils AEM. Cependant, la validation de ce modèle a montré des limites,avec une concentration des erreurs dans certaines profondeurs critiques (5-10 m et 20-40 m), rendant les performances trop optimistes.
L’objectif du stage est de continuer ces développements en comparant plusieurs méthodologies avancées pour la détection automatisée de ces interfaces géologiques à partir des profils AEM. Les approches testées incluront :
– des modèles classiques améliorés (RF, CNN) ;
– des approches topologiques (TDA) pour quantifier l’incertitude structurelle ;
– des approches guidées par la physique (PINNs) intégrant des contraintes géologiques
Le ou la stagiaire devra construire des baselines reproductibles, définir un protocole d’évaluation robuste, comparer les performances des modèles sur l’ensemble de l’île, et surtout évaluer leur capacité à corriger les erreurs récurrentes identifiées sur les zones critiques (Dembeni, Longoni). Une attention particulière sera portée à la localisation des faux positifs/négatifs en profondeur. L’analyse des résultats par cartographie d’erreurs enrichira les réflexions sur la généralisation des approches IA en géosciences.

Profil du candidat :
Vous êtes autonome, curieux·se et rigoureux·se, avec une capacité à structurer et documenter vos analyses. Vous êtes à l’aise pour explorer, prétraiter, visualiser et interpréter des jeux de données complexes. Vous accordez une attention particulière à la robustesse méthodologique et êtes capable d’évoluer dans un environnement de recherche.

Doté·e d’un bon relationnel, vous savez collaborer au sein d’une équipe pluridisciplinaire, en lien étroit avec des spécialistes du domaine (géologues, géophysiciens, data scientists). Vous faites preuve de rigueur scientifique, d’esprit critique et de qualités de communication, à l’écrit comme à l’oral.

Formation et compétences requises :
Formation de niveau Bac+5 : Master 2 ou dernière année d’école d’ingénieur, avec spécialisation en data science, intelligence artificielle, mathématiques appliquées ou géosciences numériques.

Solides bases en apprentissage automatique : régression, classification, réseaux de neurones.

Maîtrise du langage Python et des bibliothèques standards en data science : scikit-learn, PyTorch ou TensorFlow, NumPy, Pandas, Matplotlib.

Une première expérience avec des architectures convolutives (CNN) ou de segmentation (U-Net) est un atout.

Une familiarité avec les problématiques de traitement de données géospatiales ou géophysiques est appréciée.

Des connaissances en Topological Data Analysis (TDA) ou en Physics-Informed Neural Networks (PINNs) seraient un plus, mais peuvent être développées durant le stage.

Intérêt pour les notions de validation rigoureuse, d’incertitude, de reproductibilité et de qualité des données.

Adresse d’emploi :
3 avenue Claude Guillemin, 45000 Orléans

Document attaché : 202511060727_Stage_BRGM_2026.pdf

Internship: Representation of physical quantities on the Semantic Web
Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : RECAST/– — –

Laboratoire/Entreprise : LIMOS, UMR 6158 / Mines Saint-Étienne
Durée : 4-6 mois
Contact : maxime.lefrancois@emse.fr
Date limite de publication : 2025-12-15

Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.

Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.

Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.

Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.

The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.

This study should lead to the publication of a scientific paper in a high impact scientific journal.

References
Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.

Profil du candidat :
Master 2 students in computer science

To apply, please submit by email or in an online file repository your CV, motivation letter, university transcripts, and possibly letters of recommendation. The motivation letter must explain why you are interested in this topic and why you are qualified to work on this topic.

Formation et compétences requises :
Equivalent of a M2 level in CS, with knowledge of Semantic Web technologies. Also, the candidate must have either very good programming skills in Java, or very good aptitude in formal and abstract thinking.

Adresse d’emploi :
Mines Saint-Étienne, Institut Henri Fayol, 29 rue Pierre et Dominique Ponchardier, 42100 Saint-Étienne, France

Dec
27
Sat
2025
Construction de graphes de connaissances historiques à l’aide d’algorithmes de graphes, LLMs et RAG
Dec 27 – Dec 28 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 mois
Contact : camelia.constantin@lip6.fr
Date limite de publication : 2025-12-27

Contexte :
Nos recherches portent sur les bases prosopographiques ayant pour objet la période médiévale. La prosopographie est une méthode des sciences sociales (sociologie, histoire) dans laquelle on cherche à analyser un groupe à partir d’une étude systématique des itinéraires singuliers des individus qui le composent. Pour cela les chercheurs collectent tous les faits (factoïdes) possibles sur chaque individu. En histoire médiévale, ces données sont rares, discontinues, incertaines et souvent d’une qualité médiocre. En effet, les experts de ces disciplines gèrent la qualité et l’incertitude dans le temps et l’espace. Ainsi, les personnes sont désignées par plusieurs noms, les lieux changent de noms et de frontières avec le temps ou selon l’auteur et un parcours de diplomation peut changer en fonction de l’époque, du lieu ou de la classe sociale de la personne. En raison de cette complexité, de nombreuses règles restent opaques pour les historiens médiévistes. En organisant ces données sous forme de graphe de connaissances, nous pouvons représenter des concepts, des personnes, des lieux ou des objets sous forme des nœuds et des interactions entre ceux-ci, comme telles que des affiliations ou des localisations comme arêtes avec des propriétés. Cela permet une organisation sémantique des données qui aide à mieux comprendre les contextes et les relations complexes entre les entités mentionnées dans les textes et de visualiser clairement l’interconnexion entre les différents éléments d’un ensemble de données.
La construction de graphes de connaissances à partir de sources de données ambiguës soulève plusieurs difficultés majeures liées à la nature imparfaite, hétérogène et souvent imprécise des textes ou bases d’origine. Les principales sources de complexité résident dans l’ambiguïté des entités (lorsqu’un même nom peut désigner plusieurs objets distincts ou, inversement, lorsqu’une entité apparaît sous des formes lexicales variées (abréviations, translittérations, synonymes). S’ajoutent à cela l’imprécision ou l’incomplétude des informations (par exemple, des dates approximatives ou des localisations vagues), qui favorisent la duplication d’entités lors de l’intégration : plusieurs nœuds représentant en réalité la même entité peuvent être créés. Les textes peuvent également contenir des relations implicites difficiles à extraire automatiquement, ou des contradictions entre sources multiples.

Parmi ces problèmes, certains peuvent être atténués par l’usage de modèles de langage de grande taille (LLMs), capables d’intégrer des indices sémantiques complexes et de désambiguïser les entités en tenant compte du contexte global. Les LLMs améliorent la reconnaissance des relations implicites et la cohérence sémantique entre textes hétérogènes. Cependant, plusieurs défis demeurent : les modèles ne résolvent pas les ambiguïtés lorsque deux entités très similaires apparaissent dans le texte sans marqueurs de distinction, ni les contradictions entre sources (le LLM peut les reconnaître mais ne garantit pas de choisir la bonne version, ou peut donner une confiance excessive à l’une sans justification). Ils n’éliminent pas non plus les duplications induites par des informations incomplètes ou imprécises, et peuvent introduire de nouveaux biais, notamment par hallucination d’entités ou surestimation de leur confiance. Dans des domaines historiques, le LLM peut manquer de données de formation spécifiques, ce qui réduit sa performance. Ces limites exigent l’intégration de méthodes complémentaires, telles que la reconnaissance d’entités nommées (NER), qui impose un typage explicite et stable des entités (personne, organisation, lieu, date, etc.), en permettant ainsi de filtrer les entités erronées ou inventées. En s’appuyant sur des lexiques, ontologies ou dictionnaires de référence, elle facilite la normalisation et l’alignement des entités, limitant ainsi la création d’alias ou de doublons. Des méthodes complémentaires, comme entity linking ou l’utilisation de règles symboliques peuvent aider à l’alignement des entités obtenues par des LLMs.

L’ajout de réseaux de neurones de graphes (GNN) améliore la désambiguïsation d’entités lorsque le contexte textuel seul est insuffisant, en s’appuyant sur les voisins et les motifs relationnels pour identifier la bonne correspondance, en exploitant la structure relationnelle du graphe. Ils renforcent également la détection de doublons et la fusion d’entités similaires en apprenant des représentations qui intègrent à la fois les attributs et les connexions locales.

Sujet :
Afin de pouvoir améliorer le liage d’entités, il est important d’avoir le maximum d’information pour chaque entité, et notamment ses liens avec les autres entités. L’objectif de ce stage est la mise en œuvre d’une architecture RAG-GNN intégrée, destinée à la construction, à la détection des duplicats et à la fusion d’entités d’un graphe de connaissances construit à partir de données prosopographiques Studium ambigües. Ces données existent sous forme de fiches où les mêmes individus ou lieux apparaissent plusieurs fois avec une description très différente suivant la source (donc des propriétés et relations différentes) voire des noms parfois très différents. Cette démarche vise à améliorer la qualité et l’utilité du graphe en découvrant et en intégrant des informations qui ne sont pas explicitement présentes mais qui peuvent être inférées à partir des relations et des attributs existants. D’autres jeux de données comme KnowledgeNet pourront être également utilisés.
Méthodologie : La méthodologie combine des modèles de langage préentraînés, recherche contextuelle, et apprentissage de représentations de graphes pour la construction et la consolidation de graphes de connaissances à partir de données historiques ambiguës. Dans une première étape, un modèle de langage de grande taille (LLM) est utilisé pour extraire automatiquement des entités, relations et attributs (dates, lieux, personnes) à partir des textes. Cette extraction est renforcée par des méthodes de reconnaissance d’entités nommées (NER), assurant une détection typée et une segmentation fiable des mentions, conformément aux principes décrits dans [1]. Le graphe ainsi obtenu sera stocké dans une base de données graphe (Neo4j) avec traçabilité des chunks sources et va constituer une base brute soumise à un processus d’enrichissement et de validation des liens de duplication( sameAs)). Un module de Retrieval-Augmented Generation (RAG) sera utilisé dans une première phase pour une décision sameAs ou notSame pour chaque paire d’entités candidate, accompagnée de preuves textuelles. Le LLM reçoit le contexte enrichi (entité A, entité B, leurs propriétés, leurs relations adjacentes dans le graphe et leurs chunks sources) pour prendre une décision de fusion, en fournisant la provenance factuelle pour la décision de résolution d’entité [2]. Les Graph Neural Networks (GNNs) sont ensuite utilisés pour exploiter la structure relationnelle du graphe et apprendre des représentations topologiques capables d’identifier les clusters d’entités équivalentes [3]. Le GNN sélectionne et connecte des sous-graphes d’un graphe de connaissances qui sont ensuite convertis en entrées textuelles pour un LLM [4], permettant la mise en place d’une boucle de rétroaction LLM–GNN afin d’affiner progressivement les décisions de fusion : les inférences structurelles issues du GNN guident le LLM dans ses réévaluations contextuelles, tandis que les jugements linguistiques du LLM enrichissent les représentations structurelles apprises par le GNN.

Profil du candidat :
Etudiant en Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :
Connaissances en python et en machine learning.

Adresse d’emploi :
LIP6 (Sorbonne Université),
Équipe Bases de Données http://www-bd.lip6.fr/

Document attaché : 202511272002_sujetStageKG_2026.pdf

Dec
30
Tue
2025
Concevoir une base de connaissance permettant d’aligner différentes méthodes d’innovation
Dec 30 – Dec 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre Génie Industriel, IMT Mines Albi
Durée : 6 mois
Contact : myriam.lamolle@mines-albi.fr
Date limite de publication : 2025-12-30

Contexte :
Ce stage s’inscrit dans le projet TABGHA qui se veut un outil de génération démultiplié de concepts hautement valorisables afin de promouvoir l’innovation avec l’aide du CGI (Centre de Génie Industriel) d’IMT Mines Albi (cgi.mines-albi.fr) et le LIASD, Université Paris 8.

Sujet :
Face à la méconnaissance des cultures innovations susceptibles de créer des ressources et le peu d’étude sur la valorisation économique des recherches (spin off, licence, prestation), le transfert de technologie devient crucial.
Pour cela, il faut, à partir d’une technologie générique (souvent sur étagère), multiplier les cas applicatifs (marchés d’atterrissage) pour accroitre les chances de valorisation (et aussi poursuivre les développements). À ce jour, de nombreuses méthodes existent pour générer ces différents cas applicatifs : design thinking, analyse fonctionnelle… Aucune d’entre elles ne faisant l’unanimité, le projet vise à développer une plateforme open-source en « Knowledge As A Service » (KaaS) comme écosystème digital fondé sur des composants logiciels qui se combinent pour collaborer de façon à permettre une évolution graduelle du système au travers de nouvelles contributions et de nouveaux composants fournis par la communauté.
L’objectif sous-jacent est de découvrir dans la base de connaissance constituée des connaissances cachées et de déterminer des analogies afin d’aider des décideurs à trouver de nouveaux domaines d’application de leur concept/produit ou à créer de nouveaux concept/produit.
Vous contribuerez à lever un des verrous scientifiques du projet : concevoir un ou des algorithmes d’alignement de méthodes de design thinking fondés sur l’analyse structurelle et sémantique de graphes de connaissances (ou ontologie modulaire).
Objectifs concrets :
1. Modéliser sous forme d’une ontologie les méthodes C-K, Vianeo (voire TriZ1) ;
2. En suivant une méthode scientifique, concevoir et implémenter des algorithmes permettant d’aligner semi-automatiquement les méthodes citées : les classes, les relations entre ces classes, etc. en explicitant les règles de transformation. Peupler la base de connaissance et évaluer les algorithmes sur le mini-cas d’étude réaliste ;
3. Créer les IHM pour offrir les services :
a) de choix de la méthode par laquelle le projet d’innovation sera développé ;
b) ou d’hybridation de méthodes pour une approche multi-points de vue ;
4. Rédiger un article de conférence internationale avec l’équipe d’encadrement.

Profil du candidat :
Bac+5 (Master 2 ou dernière année d’école d’ingénieur) en Informatique, Mathématiques Appliquées ou domaine connexe

Formation et compétences requises :
Compétences techniques indispensables :
• Maîtrise des concepts de l’IA neuro-symbolique ;
• Capaciter à conceptualiser des méthodes complexes
• Maîtrise d’outils et méthodes d’analyse de graphes
• Excellente compréhension écrite, bonne expression (lecture/rédaction d’articles) et bonne compréhension orale en anglais
Qualités personnelles attendues
• Capacité à proposer des idées algorithmiques dès l’entretien
• Être moteur dans les échanges scientifiques et la validation d’idées
• Goût pour la formalisation mathématique et l’expérimentation méthodique
• Appréciation pour la recherche bibliographique
Un plus :
• Expérience en recherche (stage labo, projet R&D…)
• Connaissance des ontologies et des logiques de description
• Intérêt pour les systèmes à base de raisonnement

Adresse d’emploi :
IMT Mines Albi (Centre de génie industriel), Albi (81)

Document attaché : 202511171603_offreStageM2_sujet1_2026.pdf

Dec
31
Wed
2025
Détection de phénomènes de diffusion dans les réseaux sociaux
Dec 31 2025 – Jan 1 2026 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Université Bourgogne Europe
Durée : 5 à 6 mois
Contact : annabelle.gillet@u-bourgogne.fr
Date limite de publication : 2025-12-31

Contexte :
Dans les réseaux sociaux, la manipulation de l’information est une problématique pouvant avoir des conséquences néfastes importantes. Les stratégies de diffusion d’informations manipulées sont complexes, et peuvent avoir recours à la mise en oeuvre d’armées de robots ayant différents rôles dans le réseau. Par exemple, un groupe de robots peut avoir pour tâche de spammer certains messages ou mots clés afin de manipuler les tendances et de gagner une visibilité importante en peu de temps, d’autres robots peuvent avoir un profil évolué ainsi qu’une activité quotidienne, leur permettant de passer pour des utilisateurs légitimes et de donner plus de poids aux messages qu’ils pourraient diffuser dans certaines communautés. Toutefois, la détection de ces armées de robots est complexe, et l’évolution rapide de leur comportement et de leur organisation restreint les types d’algorithmes utilisables.

Le projet ANR Beelzebot est un projet interdisciplinaire regroupant des chercheurs en informatique, en sciences de la communication et du langage. Il a pour objectif de définir des mécanismes pour détecter les armées de robots sur Twitter en se basant sur des méthodes non-supervisées, ainsi qu’à caractériser les activités de ces armées.

Sujet :
L’objectif du stage, dans le cadre du projet ANR Beelzebot, est de détecter des phénomènes de diffusion sur Twitter et de les caractériser. Pour cela, une approche prometteuse consiste à utiliser des algorithmes s’appuyant sur des tenseurs afin de créer un résumé des données pouvant être exploité pour détecter des zones denses sur le réseau qui peuvent correspondre à des phénomènes de diffusion. Un des avantages des tenseurs est leur aspect multi-dimensionnel, permettant notamment d’intégrer nativement une dimension temporelle aux analyses, contrairement aux approches basées sur les graphes.

Un autre objectif du stage est d’étudier plus en détail les phénomènes de diffusion détectés, en utilisant des analyses complémentaires visant à les caractériser. En effet, certains phénomènes de diffusion sont naturels et résultent de l’utilisation standard du réseau, tandis que d’autres proviennent d’actions de manipulation tentant de profiter des mécanismes du réseau pour diffuser des idées ou perturber son fonctionnement normal. Il s’agit plus particulièrement d’étudier leurs impacts sur les structures communautaires, les utilisateurs frontières, les utilisateurs influents, l’émergence de hashtags, etc.

En plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter sont à disposition, comme par exemple les discussions autour de l’élection présidentielle française de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’Université Bourgogne Europe.

Une poursuite en thèse à la suite du stage est envisageable.

Profil du candidat :
– étudiant en Master 2 avec spécialité informatique ;
– curiosité et rigueur scientifique ;
– compétences en gestion de données ;
– solides connaissances et compétences en algorithmique et développement logiciel.

Formation et compétences requises :

Adresse d’emploi :
Université Bourgogne Europe, Dijon

Document attaché : 202511211319_StageBeelzebot2026.pdf

Internship Subject M2 – Integrating Earth observation data and deep learning methods to monitor food systems
Dec 31 2025 – Jan 1 2026 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-12-31

Contexte :
Food systems are highly interconnected between countries on a global scale, as shown by recent disruptions such as the war in Ukraine and the global pandemic. Food flows are vulnerable to shocks, and these disruptions influence food prices, which in turn affect food consumption patterns. This has had a significant impact on people’s diets, particularly in underdeveloped countries where food security is already fragile. However, scientists and policy-makers lack the data and tools to identify weak points in food flows and build food systems resilient to shocks and disruptions. While considerable progress has been made using Earth Observation data to map crop locations and agricultural productivity (e.g. crop yields), little attention has been paid to the intermediate stages of the workflow – distribution, processing and markets – which are key to understanding and modeling how food moves from production to consumption. Additionally, numerous geospatial datasets, such as OpenStreetMap, are publicly accessible and provide valuable information on land use and land cover.

Thanks to advances in artificial intelligence and its application to Earth Observation data, continuously collected satellite images on a global scale, combined with meteorological data, make it possible to monitor food systems in real time. Deep learning models, capable of capturing complex, non-linear relationships, and multimodal algorithms integrating data from a variety of sources, are opening up new perspectives in this field. This internship proposes to exploit multi-temporal and multi-resolution Earth observation data, by combining them with learning models, to monitor food systems, estimate agricultural yields and analyze their links with market prices.

This internship focuses on developing machine learning approaches to analyze food flows in Rwanda, in relation to food security situation in the country, by using comprehensive market data and geospatial information. Food flows often deviate from optimal distribution patterns due to infrastructure constraints, market dynamics, and socio-economic factors. For example, a certain product (e.g., potatoes) grown in northern regions may follow suboptimal routes to reach southern markets. By modeling both ideal and actual food flows, we can identify bottlenecks and opportunities to improve food security.

Sujet :
Missions :

The project aims to understand the relationship between food production locations, distribution networks, and market accessibility to inform food security policies. More specifically, the final task is to build a machine learning model able to predict the probability that a certain item is sold in a specific market, based on production and distribution data.

The project leverages two primary datasets:

· Public Market Dataset: 1.2 million items across 70 markets covering 10 types of food items.

· CGIAR/IITA Survey Database: A dataset collected by the IITA (International Institute of Tropical Agriculture) including monthly data from 7,000 vendors across 67 markets in all districts of Rwanda, including food quality assessments and detailed market information.

These datasets will be complemented by geospatial data including OpenStreetMap (OSM) infrastructure data, land cover information, and Earth observation data (NDVI and other spectral indices).

The main tasks to address during the internship will be:

1. Database Integration and Market Mapping

a. Merge the public market dataset with CGIAR/IITA survey data to create a comprehensive market database

b. Map which specific food items are sold in which markets

2. Geospatial Data Integration

a. Incorporate OpenStreetMap data to understand transportation networks and market accessibility

b. Integrate land cover and agricultural production data to identify food production zones

c. Process Earth observation data (NDVI, meteorological data) to assess agricultural productivity

d. Map the complete food system from production areas to consumption markets

3. Machine Learning Model Development

a. Develop predictive models to estimate the probability that specific food items will be available in particular markets

b. Compare actual food flows with modeled optimal flows to identify inefficiencies

c. Test developed models against baseline methodologies and state-of-the-art approaches

4. Writing of the internship report (in English) to capitalize on the work carried out with a view to a possible scientific publication. If possible, also release associate code and data.

Profil du candidat :
Skills required :

– Programming skills

– Interest in data analysis

– Scientific rigor

– Curiosity and open-mindedness

– Analytical, writing and summarizing skills

How to apply :

Send CV, cover letter and M1 (or 4th year) transcript to :

simon.madec@cirad.fr , roberto.interdonato@cirad.fr

specifying as e-mail subject “CANDIDATURE STAGE DIGITAG”.

Additional Information :

– Duration of 6 months, starting February 2025

– Remuneration: CIRAD salary scale, ~600 euros/month

– The internship will take place at CIRAD, in the UMR TETIS (Territory, Environment,

Remote Sensing and Spatial Information), located at the Maison de la

Télédétection in Montpellier.

– The internship will be carried out in collaboration with Assistant Professor

Claudia Paris and Yue Dou, currently working at the ITC Faculty of Geographic Information

Science and Earth Observation, University of Twente, Netherlands.

Formation et compétences requises :
Skills required :

– Programming skills

– Interest in data analysis

– Scientific rigor

– Curiosity and open-mindedness

– Analytical, writing and summarizing skills

How to apply :

Send CV, cover letter and M1 (or 4th year) transcript to :

simon.madec@cirad.fr , roberto.interdonato@cirad.fr

specifying as e-mail subject “CANDIDATURE STAGE DIGITAG”.

Additional Information :

– Duration of 6 months, starting February 2025

– Remuneration: CIRAD salary scale, ~600 euros/month

– The internship will take place at CIRAD, in the UMR TETIS (Territory, Environment,

Remote Sensing and Spatial Information), located at the Maison de la

Télédétection in Montpellier.

– The internship will be carried out in collaboration with Assistant Professor

Claudia Paris and Yue Dou, currently working at the ITC Faculty of Geographic Information

Science and Earth Observation, University of Twente, Netherlands.

Adresse d’emploi :
500 rue Jean François Breton, 34090, Montpellier

Stage IA en cancérologie avec la possibilité de poursuivre en thèse
Dec 31 2025 – Jan 1 2026 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sesstim, Aix Marseille Université
Durée : 6 Mois
Contact : raquel.urena@univ-amu.fr
Date limite de publication : 2025-12-31

Contexte :
Ce stage s’inscrit dans un projet de recherche à l’interface de l’intelligence artificielle et de la santé, mené au sein d’une équipe multidisciplinaire réunissant informaticiens, médecins, biostatisticiens et chercheurs en santé publique.

L’objectif global est de modéliser et d’analyser les parcours de soins longitudinaux des patients à partir de données massives issues des bases médico-administratives (SNDS).

Ces travaux permettront d’identifier des profils de patients, des ruptures de parcours et des facteurs de réhospitalisation, afin d’améliorer la compréhension et la personnalisation de la prise en charge.
Le stage se déroulera au sein de l’équipe CaLIPSo / SESSTIM (Aix–Marseille Université), sur le IPC à Marseille, dans un environnement stimulant à l’interface de l’IA, de la santé et des sciences sociales.
Le stagiaire sera encadré par Raquel URENA, maître de conférences en informatique especialiste en IA et santé, et travaillera en interaction directe avec des chercheurs en IA, des épidémiologistes et des cliniciens de de l’Institut Paoli-Calmettes, sur des données massives réelles à fort impact sociétal.

Sujet :
Objectifs du stage
Le stagiaire participera à la conception et au développement de modèles innovants de modélisation automatique des trajectoires de soins en utilisant des techniques avancées de representation learning et de Large Language Models (LLMs) appliquées aux données de santé.
Les principales missions incluent :
• Extraction et structuration de trajectoires temporelles à partir de données massives (diagnostics, actes, hospitalisations, prescriptions).
• Développement de représentations patient à l’aide de modèles de deep learning.
• Comparaison et évaluation de différentes approches de representation learning.
• Identification de profils de soins, visualisation et interprétation des trajectoires representations.

Profil du candidat :
Compétences requises
• Solides connaissances en machine learning, representation learning et modélisation de séries temporelles.
• Maîtrise de Python (Pandas, NumPy, Scikit-learn, PyTorch/TensorFlow) et des bases de données SQL.
• Langue française indispensable, niveau avancé en anglais (oral et écrit).
• Excellentes capacités de rédaction scientifique et de communication.
• Curiosité, rigueur scientifique, autonomie et goût pour le travail interdisciplinaire.
Environnement de travail

Formation et compétences requises :
M2 Informatique/ IA/ Mathémathiquées appliqués

Adresse d’emploi :
232 Bd de Sainte-Marguerite, 13009 Marseille

Jan
10
Sat
2026
An NLP framework to automatically evaluate the adequacy and relevance of assessment items
Jan 10 – Jan 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SAMOVAR, Télécom SudParis, IP Paris
Durée : 6 Months
Contact : luca.benedetto@telecom-sudparis.eu
Date limite de publication : 2026-01-10

Contexte :

Sujet :
This project proposes developing an NLP framework to automatically evaluate the adequacy and relevance of assessment items in relation to their associated learning content. While existing research in Question Difficulty Estimation from Text (QDET) has focused primarily on analyzing exam items in isolation, this work addresses a critical gap by evaluating questions within the context of course lectures and learning paths. The framework will employ a combination of traditional machine learning, Information Retrieval techniques, semantic embeddings, and Large Language Models to assess newly created exam questions for validity, relevance, and difficulty.

Profil du candidat :
Previous experience with Python and Machine Learning is required.

Formation et compétences requises :

Adresse d’emploi :
19 place Marguerite Perey, 91120 Palaiseau France

ou

9 rue Charles Fourier, 91011 Evry-Courcouronnes France

Document attaché : 202512031306_2025_11___Proposal_Stage_M2.pdf

Computer Vision appliquée aux sports de combat
Jan 10 – Jan 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC / ORION SportTech
Durée : 4 à 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2026-01-10

Contexte :
ORION SporTech développe des solutions logicielles basées sur la vidéo et l’intelligence artificielle pour le monde du sport. Au-delà de la performance, ORION SporTech conçoit des solutions pour la Fan Expérience : nos logiciels enrichissent les vidéos avec des effets visuels dynamiques et des contenus interactifs destinés à engager les supporters et valoriser les partenaires.

ORION SporTech est incubée chez Normandie Incubation, au cœur de
l’écosystème startup normand.

Le stage est co-encadré par le laboratoire GREYC – Unicaen – Ensicaen – CNRS.

Sujet :
Le stage concerne la détection automatique des coups portés dans des vidéos de combats, captées via flux broadcast monoculaire (caméra unique, plan fixe ou mobile). L’objectif est de développer un pipeline de vision par ordinateur capable de :
– Détecter les coups portés
– Identifier la latéralité
– Estimer l’impact
Le candidat pourrait montrer des dispositions à maîtriser les techniques
d’estimation de pose et de classification de séquences.

Profil du candidat :
– Formation en informatique, vision par ordinateur, IA ou traitement d’image
– Connaissances en deep learning appliqué à la vidéo
– Intérêt pour le sport, idéalement les sports de combat
– Autonomie, rigueur, esprit de recherche

Formation et compétences requises :
M2 / ingénieur informatique IA – Data – Computer vision

Adresse d’emploi :
17 rue Claude Bloch à Caen

Jan
11
Sun
2026
Offre de stage M2 Recherche chez BaaS.sh
Jan 11 – Jan 12 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : BaaS.sh en collaboration avec l’IRIT (Toulouse)
Durée : 5 à 6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2026-01-11

Contexte :
BaaS.sh est une startup deeptech qui conçoit une blockchain de nouvelle génération : rapide à déployer, simple à utiliser → pensée pour les devs, optimisée pour la perf.

Sujet :
Rejoins BaaS.sh, en collaboration avec le IRIT, pour contribuer à la mise en place et à l’optimisation de notre infrastructure blockchain. Tu travailleras sur des sujets concrets, techniques et à fort impact :
● Déployer, superviser et automatiser des architectures complexes.
● Concevoir des pipelines robustes (CI/CD, provisioning, monitoring, logging).
● Mener des analyses comparatives de blockchains concurrentes.
● Side projects : serveur MPC, module n8n, plugin VSCode…
Un stage exigeant, encadré, au coeur d’un projet deeptech ambitieux.
Tu évolueras dans un environnement stimulant, entre infrastructure, performance, et blockchain de nouvelle génération.
Si compétences exceptionnelles :
tu pourras également contribuer à des sujets plus avancés : orchestration distribuée, sécurité réseau, scaling dynamique.

Profil du candidat :
Master 2

Formation et compétences requises :
Expérience concrète avec Docker Swarm ou Kubernetes.
CI/CD, base d’un delivery efficace et fiable.
Bonnes notions en observabilité (Grafana, Prometheus…) et en gestion de logs.
Docker, Git et les outils d’automatisation n’ont pas de secrets pour toi.

Adresse d’emploi :
Lieu : 100 % remote, avec interactions virtuelles régulières.
Durée : 5 à 6 mois, début flexible à partir de janvier 2026.
Encadrement : par le CTO de BaaS.sh en collaboration avec un enseignant-chercheur du IRIT.

Document attaché : 202512051336_Stage M2 Recherche chez BaaS.sh.pdf

Quantification d’incertitude appliquée à la détection d’incohérences dans des images
Jan 11 – Jan 12 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Loria Nancy / Centralesupélec Metz
Durée : 4-6 mois
Contact : arthur.hoarau@centralesupelec.fr
Date limite de publication : 2026-01-11

Contexte :
Détecter des anomalies ou incohérences locales dans des images grâce à la quantification d’incertitude en apprentissage automatique profond.

Sujet :
En Apprentissage Automatique appliqué à la vision par ordinateur, les cartes de chaleur (heatmaps) sont des outils de visualisation interprétable permettant de comprendre quelles régions d’une image contribuent le plus à la prédiction d’un modèle. Les méthodes les plus répandues, comme Grad-CAM [1], exploitent les gradients des activations internes d’un réseau convolutif pour générer une carte d’importance pondérée.

L’objectif de ce projet est d’obtenir une carte de chaleur des incohérences locales ou anomalies dans une image pour une tâche de classification (e.g., un chat avec des lunettes, un O.V.N.I ou encore une contamination ou impureté sur un aliment) grâce à la quantification d’incertitude du modèle. Quatre grandes familles de méthodes existent dans la littérature pour extraire ces incertitudes : les méthodes bayésiennes, qui modélisent par nature ces différents types d’incertitude [3] ; les méthodes ensemblistes, qui approximent une distribution de probabilités grâce à la variance prédictive des estimateurs [4] ; la minimisation de risque de second ordre, qui modèle l’incertitude du modèle directement dans la fonction de perte ; et les méthodes par densité locale qui s’intéressent au voisinage de l’instance de test.
L’étude pourra en partie s’appuyer sur les récents travaux de [2], qui proposent une méthode pour quantifier l’incertitude liée à l’importance de chaque pixel dans une image.

Voic le document ci-joint pour plus de détails.

[1] R. Selvaraju et. al. Grad-CAM : Visual Explanations from Deep Networks via Gradient-based Localization. IEEE International Conference on Computer Vision (ICCV), 2017.
[2] K. Wickstrom et. al. REPEAT : Improving Uncertainty Estimation in Representation Learning Explainability. Proceedings of the AAAI Conference on Artificial Intelligence, 2025.
[3] A. Kendall et. al. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision ?. Advances in Neural Information Processing Systems, 2017.
[4] B. Lakshminarayanan et. al. Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. Advances in Neural Information Processing Systems, 2017.

Profil du candidat :
– Master 2, préparez une copie de vos notes
– Bon niveau d’anglais
– Appétence pour l’apprentissage automatique

Formation et compétences requises :
– Programmation Python, Machine Learning
– Apprentissage Profond
– Rédaction, Vulgarisation

Adresse d’emploi :
Centralesupélec Metz ou Loria Nancy

Document attaché : 202512051126_sujet_stage.pdf

Stage M2 (+ thèse) : Approches apprentissage pour la complétion informée de données : Détection multi-échelle spectrale de vers de Roscoff.
Jan 11 – Jan 12 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique, Signal et Image de la
Durée : 6 mois
Contact : claire.guilloteau@univ-littoral.fr
Date limite de publication : 2026-01-11

Contexte :

Sujet :
Description du sujet :
Le ver de Roscoff (Symsagittifera roscoffensis) est un petit organisme marin vivant en photosymbiose avec une microalgue verte (Tetraselmis convolutae), ce qui en fait à la fois un modèle d’étude de la symbiose et un bioindicateur de l’état des écosystèmes côtiers [1]. Actuellement, la détection et le suivi des vers de Roscoff reposent sur l’observation directe. L’identification et le suivi de cette espèce à distance restent un défi scientifique et technologique. Le développement de méthodes automatiques d’identification et de suivi permettrait d’évaluer les facteurs environnementaux influençant leur présence et leur répartition ou encore leur dynamique au cours d’un cycle de marée ou lors d’événements météorologiques extrêmes. Ces avancées contribueraient également à mieux comprendre le rôle écologique du ver de Roscoff, qui participe aux flux de matière organique, favorise la capture de CO2 par ses algues symbiotiques et contribue à la production d’O2 dans les zones littorales.
Les approches d’imagerie spectrale permettent de caractériser la signature optique d’organismes ou d’habitats, ouvrant la voie à leur télédétection [2]. Dans ce stage, le ver de Roscoff constitue donc un cas d’étude idéal pour développer des méthodes de détection multi-échelle et de traitement de données hyperspectrales.

Ce projet de stage cherche à répondre à deux verrous scientifiques principaux :
* L’échelle d’observation. La détection en champ proche et contrôlé est faisable en laboratoire, mais la généralisation aux échelles aéroportées et satellitaires reste à confirmer, notamment pour des raisons de résolution spatiale [3].
* La complétion informée des données multi-sources. La complétion informée est le fait de combiner intelligemment des données fines mais locales (airborne) avec des données grossières mais globales (satellite) pour reconstituer une information complète et cohérente. Cette tâche constitue un défi méthodologique.

L’objectif est de développer une approche multi-échelle de détection spectrale des vers de Roscoff. Le projet s’articule autour des 3 étapes suivantes :
1. Identifier les bandes spectrales pertinentes pour la détection des vers de Roscoff en champ proche (laboratoire) et en milieu contrôlé. Cette étape permettra la sélection méticuleuse des instruments satellitaires et aéroportés à utiliser pour cette étude.
2. Développer et tester des méthodes de complétion de données informée afin d’associer les images à différentes résolutions (aéroporté, satellite).
3. Évaluer la faisabilité de la détection automatique à large échelle des vers de Roscoff dans des environnements côtiers, et l’identification des sites candidats pour des futures campagnes in situ ou par survol aérien.

Le but du projet est de développer un outil capable de produire des cartes exploratoires de présence potentielle des vers de Roscoff à partir de données satellitaires et aéroportées afin de contribuer à la mise en place d’un outil de suivi innovant de la biodiversité du littoral. D’un point de vue méthodologique, le projet comporte une part expérimentale mobilisée dans les différentes étapes du projet. Une première phase exploratoire en laboratoire aura pour but d’acquérir des images hyperspectrales des vers de Roscoff en milieu contrôlé. Une seconde phase expérimentale consistera à acquérir des images aéroportées sur des sites déjà identifiés par les chercheurs du laboratoire UGSF pour tester la capacité de détection en milieu
naturel à une échelle intermédiaire. La majorité du projet concerne le développement d’algorithmes de complétion de données informée à l’aide d’approches de type apprentissage automatique/machine learning. De nombreuses méthodes de complétion de données informée existent dans la littérature. Elles sont cependant développées à partir de cas idéaux ou simulées. Par conséquent, peu répondent aux contraintes de notre problème : potentiel mauvais alignement des images entre elles, connaissance limitée des spécifications instrumentales, pas de données annotées ou « vérité-terrain » disponible, représentativité limitée des données aéroportées, non-linéarité des mélanges spectraux.

Cette thématique fait l’objet d’une demande en cours de financement de thèse pour l’automne 2026. Le cas échéant, le ou la candidate pourra poursuivre ce travail pour la préparation d’une thèse.

Encadement :
Le stage aura lieu dans l’antenne de Longuenesse(62) du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée en 2020, compte actuellement 8 chercheurs permanents, 3 chercheurs postdoctorants et 7 doctorants. Le ou la stagiaire sera encadré(e) par Claire GUILLOTEAU et Gilles ROUSSEL qui apporteront leur expertise respective en traitement des images MS/HS et en machine learning pour l’imagerie satellitaire. Le ou la stagiaire aura également l’occasion de collaborer avec Christophe Colleoni et Anne Créach, chercheurs spécialistes de la biologie intégrative des polysaccharides de réserve au laboratoire UGSF (Unité de Glycobiologie Structurale et Fonctionnelle) de l’Université de Lille. 

[1] Androuin, T., Six, C., Bordeyne, F., de Bettignies, F., Noisette, F., & Davoult, D. (2020). Better off alone? New insights in the symbiotic relationship between the flatworm Symsagittifera roscoffensis and the microalgae Tetraselmis convolutae. Symbiosis.https://doi.org/10.1007/s13199-020-00691-y
[2] Dierssen, H. M., McManus, G. B., & Kudela, R. M. (2021). Living up to the hype of hyperspectral aquatic remote sensing. Frontiers in Environmental Science, 9, 649528. https://doi.org/10.3389/fenvs.2021.649528
[3] Purkis, S. J. (2022). Remote sensing the ocean biosphere. Annual Review of Environment and Resources, 47, 357–383.https://doi.org/10.1146/annurev-environ-112420-013219

Profil du candidat :
Candidater :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python, C). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en traitement d’images satellitaires hyperspectrales ou en deep learning sera appréciée.

Pour candidater, merci d’envoyer un courriel à {claire.guilloteau, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :
* votre CV,
* une lettre de motivation,
* vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
* jusqu’à deux lettres de recommandation ou les noms et moyens de contact de deux référents.

Les candidatures seront étudiées de manière continue jusqu’à ce que le stage soit pourvu.

Formation et compétences requises :

Adresse d’emploi :
Longuenesse (62)

Document attaché : 202512081103_VERDEMES_Stage_2026-FR.pdf

[M2] Vol en formation rapprochée pour des drones (close formation flight for small drone teams)
Jan 11 – Jan 12 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : USIS, ENSTA
Durée : jusqu’à 6 mois
Contact : mario.gleirscher@ensta.fr
Date limite de publication : 2026-01-11

Contexte :
De petites équipes d’autonomous aerial vehicles (AAVs) peuvent être utilisées pour collaborer sur des tâches qui ne conviennent pas à un seul AAV. Ces tâches peuvent impliquer la livraison collaborative de colis ou le partage de ressources (e.g., fusion de capteurs distribués, coordination basée sur la durée de vie des batteries ou les capacités de charge utile). De plus, les équipes AAV fonctionnent avec un niveau d’autonomie accru. Une plus grande autonomie impose des exigences plus strictes en matière de critères de performance et de garanties d’exactitude des systèmes de détection et de contrôle de chaque membre de l’équipe. Par exemple, lors d’une tâche de livraison, un vol en formation précis et fiable à proximité immédiate peut être nécessaire.

Sujet :
Ce stage de fin d’études s’inscrit dans le cadre de coordination et contrôle des systèmes robotiques multi-agents et vise à developper une approche pour l’estimation consensuelle des informations pertinentes, la communication entre les membres de l’équipe et la coordination des tâches axée sur les objectifs.

Profil du candidat :
* Diplôme d’ingénieur ou Master 2 en contrôle, mécatronique, systèmes cyber-physiques, systèmes embarqués, ou informatique.
* Niveau d’étude : Bac+5 (M2 ou 3A Diplôme d’ingénieur)
* Bonnes compétences en programmation en C, C++ et Python
* Maîtrise de l’anglais, écrit et parlé. Connaissance préalable du français souhaitable.

Formation et compétences requises :
Compétences recherchées :

* Systèmes multi-agents, contrôle robuste
* Modélisation dynamique, approximation numérique
* Raisonnement automatisé sur les garanties d’exactitude
* Programmation : C, C++, Python

Adresse d’emploi :
Période de démarrage : entre fevrier et mars 2026
Candidature : Merci d’envoyer un CV, une lettre de motivation ainsi que vos relevés de notes à mario.gleirscher@ensta.fr.

Document attaché : 202512081106_stage-vol-en-formation-gleirscher.pdf

Jan
15
Thu
2026
Intégration de la variabilité temporelle dans la prédiction des communautés phytoplanctoniques à l’aide du deep learning.
Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Oceanographique de Villefranche-sur-me
Durée : 6 mois
Contact : enza.labourdette@imev-mer.fr
Date limite de publication : 2026-01-15

Contexte :
Le phytoplancton regroupe les micro-organismes marins dérivant au gré des courants et capables de
produire de la matière organique grâce à la photosynthèse.
Il joue un rôle essentiel dans le fonctionnement du système Terre : il contribue à environ la moitié de la
photosynthèse planétaire, participe au stockage du carbone à l’échelle climatique via la pompe
biologique, et constitue la base des réseaux trophiques marins.
Mieux comprendre la répartition et la diversité du phytoplancton, en lien avec les conditions physiques
et biogéochimiques de son environnement, est donc fondamental. Cela permet d’estimer plus finement
sa biomasse, son rôle dans les cycles biogéochimiques et d’anticiper les réorganisations induites par les
changements climatiques et océaniques globaux.
Cependant, l’observation directe du phytoplancton à grande échelle demeure limitée, car elle repose sur
des campagnes en mer et des prélèvements coûteux. Les données HPLC (High Performance Liquid
Chromatography), qui permettent d’analyser les pigments photosynthétiques pour quantifier
précisément les communautés phytoplanctoniques, offrent une référence fiable, mais restent
coûteuses et spatialement limitées.
Pour étendre ces observations ponctuelles à l’échelle globale, les satellites d’observation de la couleur
de l’océan constituent un outil clé. Les algorithmes empiriques actuels permettent d’estimer la
composition du phytoplancton à partir des réflectances optiques , mais ils présentent encore
une marge d’erreur importante et ne capturent pas toujours la complexité spatiale et temporelle des
structures océaniques (fronts, tourbillons, etc.).

Sujet :
Ce stage s’inscrit dans la continuité d’une thèse centrée sur la prédiction des Phytoplankton Functional
Types (PFTs) à partir de la couleur de l’eau et de variables satellitaires à l’aide de méthodes de deep
learning.
L’objectif principal est d’améliorer la robustesse et la précision des prédictions en intégrant explicitement
la dimension temporelle des données au moyen de méthodes avancées de deep learning.
Concrètement, cela consiste à exploiter les images satellites des jours ou des semaines précédentes pour
estimer la quantité et la composition du phytoplancton à un instant t donné. En effet, la croissance du
phytoplancton est un processus dynamique, et son état actuel dépend fortement des états antérieurs du
système.
Un pipeline opérationnel est déjà en place :
– les données satellitaires et in situ ont été extraites et prétraitées,
– des modèles de type MLP (Multi-Layer Perceptron) ont été développés et évalués,
– une première étude de la sensibilité, en termes de qualité des prédictions, aux variables d’entrée
et à l’architecture du modèle a été menée,
– une seconde étude, sur l’intégration de la dimension spatiale dans les données d’entrée, est en
cours.
Le stage consistera à poursuivre et à approfondir ces travaux, notamment en :
– explorant de nouvelles architectures de deep learning (par ex. RNN) permettant de mieux
capturer la structure temporelle des données ;
– évaluant l’impact de cette intégration sur la qualité des prédictions de PFTs ;
– affinant l’interprétation des modèles pour mieux comprendre les liens entre conditions
environnementales et composition des communautés phytoplanctoniques.
Ce travail contribuera directement à l’amélioration des produits satellitaires de distribution
phytoplanctonique à l’échelle globale, utiles pour le suivi de la santé des écosystèmes marins et la
gestion durable des ressources océaniques.

Objectifs du Stage :
– Compréhension de la problématique biologique.
– Étude des relations entre les propriétés optiques de l’eau et les PFTs.
– Prise en main et optimisation du pipeline existant, de la sélection et du traitement des données
jusqu’à leur exploitation dans un modèle de deep learning.
– Analyse de la variabilité spatio-temporelle : quantifier l’impact de l’intégration des dimensions
spatiale et temporelle sur la prédiction des PFTs.
– Mise en forme et valorisation des résultats pour une utilisation dans des travaux de recherche à
publier.

Profil du candidat :

Formation et compétences requises :
– Intérêt marqué pour la recherche et les sciences marines.
– Maîtrise du langage Python.
– Connaissances en deep learning (PyTorch).
– Des notions en écologie, biologie marine ou océanographie seraient un atout.

Adresse d’emploi :
181 chemin du Lazaret Villefranche-sur-Mer, France

Document attaché : 202511140931_STAGE 2026 – ANNONCE.pdf

Leveraging Vision–Language Models for multi-modal information extraction for Knowledge Graph constructio
Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube
Durée : 5-6 mois
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2026-01-15

Contexte :
The restoration or naturalization of hydro-ecosystems is a major challenge for the coming years in order to protect and preserve the quality and quantity of river water. Many restoration works – both recent and historical – have generated large amounts of textual documentation (reports, archival documents, project plans, regulations, scientific articles) and visual material (maps, drawings, aerial/satellite imagery, photographs, cross-sectional charts). However, that material is often unstructured, scattered across institutions, in multiple languages, and not organized to support comparative analysis, learning, or decision-making effectively.

Sujet :
The main research task involves applying and refining VLMs to extract complementary information from visual and textual data. The VLMs should recognize and describe restoration structures, spatial configurations, and temporal stages (before, during, and after restoration) from images. They should extract objectives, methodologies, outcomes, and environmental parameters from text. A key scientific challenge lies in the multi-modal alignment of information linking visual elements and textual references to produce consistent and interpretable outcomes.

Building on these results, the internship will contribute to the enrichment of an already existing structured knowledge model (ontology), describing restoration cases through key properties including intervention type, environmental context, methods, results, constraints, and costs. In addition to enriching the knowledge model, another key point is populating the knowledge model by constructing knowledge graphs with information extracted from images and text, ensuring querying, comparison, and visualization by researchers and practitioners.

Profil du candidat :
Knowledge on data science methods, knowledge representation and reasoning, knowledge graphs.
Languages: Python, java, owl/sparql.
Interest in the application domain, ability to work with experts who are not computer scientists would be appreciated.

Formation et compétences requises :
Student about to graduate a Master or Engineer (Bac + 5) with a specialization in Computer Science.

Adresse d’emploi :
ICube — 300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex
Meetings at ENGEES, 1 cour des cigarières, Strasbourg.

Document attaché : 202511141617_Sujet_stage_TETRA_VLM.pdf

Jan
16
Fri
2026
Détection et caractérisation de façades par apprentissage profond dans des images GSV
Jan 16 – Jan 17 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PRISME / Université d’Orléans
Durée : 6 mois
Contact : youssef.fouzai@etu.univ-orleans.fr
Date limite de publication : 2026-01-16

Contexte :
Ce stage s’inscrit dans le cadre du projet régional CERES, porté par le BRGM en partenariat avec le laboratoire PRISME de l’Université d’Orléans, Thélem Assurances et l’Agglomération de Blois. L’objectif global du projet est de caractériser grâce à des
techniques d’intelligence artificielle les éléments exposés du territoire du Centre-Val de Loire face aux risques naturels. On s’appuie sur des images satellitaires, d’autres issues de Google Street View (GSV )et des données cartographiques.

Sujet :
Dans le cadre du stage, les travaux à effectuer visent à approfondir l’analyse des façades de bâtiments, afin de produire des éléments exploitables pour caractériser leur
vulnérabilité face aux risques naturels dont le retrait/gonflement argileux qui fissure les constructions. Une façade contient de nombreux indicateurs de vulnérabilité auxquels l’expert attache une grande attention comme la surface et la position des portes et fenêtres ou la géométrie du bâtiment, pour l’affecter à une classe de vulnérabilité.
L’exploitation des images GSV utilisera des modèles deep learning pour détecter les façades dans les images et extraire des caractéristiques permettant d’en déduire un niveau de vulnérabilité Les résultats du stage seront exploités dans le cadre de la thèse du doctorant qui participera à l’encadrement du stagiaire.

Profil du candidat :
BAC+5 (Master 2/ école ingénieur) en informatique.

Formation et compétences requises :
BAC+5 (Master 2/ école ingénieur) en informatique avec de bonnes connaissances en traitement d’images, la maîtrise de la programmation Python (Pandas, NumPy, Scikitlearn, PyTorch/TensorFlow) ainsi qu’en apprentissage profond et un bon niveau d’anglais. Quelques connaissances en Systèmes d’Information Géographique (SIG) seraient également appréciées.

Adresse d’emploi :
Polytech, 12 Rue de Blois, 45100 Orléans

Document attaché : 202510311400_Stage Master_PRISME_CERES_v1.pdf

Jan
23
Fri
2026
Internship (+PhD) on Hyperspectral Foundation Models
Jan 23 – Jan 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab, Rouen Normandie
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2026-01-23

Contexte :

Sujet :
The foundation model (FM) paradigm is undoubtedly a major breakthrough in Machine Learning (ML) for Artificial Intelligence (AI). An FM is a large-scale neural network pre-trained with self-supervision on a vast unannotated dataset and designed to perform downstream tasks with minimal fine-tuning on small annotated datasets. While FMs have made an outstanding leap in computer vision and large language models, they have not yet emerged in fields where data is more complex, such as hyperspectral imaging and chemical analysis. Unlike traditional cameras with their primary colors (red, green, and blue), hyperspectral cameras capture detailed spectral information at every pixel, providing a detailed description of the properties of the material in the scene. ML methods have been devised to explore hyperspectral images, mainly addressing spectral unmixing, classification, and segmentation tasks. With the FM paradigm reshaping the landscape of ML, there is growing interest in FMs for hyperspectral imaging, with several papers published very recently mainly for image segmentation in airborne or satellite images [1, 2, 3].

This internship, leading to a PhD thesis, is an integral part of the interdisciplinary project HyFoundationS (Hyperspectral Foundation Models for Chemical Soil Analysis). Led by the LITIS Lab, HyFoundationS aims to develop an FM for chemical analysis of soil pollution by hyperspectral imaging. In order to unleash the full potential of FMs in the analysis of soil pollution, HyFoundationS brings together an AI laboratory (LITIS), a chemistry laboratory (Institut CARMeN), and a startup specialized in soil pollution analysis (Tellux). This consortium has been working together for more than 5 years, developing ML and chemical analysis for soil pollution assessment using hyperspectral cameras installed on a bench in lab conditions, allowing full environmental control on a wide variety of pollutants. HyFoundationS aims to provide major innovations to overcome key scientific and technical barriers for soil pollution analysis with FMs.

The intern will work (i) on reviewing the literature of FMs for hyperspectral imaging, focusing on several recently published papers [1, 2, 3], (ii) on providing a solid local implementation of an FM, (iii) on extending it to address chemical analysis tasks, and (iv) on providing experiments and evaluation for a case study. This work will be carried out in close collaboration with post-doc fellows, engineers, and senior researchers in AI, in chemical analysis, and in geoscience.

[1] N. A. A. Braham, C. M. Albrecht, J. Mairal, J. Chanussot, et al., “SpectralEarth: Training hyperspectral foundation models at scale.” IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (2025).
[2] D. Wang, M. Hu, Y. Jin, Y. Miao, et al., “Hypersigma: Hyperspectral intelligence comprehension foundation model.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025.
[3] D. Hong, B. Zhang, X. Li, Y. Li, C. Li, et al., “SpectralGPT: Spectral remote sensing foundation model,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.

Profil du candidat :
We are seeking a highly motivated intern with a strong interest in AI for science. The candidate must be in a Master’s or an engineering program in computer science, applied mathematics, AI, or a related field (including remote sensing), and must have solid technical skills in deep learning, with experience in Python and the common ML libraries.

Candidates with a strong interest in interdisciplinary research and who are able to work in a collaborative environment are strongly encouraged to apply.

If interested in an internship leading to a PhD, please send your CV and transcripts along with a motivational email to paul.honeine@univ-rouen.fr.
We also welcome applications for a PhD or Post-doc within the project HyFoundationS.

Formation et compétences requises :

Adresse d’emploi :
Rouen Normandie

Jan
30
Fri
2026
AI-based workflow for multimodal analysis of immersive traces for prospective memory assessment
Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : LS2N – Nantes Université
Durée : 5-6 months
Contact : yannick.prie@univ-nantes.fr
Date limite de publication : 2026-01-30

Contexte :
In collaboration with the LPPL, we have developed and tested a new embodied and immersive environment for assessing prospective memory. This environment is based on a learning task in which users must remember event- and time-based actions, in order to complete tasks in a large shopping mall.

Last year, a first experiment enabled us to collect user behavioral data from around 50 participants in 3 age categories (young adults, middle-aged, seniors) in this virtual environment. Classical memory scores (e.g., successes, type of failures, times…) were computed to assess the validity of this new virtual environment for evaluating prospective memory. We have designed a second experiment with two additional scenarios in the virtual mall and will test it this year with healthy participants and patients.

A key advantage of using virtual reality for neuropsychological assessment is the ability to use users’ behaviour, from user logs and trajectory data, to personally and accurately characterize users’ performance and cognitive state. A key challenge towards this goal is defining new indicators or metrics that are useful for clinicians and integrating them into clinician dashboards. The complex nature of the behavioral data and the limited number of subjects currently available makes modeling difficult.

Sujet :
The objective of this internship is to develop and assess a framework based on multimodal generative AI models that can visualize and model this behavioral data in order to propose new indicators for clinical use.

Missions
– State of the Art on behavioral indicators for neuropsychological/cognitive assessment
– Design AI-based workflows / architecture for data analysis
– Propose new indicators based on AI-framework
– Construct dashboards

Profil du candidat :
Last year in Engineering / Master’s degree

Duration : 5 / 6 months

Conditions: around 600€ / Month + half public-transportation monthly ticket

Formation et compétences requises :
Computer science or data science

– Knowledge and proficient use of generative AI
– Interest for cognitive sciences et interdisciplinarity
– Proficient in English

Send CV + motivation to yannick.prie@univ-nantes.fr, toinon.vigier@univ-nantes.fr

Adresse d’emploi :
Halle 6 Ouest on Nantes Island (https://halle6ouest.univ-nantes.fr/) and Polytech Nantes

Jan
31
Sat
2026
Approches de modélisation de processus et application en santé
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT (Institut de Recherche en Informatique de Tou
Durée : 6 mois
Contact : hugo.boisaubert@irit.fr
Date limite de publication : 2026-01-31

Contexte :
La finalité de ce stage est de contribuer à l’amélioration de la qualité des soins et de la vie des patients, tout en optimisant les ressources du système de santé avec des retombées potentielles applicables à d’autres secteurs et contextes cliniques.\

Dans le contexte médical, l’utilisation des modèles de processus ouvre de nouvelles possibilités pour la simulation de patient au bloc opératoire, la prédiction de ses futurs états ou encore la prédiction des besoins en médicaments. D’un point de vue décisionnel, les modèles de processus combinés aux données médicales peuvent permettre de nouvelles prédictions pour orienter un soignant dans les soins les plus adaptés à réaliser les plus adaptés aux patients dans une logique de médecine personnalisée.

Les processus de soins produisent des données qui peuvent être utilisée par des approche de modélisation automatique de processus. Cependant, alors que les données produites sont multi-modales (séries temporelles, textes, images, “mesures terrain”…), cette caractéristique est rarement exploitée.

Sujet :
Pour concrétiser ces possibilités, au cours de ce stage, il s’agira d’abord de constituer un état de l’art des approches de modélisation semi-automatique de processus, avec un focus particulier sur les cas d’application en santé. À partir des éléments identifiés, ce stage explorera de manière expérimentale l’enrichissement de processus par des données multimodales de santé dans un contexte d’anesthésie.

Profil du candidat :
Étudiant.e en cycle master ou ingénieur, en Informatique ou mention similaires, appétence pour la santé-numérique ou la bio-informatique.

Formation et compétences requises :
— Rigueur en programmation et capacité à générer de la documentation, avec usage des outils
standard (Git, Doctest, Sphinx ou équivalents) ;
— Des compétences en bases de données (SQL) sont attendues et une expérience en calcul intensif (ordonnanceur, parallélisation) sera appréciée ;
— Capacités à rendre compte de son travail régulièrement et à produire des outils de suivi et de pilotage ;
— Capacité à produire efficacement des documents de communication scientifique.
Langues : Maîtrise du Français (Niveau A2), conversationnel et écrit ; Maîtrise de l’anglais scientifique, écrit. Les certifications attestant de votre niveau en langues sont vivement encouragées.

Adresse d’emploi :
IRIT – IUT de Castres,
5 allée du Martinet
81100 CASTRES

Document attaché : 202512241517_stage_m2_2026_modele_processus-4.pdf

Caractérisation de profils clients à partir de données transactionnelles partielles et anonymes : Application au secteur du commerce de proximité
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS
Durée : 6 mois
Contact : baron@ensma.fr
Date limite de publication : 2026-01-31

Contexte :
Bimedia, filiale du groupe Orisha, est une entreprise spécialisée dans les solutions destinées aux points de vente de proximité (bureaux de tabac, boulangeries, etc.). Son offre repose sur un ensemble de services comprenant du matériel (caisses enregistreuses à double écran : le premier pour le commerçant et le second pour le client final), un logiciel d’encaissement, des solutions dématérialisées (cartes prépayées, etc.), ainsi que des dispositifs d’animation commerciale via des publicités diffusées sur l’écran client des caisses. Si le point de vente est identifié, le client final, lui, ne l’est pas. Pour pallier cette limite, une initiative récente baptisée BMyShop 1, proposée par Bimedia sous la forme d’une application mobile, permet d’associer certains clients finaux grâce à un programme de fidélité. Les informations collectées se limitent aux données strictement nécessaires (prénom, nom, âge) en conformité avec la réglementation (RGPD). Toutefois, cette base de clients finaux identifiés reste restreinte par rapport au volume de transactions réellement effectuées dans les commerces par des clients finaux anonymes, ce qui pose un défi scientifique pour exploiter des données partielles et anonymisées afin de caractériser, enrichir ou déduire des profils clients représentatifs.

Bimedia s’est associée au laboratoire LIAS, dans le cadre d’un projet de recherche appliquée. Trois enseignants-chercheurs et un ingénieur de recherche encadreront un étudiant de Master 2 (université ou école d’ingénieurs). Le travail attendu visera à développer des techniques d’apprentissage automatique (clustering, apprentissage semi-supervisé, génération de données synthétiques, intégration de données externes, etc.) pour construire des profils représentatifs tout en garantissant l’anonymat des participants. Pour comparer sa proposition avec l’état de l’art, l’étudiant devra identifier des bancs d’essai adaptés ou en définir un nouveau. Un objectif secondaire consistera à calculer un indice de confiance sur le profil établi en utilisant la théorie des modèles probabilistes.

Sujet :
L’objectif de ce stage est d’explorer des approches d’analyse et d’enrichissement de données à partir des bases transactionnelles (l’historique d’achats) issues d’une part des clients identifiés via l’application BMyShop et, d’autre part, des clients anonymes. Le stage visera à définir des techniques permettant de caractériser et d’associer des profils clients à partir de données partielles :

– élaboration de modèles prédictifs basés sur l’état de l’art et adaptés aux besoins spécifiques de Bimedia ;
– évaluation des différents modèles obtenus ;
– calcul d’indices de confiance sur les prédictions.

Si possible, les techniques développées devront mener à des modèles explicables pour que les analystes métiers de Bimedia puisse comprendre et accorder une certaine confiance aux résultats obtenus.

À noter que la réalisation d’un prototype de faisabilité sera demandé. Il ne s’agit pas de développer un logiciel industriel, qui lui sera à la charge de l’entreprise. L’entreprise souhaite juste s’assurer de la faisabilité technique et scientifique de la démarche proposée.

Profil du candidat :
Le candidat doit être en Master 2 en Informatique ou en dernière année de préparation d’un diplôme d’ingénieur spécialité Informatique.

Formation et compétences requises :
Une bonne connaissance du langage de programmation Python et des bibliothèques usuelles d’apprentissage automatique est requise. Un bon niveau en français est fondamental.

Adresse d’emploi :
https://www.lias-lab.fr/jobs/2026_lias_idd_profilsclients_fr.pdf

Document attaché : 202511071103_2026_lias_idd_profilsclients_fr.pdf