Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GeoKIF HELP Musiscale RECAST SaD-2HN SIMDAC SimpleText TIDS  


May
4
Sun
2025
Learning with heavy-tailed inputs: Out-of-domain Generalization on Extremes
May 4 – May 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire MAP5, Université Paris-Cité,
Durée : 4-6 months + opportu
Contact : anne.sabourin@u-paris.fr
Date limite de publication : 2025-05-04

Contexte :
The internship is intended to lead to a PhD thesis if everything goes as planned. The PhD will be funded by the ANR project EXSTA led by A. Sabourin. The Phd Candidate will benefit from interactions with other researchers in the field e.g. through workshops organised within the project’s framework, in addition to usual participation in conferences.

Sujet :
Context: Extreme Value Theory (EVT) is a field of probability and statistics concerned with tails of distributions, that is, regions of the sample space located far away from the bulk, associated with rare and extreme events. Poviding probabilistic descriptions and statistical inference methods for the tails requires sound theoretical assumptions pertaining to the theory of regular variation and maximum domains of attraction, ensuring that a limit distribution of extremes exists. This setting encompasses a wide range of applications in various disciplines where extremes have tremendous impact, such as climate science, insurance, environmental risks and industrial monitoring systems [1].

In a supervised learning framework, the goal is to learn a good prediction function to predict new, unobserved labels. In many contexts (covariate-shifts, climate change), extrapolation (or out-of-sample) properties of the predictors thus constructed are crucial, and obtaining good generalization properties on unobserved regions of the covariate space is key. Recently, there has been significant interest in the ML literature regarding out-of-domain generalization (see e.g. [2]).

Recent works [3,4,5] focus on the problem of learning a tail predictor based on a small of the most, with non-asymptotic guarantees regarding the risk on extreme regions . For simplicity, the theoretical study in both works is limited to Empirical Risk Minimization (ERM) algorithms without a penalty term. In addition, the regression problem analysed in [5] covers least squares regression only. Also, with heavy-tailed targets, non-linear transformations of the target are required in order to satisfy boundedness assumptions.

Research Objectives: The general purpose of this internship and subsequent thesis is to extend the scope of applications of the supervised learning methods described above to a wider class of learning algorithms. One main limitation of least squares regression is that the optimal predictor (i.e. the conditional expectation given the covariate) is not invariant under non-linear transformations of the target. As a starting point, the least-squares framework will be extended to the quantile regression framework which, in contrast to least squares, is compatible with non-linear transformations. From a statistical learning perspective, we shall extend the ERM framework considered thus far to encompass penalized risk minimizations procedures amenable to high dimensional covariates or non-linear regression functions. SVM quantile regression [6] is a natural candidate for this purpose. The goal will be to obtain finite sample guarantees on the generalization error of quantile regression functions learnt with the a subsample made of the largest observations and hopefully recover learning rates of comparable order as the ones obtained in the classical framework, with the full sample size n replaced with the reduced sample size. The bottleneck is that these largest observations may not be considered as an independent sample because they are order statistics of a full sample. However it is anticipated that proof techniques from recent works [7,8,9] based on conditioning arguments and concentration inequalities incorporating (small) variance terms can be leveraged for this purpose.

References
[1] Beirlant, J., Goegebeur, Y., Segers, J., and Teugels, J. L. (2004). Statistics of Extremes: Theory and
Applications, volume 558. John Wiley & Sons.

[2] Zhou, K., Liu, Z., Qiao, Y., Xiang, T., and Loy, C. C. (2022). Domain generalization: A survey. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 45(4):4396–4415.

[3] Jalalzai, H., Clémençon, S., and Sabourin, A. (2018). On binary classification in extreme regions. In
NeurIPS Proceedings, volume 31.

[4] Clémençon, S., Jalalzai, H., Lhaut, S., Sabourin, A., and Segers, J. (2023). Concentration bounds for the
empirical angular measure with statistical learning applications. Bernoulli, 29(4):2797–2827.

[5] Huet, N., Clémençon, S., and Sabourin, A. (2023). On Regression in Extreme Regions. arXiv preprint
arXiv:2303.03084.

[6] Takeuchi, I., Le, Q. V., Sears, T. D., Smola, A. J., and Williams, C. (2006). Nonparametric quantile
estimation. Journal of machine learning research, 7(7).

Supervisory Team/contact: Anne Sabourin (MAP5, Université Paris-Cité), Clément Dombry (LMB, Université de Franche-Comté)

Profil du candidat :
Master’s student (2nd year) in Applied Mathematics/Statistics/Statistical Machine Learning with an excellent track record and a strong interest for mathematical statistics and learning theory. Some knowledge of R or Python.

Application to the PhD thesis from candidates having already graduated from a Master’s program will also be considered.

Formation et compétences requises :
Being enrolled in or having graduated from a Master’s program in Mathematics/Statistics/Statistical Machine Learning

Adresse d’emploi :
Laboratoire MAP5, Université Paris Cité, 45 rue des Saint Pères, Paris.

Document attaché : 202410081334_offreStage2024.pdf

May
31
Sat
2025
IA générative pour aider à la classification automatique des stades de développement du Plasmodium falciparum dans des images de frottis sanguins
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre d’Epidémiologie et de Santé Publique des A
Durée : 4 à 6 mois
Contact : muriel.visani@univ-lr.fr
Date limite de publication : 2025-05-31

Contexte :
/! À noter que ce sujet de stage s’adresse préférentiellement à des étudiants de M2 mais, en fonction de leur profil et de leur expérience, des étudiants de M1 pourraient être acceptés.

/! Parmi les pré-requis explicités dans le fichier ci-joint, nous attirons l’attention des potentiels candidats sur les contraintes en termes de nationalité liées à ce poste.

Sujet :
Voir le fichier ci-joint.

Profil du candidat :
Nous recherchons un(e) étudiant(e) de Master 2 ou de Master 1, de nationalité Française, avec :
– Motivation dans la recherche et l’innovation
– Bonnes compétences en programmation (en particulier avec Python)
– Bonnes compétences en IA et en apprentissage automatique
– Une première expérience du deep learning serait un atout
– Très bon niveau d’anglais (parlé et écrit)
– Connaissances en traitement et analyse d’images

Tous les demandeurs devront se soumettre à une enquête d’habilitation de sécurité avant de pouvoir accéder au site du CESPA.

Formation et compétences requises :

Adresse d’emploi :
Centre d’Epidémiologie et de Santé Publique des Armées (CESPA), Marseille.

Document attaché : 202501240639_StageMaster-CESPA.pdf

segmentation 3D automatique à haut-débit de structures anatomiques à partir d’images de micro-tomographie rayons X
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, Montpellier
Durée : 4 à 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-05-31

Contexte :
Les rizières jouent un rôle central dans la sécurité alimentaire mondiale, et un rôle important dans
le changement climatique d’origine anthropique en émettant chaque année 50 mégatonnes de méthane. Le
projet interdisciplinaire ARIZE vise à relever le double défi de la transition agroécologique et de la sécurité
alimentaire en développant des outils innovants pour l’exploration morpho-anatomique du riz en 3D afin de
sélectionner des variétés de riz adaptées aux cultures en sol sec. Dans ce cadre, nous explorons
l’architecture interne des plantes de riz en 3D via des images inédites par micro-tomographie aux rayons X à
une résolution de 10 μm. Chaque image volumétrique, de l’ordre de 1 To, permet de révéler le réseau 3D
des aérenchymes, ces “canaux” internes qui transportent l’oxygène. Automatiser l’analyse de ces structures
en 3D serait une première mondiale et constitue le cœur de ce stage.

Sujet :
Concevoir un pipeline complet d’analyse 3D pour la segmentation anatomique et l’estimation de
caractéristiques complexes en 3D. Dans ce but, le stagiaire aura la responsabilité de réaliser des
expérimentations avec des outils de l’état de l’art (modèles dédiés “plante” et modèles-fondation
généralistes), et de concevoir une solution technique open-source qui sera mise à disposition dans un
démonstrateur open-source via un plugin Python pour le logiciel Napari. Le stagiaire travaillera en lien étroit
avec le deuxième stagiaire X-atlas 3D, dédié à la reconstruction architecturale en 3D. Une forte collaboration
est prévue pour combiner les résultats dans une solution intégrée.

Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en informatique, analyse
d’images, ou modélisation mathématique. Le langage de programmation utilisé sera Python, en utilisant
des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue), et des
librairies standards de deep learning (Pytorch/Tensorflow).

Formation et compétences requises :
Expérience en traitement d’images 3D, et/ou
modélisation géométrique appréciée. Intérêt pour le développement d’outils open-source et la
collaboration interdisciplinaire. Capacité à travailler en équipe dans un environnement mêlant
informatique, biologie et agroécologie.

Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€
mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av.
Agropolis, 34980 Montferrier-sur-Lez.

X-atlas 3D-II, Segmentation 3D automatique à haut-débit de structures anatomiques à partir d’images de micro-tomographie rayons X
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-05-31

Contexte :
Les rizières jouent un rôle central dans la sécurité alimentaire mondiale, et un rôle important dans le changement climatique d’origine anthropique en émettant chaque année 50 mégatonnes de méthane. Le projet interdisciplinaire ARIZE vise à relever le double défi de la transition agroécologique et de la sécurité alimentaire en développant des outils innovants pour l’exploration morpho-anatomique du riz en 3D afin de sélectionner des variétés de riz adaptées aux cultures en sol sec. Dans ce cadre, nous explorons l’architecture interne des plantes de riz en 3D via des images inédites par micro-tomographie aux rayons X à une résolution de 10 µm. Chaque image volumétrique, de l’ordre de 1 To, permet de révéler le réseau 3D des aérenchymes, ces “canaux” internes qui transportent l’oxygène. Automatiser l’analyse de ces structures en 3D serait une première mondiale et constitue le cœur de ce stage.

Sujet :
Concevoir un pipeline complet d’analyse 3D pour la segmentation anatomique et l’estimation de caractéristiques complexes en 3D. Dans ce but, le stagiaire aura la responsabilité de réaliser des expérimentations avec des outils de l’état de l’art (modèles dédiés “plante” et modèles-fondation généralistes), et de concevoir une solution technique open-source qui sera mise à disposition dans un démonstrateur open-source via un plugin Python pour le logiciel Napari. Le stagiaire travaillera en lien étroit avec le deuxième stagiaire X-atlas 3D, dédié à la reconstruction architecturale en 3D. Une forte collaboration est prévue pour combiner les résultats dans une solution intégrée.

Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en informatique, analyse d’images, ou modélisation mathématique. Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue), et des librairies standards de deep learning (Pytorch/Tensorflow).

Formation et compétences requises :
Expérience en traitement d’images 3D, et/ou modélisation géométrique appréciée. Intérêt pour le développement d’outils open-source et la collaboration interdisciplinaire. Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.

Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202501271049_Offre de stage M2 – Deep aerenchimas.pdf

Jun
30
Mon
2025
Proposition de stage de fin d’études ‐ niveau master
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IMT Atlantique & ENSTA
Durée : 6 mois
Contact : dorian.cazau@ensta.fr
Date limite de publication : 2025-06-30

Contexte :

Sujet :
IA Non‐Supervisée pour le Suivi de la Biodiversité Marine par Acoustique Passive Sous Marine (IANSPAM)

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Brest ‐ IMT Atlantique / ENSTA

Document attaché : 202502101141_Stage IANSPAM.pdf

Oct
31
Fri
2025
Offre de stage de recherche (Master 2) – Intelligence Artificielle et Science des Données
Oct 31 – Nov 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : CRISTAL UMR CNRS 9189
Durée : 6 mois
Contact : hayfa.zgaya-biau@univ-lille.fr
Date limite de publication : 2025-10-31

Contexte :
Le projet IARISQ (projet ANR 2025) vise à développer des modèles d’intelligence artificielle avancés pour prédire la toxicité des particules atmosphériques en fonction de leur composition physico-chimique et de leurs variations spatio-temporelles. Le stage s’inscrit dans une dynamique interdisciplinaire mêlant IA explicable (XAI), gestion de l’incertitude, toxicologie environnementale et données de qualité de l’air.

Suite possible : thèse (2026–2029)
Le stage pourra évoluer naturellement vers une thèse de doctorat de 3 ans au sein du laboratoire CRISTAL, dans la continuité des travaux réalisés. Le/la doctorant(e) travaillera en lien étroit avec les partenaires ATMO-HDF et LGCgE, sur la modélisation avancée des risques toxiques et l’intégration des modèles IA dans des outils opérationnels de surveillance.

Sujet :
• Participer à la construction et préparation de bases de données (mesures ATMO-HDF, composition physico-chimique, tests de toxicité).
• Déployer des modèles d’apprentissage automatique supervisés et non supervisés pour identifier les caractéristiques les plus influentes sur la toxicité.
• Expérimenter des techniques d’explicabilité (SHAP, LIME) et de réduction de dimension (UMAP, PCA).
• Contribuer au design d’une première version de pipeline IA à intégrer dans un futur système d’aide à la décision.

Profil du candidat :
• M2 en informatique, intelligence artificielle, science des données.
• Maîtrise de Python, notamment avec les bibliothèques scikit-learn, pandas, PyTorch ou TensorFlow.
• Connaissance des modèles de machine learning, des réseaux de neurones et/ou des approches XAI.
• Rigueur, autonomie et appétence pour les projets interdisciplinaires (santé, environnement, IA).

Formation et compétences requises :
• M2 en informatique, intelligence artificielle, science des données.
• Maîtrise de Python, notamment avec les bibliothèques scikit-learn, pandas, PyTorch ou TensorFlow.
• Connaissance des modèles de machine learning, des réseaux de neurones et/ou des approches XAI.
• Rigueur, autonomie et appétence pour les projets interdisciplinaires (santé, environnement, IA).

Adresse d’emploi :
Centre de Recherche en Informatique, Signal et Automatique de Lille
UMR CNRS 9189 CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
59655 Villeneuve d’Ascq

https://www.cristal.univ-lille.fr

Offre de stage de recherche (Master 2) – Intelligence Artificielle et Science des Données
Oct 31 – Nov 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : CRISTAL UMR CNRS 9189
Durée : 6 mois
Contact : hayfa.zgaya-biau@univ-lille.fr
Date limite de publication : 2025-10-31

Contexte :
Le projet IARISQ (projet ANR 2025) vise à développer des modèles d’intelligence artificielle avancés pour prédire la toxicité des particules atmosphériques en fonction de leur composition physico-chimique et de leurs variations spatio-temporelles. Le stage s’inscrit dans une dynamique interdisciplinaire mêlant IA explicable (XAI), gestion de l’incertitude, toxicologie environnementale et données de qualité de l’air.

Suite possible : thèse (2026–2029)
Le stage pourra évoluer naturellement vers une thèse de doctorat de 3 ans au sein du laboratoire CRISTAL, dans la continuité des travaux réalisés. Le/la doctorant(e) travaillera en lien étroit avec les partenaires ATMO-HDF et LGCgE, sur la modélisation avancée des risques toxiques et l’intégration des modèles IA dans des outils opérationnels de surveillance.

Sujet :
• Participer à la construction et préparation de bases de données (mesures ATMO-HDF, composition physico-chimique, tests de toxicité).
• Déployer des modèles d’apprentissage automatique supervisés et non supervisés pour identifier les caractéristiques les plus influentes sur la toxicité.
• Expérimenter des techniques d’explicabilité (SHAP, LIME) et de réduction de dimension (UMAP, PCA).
• Contribuer au design d’une première version de pipeline IA à intégrer dans un futur système d’aide à la décision.

Profil du candidat :
• M2 en informatique, intelligence artificielle, science des données.
• Maîtrise de Python, notamment avec les bibliothèques scikit-learn, pandas, PyTorch ou TensorFlow.
• Connaissance des modèles de machine learning, des réseaux de neurones et/ou des approches XAI.
• Rigueur, autonomie et appétence pour les projets interdisciplinaires (santé, environnement, IA).

Formation et compétences requises :
• M2 en informatique, intelligence artificielle, science des données.
• Maîtrise de Python, notamment avec les bibliothèques scikit-learn, pandas, PyTorch ou TensorFlow.
• Connaissance des modèles de machine learning, des réseaux de neurones et/ou des approches XAI.
• Rigueur, autonomie et appétence pour les projets interdisciplinaires (santé, environnement, IA).

Adresse d’emploi :
Centre de Recherche en Informatique, Signal et Automatique de Lille
UMR CNRS 9189 CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
59655 Villeneuve d’Ascq

https://www.cristal.univ-lille.fr

Nov
16
Sun
2025
M2 Internship – Analysis and improvement of estimators of low-rank tensor models
Nov 16 – Nov 17 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT (Toulouse)
Durée : 5 to 6 months
Contact : henrique.goulart@irit.fr
Date limite de publication : 2025-11-16

Contexte :

Sujet :
We are seeking candidates for a 5- to 6-month internship on the analysis and improvement of estimators of low-rank tensor models, with the possibility of a PhD thesis afterwards (a PhD funding is secured). This subject is situated at the interface between mathematics and computer science, having applications in several domains, notably in data science and machine learning.

A detailed description can be found at: https://cloud.irit.fr/s/hZnoJgiopaqMkdV

Profil du candidat :
M2 student strongly motivated by mathematics and its application to statistical inference and machine learning. Prior knowledge on tensor algebra and on random matrix theory are a strong plus. Good communication skills (both oral and written) in English are required, notably for reading, writing and presenting scientific papers.

Formation et compétences requises :

Adresse d’emploi :
IRIT (Institut de Recherche en Informatique de Toulouse), site ENSEEIHT (2 rue Charles Camichel, Toulouse).

Nov
21
Fri
2025
Développeur.euse C++ HPC d’un code de simulation pour la formation de grandes structures en cosmologie
Nov 21 – Nov 22 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 4 à 6 mois
Contact : tchernia@iap.fr
Date limite de publication : 2025-11-21

Contexte :
La modélisation et la compréhension de l’histoire de l’Univers, depuis le Big Bang jusqu’à aujourd’hui, reposent sur l’évaluation de nos modèles
cosmologiques à partir des grands relevés astronomiques (Euclid, DESI…). L’un des objectifs est de simuler la formation des grandes structures afin d’évaluer la robustesse des modèles cosmologiques vis-à-vis des observations. L’Institut d’Astrophysique de Paris (IAP), une Unité Mixte de Recherche (UMR) de Sorbonne Université et du Centre National de la Recherche Scientifique (CNRS), est impliqué dans cette activité. En son sein, l’équipe « Grandes structures et Univers profond » à laquelle le.la stagiaire sera affecté.e a développé le code Simbelmynë, qui permet de :

1. Calculer l’évolution de la répartition de matière noire en résolvant les
équations du mouvement de la gravité à l’échelle de l’univers observable
(problème à N corps),
2. En déduire une répartition des galaxies dans le ciel,
3. Produire des relevés cosmologiques simulés.

Cette chaîne de simulation est appelée à être lancée un très grand nombre de fois pour des paramètres d’entrée variés. C’est pourquoi le respect des contraintes du calcul haute performance (HPC) et la parallélisation des tâches sont des enjeux clés de ce code. Grâce à l’approche sCOLA qui divise la portion d’univers à simuler en morceaux indépendants, il est possible d’adopter une approche hybride entre calculs à mémoire distribuée et à mémoire partagée. Nous souhaitons aujourd’hui le rendre portable sur plusieurs architectures cibles (CPU et GPU).

Pour plus de détails sur le contexte scientifique, voici un article de vulgarisation traitant de ce sujet : https://theconversation.com/vers-une-simulation-de-lunivers-sur-un-telephone-portable-137421

Sujet :
La.le stagiaire participera au portage de C vers C++ du code Simbelmÿne ainsi qu’au développement de codes de calcul parallèle utilisant des CPU et GPUs. Il/elle se formera au framework Kokkos et l’utilisera afin de produire un code générique compatible avec toutes les architectures cibles. Il/elle mettra ces codes en œuvre à l’aide du cluster de calcul du laboratoire, mettant à disposition CPUs et GPUs. Il/elle travaillera en équipe et versionnera son code à l’aide de Git et produira les tests unitaires et benchmarks garantissant la qualité, la performance et la robustesse de son code.

Profil du candidat :
Nous recherchons un.e stagiaire de six mois en fin d’études ou césure, en école d’ingénieurs ou master, avec une spécialisation en informatique et si possible en calcul scientifique/HPC.

Formation et compétences requises :
– Maîtrise du langage de programmation C++, connaissance de python
– Savoir adopter une méthodologie de développement collaboratif (Git,
tests unitaires…)
– Connaître les enjeux de la programmation HPC, notamment la
parallélisation des tâches (multithreading, multiprocessing).
– Notions de mathématiques appliquées (Transformées de Fourier,
Équations aux dérivées partielles…)
– Anglais courant (réunions en anglais)
– Une formation en physique serait un plus.

Adresse d’emploi :
98 bis boulevard Arago, 75014 Paris

Document attaché : 202510231604_Fiche de stage HPC Cosmologie.pdf

Nov
24
Mon
2025
From text analysis to influence graphs: approaches based on LLM, fuzzy logic, and Bayesian networks
Nov 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : (UR 4108 / FR CNRS 3638)
Durée : 6 mois
Contact : asma.dhaouadi@insa-rouen.fr
Date limite de publication : 2026-02-27

Contexte :
Facility Management (FM) encompasses all activities aimed at improving the efficiency of the working
environment (building management, energy consumption, employee comfort, safety, etc.). These practices
directly influence a company’s economic, environmental, and societal performance [1, 2]. However, the
relationships between these indicators are complex, often implicit, and rarely described in clear quantitative
terms. In addition, company executives need to identify these relationships and their influence on
the overall work environment.
The emergence of Large Language Models (LLMs) and qualitative reasoning approaches (qualitative
influence diagrams, fuzzy logic, Bayesian networks) paves the way for more detailed modeling of dependencies
between indicators, facilitating analysis and strategic decision-making.

Sujet :
Goals
• Automatic extraction of indicators from Quality of Life and Working Conditions (QLWC) documents
(scientific publications, reports, CSR documents, audits).
• Identification of qualitative relationships of influence between these indicators using LLM (e.g.,
“better air quality improves employee productivity”).
• Construction of an influence graph representing these relationships in the form of Qualitative Influence
Diagrams (QID) [3], using two different approaches :
• Fuzzy Logic [4]
• Bayesian Networks [5]
• Analysis of the graph to detect key indicators (those that strongly influence others) and their
influences linking FM practices to overall performance (economic, environmental, societal).
• Prototype decision-making tool for visualizing these graphs and simulating the impact of a change
in indicators.

Bibliography
1. AFNOR, “NF EN 15221-1 : Facility Management — Part 1 : Terms and Definitions,” French Standard,
Association Française de Normalisation, Dec. 2006. Withdrawn on Jul. 13, 2018.
2. Mouvement des Entreprises de France (MEDEF), “GUIDE RSE – Introduction à la Qualité de Vie
et des Conditions de Travail (QVCT),” Paris, France : MEDEF, 2023.
3. Renooij, S., & van der Gaag, L. C. (1998, May). Decision Making in Qualitative Influence Diagrams.
In FLAIRS (pp. 410-414).
4. Klir, G. J., & Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic : Theory and Applications. Prentice
Hall.
5. Koller, D., & Friedman, N. (2009). Probabilistic Graphical Models : Principles and Techniques.
MIT Press.

Profil du candidat :
Expected Skills
• Good knowledge of Python 3 and interest in LLMs.
• Basics of Semantic Web (ontologies, RDF, OWL, SPARQL).
• Interest in fuzzy set theory and probabilistic reasoning.
• Strong motivation for collaboration and teamwork.

Formation et compétences requises :

Adresse d’emploi :
INSA Rouen Normandie
Equipe MIND – LITIS (UR 4108 / FR CNRS 3638)
Avenue de l’Université, BP 8, 76801 Saint-Étienne-du-Rouvray cedex, France

Document attaché : 202511201327_2026_stage.pdf

Nov
26
Wed
2025
Les collections d’éphémères vues par le prisme des annuaires du commerce de Paris
Nov 26 – Nov 27 all-day

Offre en lien avec l’Action/le Réseau : SaD-2HN/– — –

Laboratoire/Entreprise : Centre de Recherches Historiques (UMR 8558 : EHESS
Durée : 6 mois
Contact : bertrand.dumenieu@ehess.fr
Date limite de publication : 2025-11-26

Contexte :
Le musée Carnavalet – Histoire de Paris et les bibliothèques spécialisées de la ville de Paris conservent d’importantes collections d’éphémères. Il s’agit de documents de la vie quotidienne produits par des commerces, des associations ou des particuliers, qui deviennent très rapidement obsolètes : faire-parts, menus, cartes postales, affiches, prospectus, buvards publicitaires, dépliants touristiques, catalogues de vente, programmes de théâtre, images pieuses, sous-bocks, papiers de fruits, etc. La figure 1 présente un exemple d’affiches et de prospectus créés entre 1873 et 1888 et conservés au musée Carnavalet – Histoire de Paris. Chaque éphémère est indexé par des métadonnées récoltées par le musée, décrivant les acteurs de sa production (artiste dessinateur, imprimeur) et les techniques et matériaux mobilisés. Ces informations permettent quelques analyses explicatives sur la chaîne de création, d’impression et de diffusion de ces éphémères, mais qui restent limitées faute de connaissances suffisantes sur les réseaux professionnels des commerçants, artistes et artisans qui y contribuent.

Pour peu qu’ils exercent à Paris, ces professionnels ont de bonnes chances d’être recensés dans les annuaires commerciaux de la ville (voir figure 2). Ancêtres des « Pages Jaunes », ces ouvrages compilent, classent, datent et localisent les commerçants, artisans et notables parisiens au sein de longues listes nominatives. Celles de la majorité des annuaires édités entre 1797 et 1914 ont été extraites et transformées en une base de données géographique sérielle durant un précédent projet de recherche. Il est désormais possible d’exploiter les 22 millions d’entrées contenues de cette base pour tenter d’identifier les acteurs de la production d’éphémères et les lier aux collections du musée Carnavalet.

Sujet :
Le premier objectif de ce stage est donc de croiser les métadonnées des éphémères avec la base des annuaires du commerce parisien au XIXe siècle pour y retrouver les commerçants et artisans ayant concouru à la production des éphémères du musée. Le second objectif consistera à proposer une méthodologie d’analyse de ces métadonnées enrichies pour comprendre comment la création, l’impression et la diffusion des éphémères s’organisait, selon les commanditaires, les imprimeurs ou les types de supports. On pourra, par exemple, étudier l’éventuelle spécialisation des artistes, des imprimeurs, des rues ou des quartiers dans certains types de production ou bien les critères de choix des artistes ou des imprimeurs par les commanditaires : proximité spatiale, recommandation professionnelle, renommée, etc.
La première difficulté de ce travail réside dans la création et le peuplement du graphe de connaissances initial à partir des deux sources de données hétérogènes, incomplètes, bruitées, spatiales et temporelles que sont la base des annuaires et les métadonnées des éphémères. Il s’agira donc de proposer une ontologie, guidée par les hypothèses d’analyse des historiens de l’art concernant les réseaux professionnels potentiels des commerçants, artistes et imprimeurs impliqués dans la création des éphémères. Celle-ci devra ensuite être peuplée à partir des données disponibles, ce qui nécessitera un travail de désambiguïsation des commerçants, artistes et imprimeurs.
La seconde difficulté sera de proposer une méthodologie d’analyse spatio-temporelle permettant de comprendre le mode de constitution des réseaux professionnels à l’œuvre et leurs dynamiques au cours de la période étudiée.

Profil du candidat :
Master 2 ou équivalent en humanités numériques, sciences de l’information géographique ou informatique.
Le ou la candidat.e doit être un.e étudiant.e inscrit.e dans une université francilienne.

Formation et compétences requises :
– Analyse de données : connaissances pratiques et théoriques en analyse spatiale.
– Web de données : expérience en manipulation de graphes de connaissances, connaissance du liage de données, notions de conception d’ontologies.
– Sciences de l’information géographique : maîtrise opérationnelle de QGIS, connaissance de PostGIS, notions en scripting Python pour les SIG.
– Un goût pour l’histoire urbaine ou l’histoire de l’art est un atout.

Adresse d’emploi :
Centre de recherches historiques (UMR 8558 EHESS – CNRS), 54 boulevard Raspail, 75006 Paris

Document attaché : 202510211306_StageEphemeres&Annuaires.pdf

Dec
2
Tue
2025
Offre de stages en IA pour la physique fondamentale
Dec 2 – Dec 3 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire des 2 Infinis – Toulouse
Durée : Flexible
Contact : catherine.biscarat@l2it.in2p3.fr
Date limite de publication : 2025-12-02

Contexte :
Le Laboratoire des 2 Infinis – Toulouse (L2IT) est une unité mixte de recherche (UMR) du CNRS et de l’Université de Toulouse, jeune et dynamique, née en janvier 2020. Les objets d’étude des chercheurs et des ingénieurs du L2IT sont les deux infinis – l’infiniment petit et l’infiniment grand – et les relations entre les phénomènes qui régissent chacun d’entre eux. Le laboratoire est organisé en quatre équipes “Calcul, Analyse et Données”, “Physique Nucléaire”, “Physique des particules” et “Ondes Gravitationnelles”. Nous poursuivons nos recherches au sein de collaborations internationales. Nous sommes actuellement 32 membres, dont 15 permanents qui mettent en place les équipes de recherche.

La spécificité du L2IT est son accent sur les méthodes numériques de pointe (IA, calcul HPC, ingénierie logicielle, expertise CUDA) qui accompagnent les travaux d’analyse de données, de modélisation, simulation, et de développements théoriques. Le L2IT est implanté sur un campus dynamique qui regroupe facultés, écoles et laboratoires.

Sujet :
Trois sujets de stage sont actuellement proposés. Ils sont à l’intersection entre l’IA et nos domaines de recherche en physique fondamentale (physique des particules, cosmologie, ondes gravitationnelles). Pour les détails des sujets, veuillez vous référer à notre site internet : https://www.l2it.in2p3.fr/en/emplois-et-stages/internships-2026/

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Laboratoire des 2 Infinis – Toulouse, Maison de la Recherche et de la Valorisation, 75 cours des Sciences, 31400 Toulouse, France

Dec
10
Wed
2025
Stage M2 – Objectivation des phases de sommeil sur la base de données cérébrales chez le babouin
Dec 10 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : Institut de Science des Données de Montpellier / C
Durée : 5-6 mois
Contact : gino.frazzoli@umontpellier.fr
Date limite de publication : 2025-12-10

Contexte :
Le sommeil, bien que d’apparence triviale, constitue un état biologique complexe, difficile à quantifier sans recourir à une approche multimodale intégrant notamment l’enregistrement de l’activité cérébrale (EEG). Cette contrainte technologique rend l’étude du sommeil exigeante en conditions naturelles. Comprendre comment les animaux dorment dans leur environnement, en particulier dans un cadre social, représente ainsi un défi majeur. Chez les espèces grégaires comme le babouin, le sommeil ne se résume pas à un phénomène individuel : il s’organise dans un contexte collectif, influencé par les interactions sociales, la hiérarchie et la vigilance partagée. Le projet ERC COSLEEP (dirigé par Meg Crofoot, Max Planck Institute of Animal Behavior) s’attache à explorer cette dimension sociale du sommeil en conditions écologiques réelles, grâce à des suivis simultanés du comportement, de la position et de l’activité physiologique d’individus vivant à l’état sauvage. Le stage proposé s’inscrit dans cette collaboration entre le Centre d’Écologie Fonctionnelle et Évolutive (CEFE), l’Institut de Science des Données et le Max Planck Institute, et portera sur l’analyse de données de sommeil (activité cérébrale, musculaire, oculaire, accéléromètre et vidéo) afin de caractériser la structure et la qualité du sommeil dans un contexte social et écologique réel, et de développer un modèle prédictif fiable basé sur les signaux accélérométriques.

Sujet :
Le stage aura pour objectif de contribuer à la mise au point d’outils d’analyse automatisée du sommeil chez le babouin à partir de séries temporelles multimodales. Dans un premier temps, le ou la stagiaire évaluera la cohérence du scorage manuel du sommeil réalisé par plusieurs spécialistes à partir d’enregistrements physiologiques (EEG, EMG, EOG, accéléromètre, vidéo), afin de quantifier le niveau d’accord inter-experts et d’établir une base de données de référence. Dans un second temps, il s’agira de tester et d’adapter des modèles d’apprentissage automatique existants (tels que Somnotate ou USleep) pour obtenir un algorithme de scorage automatique capable de s’ajuster aux caractéristiques propres aux signaux enregistrés chez le babouin. Enfin, le stage visera à développer un modèle prédictif du sommeil à partir des signaux d’accéléromètre seuls, en s’appuyant sur les labels dérivés de l’activité cérébrale. Ce modèle permettra à terme d’estimer les phases et sous-états du sommeil à partir de capteurs portés sur collier, ouvrant la voie à une analyse non invasive du sommeil en milieu naturel.

Profil du candidat :
Le ou la candidat(e) devra posséder une formation en analyse de données expérimentales, data science, ou domaine connexe avec une appétence pour les neurosciences, sciences cognitives, bio-informatique, ou l’écophysiologie. Une bonne familiarité avec le traitement de signaux temporels, des compétences en programmation (Python, Matlab ou R) et des compétences en méthodes d’apprentissage automatique (réseaux de neurones, classification supervisée et modèles de deep learning) seraient un atout majeur.
Le ou la stagiaire devra faire preuve de rigueur, d’autonomie et de curiosité scientifique, ainsi que d’un goût marqué pour l’analyse de données et le travail interdisciplinaire, à l’interface entre neurosciences, écologie comportementale et science des données. Une aisance en anglais scientifique (lecture et échanges techniques) sera également souhaitée.

Formation et compétences requises :
• Maîtrise de Python (NumPy, Pandas, Scikit-learn, PyTorch). Des notions en Matlab sont appréciées.
• Connaissances en statistiques, apprentissage automatique et deep learning.
• Intérêt pour les méthodes utilisées dans les modèles de scorage automatique du sommeil :
o USleep : réseau profond combinant CNN inspiré de U-net pour la classification EEG/EMG. https://www.nature.com/articles/s41746-021-00440-5
o Somnotate : approche probabiliste (HMM + LDA) intégrant la dynamique temporelle du sommeil. https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1011793
• Intérêt à développer des compétences en analyse de signaux physiologiques (EEG, EMG, EOG, accélérométrie).
• Notions en validation de modèles et évaluation inter-experts (Kappa, ICC, …).
• Rigueur, autonomie, et intérêt pour les approches interdisciplinaires (neurosciences, écologie, data science).
• Bon niveau d’anglais scientifique (lecture et communication).

Adresse d’emploi :
Case courrier, 13004 Pl. Eugène Bataillon Bât. 4, 34095 Montpellier Cedex 5

Document attaché : 202511030916_Analyse_donnees_physiologiques_babouins_CEFE_ISDM_Montpellier.pdf

Dec
15
Mon
2025
Approches data-driven pour la détection d’interfaces géologiques
Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : BRGM
Durée : 6 mois
Contact : c.gracianne@brgm.fr
Date limite de publication : 2025-12-15

Contexte :
Rejoindre le Bureau de Recherches Géologiques et Minières (BRGM), c’est intégrer l’établissement public français de référence dans les sciences de la Terre, qui rassemble 1000 experts passionnés dans 29 implantations en France métropolitaine et en Outre-mer. Le BRGM œuvre à la connaissance du sous-sol pour répondre aux grands défis environnementaux, à travers des projets scientifiques innovants et à fort enjeu sociétal.
Dans le cadre d’un programme de recherche dédié à l’aléa sismique à Mayotte, l’objectif est de détecter et cartographier les interfaces géologiques responsables de l’effet de site, phénomène amplifiant localement les ondes sismiques. Après une phase exploratoire sur trois sites pilotes, le projet vise désormais l’automatisation de cette détection à l’échelle de l’île à partir de données électromagnétiques aéroportées (AEM).

Sujet :
Dans le contexte volcanique et sismique de Mayotte, la présence d’interfaces géologiques marquant des contrastes lithologiques importants (passage de couches dures à meubles) joue un rôle majeur dans l’amplification locale des ondes sismiques. Identifier ces interfaces à grande échelle est essentiel pour la cartographie de l’aléa sismique. Le BRGM a conduit une première phase de détection manuelle sur trois zones test via l’analyse de données AEM (résistivités), complétée par une phase d’automatisation sur l’ensemble de l’île.
Les premiers tests sur des modèles supervisés se sont révélés insuffisants, notamment pour prédire les interfaces peu représentées. Une approche alternative consistant à reformuler le problème comme une tâche de segmentation d’image avec un réseau U-Net 2D a permis de mieux exploiter la continuité spatiale des profils AEM. Cependant, la validation de ce modèle a montré des limites,avec une concentration des erreurs dans certaines profondeurs critiques (5-10 m et 20-40 m), rendant les performances trop optimistes.
L’objectif du stage est de continuer ces développements en comparant plusieurs méthodologies avancées pour la détection automatisée de ces interfaces géologiques à partir des profils AEM. Les approches testées incluront :
– des modèles classiques améliorés (RF, CNN) ;
– des approches topologiques (TDA) pour quantifier l’incertitude structurelle ;
– des approches guidées par la physique (PINNs) intégrant des contraintes géologiques
Le ou la stagiaire devra construire des baselines reproductibles, définir un protocole d’évaluation robuste, comparer les performances des modèles sur l’ensemble de l’île, et surtout évaluer leur capacité à corriger les erreurs récurrentes identifiées sur les zones critiques (Dembeni, Longoni). Une attention particulière sera portée à la localisation des faux positifs/négatifs en profondeur. L’analyse des résultats par cartographie d’erreurs enrichira les réflexions sur la généralisation des approches IA en géosciences.

Profil du candidat :
Vous êtes autonome, curieux·se et rigoureux·se, avec une capacité à structurer et documenter vos analyses. Vous êtes à l’aise pour explorer, prétraiter, visualiser et interpréter des jeux de données complexes. Vous accordez une attention particulière à la robustesse méthodologique et êtes capable d’évoluer dans un environnement de recherche.

Doté·e d’un bon relationnel, vous savez collaborer au sein d’une équipe pluridisciplinaire, en lien étroit avec des spécialistes du domaine (géologues, géophysiciens, data scientists). Vous faites preuve de rigueur scientifique, d’esprit critique et de qualités de communication, à l’écrit comme à l’oral.

Formation et compétences requises :
Formation de niveau Bac+5 : Master 2 ou dernière année d’école d’ingénieur, avec spécialisation en data science, intelligence artificielle, mathématiques appliquées ou géosciences numériques.

Solides bases en apprentissage automatique : régression, classification, réseaux de neurones.

Maîtrise du langage Python et des bibliothèques standards en data science : scikit-learn, PyTorch ou TensorFlow, NumPy, Pandas, Matplotlib.

Une première expérience avec des architectures convolutives (CNN) ou de segmentation (U-Net) est un atout.

Une familiarité avec les problématiques de traitement de données géospatiales ou géophysiques est appréciée.

Des connaissances en Topological Data Analysis (TDA) ou en Physics-Informed Neural Networks (PINNs) seraient un plus, mais peuvent être développées durant le stage.

Intérêt pour les notions de validation rigoureuse, d’incertitude, de reproductibilité et de qualité des données.

Adresse d’emploi :
3 avenue Claude Guillemin, 45000 Orléans

Document attaché : 202511060727_Stage_BRGM_2026.pdf

Internship: Representation of physical quantities on the Semantic Web
Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : RECAST/– — –

Laboratoire/Entreprise : LIMOS, UMR 6158 / Mines Saint-Étienne
Durée : 4-6 mois
Contact : maxime.lefrancois@emse.fr
Date limite de publication : 2025-12-15

Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.

Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.

Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.

Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.

The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.

This study should lead to the publication of a scientific paper in a high impact scientific journal.

References
Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.

Profil du candidat :
Master 2 students in computer science

To apply, please submit by email or in an online file repository your CV, motivation letter, university transcripts, and possibly letters of recommendation. The motivation letter must explain why you are interested in this topic and why you are qualified to work on this topic.

Formation et compétences requises :
Equivalent of a M2 level in CS, with knowledge of Semantic Web technologies. Also, the candidate must have either very good programming skills in Java, or very good aptitude in formal and abstract thinking.

Adresse d’emploi :
Mines Saint-Étienne, Institut Henri Fayol, 29 rue Pierre et Dominique Ponchardier, 42100 Saint-Étienne, France

Dec
27
Sat
2025
Construction de graphes de connaissances historiques à l’aide d’algorithmes de graphes, LLMs et RAG
Dec 27 – Dec 28 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 mois
Contact : camelia.constantin@lip6.fr
Date limite de publication : 2025-12-27

Contexte :
Nos recherches portent sur les bases prosopographiques ayant pour objet la période médiévale. La prosopographie est une méthode des sciences sociales (sociologie, histoire) dans laquelle on cherche à analyser un groupe à partir d’une étude systématique des itinéraires singuliers des individus qui le composent. Pour cela les chercheurs collectent tous les faits (factoïdes) possibles sur chaque individu. En histoire médiévale, ces données sont rares, discontinues, incertaines et souvent d’une qualité médiocre. En effet, les experts de ces disciplines gèrent la qualité et l’incertitude dans le temps et l’espace. Ainsi, les personnes sont désignées par plusieurs noms, les lieux changent de noms et de frontières avec le temps ou selon l’auteur et un parcours de diplomation peut changer en fonction de l’époque, du lieu ou de la classe sociale de la personne. En raison de cette complexité, de nombreuses règles restent opaques pour les historiens médiévistes. En organisant ces données sous forme de graphe de connaissances, nous pouvons représenter des concepts, des personnes, des lieux ou des objets sous forme des nœuds et des interactions entre ceux-ci, comme telles que des affiliations ou des localisations comme arêtes avec des propriétés. Cela permet une organisation sémantique des données qui aide à mieux comprendre les contextes et les relations complexes entre les entités mentionnées dans les textes et de visualiser clairement l’interconnexion entre les différents éléments d’un ensemble de données.
La construction de graphes de connaissances à partir de sources de données ambiguës soulève plusieurs difficultés majeures liées à la nature imparfaite, hétérogène et souvent imprécise des textes ou bases d’origine. Les principales sources de complexité résident dans l’ambiguïté des entités (lorsqu’un même nom peut désigner plusieurs objets distincts ou, inversement, lorsqu’une entité apparaît sous des formes lexicales variées (abréviations, translittérations, synonymes). S’ajoutent à cela l’imprécision ou l’incomplétude des informations (par exemple, des dates approximatives ou des localisations vagues), qui favorisent la duplication d’entités lors de l’intégration : plusieurs nœuds représentant en réalité la même entité peuvent être créés. Les textes peuvent également contenir des relations implicites difficiles à extraire automatiquement, ou des contradictions entre sources multiples.

Parmi ces problèmes, certains peuvent être atténués par l’usage de modèles de langage de grande taille (LLMs), capables d’intégrer des indices sémantiques complexes et de désambiguïser les entités en tenant compte du contexte global. Les LLMs améliorent la reconnaissance des relations implicites et la cohérence sémantique entre textes hétérogènes. Cependant, plusieurs défis demeurent : les modèles ne résolvent pas les ambiguïtés lorsque deux entités très similaires apparaissent dans le texte sans marqueurs de distinction, ni les contradictions entre sources (le LLM peut les reconnaître mais ne garantit pas de choisir la bonne version, ou peut donner une confiance excessive à l’une sans justification). Ils n’éliminent pas non plus les duplications induites par des informations incomplètes ou imprécises, et peuvent introduire de nouveaux biais, notamment par hallucination d’entités ou surestimation de leur confiance. Dans des domaines historiques, le LLM peut manquer de données de formation spécifiques, ce qui réduit sa performance. Ces limites exigent l’intégration de méthodes complémentaires, telles que la reconnaissance d’entités nommées (NER), qui impose un typage explicite et stable des entités (personne, organisation, lieu, date, etc.), en permettant ainsi de filtrer les entités erronées ou inventées. En s’appuyant sur des lexiques, ontologies ou dictionnaires de référence, elle facilite la normalisation et l’alignement des entités, limitant ainsi la création d’alias ou de doublons. Des méthodes complémentaires, comme entity linking ou l’utilisation de règles symboliques peuvent aider à l’alignement des entités obtenues par des LLMs.

L’ajout de réseaux de neurones de graphes (GNN) améliore la désambiguïsation d’entités lorsque le contexte textuel seul est insuffisant, en s’appuyant sur les voisins et les motifs relationnels pour identifier la bonne correspondance, en exploitant la structure relationnelle du graphe. Ils renforcent également la détection de doublons et la fusion d’entités similaires en apprenant des représentations qui intègrent à la fois les attributs et les connexions locales.

Sujet :
Afin de pouvoir améliorer le liage d’entités, il est important d’avoir le maximum d’information pour chaque entité, et notamment ses liens avec les autres entités. L’objectif de ce stage est la mise en œuvre d’une architecture RAG-GNN intégrée, destinée à la construction, à la détection des duplicats et à la fusion d’entités d’un graphe de connaissances construit à partir de données prosopographiques Studium ambigües. Ces données existent sous forme de fiches où les mêmes individus ou lieux apparaissent plusieurs fois avec une description très différente suivant la source (donc des propriétés et relations différentes) voire des noms parfois très différents. Cette démarche vise à améliorer la qualité et l’utilité du graphe en découvrant et en intégrant des informations qui ne sont pas explicitement présentes mais qui peuvent être inférées à partir des relations et des attributs existants. D’autres jeux de données comme KnowledgeNet pourront être également utilisés.
Méthodologie : La méthodologie combine des modèles de langage préentraînés, recherche contextuelle, et apprentissage de représentations de graphes pour la construction et la consolidation de graphes de connaissances à partir de données historiques ambiguës. Dans une première étape, un modèle de langage de grande taille (LLM) est utilisé pour extraire automatiquement des entités, relations et attributs (dates, lieux, personnes) à partir des textes. Cette extraction est renforcée par des méthodes de reconnaissance d’entités nommées (NER), assurant une détection typée et une segmentation fiable des mentions, conformément aux principes décrits dans [1]. Le graphe ainsi obtenu sera stocké dans une base de données graphe (Neo4j) avec traçabilité des chunks sources et va constituer une base brute soumise à un processus d’enrichissement et de validation des liens de duplication( sameAs)). Un module de Retrieval-Augmented Generation (RAG) sera utilisé dans une première phase pour une décision sameAs ou notSame pour chaque paire d’entités candidate, accompagnée de preuves textuelles. Le LLM reçoit le contexte enrichi (entité A, entité B, leurs propriétés, leurs relations adjacentes dans le graphe et leurs chunks sources) pour prendre une décision de fusion, en fournisant la provenance factuelle pour la décision de résolution d’entité [2]. Les Graph Neural Networks (GNNs) sont ensuite utilisés pour exploiter la structure relationnelle du graphe et apprendre des représentations topologiques capables d’identifier les clusters d’entités équivalentes [3]. Le GNN sélectionne et connecte des sous-graphes d’un graphe de connaissances qui sont ensuite convertis en entrées textuelles pour un LLM [4], permettant la mise en place d’une boucle de rétroaction LLM–GNN afin d’affiner progressivement les décisions de fusion : les inférences structurelles issues du GNN guident le LLM dans ses réévaluations contextuelles, tandis que les jugements linguistiques du LLM enrichissent les représentations structurelles apprises par le GNN.

Profil du candidat :
Etudiant en Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :
Connaissances en python et en machine learning.

Adresse d’emploi :
LIP6 (Sorbonne Université),
Équipe Bases de Données http://www-bd.lip6.fr/

Document attaché : 202511272002_sujetStageKG_2026.pdf

Dec
30
Tue
2025
Concevoir une base de connaissance permettant d’aligner différentes méthodes d’innovation
Dec 30 – Dec 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre Génie Industriel, IMT Mines Albi
Durée : 6 mois
Contact : myriam.lamolle@mines-albi.fr
Date limite de publication : 2025-12-30

Contexte :
Ce stage s’inscrit dans le projet TABGHA qui se veut un outil de génération démultiplié de concepts hautement valorisables afin de promouvoir l’innovation avec l’aide du CGI (Centre de Génie Industriel) d’IMT Mines Albi (cgi.mines-albi.fr) et le LIASD, Université Paris 8.

Sujet :
Face à la méconnaissance des cultures innovations susceptibles de créer des ressources et le peu d’étude sur la valorisation économique des recherches (spin off, licence, prestation), le transfert de technologie devient crucial.
Pour cela, il faut, à partir d’une technologie générique (souvent sur étagère), multiplier les cas applicatifs (marchés d’atterrissage) pour accroitre les chances de valorisation (et aussi poursuivre les développements). À ce jour, de nombreuses méthodes existent pour générer ces différents cas applicatifs : design thinking, analyse fonctionnelle… Aucune d’entre elles ne faisant l’unanimité, le projet vise à développer une plateforme open-source en « Knowledge As A Service » (KaaS) comme écosystème digital fondé sur des composants logiciels qui se combinent pour collaborer de façon à permettre une évolution graduelle du système au travers de nouvelles contributions et de nouveaux composants fournis par la communauté.
L’objectif sous-jacent est de découvrir dans la base de connaissance constituée des connaissances cachées et de déterminer des analogies afin d’aider des décideurs à trouver de nouveaux domaines d’application de leur concept/produit ou à créer de nouveaux concept/produit.
Vous contribuerez à lever un des verrous scientifiques du projet : concevoir un ou des algorithmes d’alignement de méthodes de design thinking fondés sur l’analyse structurelle et sémantique de graphes de connaissances (ou ontologie modulaire).
Objectifs concrets :
1. Modéliser sous forme d’une ontologie les méthodes C-K, Vianeo (voire TriZ1) ;
2. En suivant une méthode scientifique, concevoir et implémenter des algorithmes permettant d’aligner semi-automatiquement les méthodes citées : les classes, les relations entre ces classes, etc. en explicitant les règles de transformation. Peupler la base de connaissance et évaluer les algorithmes sur le mini-cas d’étude réaliste ;
3. Créer les IHM pour offrir les services :
a) de choix de la méthode par laquelle le projet d’innovation sera développé ;
b) ou d’hybridation de méthodes pour une approche multi-points de vue ;
4. Rédiger un article de conférence internationale avec l’équipe d’encadrement.

Profil du candidat :
Bac+5 (Master 2 ou dernière année d’école d’ingénieur) en Informatique, Mathématiques Appliquées ou domaine connexe

Formation et compétences requises :
Compétences techniques indispensables :
• Maîtrise des concepts de l’IA neuro-symbolique ;
• Capaciter à conceptualiser des méthodes complexes
• Maîtrise d’outils et méthodes d’analyse de graphes
• Excellente compréhension écrite, bonne expression (lecture/rédaction d’articles) et bonne compréhension orale en anglais
Qualités personnelles attendues
• Capacité à proposer des idées algorithmiques dès l’entretien
• Être moteur dans les échanges scientifiques et la validation d’idées
• Goût pour la formalisation mathématique et l’expérimentation méthodique
• Appréciation pour la recherche bibliographique
Un plus :
• Expérience en recherche (stage labo, projet R&D…)
• Connaissance des ontologies et des logiques de description
• Intérêt pour les systèmes à base de raisonnement

Adresse d’emploi :
IMT Mines Albi (Centre de génie industriel), Albi (81)

Document attaché : 202511171603_offreStageM2_sujet1_2026.pdf

Dec
31
Wed
2025
Détection de phénomènes de diffusion dans les réseaux sociaux
Dec 31 2025 – Jan 1 2026 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Université Bourgogne Europe
Durée : 5 à 6 mois
Contact : annabelle.gillet@u-bourgogne.fr
Date limite de publication : 2025-12-31

Contexte :
Dans les réseaux sociaux, la manipulation de l’information est une problématique pouvant avoir des conséquences néfastes importantes. Les stratégies de diffusion d’informations manipulées sont complexes, et peuvent avoir recours à la mise en oeuvre d’armées de robots ayant différents rôles dans le réseau. Par exemple, un groupe de robots peut avoir pour tâche de spammer certains messages ou mots clés afin de manipuler les tendances et de gagner une visibilité importante en peu de temps, d’autres robots peuvent avoir un profil évolué ainsi qu’une activité quotidienne, leur permettant de passer pour des utilisateurs légitimes et de donner plus de poids aux messages qu’ils pourraient diffuser dans certaines communautés. Toutefois, la détection de ces armées de robots est complexe, et l’évolution rapide de leur comportement et de leur organisation restreint les types d’algorithmes utilisables.

Le projet ANR Beelzebot est un projet interdisciplinaire regroupant des chercheurs en informatique, en sciences de la communication et du langage. Il a pour objectif de définir des mécanismes pour détecter les armées de robots sur Twitter en se basant sur des méthodes non-supervisées, ainsi qu’à caractériser les activités de ces armées.

Sujet :
L’objectif du stage, dans le cadre du projet ANR Beelzebot, est de détecter des phénomènes de diffusion sur Twitter et de les caractériser. Pour cela, une approche prometteuse consiste à utiliser des algorithmes s’appuyant sur des tenseurs afin de créer un résumé des données pouvant être exploité pour détecter des zones denses sur le réseau qui peuvent correspondre à des phénomènes de diffusion. Un des avantages des tenseurs est leur aspect multi-dimensionnel, permettant notamment d’intégrer nativement une dimension temporelle aux analyses, contrairement aux approches basées sur les graphes.

Un autre objectif du stage est d’étudier plus en détail les phénomènes de diffusion détectés, en utilisant des analyses complémentaires visant à les caractériser. En effet, certains phénomènes de diffusion sont naturels et résultent de l’utilisation standard du réseau, tandis que d’autres proviennent d’actions de manipulation tentant de profiter des mécanismes du réseau pour diffuser des idées ou perturber son fonctionnement normal. Il s’agit plus particulièrement d’étudier leurs impacts sur les structures communautaires, les utilisateurs frontières, les utilisateurs influents, l’émergence de hashtags, etc.

En plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter sont à disposition, comme par exemple les discussions autour de l’élection présidentielle française de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’Université Bourgogne Europe.

Une poursuite en thèse à la suite du stage est envisageable.

Profil du candidat :
– étudiant en Master 2 avec spécialité informatique ;
– curiosité et rigueur scientifique ;
– compétences en gestion de données ;
– solides connaissances et compétences en algorithmique et développement logiciel.

Formation et compétences requises :

Adresse d’emploi :
Université Bourgogne Europe, Dijon

Document attaché : 202511211319_StageBeelzebot2026.pdf

Internship Subject M2 – Integrating Earth observation data and deep learning methods to monitor food systems
Dec 31 2025 – Jan 1 2026 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-12-31

Contexte :
Food systems are highly interconnected between countries on a global scale, as shown by recent disruptions such as the war in Ukraine and the global pandemic. Food flows are vulnerable to shocks, and these disruptions influence food prices, which in turn affect food consumption patterns. This has had a significant impact on people’s diets, particularly in underdeveloped countries where food security is already fragile. However, scientists and policy-makers lack the data and tools to identify weak points in food flows and build food systems resilient to shocks and disruptions. While considerable progress has been made using Earth Observation data to map crop locations and agricultural productivity (e.g. crop yields), little attention has been paid to the intermediate stages of the workflow – distribution, processing and markets – which are key to understanding and modeling how food moves from production to consumption. Additionally, numerous geospatial datasets, such as OpenStreetMap, are publicly accessible and provide valuable information on land use and land cover.

Thanks to advances in artificial intelligence and its application to Earth Observation data, continuously collected satellite images on a global scale, combined with meteorological data, make it possible to monitor food systems in real time. Deep learning models, capable of capturing complex, non-linear relationships, and multimodal algorithms integrating data from a variety of sources, are opening up new perspectives in this field. This internship proposes to exploit multi-temporal and multi-resolution Earth observation data, by combining them with learning models, to monitor food systems, estimate agricultural yields and analyze their links with market prices.

This internship focuses on developing machine learning approaches to analyze food flows in Rwanda, in relation to food security situation in the country, by using comprehensive market data and geospatial information. Food flows often deviate from optimal distribution patterns due to infrastructure constraints, market dynamics, and socio-economic factors. For example, a certain product (e.g., potatoes) grown in northern regions may follow suboptimal routes to reach southern markets. By modeling both ideal and actual food flows, we can identify bottlenecks and opportunities to improve food security.

Sujet :
Missions :

The project aims to understand the relationship between food production locations, distribution networks, and market accessibility to inform food security policies. More specifically, the final task is to build a machine learning model able to predict the probability that a certain item is sold in a specific market, based on production and distribution data.

The project leverages two primary datasets:

· Public Market Dataset: 1.2 million items across 70 markets covering 10 types of food items.

· CGIAR/IITA Survey Database: A dataset collected by the IITA (International Institute of Tropical Agriculture) including monthly data from 7,000 vendors across 67 markets in all districts of Rwanda, including food quality assessments and detailed market information.

These datasets will be complemented by geospatial data including OpenStreetMap (OSM) infrastructure data, land cover information, and Earth observation data (NDVI and other spectral indices).

The main tasks to address during the internship will be:

1. Database Integration and Market Mapping

a. Merge the public market dataset with CGIAR/IITA survey data to create a comprehensive market database

b. Map which specific food items are sold in which markets

2. Geospatial Data Integration

a. Incorporate OpenStreetMap data to understand transportation networks and market accessibility

b. Integrate land cover and agricultural production data to identify food production zones

c. Process Earth observation data (NDVI, meteorological data) to assess agricultural productivity

d. Map the complete food system from production areas to consumption markets

3. Machine Learning Model Development

a. Develop predictive models to estimate the probability that specific food items will be available in particular markets

b. Compare actual food flows with modeled optimal flows to identify inefficiencies

c. Test developed models against baseline methodologies and state-of-the-art approaches

4. Writing of the internship report (in English) to capitalize on the work carried out with a view to a possible scientific publication. If possible, also release associate code and data.

Profil du candidat :
Skills required :

– Programming skills

– Interest in data analysis

– Scientific rigor

– Curiosity and open-mindedness

– Analytical, writing and summarizing skills

How to apply :

Send CV, cover letter and M1 (or 4th year) transcript to :

simon.madec@cirad.fr , roberto.interdonato@cirad.fr

specifying as e-mail subject “CANDIDATURE STAGE DIGITAG”.

Additional Information :

– Duration of 6 months, starting February 2025

– Remuneration: CIRAD salary scale, ~600 euros/month

– The internship will take place at CIRAD, in the UMR TETIS (Territory, Environment,

Remote Sensing and Spatial Information), located at the Maison de la

Télédétection in Montpellier.

– The internship will be carried out in collaboration with Assistant Professor

Claudia Paris and Yue Dou, currently working at the ITC Faculty of Geographic Information

Science and Earth Observation, University of Twente, Netherlands.

Formation et compétences requises :
Skills required :

– Programming skills

– Interest in data analysis

– Scientific rigor

– Curiosity and open-mindedness

– Analytical, writing and summarizing skills

How to apply :

Send CV, cover letter and M1 (or 4th year) transcript to :

simon.madec@cirad.fr , roberto.interdonato@cirad.fr

specifying as e-mail subject “CANDIDATURE STAGE DIGITAG”.

Additional Information :

– Duration of 6 months, starting February 2025

– Remuneration: CIRAD salary scale, ~600 euros/month

– The internship will take place at CIRAD, in the UMR TETIS (Territory, Environment,

Remote Sensing and Spatial Information), located at the Maison de la

Télédétection in Montpellier.

– The internship will be carried out in collaboration with Assistant Professor

Claudia Paris and Yue Dou, currently working at the ITC Faculty of Geographic Information

Science and Earth Observation, University of Twente, Netherlands.

Adresse d’emploi :
500 rue Jean François Breton, 34090, Montpellier

Stage IA en cancérologie avec la possibilité de poursuivre en thèse
Dec 31 2025 – Jan 1 2026 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sesstim, Aix Marseille Université
Durée : 6 Mois
Contact : raquel.urena@univ-amu.fr
Date limite de publication : 2025-12-31

Contexte :
Ce stage s’inscrit dans un projet de recherche à l’interface de l’intelligence artificielle et de la santé, mené au sein d’une équipe multidisciplinaire réunissant informaticiens, médecins, biostatisticiens et chercheurs en santé publique.

L’objectif global est de modéliser et d’analyser les parcours de soins longitudinaux des patients à partir de données massives issues des bases médico-administratives (SNDS).

Ces travaux permettront d’identifier des profils de patients, des ruptures de parcours et des facteurs de réhospitalisation, afin d’améliorer la compréhension et la personnalisation de la prise en charge.
Le stage se déroulera au sein de l’équipe CaLIPSo / SESSTIM (Aix–Marseille Université), sur le IPC à Marseille, dans un environnement stimulant à l’interface de l’IA, de la santé et des sciences sociales.
Le stagiaire sera encadré par Raquel URENA, maître de conférences en informatique especialiste en IA et santé, et travaillera en interaction directe avec des chercheurs en IA, des épidémiologistes et des cliniciens de de l’Institut Paoli-Calmettes, sur des données massives réelles à fort impact sociétal.

Sujet :
Objectifs du stage
Le stagiaire participera à la conception et au développement de modèles innovants de modélisation automatique des trajectoires de soins en utilisant des techniques avancées de representation learning et de Large Language Models (LLMs) appliquées aux données de santé.
Les principales missions incluent :
• Extraction et structuration de trajectoires temporelles à partir de données massives (diagnostics, actes, hospitalisations, prescriptions).
• Développement de représentations patient à l’aide de modèles de deep learning.
• Comparaison et évaluation de différentes approches de representation learning.
• Identification de profils de soins, visualisation et interprétation des trajectoires representations.

Profil du candidat :
Compétences requises
• Solides connaissances en machine learning, representation learning et modélisation de séries temporelles.
• Maîtrise de Python (Pandas, NumPy, Scikit-learn, PyTorch/TensorFlow) et des bases de données SQL.
• Langue française indispensable, niveau avancé en anglais (oral et écrit).
• Excellentes capacités de rédaction scientifique et de communication.
• Curiosité, rigueur scientifique, autonomie et goût pour le travail interdisciplinaire.
Environnement de travail

Formation et compétences requises :
M2 Informatique/ IA/ Mathémathiquées appliqués

Adresse d’emploi :
232 Bd de Sainte-Marguerite, 13009 Marseille