
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : INRIA Opis
Durée : 5 mois
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2025-04-04
Contexte :
In the context of the ERC MAJORIS, and in collaboration with IFPEN company, the aim of this internship is to investigate the problem of sparse principal component analysis (PCA), with norm-ratio sparsifying penalties. Online information:
https://jobs.inria.fr/public/classic/fr/offres/2024-08488
Sujet :
Principal component analysis (PCA) is a workhorse in linear dimensionality reduction [Jol02]. It is widely applied in exploratory data analysis, visualization, data preprocessing).
Principal components are usually linear combinations of all input variables. For high-dimension data, this may involve input variables that contribute very little to the understanding. Finding the few directions in space that explain best observations is desirable. Sparse PCA overcomes this disadvantage by finding linear combinations that contain just a few input variables, by adding sparsity constraints [CR24,ZX18]. One of such is formulated (cf. lasso) with the help of an absolute norm penalty/regularization. In [MBPS10], one designs this matrix factorization problem as:
minimize_{alpha} || X – D alpha ||^2_F + lambda|| alpha ||_{1,1}
where: X = [x_1,…,x_n] is the matrix of data vectors; D is a square matrix from a suitable basis set, ||.||_F denotes the Frobenius norm; ||.||_{1,1} denotes the sum of the magnitude of matrix coefficients, lambda is a positive penalty weight.
A penalty such as ||.||_{1,1} is 1-homogeneous. This may only weakly emulate the sheer count of non-zero entries of a matrix, that would be scale-invariant or 0-homogeneous.
Recently, the SOOT/SPOQ family of penalties has been developed in our research group, as smooth emulations to the scale-invariant lp/lq norm ratios. The latter had been used for a while, as stopping-criteria, penalties or “continuous” sparsity count estimators [HR09]. They have been used successfully for the restoration/deconvolution/source separation of sparse signals [CCDP20,RPD+15].
The goal of the internship is to investigate the resolution of sparse PCA models, by replacing the standard l1 norm by such norm ratios. Convergence analysis of the proposed optimization algorithm, imlementation and validation over public benchmarks will be conducted.
[CCDP20] Afef Cherni, Emilie Chouzenoux, Laurent Duval, and Jean-Christophe Pesquet. SPOQ ℓp-over-ℓq regularization for sparse signal
recovery applied to mass spectrometry. IEEE Trans. Signal Process., 68:6070–6084, 2020.
[CR24] Fan Chen and Karl Rohe. A new basis for sparse principal component analysis. J. Comp. Graph. Stat.), 33(2):421–434, 2024.
[HR09] N. Hurley and S. Rickard. Comparing measures of sparsity. IEEE Trans. Inform. Theory, 55(10):4723–4741, Oct. 2009.
[Jol02] I. T. Jolliffe. Principal component analysis. Springer Series in Statistics, 2nd edition, 2002.
[MBPS10] Julien Mairal, Francis Bach, Jean Ponce, and Guillermo Sapiro. Online learning for matrix factorization and sparse coding. J. Mach.
Learn. Res., 11:19–60, 2010.
[RPD+15] A. Repetti, M. Q. Pham, L. Duval, E. Chouzenoux, and J.-C. Pesquet. Euclid in a taxicab: Sparse blind deconvolution with smoothed
ℓ1/ℓ2 regularization. IEEE Signal Process. Lett., 22(5):539–543, May 2015.
[ZCD23] Paul Zheng, Emilie Chouzenoux, and Laurent Duval. PENDANTSS: PEnalized Norm-ratios Disentangling Additive Noise, Trend
and Sparse Spikes. IEEE Signal Process. Lett., 30:215–219, 2023.
[ZX18] Hui Zou and Lingzhou Xue. A selective overview of sparse principal component analysis. Proc. IEEE, 106(8):1311–1320, August
2018.
Profil du candidat :
We seek for a talented candidate in Master 1, Master 2, or Engineering studies
Formation et compétences requises :
A solid background in optimization, and signal processing, and a strong motivation for research and innovation. Experience in Python is necessary.
Adresse d’emploi :
INRIA Saclay
Document attaché : 202501132057_main-IFPEN-INRIA-master-pca-spoq-sparse-revisited.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : GREYC/GAMPAM
Durée : 4 à 6 mois
Contact : francois.rioult@unicaen.fr
Date limite de publication : 2025-04-15
Contexte :
GAMPAM est une entreprise spécialisée dans le développement de jeux web et mobiles. Parmi ses domaines d’intérêt figurent la création d’edugames, une catégorie de jeux dédiée à l’apprentissage et à la pédagogie, ainsi que la création de jeux en ligne.
Les motivations de GAMPAM sont de proposer un service no-code de développement assisté par IA pour concevoir les jeux, leurs mécaniques et leurs graphismes.
Sujet :
Les récents développements en IA générative permettent l’exécution de prompts complexes pour la création de données structurées. L’ingénierie du prompt peut ainsi être abordée comme une recherche dans un espace vectoriel de programmes [1]. De plus, l’enrichissement du prompt par construction automatique d’une chaîne de pensée simule un raisonnement approfondissant les résultats usuels [2].
Pour spécialiser la base de connaissances du modèle, des techniques de RAG [3] permettent d’enrichir le prompt grâce aux résultats de l’interrogation de cette base. Des techniques de distillation sont également utiles [4] pour transférer les connaissances d’un grand modèle superviseur vers un modèle compact.
L’étudiant(e) réalisera une synthèse de l’état de l’art en matière de RAG et de distillation. Il/elle mettra en œuvre un processus de distillation pour obtenir un modèle compact capable de générer un tableau de bord à l’aide d’un langage maison, BoxLang, dédié à la création d’interfaces de contrôle.
Profil du candidat :
Étudiant(e) de master 2 en informatique ou 3è année d’école d’ingénieur.
Formation et compétences requises :
– Maîtrise du JavaScript (vanilla),
– Bases solides en algorithmie,
– Intérêt pour l’abstraction, la généralisation et la conception de jeux,
– Bonne culture de l’IA, en particulier les LLM et leurs applications
– Bon niveau d’anglais (lu, écrit, parlé)
Adresse d’emploi :
Caen (GREYC ou GAMPAM)
Document attaché : 202502271516_fiche-de-poste-m2-greyc.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Sesstim, Aix Marseille Université
Durée : 6 Mois
Contact : raquel.urena@univ-amu.fr
Date limite de publication : 2025-04-15
Contexte :
Ce stage s’inscrit dans un projet de recherche visant à intégrer des données cliniques, d’imagerie, et génomiques pour construire une base de données avancée en oncologie. Le but est de faciliter l’analyse des données et d’améliorer les prédictions sur la survie et la récidive du cancer du sein.
Sujet :
Le stagiaire sera impliqué dans :
1. Collecte et nettoyage des données : Extraction et harmonisation de données issues de multiples sources.
2. Constitution de la base de données : Conception et structuration d’un entrepôt de données robuste pour des analyses futures.
3. Application de techniques d’intelligence artificielle : Détection d’anomalies, fusion de données, et analyse prédictive avec des algorithmes de machine learning.
Profil du candidat :
• Étudiant(e) en Master 2 en Sciences des Données, Informatique ou équivalent.
• Connaissances solides en Python et en bases de données (SQL, NoSQL).
• Intérêt pour le traitement des données en santé et la bio-informatique
Formation et compétences requises :
Machine learning, SQL, Sciences des données
Adresse d’emploi :
Institut Paoli Calmettes, : 232 Bd de Sainte-Marguerite, 13009 Marseille
Document attaché : 202503101036_Offre de Stage 2025.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-04-30
Contexte :
Le projet DeepAeroDynamics (DADY) vise à combiner l’imagerie drone multispectrale time-lapse et le deep learning pour faire face aux défis du changement climatique et de la sécurité alimentaire dans les pays du Sud. L’objectif est de développer un modèle fondation capable d’intégrer les données multispectrales, spatiales et temporelles observées par drone aérien dans des environnements complexes et hétérogènes du Sud dans le but d’anticiper et prédire le comportement de plantes cultivées en agroécologie (Sahel, Madagascar, Guadeloupe).
Sujet :
Le stagiaire sera au coeur du développement d’une architecture deep learning permettant :
* D’analyser des séries temporelles multispectrales d’imagerie drone, et extraire automatiquement des représentations informatives de l’état des systèmes observés.
* D’analyser les dynamiques temporelles en utilisant des modèles de type Transformers pour capturer les évolutions des cultures décrites dans un espace latent.
* De maximiser l’utilisation des données par des techniques d’apprentissage semi-supervisées et des consignes prétextes pour maximiser la capacité d’apprentissage de l’architecture fondation.
Le développement des modèles s’appuiera sur des architectures CNN et Transformers. L’approche sera validée sur des jeux de données déjà acquis et stockés à proximité d’un supercalculateur. Les tests de niveau 1 s’effectueront sur une ferme GPU locale, et les modèles de niveau 2 seront testés sur les supercalculateurs Jean Zay et Adastra (20e mondial au TOP500). Les modèles seront documentés et diffusés en open-source, accompagnés de scripts pour le fine-tuning.
Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en deep learning.
Formation et compétences requises :
Travail avec Python, Pytorch/Tensorflow, Github, Intégration Continue. Expérience en traitement d’images. Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.
Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.
Document attaché : 202412131037_Offre de stage M2 – 2025 – DADY.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire IBISC, Université d’Evry Paris-Saclay
Durée : 5-6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2025-04-30
Contexte :
Sujet :
Description du sujet:
Le cancer du sein est considéré dans le monde comme la première cause de mortalité parmi les différentes localisations du cancer chez les femmes. Malgré les progrès importants réalisés ces dernières décennies pour améliorer la gestion de ce type de cancer, des outils de diagnostic plus précis sont encore nécessaires pour aider les experts à lutter contre cette maladie mortelle. De nombreux travaux ont été menés pour détecter la présence de tissus cancéreux dans le sein et pour la classification tumorale, en utilisant des outils dérivés de l’intelligence artificielle, souvent inspirés des systèmes naturels. En effet, des études récentes ont été publiées et plusieurs outils ont été développés, essentiellement basés sur l’apprentissage automatique, pour identifier et catégoriser automatiquement les masses mammaires malignes. Dans ce travail, nous nous concentrons sur l’extraction des attributs caractérisant les masses mammaires malignes, en tenant compte des paramètres environnementaux, tels que la pollution atmosphérique. Après une étude approfondie des méthodes récentes, le candidat développera une méthode basée sur les approches d’apprentissage automatique. La méthode développée permettra l’identification du cancer du sein et facilitera la prise de décision. La validation de la méthode proposée sera effectuée sur des bases de données connues.
Références:
[1] Peikari, M., Salama, S., Nofech-Mozes, S. and Martel, A.L., 2017. Automatic cellularity assessment from post-treated breast surgical specimens. Cytometry Part A, 91(11), pp.1078-1087.
[2] P. Khosravi, E. Kazemi, M. Imielinski, O. Elemento, and I. Hajirasouliha, Deep convolutional neural networks enable discrimination of heterogeneous digital pathology images,EBioMedicine, vol. 27, pp. 317 – 328, 2018.
[3] Adel Abdelli, Rachida Saouli, Khalifa Djemal, Imane Youkana, Combined Datasets For Breast Cancer Grading Based On Multi-CNN Architectures. 10th IEEE International conference on Image processing Theory, Tools and Applications IPTA 2020, November 09-12, Paris, France.
[4] Rima Daoudi and Khalifa Djemal, Breast Cancer Classification by Artificial Immune Algorithm based Validity Interval Cells Selection, Proceedings of ECTA 2016, ISBN: 978-989-758-201-1, Porto, Portugal, 9-11 november 2016.
[5] Konstantinos Charalampous and Antonios Gasteratos, Bio-inspired Deep Learning Model for Object Recognition, IEEE International Conference on Imaging Systems and Techniques (IST), pages:51 – 55, October 22-23, Beijing, china, 2013.
[6] S.R. Kheradpisheh, M. Ganjtabesh, and T. Masquelier, Bio-inspired unsupervised learning of visual features leads to robust invariant object recognition. Neurocomputing 205 (2016), pages: 382-392.
[7] https://www.acr.org
Profil du candidat :
Sujet de stage pour Master 2 ou équivalent, de préférence des spécialités suivantes :
– Machine Learning
– Imagerie Biomédicale
– Informatique Biomédicale
Formation et compétences requises :
– Programmation Python, Matlab,
– Machine Learning
– Des connaissances de base en traitement d’images
Adresse d’emploi :
Université d’Evry Paris Saclay
Laboratoire Informatique, Biologie Intégrative et Systèmes Complexes – IBISC, 40 rue du Pelvoux, 91020 Evry, France.
Document attaché : 202503170951_Sujet-Stage-Master2-CS-2024-2025.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : LaSTIG (Université Gustave Eiffel – IGN/ENSG)
Durée : 5 mois
Contact : charly.bernard@ign.fr
Date limite de publication : 2025-04-30
Contexte :
Sujet :
Ce stage s’inscrit dans un ensemble de travaux visant à proposer une méthodologie générique et reproductible pour la construction d’un graphe de connaissances géohistorique des voies et des adresses à partir des documents historiques et de données publiées sur le Web.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Équipe LaSTIG/Strudel – École Nationale des Sciences Géographiques
6-8 avenue Blaise Pascal
77420 Champs-sur-Marne
(RER A, station Noisy-Champs)
Document attaché : 202412131314_2025-Sujet_Stage_M2_LLM_Rues_Paris.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : nicolas.lachiche@unistra.fr
Date limite de publication : 2025-05-04
Contexte :
Collaboration avec le service de réanimation de l’hôpital de Hautepierre à Strasbourg
Sujet :
Description de l’offre
Les patients admis en réanimation médicale sont souvent atteints de maladies graves, voire potentiellement mortelles, nécessitant de multiples traitements. L’incidence des interactions médicamenteuses y est donc élevée, avec des conséquences parfois sévères, telles qu’une exacerbation des effets secondaires ou une augmentation de la toxicité des médicaments.
De plus, ces patients présentent fréquemment des insuffisances rénale et/ou hépatique, ce qui peut entraîner des surdosages médicamenteux en raison d’une élimination altérée. Cela complexifie davantage la tâche du prescripteur, qui doit quotidiennement évaluer le rapport bénéfice/risque des traitements administrés.
Aujourd’hui, un grand nombre de données sont automatiquement collectées chez les patients de réanimation. L’objectif de ce stage est d’utiliser ces informations pour apprendre à détecter les interactions médicamenteuses et ainsi assister le clinicien dans ses décisions thérapeutiques.
Dans le cadre de ce projet, nous nous concentrerons sur l’allongement de l’intervalle QT comme indicateur mesurable des interactions médicamenteuses touchant le cœur. Cet intervalle, mesuré sur l’électrocardiogramme, est influencé par de nombreux facteurs et médicaments (CredibleMeds). En cas d’allongement excessif, il peut induire des troubles du rythme cardiaque
potentiellement mortels.
Travail à réaliser
– Calculer l’intervalle QT à partir des électrocardiogrammes en utilisant les librairies de traitement
du signal existantes
– Vérifier l’influence de situations et médicaments connus sur le QT extrait des bases de données
– Identifier et extraire les médicaments et autres informations pertinentes des données
– Utiliser des algorithmes d’apprentissage machine pour prédire la variation du QT
Profil du candidat :
Bac +4-5 en informatique, science des données, intelligence artificielle, apprentissage automatique
Formation et compétences requises :
Python et les librairies classiques de l’apprentissage profond et des séries temporelles
Adresse d’emploi :
ICube
300 Boulevard Brant
67412 Illkirch
Document attaché : 202410071201_StageM2_Interactions2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire MAP5, Université Paris-Cité,
Durée : 4-6 months + opportu
Contact : anne.sabourin@u-paris.fr
Date limite de publication : 2025-05-04
Contexte :
The internship is intended to lead to a PhD thesis if everything goes as planned. The PhD will be funded by the ANR project EXSTA led by A. Sabourin. The Phd Candidate will benefit from interactions with other researchers in the field e.g. through workshops organised within the project’s framework, in addition to usual participation in conferences.
Sujet :
Context: Extreme Value Theory (EVT) is a field of probability and statistics concerned with tails of distributions, that is, regions of the sample space located far away from the bulk, associated with rare and extreme events. Poviding probabilistic descriptions and statistical inference methods for the tails requires sound theoretical assumptions pertaining to the theory of regular variation and maximum domains of attraction, ensuring that a limit distribution of extremes exists. This setting encompasses a wide range of applications in various disciplines where extremes have tremendous impact, such as climate science, insurance, environmental risks and industrial monitoring systems [1].
In a supervised learning framework, the goal is to learn a good prediction function to predict new, unobserved labels. In many contexts (covariate-shifts, climate change), extrapolation (or out-of-sample) properties of the predictors thus constructed are crucial, and obtaining good generalization properties on unobserved regions of the covariate space is key. Recently, there has been significant interest in the ML literature regarding out-of-domain generalization (see e.g. [2]).
Recent works [3,4,5] focus on the problem of learning a tail predictor based on a small of the most, with non-asymptotic guarantees regarding the risk on extreme regions . For simplicity, the theoretical study in both works is limited to Empirical Risk Minimization (ERM) algorithms without a penalty term. In addition, the regression problem analysed in [5] covers least squares regression only. Also, with heavy-tailed targets, non-linear transformations of the target are required in order to satisfy boundedness assumptions.
Research Objectives: The general purpose of this internship and subsequent thesis is to extend the scope of applications of the supervised learning methods described above to a wider class of learning algorithms. One main limitation of least squares regression is that the optimal predictor (i.e. the conditional expectation given the covariate) is not invariant under non-linear transformations of the target. As a starting point, the least-squares framework will be extended to the quantile regression framework which, in contrast to least squares, is compatible with non-linear transformations. From a statistical learning perspective, we shall extend the ERM framework considered thus far to encompass penalized risk minimizations procedures amenable to high dimensional covariates or non-linear regression functions. SVM quantile regression [6] is a natural candidate for this purpose. The goal will be to obtain finite sample guarantees on the generalization error of quantile regression functions learnt with the a subsample made of the largest observations and hopefully recover learning rates of comparable order as the ones obtained in the classical framework, with the full sample size n replaced with the reduced sample size. The bottleneck is that these largest observations may not be considered as an independent sample because they are order statistics of a full sample. However it is anticipated that proof techniques from recent works [7,8,9] based on conditioning arguments and concentration inequalities incorporating (small) variance terms can be leveraged for this purpose.
References
[1] Beirlant, J., Goegebeur, Y., Segers, J., and Teugels, J. L. (2004). Statistics of Extremes: Theory and
Applications, volume 558. John Wiley & Sons.
[2] Zhou, K., Liu, Z., Qiao, Y., Xiang, T., and Loy, C. C. (2022). Domain generalization: A survey. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 45(4):4396–4415.
[3] Jalalzai, H., Clémençon, S., and Sabourin, A. (2018). On binary classification in extreme regions. In
NeurIPS Proceedings, volume 31.
[4] Clémençon, S., Jalalzai, H., Lhaut, S., Sabourin, A., and Segers, J. (2023). Concentration bounds for the
empirical angular measure with statistical learning applications. Bernoulli, 29(4):2797–2827.
[5] Huet, N., Clémençon, S., and Sabourin, A. (2023). On Regression in Extreme Regions. arXiv preprint
arXiv:2303.03084.
[6] Takeuchi, I., Le, Q. V., Sears, T. D., Smola, A. J., and Williams, C. (2006). Nonparametric quantile
estimation. Journal of machine learning research, 7(7).
Supervisory Team/contact: Anne Sabourin (MAP5, Université Paris-Cité), Clément Dombry (LMB, Université de Franche-Comté)
Profil du candidat :
Master’s student (2nd year) in Applied Mathematics/Statistics/Statistical Machine Learning with an excellent track record and a strong interest for mathematical statistics and learning theory. Some knowledge of R or Python.
Application to the PhD thesis from candidates having already graduated from a Master’s program will also be considered.
Formation et compétences requises :
Being enrolled in or having graduated from a Master’s program in Mathematics/Statistics/Statistical Machine Learning
Adresse d’emploi :
Laboratoire MAP5, Université Paris Cité, 45 rue des Saint Pères, Paris.
Document attaché : 202410081334_offreStage2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Centre d’Epidémiologie et de Santé Publique des A
Durée : 4 à 6 mois
Contact : muriel.visani@univ-lr.fr
Date limite de publication : 2025-05-31
Contexte :
/! À noter que ce sujet de stage s’adresse préférentiellement à des étudiants de M2 mais, en fonction de leur profil et de leur expérience, des étudiants de M1 pourraient être acceptés.
/! Parmi les pré-requis explicités dans le fichier ci-joint, nous attirons l’attention des potentiels candidats sur les contraintes en termes de nationalité liées à ce poste.
Sujet :
Voir le fichier ci-joint.
Profil du candidat :
Nous recherchons un(e) étudiant(e) de Master 2 ou de Master 1, de nationalité Française, avec :
– Motivation dans la recherche et l’innovation
– Bonnes compétences en programmation (en particulier avec Python)
– Bonnes compétences en IA et en apprentissage automatique
– Une première expérience du deep learning serait un atout
– Très bon niveau d’anglais (parlé et écrit)
– Connaissances en traitement et analyse d’images
Tous les demandeurs devront se soumettre à une enquête d’habilitation de sécurité avant de pouvoir accéder au site du CESPA.
Formation et compétences requises :
Adresse d’emploi :
Centre d’Epidémiologie et de Santé Publique des Armées (CESPA), Marseille.
Document attaché : 202501240639_StageMaster-CESPA.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Cirad, Montpellier
Durée : 4 à 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-05-31
Contexte :
Les rizières jouent un rôle central dans la sécurité alimentaire mondiale, et un rôle important dans
le changement climatique d’origine anthropique en émettant chaque année 50 mégatonnes de méthane. Le
projet interdisciplinaire ARIZE vise à relever le double défi de la transition agroécologique et de la sécurité
alimentaire en développant des outils innovants pour l’exploration morpho-anatomique du riz en 3D afin de
sélectionner des variétés de riz adaptées aux cultures en sol sec. Dans ce cadre, nous explorons
l’architecture interne des plantes de riz en 3D via des images inédites par micro-tomographie aux rayons X à
une résolution de 10 μm. Chaque image volumétrique, de l’ordre de 1 To, permet de révéler le réseau 3D
des aérenchymes, ces “canaux” internes qui transportent l’oxygène. Automatiser l’analyse de ces structures
en 3D serait une première mondiale et constitue le cœur de ce stage.
Sujet :
Concevoir un pipeline complet d’analyse 3D pour la segmentation anatomique et l’estimation de
caractéristiques complexes en 3D. Dans ce but, le stagiaire aura la responsabilité de réaliser des
expérimentations avec des outils de l’état de l’art (modèles dédiés “plante” et modèles-fondation
généralistes), et de concevoir une solution technique open-source qui sera mise à disposition dans un
démonstrateur open-source via un plugin Python pour le logiciel Napari. Le stagiaire travaillera en lien étroit
avec le deuxième stagiaire X-atlas 3D, dédié à la reconstruction architecturale en 3D. Une forte collaboration
est prévue pour combiner les résultats dans une solution intégrée.
Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en informatique, analyse
d’images, ou modélisation mathématique. Le langage de programmation utilisé sera Python, en utilisant
des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue), et des
librairies standards de deep learning (Pytorch/Tensorflow).
Formation et compétences requises :
Expérience en traitement d’images 3D, et/ou
modélisation géométrique appréciée. Intérêt pour le développement d’outils open-source et la
collaboration interdisciplinaire. Capacité à travailler en équipe dans un environnement mêlant
informatique, biologie et agroécologie.
Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€
mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av.
Agropolis, 34980 Montferrier-sur-Lez.
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-05-31
Contexte :
Les rizières jouent un rôle central dans la sécurité alimentaire mondiale, et un rôle important dans le changement climatique d’origine anthropique en émettant chaque année 50 mégatonnes de méthane. Le projet interdisciplinaire ARIZE vise à relever le double défi de la transition agroécologique et de la sécurité alimentaire en développant des outils innovants pour l’exploration morpho-anatomique du riz en 3D afin de sélectionner des variétés de riz adaptées aux cultures en sol sec. Dans ce cadre, nous explorons l’architecture interne des plantes de riz en 3D via des images inédites par micro-tomographie aux rayons X à une résolution de 10 µm. Chaque image volumétrique, de l’ordre de 1 To, permet de révéler le réseau 3D des aérenchymes, ces “canaux” internes qui transportent l’oxygène. Automatiser l’analyse de ces structures en 3D serait une première mondiale et constitue le cœur de ce stage.
Sujet :
Concevoir un pipeline complet d’analyse 3D pour la segmentation anatomique et l’estimation de caractéristiques complexes en 3D. Dans ce but, le stagiaire aura la responsabilité de réaliser des expérimentations avec des outils de l’état de l’art (modèles dédiés “plante” et modèles-fondation généralistes), et de concevoir une solution technique open-source qui sera mise à disposition dans un démonstrateur open-source via un plugin Python pour le logiciel Napari. Le stagiaire travaillera en lien étroit avec le deuxième stagiaire X-atlas 3D, dédié à la reconstruction architecturale en 3D. Une forte collaboration est prévue pour combiner les résultats dans une solution intégrée.
Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en informatique, analyse d’images, ou modélisation mathématique. Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue), et des librairies standards de deep learning (Pytorch/Tensorflow).
Formation et compétences requises :
Expérience en traitement d’images 3D, et/ou modélisation géométrique appréciée. Intérêt pour le développement d’outils open-source et la collaboration interdisciplinaire. Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.
Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez.
Document attaché : 202501271049_Offre de stage M2 – Deep aerenchimas.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IMT Atlantique & ENSTA
Durée : 6 mois
Contact : dorian.cazau@ensta.fr
Date limite de publication : 2025-06-30
Contexte :
Sujet :
IA Non‐Supervisée pour le Suivi de la Biodiversité Marine par Acoustique Passive Sous Marine (IANSPAM)
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Brest ‐ IMT Atlantique / ENSTA
Document attaché : 202502101141_Stage IANSPAM.pdf
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : CRISTAL UMR CNRS 9189
Durée : 6 mois
Contact : hayfa.zgaya-biau@univ-lille.fr
Date limite de publication : 2025-10-31
Contexte :
Le projet IARISQ (projet ANR 2025) vise à développer des modèles d’intelligence artificielle avancés pour prédire la toxicité des particules atmosphériques en fonction de leur composition physico-chimique et de leurs variations spatio-temporelles. Le stage s’inscrit dans une dynamique interdisciplinaire mêlant IA explicable (XAI), gestion de l’incertitude, toxicologie environnementale et données de qualité de l’air.
Suite possible : thèse (2026–2029)
Le stage pourra évoluer naturellement vers une thèse de doctorat de 3 ans au sein du laboratoire CRISTAL, dans la continuité des travaux réalisés. Le/la doctorant(e) travaillera en lien étroit avec les partenaires ATMO-HDF et LGCgE, sur la modélisation avancée des risques toxiques et l’intégration des modèles IA dans des outils opérationnels de surveillance.
Sujet :
• Participer à la construction et préparation de bases de données (mesures ATMO-HDF, composition physico-chimique, tests de toxicité).
• Déployer des modèles d’apprentissage automatique supervisés et non supervisés pour identifier les caractéristiques les plus influentes sur la toxicité.
• Expérimenter des techniques d’explicabilité (SHAP, LIME) et de réduction de dimension (UMAP, PCA).
• Contribuer au design d’une première version de pipeline IA à intégrer dans un futur système d’aide à la décision.
Profil du candidat :
• M2 en informatique, intelligence artificielle, science des données.
• Maîtrise de Python, notamment avec les bibliothèques scikit-learn, pandas, PyTorch ou TensorFlow.
• Connaissance des modèles de machine learning, des réseaux de neurones et/ou des approches XAI.
• Rigueur, autonomie et appétence pour les projets interdisciplinaires (santé, environnement, IA).
Formation et compétences requises :
• M2 en informatique, intelligence artificielle, science des données.
• Maîtrise de Python, notamment avec les bibliothèques scikit-learn, pandas, PyTorch ou TensorFlow.
• Connaissance des modèles de machine learning, des réseaux de neurones et/ou des approches XAI.
• Rigueur, autonomie et appétence pour les projets interdisciplinaires (santé, environnement, IA).
Adresse d’emploi :
Centre de Recherche en Informatique, Signal et Automatique de Lille
UMR CNRS 9189 CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
59655 Villeneuve d’Ascq
https://www.cristal.univ-lille.fr
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : CRISTAL UMR CNRS 9189
Durée : 6 mois
Contact : hayfa.zgaya-biau@univ-lille.fr
Date limite de publication : 2025-10-31
Contexte :
Le projet IARISQ (projet ANR 2025) vise à développer des modèles d’intelligence artificielle avancés pour prédire la toxicité des particules atmosphériques en fonction de leur composition physico-chimique et de leurs variations spatio-temporelles. Le stage s’inscrit dans une dynamique interdisciplinaire mêlant IA explicable (XAI), gestion de l’incertitude, toxicologie environnementale et données de qualité de l’air.
Suite possible : thèse (2026–2029)
Le stage pourra évoluer naturellement vers une thèse de doctorat de 3 ans au sein du laboratoire CRISTAL, dans la continuité des travaux réalisés. Le/la doctorant(e) travaillera en lien étroit avec les partenaires ATMO-HDF et LGCgE, sur la modélisation avancée des risques toxiques et l’intégration des modèles IA dans des outils opérationnels de surveillance.
Sujet :
• Participer à la construction et préparation de bases de données (mesures ATMO-HDF, composition physico-chimique, tests de toxicité).
• Déployer des modèles d’apprentissage automatique supervisés et non supervisés pour identifier les caractéristiques les plus influentes sur la toxicité.
• Expérimenter des techniques d’explicabilité (SHAP, LIME) et de réduction de dimension (UMAP, PCA).
• Contribuer au design d’une première version de pipeline IA à intégrer dans un futur système d’aide à la décision.
Profil du candidat :
• M2 en informatique, intelligence artificielle, science des données.
• Maîtrise de Python, notamment avec les bibliothèques scikit-learn, pandas, PyTorch ou TensorFlow.
• Connaissance des modèles de machine learning, des réseaux de neurones et/ou des approches XAI.
• Rigueur, autonomie et appétence pour les projets interdisciplinaires (santé, environnement, IA).
Formation et compétences requises :
• M2 en informatique, intelligence artificielle, science des données.
• Maîtrise de Python, notamment avec les bibliothèques scikit-learn, pandas, PyTorch ou TensorFlow.
• Connaissance des modèles de machine learning, des réseaux de neurones et/ou des approches XAI.
• Rigueur, autonomie et appétence pour les projets interdisciplinaires (santé, environnement, IA).
Adresse d’emploi :
Centre de Recherche en Informatique, Signal et Automatique de Lille
UMR CNRS 9189 CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
59655 Villeneuve d’Ascq
https://www.cristal.univ-lille.fr
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIT (Toulouse)
Durée : 5 to 6 months
Contact : henrique.goulart@irit.fr
Date limite de publication : 2025-11-16
Contexte :
Sujet :
We are seeking candidates for a 5- to 6-month internship on the analysis and improvement of estimators of low-rank tensor models, with the possibility of a PhD thesis afterwards (a PhD funding is secured). This subject is situated at the interface between mathematics and computer science, having applications in several domains, notably in data science and machine learning.
A detailed description can be found at: https://cloud.irit.fr/s/hZnoJgiopaqMkdV
Profil du candidat :
M2 student strongly motivated by mathematics and its application to statistical inference and machine learning. Prior knowledge on tensor algebra and on random matrix theory are a strong plus. Good communication skills (both oral and written) in English are required, notably for reading, writing and presenting scientific papers.
Formation et compétences requises :
Adresse d’emploi :
IRIT (Institut de Recherche en Informatique de Toulouse), site ENSEEIHT (2 rue Charles Camichel, Toulouse).
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 4 à 6 mois
Contact : tchernia@iap.fr
Date limite de publication : 2025-11-21
Contexte :
La modélisation et la compréhension de l’histoire de l’Univers, depuis le Big Bang jusqu’à aujourd’hui, reposent sur l’évaluation de nos modèles
cosmologiques à partir des grands relevés astronomiques (Euclid, DESI…). L’un des objectifs est de simuler la formation des grandes structures afin d’évaluer la robustesse des modèles cosmologiques vis-à-vis des observations. L’Institut d’Astrophysique de Paris (IAP), une Unité Mixte de Recherche (UMR) de Sorbonne Université et du Centre National de la Recherche Scientifique (CNRS), est impliqué dans cette activité. En son sein, l’équipe « Grandes structures et Univers profond » à laquelle le.la stagiaire sera affecté.e a développé le code Simbelmynë, qui permet de :
1. Calculer l’évolution de la répartition de matière noire en résolvant les
équations du mouvement de la gravité à l’échelle de l’univers observable
(problème à N corps),
2. En déduire une répartition des galaxies dans le ciel,
3. Produire des relevés cosmologiques simulés.
Cette chaîne de simulation est appelée à être lancée un très grand nombre de fois pour des paramètres d’entrée variés. C’est pourquoi le respect des contraintes du calcul haute performance (HPC) et la parallélisation des tâches sont des enjeux clés de ce code. Grâce à l’approche sCOLA qui divise la portion d’univers à simuler en morceaux indépendants, il est possible d’adopter une approche hybride entre calculs à mémoire distribuée et à mémoire partagée. Nous souhaitons aujourd’hui le rendre portable sur plusieurs architectures cibles (CPU et GPU).
Pour plus de détails sur le contexte scientifique, voici un article de vulgarisation traitant de ce sujet : https://theconversation.com/vers-une-simulation-de-lunivers-sur-un-telephone-portable-137421
Sujet :
La.le stagiaire participera au portage de C vers C++ du code Simbelmÿne ainsi qu’au développement de codes de calcul parallèle utilisant des CPU et GPUs. Il/elle se formera au framework Kokkos et l’utilisera afin de produire un code générique compatible avec toutes les architectures cibles. Il/elle mettra ces codes en œuvre à l’aide du cluster de calcul du laboratoire, mettant à disposition CPUs et GPUs. Il/elle travaillera en équipe et versionnera son code à l’aide de Git et produira les tests unitaires et benchmarks garantissant la qualité, la performance et la robustesse de son code.
Profil du candidat :
Nous recherchons un.e stagiaire de six mois en fin d’études ou césure, en école d’ingénieurs ou master, avec une spécialisation en informatique et si possible en calcul scientifique/HPC.
Formation et compétences requises :
– Maîtrise du langage de programmation C++, connaissance de python
– Savoir adopter une méthodologie de développement collaboratif (Git,
tests unitaires…)
– Connaître les enjeux de la programmation HPC, notamment la
parallélisation des tâches (multithreading, multiprocessing).
– Notions de mathématiques appliquées (Transformées de Fourier,
Équations aux dérivées partielles…)
– Anglais courant (réunions en anglais)
– Une formation en physique serait un plus.
Adresse d’emploi :
98 bis boulevard Arago, 75014 Paris
Document attaché : 202510231604_Fiche de stage HPC Cosmologie.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : (UR 4108 / FR CNRS 3638)
Durée : 6 mois
Contact : asma.dhaouadi@insa-rouen.fr
Date limite de publication : 2026-02-27
Contexte :
Facility Management (FM) encompasses all activities aimed at improving the efficiency of the working
environment (building management, energy consumption, employee comfort, safety, etc.). These practices
directly influence a company’s economic, environmental, and societal performance [1, 2]. However, the
relationships between these indicators are complex, often implicit, and rarely described in clear quantitative
terms. In addition, company executives need to identify these relationships and their influence on
the overall work environment.
The emergence of Large Language Models (LLMs) and qualitative reasoning approaches (qualitative
influence diagrams, fuzzy logic, Bayesian networks) paves the way for more detailed modeling of dependencies
between indicators, facilitating analysis and strategic decision-making.
Sujet :
Goals
• Automatic extraction of indicators from Quality of Life and Working Conditions (QLWC) documents
(scientific publications, reports, CSR documents, audits).
• Identification of qualitative relationships of influence between these indicators using LLM (e.g.,
“better air quality improves employee productivity”).
• Construction of an influence graph representing these relationships in the form of Qualitative Influence
Diagrams (QID) [3], using two different approaches :
• Fuzzy Logic [4]
• Bayesian Networks [5]
• Analysis of the graph to detect key indicators (those that strongly influence others) and their
influences linking FM practices to overall performance (economic, environmental, societal).
• Prototype decision-making tool for visualizing these graphs and simulating the impact of a change
in indicators.
Bibliography
1. AFNOR, “NF EN 15221-1 : Facility Management — Part 1 : Terms and Definitions,” French Standard,
Association Française de Normalisation, Dec. 2006. Withdrawn on Jul. 13, 2018.
2. Mouvement des Entreprises de France (MEDEF), “GUIDE RSE – Introduction à la Qualité de Vie
et des Conditions de Travail (QVCT),” Paris, France : MEDEF, 2023.
3. Renooij, S., & van der Gaag, L. C. (1998, May). Decision Making in Qualitative Influence Diagrams.
In FLAIRS (pp. 410-414).
4. Klir, G. J., & Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic : Theory and Applications. Prentice
Hall.
5. Koller, D., & Friedman, N. (2009). Probabilistic Graphical Models : Principles and Techniques.
MIT Press.
Profil du candidat :
Expected Skills
• Good knowledge of Python 3 and interest in LLMs.
• Basics of Semantic Web (ontologies, RDF, OWL, SPARQL).
• Interest in fuzzy set theory and probabilistic reasoning.
• Strong motivation for collaboration and teamwork.
Formation et compétences requises :
Adresse d’emploi :
INSA Rouen Normandie
Equipe MIND – LITIS (UR 4108 / FR CNRS 3638)
Avenue de l’Université, BP 8, 76801 Saint-Étienne-du-Rouvray cedex, France
Document attaché : 202511201327_2026_stage.pdf
Offre en lien avec l’Action/le Réseau : SaD-2HN/– — –
Laboratoire/Entreprise : Centre de Recherches Historiques (UMR 8558 : EHESS
Durée : 6 mois
Contact : bertrand.dumenieu@ehess.fr
Date limite de publication : 2025-11-26
Contexte :
Le musée Carnavalet – Histoire de Paris et les bibliothèques spécialisées de la ville de Paris conservent d’importantes collections d’éphémères. Il s’agit de documents de la vie quotidienne produits par des commerces, des associations ou des particuliers, qui deviennent très rapidement obsolètes : faire-parts, menus, cartes postales, affiches, prospectus, buvards publicitaires, dépliants touristiques, catalogues de vente, programmes de théâtre, images pieuses, sous-bocks, papiers de fruits, etc. La figure 1 présente un exemple d’affiches et de prospectus créés entre 1873 et 1888 et conservés au musée Carnavalet – Histoire de Paris. Chaque éphémère est indexé par des métadonnées récoltées par le musée, décrivant les acteurs de sa production (artiste dessinateur, imprimeur) et les techniques et matériaux mobilisés. Ces informations permettent quelques analyses explicatives sur la chaîne de création, d’impression et de diffusion de ces éphémères, mais qui restent limitées faute de connaissances suffisantes sur les réseaux professionnels des commerçants, artistes et artisans qui y contribuent.
Pour peu qu’ils exercent à Paris, ces professionnels ont de bonnes chances d’être recensés dans les annuaires commerciaux de la ville (voir figure 2). Ancêtres des « Pages Jaunes », ces ouvrages compilent, classent, datent et localisent les commerçants, artisans et notables parisiens au sein de longues listes nominatives. Celles de la majorité des annuaires édités entre 1797 et 1914 ont été extraites et transformées en une base de données géographique sérielle durant un précédent projet de recherche. Il est désormais possible d’exploiter les 22 millions d’entrées contenues de cette base pour tenter d’identifier les acteurs de la production d’éphémères et les lier aux collections du musée Carnavalet.
Sujet :
Le premier objectif de ce stage est donc de croiser les métadonnées des éphémères avec la base des annuaires du commerce parisien au XIXe siècle pour y retrouver les commerçants et artisans ayant concouru à la production des éphémères du musée. Le second objectif consistera à proposer une méthodologie d’analyse de ces métadonnées enrichies pour comprendre comment la création, l’impression et la diffusion des éphémères s’organisait, selon les commanditaires, les imprimeurs ou les types de supports. On pourra, par exemple, étudier l’éventuelle spécialisation des artistes, des imprimeurs, des rues ou des quartiers dans certains types de production ou bien les critères de choix des artistes ou des imprimeurs par les commanditaires : proximité spatiale, recommandation professionnelle, renommée, etc.
La première difficulté de ce travail réside dans la création et le peuplement du graphe de connaissances initial à partir des deux sources de données hétérogènes, incomplètes, bruitées, spatiales et temporelles que sont la base des annuaires et les métadonnées des éphémères. Il s’agira donc de proposer une ontologie, guidée par les hypothèses d’analyse des historiens de l’art concernant les réseaux professionnels potentiels des commerçants, artistes et imprimeurs impliqués dans la création des éphémères. Celle-ci devra ensuite être peuplée à partir des données disponibles, ce qui nécessitera un travail de désambiguïsation des commerçants, artistes et imprimeurs.
La seconde difficulté sera de proposer une méthodologie d’analyse spatio-temporelle permettant de comprendre le mode de constitution des réseaux professionnels à l’œuvre et leurs dynamiques au cours de la période étudiée.
Profil du candidat :
Master 2 ou équivalent en humanités numériques, sciences de l’information géographique ou informatique.
Le ou la candidat.e doit être un.e étudiant.e inscrit.e dans une université francilienne.
Formation et compétences requises :
– Analyse de données : connaissances pratiques et théoriques en analyse spatiale.
– Web de données : expérience en manipulation de graphes de connaissances, connaissance du liage de données, notions de conception d’ontologies.
– Sciences de l’information géographique : maîtrise opérationnelle de QGIS, connaissance de PostGIS, notions en scripting Python pour les SIG.
– Un goût pour l’histoire urbaine ou l’histoire de l’art est un atout.
Adresse d’emploi :
Centre de recherches historiques (UMR 8558 EHESS – CNRS), 54 boulevard Raspail, 75006 Paris
Document attaché : 202510211306_StageEphemeres&Annuaires.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire des 2 Infinis – Toulouse
Durée : Flexible
Contact : catherine.biscarat@l2it.in2p3.fr
Date limite de publication : 2025-12-02
Contexte :
Le Laboratoire des 2 Infinis – Toulouse (L2IT) est une unité mixte de recherche (UMR) du CNRS et de l’Université de Toulouse, jeune et dynamique, née en janvier 2020. Les objets d’étude des chercheurs et des ingénieurs du L2IT sont les deux infinis – l’infiniment petit et l’infiniment grand – et les relations entre les phénomènes qui régissent chacun d’entre eux. Le laboratoire est organisé en quatre équipes “Calcul, Analyse et Données”, “Physique Nucléaire”, “Physique des particules” et “Ondes Gravitationnelles”. Nous poursuivons nos recherches au sein de collaborations internationales. Nous sommes actuellement 32 membres, dont 15 permanents qui mettent en place les équipes de recherche.
La spécificité du L2IT est son accent sur les méthodes numériques de pointe (IA, calcul HPC, ingénierie logicielle, expertise CUDA) qui accompagnent les travaux d’analyse de données, de modélisation, simulation, et de développements théoriques. Le L2IT est implanté sur un campus dynamique qui regroupe facultés, écoles et laboratoires.
Sujet :
Trois sujets de stage sont actuellement proposés. Ils sont à l’intersection entre l’IA et nos domaines de recherche en physique fondamentale (physique des particules, cosmologie, ondes gravitationnelles). Pour les détails des sujets, veuillez vous référer à notre site internet : https://www.l2it.in2p3.fr/en/emplois-et-stages/internships-2026/
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Laboratoire des 2 Infinis – Toulouse, Maison de la Recherche et de la Valorisation, 75 cours des Sciences, 31400 Toulouse, France
Offre en lien avec l’Action/le Réseau : – — –/Innovation
Laboratoire/Entreprise : Institut de Science des Données de Montpellier / C
Durée : 5-6 mois
Contact : gino.frazzoli@umontpellier.fr
Date limite de publication : 2025-12-10
Contexte :
Le sommeil, bien que d’apparence triviale, constitue un état biologique complexe, difficile à quantifier sans recourir à une approche multimodale intégrant notamment l’enregistrement de l’activité cérébrale (EEG). Cette contrainte technologique rend l’étude du sommeil exigeante en conditions naturelles. Comprendre comment les animaux dorment dans leur environnement, en particulier dans un cadre social, représente ainsi un défi majeur. Chez les espèces grégaires comme le babouin, le sommeil ne se résume pas à un phénomène individuel : il s’organise dans un contexte collectif, influencé par les interactions sociales, la hiérarchie et la vigilance partagée. Le projet ERC COSLEEP (dirigé par Meg Crofoot, Max Planck Institute of Animal Behavior) s’attache à explorer cette dimension sociale du sommeil en conditions écologiques réelles, grâce à des suivis simultanés du comportement, de la position et de l’activité physiologique d’individus vivant à l’état sauvage. Le stage proposé s’inscrit dans cette collaboration entre le Centre d’Écologie Fonctionnelle et Évolutive (CEFE), l’Institut de Science des Données et le Max Planck Institute, et portera sur l’analyse de données de sommeil (activité cérébrale, musculaire, oculaire, accéléromètre et vidéo) afin de caractériser la structure et la qualité du sommeil dans un contexte social et écologique réel, et de développer un modèle prédictif fiable basé sur les signaux accélérométriques.
Sujet :
Le stage aura pour objectif de contribuer à la mise au point d’outils d’analyse automatisée du sommeil chez le babouin à partir de séries temporelles multimodales. Dans un premier temps, le ou la stagiaire évaluera la cohérence du scorage manuel du sommeil réalisé par plusieurs spécialistes à partir d’enregistrements physiologiques (EEG, EMG, EOG, accéléromètre, vidéo), afin de quantifier le niveau d’accord inter-experts et d’établir une base de données de référence. Dans un second temps, il s’agira de tester et d’adapter des modèles d’apprentissage automatique existants (tels que Somnotate ou USleep) pour obtenir un algorithme de scorage automatique capable de s’ajuster aux caractéristiques propres aux signaux enregistrés chez le babouin. Enfin, le stage visera à développer un modèle prédictif du sommeil à partir des signaux d’accéléromètre seuls, en s’appuyant sur les labels dérivés de l’activité cérébrale. Ce modèle permettra à terme d’estimer les phases et sous-états du sommeil à partir de capteurs portés sur collier, ouvrant la voie à une analyse non invasive du sommeil en milieu naturel.
Profil du candidat :
Le ou la candidat(e) devra posséder une formation en analyse de données expérimentales, data science, ou domaine connexe avec une appétence pour les neurosciences, sciences cognitives, bio-informatique, ou l’écophysiologie. Une bonne familiarité avec le traitement de signaux temporels, des compétences en programmation (Python, Matlab ou R) et des compétences en méthodes d’apprentissage automatique (réseaux de neurones, classification supervisée et modèles de deep learning) seraient un atout majeur.
Le ou la stagiaire devra faire preuve de rigueur, d’autonomie et de curiosité scientifique, ainsi que d’un goût marqué pour l’analyse de données et le travail interdisciplinaire, à l’interface entre neurosciences, écologie comportementale et science des données. Une aisance en anglais scientifique (lecture et échanges techniques) sera également souhaitée.
Formation et compétences requises :
• Maîtrise de Python (NumPy, Pandas, Scikit-learn, PyTorch). Des notions en Matlab sont appréciées.
• Connaissances en statistiques, apprentissage automatique et deep learning.
• Intérêt pour les méthodes utilisées dans les modèles de scorage automatique du sommeil :
o USleep : réseau profond combinant CNN inspiré de U-net pour la classification EEG/EMG. https://www.nature.com/articles/s41746-021-00440-5
o Somnotate : approche probabiliste (HMM + LDA) intégrant la dynamique temporelle du sommeil. https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1011793
• Intérêt à développer des compétences en analyse de signaux physiologiques (EEG, EMG, EOG, accélérométrie).
• Notions en validation de modèles et évaluation inter-experts (Kappa, ICC, …).
• Rigueur, autonomie, et intérêt pour les approches interdisciplinaires (neurosciences, écologie, data science).
• Bon niveau d’anglais scientifique (lecture et communication).
Adresse d’emploi :
Case courrier, 13004 Pl. Eugène Bataillon Bât. 4, 34095 Montpellier Cedex 5
Document attaché : 202511030916_Analyse_donnees_physiologiques_babouins_CEFE_ISDM_Montpellier.pdf
