MaDICS

High-performance information extraction from cosmic web probes

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 3 à 6 mois
Contact : florent.leclercq@iap.fr
Date limite de publication : 2024-06-30

Contexte :
Physical cosmology has brilliantly interwoven high-energy physics and observational astronomy to sketch the history of the Universe’s evolution from the Big Bang to its present state. Yet, lingering mysteries still beckon, primarily concerning dark energy, the cause of the Universe’s accelerated expansion, and the elusive masses of neutrino particles. Recent advances in statistical cosmology show the potential of going beyond traditional methodologies centred around correlation functions to unveil these secrets. The INFOCW project, funded by the Agence Nationale de la Recherche (ANR), seeks to employ models that predict the complete map of the large-scale structure as seen by ESA’s Euclid satellite, a recently launched space observatory. Through the synergy of cosmological simulations, data science, and astrophysical observations, the project promises to bring forth innovations that harness information trapped in the cosmic web—the Universe’s grandest observable structure.

Sujet :
Identifying and extracting the maximum amount of cosmological information from cosmic maps is still a largely open problem and will play a pivotal role in INFOCW. The goal of this master internship and PhD project is to tackle this task. In the first phase of the project, we will utilise physically and statistically motivated cosmic web probes. We will then optimise the extraction of cosmological information using automatically defined statistical summaries of galaxy catalogues, i.e. machine-aided definition of probes.

More details and French version: https://florent-leclercq.eu/supervision.php#internship-phd-2024

Profil du candidat :
We are looking for candidates with:
– A strong background in cosmology and/or astrophysics,
– Good computational abilities, preferably some familiarity with at least Python,
– A willingness to learn, and to work collaboratively.
We are seeking to appoint the same candidate for a master internship (dates at the candidate’s convenience from February 2024) followed by a three-year PhD studentship from October 2024, subject to satisfactory performance. Both positions are based in the large-scale structure and distant Universe group of the Institut d’Astrophysique de Paris (IAP). Supervision will be provided by Florent Leclercq (principal investigator of INFOCW) & Guilhem Lavaux. Funding for research expenses (travel, small equipment) is provisioned.

Application files must contain a CV and a transcript of record for all higher education programmes. They should be addressed to Florent Leclercq (florent.leclercq@iap.fr) & Guilhem Lavaux (guilhem.lavaux@iap.fr). One or more letters of recommendation (optional) can be sent directly by their authors to the same addresses.

Formation et compétences requises :
We are looking for candidates with:
– A strong background in cosmology and/or astrophysics,
– Good computational abilities, preferably some familiarity with at least Python,
– A willingness to learn, and to work collaboratively.

Adresse d’emploi :
Institut d’Astrophysique de Paris, 98bis boulevard Arago, 75014 Paris, France

Categories: Stages

Jul

Internship position + PhD funding

Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : EducAction/– — –

Laboratoire/Entreprise : IRIMAS
Durée : 5 mois
Contact : nour.el-mawas@univ-lorraine.fr
Date limite de publication : 2024-07-01

Contexte :
The ANR COPCOT project involves members from Pixel team (CREM), MSD Team (IRIMAS), Trigone team (CIREL), and France-IOI association. Our aim is to understand learners’ skills-building in the Technology Enhanced Learning platform Quick-Pi, and to facilitate skills-building through content and feedback personalization.

Sujet :
The goal of this internship is to analyze learners’ data from the Quick-Pi platform (https://quick-pi.org/contenu.html) in order to identify relevant learner behaviors and extract data indicators contributing to the skills construction in programming among learners.
In particular, the candidate will work on the following tasks:
• Learners’ data analysis. Analysis of trace logs data from users’ interactions help us to better understand their learning process, distinguish groups of learners, and predict learners’ success in each Quick-Pi exercise.
Trace logs data can be seen as time series, hence this task will start by reviewing existing Machine Learning algorithms [1] used for time series analysis. Then the candidate will identify and adapt these algorithms to our sequential data in order to predict the learners’ success in each exercise on the Quick-Pi platform. The implicit data provided by Quick-Pi logs (like time spent on an exercise, navigation logs, code lengths, etc.) will be used. Once the pertinent algorithm to predict students’ success is found,
indicators can be found. Existing learners’ data analysis techniques such as knowledge tracing [2, 3] will be investigated to predict the success of students in each exercise.
• Indicators identification. The candidate will analyze which logs in the selected algorithm of the previous task were used by the algorithm itself to predict the success. This will help us to identify indicators. We believe that if the selected algorithm successfully predicts learners’ success, we should be aware of which specific log lines contributed to this prediction the most. For example, we can find that the time spent on an exercise may have a correlation with the learners’ success in a specific exercise.
These indicators are crucial to understand skills-building and learners’ difficulties. Features selection techniques [4] and explainability techniques [5] will be investigated in order to identify pertinent indicators for skills- building.

References
[1] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, and P.-A. Muller, “Deep learning for time series classification: a review,” Data mining and knowledge discovery, vol. 33, no. 4, pp. 917–963, 2019.
[2] M. Sao Pedro, R. Baker, and J. Gobert, “Incorporating scaffolding and tutor context into bayesian knowledge tracing to predict inquiry skill acquisition,” in Educational Data Mining 2013, Citeseer, 2013.
[3] S. I. Ram´ırez Luelmo, N. El Mawas, and J. Heutte, “Existing machine learning techniques for knowledge tracing: A review using the prisma guidelines,” in International Conference on Computer Supported Education, pp. 73–94, Springer, 2022.
[4] V. Vijayalakshmi and A. Prakash, “Developing an optimized feature selection process for designing efficient content management system using educational data,” International Journal of Advanced Research in Science Technology (IJARST), vol. 7, no. 1, pp. 15–24, 2020.
[5] R. Alamri and B. Alharbi, “Explainable student performance prediction models: a systematic review,” IEEE Access, vol. 9, pp. 33132–33143, 2021.

Profil du candidat :
The candidate must be registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science

Formation et compétences requises :
• Good skills in Python programming are mandatory
• Good skills in Machine Learning are required
• Interest, knowledge and/or a first experience in Technology Enhanced Learning (learning programming in particular) will be appreciated

Adresse d’emploi :
UHA/IRIMAS EA 7499, Mulhouse, France

Document attaché : 202310310845_internship_position_COPCOT_2023_VF.pdf

Categories: Stages

Stage M2 — Apprentissage de prior pour les problèmes inverses

Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 5 mois
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-07-01

Contexte :
Le traitement de mesures instrumentales nécessite souvent d’utiliser le modèle de données, ou modèle direct, dans la méthode. Par exemple les mesures sont affectées d’un bruit, d’un flou, ou vivent dans un autre espace que celui des inconnues (des coefficients de Fourier versus une image pour le cas de l’IRM).

Autant le modèle direct est stable et bien posé (à partir des paramètres on peut générer des données), autant le problème inverse est le plus souvent instable et mal-posé.

Sujet :
Les techniques de résolution de problèmes inverses ont fortement évolué ces dernières années avec les nouvelles techniques d’apprentissage machine. On peut mentionner le déroulage d’algorithmes itératif (unrolling), les approches plug-and-play, le RED (regularization by denoising), ou encore les a priori basés donnés.

Le travail consistera à comprendre et mettre en œuvre les approches utilisant les réseaux génératifs comme les VAE ou encore les réseaux inversibles. Il s’agit d’une approche reposant sur la minimisation d’un critère mixte

J(x) = |y – H x|² + R(x)

où le terme d’attache aux données utilise le modèle d’observation connu H (flou, inpainting, debruitage…) et le terme de régularisation R(x) est appris à partir de données. La solution est alors définie comme x = argminₓ J(x).

* Dans un premier temps, le stagiaire se familiarisera sur les problèmes inverses et leurs méthodes de résolution.

* Ensuite, il devra faire un état de l’art sur les méthodes basées données et apprentissage statistique pour la résolution de problèmes inverses. Le sujet étant récent, la littérature est abondante et diverse. Des points d’entrée bibliographique seront fournis.

* Nous nous attacherons à mettre en œuvre une des deux méthodes mentionnées plus haut. Les résultats devront être comparés aux résultats obtenus avec les approches classiques : filtre de Wiener, parcimonie… pour lesquels des codes sont à disposition.

* L’application sera à déterminer parmi celles de l’équipe : synthèse de Fourier pour la radioastronomie, la microscopie ou encore reconstruction d’image en tomographie.

Le travail se fera sur un poste équipé d’une carte GPU Nvidia 3080 ou 4090 avec Linux, TensorFlow et Python.

Profil du candidat :
L’étudiant devra avoir une formation type ingénieur ou Master~2 en traitement du signal ou d’images, data science ou machine learning. Il devra posséder des connaissances en mathématiques appliquées ou en programmation.

Formation et compétences requises :
L’étudiant acquerra au cours du stage des compétences en estimation, optimisation, apprentissage machine, inférence statistique, traitement de données et python.

Adresse d’emploi :
L2S, 3 rue Joliot-Curie, 91190 Gif-sur-Yvette

Document attaché : 202311010608_stage-dnn-orieux-l2s.pdf

Categories: Stages

Stage M2 — Déconvolution rapide pour le radio télescope SKA

Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 5
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-07-01

Contexte :
L’augmentation de la puissance des machines de calcul a incité à la conception d’instrument générant des quantités importantes de données. Parallèlement, le désir de travailler sur des inconnues de grande taille telle que des images hautes ou très haute résolution est de plus en plus présent en particulier dans les sciences expérimentales ou observationnelles.

Le stage s’inscrit dans le cadre du projet international SKA, Square Kilometer Array, et de l’ANR DarkEra. SKA est un observatoire pour la radioastronomie qui produira un volume de données considérable pour produire des images à une résolution spatiale et spectrale inégalées. Les antennes sont réparties en australie et en afrique du Sud, ce qui en fera le plus grand interféromètre radio à ce jour. L’équipe est impliquée dans le projet par le biais de l’ANR DarkEra et du LabCom ECLAT (ATOS, IETR, INRIA…).

Sujet :
Pour exploiter pleinement l’ensemble des informations disponibles, une modélisation fine du processus d’acquisition est nécessaire. Cela définit un modèle direct H, ou simulateur, capable de reproduire des données y à partir d’une image x comme y = Hx. Cependant l’utilisation naïve de H conduisant à des problèmes inverses généralement mal posés, c’est à dire ne produisant pas de résultats satisfaisant.

Les approches standard pour l’inversion reposent généralement sur la minimisation de critères régularisés, la régularisation permettant de rendre le problème bien posé.

* Dans un premier temps le stagiaire se familiarisera sur les problèmes inverses et leurs méthodes de résolution.

* Ensuite le stagiaire s’appuiera sur le travail de thèse de Nicolas Monnier qui a travaillé sur l’accélération du modèle H. L’objectif est de réutiliser son travail pour partir d’un modèle de donnée fiable et rapide.

* Enfin nous travaillerons à l’élaboration de méthode plus modernes de résolution de problèmes inverse exploitant cette accélération. On explorera notamment les algorithmes de Majorisation-Minimisation (ou MM) et l’utilisation de préconditionneur.

* En fonction de la formation du stagiaire on pourra également plutôt s’orienter sur la mise en œuvre efficaces des algorithmes sur GPU.

Profil du candidat :
L’étudiant devra avoir une formation type ingénieur ou Master~2 en traitement du signal ou d’images, data science ou machine learning. Des
connaissances en mathématiques appliquées, programmation ou architecture de calcul seront appréciés.

Formation et compétences requises :
L’étudiant acquerra aux cours du stage des compétences en estimation,
optimisation, inférence statistique, traitement de données, calculs intensifs, radioastronomie et python.

Adresse d’emploi :
L2S, 3 rue Joliot-Curie, 91190 Gif-sur-Yvette

Document attaché : 202311010558_stage-ska-orieux-l2s.pdf

Categories: Stages

Sep

Sun

[stage/thèse] [lip6, Paris] Perturbations du Traﬁc Maritime par des Mouvements Sociaux

Sep 1 – Sep 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 (CNRS et Sorbonne Université)
Durée : 6 mois
Contact : Matthieu.Latapy@lip6.fr
Date limite de publication : 2024-09-01

Contexte :
Alors qu’il joue un rôle essentiel dans les échanges de marchandises à travers le monde, le trafic maritime est régulièrement perturbé par des mouvements sociaux ou écologistes (grèves ou blocages dans les ports ou à bord des navires, comme les 10 jours de grève des dockers de la côte ouest des USA en 2002). Il est aussi perturbé par des accidents
(comme l’obstruction du canal de Suez par un navire échoué pendant 6 jours en 2021), des catastrophes naturelles (par exemple, le tremblement de terre à Kobé en 1995 ou la sécheresse au canal de Panama en août 2023), ou de la piraterie (plus de 300 actes recensés
par an).

Sujet :
L’impact de tels événements, ainsi que la robustesse du réseau d’échanges et ses fragilités, sont mal connus. En particulier, quelle est l’ampleur, la durée et la structure des perturbations ? Restent-elles locales ou se propagent-elles loin à travers le réseau, et sous
quelles conditions ? De petits événements peuvent-ils engendrer de grandes perturbations par des effets en cascades ? Comment le retour à la normale s’opère-t-il ? Y a-t-il des points particulièrement fragiles dans le réseau ? Les perturbations induites par des mouvements sociaux sont-elles similaires aux autres types de perturbations ? Existe-t-il des
sous-parties du réseau plus robustes que d’autres ?

Ce stage propose une approche orientée données pour répondre à ces questions et améliorer drastiquement les connaissances sur ces sujets.

Profil du candidat :
Master en informatique, ouverture interdisciplinaire (géographie, SHS), volonté de poursuivre en thèse.

Formation et compétences requises :
Analyse de données, manipulation de grandes données, graphes, réseaux.

Adresse d’emploi :
Paris centre

Document attaché : 202402051751_stage_reseaux_maritimes.pdf

Categories: Stages

Nov

Développement et évaluation d’un passage à l’échelle des prévisions Arome sur l’Europe avec des méthodes d’Intelligence Artificielle Générative.

Nov 4 – Nov 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Ce stage n’est plus disponible

Laboratoire/Entreprise : CNRM – Centre National de Recherches Météorologiqu
Durée : 6 mois
Contact : victor.sanchez@meteo.fr
Date limite de publication : 2025-01-15

Contexte :
L’utilisation de l’intelligence artificielle (IA) pour la Prévision Numérique du Temps (PNT) se démocratise progressivement depuis plusieurs années. Les algorithmes d’apprentissage profond et les approches génératives ont d’ailleurs récemment fait leur preuve dans ce domaine d’application. Désormais, ces méthodes ont la capacité de produire des champs physiques avec une certaine cohérence physique, pour un coût numérique très inférieur aux méthodes classiques d’intégration numérique.

Le stage proposé se place dans le cadre de Destination Earth (DestinE). DestinE est une initiative de la Commission européenne dans le cadre du programme EU Digital Europe. Ce projet vise à déployer plusieurs jumeaux numériques de la Terre, qui aideront à surveiller et à prévoir les changements environnementaux et l’impact humain, afin de développer et de tester des scénarios qui soutiendraient le développement durable et les politiques européennes correspondantes pour le Green Deal. L’IA, et en particulier l’apprentissage profond, sont un des axes développés dans DestinE. Le travail durant le stage sera à destination du projet DE_371, auquel l’équipe d’accueil participe.
L’objectif du projet DE_371 est de démontrer que des méthodologies utilisant les algorithmes d’IA à l’état de l’art peuvent aider à améliorer l’estimation de l’incertitude des prévisions, en permettant de produire des prévisions d’ensemble de grande taille et à haute résolution spatiale et temporelle.

Sujet :
L’objectif du travail proposé est d’utiliser des techniques d’IA dites génératives comme les Réseaux Antagonistes Génératifs (GAN) [1] pour améliorer les performances du système opérationnel de prévision d’ensemble Arome. L’équipe d’accueil a développé un prototype StyleGAN [2][3] capable de générer des membres Arome physiquement cohérents sur un quart sud-est de la France et pour quelques variables de surface. Ce stage se propose d’utiliser ce prototype comme base de
développement. Les résultats encourageants mènent vers plusieurs pistes d’approfondissement et d’amélioration, qui feront l’objet du présent stage, parmi lesquelles :
• Adaptation du modèle à une extension du domaine actuel.
• Exploration de méthodes de Transfer Learning [4] sur le domaine nordique (Norvège, Suède).
• Evaluation des prévisions StyleGAN sur des évènements à fort impact.

[1] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., … & Bengio, Y. (2020). Generative adversarial networks. Communications of the ACM, 63(11), 139-144. https://dl.acm.org/doi/pdf/10.1145/3422622.

[2] Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., & Aila, T. (2020). Analyzing and improving the image quality of stylegan. In Proceedings of the IEEE/CVF conference on computer vision and
pattern recognition (pp. 8110-8119).https://openaccess.thecvf.com/content_CVPR_2020/papers/
Karras_Analyzing_and_Improving_the_Image_Quality_of_StyleGAN_CVPR_2020_paper.pdf

[3] Brochet, C., Raynaud, L., Thome, N., Plu, M., & Rambour, C. (2023). Multivariate Emulation of Kilometer-Scale Numerical Weather Predictions with Generative Adversarial Networks: A Proof of Concept. Artificial Intelligence for the Earth Systems, 2(4), 230006. https://doi.org/10.2496.

[4] Lee, D., Lee, J. Y., Kim, D., Choi, J., & Kim, J. (2022). Fix the noise: Disentangling source feature for transfer
learning of StyleGAN. arXiv preprint arXiv:2204.14079. https://arxiv.org/pdf/2204.14079

Profil du candidat :
Le ou la stagiaire pourra disposer de moyens de calculs sur GPU importants (plate-forme Météo France et/ou super-calculateur EuroHPC), au sein d’une équipe expérimentée et motivée. Il ou elle bénéficiera
des outils et méthodes déjà développés dans l’équipe. Ce stage sera l’occasion de développer ses compétences, notamment :
• expérience de développement d’algorithmes d’apprentissage profond à l’état de l’art
• manipulation d’une infrastructure de calcul haute-performance
• gestion d’une base de code commune et ajout de fonctionnalités
• intéractions avec des partenaires internationaux (centres météorologiques en Norvège et Suède)

Formation et compétences requises :
Ce stage requiert un réel intérêt pour la prévision numérique du temps (des connaissances préalable à ce sujet seraient un plus mais ne sont pas nécessaire). De solides compétences en statistiques et une bonne maîtrise du langage Python seront également nécessaires. Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs CNN) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, TensorFlow, …) serait un plus.

Adresse d’emploi :
42 Av. Gaspard Coriolis, 31100 Toulouse

Document attaché : 202410040756_Fiche-proposition-PFE_IENM_IA_2025.pdf

Categories: Stages

Nov

Sat

Alignement of LLMs, hate speech detection

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : NAVER Labs
Durée : 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2024-11-30

Contexte :
This internship is part of an ANR project called DIKÉ (https://www.anr-dike.fr/), which aims at studying bias, fairness and ethics of compressed NLP models. Results are expected to be reported in a paper by the end of the internship (or soon after). The internship will be hosted at NAVER LABS Europe and co-supervised by NAVER LABS and Lyon 2 University researchers.

Sujet :
The goal of this internship is to investigate strategies to diminish offensive content generation focusing on implicit offensive speech in multilingual settings. More details and online application here: https://europe.naverlabs.com/job/offensive-content-mitigation-research-internship/

Profil du candidat :
PhD or last year MSc student in NLP-related domains

Formation et compétences requises :
– Solid deep learning and NLP background
– Strong programming skills, with knowledge of PyTorch, NumPy, and the HF Transformers
– Familiarity with recent preference optimization techniques, such as DPO, is a plus
– Ability to communicate in English; knowledge of French is an advantage

Adresse d’emploi :
NAVER Labs, Europe
6 Chem. de Maupertuis, 38240 Meylan

Categories: Stages

Stage M2 au CEA : Nouvelles approches par apprentissage statistique profond pour l’identification structurale de biomarqueurs en métabolomique par spectrométrie de masse

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-11-30

Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [1] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son processus de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.

Sujet :
L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées. A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder [2]). Un nouveau type d’architecture sera ensuite développé pour intégrer l’ensemble des informations multiplexées et montrer leur impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit notamment, et appliqués à la recherche de biomarqueurs dans les données de plusieurs cohortes cliniques disponibles au laboratoire.
Mots clés : apprentissage statistique, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] Liu et al. (2021) Current and future deep learning algorithms for tandem mass spectrometry (MS/MS)-based small molecule structure elucidation. Rapid Commun Mass Spectrom, DOI:10.1002/rcm.9120.
[2] Russo et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Commun Mass Spectrom. DOI: 10.1002/rcm.9876.

Profil du candidat :
Nous recherchons un.e candidat.e avec un bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie, physique, biologie).

Formation et compétences requises :

Adresse d’emploi :
Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données métabolomiques du laboratoire Innovations en Spectrométrie de Masse pour la Santé.
Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

Document attaché : 202410041921_240924_stage_M2_cea_ai-ms2_EThevenot.pdf

Categories: Stages

Fri

Stage M2 – Intégration des données d’observation de la Terre et méthodes apprentissage profond pour le suivi des systèmes alimentaires [UMR TETIS – Montpellier]

Dec 20 – Dec 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2024-12-20

Contexte :
Contexte :
Les systèmes alimentaires sont fortement interconnectés entre les pays à l’échelle mondiale, comme le montrent les récentes perturbations telles que la guerre en Ukraine et la pandémie mondiale. Le flux des denrées alimentaires est vulnérable aux chocs, et ces perturbations influencent les prix des denrées alimentaires, qui à leur tour affectent les modes de consommation alimentaire. Cela a eu un impact significatif sur les régimes alimentaires des populations, en particulier dans les pays sous-développés où la sécurité alimentaire est déjà fragile. Cependant, les scientifiques et les décideurs politiques manquent de données et d’outils pour identifier les points faibles des flux alimentaires et construire des systèmes alimentaires résistants aux chocs et aux perturbations. Si des progrès considérables ont été réalisés grâce aux données d’observation de la Terre pour cartographier l’emplacement des cultures et la productivité agricole (par exemple, le rendement des cultures), peu d’attention a été accordée aux étapes intermédiaires du flux de travail – distribution, transformation et marchés – qui sont essentielles pour comprendre et modéliser la manière dont les denrées alimentaires passent de la production à la consommation.
Grâce aux progrès de l’intelligence artificielle et à son application aux données d’observation de la Terre, les images satellitaires collectées en continu à l’échelle mondiale, combinées aux données météorologiques, permettent de suivre les systèmes alimentaires en temps réel. Les modèles d’apprentissage profond, capables de capturer des relations complexes et non linéaires, ainsi que les algorithmes multimodaux intégrant des données issues de sources variées, ouvrent de nouvelles perspectives dans ce domaine.
Ce stage propose d’exploiter des données d’observation de la Terre multi-temporelles et multi-résolutions, en les combinant avec des modèles d’apprentissage, pour surveiller les systèmes alimentaires, estimer les rendements agricoles et analyser leurs liens avec les prix des marchés.

Sujet :
Bonjour,

Nous proposons une offre de stage de master 2 sur “Intégration des données d’observation de la Terre et méthodes d’apprentissage profond pour le suivi des systèmes alimentaires”.

Ce stage se déroulera sur une période de 6 mois entre janvier et juin 2025 et sera co-encadré par des chercheurs Cirad de l’UMR TETIS, Simon Madec et Roberto Interdonato. Vous trouverez l’offre de stage sur ce lien :

https://nubes.teledetection.fr/s/mXoY5qYsQNnPRta

Les étudiant.e.s intéressé.e.s peuvent envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.

Merci par avance de bien vouloir transmettre cette offre à vos étudiants.

Candidature :
Envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.

Profil du candidat :
Compétences du candidat/e :
• Connaissances/goût pour la programmation
• Intérêt pour l’analyse de données
• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyses, rédactionnelles et de synthèse

Formation et compétences requises :

Adresse d’emploi :
Maison de la Télédétection, 500 rue JEan François Breton, 34090, Montpellier

Document attaché : 202411200802_Stage SCOSSA 2025_FR.pdf

Categories: Stages

Stage M2 au CEA : Nouvelles approches de deep learning pour l’élucidation structurale des petites molécules

Dec 20 – Dec 21 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-12-20

Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome [1]. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [2] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son graphe de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.

Sujet :
Sujet : L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées.
Travail demandé : A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder). Un nouveau type d’architecture basé sur la prédiction structurée sera ensuite développé pour intégrer l’ensemble des informations multiplexées et la modélisation de la fragmentation sous forme de graphe, et montrer l’impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit.
Mots clés : apprentissage statistique, prédiction structurée, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] De Vijlder,T. et al. (2018) A tutorial in small molecule identification via electrospray ionization-mass spectrometry: The practical art of structural elucidation. Mass Spectrometry Reviews, 37, 607–629.
[2] Russo,F.F. et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Communications in Mass Spectrometry, 38, e9876.

Profil du candidat :
Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie).

Formation et compétences requises :

Adresse d’emploi :
Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données du laboratoire Innovations en Spectrométrie de Masse pour la Santé, en partenariat avec l’équipe Signal, Statistique et Apprentissage de Telecom Paris.
Durée du stage : 6 mois à partir de début 2025
Date limite de candidature : 30 novembre 2024
Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

Document attaché : 202411191549_241119_stage_M2_cea_ai-ms2_EThevenot.pdf

Categories: Stages

Deep Learning architectures for generating rehabilitation human motion

Dec 23 – Dec 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIMAS, Université Haute-Alsace
Durée : 6 months
Contact : maxime.devanne@uha.fr
Date limite de publication : 2024-12-23

Contexte :
Human motion analysis is crucial for studying people and understanding how they behave, communicate and interact with real world environments. Due to the complex nature of body movements as well as the high cost of motion capture systems, acquisition of human motion is not straightforward and thus constraints data production. Hopefully, recent approaches estimating human poses from videos offer new opportunities to analyze skeleton-based human motion. While skeleton-based human motion analysis has been extensively studied for behavior understanding like action recognition, some efforts are yet to be done for the task of human motion generation. Particularly, the automatic generation of motion sequences is beneficial for rapidly increasing the amount of data and improving Deep Learning-based analysis algorithms. In particular, this is crucial in a medical context like in physical rehabilitation where acquiring data is challenging. Rehabilitation human motions are corresponding to reha- bilitation exercises proposed by physiotherapists. Unlike classification tasks, the targeted task in human rehabilitation assessment is often a regression problem, where given a motion sequence, the goal is to predict the associated performance score given by physiotherapists.
Since several years, human motion generation paradigms have been possible thanks to the appearance of Generative Adversarial Networks (GAN), Vari- ational AutoEncoder (VAE) or Diffusion models. While most of these works have considered motion capture (mocap) data, we consider noisy skeleton data estimated from videos as it is easily applicable in real-world scenarios for the general public.

Sujet :
The goal of this internship is to investigate deep generative models for skeleton- based human motion sequences with a particular focus on rehabilitation data. Inspiring from recent effective Deep Learning-based approaches, the aim is to generate full skeleton-based rehabilitation motion sequences. It is therefore crucial to investigate how deep generative models can handle such noisy and possibly incomplete data in order to generate novel rehabilitation motion sequences as natural and variable as possible.
In particular, the candidate will work on the following tasks:
– Deep generative models adapted to rehabilitation data: based on studies from existing works, the goal is to build generative models for rehabilitation sequences. Therefore, the candidate will investigate different generative models, like Diffusion models, in order to propose and develop a complete Deep Learning model for generating skeleton-based human motions. These models will be trained using publicly available datasets such as the Kimore dataset.
– Evaluation of deep generative models: in order to validate the proposed model, experimental evaluation is crucial. In comparison to motion recognition where classification accuracy is a natural way to assess an approach, evaluating the task of motion generation is not as straightforward. Dedicated metrics evaluating both naturalness and diversity of generated sequences as well as the impact of new generated sequences in a classifi- cation task will be considered.
– Text to rehabilitation motion: The generated models will be then adapted to take as input text sequences corresponding to rehabilitation exercises’ descriptions. This will be particularly useful to create new rehabilitation exercises.

Profil du candidat :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated
– Knowledge and/or a first experience in Natural Language Processing to handle text-to-motion generation

Formation et compétences requises :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated
– Knowledge and/or a first experience in Natural Language Processing to handle text-to-motion generation

Adresse d’emploi :
Université Haute-Alsace
12 rue des Frères Lumière
68093 Mulhouse

Document attaché : 202410230753_internship_position_delegation_generation_2025.pdf

Categories: Stages

Detection of wild animals in zoo enclosure using thermal cameras and deep learning

Dec 23 – Dec 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIMAS, Université Haute-Alsace
Durée : 6 mois
Contact : maxime.devanne@uha.fr
Date limite de publication : 2024-12-23

Contexte :
Nowadays, zoo enclosures are becoming closer to natural biotopes of wildlife animals. This implies large enclosures with biological elements such as plants and trees, and landscape elements such as rocks, hills and so on. If these new ways of designing enclosures are really improving the wellness of the hosted animals, however these ones can become hardly visible. This implies two problems :
– Frustration of visitors who want to see animals
– Difficulties for the zookeeper staff to observe the animal
Particularly, this last issue can cause a) difficulties to observe an abnormal behavior of an animal, which can delay veterinary heals if necessary and b) accident if the zookeeper has to enter into an enclosure without a clear view of the animal. To cope those problems, cameras can be installed around or inside the enclosures to monitor the animals in real-time. Particularly, thermal cameras have been proved to be very efficient in enclosures with large number of plants or even during night-time. The goal of this internship is to use multi-camera setup and data fusion to detect animals using deep learning techniques such as CNNs or YOLO.

Sujet :
The intern will have to first review the existing literature based on articles and surveys about zoo animal monitoring. Then, the goal is to select and purchase cameras (RGB, thermal, other modalities) according to the state-of-the-art, and to settle them with the help of the staff of the Mulhouse Zoo. In parallel, finding in the literature neural networks such as YOLO able to create a bounding-box prediction of the position of the animal in an image. The training of the neural network can be done using databases such as DeepFaune. Finally, data fusion can be explored to enhance the performance of the neural networks by coupling RGB and thermal predictions. GPU-based architectures will be used with Python programming.

Profil du candidat :
Final-year student in Master 2 / Engineering school (BAC+5), with an Artificial
Intelligence / Computer Vision background. Good programming skills are expected (C, C++, Python). A
first experience with camera acquisition, particularly thermal images, is good.

Formation et compétences requises :
Final-year student in Master 2 / Engineering school (BAC+5), with an Artificial
Intelligence / Computer Vision background. Good programming skills are expected (C, C++, Python). A
first experience with camera acquisition, particularly thermal images, is good.

Adresse d’emploi :
Université Haute-Alsace
12 rue des Frères Lumière
68093 Mulhouse

Document attaché : 202410230749_Master_internship_zooAI_2025.pdf

Categories: Stages

Interprétation automatique de coupe géologique de forage par apprentissage automatique semi-supervisé

Dec 23 – Dec 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO & BRGM
Durée : 6 mois
Contact : Patrick.Marcel@univ-orleans.fr
Date limite de publication : 2024-12-23

Contexte :

Sujet :
Proposition de stage au LIFO – Université d’Orléans avec le BRGM:

Interprétation automatique de coupe géologique de forage par apprentissage automatique semi-supervisé

Encadrant : P. Marcel (LIFO – Univ. Orléans) ; C. Loiselet (BRGM)

Contexte : Le BRGM, service géologique national, a la charge de mettre à disposition une connaissance géologique du sous-sol de notre territoire. Pour ce faire, nous collectons les données d’ouvrages souterrains (forages, sondages) qui sont structurées dans une base de données nommée la Banque du Sous-Sol (BSS), organisée et gérée par le BRGM. Cette bancarisation permet de favoriser les applications en ressources naturelles (ressources fossiles et énergétiques), en géotechniques (travaux d’infrastructure et d’aménagement, etc.). Cette base de données contient 700 000 ouvrages et travaux souterrains qui, pour près de la moitié, contiennent des données et informations sur la géologie du sous-sol et plus particulièrement la description géologique le long des logs de sondages/forages. Ces données sont actuellement mises à disposition sur notre plateforme de diffusion InfoTerre (http://inforterre.brgm.fr).

Ces logs géologiques sont par la suite interprétés afin de fournir une information géologique cohérente de notre sous-sol selon une coupe géologique. Aujourd’hui, environ 20% des logs possèdent une coupe géologique interprétée. Nous cherchons ici à accélérer le travail d’interprétation de ces données afin de fournir le plus d’informations possible par l’application d’une méthode d’Intelligence Artificielle.

Description du stage : L’objectif de ce stage est d’étudier une méthode d’apprentissage automatique semi-supervisée pour prédire des données de forage. Cette méthode est inspirée de méthode de recommandation par apprentissage de similarité [1,2]. Dans le cas des données de forage, il s’agira d’utiliser une approche basée sur les K plus proches voisins (KNN), où le voisinage est constitué par des forages existants. Un point clé est donc la définition d’une similarité entre forages, qui sera apprise à partir des caractéristiques des forages.

La méthode envisagée repose sur les étapes suivantes :
1. Extraction de caractéristiques pertinentes des forages existants
2. Définition de similarités simples propres à chaque caractéristique
3. Constitution d’un ensemble d’apprentissage par labellisation faible [3]
4. Entrainement d’un classifier linéaire permettant de pondérer les similarités entre caractéristiques [1]
5. Définition des paramètres du KNN
6. Définition de la méthode de prédiction à partir des forages voisins

L’approche sera comparée aux méthodes de l’état de l’art pour prédire les données de forage, notamment le Krigeage (https://fr.wikipedia.org/wiki/Krigeage).

Le déroulement du stage comprendra :
– une étude bibliographique,
– la proposition d’une approche de prédiction de données de forage,
– l’implémentation et le test de l’approche proposée.

Le profil recherché est un(e) étudiant(e) ayant des connaissances solides en géologie, programmation, et mathématiques, et une appétence pour la recherche. Le stage pourra déboucher sur une thèse de doctorat financée.

Spécificités du poste :
– Stage en fin d’études (Ingénieur ou Master 2)
– Niveau d’études requis : bac+4
– Durée du stage : 6 mois
– Période de stage : Avril – Septembre

Le stage sera encadré par Christelle Loiselet (BRGM c.loiselet@brgm.fr) et Patrick Marcel (LIFO -Univ. Orléans patrick.marcel@univ-orleans.fr). Il se déroulera au LIFO, campus Universitaire de la Source à Orléans.

Votre lettre de motivation et un CV sont à adresser par email jusqu’au 31/12/2024 aux tuteurs du stage.

Références :
[1] Ramanathan V. Guha, Vineet Gupta, Vivek Raghunathan, Ramakrishnan Srikant: User Modeling for a Personal Assistant. WSDM 2015: 275-284
[2] Krista Drushku, Julien Aligon, Nicolas Labroche, Patrick Marcel, Verónika Peralta: Interest-based recommendations for business intelligence users. Inf. Syst. 86: 79-93 (2019)
[3] Alexander Ratner, Stephen H. Bach, Henry R. Ehrenberg, Jason A. Fries, Sen Wu, Christopher Ré: Snorkel: rapid training data creation with weak supervision. VLDB J. 29(2-3): 709-730 (2020)

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Le stage se déroulera au LIFO, campus Universitaire de la Source à Orléans.

Document attaché : 202410221420_Proposition de stage au LIFO-BRGM.docx

Categories: Stages

Sun

Large-scale place recognition in 3D points clouds @LASTIG – IGN/UGE – Paris area

Dec 29 – Dec 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG
Durée : 5-6 mois
Contact : valerie.gouet@ign.fr
Date limite de publication : 2024-12-29

Contexte :
Master’s internship M2 2025
LASTIG Lab – IGN / Gustave Eiffel University (Grand Paris area, France)
« Large-scale place recognition in 3D points clouds »

Keywords

Computer Vision, Photogrammetry, Machine Learning, Place Recognition, Pose Estimation, 3D Points Clouds, Big Data, LLM

Full description and candidature: https://www.umr-lastig.fr/vgouet/News/sujet_stage_2025-Loc3D-ext-v2.pdf

Sujet :
Subject

Place recognition based on the visual mapping of the environment is a problem at the heart of many topical application domains, such as geolocalization for mobile mapping, digital twins update and documentation, collections annotation in digital humanities, augmented reality or fact-checking. Recognizing a location can take many forms, from the production of an annotation to a 6D pose that also provides information on the location of the acquisition sensor. In the state of the art of computer vision, when no initial position is known, existing techniques are based on indexing and similarity search of visual content in a geolocalized image repository. Here, we study the generalization of this type of approach to 3D by considering 3D point cloud acquisition campaigns (notably LiDAR), which are becoming increasingly popular and whose richness in terms of geometry and semantics is attractive, but with a volume and diversity that are complex to handle. The internship is at the heart of the problem of indexing and retrieval in 3D point clouds for place recognition, through the study of deep 3D points cloud descriptors up to efficient retrieval and reranking for 3D pose estimation.

Profil du candidat :
Skills

Bac+5 in computer science, applied math or computer vision (master or engineering school); good knowledge in image or 3D data processing, as well as strong skills in Python programming. Good skills in Apache Spark, hugging Face API, LLM, PyTorch, or functional programming is a significant plus.

Formation et compétences requises :
Submitting your candidature

Before February 15th 2025, send by e-mail to the contacts in a single PDF file:
o CV
o motivation letter
o 2 recommendation letters, or persons to contact
o Transcript of grades from the last two years of study
o A list of courses followed and passed in the last two years

Adresse d’emploi :
LASTIG Lab – IGN / Gustave Eiffel University (Grand Paris area, France)

Contact
o Valérie Gouet-Brunet, snior researcher, LASTIG – valerie.gouet@ign.fr
o Laurent Caraffa, researcher, LASTIG – laurent.caraffa@ign.fr

Document attaché : 202411271436_sujet_stage_2025-Loc3D-ext-v2.pdf

Categories: Stages

Offre de Stage de Fin d’Étude de Master – Système de Recommandation Basée sur les Graphes de Connaissances

Dec 29 – Dec 30 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2024-12-29

Contexte :

Sujet :
Laboratoire SAMOVAR – Télécom SudParis & ensIIE
1. Introduction et Contexte
Le laboratoire SAMOVAR de Télécom SudParis et de l’ensIIE (Évry) recherche un(e) étudiant(e) en fin de cycle Master pour un stage de six mois portant sur le développement d’un système de recommandation basé sur des graphes de connaissances. Ce projet s’inscrit dans le cadre des recherches avancées en systèmes de recommandation, un domaine en pleine évolution qui exploite des données complexes et hétérogènes pour générer des suggestions personnalisées.
L’objectif du stage est de concevoir un modèle de recommandation reposant sur un graphe de connaissances unifié, capable d’intégrer et de fusionner plusieurs sources d’informations. En mobilisant des techniques avancées d’apprentissage profond, notamment les réseaux de neurones pour graphes (Graph Neural Networks, GNN), le projet vise à développer un système robuste, pertinent et performant. Les défis du stage concernent principalement la construction et l’optimisation de sous-graphes, un aspect clé pour garantir l’efficacité et la précision des recommandations.
2. Déroulement du Stage
Le stage se déroulera en trois grandes phases :
Phase 1 : Intégration de sources dans un graphe de connaissances unifié
Dans cette phase, l’étudiant(e) travaillera sur la collecte et l’intégration de plusieurs sources d’informations dans un graphe de connaissances global. Cette étape nécessite la structuration et l’enrichissement des données, ainsi que leur alignement pour assurer une cohérence au sein du graphe unifié. L’objectif sera d’obtenir une base de connaissances qui pourra être exploitée pour les recommandations.
Phase 2 : Extraction de sous-graphes pertinents
Pour réduire le bruit et optimiser les performances du modèle, l’étudiant(e) développera une méthode de sampling intelligente pour sélectionner des sous-graphes à la fois suffisamment riches en informations et suffisamment légers pour être traités rapidement. Cette étape nécessitera l’implémentation de techniques de sélection et de réduction de graphes, en tenant compte des caractéristiques structurelles et du contexte de la recommandation.
Phase 3 : Recommandation via un Graph Neural Network (GNN)
La dernière phase consistera à utiliser un réseau de neurones pour graphes pour générer les recommandations finales. L’étudiant(e) implémentera, entraînera et ajustera un GNN sur les sous-graphes extraits, afin de maximiser la pertinence des recommandations tout en maintenant une faible latence de traitement.
3. Compétences Attendues
Connaissances en apprentissage automatique et réseaux de neurones, idéalement sur des structures de graphes (GNN).
Expérience en manipulation et gestion de données structurées et non structurées.
Compétences en programmation : Python, et familiarité avec des bibliothèques telles que PyTorch, TensorFlow ou équivalentes pour les modèles de machine learning.
Notions de graphes de connaissances et de bases de données orientées graphes (RDF, Neo4j, etc.).
Esprit d’analyse et capacité à formuler et tester des hypothèses de recherche.
Capacité de travail en autonomie et en équipe, pour interagir avec les membres du laboratoire SAMOVAR.
4. Documents demandés
Les candidat(e)s intéressé(e)s sont invité(e)s à envoyer leur CV et une lettre de motivation à :
Julien Romero (julien.romero@telecom-sudparis.eu)
Stefania Dumbrava (stefania.dumbrava@ensiie.fr)
Ce stage représente une opportunité unique de contribuer à un projet de recherche innovant et à fort impact au sein de Télécom SudParis et de l’ensIIE, dans un environnement de travail stimulant.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Télécom SudParis, Évry

Document attaché : 202411290917_Offre de Stage de Fin d’Étude de Master – Système de Recommandation Basée sur les Graphes de Connaissances.pdf

Categories: Stages

Assimilation de données de phénotypage numérique par deep learning pour la simulation d’un modèle Structure-Fonction 3D d’arbres fruitiers

Dec 30 – Dec 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP Institut, CIRAD, Montpellier
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2024-12-30

Contexte :
Pour analyser finement le fonctionnement et la croissance des plantes, les modèles structure-fonction de plantes (FSPM) prennent en compte la structure modulaire des plantes, leur distribution spatiale 3D, leur fonctionnement interne en interaction avec l’environnement (Prusinkiewicz, 2004 ; Fourcaud et al., 2008 ; Louarn et Song 2020). Leur développement est motivé par l’idée que la structure tridimensionnelle des plantes forme son interface avec l’environnement et module sa croissance et sa productivité (Costes et al., 2006). Ils ont notamment été utilisés pour la modélisation d’arbres fruitiers (Costes et al., 2008 ; Allen et al., 2005 ; Lescourret et al., 2011 ; Boudon et al., 2020) chez lesquels la compétition interne pour les ressources entre organes nécessite d’avoir des représentations dynamiques spatialisées. Un verrou majeur de cette approche est la paramétrisation du modèle qui rend difficile son adoption pour construire des outils d’aide à la décision pour la gestion des vergers (DeJong, 2019) et plus généralement qui freine son utilisation dans la communauté scientifique.

La télédétection, couplée au traitement de données par deep learning, ont un potentiel important pour aider à la caractérisation du fonctionnement et de la croissance des plantes et donc paramétrer de tels modèles. En particulier, la disponibilité récente de caméras (RGB, Lidar, thermique, etc.) et vecteurs (drone, phénomobile, etc) permet d’envisager des solutions innovantes pour le phénotypage haut débit et le suivi des cultures. Récemment de nombreuses initiatives visent à automatiser le phénotypage des plantes, mais se concentrent sur un ensemble limité de traits, souvent peu compatible avec la définition d’un FSPM (Streit et al., 2023). L’objectif de ce stage est de rapprocher méthodes de phénotypage haut débit des vergers et construction d’un modèle 3D détaillé d’arbres fruitiers, en prenant comme cas d’application les pommiers.

Sujet :
L’objectif premier de ce stage sera d’extraire des règles de développement et de ramification à partir de reconstructions 3D issues de scans LiDAR en hiver par des méthodes d’assimilation de données, basées sur du machine ou deep learning (i.e. CNNS, RNNs, LSTMs et Transformers). Le second objectif sera de réaliser une première étape de reformulation d’un modèle FSPM d’arbre fruitier, MAppleT (Costes et al., 2008) pour préparer son couplage avec les données numériques issues de différents protocoles d’acquisition (LiDAR, imagerie aéroportée).

• Le stage débutera par une analyse bibliographique des traits accessibles par phénotypage pour la modélisation structure-fonction. Un bilan sera fait des différents traits mesurés par phénotypage LiDAR et imagerie qui seront mis en regard des paramètres des modèles de simulation. En particulier, les aspects de topologie de l’architecture des arbres, notamment leur ramification seront analysés.
• A partir de reconstructions issues de scans LiDAR en hiver, des méthodes d’assimilation de données, basées sur des méthodes de machine ou deep learning, pour permettre de reproduire les séquences d’événements développementaux observées en fonction des génotypes, seront développées. Pour modéliser et simuler ces séquences, différents types d’architecture de réseaux seront testés, (i.e. CNNS, RNNs, LSTMs et Transformers). Les séquences déduites de la reconstruction 3D devront prendre en compte l’incertitude des mesures. Les modèles initiaux de séquences de ramification, construits à partir de modèles de semi chaînes de Markov cachées, seront utilisés pour pré-entraîner les modèles de réseaux. Ceux-ci seront évalués pour leur capacité à prendre en compte les effets génotypiques.
• Le FSPM MappleT sera ensuite modifié pour prendre en compte ce nouveau type de modélisation des paramètres de ramification, basé sur la donnée. Des validations en termes de quantité d’organes reconstruites, de volume de plantes, etc. seront mise en place.

Profil du candidat :

Formation et compétences requises :
– Dernière année de Formation Supérieure BAC + 5
– Connaissances : Master en maths-infos, programmation en langage Python, des connaissances en statistiques seront appréciées
– Compétences opérationnelles : Goût pour le travail en équipe et l’inter-disciplinarité
– Langues : français, anglais

Adresse d’emploi :
Avenue Agropolis TA A-108 / 01
34398 Montpellier Cedex 5, France

Document attaché : 202410090946_stageM2-assimilation-vf.pdf

Categories: Stages

Tue

Anchor-free small ship detection from Sentinel-2 images

Dec 31 2024 – Jan 1 2025 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA, Université Bretagne Sud
Durée : 6 mois
Contact : minh-tan.pham@univ-ubs.fr
Date limite de publication : 2024-12-31

Contexte :
For information, please consult the offer on this link:
http://www-obelix.irisa.fr/files/2024/10/Master_topic_ship_detection_2024.pdf

Sujet :
Keywords: Deep learning, small object detection, anchor-free detection, ship detection, Sentinel-2

Profil du candidat :
Student Master 2, Ecole d’Ing´enieur or equivalent with excellent academic track;
Ability to communicate in English;

Formation et compétences requises :
Background in computer science and/or machine/statistical learning and/or applied mathematics for signal and image processing;
Excellent programming in Python (familiar with one of deep learning packages is a must,
preferable PyTorch).

Adresse d’emploi :
The expected intern will join the OBELIX research group (www.irisa.fr/obelix) from IRISA (UMR 6074) is located in the UBS (Universit´e Bretagne Sud) campus in Vannes 56000, France.

Document attaché : 202410090849_Master_topic_ship_detection_2024.pdf

Categories: Stages

Comparative analysis of the molecular pathology of neurodegenerative diseases using new optimal transport methods applied to graphs

Dec 31 2024 – Jan 1 2025 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sorbonne University/IBPS
Durée : 6 months
Contact : lucile.megret@sorbonne-universite.fr
Date limite de publication : 2024-12-31

Contexte :
The Brain-C team at the Paris-Seine Institute of Biology (IBPS) is developing several original research projects aimed at understanding the dynamics of neuronal compensation mechanisms during the progression of neurodegenerative diseases (ND), such as Huntington’s disease and amyotrophic lateral sclerosis (ALS). The multidisciplinary team is composed of biologists and mathematicians and relies on a network of local and international collaborators for both the production of multi-omic data and their analysis. In this context, the Brain-C team has access to large temporal datasets (RNA-seq, ChIP-seq) obtained from specific neuronal populations, notably in mouse models, which are analyzed for therapeutic innovation purposes (target selection).
See: https://www.ibps.sorbonne-universite.fr/fr/Recherche/umr-8256/brainc

Sujet :
In collaboration with École Polytechnique and Telecom Paris, the objective of this internship is to identify, at a fine-grained level, the similarities and differences in the molecular dynamics underlying these diseases. Genomic deregulation will be modeled using graph-based approaches, and optimal transport will be employed as a metric to compare these objects across different levels of granularity.
Expected outcomes:
Develop a clustering method for comparing neurodegenerative diseases (ND).
Identify and interpret substructures within these graphs that reflect similarities or divergences, and relate them to underlying biological mechanisms.
Compile a comprehensive list of challenges that will be addressed and further explored in the context of a future PhD project.

Profil du candidat :
Students in their second year of a Master’s degree in Mathematics or Computer Science, or students from engineering schools, with a strong interest in AI,
Proficiency in Python or at least one programming language.biology, and translational research.

Formation et compétences requises :

Adresse d’emploi :
7 quai Saint-Bernard 75005 Paris

Categories: Stages

Extraction de connaissances sur les changements d’occupation et usage des sols à partir de données textuelles

Dec 31 2024 – Jan 1 2025 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2024-12-31

Contexte :
La caractérisation de l’utilisation et de l’occupation des sols (Land Use and Land Cover,
LULC en anglais) et de leurs changements est essentielle pour comprendre les dynamiques
territoriales et gérer durablement les espaces naturels et urbains. La modélisation
spatio-temporelle, qui permet de représenter et projeter ces changements, mobilise des
connaissances expertes, qualitatives ou quantitatives, intégrées dans les modèles sous
forme de règles logiques. L’un des moyens d’obtenir ces connaissances est la sollicitation
d’experts par des entretiens, mais cette approche est coûteuse en temps et présente des
biais.
D’autres sources d’informations peuvent être mobilisées, telles que la littérature scientifique,
les rapports techniques ou encore les articles de presse. La sélection de documents
pertinents et leur analyse est une tâche chronophage pour laquelle des approches
d’extraction automatique peuvent être utilisées. Dans ce contexte, les méthodes de
traitement automatique du langage et d’apprentissage automatique peuvent permettre : (1)
l’extraction automatique d’informations d’intérêt, (2) la normalisation et représentation de ces
informations dans un formalisme adapté, et (3) leur transformation en règles logiques.
L’extraction et représentation des connaissances à partir de données textuelles ont été
étudiées dans le domaine de l’agriculture (Drury et al. 2019; Drury et Roche 2019) et
domaines connexes tels que l’agriculture urbaine (Bhuyan et al. 2024) ou les crises
agrométéorologiques (Zhang et al. 2023). En revanche, peu de travaux ont porté sur le
traitement de données textuelles sur la thématique de l’usage et de l’occupation des sols,
leurs changements, et les drivers associés. Le stage se déroule dans la cadre du projet
ARENA (Automatic Rule Extraction and Network Analysis), financé par le CNES, ayant pour
but d’extraire des informations sur l’usage et l’occupation des sols à partir d’articles
scientifiques et de les combiner avec des réseaux multicouches issus de séries temporelles
d’images satellites. Les recherches les plus proches du projet ARENA sont les travaux de
Kaczmarek (2023) ainsi que les travaux menés dans le cadre du projet Hérelles
(https://herelles-anr-project.cnrs.fr/). Ce stage fait également suite à des travaux menés
précédemment dans le cadre de l’ANR TipHyc (Tipping points in the West African
Hydrological Cycle), sur l’extraction d’information à partir d’articles scientifiques.
Le.a. futur.e stagiaire s’appuiera sur les premiers résultats obtenus pour améliorer les
propositions méthodologiques utilisées et étudiera l’inclusion de nouvelles sources de
données textuelles.

Sujet :
Objectifs du stage
Ce stage a pour objectif de développer une approche pour l’extraction et la formalisation de
connaissances sur l’occupation et usage des sols à partir de sources textuelles, grâce à
l’utilisation de techniques avancées de traitement automatique de la langue et apprentissage
automatique.
Il s’articulera en plusieurs étapes :
1. Identification de sources de données textuelles pertinentes et constitution de corpus
sur une zone d’étude pré-définie,
2. Formalisation de la notion d’information pertinente sur la thématique des
changements d’occupation ou d’utilisation des sols LULC, en collaboration avec des
experts du domaine,
3. Enrichissement d’une nomenclature existante sur l’occupation et usage des sols et
les processus de changement,
3. Comparaison de méthodes d’extraction automatique à partir des corpus d’étude.
Selon les enjeux méthodologiques identifiés, le.a stagiaire sera amené.e à comparer
des approches supervisées, intégrant ou non des règles expertes (Kaczmarek,
2023), et des approches reposant sur des grands modèles de langues (Large
Language Models) (Dagdelen et al. 2024). Le point d’ancrage des connaissances à
extraire sera les changements d’occupation et d’usage des sols et les processus qui
leur sont associés.
4. L’analyse quantitative et qualitative des informations extraites.
Les données d’étude seront en anglais ou en français selon la zone d’étude.
Organisation du stage
Le stage se déroulera sur une période de 6 mois, à compter de février 2025, dans les locaux
de la Maison de la Télédétection à Montpellier.
L’étudiant·e sera accueilli·e au sein de l’équipe MISCA de l’UMR TETIS (Territoire
Environnement Télédétection et Information Spatiale) et sera encadré·e par Sarah Valentin,
chercheuse en fouille de données textuelles au Cirad à l’UMR TETIS et Roberto Interdonato,
chercheur en Intelligence Artificielle, également au Cirad à l’UMR TETIS. Le déroulement du
stage se fera dans un contexte interdisciplinaire, notamment en collaboration avec Simon
Madec, chercheur en télédétection et apprentissage profond au sein de l’UMR TETIS .
En plus de la rédaction d’un mémoire de Master 2 ou de fin d’étude selon les attentes de sa
formation, d’autres modalités de valorisation des résultats seront éventuellement envisagées
avec les encadrants au cours du stage telles que la publication d’un jeu de données (corpus)
et la contribution à un data paper.

Candidature

Envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 29/11/2024
à Sarah Valentin (sarah.valentin@cirad.fr) et Roberto Interdonato
(roberto.interdonato@cirad.fr), en précisant en objet du mail “CANDIDATURE STAGE
ARENA 2025”.

Profil du candidat :
Compétences recherchées
● Formation en informatique
● Bonne maîtrise du langage de programmation Python
● Connaissances en traitement automatique du langage et/ou apprentissage
automatique
● Maîtrise de l’anglais écrit
● Intérêt pour les applications socio-environnementales et le travail interdisciplinaire.

Formation et compétences requises :
Compétences recherchées
● Formation en informatique
● Bonne maîtrise du langage de programmation Python
● Connaissances en traitement automatique du langage et/ou apprentissage
automatique
● Maîtrise de l’anglais écrit
● Intérêt pour les applications socio-environnementales et le travail interdisciplinaire.

Adresse d’emploi :
Maison de la Télédétection, 500 rue Jean François Breton, 34090, Montpellier

Document attaché : 202411181314_stage_ARENA_2025.pdf

Categories: Stages

Problèmes de Satisfaction de Contraintes (CSPs) et réseaux de neurones pour une analyse de l’artificialisation des terres à partir de données satellitaires