Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


May
5
Sun
2024
Explicabilité des réseaux sur Graphes pour l’action thérapeutique de molécules
May 5 – May 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : GREYC ou LITIS
Durée : 6 mois
Contact : luc.brun@ensicaen.fr
Date limite de publication : 2024-05-05

Contexte :
L’apprentissage profond a révolutionné de nombreux domaines tels que l’analyse d’images ou le traitement automatique des langues. Pourtant, l’incapacité de ces systèmes à justifier leurs décisions est très vite apparue comme une limite forte.
Ce problème est d’autant plus saillant dans la prédiction de l’action thérapeutique d’une molécule où il n’est pas viable d’engager des moyens et du temps pour la synthèse / le test de molécules sur la simple base d’une prédiction par un réseau. Plus précisément, la capacité d’un réseau (en l’occurence sur graphe) à expliquer sa décision permet:

* de valider les prédictions avant d’engager des efforts et des moyens sur les synthèses d’une série moléculaire
* d’obtenir une intuition sur les propriétés physico-chimiques clés que doit posséder une molécule pour avoir une action biologique ciblée.

Le second point est également très intéressant car il ouvre des perspectives vers la conception de nouvelles molécules thérapeutiques.

Sujet :
Notre étude commencera par une étude des réseaux sur graphes (GNN) permettant de prédire les propriétés de nos jeu de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir de plusieurs représentations de graphes moléculaires.

Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,…. Nous espérons identifier à partir de cette étude des sous structures pertinentes pour les propriétés à prédire.

Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires “brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.

Ce sujet peut être considéré comme un formation pour une thèse de doctorat qui pourrait commencer à l’issue du stage.

Profil du candidat :
Nous recherchons des candidats de niveau Bac+5 avec de bonnes bases en apprentissage machine. Une capacité à travailler en équipe combinée à une curriosité pour les problèmes scientifiques et une certaine autonomies seraient des plus.

Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.

Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes ainsi que pytorch sera un plus.

Adresse d’emploi :
Le stage pourra se dérouler à Caen (au laboratoire GREYC) ou à Rouen (laboratoire LITIS).

Document attaché : 202401231248_theseCODAG.pdf

Grammatical Graph Neural Network
May 5 – May 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS
Durée : 5/6 mois
Contact : Sebastien.Adam@univ-rouen.fr
Date limite de publication : 2024-05-05

Contexte :
Les réseaux de neurones sur graphe (GNN) sont un champs d’étude en plein essor ces dernières années. Les Message Passing Neural Network (MPNN) tels que Graph Convolutional Network (GCN) et Graph Isomorphism Network (GIN) sont les plus utilisés des GNNs du fait de leur complexité linéaire. Cependant, il a été démontré que l’expressivité de ces modèles était limitée. En effet, en terme de séparabilité, ils sont moins expressifs que le test de Wesfeiler-Lemahn et en terme de comptage de sous-structures, il ne peuvent pas compter les triangles dans un graphe

Sujet :
Durant ce stage, vous explorerez une nouvelle approche, décrite dans cite{piquenot2023iclr}, basée sur les Context Free Grammar (CFG). Les CFG sont composées de règles que l’on peut sélectionner pour construire des couches de GNN. Un exemple de couche de GNN produite à partir d’une grammaire basée sur la séparabilité est visible sur la Figure ref{fig:gram}. Ce stage s’inscrit dans une démarche de recherche de performance d’un GNN. Nous chercherons dans un premier temps à développer un code permettant de produire une couche de GNN à partir de règles dans une CFG que l’on pourra choisir. Ce code permettra à l’utilisateur de tester pour une tâche donnée la pertinence des règles de la CFG. Dans un second temps, le stagiaire pourra mesurer les performances de GNNs produits à partir de différents ensembles de règles sur des datasets usuels de la littérature.

Profil du candidat :
Etudiant en dernière année de Master ou d’école d’ingénieur, en mathématiques appliquées, science des données ou intelligence artificielle.

Formation et compétences requises :
Bonnes connaissances du Machine Learning
Bonnes compétences en Python et Pytorch

Adresse d’emploi :
Laboratoire LITIS, UFR Sciences et Techniques, Avenue de l’Université, 76800 Saint Etienne du Rouvray

Document attaché : 202401191526_stage_M2_G2N2.pdf

Réseaux de neurones bayésiens pour la quantification de l’incertitude
May 5 – May 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut FEMTO-ST
Durée : 6 mois.
Contact : zeina.almasry@femto-st.fr
Date limite de publication : 2024-05-05

Contexte :
Les réseaux de neurones (RN) sont largement utilisés dans plusieurs domaines. Toutefois, les résultats fournis par un algorithme basé sur les RN intègrent des incertitudes liées aux données et au modèle. Il est important de quantifier ces incertitudes, pour fournir une information supplémentaire afin d’assister la décision finale. Par exemple, en industrie lorsqu’une anomalie est détectée avec un faible niveau de confiance, une vérification supplémentaire à l’aide d’une autre source d’information est ajoutée (image, intervention humaine…) avant de planifier des actions de réparation. Un autre exemple en médical, la mesure de l’incertitude permet aux praticiens de prendre des décisions adaptées pour la prise en charge des patientes comme par exemple explorer d’autres tests. Plus généralement, une quantification fiable de l’incertitude de la prédiction permet de faire confiance ou non aux prévisions pour des entrées interpolant/extrapolant les situations vues dans l’ensemble d’entraînement. Plusieurs approches sont proposées pour la quantification d’incertitude, certaines sont dédiées aux RN.
Les réseaux de neurones bayésiens (RNB) fournissent un outil mathématique pour mesurer l’incertitude du modèle. L’idée est de remplacer les valeurs déterministes des paramètres du RN (poids et biais) par des distributions de probabilité avec un a priori gaussien, pour ensuite apprendre les paramètres de ces distributions. Une fois entraîné, les sorties du RN peuvent être évaluées plusieurs fois pour obtenir une distribution empirique des prédictions. Plusieurs méthodes ont été proposées pour les RNB basées, par exemple, sur l’approximation de Laplace ou des méthodes de Monte Carlo Hamiltonien. Dans le cadre de ce projet, l’objectif est de développer une méthode de quantification basée sur les RNB. La méthode sera appliquée pour un problème de classification et régression sur des données synthétiques.

Sujet :
Objectifs du stage :
— Etat de l’art sur les RNB.
— Développer un algorithme basé sur les RNB.
— Optimisation de l’architecture du réseau ainsi que les différents hyperparamètres.
— Appliquer l’algorithme pour la quantification l’incertitude pour la régression et la
classification et évaluation les performances.
— Comparer l’approche proposée avec d’autres techniques de la littérature dropout, ensemble learning.

Profil du candidat :
Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :
mathématiques-appliquées, apprentissage profond, programmation Python.

Adresse d’emploi :
26 Rue de l’Épitaphe, 25000 Besançon.

Document attaché : 202401221232_sujet_stage.pdf

May
31
Fri
2024
Stage M2 – Robust joint detection-estimation methodologies for massive radio telescopes
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire des signaux et syst`emes (L2S)
Durée : between 4 and 6 mont
Contact : stefano.fortunati@centralesupelec.fr
Date limite de publication : 2024-05-31

Contexte :
One of the key features characterizing the new generation of radio telescopes is the large number of their antenna elements. Built in 2010, the Low-Frequency Array (LOFAR) is currently the largest radio telescope in operation with 100000 antenna dipoles distributed across several European countries. Furthermore, the upcoming Square-Kilometer Array (SKA) will be made up of more than 130000 antennas. Such a large number of antennas will make it possible to acquire increasingly accurate and detailed images of the celestial vault. Such images will form the basis for promising developments in astrophysics and cosmology in the coming years.
However, as in any other remote sensing system, the signal collected by a radio telescope is affected by different sources of disturbance that will degrade the quality of the collected image. Consequently, to take full advantage of the potential of the new radio telescopes, one must first take the disturbance into account. In general, this disturbance is characterized as a zero-mean Gaussian random process with possibly unknown correlation structure.
Then, the crucial question is: is it possible to derive robust imaging algorithms, without any assumption on the specific form of the noise distribution, and that still remain accurate? If yes, which is the price to pay?

Sujet :
This internship is part of the“SIDEREAL” project. The objectives
of the internship are the following:
1. Building upon the existing works, we will adapt the array signal model to the context of radio telescopes. Particular attention will be devoted to the disturbance model to be used in astronomical data analysis and on its statistical description.
2. After these preliminary investigations, the project will focus on the development of original image reconstruction algorithms for radio astronomy by exploiting the massive number of antenna elements available in modern radio telescopes. Their performance and statistical properties will be assessed by means of simulated data.

Profil du candidat :
Master 2 or equivalent in machine learning / statistical signal processing or any related field

Formation et compétences requises :
Statistical signal processing, estimation theory, programming skills in Matlab or Python.

Adresse d’emploi :
Laboratoire des signaux et systèmes (L2S), Bât. IBM, Rue Alfred Kastler, 91400 Orsay.

Document attaché : 202311021052_Internship_proposal_SF_LB.pdf

Jun
30
Sun
2024
Apprentissage par Bandits pour du DVFS efficace en énergie en contexte HPC
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT
Durée : 6 mois
Contact : emmanuelle.claeys@irit.fr
Date limite de publication : 2024-06-30

Contexte :
La consommation d’énergie des ordinateurs devient une préoccupation majeure dans le cadre du réchauffement climatique. Pour optimiser leur consommation électrique d’application informatique, il est nécessaire de disposer d’informations précises sur leur comportement. Il devient alors possible de choisir la bonne fréquence d’un processeur. Cependant, le choix de la vitesse de fréquence peut fortement détériorer son fonctionnement, ou au contraire, n’avoir aucun effet visible pour l’utilisateur.

Sujet :
L’objectif de ce projet sera réalisé en plusieurs étapes

Découvrir en temps réel la vitesse des applications à partir de données instantanées. La modélisation se fera à l’aide de capteurs en temps réel (compteurs de performances matérielles, RAPL, …).

Modéliser le comportement à grain fin des applications pour les relier à l’incidence d’un changement de fréquence (en termes de performances et d’énergie).

Utiliser un algorithme d’apprentissage par renforcement (ici un modèle de bandit) pour choisir en temps réel la fréquence la plus adaptée.

Des données de monitoring fin sont déjà disponibles et seront utilisées pour la partie modélisation. La partie expérimentation et validation se déroulera sur la plateforme Grid5000 (plateforme nationale d’expérimentation en informatique).

https://www.irit.fr/~Georges.Da-Costa/post/bandits/

Profil du candidat :
Des compétences en analyse de données temporelles et en modélisation statistique seront appréciées ainsi qu’un intérêt pour les enjeux écologiques et les algorithmes d’apprentissage par renforcement. La co-rédaction d’un article présentant les résultats obtenus dans un journal scientifique étant attendu, l’objectif du candidat de poursuivre vers une thèse est un plus.

Le stage sera encadré par Emmanuelle Claeys et Georges Da Costa dans une ambiance conviviale :). Un ordinateur et un bureau seront fournis, ainsi qu’une indemnité mensuelle de stage de 591 €. La durée du stage est de 5-6 mois. Vous pouvez nous envoyer votre candidature (lettre de motivation + CV / court curriculum vitæ) par email à Emmanuelle.Claeys@irit.fr et georges.da-costa@irit.fr.

Formation et compétences requises :
Bac+5 Info/Math

Adresse d’emploi :
Campus Paul Sabatier IRIT

High-performance information extraction from cosmic web probes
Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 3 à 6 mois
Contact : florent.leclercq@iap.fr
Date limite de publication : 2024-06-30

Contexte :
Physical cosmology has brilliantly interwoven high-energy physics and observational astronomy to sketch the history of the Universe’s evolution from the Big Bang to its present state. Yet, lingering mysteries still beckon, primarily concerning dark energy, the cause of the Universe’s accelerated expansion, and the elusive masses of neutrino particles. Recent advances in statistical cosmology show the potential of going beyond traditional methodologies centred around correlation functions to unveil these secrets. The INFOCW project, funded by the Agence Nationale de la Recherche (ANR), seeks to employ models that predict the complete map of the large-scale structure as seen by ESA’s Euclid satellite, a recently launched space observatory. Through the synergy of cosmological simulations, data science, and astrophysical observations, the project promises to bring forth innovations that harness information trapped in the cosmic web—the Universe’s grandest observable structure.

Sujet :
Identifying and extracting the maximum amount of cosmological information from cosmic maps is still a largely open problem and will play a pivotal role in INFOCW. The goal of this master internship and PhD project is to tackle this task. In the first phase of the project, we will utilise physically and statistically motivated cosmic web probes. We will then optimise the extraction of cosmological information using automatically defined statistical summaries of galaxy catalogues, i.e. machine-aided definition of probes.

More details and French version: https://florent-leclercq.eu/supervision.php#internship-phd-2024

Profil du candidat :
We are looking for candidates with:
– A strong background in cosmology and/or astrophysics,
– Good computational abilities, preferably some familiarity with at least Python,
– A willingness to learn, and to work collaboratively.
We are seeking to appoint the same candidate for a master internship (dates at the candidate’s convenience from February 2024) followed by a three-year PhD studentship from October 2024, subject to satisfactory performance. Both positions are based in the large-scale structure and distant Universe group of the Institut d’Astrophysique de Paris (IAP). Supervision will be provided by Florent Leclercq (principal investigator of INFOCW) & Guilhem Lavaux. Funding for research expenses (travel, small equipment) is provisioned.

Application files must contain a CV and a transcript of record for all higher education programmes. They should be addressed to Florent Leclercq (florent.leclercq@iap.fr) & Guilhem Lavaux (guilhem.lavaux@iap.fr). One or more letters of recommendation (optional) can be sent directly by their authors to the same addresses.

Formation et compétences requises :
We are looking for candidates with:
– A strong background in cosmology and/or astrophysics,
– Good computational abilities, preferably some familiarity with at least Python,
– A willingness to learn, and to work collaboratively.

Adresse d’emploi :
Institut d’Astrophysique de Paris, 98bis boulevard Arago, 75014 Paris, France

Jul
1
Mon
2024
Internship position + PhD funding
Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : EducAction/– — –

Laboratoire/Entreprise : IRIMAS
Durée : 5 mois
Contact : nour.el-mawas@univ-lorraine.fr
Date limite de publication : 2024-07-01

Contexte :
The ANR COPCOT project involves members from Pixel team (CREM), MSD Team (IRIMAS), Trigone team (CIREL), and France-IOI association. Our aim is to understand learners’ skills-building in the Technology Enhanced Learning platform Quick-Pi, and to facilitate skills-building through content and feedback personalization.

Sujet :
The goal of this internship is to analyze learners’ data from the Quick-Pi platform (https://quick-pi.org/contenu.html) in order to identify relevant learner behaviors and extract data indicators contributing to the skills construction in programming among learners.
In particular, the candidate will work on the following tasks:
• Learners’ data analysis. Analysis of trace logs data from users’ interactions help us to better understand their learning process, distinguish groups of learners, and predict learners’ success in each Quick-Pi exercise.
Trace logs data can be seen as time series, hence this task will start by reviewing existing Machine Learning algorithms [1] used for time series analysis. Then the candidate will identify and adapt these algorithms to our sequential data in order to predict the learners’ success in each exercise on the Quick-Pi platform. The implicit data provided by Quick-Pi logs (like time spent on an exercise, navigation logs, code lengths, etc.) will be used. Once the pertinent algorithm to predict students’ success is found,
indicators can be found. Existing learners’ data analysis techniques such as knowledge tracing [2, 3] will be investigated to predict the success of students in each exercise.
• Indicators identification. The candidate will analyze which logs in the selected algorithm of the previous task were used by the algorithm itself to predict the success. This will help us to identify indicators. We believe that if the selected algorithm successfully predicts learners’ success, we should be aware of which specific log lines contributed to this prediction the most. For example, we can find that the time spent on an exercise may have a correlation with the learners’ success in a specific exercise.
These indicators are crucial to understand skills-building and learners’ difficulties. Features selection techniques [4] and explainability techniques [5] will be investigated in order to identify pertinent indicators for skills- building.

References
[1] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, and P.-A. Muller, “Deep learning for time series classification: a review,” Data mining and knowledge discovery, vol. 33, no. 4, pp. 917–963, 2019.
[2] M. Sao Pedro, R. Baker, and J. Gobert, “Incorporating scaffolding and tutor context into bayesian knowledge tracing to predict inquiry skill acquisition,” in Educational Data Mining 2013, Citeseer, 2013.
[3] S. I. Ram´ırez Luelmo, N. El Mawas, and J. Heutte, “Existing machine learning techniques for knowledge tracing: A review using the prisma guidelines,” in International Conference on Computer Supported Education, pp. 73–94, Springer, 2022.
[4] V. Vijayalakshmi and A. Prakash, “Developing an optimized feature selection process for designing efficient content management system using educational data,” International Journal of Advanced Research in Science Technology (IJARST), vol. 7, no. 1, pp. 15–24, 2020.
[5] R. Alamri and B. Alharbi, “Explainable student performance prediction models: a systematic review,” IEEE Access, vol. 9, pp. 33132–33143, 2021.

Profil du candidat :
The candidate must be registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science

Formation et compétences requises :
• Good skills in Python programming are mandatory
• Good skills in Machine Learning are required
• Interest, knowledge and/or a first experience in Technology Enhanced Learning (learning programming in particular) will be appreciated

Adresse d’emploi :
UHA/IRIMAS EA 7499, Mulhouse, France

Document attaché : 202310310845_internship_position_COPCOT_2023_VF.pdf

Stage M2 — Apprentissage de prior pour les problèmes inverses
Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 5 mois
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-07-01

Contexte :
Le traitement de mesures instrumentales nécessite souvent d’utiliser le modèle de données, ou modèle direct, dans la méthode. Par exemple les mesures sont affectées d’un bruit, d’un flou, ou vivent dans un autre espace que celui des inconnues (des coefficients de Fourier versus une image pour le cas de l’IRM).

Autant le modèle direct est stable et bien posé (à partir des paramètres on peut générer des données), autant le problème inverse est le plus souvent instable et mal-posé.

Sujet :
Les techniques de résolution de problèmes inverses ont fortement évolué ces dernières années avec les nouvelles techniques d’apprentissage machine. On peut mentionner le déroulage d’algorithmes itératif (unrolling), les approches plug-and-play, le RED (regularization by denoising), ou encore les a priori basés donnés.

Le travail consistera à comprendre et mettre en œuvre les approches utilisant les réseaux génératifs comme les VAE ou encore les réseaux inversibles. Il s’agit d’une approche reposant sur la minimisation d’un critère mixte

J(x) = |y – H x|² + R(x)

où le terme d’attache aux données utilise le modèle d’observation connu H (flou, inpainting, debruitage…) et le terme de régularisation R(x) est appris à partir de données. La solution est alors définie comme x = argminₓ J(x).

* Dans un premier temps, le stagiaire se familiarisera sur les problèmes inverses et leurs méthodes de résolution.

* Ensuite, il devra faire un état de l’art sur les méthodes basées données et apprentissage statistique pour la résolution de problèmes inverses. Le sujet étant récent, la littérature est abondante et diverse. Des points d’entrée bibliographique seront fournis.

* Nous nous attacherons à mettre en œuvre une des deux méthodes mentionnées plus haut. Les résultats devront être comparés aux résultats obtenus avec les approches classiques : filtre de Wiener, parcimonie… pour lesquels des codes sont à disposition.

* L’application sera à déterminer parmi celles de l’équipe : synthèse de Fourier pour la radioastronomie, la microscopie ou encore reconstruction d’image en tomographie.

Le travail se fera sur un poste équipé d’une carte GPU Nvidia 3080 ou 4090 avec Linux, TensorFlow et Python.

Profil du candidat :
L’étudiant devra avoir une formation type ingénieur ou Master~2 en traitement du signal ou d’images, data science ou machine learning. Il devra posséder des connaissances en mathématiques appliquées ou en programmation.

Formation et compétences requises :
L’étudiant acquerra au cours du stage des compétences en estimation, optimisation, apprentissage machine, inférence statistique, traitement de données et python.

Adresse d’emploi :
L2S, 3 rue Joliot-Curie, 91190 Gif-sur-Yvette

Document attaché : 202311010608_stage-dnn-orieux-l2s.pdf

Stage M2 — Déconvolution rapide pour le radio télescope SKA
Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 5
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-07-01

Contexte :
L’augmentation de la puissance des machines de calcul a incité à la conception d’instrument générant des quantités importantes de données. Parallèlement, le désir de travailler sur des inconnues de grande taille telle que des images hautes ou très haute résolution est de plus en plus présent en particulier dans les sciences expérimentales ou observationnelles.

Le stage s’inscrit dans le cadre du projet international SKA, Square Kilometer Array, et de l’ANR DarkEra. SKA est un observatoire pour la radioastronomie qui produira un volume de données considérable pour produire des images à une résolution spatiale et spectrale inégalées. Les antennes sont réparties en australie et en afrique du Sud, ce qui en fera le plus grand interféromètre radio à ce jour. L’équipe est impliquée dans le projet par le biais de l’ANR DarkEra et du LabCom ECLAT (ATOS, IETR, INRIA…).

Sujet :
Pour exploiter pleinement l’ensemble des informations disponibles, une modélisation fine du processus d’acquisition est nécessaire. Cela définit un modèle direct H, ou simulateur, capable de reproduire des données y à partir d’une image x comme y = Hx. Cependant l’utilisation naïve de H conduisant à des problèmes inverses généralement mal posés, c’est à dire ne produisant pas de résultats satisfaisant.

Les approches standard pour l’inversion reposent généralement sur la minimisation de critères régularisés, la régularisation permettant de rendre le problème bien posé.

* Dans un premier temps le stagiaire se familiarisera sur les problèmes inverses et leurs méthodes de résolution.

* Ensuite le stagiaire s’appuiera sur le travail de thèse de Nicolas Monnier qui a travaillé sur l’accélération du modèle H. L’objectif est de réutiliser son travail pour partir d’un modèle de donnée fiable et rapide.

* Enfin nous travaillerons à l’élaboration de méthode plus modernes de résolution de problèmes inverse exploitant cette accélération. On explorera notamment les algorithmes de Majorisation-Minimisation (ou MM) et l’utilisation de préconditionneur.

* En fonction de la formation du stagiaire on pourra également plutôt s’orienter sur la mise en œuvre efficaces des algorithmes sur GPU.

Profil du candidat :
L’étudiant devra avoir une formation type ingénieur ou Master~2 en traitement du signal ou d’images, data science ou machine learning. Des
connaissances en mathématiques appliquées, programmation ou architecture de calcul seront appréciés.

Formation et compétences requises :
L’étudiant acquerra aux cours du stage des compétences en estimation,
optimisation, inférence statistique, traitement de données, calculs intensifs, radioastronomie et python.

Adresse d’emploi :
L2S, 3 rue Joliot-Curie, 91190 Gif-sur-Yvette

Document attaché : 202311010558_stage-ska-orieux-l2s.pdf

Sep
1
Sun
2024
[stage/thèse] [lip6, Paris] Perturbations du Trafic Maritime par des Mouvements Sociaux
Sep 1 – Sep 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 (CNRS et Sorbonne Université)
Durée : 6 mois
Contact : Matthieu.Latapy@lip6.fr
Date limite de publication : 2024-09-01

Contexte :
Alors qu’il joue un rôle essentiel dans les échanges de marchandises à travers le monde, le trafic maritime est régulièrement perturbé par des mouvements sociaux ou écologistes (grèves ou blocages dans les ports ou à bord des navires, comme les 10 jours de grève des dockers de la côte ouest des USA en 2002). Il est aussi perturbé par des accidents
(comme l’obstruction du canal de Suez par un navire échoué pendant 6 jours en 2021), des catastrophes naturelles (par exemple, le tremblement de terre à Kobé en 1995 ou la sécheresse au canal de Panama en août 2023), ou de la piraterie (plus de 300 actes recensés
par an).

Sujet :
L’impact de tels événements, ainsi que la robustesse du réseau d’échanges et ses fragilités, sont mal connus. En particulier, quelle est l’ampleur, la durée et la structure des perturbations ? Restent-elles locales ou se propagent-elles loin à travers le réseau, et sous
quelles conditions ? De petits événements peuvent-ils engendrer de grandes perturbations par des effets en cascades ? Comment le retour à la normale s’opère-t-il ? Y a-t-il des points particulièrement fragiles dans le réseau ? Les perturbations induites par des mouvements sociaux sont-elles similaires aux autres types de perturbations ? Existe-t-il des
sous-parties du réseau plus robustes que d’autres ?

Ce stage propose une approche orientée données pour répondre à ces questions et améliorer drastiquement les connaissances sur ces sujets.

Profil du candidat :
Master en informatique, ouverture interdisciplinaire (géographie, SHS), volonté de poursuivre en thèse.

Formation et compétences requises :
Analyse de données, manipulation de grandes données, graphes, réseaux.

Adresse d’emploi :
Paris centre

Document attaché : 202402051751_stage_reseaux_maritimes.pdf

Nov
4
Mon
2024
Développement et évaluation d’un passage à l’échelle des prévisions Arome sur l’Europe avec des méthodes d’Intelligence Artificielle Générative.
Nov 4 – Nov 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Ce stage n’est plus disponible

Laboratoire/Entreprise : CNRM – Centre National de Recherches Météorologiqu
Durée : 6 mois
Contact : victor.sanchez@meteo.fr
Date limite de publication : 2025-01-15

Contexte :
L’utilisation de l’intelligence artificielle (IA) pour la Prévision Numérique du Temps (PNT) se démocratise progressivement depuis plusieurs années. Les algorithmes d’apprentissage profond et les approches génératives ont d’ailleurs récemment fait leur preuve dans ce domaine d’application. Désormais, ces méthodes ont la capacité de produire des champs physiques avec une certaine cohérence physique, pour un coût numérique très inférieur aux méthodes classiques d’intégration numérique.

Le stage proposé se place dans le cadre de Destination Earth (DestinE). DestinE est une initiative de la Commission européenne dans le cadre du programme EU Digital Europe. Ce projet vise à déployer plusieurs jumeaux numériques de la Terre, qui aideront à surveiller et à prévoir les changements environnementaux et l’impact humain, afin de développer et de tester des scénarios qui soutiendraient le développement durable et les politiques européennes correspondantes pour le Green Deal. L’IA, et en particulier l’apprentissage profond, sont un des axes développés dans DestinE. Le travail durant le stage sera à destination du projet DE_371, auquel l’équipe d’accueil participe.
L’objectif du projet DE_371 est de démontrer que des méthodologies utilisant les algorithmes d’IA à l’état de l’art peuvent aider à améliorer l’estimation de l’incertitude des prévisions, en permettant de produire des prévisions d’ensemble de grande taille et à haute résolution spatiale et temporelle.

Sujet :
L’objectif du travail proposé est d’utiliser des techniques d’IA dites génératives comme les Réseaux Antagonistes Génératifs (GAN) [1] pour améliorer les performances du système opérationnel de prévision d’ensemble Arome. L’équipe d’accueil a développé un prototype StyleGAN [2][3] capable de générer des membres Arome physiquement cohérents sur un quart sud-est de la France et pour quelques variables de surface. Ce stage se propose d’utiliser ce prototype comme base de
développement. Les résultats encourageants mènent vers plusieurs pistes d’approfondissement et d’amélioration, qui feront l’objet du présent stage, parmi lesquelles :
• Adaptation du modèle à une extension du domaine actuel.
• Exploration de méthodes de Transfer Learning [4] sur le domaine nordique (Norvège, Suède).
• Evaluation des prévisions StyleGAN sur des évènements à fort impact.

[1] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., … & Bengio, Y. (2020). Generative adversarial networks. Communications of the ACM, 63(11), 139-144. https://dl.acm.org/doi/pdf/10.1145/3422622.

[2] Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., & Aila, T. (2020). Analyzing and improving the image quality of stylegan. In Proceedings of the IEEE/CVF conference on computer vision and
pattern recognition (pp. 8110-8119).https://openaccess.thecvf.com/content_CVPR_2020/papers/
Karras_Analyzing_and_Improving_the_Image_Quality_of_StyleGAN_CVPR_2020_paper.pdf

[3] Brochet, C., Raynaud, L., Thome, N., Plu, M., & Rambour, C. (2023). Multivariate Emulation of Kilometer-Scale Numerical Weather Predictions with Generative Adversarial Networks: A Proof of Concept. Artificial Intelligence for the Earth Systems, 2(4), 230006. https://doi.org/10.2496.

[4] Lee, D., Lee, J. Y., Kim, D., Choi, J., & Kim, J. (2022). Fix the noise: Disentangling source feature for transfer
learning of StyleGAN. arXiv preprint arXiv:2204.14079. https://arxiv.org/pdf/2204.14079

Profil du candidat :
Le ou la stagiaire pourra disposer de moyens de calculs sur GPU importants (plate-forme Météo France et/ou super-calculateur EuroHPC), au sein d’une équipe expérimentée et motivée. Il ou elle bénéficiera
des outils et méthodes déjà développés dans l’équipe. Ce stage sera l’occasion de développer ses compétences, notamment :
• expérience de développement d’algorithmes d’apprentissage profond à l’état de l’art
• manipulation d’une infrastructure de calcul haute-performance
• gestion d’une base de code commune et ajout de fonctionnalités
• intéractions avec des partenaires internationaux (centres météorologiques en Norvège et Suède)

Formation et compétences requises :
Ce stage requiert un réel intérêt pour la prévision numérique du temps (des connaissances préalable à ce sujet seraient un plus mais ne sont pas nécessaire). De solides compétences en statistiques et une bonne maîtrise du langage Python seront également nécessaires. Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs CNN) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, TensorFlow, …) serait un plus.

Adresse d’emploi :
42 Av. Gaspard Coriolis, 31100 Toulouse

Document attaché : 202410040756_Fiche-proposition-PFE_IENM_IA_2025.pdf

Nov
30
Sat
2024
Alignement of LLMs, hate speech detection
Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : NAVER Labs
Durée : 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2024-11-30

Contexte :
This internship is part of an ANR project called DIKÉ (https://www.anr-dike.fr/), which aims at studying bias, fairness and ethics of compressed NLP models. Results are expected to be reported in a paper by the end of the internship (or soon after). The internship will be hosted at NAVER LABS Europe and co-supervised by NAVER LABS and Lyon 2 University researchers.

Sujet :
The goal of this internship is to investigate strategies to diminish offensive content generation focusing on implicit offensive speech in multilingual settings. More details and online application here: https://europe.naverlabs.com/job/offensive-content-mitigation-research-internship/

Profil du candidat :
PhD or last year MSc student in NLP-related domains

Formation et compétences requises :
– Solid deep learning and NLP background
– Strong programming skills, with knowledge of PyTorch, NumPy, and the HF Transformers
– Familiarity with recent preference optimization techniques, such as DPO, is a plus
– Ability to communicate in English; knowledge of French is an advantage

Adresse d’emploi :
NAVER Labs, Europe
6 Chem. de Maupertuis, 38240 Meylan

Stage M2 au CEA : Nouvelles approches par apprentissage statistique profond pour l’identification structurale de biomarqueurs en métabolomique par spectrométrie de masse
Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-11-30

Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [1] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son processus de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.

Sujet :
L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées. A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder [2]). Un nouveau type d’architecture sera ensuite développé pour intégrer l’ensemble des informations multiplexées et montrer leur impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit notamment, et appliqués à la recherche de biomarqueurs dans les données de plusieurs cohortes cliniques disponibles au laboratoire.
Mots clés : apprentissage statistique, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] Liu et al. (2021) Current and future deep learning algorithms for tandem mass spectrometry (MS/MS)-based small molecule structure elucidation. Rapid Commun Mass Spectrom, DOI:10.1002/rcm.9120.
[2] Russo et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Commun Mass Spectrom. DOI: 10.1002/rcm.9876.

Profil du candidat :
Nous recherchons un.e candidat.e avec un bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie, physique, biologie).

Formation et compétences requises :

Adresse d’emploi :
Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données métabolomiques du laboratoire Innovations en Spectrométrie de Masse pour la Santé.
Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

Document attaché : 202410041921_240924_stage_M2_cea_ai-ms2_EThevenot.pdf

Dec
20
Fri
2024
Stage M2 – Intégration des données d’observation de la Terre et méthodes apprentissage profond pour le suivi des systèmes alimentaires [UMR TETIS – Montpellier]
Dec 20 – Dec 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2024-12-20

Contexte :
Contexte :
Les systèmes alimentaires sont fortement interconnectés entre les pays à l’échelle mondiale, comme le montrent les récentes perturbations telles que la guerre en Ukraine et la pandémie mondiale. Le flux des denrées alimentaires est vulnérable aux chocs, et ces perturbations influencent les prix des denrées alimentaires, qui à leur tour affectent les modes de consommation alimentaire. Cela a eu un impact significatif sur les régimes alimentaires des populations, en particulier dans les pays sous-développés où la sécurité alimentaire est déjà fragile. Cependant, les scientifiques et les décideurs politiques manquent de données et d’outils pour identifier les points faibles des flux alimentaires et construire des systèmes alimentaires résistants aux chocs et aux perturbations. Si des progrès considérables ont été réalisés grâce aux données d’observation de la Terre pour cartographier l’emplacement des cultures et la productivité agricole (par exemple, le rendement des cultures), peu d’attention a été accordée aux étapes intermédiaires du flux de travail – distribution, transformation et marchés – qui sont essentielles pour comprendre et modéliser la manière dont les denrées alimentaires passent de la production à la consommation.
Grâce aux progrès de l’intelligence artificielle et à son application aux données d’observation de la Terre, les images satellitaires collectées en continu à l’échelle mondiale, combinées aux données météorologiques, permettent de suivre les systèmes alimentaires en temps réel. Les modèles d’apprentissage profond, capables de capturer des relations complexes et non linéaires, ainsi que les algorithmes multimodaux intégrant des données issues de sources variées, ouvrent de nouvelles perspectives dans ce domaine.
Ce stage propose d’exploiter des données d’observation de la Terre multi-temporelles et multi-résolutions, en les combinant avec des modèles d’apprentissage, pour surveiller les systèmes alimentaires, estimer les rendements agricoles et analyser leurs liens avec les prix des marchés.

Sujet :
Bonjour,

Nous proposons une offre de stage de master 2 sur “Intégration des données d’observation de la Terre et méthodes d’apprentissage profond pour le suivi des systèmes alimentaires”.

Ce stage se déroulera sur une période de 6 mois entre janvier et juin 2025 et sera co-encadré par des chercheurs Cirad de l’UMR TETIS, Simon Madec et Roberto Interdonato. Vous trouverez l’offre de stage sur ce lien :

https://nubes.teledetection.fr/s/mXoY5qYsQNnPRta

Les étudiant.e.s intéressé.e.s peuvent envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.

Merci par avance de bien vouloir transmettre cette offre à vos étudiants.

Candidature :
Envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.

Profil du candidat :
Compétences du candidat/e :
• Connaissances/goût pour la programmation
• Intérêt pour l’analyse de données
• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyses, rédactionnelles et de synthèse

Formation et compétences requises :

Adresse d’emploi :
Maison de la Télédétection, 500 rue JEan François Breton, 34090, Montpellier

Document attaché : 202411200802_Stage SCOSSA 2025_FR.pdf

Stage M2 au CEA : Nouvelles approches de deep learning pour l’élucidation structurale des petites molécules
Dec 20 – Dec 21 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-12-20

Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome [1]. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [2] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son graphe de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.

Sujet :
Sujet : L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées.
Travail demandé : A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder). Un nouveau type d’architecture basé sur la prédiction structurée sera ensuite développé pour intégrer l’ensemble des informations multiplexées et la modélisation de la fragmentation sous forme de graphe, et montrer l’impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit.
Mots clés : apprentissage statistique, prédiction structurée, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] De Vijlder,T. et al. (2018) A tutorial in small molecule identification via electrospray ionization-mass spectrometry: The practical art of structural elucidation. Mass Spectrometry Reviews, 37, 607–629.
[2] Russo,F.F. et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Communications in Mass Spectrometry, 38, e9876.

Profil du candidat :
Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie).

Formation et compétences requises :

Adresse d’emploi :
Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données du laboratoire Innovations en Spectrométrie de Masse pour la Santé, en partenariat avec l’équipe Signal, Statistique et Apprentissage de Telecom Paris.
Durée du stage : 6 mois à partir de début 2025
Date limite de candidature : 30 novembre 2024
Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

Document attaché : 202411191549_241119_stage_M2_cea_ai-ms2_EThevenot.pdf

Dec
23
Mon
2024
Deep Learning architectures for generating rehabilitation human motion
Dec 23 – Dec 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIMAS, Université Haute-Alsace
Durée : 6 months
Contact : maxime.devanne@uha.fr
Date limite de publication : 2024-12-23

Contexte :
Human motion analysis is crucial for studying people and understanding how they behave, communicate and interact with real world environments. Due to the complex nature of body movements as well as the high cost of motion capture systems, acquisition of human motion is not straightforward and thus constraints data production. Hopefully, recent approaches estimating human poses from videos offer new opportunities to analyze skeleton-based human motion. While skeleton-based human motion analysis has been extensively studied for behavior understanding like action recognition, some efforts are yet to be done for the task of human motion generation. Particularly, the automatic generation of motion sequences is beneficial for rapidly increasing the amount of data and improving Deep Learning-based analysis algorithms. In particular, this is crucial in a medical context like in physical rehabilitation where acquiring data is challenging. Rehabilitation human motions are corresponding to reha- bilitation exercises proposed by physiotherapists. Unlike classification tasks, the targeted task in human rehabilitation assessment is often a regression problem, where given a motion sequence, the goal is to predict the associated performance score given by physiotherapists.
Since several years, human motion generation paradigms have been possible thanks to the appearance of Generative Adversarial Networks (GAN), Vari- ational AutoEncoder (VAE) or Diffusion models. While most of these works have considered motion capture (mocap) data, we consider noisy skeleton data estimated from videos as it is easily applicable in real-world scenarios for the general public.

Sujet :
The goal of this internship is to investigate deep generative models for skeleton- based human motion sequences with a particular focus on rehabilitation data. Inspiring from recent effective Deep Learning-based approaches, the aim is to generate full skeleton-based rehabilitation motion sequences. It is therefore crucial to investigate how deep generative models can handle such noisy and possibly incomplete data in order to generate novel rehabilitation motion sequences as natural and variable as possible.
In particular, the candidate will work on the following tasks:
– Deep generative models adapted to rehabilitation data: based on studies from existing works, the goal is to build generative models for rehabilitation sequences. Therefore, the candidate will investigate different generative models, like Diffusion models, in order to propose and develop a complete Deep Learning model for generating skeleton-based human motions. These models will be trained using publicly available datasets such as the Kimore dataset.
– Evaluation of deep generative models: in order to validate the proposed model, experimental evaluation is crucial. In comparison to motion recognition where classification accuracy is a natural way to assess an approach, evaluating the task of motion generation is not as straightforward. Dedicated metrics evaluating both naturalness and diversity of generated sequences as well as the impact of new generated sequences in a classifi- cation task will be considered.
– Text to rehabilitation motion: The generated models will be then adapted to take as input text sequences corresponding to rehabilitation exercises’ descriptions. This will be particularly useful to create new rehabilitation exercises.

Profil du candidat :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated
– Knowledge and/or a first experience in Natural Language Processing to handle text-to-motion generation

Formation et compétences requises :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated
– Knowledge and/or a first experience in Natural Language Processing to handle text-to-motion generation

Adresse d’emploi :
Université Haute-Alsace
12 rue des Frères Lumière
68093 Mulhouse

Document attaché : 202410230753_internship_position_delegation_generation_2025.pdf

Detection of wild animals in zoo enclosure using thermal cameras and deep learning
Dec 23 – Dec 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIMAS, Université Haute-Alsace
Durée : 6 mois
Contact : maxime.devanne@uha.fr
Date limite de publication : 2024-12-23

Contexte :
Nowadays, zoo enclosures are becoming closer to natural biotopes of wildlife animals. This implies large enclosures with biological elements such as plants and trees, and landscape elements such as rocks, hills and so on. If these new ways of designing enclosures are really improving the wellness of the hosted animals, however these ones can become hardly visible. This implies two problems :
– Frustration of visitors who want to see animals
– Difficulties for the zookeeper staff to observe the animal
Particularly, this last issue can cause a) difficulties to observe an abnormal behavior of an animal, which can delay veterinary heals if necessary and b) accident if the zookeeper has to enter into an enclosure without a clear view of the animal. To cope those problems, cameras can be installed around or inside the enclosures to monitor the animals in real-time. Particularly, thermal cameras have been proved to be very efficient in enclosures with large number of plants or even during night-time. The goal of this internship is to use multi-camera setup and data fusion to detect animals using deep learning techniques such as CNNs or YOLO.

Sujet :
The intern will have to first review the existing literature based on articles and surveys about zoo animal monitoring. Then, the goal is to select and purchase cameras (RGB, thermal, other modalities) according to the state-of-the-art, and to settle them with the help of the staff of the Mulhouse Zoo. In parallel, finding in the literature neural networks such as YOLO able to create a bounding-box prediction of the position of the animal in an image. The training of the neural network can be done using databases such as DeepFaune. Finally, data fusion can be explored to enhance the performance of the neural networks by coupling RGB and thermal predictions. GPU-based architectures will be used with Python programming.

Profil du candidat :
Final-year student in Master 2 / Engineering school (BAC+5), with an Artificial
Intelligence / Computer Vision background. Good programming skills are expected (C, C++, Python). A
first experience with camera acquisition, particularly thermal images, is good.

Formation et compétences requises :
Final-year student in Master 2 / Engineering school (BAC+5), with an Artificial
Intelligence / Computer Vision background. Good programming skills are expected (C, C++, Python). A
first experience with camera acquisition, particularly thermal images, is good.

Adresse d’emploi :
Université Haute-Alsace
12 rue des Frères Lumière
68093 Mulhouse

Document attaché : 202410230749_Master_internship_zooAI_2025.pdf

Interprétation automatique de coupe géologique de forage par apprentissage automatique semi-supervisé
Dec 23 – Dec 24 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO & BRGM
Durée : 6 mois
Contact : Patrick.Marcel@univ-orleans.fr
Date limite de publication : 2024-12-23

Contexte :

Sujet :
Proposition de stage au LIFO – Université d’Orléans avec le BRGM:

Interprétation automatique de coupe géologique de forage par apprentissage automatique semi-supervisé

Encadrant : P. Marcel (LIFO – Univ. Orléans) ; C. Loiselet (BRGM)

Contexte : Le BRGM, service géologique national, a la charge de mettre à disposition une connaissance géologique du sous-sol de notre territoire. Pour ce faire, nous collectons les données d’ouvrages souterrains (forages, sondages) qui sont structurées dans une base de données nommée la Banque du Sous-Sol (BSS), organisée et gérée par le BRGM. Cette bancarisation permet de favoriser les applications en ressources naturelles (ressources fossiles et énergétiques), en géotechniques (travaux d’infrastructure et d’aménagement, etc.). Cette base de données contient 700 000 ouvrages et travaux souterrains qui, pour près de la moitié, contiennent des données et informations sur la géologie du sous-sol et plus particulièrement la description géologique le long des logs de sondages/forages. Ces données sont actuellement mises à disposition sur notre plateforme de diffusion InfoTerre (http://inforterre.brgm.fr).

Ces logs géologiques sont par la suite interprétés afin de fournir une information géologique cohérente de notre sous-sol selon une coupe géologique. Aujourd’hui, environ 20% des logs possèdent une coupe géologique interprétée. Nous cherchons ici à accélérer le travail d’interprétation de ces données afin de fournir le plus d’informations possible par l’application d’une méthode d’Intelligence Artificielle.

Description du stage : L’objectif de ce stage est d’étudier une méthode d’apprentissage automatique semi-supervisée pour prédire des données de forage. Cette méthode est inspirée de méthode de recommandation par apprentissage de similarité [1,2]. Dans le cas des données de forage, il s’agira d’utiliser une approche basée sur les K plus proches voisins (KNN), où le voisinage est constitué par des forages existants. Un point clé est donc la définition d’une similarité entre forages, qui sera apprise à partir des caractéristiques des forages.

La méthode envisagée repose sur les étapes suivantes :
1. Extraction de caractéristiques pertinentes des forages existants
2. Définition de similarités simples propres à chaque caractéristique
3. Constitution d’un ensemble d’apprentissage par labellisation faible [3]
4. Entrainement d’un classifier linéaire permettant de pondérer les similarités entre caractéristiques [1]
5. Définition des paramètres du KNN
6. Définition de la méthode de prédiction à partir des forages voisins

L’approche sera comparée aux méthodes de l’état de l’art pour prédire les données de forage, notamment le Krigeage (https://fr.wikipedia.org/wiki/Krigeage).

Le déroulement du stage comprendra :
– une étude bibliographique,
– la proposition d’une approche de prédiction de données de forage,
– l’implémentation et le test de l’approche proposée.

Le profil recherché est un(e) étudiant(e) ayant des connaissances solides en géologie, programmation, et mathématiques, et une appétence pour la recherche. Le stage pourra déboucher sur une thèse de doctorat financée.

Spécificités du poste :
– Stage en fin d’études (Ingénieur ou Master 2)
– Niveau d’études requis : bac+4
– Durée du stage : 6 mois
– Période de stage : Avril – Septembre

Le stage sera encadré par Christelle Loiselet (BRGM c.loiselet@brgm.fr) et Patrick Marcel (LIFO -Univ. Orléans patrick.marcel@univ-orleans.fr). Il se déroulera au LIFO, campus Universitaire de la Source à Orléans.

Votre lettre de motivation et un CV sont à adresser par email jusqu’au 31/12/2024 aux tuteurs du stage.

Références :
[1] Ramanathan V. Guha, Vineet Gupta, Vivek Raghunathan, Ramakrishnan Srikant: User Modeling for a Personal Assistant. WSDM 2015: 275-284
[2] Krista Drushku, Julien Aligon, Nicolas Labroche, Patrick Marcel, Verónika Peralta: Interest-based recommendations for business intelligence users. Inf. Syst. 86: 79-93 (2019)
[3] Alexander Ratner, Stephen H. Bach, Henry R. Ehrenberg, Jason A. Fries, Sen Wu, Christopher Ré: Snorkel: rapid training data creation with weak supervision. VLDB J. 29(2-3): 709-730 (2020)

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Le stage se déroulera au LIFO, campus Universitaire de la Source à Orléans.

Document attaché : 202410221420_Proposition de stage au LIFO-BRGM.docx

Dec
29
Sun
2024
Large-scale place recognition in 3D points clouds @LASTIG – IGN/UGE – Paris area
Dec 29 – Dec 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG
Durée : 5-6 mois
Contact : valerie.gouet@ign.fr
Date limite de publication : 2024-12-29

Contexte :
Master’s internship M2 2025
LASTIG Lab – IGN / Gustave Eiffel University (Grand Paris area, France)
« Large-scale place recognition in 3D points clouds »

Keywords

Computer Vision, Photogrammetry, Machine Learning, Place Recognition, Pose Estimation, 3D Points Clouds, Big Data, LLM

Full description and candidature: https://www.umr-lastig.fr/vgouet/News/sujet_stage_2025-Loc3D-ext-v2.pdf

Sujet :
Subject

Place recognition based on the visual mapping of the environment is a problem at the heart of many topical application domains, such as geolocalization for mobile mapping, digital twins update and documentation, collections annotation in digital humanities, augmented reality or fact-checking. Recognizing a location can take many forms, from the production of an annotation to a 6D pose that also provides information on the location of the acquisition sensor. In the state of the art of computer vision, when no initial position is known, existing techniques are based on indexing and similarity search of visual content in a geolocalized image repository. Here, we study the generalization of this type of approach to 3D by considering 3D point cloud acquisition campaigns (notably LiDAR), which are becoming increasingly popular and whose richness in terms of geometry and semantics is attractive, but with a volume and diversity that are complex to handle. The internship is at the heart of the problem of indexing and retrieval in 3D point clouds for place recognition, through the study of deep 3D points cloud descriptors up to efficient retrieval and reranking for 3D pose estimation.

Profil du candidat :
Skills

Bac+5 in computer science, applied math or computer vision (master or engineering school); good knowledge in image or 3D data processing, as well as strong skills in Python programming. Good skills in Apache Spark, hugging Face API, LLM, PyTorch, or functional programming is a significant plus.

Formation et compétences requises :
Submitting your candidature

Before February 15th 2025, send by e-mail to the contacts in a single PDF file:
o CV
o motivation letter
o 2 recommendation letters, or persons to contact
o Transcript of grades from the last two years of study
o A list of courses followed and passed in the last two years

Adresse d’emploi :
LASTIG Lab – IGN / Gustave Eiffel University (Grand Paris area, France)

Contact
o Valérie Gouet-Brunet, snior researcher, LASTIG – valerie.gouet@ign.fr
o Laurent Caraffa, researcher, LASTIG – laurent.caraffa@ign.fr

Document attaché : 202411271436_sujet_stage_2025-Loc3D-ext-v2.pdf

Offre de Stage de Fin d’Étude de Master – Système de Recommandation Basée sur les Graphes de Connaissances
Dec 29 – Dec 30 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2024-12-29

Contexte :

Sujet :
Laboratoire SAMOVAR – Télécom SudParis & ensIIE
1. Introduction et Contexte
Le laboratoire SAMOVAR de Télécom SudParis et de l’ensIIE (Évry) recherche un(e) étudiant(e) en fin de cycle Master pour un stage de six mois portant sur le développement d’un système de recommandation basé sur des graphes de connaissances. Ce projet s’inscrit dans le cadre des recherches avancées en systèmes de recommandation, un domaine en pleine évolution qui exploite des données complexes et hétérogènes pour générer des suggestions personnalisées.
L’objectif du stage est de concevoir un modèle de recommandation reposant sur un graphe de connaissances unifié, capable d’intégrer et de fusionner plusieurs sources d’informations. En mobilisant des techniques avancées d’apprentissage profond, notamment les réseaux de neurones pour graphes (Graph Neural Networks, GNN), le projet vise à développer un système robuste, pertinent et performant. Les défis du stage concernent principalement la construction et l’optimisation de sous-graphes, un aspect clé pour garantir l’efficacité et la précision des recommandations.
2. Déroulement du Stage
Le stage se déroulera en trois grandes phases :
Phase 1 : Intégration de sources dans un graphe de connaissances unifié
Dans cette phase, l’étudiant(e) travaillera sur la collecte et l’intégration de plusieurs sources d’informations dans un graphe de connaissances global. Cette étape nécessite la structuration et l’enrichissement des données, ainsi que leur alignement pour assurer une cohérence au sein du graphe unifié. L’objectif sera d’obtenir une base de connaissances qui pourra être exploitée pour les recommandations.
Phase 2 : Extraction de sous-graphes pertinents
Pour réduire le bruit et optimiser les performances du modèle, l’étudiant(e) développera une méthode de sampling intelligente pour sélectionner des sous-graphes à la fois suffisamment riches en informations et suffisamment légers pour être traités rapidement. Cette étape nécessitera l’implémentation de techniques de sélection et de réduction de graphes, en tenant compte des caractéristiques structurelles et du contexte de la recommandation.
Phase 3 : Recommandation via un Graph Neural Network (GNN)
La dernière phase consistera à utiliser un réseau de neurones pour graphes pour générer les recommandations finales. L’étudiant(e) implémentera, entraînera et ajustera un GNN sur les sous-graphes extraits, afin de maximiser la pertinence des recommandations tout en maintenant une faible latence de traitement.
3. Compétences Attendues
Connaissances en apprentissage automatique et réseaux de neurones, idéalement sur des structures de graphes (GNN).
Expérience en manipulation et gestion de données structurées et non structurées.
Compétences en programmation : Python, et familiarité avec des bibliothèques telles que PyTorch, TensorFlow ou équivalentes pour les modèles de machine learning.
Notions de graphes de connaissances et de bases de données orientées graphes (RDF, Neo4j, etc.).
Esprit d’analyse et capacité à formuler et tester des hypothèses de recherche.
Capacité de travail en autonomie et en équipe, pour interagir avec les membres du laboratoire SAMOVAR.
4. Documents demandés
Les candidat(e)s intéressé(e)s sont invité(e)s à envoyer leur CV et une lettre de motivation à :
Julien Romero (julien.romero@telecom-sudparis.eu)
Stefania Dumbrava (stefania.dumbrava@ensiie.fr)
Ce stage représente une opportunité unique de contribuer à un projet de recherche innovant et à fort impact au sein de Télécom SudParis et de l’ensIIE, dans un environnement de travail stimulant.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Télécom SudParis, Évry

Document attaché : 202411290917_Offre de Stage de Fin d’Étude de Master – Système de Recommandation Basée sur les Graphes de Connaissances.pdf