Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GeoKIF HELP Musiscale RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
28
Fri
2025
Identification de la sévérité cognitive d’un patient atteint de la maladie d’Alzheimer par apprentissage automatique de données
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire IBISC, Université d’Evry Paris-Saclay
Durée : 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
La détection de signes des pathologies d’Alzheimer qui est une maladie neurodégénérative est une tâche très importante dans un système d’aide au diagnostic médical. En effet, les techniques d’apprentissage automatique offrent aujourd’hui des perspectives pour détecter et identifier des troubles liés à la maladie, évaluer son avancement et à terme pouvoir rééduquer le patient. Dans un premier temps, le candidat fera une étude de l’état de l’art sur les troubles cognitives de la maladie et sur les techniques récentes employées pour reconnaitre la sévérité des patients. Il procèdera ensuite à la mise en place d’un modèle d’apprentissage à partir de bases de données qui permettra l’analyse de ces troubles cognitives conduisant ainsi à la classification et l’identification de la sévérité de la maladie.

[1] Hyun-Soo Choi, Jin Yeong Choe, HanjooKim, Ji Won Han, Yeon Kyung Chi, KayoungKim, Jongwoo Hong, Taehyun Kim, Tae Hui Kim, Sungroh Yoon and Ki Woong Kim. Deep learning based low-cost high-accuracy diagnostic framework for dementia using comprehensive neuropsychological assessment profiles, BMC Geriatrics, 18:234 (2018).

[2] Valeria Manera, Pierre-David Petit, Alexandre Derreumaux, Ivan Orvieto, Matteo Romagnoli, Graham Lyttle, Renaud David, and Philippe H. Robert, ’Kitchen and cooking’, a serious game for mild cognitive impairment and Alzheimer’s disease: a pilot study, Frontiers in Aging Neuroscience, 7: 24, 2015.

[3] Boaz Levy1, Samuel Gable, Elena Tsoy, Nurit Haspel, Brianna Wadler, Rand Wilcox, Courtney Hess, Jacqueline Hogan, Daniel Driscoll and Ardeshir Hashmi. Machine Learning Detection of Cognitive Impairment in Primary Care, Alzheimers Dis Dement, 1(2):38-46, 2017.

[4] Werner P, Rabinowitz S., Klinger E., Korczyn A. D., Josman N., Use of the virtual action planning supermarket for the diagnosis of mild cognitive impairment: a preliminary study, Dement Geriatr Cogn Disord, 27(4):301-9, 2009.

[5] Déborah A. Foloppe, Paul Richard, Takehiko Yamaguchi, Frédérique Etcharry-Bouyx & Philippe Allain, The potential of virtual reality-based training to enhance the functional autonomy of Alzheimer’s disease patients in cooking activities: A single case study, Neuropsychological Rehabilitation, October 2015.

[6] Khalifa Djemal and Hichem Maaref, Intelligent Information Description and Recognition in Biomedical Image Databases, In:Computational Modeling and Simulation of Intellect: Current State and Future Perspectives, Book Edited by Boris Igelnik, pages: 52-80, Publisher IGI Global, ISBN: 978-1-60960-551-3, February 2011.

[7] Florian Maronnat, Margaux Seguin, Khalifa Djemal, Cognitive tasks modelization and description in VR environment for Alzheimer’s disease state identification, in International conference on Image Processing Theory, Tools and Applications (IPTA 2020), November 09-12, 2020, Paris, France.

Profil du candidat :
Master 2 ou équivalent, de préférence des spécialités suivantes :
– Apprentissage automatique (Machine Learning),
– Imagerie Biomédicale
– Informatique Biomédicale,
– Informatique, Réalité Virtuelle et Systèmes Intelligents

Formation et compétences requises :

– Programmation Python, Matlab,
– Machine Learning
– Des connaissances de base en traitement d’images

Adresse d’emploi :
Laboratoire Informatique, Biologie Intégrative et Systèmes Complexes – IBISC 40 rue du Pelvoux, 91020 Evry, France

Document attaché : 202411151746_Sujet-stage-Master2-Djemal-2024-2025.pdf

Inférence de Réseaux à Partir des Données Hétérogènes
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
Bonjour à tous,

Nous avons le plaisir de vous annoncer une offre de stage de 6 mois au laboratoire TETIS à Montpellier, axée sur le problème d’inférence de réseaux à partir des données hétérogènes epidémiologiques en utilisant des méthodes de Graph Neural Networks.

La date de début est prévue pour février 2025 (flexible). Vous trouverez la description détaillée de l’offre en français et en anglais ici :

https://nubes.teledetection.fr/s/mTiDsdxCPHbNid3

Pour toute question, n’hésitez pas à contacter Nejat Arınık (nejat.arinik@univ-artois.fr) ou moi-même (roberto.interdonato@cirad.fr).

Pour candidater, merci d’envoyer un mail à nejat.arinik@univ-artois.fr et roberto.interdonato@cirad.fr avec sujet “CANDIDATURE STAGE MOOD 2025” en ajoutant les éléments suivants:
– lettre de motivation expliquant vos qualifications, expériences et motivation pour ce sujet (1-2 pages)
— curriculum vitae (1-2 pages)
— relevé de notes de 1ère année de master et les notes de 2ème année de master disponibles ou équivalent pour les écoles
d’ingénieurs
— un lien vers des dépôts de projets personnels (par exemple GitHub ou GitLab)
— toute autre information que vous estimerez utile

N’hésitez pas à transmettre ces offres à des étudiants qui pourraient être intéressés.

Cordialement,

Roberto et Nejat
Roberto and Nejat

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
500 rue Jean Francois Breton, Montpellier

Document attaché : 202411151304_Stage – Inférence de Réseaux à Partir des Données Hétérogènes.pdf

Measuring the Environmental Impact of NoSQL Model Transformations on the Cloud
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC@ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2025-02-28

Contexte :
The development of NoSQL solutions on the Cloud is a complex task, and mastering all aspects of optimization is challenging. At the DVRC (the ESILV laboratory), we have developed an approach to help developers measure the impact of their solutions under different dimensions: time, financial, and environmental.

Sujet :
In the context of this research project, we aim to study the impact of data model transformations on environmental costs in the Cloud. A cost model was previously developed in the team, and we intend to use it to better understand the impact of these transformations and create a recommendation system to minimize the carbon footprint of a NoSQL solution.
The first objective of this project will be to familiarize oneself with the cost model and apply it to various benchmarks. The results will be analyzed to study correlations between data models, queries, and data evolution. In the second phase, these results will be used to design a recommendation system to propose data model generation with a low carbon footprint while respecting other dimensions (financial and time costs).
A potential evolution of the subject could involve studying schema evolution as the database state changes, especially in the context of polystores.
This internship includes:
– Study of a cost model specialized in carbon footprint measurement
– Behavioral analysis of NoSQL databases
– Development of an environmental recommendation model

Profil du candidat :
M2 level students (Master or Engineering Schools).

Formation et compétences requises :
Distributed DB, Cost Model, Data Modeling, Carbon footprint measuring, MongoDB

Adresse d’emploi :
DVRC at ESILV at (École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense).

Document attaché : 202411221058_2425_MALI_NoSQL_Mali-Travers.pdf

Modèles et algorithmes basés sur l’IA pour la détection et la prévention des perturbations chez les conducteurs TSA pour une mobilité intelligente et inclusive
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAAS-CNRS
Durée : 6 mois
Contact : nawal.guermouche@laas.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
La montée en puissance de l’intelligence artificielle (IA) permettrait d’offrir des services facilitant l’usage des voitures aux personnes TSA, notamment des véhicules connectés. Un véhicule connecté est doté de capteurs et objets connectés embarqués, permettant d’une part, de collecter des données en temps réel, et d’autre part, d’offrir des services capables d’interagir avec l’environnement (feux rouges, d’autres véhicules connectés. etc.) ainsi qu’avec l’écosystème plus large de la ville intelligente.
Dans le cadre de ce stage et en collaboration avec le Centre d’Études et de Recherches en Psychopathologie et Santé (CERPPS), Université Jean Jaures, nous visons à développer des modèles, des algorithmes, et des outils pour la mise en place d’un système autonome et intelligent dédié à l’accompagnement des personnes TSA dans leur mobilité. En s’appuyant sur l’IoT et l’IA, notamment via les réseaux de neurones profonds couplés aux mécanismes d’attention, ce système devra être capable d’identifier, de caractériser, et de quantifier de manière active et prédictive l’impact des événements routiers sur le conducteur. Cela doit permettre de mettre en place des solutions capables d’anticiper les potentiels impacts sur la cognition et les émotions du conducteur et ainsi l’aider à mener une conduite la plus sereine possible.

Pour atteindre les objectifs de ce stage, les principales étapes sont :
– État de l’art : une revue de littérature sur l’IoT, la mobilité intelligente, l’IA, et les troubles TSA dans le cadre la mobilité routière sera réalisée.
– Étude et analyse des dataset déjà constitués en vue de leur exploitation et enrichissement via la mise en place de nouveaux scénarios en utilisant le simulateur SimulAuto .
– Proposition d’une approche pour l’identification, la quantification, et la visualisation de l’impact des évènements routiers sur l’état cognitif et émotionnel des personnes TSA.
– Implémentation et évaluation de la solution proposée.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LAAS-CNRS, Toulouse, France

Document attaché : 202411220830_Sujet-Stage-Mobilité-Inclusive.pdf

Multi-modal explainable machine learning for exploring consciousness recovery of coma patients
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS
Durée : 6 mois
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
The first objective of this internship is to study and improve multi-modal Machine Learning models, for the fusion of video and EEG but potentially also EKG data, to predict the situations of our healthy control group. Based on our pre-liminary work on multi-modal LSTM and Transformer models, the aim would be to find characteristic patterns and correlations in the data that represent the different emotional or interactive situations, using eXplainable AI (XAI) techniques such as Integrated Gradient or SHAP.
The second objective would be to adapt these models and methods to DOC patients.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
INSA Lyon – LIRIS
7 Avenue Jean Capelle
69621 Villeurbanne

Document attaché : 202411111700_sujet_stage_M2_agoracoma_fusion1.pdf

Optimization of Frequent Pattern Mining for Tourist Behavior Analysis
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : DVRC@ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2025-02-28

Contexte :
Understanding the appreciation of visits made by tourists is a major issue in the tourism sector to anticipate trend evolutions as well as how they move across the territory. One approach to estimating this appreciation is based on the extraction of frequent patterns on a circulation graph, such as Graphlet extraction [1], k-decomposition [2], or cohesive structures like k-plexes [6]. Thus, tourism trends are extracted using their frequency of occurrence in a topological manner.
However, tourism data from experience-recommending platforms such as TripAdvisor or Google Maps results in large data graphs that become challenging to process with traditional data mining techniques. With a large number of places visited (millions) and an enormous number of user comments (billions), it is necessary to develop a new approach for scaling graph-based algorithms.

Sujet :
To this end, within the STARCS axis of DVRC, we have developed an exhaustive and scalable pattern extraction approach on a graph using Pregel [3]. This approach allows us to extract both the pattern topology and node properties, including geodesic information [4, 5, 7]. The extraction has been extended to complex patterns giving interesting perspectives of enhancement. We now wish to take this approach a step further by focusing on optimizing the mining process.
The internship has two main goals:
• Use a topological signature technique to mine patterns in a Neo4j database (in Pregel/Java).
• Improve the method to provide a heuristic adapted to the geodesic context.
Example of aggregated tourist propagation graph across the French territory:
• How can we identify significant propagation patterns?
• What are the characteristics of a pattern?
• Can we extract seasonality from different
groups of patterns?

Profil du candidat :

M2 level students (Master or Engineering Schools).

Formation et compétences requises :
Databases, Data Mining, graph DB (Neo4j, Cypher), Java, parallelism.

Adresse d’emploi :
De Vinci Research Center at ESILV at (École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense).

Document attaché : 202411221055_2425_TRAVERS_GraphMining.pdf

Semi-Automatic Annotation of Conversations in Audio-Visual Documents
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Interdisciplinaire des Sciences du Num
Durée : 5 ou 6 mois
Contact : guinaudeau@limsi.fr
Date limite de publication : 2025-02-28

Contexte :
Most human interactions occur through spoken conversations. If this interaction mode seems so natural and easy for humans, it remains a challenge for spoken language processing models as conversational speech raises critical issues. First, non-verbal information can be essential to understand a message. For example a smiling face and a joyful voice can help detecting irony or humor in a message. Second, visual grounding between participants is often needed during a conversation to integrate posture and body gesture as well as references to the surrounding world. For example, a speaker can talk about an object on a table and refer to it as this object by designing it with her hand. Finally, semantic grounding between participants of a conversation to establish mutual knowledge is essential for communicating with each other.

Sujet :
In this context, the MINERAL project aims to train a multimodal conversation representation model for communicative acts and to study communicative structures of audiovisual conversation.
As part of this project, we are offering a 5- to 6-month internship focused on semi-automatic annotation of conversations in audio-visual documents. The intern’s first task will be to extend the existing annotation ontology for dialog acts, currently available for audio documents (through the Switchboard corpus for example), to incorporate the visual modality. In a second step, the intern will develop an automatic process for transferring annotations to new audiovisual datasets (such as meeting videos and TV series or movies) using transfer or few-shot learning approaches.

Practicalities:
The internship will be funded ~500 euros per month for a duration of 5 or 6 months and will take place at LISN within the LIPS team. This internship can potentially be followed by a funded PhD, based on performance and interest in continuing research in this area.

To apply, please send your CV, a cover letter and your M1 and M2 transcripts (if available) by email to Camille Guinaudeau camille.guinaudeau@universite-paris-saclay.fr and Sahar Ghannay sahar.ghannay@universite-paris-saclay.fr

Profil du candidat :

Formation et compétences requises :
Required Qualifications:
● Master’s degree (M2) in Computer Science or related field.
● Experience with deep learning frameworks such as Keras or PyTorch.
● Knowledge of image processing would be an advantage.

Adresse d’emploi :
LISN – Équipe LIPS
Campus Universitaire bâtiment 507
Rue du Belvédère
91400 Orsay

Document attaché : 202411111659_Stage_MINERAL.pdf

Stage M2 (poursuite en thèse possible) – Machine Learning / Optimisation / Santé – Equipe ORKAD – Lille
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Equipe ORKAD / Laboratoire CRIStAL Lille
Durée : 6 mois
Contact : julie.jacques@univ-lille.fr
Date limite de publication : 2025-02-28

Contexte :
ORKAD est une équipe de recherche du groupe thématique OPTIMA du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille) (UMR CNRS 9189) de l’Université de Lille. L’objectif principal de l’équipe ORKAD est d’exploiter simultanément l’optimisation combinatoire et l’extraction de connaissances pour résoudre des problèmes d’optimisation. Les métaheuristiques ont souvent été utilisées avec succès pour résoudre différentes tâches de machine learning [DhaenensJourdan2022]. En particulier, l’algorithme MOCA-I [Jacques2013-a], permet de classifier des données hétérogènes et mal réparties par méthode d’optimisation, sur des données médicales [Jacques2020]. L’équipe ORKAD a des partenariats avec le CHU de Lille ; notamment dans le cadre du projet européen PATHACOV pour la détection du cancer du poumon à partir de la concentration en composés organiques volatils dans l’air expiré [Hulo2023]. Dans ce stage, nous nous intéressons à l’extension de ces travaux aux données du projet ALCOVE, suite du projet PATHACOV, où l’objectif est de distinguer différentes classes de sujets: sain / malade (avec le stade : I, II, III, IV) ; opérable / non opérable.

Sujet :
Dans le problème de classification multi-label, un enregistrement du jeu de données peut être associé à plusieurs labels : par exemple « cancer du poumon » et « opérable ». Des approches à base de métaheuristiques ont été proposées par le passé pour gérer ce problème, comme par exemple les colonies de fourmis [Otero2010]. La classification multi-label est souvent associée à une répartition déséquilibrée des différents labels à prédire [Tarekegn2021] et une des spécificités de l’algorithme MOCA-I est justement sa capacité à gérer ce déséquilibre [Jacques2013-a]. Dans MOCA-I, la modélisation est adaptée pour la classification binaire partielle (représentation de la solution, opérateurs d’initialisation et de voisinage,…). L’objectif de ce stage est de proposer une nouvelle représentation et opérateurs adaptés au problème de classification multi-label. Des méthodes de configuration automatique d’algorithmes comme irace [López-Ibáñez2016] seront utilisées pour identifier si les nouveaux opérateurs et stratégies proposés sont efficaces sur les benchmarks sélectionnés.

Profil du candidat :
Programmation Objet (Python ou C++) ; Connaissances en machine learning
Des connaissances en C++ et recherche opérationnelle, optimisation combinatoire seraient un plus.

Formation et compétences requises :
M2 en informatique

Adresse d’emploi :
Lieu : Laboratoire CRISTAL, Equipe ORKAD (Université de Lille, France)

Document attaché : 202411141558_Sujet_stage_M2.pdf

Mar
1
Sat
2025
Adaptive optics control and learning
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Centre Astrophysique de Lyon
Durée : 5 months
Contact : eric.thiebaut@univ-lyon1.fr
Date limite de publication : 2025-03-01

Contexte :

Sujet :
Internship supervisors: Eric Thiébaut, Michel Tallon
@ : eric.thiebaut@univ-lyon1.fr, mtallon@obs.univ-lyon1.fr

Address/Workplace: CRAL – site Charles André : 9 avenue C. André, St Genis Laval

Hosting research team: AIRI

Internship title: Adaptive optics control and learning

Summary of proposed work:

Context: Adaptive optics (AO) systems are used by most if not all current large telescopes to counteract the effects of the turbulence on the image quality and achieve diffraction limited angular resolution (i.e. λ/D). AO systems work by sensing the wavefront after its correction by a deformable mirror whose shape is controlled considering the departure of the measured wavefront to the ideal one (e.g. a flat wavefront). The AiRi team at CRAL is leading a project, UPCAO (funded by the French ANR), targeted at developing better algorithms and methods to control in real time (i.e. faster than 1,000 times per second) the shape of the wavefront given measurements by a wavefront sensor (WFS). The objective is to provide optimal wavefront correction under varying observing conditions for the THEMIS AO system, for SAXO+, and for future AO systems on ELTs. There are several ideas to improve current AO control systems: (i) improve the model of the AO system, (ii) account for the variable and uneven quality of the WFS measurements notably the fact that not all measures are always valid, and (iii) account for the spatio-temporal statistics of the turbulence to anticipate its evolution and reduce the effects of the delay between the times of measurements and of the correction by the mirror.

Research directions:
Modeling the AO system: To compute the wavefront correction, AO real time controllers assume a model of the behavior of the components of the AO system notably the wavefront sensor (WFS) and the deformable mirror (DM). Intuitively, the closer the model to reality the better the correction. The behavior of the instrument may be complicated (non-linear) and depends on the operating conditions. It is thus important to develop flexible models whose parameters can be calibrated and updated while the AO system is running (in closed-loop). We are currently considering affine approximations of the possibly non-linear behavior of the system that can be calibrated in real-time by a perturbative method. Another possibility to investigate is to exploit deep learning to automatically build the structure of a general non-linear model and to learn its parameters in real-time.
Wavefront reconstruction: For a linear wavefront sensor (WFS), the reconstruction of the wavefront shape given the measurements and accounting for their uneven quality amounts to solving an inverse problem which has a closed-form solution. For large systems, this solution may be computed in real-time by means of accelerated iterative methods [1]. For new non-linear WFS, fast reconstruction methods compatible with the constraints of real-time have to be developed and AI based methods are emerging as competitive candidates.
Modeling and learning the spatio-temporal behavior of the turbulence: Prediction of the temporal evolution of the wavefront is the key to compensate for the delay between the acquisition of wavefront sensor (WFS) measurements and the time at which the shape of the deformable mirror (DM) can effectively account for these measurements. We are developing a fast approximation of the covariance [2] that can be exploited to learn and apply the spatio-temporal statistics of the wavefront. Another possibility is to develop AI based methods.

[1] Béchet+, “Comparison of minimum-norm maximum likelihood and maximum a posteriori wavefront reconstructions for large adaptive optics systems’’ in J. Opt. Soc. Am. A, 26, 497-508 (2009) https://doi.org/10.1364/JOSAA.26.000497
[2] Thiébaut+, “Beyond FRiM, ASAP: a family of sparse approximation for covariance matrices and preconditioners.” Adaptive Optics Systems VIII. Vol. 12185. SPIE, 2022, https://arxiv.org/pdf/2311.17721

Nature of the financial support for the internship: Labex LIO or team funding

Potential for a follow-up as a PhD thesis: Yes

Profil du candidat :
Background in signal processing, numerical methods or related fields.

Formation et compétences requises :

Adresse d’emploi :
Centre de Recherche Astrophysique de Lyon
9 avenue Charles André
69230 Saint-Genis-Laval

Document attaché : 202411181118_FicheStage_CRAL_2024_AIRI_Thiebaut.pdf

DADY : un modèle fondation de réseau de neurones pour l’observation aérienne time-lapse de systèmes agroécologiques au Sud
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-03-01

Contexte :
Le projet DeepAeroDynamics (DADY) vise à combiner l’imagerie drone multispectrale time-lapse et
le deep learning pour faire face aux défis du changement climatique et de la sécurité alimentaire dans les
pays du Sud. L’objectif est de développer un modèle fondation capable d’intégrer les données
multispectrales, spatiales et temporelles observées par drone aérien dans des environnements complexes
et hétérogènes du Sud dans le but d’anticiper et prédire le comportement de plantes cultivées en
agroécologie (Sahel, Madagascar, Guadeloupe).

Sujet :
Le stagiaire sera au coeur du développement d’une architecture deep learning permettant :
* D’analyser des séries temporelles multispectrales d’imagerie drone, et extraire automatiquement
des représentations informatives de l’état des systèmes observés.
* D’analyser les dynamiques temporelles en utilisant des modèles de type Transformers pour
capturer les évolutions des cultures décrites dans un espace latent.
* De maximiser l’utilisation des données par des techniques d’apprentissage semi-supervisées et
des consignes prétextes pour maximiser la capacité d’apprentissage de l’architecture fondation.

Le développement des modèles s’appuiera sur des architectures CNN et Transformers. L’approche sera
validée sur des jeux de données déjà acquis et stockés à proximité d’un supercalculateur. Les tests de
niveau 1 s’effectueront sur une ferme GPU locale, et les modèles de niveau 2 seront testés sur les
supercalculateurs Jean Zay et Adastra (20e mondial au TOP500). Les modèles seront documentés et diffusés
en open-source, accompagnés de scripts pour le fine-tuning.

Profil du candidat :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en deep learning. Travail
avec Python, Pytorch/Tensorflow, Github, Intégration Continue.

Formation et compétences requises :
Expérience en traitement d’images.
Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.

Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€
mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av.
Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202502121716_Offre de stage M2 – 2025 – DADY.pdf

DADY : un modèle fondation de réseau de neurones pour l’observation aérienne time-lapse de systèmes agroécologiques au Sud
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2025-03-01

Contexte :
Le projet DeepAeroDynamics (DADY) vise à combiner l’imagerie drone multispectrale time-lapse et le deep learning pour faire face aux défis du changement climatique et de la sécurité alimentaire dans les pays du Sud. L’objectif est de développer un modèle fondation capable d’intégrer les données multispectrales, spatiales et temporelles observées par drone aérien dans des environnements complexes et hétérogènes du Sud dans le but d’anticiper et prédire le comportement de plantes cultivées en
agroécologie (Sahel, Madagascar, Guadeloupe).

Sujet :
Le stagiaire sera au coeur du développement d’une architecture deep learning permettant :
● D’analyser des séries temporelles multispectrales d’imagerie drone, et extraire automatiquement des représentations informatives de l’état des systèmes observés.
●D’analyser les dynamiques temporelles en utilisant des modèles de type Transformers pour capturer les évolutions des cultures décrites dans un espace latent.
●De maximiser l’utilisation des données par des techniques d’apprentissage semi-supervisées et des consignes prétextes pour maximiser la capacité d’apprentissage de l’architecture fondation.

Le développement des modèles s’appuiera sur des architectures CNN et Transformers. L’approche sera validée sur des jeux de données déjà acquis et stockés à proximité d’un supercalculateur. Les tests de niveau 1 s’effectueront sur une ferme GPU locale, et les modèles de niveau 2 seront testés sur les supercalculateurs Jean Zay et Adastra (20e mondial au TOP500). Les modèles seront documentés et diffusés
en open-source, accompagnés de scripts pour le fine-tuning.

Profil du candidat :
Capacité à travailler en équipe dans un environnement mêlant informatique, biologie et agroécologie.

Formation et compétences requises :
Étudiant·e en Master 2 ou école d’ingénieur avec spécialisation en deep learning. Travail avec Python, Pytorch/Tensorflow, Github, Intégration Continue. Expérience en traitement d’images.

Adresse d’emploi :
La rémunération selon barème légal des stages sera de 600€
mensuel, avec accès à la restauration collective le midi. Le stage aura lieu au Cirad de Montpellier, 389 Av.
Agropolis, 34980 Montferrier-sur-Lez.

Document attaché : 202412041713_Offre de stage M2 – 2025 – DADY.pdf

Detection and Localization Of Volcanic Fissures in Interferograms Using AI
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : yajing.yan@univ-smb.fr
Date limite de publication : 2025-03-01

Contexte :
Satellite radar interferometry, more commonly known as InSAR,
provides precise displacement measurements over vast land
areas. The availability of satellite constellations and frequent
revisit times make it a crucial source of information for
monitoring volcanic activity. Understanding and
modeling a volcanic eruption are critical steps in decision-
making when dealing with such geological phenomena. The
opening of a dyke (volcanic vein) or a fissure, as
well as its initial geometry, depends on several factors, including
the pressures exerted and the mechanical properties of the
ground.

Volcanic fissures do not have a simple, flat geometry; they
narrow and widen, flare, branch, and stratify. Furthermore,
their width and shape can also change during an eruption
depending on various geological configurations.
The identification of volcanic fissures is therefore particularly
important for accurate volcanic modeling. However, this task is
currently performed manually based on in-situ observations. However, with the continuous increase in the
amount of available SAR data, there is a growing need for
advanced methods to effectively automate this detection
process. Surface deformation detection in interferograms is a
well-studied topic in the literature, whereas fissure
detection has not received the same level of attention. The Piton
de la Fournaise on the island of Réunion is the subject of
extensive monitoring and has a database spanning 24 years. Preliminary results obtained by our team on
this volcano have demonstrated the feasibility of detecting
fissures in the interferograms. Using classical methods, we
successfully detected the presence or absence of a fissure within the interferograms from a dozen different satellites. However, the mere presence or absence of a fissure is far from sufficient for analyzing the geological mechanisms associated with the volcano, and further work is needed to obtain precise locations of these fissures.

Sujet :
The objective of this project is to detect and localize volcanic
fissures in satellite radar interferograms using artificial
intelligence techniques and skeleton-based geometry
recognition. Several types of satellites pass over the Piton de la
Fournaise enclosure, allowing for regular and
continuous observation. However, each sensor has its own
characteristics, including mandated revisit times, operational
costs (free or paid), as well as different observation angles and
pass directions. One of the initial hypotheses is that the
localization of fissures follows a logical pattern depending on
the type of InSAR source and the spatial area around the
eruptive cone. The second hypothesis explores the similarity
between the structure of volcanic fissures and that of skeletons,
like action recognition based on skeletal data extracted from
photographs. Action recognition from skeletons is a task that
involves recognizing human actions from a sequence of point
data on joints captured by specific sensors. In our project, the
approach is reversed: given the eruptive attributes and the
InSAR data, we aim to recognize the fissure and associate it with
a geometric shape, regardless of the type of satellite and its field
of view.

For more details, please see the attached file.

Profil du candidat :

Formation et compétences requises :
The candidate should have knowledge and skills in machine
learning and AI programming (Python). Experience in remote
sensing and volcanic geophysics would be highly valued,
particularly concerning the analysis of InSAR data.

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, CS80439, 74944, Annecy-le-Vieux

Document attaché : 202412050746_Internship LISTIC 2025 – Fissures.pdf

Direct detection and characterization of exoplanets: statistical learning, multi-epoch and multi-spectral data fusion
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Centre Astrophysique de Lyon
Durée : 5 months
Contact : olivier.flasseur@univ-lyon1.fr
Date limite de publication : 2025-03-01

Contexte :

Sujet :
Internship supervisors: Olivier Flasseur, Eric Thiébaut, Maud Langlois
@ : olivier.flasseur@univ-lyon1.fr, eric.thiebaut@univ-lyon1.fr, maud.langlois@univ-lyon1.fr

Address/Workplace: CRAL – site Charles André : 9 avenue C. André, St Genis Laval

Hosting research team: AIRI

Internship title: Direct detection and characterization of exoplanets: statistical learning, multi-epoch and multi-spectral data fusion

Summary of proposed work:

Context: The direct observation of the close environment of stars can reveal the presence of exoplanets and circumstellar disks, providing crucial information for a better understanding of planetary system formation, evolution, and diversity. Given the very small angular separation with respect to the host star and the huge contrast between the (bright) star and the (faint) exoplanets and disks, imaging the immediate vicinity of a star is extremely challenging. In addition to the use of extreme adaptive optics and a coronagraph, dedicated post-processing methods combining images recorded with the pupil tracking mode of the telescope are needed to efficiently suppress the nuisance component (speckles and noise) corrupting the signals of interest.
Beyond optimal post-processing of individual observations, fusing multiple observations of the same star taken over different epochs can significantly improve the detection sensitivity. The key challenge in this approach lies in accounting for both the nuisance statistics and the orbital motion of the exoplanet across epochs. To address this, the PACOME algorithm (for PACO Multi-Epoch; [1]) has been recently introduced. PACOME leverages statistical modeling of the nuisance component and its correlations at the local scale within a small pixel patch. This approach is inherited from the PACO algorithm, specifically designed for exoplanet detection from individual (mono-epoch) dataset of observations. The by-products of PACO from each epoch provide sufficient statistics that can be optimally combined using PACOME, while efficiently exploring the Keplerian motion of exoplanets. This multi-epoch strategy yields a combined detection score that is directly interpretable as a measure of detection confidence. In addition to improving sensitivity, PACOME enables the estimation of orbital parameters, along with their joint and marginal distributions. Although PACOME achieves state-of-the-art performance, there remains room for improvement, especially near the star. Here, the assumption of a local-scale statistical description of the nuisance component overlooks larger-scale spatial correlations, thus limiting the method’s detection sensitivity.
In this context, data science developments are decisive to improve the detection sensitivity of exoplanets and the accuracy of the estimation of their orbit.

Research directions: This project will build on recent advancements in modeling the nuisance component that corrupts high-contrast total intensity observations. The focus will be on improving exoplanet detection and characterization. Possible research directions include:
1/ Modeling large-scale nuisance correlations: To address the limitations discussed, the goal is to integrate a more refined modeling of the nuisance component within multi-epoch detection algorithms. This can be achieved using the ASAP approach [2], which approximates the precision matrix (i.e., inverse of the covariance matrix) with a structured, sparse model that may better capture large-scale correlations compared to PACO.
2/ Joint spatio-spectral modeling of large-scale correlations: Building on point 1/, the objective is to develop a joint spatio-spectral model of the nuisance that accounts for large-scale correlations across both spatial and spectral dimensions.

Data: The project will focus on developing / improving new processing algorithms using spectroscopic total intensity observations (i.e., spatio-temporal-spectral data recorded with an Integral Field Spectrograph) from the SPHERE instrument, currently operating on the Very Large Telescope (VLT). Several multi-epochs observations are available to both ground the performance of the proposed algorithm and to search for new exoplanets!
Once a proof of concept is established, simulations for HARMONI, one of the first-light instruments of the upcoming Extremely Large Telescope (ELT), may be considered. In this case, the algorithm will be adapted to account for HARMONI’s specific features, particularly its higher spectral resolution. Achieving the required contrast with this instrument will require extended total exposure times on a single star, making a multi-epoch strategy indispensable.

Bibliography:
[1] Dallant+, “PACOME: Optimal multi-epoch combination of direct imaging observations for joint exoplanet detection and orbit estimation.” Astronomy & Astrophysics, 679, A38, 2023, https://arxiv.org/pdf/2309.08679
[2] Thiébaut+, “Beyond FRiM, ASAP: a family of sparse approximation for covariance matrices and preconditioners.” Adaptive Optics Systems VIII. Vol. 12185. SPIE, 2022, https://arxiv.org/pdf/2311.17721

Nature of the financial support for the internship: Labex LIO or team funding

Potential for a follow-up as a PhD thesis: Yes

Profil du candidat :
Background in signal processing, numerical methods or related fields.

Formation et compétences requises :

Adresse d’emploi :
Centre Astrophysique de Lyon
9 avenue Charles André
69230 Saint-Genis-Laval

Document attaché : 202411181114_FicheStage_CRAL_2024_AIRI_Flasseur-1.pdf

Few-Shot Learning of Wheel Patterns for Matching Relief-Printed Decorations on Medieval Ceramic Sherds
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PRISME laboratory
Durée : 5 – 6 months
Contact : yassine.nasser@univ-orleans.fr
Date limite de publication : 2025-03-01

Contexte :
Archaeologists often face challenges in matching the relief-printed patterns found on ceramic sherds discovered during excavations. Identifying sherds created with the same patterning tool (wheel) plays a crucial role in understanding ancient trade networks and provides valuable insights into past civilizations. Traditional methods involve manually stamping the motifs followed by a meticulous visual analysis to verify if these patterns were produced by the same wheel, a process that is not only time-consuming but also labor-intensive. Recent advances in artificial intelligence present a unique opportunity to revolutionize fields like archaeology by automating recognition processes, thereby accelerating discoveries and improving analysis precision.
This internship is a continuation of the PRIA REMIA research project (Pattern Recognition through Artificial Intelligence), developed in partnership between the PRISME laboratory, LIFO, and the Archaeological Service of the City of Orléans. In this context, we aim to develop an automated/intelligent system to assist archaeologists in identifying relief-printed decorations on medieval ceramic shards.

Sujet :
Internship Objectives :
In this context, the internship aims to build on previous work in preprocessing and segmentation by proposing innovative approaches. The primary tasks will focus on:
 – Exploring state-of-the-art methods in few-shot learning, similarity learning, deep clustering, and texture transformer models.
 – Developing a novel method for identifying and clustering ceramic sherds decorated with the same wheel.
 – Integrating the developed solution into the existing system.
 – Drafting documentation for the developed solution.

Profil du candidat :
Required degree level: Bachelor’s + 4 or equivalent
Preferred degree: Master’s in IA, mathematics, applied mathematics, or computer science, or equivalent, with a strong motivation for applied research.

Formation et compétences requises :
Required Skills
 – Strong programming skills in Python, including proficiency with deep learning and machine learning frameworks (e.g., PyTorch, TensorFlow, Scikit-learn).
 – Familiarity with Deep Learning & Computer Vision, including Vision Transformers, Contrastive Learning, Similarity Learning, Clustering, and Texture Analysis.
 – Solid understanding of mathematics, especially in linear algebra and optimization.
 – Strong analytical, modeling, and writing skills.

Adresse d’emploi :
Polytech Orléans, 12 rue de Blois 45100 Orléans, France

Document attaché : 202412051055_M2 Internship 2024-2025 .pdf

IA contrainte par la physique pour la modélisation en sciences naturelles
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : yajing.yan@univ-smb.fr
Date limite de publication : 2025-03-01

Contexte :

Sujet :
En sciences naturelles, la modélisation des phénomènes physiques constitue un sujet difficile. Les formules existantes ne suffisent parfois pas à représenter adéquatement les mécanismes complexes (notamment ceux non observables). Il arrive également que ces formules existantes ne correspondent pas parfaitement aux observations issues de données. Ces
problèmes ont été rencontrés par exemple dans les suivis de la concentration des polluants, des étalements de végétation, et des coulées de lave. Dans ce stage, nous nous concentrons
sur la modélisation volcanique. En volcanologie, les scientifiques disposent des mesures de déplacements en surface induits par une source volcanique en profondeur et utilisent ces
mesures pour estimer les paramètres physiques d’un modèle volcanique. Dans un premier temps, nous partons d’un modèle simple sous forme d’une expression analytique, le modèle Mogi. Dans ce modèle le déplacement en surface est directement
induit par un changement rapide du volume de la chambre magmatique qui se situe à une profondeur donnée. Dans ce modèle, les deux paramètres clés sont la variation du volume et
la profondeur de la chambre magmatique. L’objectif du stage consiste à utiliser les méthodes de régression symbolique pour affiner le modèle Mogi car il reste une vision simplifiée de la
physique sous-jacente. La régression symbolique devrait alors permettre d’affiner ce modèle directement à partir des données. La pertinence de l’approche et la sensibilité de la modélisation à la variété de l’activité volcanique sur différents sites volcaniques pourront être mesurées et comparées au modèle Mogi original. En s’appuyant sur des travaux basés sur l’IA classique développés au laboratoire sur l’inversion de modèles géophysiques, 3 types de données sont disponibles pour créer un cadre expérimental et de validation : 1) déplacements simulés à partir du modèle Mogi 2) déplacements simulés plus un bruit ajouté 3) déplacements réels sur des volcans africains. Cette étude sera étendue à un modèle volcanique plus sophistiqué, par exemple, le modèle Okada qui décrit le mécanisme de fonctionnement d’un volcan avec plus de paramètres et s’appuyant sur des équations différentielles.

Références :
– Tenachi, W., et al. (2023). Physical Symbolic Optimization. arXiv:2312.03612.
– Albino, F., & Biggs, J. (2021). Magmatic processes in the East African Rift system: insights from a 2015–2020 Sentinel‐1 InSAR survey. Geochemistry, Geophysics, Geosystems, 22(3), e2020GC009488.
– Dzurisin, D. (2007), Volcano Deformation: Geodetic Monitoring Techniques. Mogi, K. (1958), Bull. Earthq. Inst. U. Tokyo, 36, 99‐134
– Lopez-Uroz L, Yan Y., Benoit A., Albino F., Bouygues P., Giffard-Roisin S., Pinel V., Exploring Deep Learning for Volcanic Source Inversion, IEEE Transactions on Geosciences & Remote Sensing.
– Petersen, B. K., et al. (2019). Deep symbolic regression: Recovering mathematical expressions from data via risk-seeking policy gradients. arXiv:1912.04871.

Merci de nous envoyer un CV et une lettre de motivation, idéalement accompagnés des relevés de notes de M1, M2 (ou Bac+4 et Bac+5).

Profil du candidat :

Formation et compétences requises :
Machine learning, Python programming

Adresse d’emploi :
LISTIC, 5 chemin de bellevue, CS80439, 74944, Annecy-le-Vieux

Master thesis/Engineer internship – Machine learning for time series prediction in environmental sciences
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT Université de Tours
Durée : up to 6 Months
Contact : nicolas.ragot@univ-tours.fr
Date limite de publication : 2025-03-01

Contexte :
The JUNON project, driven by the BRGM, is granted from the Centre-Val de Loire region through ARD program (« Ambition Recherche Développement ») which goal is to develop a research & innovation pole around environmental resources (agriculture, forest, waters…). The main goal of JUNON is to elaborate digital services through large scale digital twins in order to improve the monitoring, understanding and prediction of environmental resources evolution and phenomena, for a better management of natural resources. Digital twins will allow to virtually reproduce natural processes and phenomena using combination of AI and environmental tools.
JUNON will focus on the elaboration of digital twins concerning quality and quantity of ground waters, as well as emissions of greenhouse gases and pollutants with health effects, at the scale of geographical area corresponding to the North part of the Centre-Val-de-Loire region.

Sujet :
The Master Thesis/internship position will be focused on the prediction of water resources and pollutants in the air.
The goal will be to benchmark state of the art time series approaches and to propose new methods adapted to the specificities of the environmental data studied (multivariate time series). The benchmark on water resources relies on complex data with different seasonality and frequencies. Forecasting must be from short term to long term predictions. Regarding air pollutants, the benchmark is still to be elaborated.

Profil du candidat :
Academic level equivalent to a Master 2 in progress or Engineer in its last year in computer science

Formation et compétences requises :
– a good experience in data analysis and machine learning (in python) is required
– some knowledge and experiences in deep learning and associated tools is required
– some knowledge in time series analysis and forecasting will be highly considered
– curiosity and ability to communicate and share your progress and to make written reports and presentations
– ability to propose solutions
– autonomy and good organization skills

Adresse d’emploi :
Computer Science Lab of the Université de Tours (LIFAT), Pattern Recognition and Image Analysis Group (RFAI)
64 av. Jean Portalis
37200 Tours

Document attaché : 202412060859_Fiche de poste stage Junon.pdf

Modèle de langue à base de connaissance experte pour l’extraction d’information médicale à partir de données non structurées.
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : TIDS/– — –

Laboratoire/Entreprise : Institut de Recherche en Informatique de Toulouse
Durée : 5-6 mois
Contact : yohann.chasseray@irit.fr
Date limite de publication : 2025-03-01

Contexte :
Le stage sera réalisé au sein de l’équipe SIG, dans le département Gestion de Données de l’Institut de Recherche en Informatique de Toulouse (IRIT). L’IRIT est un laboratoire de recherche constitué de chercheurs en informatique, développant notamment des travaux autour du traitement automatique du langage, de la gestion des données, des connaissances et de l’extraction d’informations.
Le stage sera localisé sur le Campus de Castres, dans les locaux de l’école d’ingénieurs ISIS, qui forme des ingénieurs en informatique dans le domaine de la santé numérique. Des déplacements à Toulouse dans les locaux de l’IRIT sont à prévoir.

Sujet :
Les grands modèles de langue qui n’ont de cesse de se perfectionner représentent un outil puissant pour la compréhension fine des connaissances dans un contexte général mais également de manière plus spécialisée, dans des domaines métier spécifiques comme celui de la santé médicale. Notamment, les grands modèles de langue (LLMs) constituent une base solide pour la détection d’entités nommées (NER) ou de relation (RE) qui sont des tâches majeures pour le traitement des données médicales.
L’objectif de ce stage est donc de proposer des méthodes d’extraction d’entités nommées s’appuyant à la fois sur les LLMs (Phi-3 [1], BERT [2]) et sur des ontologies médicales (SNOMED CT [3], UMLS [4]), qui renferment des informations sémantiques précises sur les entités et relations recherchées. Pour cela, deux approches sont envisagées, s’appuyant toutes les deux sur les grands modèles de langues :
(A) Une approche qui utilise le contexte, permettant de guider un modèle de langue génératif en sélectionnant les types d’entités les plus pertinents dans une ontologie pour l’extraction d’entités nommées ou de relations.
(B) Une approche plus intégrée, visant cette fois à inclure directement la représentation ontologique au cours d’une étape de fine-tuning d’un modèle de langue et à interroger directement le modèle, sans fournir de contexte préalable.
En fonction des avancées, les résultats pourront faire l’objet d’une soumission à la conférence CLEF 2025 (https://clef2025.clef-initiative.eu/).

Profil du candidat :
Etudiant(e) en formation de niveau Bac+4/5, avec une spécialisation en Informatique ou Data Science et présentant des compétences en analyse, traitement et représentation de données.

Formation et compétences requises :
Les compétences suivantes seront fortement appréciées pour mener à bien les missions associées au sujet de stage :
• Bonnes connaissances en programmation (Python) et traitement automatique du langage.
• Connaissances de base sur les ontologies et bases de connaissances.
• Familiarités avec les modèles d’apprentissage automatique en général et le modèle transformer en particulier.

Adresse d’emploi :
Campus Universitaire, Rue Firmin Oulès, 81104 Castres
yohann.chasseray@irit.fr

Document attaché : 202501051355_Offre_de_stage_ISIS_IRIT.pdf

Predictive Safety Shields for Reinforcement Learning Based Controllers
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : U2IS, Ensta Paris
Durée : 6 months
Contact : elena.vanneaux@ensta-paris.fr
Date limite de publication : 2025-03-01

Contexte :

Sujet :
Context Reinforcement learning (RL) has been widely adopted in robotics for its ability to learn from
interaction with the environment through feedback. It enables robots to adapt to environmental changes
and optimize their behavior according to performance criteria not known in advance [6]. However, to use
RL-based controllers for safety-critical tasks, one should also ensure that nothing ”bad” occurs during the
training and deployment of RL agents. Indeed, autonomous vehicles should never drive off the highway,
robotic prostheses should never force their users’ joints past their range of motion, and drones should
never fall out of the sky. The vulnerability of standard RL-based controllers to failures has spurred
significant growth in research on safe RL in the past decade [2].
In this internship, we will focus on provably safe RL, that provides hard safety guarantees for both
training and operation [7]. Provably safe RL approaches can be categorized into preemptive and postposed shielding [1]. In the preemptive method, the agent can only choose from actions that have been
a priori verified as safe. However, if a preemptive shield is too conservative, i.e., it identifies only a
few actions from the action space as safe, the agent’s capabilities for exploring the environment are
significantly reduced, which can lead to lower overall performance [3]. In post-posed shielding, the
safety filter monitors the RL agent behavior. If the agent wants to take an unsafe action, the shield
replaces it with a fallback strategy. Post-posed shields are usually more computationally efficient than
preemptive. Also, they are often easier to use in dynamic environments, which we want to investigate in
this internship. Still, in dangerous scenarios, a shield forces the system to use a predetermined safe but
likely sub-optimal policy [1]. Hence, while guaranteeing safety, shielding often contradicts task efficiency.
This internship aims to balance safety and performance by developing provably safe RL algorithms with
the agent’s guaranteed near-optimal behavior.
In our proof-of-concept work [5], we propose a predictive safety shield for model-based reinforcement learning agents in discrete space. The safety shield updates the Q-function locally based on safe
predictions, which originate from a safe simulation of the environment model. This shielding approach
improves performance while maintaining hard safety guarantees. Our experiments on grid-world environments demonstrate that even short prediction horizons can be sufficient to identify the optimal path.
We observe that our approach is robust to distribution shifts, e.g., between simulation and reality, without requiring additional training. This internship aims to extend the proposed approach to dynamically
changing environments [4].

Goals The goals of the internship consist of
• exploring the state-of-the-art safety shields for reinforcement learning algorithms
• proposing a shield that ensures safe behavior in dynamically changing environments.
• testing the proposed approach in GridWorld and PacMan environments

References
[1] Mohammed Alshiekh, Roderick Bloem, R¨udiger Ehlers, Bettina K¨onighofer, Scott Niekum, and Ufuk
Topcu. Safe reinforcement learning via shielding. Proceedings of the AAAI Conference on Artificial
Intelligence, 32, 08 2017.
[2] Lukas Brunke, Melissa Greeff, Adam W. Hall, Zhaocong Yuan, Siqi Zhou, Jacopo Panerati, and
Angela P. Schoellig. Safe learning in robotics: From learning-based control to safe reinforcement
learning. Annual Review of Control, Robotics, and Autonomous Systems, 5(1):411–444, 2022.
[3] Kai-Chieh Hsu, Haimin Hu, and Jaime F. Fisac. The safety filter: A unified view of safety-critical
control in autonomous systems. Annual Review of Control, Robotics, and Autonomous Systems,
7(1):47–72, July 2024.
[4] Nils Jansen, Bettina K¨onighofer, Sebastian Junges, Alex Serban, and Roderick Bloem. Safe reinforcement learning using probabilistic shields (invited paper). Schloss Dagstuhl – Leibniz-Zentrum
f¨ur Informatik, 2020.
[5] Pin Jin. A safety filter for rl algorithms based on a game-theoretic mpc approach, 2024. PRE –
Research Project, ENSTA.
[6] Jens Kober and Jan Peters. Reinforcement Learning in Robotics: A Survey, pages 9–67. Springer
International Publishing, Cham, 2014.
[7] Hanna Krasowski, Jakob Thumm, Marlon M¨uller, Lukas Sch¨afer, Xiao Wang, and Matthias Althoff.
Provably safe reinforcement learning: Conceptual analysis, survey, and benchmarking. Transactions
on Machine Learning Research, 2023. Survey Certification.

Profil du candidat :

Formation et compétences requises :
Profile of a candidate. For this position, you should meet the following requirements:
• enrollment in a Master’s program or equivalent in computer science, applied mathematics science,
engineering, or related disciplines;
• rigorous knowledge in formal verification, control design, and reinforcement learning;
• excellent programming skills (Python);
• proficiency in spoken and written English;
The candidate will have to submit the documents following:
• a cover letter;
• a resume;
• a copy of diplomas, bachelor’s and master’s degree transcripts.
In case of a successful internship, a Ph.D. offer in ENSTA Paris might be proposed.

Adresse d’emploi :
828 Bd des Maréchaux, 91120 Palaiseau

Document attaché : 202412061053_Safety_for_AI__M2.pdf

Stage M2 – Change point detection in temporal graphs
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC – Univ-Littoral
Durée : 6 months
Contact : esteban.bautista@univ-littoral.fr
Date limite de publication : 2025-03-01

Contexte :
Temporal graphs, representing interactions over time, are crucial for analyzing datasets in areas like Industry 4.0, cybersecurity, and social networks. Temporal graphs often exhibit periods of distinct activity regimes, making change point (CP) detection vital for tasks such as fault detection and prediction. However, the sparsity and irregularity of real-world temporal graphs make CP detection highly challenging, as current algorithms struggle to extract accurate patterns.

Sujet :
The internship aims to build upon recent works that allow to transform temporal graphs upon a spectral domain where comparing different periods of a temporal graph is easier. Yet such transform relies on the choose of graph and signal dictionaries that must be properly chosen to attain satisfactory detection accuracy. For signal dictionaries, we aim to compare different choices, like Haar, Walsh, and Boolean-based dictionaries, which are adapted to the binary and sparse nature of temporal graphs. For graph dictionaries, we aim to build custom dictionaries with user-defined motifs.

Profil du candidat :
This internship is directed at students with various backgrounds (computer science, data science, signal processing,
complex systems) but with a strong interest in data science and graphs. Interest in the theoretical aspects of machine learning and in Python development will a plus.

Formation et compétences requises :
Ing3 or M2 students

Adresse d’emploi :
Saint Omer, France

Document attaché : 202412060909_Data2Laws___M2_Internship.pdf

Stage M2 – Machine Learning Framework for Temporal Graph Exploration
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC – ULCO
Durée : 6 mois
Contact : esteban.bautista-ruiz@lip6.fr
Date limite de publication : 2025-03-01

Contexte :
Dans les systèmes de transport avec trajets programmés (trains, avions, bus, etc.), des questions fondamentales se posent : existe-t-il un itinéraire permettant de visiter tous les arrêts ? Quel est le plus rapide ? Comment maximiser le nombre de lieux visités dans un temps limité ? Ces problématiques relèvent du Temporal Graph Exploration Problem (TEXP), qui consiste à trouver un chemin temporel permettant de visiter tous les sommets d’un graphe aussi vite que possible. Bien que crucial pour la logistique, la cybersécurité ou la détection de fraudes, le TEXP est un problème NP-difficile, ce qui rend le calcul de solutions exactes impraticable pour de grands graphes.

Des algorithmes heuristiques et d’approximation existent pour résoudre le TEXP, mais ils ont du mal à trouver un bon compromis entre vitesse et qualité des solutions. Les Graph Neural Networks (GNNs) se sont montrés efficaces pour résoudre des problèmes combinatoires sur des graphes statiques, et des versions plus récentes permettent maintenant de gérer les graphes temporels. Pourtant, ces outils n’ont pas encore été utilisés pour aborder le TEXP.

Sujet :
Nous visons à aborder le problème TEXP sous l’angle de l’apprentissage automatique en nous appuyant sur un cadre récent non supervisé pour l’optimisation combinatoire. Plus précisément, nous cherchons à (1) exploiter ce cadre pour concevoir une fonction de perte, basée sur la méthode probabiliste d’Erdős, qui optimise les parcours respectant les contraintes temporelles ; et (2) explorer des architectures récentes qui font l’embedding des parcours temporels, offrant un biais plus adapté au TEXP que les GNN classiques.

Profil du candidat :
Étudiants en informatique, science des données, recherche opérationnelle, ou systèmes complexes, ayant un fort intérêt pour l’optimisation combinatoire et l’apprentissage automatique sur graphes.

Formation et compétences requises :

Pour postuler, merci d’envoyer un e-mail à

– esteban.bautista@univ-littoral.fr
– rym.guibadj@univ-littoral.fr

en joignant les documents suivants pour appuyer votre candidature :

• votre CV ;
• une lettre de motivation ;
• vos relevés de notes de la dernière année de Licence à la dernière année de Master (si disponible) ;
• deux lettres de recommandation ou les noms et moyens de contact de deux conseillers académiques.

Les candidatures seront examinées au fur et à mesure jusqu’à ce que le poste soit pourvu.

Adresse d’emploi :
LISIC laboratory – St Omer site

Document attaché : 202412051118_Internship_ML-Temporal-Graph-Exploration.pdf