Arbitrary-scale Flow Matching for super-resolution on satellite maritime images

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA, Université Bretagne Sud
Durée : 6 mois
Contact : minh-tan.pham@univ-ubs.fr
Date limite de publication : 2025-01-31

Contexte :

Sujet :
We propose an internship for Master 2 and Ecole d’Ingénieur students, with a funded opportunity to pursue a PhD within the team on the topic.

This internship is part of the European HORIZON AXOLOTLproject, for which exchanges with Cypriot researchers are planned.

For more information, please consult the offer on this link:
https://www-obelix.irisa.fr/files/2024/11/Master_internship_super_resolution.pdf

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
The expected intern will join the OBELIX research group (www.irisa.fr/obelix) from IRISA (UMR 6074) is located in the UBS (Universit´e Bretagne Sud) campus in Vannes 56000, France.

Document attaché : 202411210845_Master_topic_super_resolution.pdf

Déploiement et évaluation d’un annotateur immersif et embarqué, application à la reconnaissance d’entité

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MaIAGE, INRAE, université Paris-Saclay
Durée : 6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2025-01-31

Contexte :
Les techniques d’extraction d’information (text-mining) récentes les plus performantes reposent sur de l’apprentissage automatique supervisé. Or, l’évaluation et l’entraînement de ces méthodes nécessitent une phase d’annotation humaine laborieuse. Cela est particulièrement vrai pour les domaines spécialisés, tels que la microbiologie, où la production et la validation des annotations nécessitent l’intervention d’experts, et où les données produites sont d’un grand intérêt [Deléger2016]. La Réalité Virtuelle (RV) et par extension la Réalité Étendue (XR) permettent d’améliorer les performances d’utilisateurs ainsi que leur engagement lors de la réalisation de tâches spécifiques comme de la rééducation ou de l’apprentissage humain [David2017, Mayer2023].

Sujet :
Projet :
Nous proposons dans ce stage de développer et d’évaluer un outil d’annotation textuelle immersif en Réalité Virtuelle (RV) similaire à VAnnotator [Spiekermann2018] pouvant tirer parti des possibilités d’annotation en Réalité Étendue (XR) [Borhani2023]. La tâche d’annotation spécifique visée sera la reconnaissance d’entités. Cette dernière consiste à identifier et classifier des entités nommées dans un texte (ex : identifier dans la phrase suivante que la mention “Escherichia coli” est une bactérie – “Escherichia coli est trouvée dans les intestins des animaux”). L’accent sera mis sur la mise en place de l’annotateur immersif ainsi que de son évaluation comparée avec les outils existants.

Objectifs du stage :
– Revue de la littérature des solutions d’annotation immersives.
– Transfert de données textuelles issues d’un corpus BB4 pour la reconnaissance d’entités et développé à MaIAGE dans un casque de RV.
– Installation et configuration d’un annotateur standard [Colucci2024] dans un environnement immersif, pour la visualisation des données, le développement de fonctionnalités et pour améliorer l’annotation en RV.
– Mise en place d’expérimentations utilisateurs pour comparer l’utilisation immersive et non-immersive de Doccano (cybersickness, utilisabilité, etc.).
– Rédaction du manuscrit pour diffusion et documentation.

Le stage pourra être l’occasion de préparer un poster pour une conférence des domaines concernés (ex : IHM, TALN).

Profil du candidat :
Étudiant en Master 2, élève-ingénieur des Grandes Écoles ou équivalent.

Formation et compétences requises :
Formations visées : informatique (IHM, IA, etc.) ou équivalent.

Compétences requises :
– Compétences en développement informatique (préférentiellement web, Python et Android)
– Compétences en IHM (évaluation de l’expérience utilisateur, analyse d’applications interactives)
– Une expérience en développement XR serait un plus
– Capacité de travail en autonomie
– Un attrait pour la recherche scientifique

Adresse d’emploi :
INRAE – Unité MaIAGE Bât 210 et 233 Domaine de Vilvert 78352 JOUY-EN-JOSAS

Document attaché : 202411201454_Offre de stage M2 IHM & Text-Mining.pdf

Stage M2 (poursuite en thèse possible) – Machine Learning / Optimisation / Paléoprotéomique / Equipes ORKAD et BONSAI – Lille

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : équipes ORKAD et BONSAI (laboratoire CRIStAL, Lill
Durée : 6 mois
Contact : julie.jacques@univ-lille.fr
Date limite de publication : 2025-01-31

Contexte :
ORKAD et BONSAI sont deux équipes de recherche du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille, UMR CNRS 9189) de l’Université de Lille. L’équipe ORKAD (https://orkad.univ-lille.fr/) développe des méthodes pour l’optimisation combinatoire et l’extraction de connaissances avec des approches à base de méta-heurisitique. L’équipe BONSAI (https://www.cristal.univ-lille.fr/bonsai/) travaille en bioinformatique, avec le développement d’algorithmes et de logiciels pour l’analyse de données biologiques (génomes, gènes, protéines). Le sujet de ce stage s’inscrit également dans le cadre d’une collaboration pluridisciplinaire avec la plateforme de protéomique de l’Université de Lille.
La paléoprotéomique est l’étude des échantillons archéologiques ou paléontologiques, tels que des ossements, par des approches expérimentales de spectrométrie de masse. Les spectres de masses permettent ensuite l’identification des espèces d’origine des échantillons grâce à des peptides marqueurs [Warinner2022]. Ces peptides sont des courtes séquences protéiques susceptibles d’être obtenues par digestion et ionisées, et représentatives d’une espèce donnée. On peut donc les voir comme des peptides diagnostics ou des code-barres [Buckley2009]. Dans ce stage, nous souhaitons étudier le caractère explicatif des peptides marqueurs, en lien avec la taxonomie des espèces. Le stage mêlera les expertises de l’équipe Bonsai en algorithmique des séquences et bioinformatique et celles de l’équipe Orkad en optimisation combinatoire pour le machine learning.

Sujet :
Les peptides marqueurs permettent collectivement de caractériser une espèce ou un groupe d’espèces proches. Pour un clade donné, l’ensemble des peptides est souvent utilisé comme une boîte noire, sans prise en compte de la conservation de certains marqueurs entre espèces ou au contraire de leur caractère discriminant. Nous voulons regarder les questions suivantes: peut-on inférer un arbre de décision “simple” sur les peptides marqueurs expliquant l’assignation taxonomique ? Cet arbre de décision est-il consistant avec une taxonomie admise ? Peut-on inférer d’autres types de règles: modalités fréquentes ou corrélées avec un clade, par exemple ? Quelles sont les espèces pour lesquelles la prédiction est robuste, et a contrario, les espèces pour lesquelles la prédiction est sensible au bruit expérimental ? Cette analyse se fera à deux niveaux d’information: celui des séquences peptidiques, et celui des masses des peptides. La connaissance du premier niveau entraîne la connaissance du second niveau, mais la réciproque n’est pas vraie.
De nombreuses approches à base de métaheuristiques pour générer des arbres de décision ont été proposées [RiveraLopez2021,DhaenensJourdan2022]. Des approches prenant en compte les hiérarchies dans les données ont également été suggérées [Otero2010]. Dans ce stage, il s’agira de déterminer l’approche la plus appropriée aux données et d’adapter la modélisation (représentation d’une solution, voisinage, évaluation) pour trouver la plus appropriée aux particularités des données. Nous privilégierons une modélisation de type boîte blanche afin d’avoir une bonne exploitation des modèles générés. En particulier une réflexion sera menée sur le critère d’évaluation à utiliser pour l’optimisation: Qu’est-ce qui détermine qu’un arbre de décision répond au problème ? Cela demandera d’adapter aux données la notion d’accuracy utilisée habituellement pour les arbres de décision. Il faudra également intégrer la notion de robustesse au bruit pour permettre la prise en compte de peptides marqueurs manquants ou artéfactuels.
Ce travail mènera au développement d’un logiciel qui sera intégré à la suite PAMPA (Protein Analysis by Mass Spectrometry for Ancient Species) développée par l’équipe BONSAI : https://github.com/touzet/pampa/. En termes de données, l’équipe BONSAI a rassemblé une compilation d’environ 200 espèces mammifères, pour lesquelles un ensemble de 14 peptides marqueurs est annoté. Cela comprend des peptides consensuels au niveau de la communauté des paléoprotéomiciens, déterminés de manière expérimentale par spectrométrie de masse (https://docs.google.com/spreadsheets/d/1ipm9fFFyha8IEzRO2F5zVXIk0ldwYiWgX5pGqETzBco) ou générés par homologie.
Ce stage pourra donner lieu à une poursuite en thèse.

Profil du candidat :
Etudiant en stage de M2 informatique
Ce stage pourra donner lieu à une poursuite en thèse.

Formation et compétences requises :
Programmation Python et connaissances en machine learning (classification supervisée).
Des connaissances en recherche opérationnelle, optimisation combinatoire, technologies web ou bioinformatique seraient un plus.

Adresse d’emploi :
Laboratoire CRISTAL, Campus Scientfique, Villeneuve d’Ascq (https://www.cristal.univ-lille.fr/)

Document attaché : 202411201012_Sujet_stage_M2_ORKAD_BONSAI.pdf

Stage M2 – Intégration des données d’observation de la Terre et méthodes apprentissage profond pour le suivi des systèmes alimentaires [UMR TETIS – Montpellier]

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2024-12-20

Contexte :
Contexte :
Les systèmes alimentaires sont fortement interconnectés entre les pays à l’échelle mondiale, comme le montrent les récentes perturbations telles que la guerre en Ukraine et la pandémie mondiale. Le flux des denrées alimentaires est vulnérable aux chocs, et ces perturbations influencent les prix des denrées alimentaires, qui à leur tour affectent les modes de consommation alimentaire. Cela a eu un impact significatif sur les régimes alimentaires des populations, en particulier dans les pays sous-développés où la sécurité alimentaire est déjà fragile. Cependant, les scientifiques et les décideurs politiques manquent de données et d’outils pour identifier les points faibles des flux alimentaires et construire des systèmes alimentaires résistants aux chocs et aux perturbations. Si des progrès considérables ont été réalisés grâce aux données d’observation de la Terre pour cartographier l’emplacement des cultures et la productivité agricole (par exemple, le rendement des cultures), peu d’attention a été accordée aux étapes intermédiaires du flux de travail – distribution, transformation et marchés – qui sont essentielles pour comprendre et modéliser la manière dont les denrées alimentaires passent de la production à la consommation.
Grâce aux progrès de l’intelligence artificielle et à son application aux données d’observation de la Terre, les images satellitaires collectées en continu à l’échelle mondiale, combinées aux données météorologiques, permettent de suivre les systèmes alimentaires en temps réel. Les modèles d’apprentissage profond, capables de capturer des relations complexes et non linéaires, ainsi que les algorithmes multimodaux intégrant des données issues de sources variées, ouvrent de nouvelles perspectives dans ce domaine.
Ce stage propose d’exploiter des données d’observation de la Terre multi-temporelles et multi-résolutions, en les combinant avec des modèles d’apprentissage, pour surveiller les systèmes alimentaires, estimer les rendements agricoles et analyser leurs liens avec les prix des marchés.

Sujet :
Bonjour,

Nous proposons une offre de stage de master 2 sur “Intégration des données d’observation de la Terre et méthodes d’apprentissage profond pour le suivi des systèmes alimentaires”.

Ce stage se déroulera sur une période de 6 mois entre janvier et juin 2025 et sera co-encadré par des chercheurs Cirad de l’UMR TETIS, Simon Madec et Roberto Interdonato. Vous trouverez l’offre de stage sur ce lien :

https://nubes.teledetection.fr/s/mXoY5qYsQNnPRta

Les étudiant.e.s intéressé.e.s peuvent envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.

Merci par avance de bien vouloir transmettre cette offre à vos étudiants.

Candidature :
Envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.

Profil du candidat :
Compétences du candidat/e :
• Connaissances/goût pour la programmation
• Intérêt pour l’analyse de données
• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyses, rédactionnelles et de synthèse

Formation et compétences requises :

Adresse d’emploi :
Maison de la Télédétection, 500 rue JEan François Breton, 34090, Montpellier

Document attaché : 202411200802_Stage SCOSSA 2025_FR.pdf

Stage M2 au CEA : Nouvelles approches de deep learning pour l’élucidation structurale des petites molécules

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-12-20

Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome [1]. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [2] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son graphe de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.

Sujet :
Sujet : L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées.
Travail demandé : A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder). Un nouveau type d’architecture basé sur la prédiction structurée sera ensuite développé pour intégrer l’ensemble des informations multiplexées et la modélisation de la fragmentation sous forme de graphe, et montrer l’impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit.
Mots clés : apprentissage statistique, prédiction structurée, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] De Vijlder,T. et al. (2018) A tutorial in small molecule identification via electrospray ionization-mass spectrometry: The practical art of structural elucidation. Mass Spectrometry Reviews, 37, 607–629.
[2] Russo,F.F. et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Communications in Mass Spectrometry, 38, e9876.

Profil du candidat :
Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie).

Formation et compétences requises :

Adresse d’emploi :
Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données du laboratoire Innovations en Spectrométrie de Masse pour la Santé, en partenariat avec l’équipe Signal, Statistique et Apprentissage de Telecom Paris.
Durée du stage : 6 mois à partir de début 2025
Date limite de candidature : 30 novembre 2024
Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

Document attaché : 202411191549_241119_stage_M2_cea_ai-ms2_EThevenot.pdf

Modèles et outils pour la gestion distribuée et l’interopérabilité des objets patrimoniaux augmentés

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS, MAP
Durée : 3 ans
Contact : dan.vodislav@u-cergy.fr
Date limite de publication : 2024-12-31

Contexte :
Cette thèse est financée par la Fondation des Sciences du Patrimoine (FSP), qui soutient des projets de recherche transdisciplinaires sur le patrimoine culturel matériel. La FSP est également coordinatrice de l’EquipEx+ ESPADON, dont l’objectif est la création d’une plateforme instrumentale d’étude des objets du patrimoine matériel, associée à une plateforme numérique qui assure l’interopérabilité et la gestion efficace des données produites par cette plateforme et par les études sur les objets, tout au long de leur cycle de vie.
L’un des objectifs centraux d’ESPADON est la création de l’objet patrimonial augmenté (OPA), qui associe à l’objet matériel l’ensemble des données produites lors des études sur cet objet: données descriptives, d’analyse instrumentale, de spatialisation, de transformation, etc., mais aussi des données spécifiques à divers domaines d’application: art, conservation-restauration, études historiques, médiation culturelle, etc., qui enrichissent continuellement les connaissances sur l’objet et les possibilités d’étude multi-aspects.
La création de l’OPA implique la conception de modèles de données communs et modulables, de méthodes de production, intégration, pérennisation, enrichissement, partage, consultation de données, ainsi que la réalisation d’outils efficaces et intuitifs mettant en pratique ces méthodes. Une attention particulière sera accordée à la formalisation explicite des protocoles de recherche. Cette démarche vise à documenter et harmoniser les processus scientifiques et méthodologiques sous-jacents à la production, l’intégration et la validation des données, tout en assurant leur traçabilité et leur réutilisation.
Dans un contexte proche, le projet européen ECHOES a pour objectif de concevoir et réaliser une infrastructure européenne de cloud collaboratif pour le stockage des données du patrimoine culturel, qui servent de base à un écosystème numérique de partage, recherche, enrichissement, etc. des connaissances dans ce domaine.
La thèse se situe dans le contexte de ces deux projets phares de la communauté des sciences du patrimoine, pour proposer des modèles et méthodes pour la représentation, la production, la consultation et l’exploitation distribuées des données des OPA. La thèse s’appuiera sur des travaux déjà initiés par la communauté et sur un dialogue avec différents acteurs du projet, représentatifs de la diversité des sciences du patrimoine. En parallèle, une formalisation explicite des protocoles de recherche permettra de structurer les échanges et d’assurer une cohérence méthodologique entre les acteurs, tout en renforçant l’interopérabilité des données et des pratiques.

Sujet :
Les principaux objectifs scientifiques de la thèse sont :
– L’élaboration d’un modèle de données pour l’objet patrimonial augmenté, capable d’intégrer l’extrême hétérogénéité des données pour différents types d’objets et de domaines d’études. Le modèle doit articuler des représentations communes, basées sur les graphes de connaissances utilisant les ontologies autour de CIDOC-CRM [2] et autres extensions [1][3][5], avec la possibilité d’intégrer des données de sources qui suivent des modèles spécifiques. Une attention particulière sera accordée aux approches narratives de représentation des connaissances pour produire des modèles génériques communs.
– La définition de protocoles de production [4], de gestion, d’intégration [6], d’interrogation et d’enrichissement des données dans un environnement distribué de sources d’information, en s’appuyant sur les modèles de données mentionnés ci-dessus. Cet objectif concerne les problématiques de gestion de graphes de connaissances distribués [8] et semi-homogènes, représentant des OPA.
– La conception de méthodes automatiques pour l’extraction de connaissances à partir de données peu structurées [7], guidées par le modèle d’OPA, en vue de l’intégration distribuée des données de sources diverses autour des OPA.

Profil du candidat :
Titulaire d’un diplôme de Master recherche en informatique ou équivalent, avec une spécialisation en systèmes d’information ou en gestion de données et de connaissances, si possible avec une ouverture interdisciplinaire vers les humanités numériques ou les applications numériques à la documentation du patrimoine.

Formation et compétences requises :

Adresse d’emploi :
ETIS, CY Cergy Paris Université, 2 avenue Adolphe Chauvin, 95000 Pontoise

Document attaché : 202411191334_Mediapat2-fr.pdf

Comparative analysis of the molecular pathology of neurodegenerative diseases using new optimal transport methods applied to graphs

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sorbonne University/IBPS
Durée : 6 months
Contact : lucile.megret@sorbonne-universite.fr
Date limite de publication : 2024-12-31

Contexte :
The Brain-C team at the Paris-Seine Institute of Biology (IBPS) is developing several original research projects aimed at understanding the dynamics of neuronal compensation mechanisms during the progression of neurodegenerative diseases (ND), such as Huntington’s disease and amyotrophic lateral sclerosis (ALS). The multidisciplinary team is composed of biologists and mathematicians and relies on a network of local and international collaborators for both the production of multi-omic data and their analysis. In this context, the Brain-C team has access to large temporal datasets (RNA-seq, ChIP-seq) obtained from specific neuronal populations, notably in mouse models, which are analyzed for therapeutic innovation purposes (target selection).
See: https://www.ibps.sorbonne-universite.fr/fr/Recherche/umr-8256/brainc

Sujet :
In collaboration with École Polytechnique and Telecom Paris, the objective of this internship is to identify, at a fine-grained level, the similarities and differences in the molecular dynamics underlying these diseases. Genomic deregulation will be modeled using graph-based approaches, and optimal transport will be employed as a metric to compare these objects across different levels of granularity.
Expected outcomes:
Develop a clustering method for comparing neurodegenerative diseases (ND).
Identify and interpret substructures within these graphs that reflect similarities or divergences, and relate them to underlying biological mechanisms.
Compile a comprehensive list of challenges that will be addressed and further explored in the context of a future PhD project.

Profil du candidat :
Students in their second year of a Master’s degree in Mathematics or Computer Science, or students from engineering schools, with a strong interest in AI,
Proficiency in Python or at least one programming language.biology, and translational research.

Formation et compétences requises :

Adresse d’emploi :
7 quai Saint-Bernard 75005 Paris

Problèmes de Satisfaction de Contraintes (CSPs) et réseaux de neurones pour une analyse de l’artificialisation des terres à partir de données satellitaires

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : zouhaira.ayadi@umontpellier.fr
Date limite de publication : 2024-12-31

Contexte :
L’artificialisation des terres, étroitement liée aux changements environnementaux, représente un enjeu environnemental majeur pour la préservation des écosystèmes et des ressources naturelles (Vidal-beaudet et Rossignol, 2018) (Desrousseaux et al., 2019). Ce phénomène complexe nécessite des outils de surveillance capables de détecter, à partir d’images satellitaires haute résolution, les transformations des sols afin d’anticiper et de gérer leurs impacts environnementaux. Le projet Hérelles (https://anr.fr/Projet-ANR-20-CE23-0022) (Koptelov et al., 2023b) (Koptelov et al., 2023a) vise à développer un cadre d’analyse collaborative et multiparadigme des séries temporelles d’images satellitaires. Un de ses principaux objectifs est de modéliser les dynamiques des changements environnementaux, tels que l’artificialisation des sols et l’urbanisation, dans un contexte où les données sont à la fois volumineuses et complexes. Ce stage, inscrit dans les activités interdisciplinaires du projet, propose une approche novatrice pour extraire des motifs d’artificialisation en combinant les Problèmes de Satisfaction de Contraintes (CSP) et l’apprentissage profond. L’analyse des données satellitaires, bien qu’essentielle pour suivre ces transformations, reste un défi en raison de la diversité des relations spatiales et des contraintes géographiques qui influencent ces processus. Les avancées récentes en apprentissage profond et en CSP (Koptelov et al., 2023c) (Schaus et al., 2017) ouvrent la possibilité de combiner la détection automatisée de motifs complexes avec une modélisation explicite des règles géospatiales. Bien que les réseaux de neurones, largement utilisés en apprentissage profond, offrent des performances remarquables pour la détection des motifs, leur caractère de “boîte noire” complique l’interprétation des décisions. À l’inverse, les méthodes CSP, telles que le Backtracking, la recherche locale, etc. permettent une transparence explicative en intégrant des règles géospatiales explicites, mais requièrent un effort humain considérable. L’approche hybride proposée conjugue la puissance prédictive des réseaux de neurones avec la clarté explicative des CSP pour une analyse robuste et interprétable des processus d’artificialisation. Les motifs d’artificialisation complexes reflètent des schémas spatiaux d’urbanisation et de transformation du territoire, permettant de détecter les zones artificialisées ou en voie d’artificialisation. Parmi ces motifs, on distingue notamment l’expansion urbaine(agrandissement des villes en zones rurales),la conversion des terres agricoles en surfaces construites (transformation des champs en bâtiments), la densification des zones bâties (augmentation de la densité dans les zones urbaines), la conversion de terres agricoles, la fragmentation des espaces naturels (morcellement ou division des zones naturelles (forêts, prairies) en parcelles plus petites et isolées), etc. Cette approche hybride repose sur l’utilisation de l’algorithme AC3 et du Backtracking optimisé pour intégrer des règles géospatiales explicites dans le modèle, tout en exploitant les Graph Neural Networks(GNN) pour identifier des motifs complexes. Les mécanismes d’explication factuelle (pourquoi une région a été artificialisée) et contrefactuelle (ce qui se serait produit dans d’autres circonstances) fourniront aux décideurs des informations interprétables pour une gestion durable des territoires.

Sujet :
L’objectif de ce stage est de développer un modèle hybride CSP-GNN combinant le backtracking optimisé et le GNN pour extraire les motifs d’artificialisation à partir d’images satellitaires haute résolution. Il s’agira de :
1. Définir les motifs sous forme de schémas géospatiaux structurés qui traduisent des configurations particulières d’occupation du sol. Chaque motif sera défini en termes de relations spatiales (topologiques, métriques, etc.), temporelles, ainsi que d’attributs contextuels (tailles , surfaces, NDVI, etc.) spécifiques aux transformations.
2. Implémenter le modèle hybride CSP-GNN, se basant sur :
– Le CSP pour expliciter des règles géospatiales, intégrer des contraintes spatiales (proximité, continuité) et temporelles (évolution sur plusieurs années). Pour cette étape de résolution des CSP, il s’agira d’implémenter l’algorithme AC-3 (Arc Consistency 3) combiné à une résolution avec Backtracking optimisé par des heuristiques de sélection de variables (Minimum Remaining Values, MRV) et/ou de valeurs (Least Constraining Value, LCV).
– L’apprentissage profond via le réseau de neurone graphique (Graph Neural Networks, GNN) pour modéliser les relations complexes entre entités spatiales et identifier automatiquement les motifs non explicitement définis.
Le modèle devra produire des explications factuelles justifiant pourquoi une région a été artificialisée et des explications contrefactuelles qui illustreront ce qui se serait produit avec des conditions différentes.

Profil du candidat :
Le/la candidat(e) doit être en Master 2. Il/elle aura un profil informatique avec des connaissances en apprentissage automatique et/ ou en programmation par contraintes (CSP), avec un intérêt pour le travail interdisciplinaire. Des compétences en traitement des données géospatiales et en explication seraient un atout.

Formation et compétences requises :

Adresse d’emploi :
UMR TETIS, 500 Rue Jean François Breton, 34000 Montpellier
ou
ICube, 300 bd Sébastien Brant, 67400 Illkirch (Strasbourg)

Document attaché : 202411181459_Offre_de_stage_M2___TETIS (1).pdf

Extraction de connaissances sur les changements d’occupation et usage des sols à partir de données textuelles

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2024-12-31

Contexte :
La caractérisation de l’utilisation et de l’occupation des sols (Land Use and Land Cover,
LULC en anglais) et de leurs changements est essentielle pour comprendre les dynamiques
territoriales et gérer durablement les espaces naturels et urbains. La modélisation
spatio-temporelle, qui permet de représenter et projeter ces changements, mobilise des
connaissances expertes, qualitatives ou quantitatives, intégrées dans les modèles sous
forme de règles logiques. L’un des moyens d’obtenir ces connaissances est la sollicitation
d’experts par des entretiens, mais cette approche est coûteuse en temps et présente des
biais.
D’autres sources d’informations peuvent être mobilisées, telles que la littérature scientifique,
les rapports techniques ou encore les articles de presse. La sélection de documents
pertinents et leur analyse est une tâche chronophage pour laquelle des approches
d’extraction automatique peuvent être utilisées. Dans ce contexte, les méthodes de
traitement automatique du langage et d’apprentissage automatique peuvent permettre : (1)
l’extraction automatique d’informations d’intérêt, (2) la normalisation et représentation de ces
informations dans un formalisme adapté, et (3) leur transformation en règles logiques.
L’extraction et représentation des connaissances à partir de données textuelles ont été
étudiées dans le domaine de l’agriculture (Drury et al. 2019; Drury et Roche 2019) et
domaines connexes tels que l’agriculture urbaine (Bhuyan et al. 2024) ou les crises
agrométéorologiques (Zhang et al. 2023). En revanche, peu de travaux ont porté sur le
traitement de données textuelles sur la thématique de l’usage et de l’occupation des sols,
leurs changements, et les drivers associés. Le stage se déroule dans la cadre du projet
ARENA (Automatic Rule Extraction and Network Analysis), financé par le CNES, ayant pour
but d’extraire des informations sur l’usage et l’occupation des sols à partir d’articles
scientifiques et de les combiner avec des réseaux multicouches issus de séries temporelles
d’images satellites. Les recherches les plus proches du projet ARENA sont les travaux de
Kaczmarek (2023) ainsi que les travaux menés dans le cadre du projet Hérelles
(https://herelles-anr-project.cnrs.fr/). Ce stage fait également suite à des travaux menés
précédemment dans le cadre de l’ANR TipHyc (Tipping points in the West African
Hydrological Cycle), sur l’extraction d’information à partir d’articles scientifiques.
Le.a. futur.e stagiaire s’appuiera sur les premiers résultats obtenus pour améliorer les
propositions méthodologiques utilisées et étudiera l’inclusion de nouvelles sources de
données textuelles.

Sujet :
Objectifs du stage
Ce stage a pour objectif de développer une approche pour l’extraction et la formalisation de
connaissances sur l’occupation et usage des sols à partir de sources textuelles, grâce à
l’utilisation de techniques avancées de traitement automatique de la langue et apprentissage
automatique.
Il s’articulera en plusieurs étapes :
1. Identification de sources de données textuelles pertinentes et constitution de corpus
sur une zone d’étude pré-définie,
2. Formalisation de la notion d’information pertinente sur la thématique des
changements d’occupation ou d’utilisation des sols LULC, en collaboration avec des
experts du domaine,
3. Enrichissement d’une nomenclature existante sur l’occupation et usage des sols et
les processus de changement,
3. Comparaison de méthodes d’extraction automatique à partir des corpus d’étude.
Selon les enjeux méthodologiques identifiés, le.a stagiaire sera amené.e à comparer
des approches supervisées, intégrant ou non des règles expertes (Kaczmarek,
2023), et des approches reposant sur des grands modèles de langues (Large
Language Models) (Dagdelen et al. 2024). Le point d’ancrage des connaissances à
extraire sera les changements d’occupation et d’usage des sols et les processus qui
leur sont associés.
4. L’analyse quantitative et qualitative des informations extraites.
Les données d’étude seront en anglais ou en français selon la zone d’étude.
Organisation du stage
Le stage se déroulera sur une période de 6 mois, à compter de février 2025, dans les locaux
de la Maison de la Télédétection à Montpellier.
L’étudiant·e sera accueilli·e au sein de l’équipe MISCA de l’UMR TETIS (Territoire
Environnement Télédétection et Information Spatiale) et sera encadré·e par Sarah Valentin,
chercheuse en fouille de données textuelles au Cirad à l’UMR TETIS et Roberto Interdonato,
chercheur en Intelligence Artificielle, également au Cirad à l’UMR TETIS. Le déroulement du
stage se fera dans un contexte interdisciplinaire, notamment en collaboration avec Simon
Madec, chercheur en télédétection et apprentissage profond au sein de l’UMR TETIS .
En plus de la rédaction d’un mémoire de Master 2 ou de fin d’étude selon les attentes de sa
formation, d’autres modalités de valorisation des résultats seront éventuellement envisagées
avec les encadrants au cours du stage telles que la publication d’un jeu de données (corpus)
et la contribution à un data paper.

Candidature

Envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 29/11/2024
à Sarah Valentin (sarah.valentin@cirad.fr) et Roberto Interdonato
(roberto.interdonato@cirad.fr), en précisant en objet du mail “CANDIDATURE STAGE
ARENA 2025”.

Profil du candidat :
Compétences recherchées
● Formation en informatique
● Bonne maîtrise du langage de programmation Python
● Connaissances en traitement automatique du langage et/ou apprentissage
automatique
● Maîtrise de l’anglais écrit
● Intérêt pour les applications socio-environnementales et le travail interdisciplinaire.

Formation et compétences requises :
Compétences recherchées
● Formation en informatique
● Bonne maîtrise du langage de programmation Python
● Connaissances en traitement automatique du langage et/ou apprentissage
automatique
● Maîtrise de l’anglais écrit
● Intérêt pour les applications socio-environnementales et le travail interdisciplinaire.

Adresse d’emploi :
Maison de la Télédétection, 500 rue Jean François Breton, 34090, Montpellier

Document attaché : 202411181314_stage_ARENA_2025.pdf

Optimisation Sous Contraintes des Flexibilités des Équipements Consommateurs d’Électricité dans le secteur Résidentiel et Tertiaire

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT – Symhonics
Durée : 3 ans
Contact : chanson@univ-tours.fr
Date limite de publication : 2025-03-01

Contexte :
L’équipe Recherche Opérationnelle, Ordonnancement et Transport, l’équipe Bases de Données et
Traitement des Langues Naturelles (BDTLN) et la société Symphonics proposent un financement de
thèse de doctorat à temps plein pour un début au printemps 2025. La thèse sera basée à Tours avec la
moitié du temps dans les locaux de l’entreprise et l’autre moitié au sein du laboratoire.
La gestion d’un système électrique suppose un équilibre à chaque instant entre production et
consommation. Cela ne peut se faire qu’en modifiant soit la production, soit la consommation ; c’est
ce que l’on dénomme flexibilités dans le système électrique. L’introduction croissante des énergies
renouvelables impose l’augmentation du gisement de flexibilités et notamment celles se trouvant chez
les consommateurs représentant une source peu coûteuse pour satisfaire le besoin de décarbonation
du mix énergétique, enjeu majeur aussi bien sur le plan écologique, qu’économique et social.
C’est le créneau choisi par La société Symphonics qui se positionne sur le marché en proposant de
transformer les bâtiments résidentiels et tertiaires en batteries par le pilotage à la hausse et à la baisse
des équipements énergivores dont la consommation peut être déplacée dans la journée (par ex.
Chauffe-eau, chargeur de véhicule, etc.).

Sujet :
Cette thèse CIFRE propose de s’attaquer à l’optimisation sous contraintes des équipements
consommateurs d’électricité dans les secteurs résidentiel et tertiaire, un enjeu crucial à l’ère de la
transition énergétique et de la digitalisation. L’objectif est de développer des modèles et des
algorithmes qui permettent de maximiser l’efficacité énergétique et la flexibilité des systèmes tout en
respectant les contraintes spécifiques (confort, stabilité du réseau, coûts) associées à ces
environnements.
L’ensemble des modélisations permettant de définir les meilleurs optimums temps réel
possibles nécessite la résolution de plusieurs verrous relevant de l’hybridation de méthodes
issues de la science des contraintes et de la science des données.
Ces verrous sont abordés sous l’angle de l’optimisation qui peut être formulée comme un problème
multi-agents en recherche opérationnelle. Plusieurs agents (la société Symphonics, les clients, les
acteurs du réseau électrique) interviennent dans le processus et leurs objectifs propres sont à prendre
en compte. Par exemple, certains clients voudront optimiser un niveau de confort en termes de
chauffage, et garantir la charge d’un véhicule électrique. A l’échelle du système, la société Symphonics
peut vouloir réduire les émissions de CO2 ou les coûts de livraison de l’électricité. Il faut donc optimiser
la consommation d’électricité tout en tenant compte des différents objectifs des agents. Dans le
contexte de cette thèse, les verrous pour résoudre un tel problème sont nombreux :
– Le passage à l’échelle : l’entreprise vise une application pour des centaines de milliers de
clients, ce qui reste une difficulté majeure pour une résolution efficace du problème en
recherche opérationnelle, dans des temps compatibles avec le scénario industriel (moins de
15 minutes) ;
– Cette optimisation doit s’appuyer sur des informations qui devront être prédites au niveau de
chaque client au fil du temps, sur la base de la connaissance contextuelle et de préférences
(par exemple, prédire la consommation électrique d’un chauffe-eau en hiver heure par heure
pour un client donné) ;
Comme toute approche reposant sur des modèles prédictifs, une attention particulière devra être
apportée à l’explicabilité des solutions proposées.
Enfin, l’hybridation de la recherche opérationnelle et de l’apprentissage artificiel prendra son sens
pour définir des algorithmes de résolution efficaces du problème. Les méthodes d’apprentissage
artificiel pourront notamment permettre de rechercher les meilleurs paramètres de la méthode multi-
agents, ou réduire le nombre de clients en utilisant des approches de clustering de flux de données
pour obtenir des groupes homogènes des clients au cours du temps.
Les modèles et algorithmes feront l’objet de phases de validation empiriques avec les partenaires
équipementiers et fabricants de la société Symphonics et seront pilotées par le Doctorant.

Profil du candidat :
BAC+5. Jeune diplômé ou première expérience
Le candidat recruté devra avoir des connaissances solides en Recherche Opérationnelle (complexité,
méthodes exactes et heuristiques, programmation mathématique) et en apprentissage artificiel et
architectures profondes. Des connaissances en explicabilité seront appréciées.
La maîtrise de certains outils logiciels est un plus : Python, Google Cloud Platform, PostgreSQL, Solveur
MILP.

Formation et compétences requises :

Adresse d’emploi :
Tours: partage du temps entre Symphonics et le LIFAT.

Document attaché : 202411181233_Offre Thèse Symphonics .pdf