Stage M1/ M2 à l’IRIT- Toulouse: Développement d’Approches d’Apprentissage automatique pour l’Étude du Vieillissement à Travers le Comportement de Nage du Poisson ATK

Offre en lien avec l’Action/le Réseau : HELP/– — –

Laboratoire/Entreprise : IRIT, Université Toulouse Capitole
Durée : 6 mois
Contact : moncef.garouani@irit.fr
Date limite de publication : 2025-01-30

Contexte :

Sujet :
I. Contexte général et projet de recherche

Le vieillissement d’une population d’individus est associé à une augmentation de nombreuses maladies chroniques. Trouver des moyens de prévenir et de traiter ces maladies est un enjeu majeur pour la santé publique et la vie socio-économique. Dans le cadre de la recherche sur le vieillissement, notre laboratoire utilise le poisson African Turquoise Killifish (ATK) comme un modèle d’étude très pertinent, puisque sa durée de vie est seulement de 6 à 8 mois et présente un vieillissement holistique multi-organes très rapide. Au laboratoire, nous étudions le vieillissement de l’ATK notamment par l’étude de son comportement de nage spontanée par analyse vidéo. Nos résultats préliminaires montrent, au cours d’un suivi cinétique, clairement que l’ATK a un comportement de nage qui se modifie avec l’âge. Cependant, les grandes quantités de données générées par l’analyse vidéo rendent l’intelligence artificielle (IA) indispensable pour l’extraction de variables pertinentes, l’analyse et l’interprétation des données. Nous proposons dans ce projet de développer des approches d’apprentissage multimodal
(« Multimodal Machine Learning », MML) permettant d’identifier, à partir des données déjà générées, des combinaisons de comportements de nage qui évoluent avec l’âge. Nous devons relever plusieurs défis pour le MML en raison du caractère hétérogène des données longitudinale à traiter. L’encodage unimodale des données est crucial pour le MML et influence fortement son efficacité prédictive. L’identification et le tuning des encodeurs pour extraire les caractéristiques abstraites se limitent actuellement à des tâches unimodales. Dans ce projet, nous développerons (i) des stratégies d’intégration de données originales (sans homogénéisation) pour améliorer l’efficacité de nos analyses, (ii) une méthode de « meta-learning » pour identifier les encodeurs optimaux adaptés à chaque modalité, et (iii) une méthode d’explicabilité multimodale pour identifier les biomarqueurs les plus pertinents et comprendre les relations causales dans les flux de données. L’utilisation du MML appliquée à l’étude du comportement de l’ATK, nous permettra d’atteindre nos objectifs qui sont de (i) réaliser une modélisation longitudinale du comportement de l’ATK, (ii) prédire, en fonction des patterns de nage, la durée de vie d’un individu donné et (iii) son score de fragilité, et enfin (iv) évaluer l’efficacité d’une intervention thérapeutique, qu’elle soit nutritionnelle, génétique ou médicamenteuse.

II. Objectifs du Stage :

L’objectif du stage Master est de contribuer au développement d’approches d’apprentissage multimodal pour l’étude du vieillissement à partir des données comportementales du poisson African Turquoise Killifish (ATK). Plus précisément, le stage se concentrera sur les objectifs suivants :
• Exploration des Architectures d’Apprentissage Multimodal : Réaliser une revue de la littérature sur les architectures et techniques de fusion adaptées à l’intégration de données hétérogènes déjà générés.
• Analyse des Comportements de Nage : Étudier les relations entre différents paramètres comportementaux (vitesse, trajectoire, fréquence de nage) pour identifier les caractéristiques qui évoluent avec l’âge.
• Expériences sur l’Explicabilité Multimodale : Mettre en œuvre des approches d’intelligence artificielle explicable (XAI) pour comprendre comment les comportements identifiés influencent la prédiction de la durée de vie et du score de fragilité.
Le stage impliquera une revue approfondie de la littérature, la conception d’expériences d’apprentissage multimodal, l’analyse des données existantes et l’interprétation des résultats. Le candidat sélectionné travaillera en étroite collaboration avec notre équipe de recherche, acquérant une expérience pratique en apprentissage machine, en intégration de données hétérogènes et en IA explicable appliquée à la biologie du vieillissement.

Profil du candidat :
• Le/la candidat(e) doit être en Master 1/2. Il/elle aura un profil informatique avec de profondes connaissances en apprentissage automatique, avec un intérêt pour le travail interdisciplinaire.
• Compétences techniques : Solide bagage en apprentissage automatique, apprentissage profond et analyse de données.
• Programmation : Maîtrise des langages de programmation tels que Python et expérience avec des bibliothèques pertinentes (e.g., TensorFlow, PyTorch).
• Compétences analytiques : Excellentes compétences en analyse et en résolution de problèmes, avec un intérêt marqué pour la recherche multidisciplinaire.

Formation et compétences requises :

Adresse d’emploi :
Institut de Recherche en Informatique de Toulouse

Document attaché : 202411211601_Stage ML_ATK.pdf

Symposium GeoKIF (Formalisation des Connaissances et de l’Interprétation en Géomodélisation)

Date : 2024-12-17 => 2024-12-18
Lieu : ORLEANS

(english version below if needs be)

Bonjour,

Nous organisons un Symposium pour échanger sur le thème de la Formalisation des Connaissances et de l’Interprétation en Géomodélisation (GeoKIF).
L’événement se déroulera à l’ISTO-OSUC (Orléans) les 17 et 18 décembre 2024 avec deux événements clef :
– mardi 17/12 14h soutenance de thèse d’Imad Laouici sur le Cadre de Connaissances et le processus d’interprétation pour la construction de l’architecture 3D du sous-sol
– mercredi 18/12 [9h-16h30] séminaires sur la Géomodélisation et sur L’ingénierie des Connaissances (avec un atelier participatif sur Les systèmes de modélisation de demain)
Cet événement est co-organisé par l’ISTO (Institut des Sciences de la Terre d’Orléans), le LIFO (Laboratoire d’Informatique Fondamentale d’Orléans), et le BRGM (Bureau de Recherches Géologiques et Minières).

N’hésitez pas à consulter ce lien pour plus d’information pour l’organisation et pour vous y inscrire : https://evento.renater.fr/survey/symposium-geokif-registration-j7buaxsj
Les participations à distances sont les bienvenues, tout comme les rencontres sur place bien entendu !

Cordialement,

Gautier LAURENT
avec la participation de Christelle Loiselet [BRGM], Imad Laouici [ISTO/BRGM], Anaïs Lefeuvre-Halftermeyer, Thi-Bich-Hanh Dao, et Christel Vrain [LIFO]

——————————————————————————————————————————–
Dear colleagues,

We are organising a Workshop on the topic of Geological Knowledge and Interpretation Formalization (GeoKIF).
The event will take place at ISTO-OSUC (School of Earth, Envrionment, and Space at Univ. Orléans) on the 17th and 18th of December.
There are two main events:
– Tuesday 17/12 2PM: Imad Laouici’s Ph.D. defence on Geological knowledge framework and structural interpretation process for building 3D architectures of sub-surface
– Wednesday 18/12 9AM-4:30PM: conference on Geomodelling and on Knowledge Engineering, with a cooperative workshop on the topic of Next generation modelling systems.
This event is co-organized by ISTO, LIFO and BRGM.

Please don’t hesitate to visit this link for further information and registration: https://evento.renater.fr/survey/symposium-geokif-registration-j7buaxsj
Online participations welcome, visit in person most welcome too!

Looking forward to this event,

Gautier LAURENT
with participation of Christelle Loiselet [BRGM], Imad Laouici [ISTO/BRGM], Anaïs Lefeuvre-Halftermeyer, Thi-Bich-Hanh Dao, and Christel Vrain [LIFO]

Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Arbitrary-scale Flow Matching for super-resolution on satellite maritime images

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA, Université Bretagne Sud
Durée : 6 mois
Contact : minh-tan.pham@univ-ubs.fr
Date limite de publication : 2025-01-31

Contexte :

Sujet :
We propose an internship for Master 2 and Ecole d’Ingénieur students, with a funded opportunity to pursue a PhD within the team on the topic.

This internship is part of the European HORIZON AXOLOTLproject, for which exchanges with Cypriot researchers are planned.

For more information, please consult the offer on this link:
https://www-obelix.irisa.fr/files/2024/11/Master_internship_super_resolution.pdf

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
The expected intern will join the OBELIX research group (www.irisa.fr/obelix) from IRISA (UMR 6074) is located in the UBS (Universit´e Bretagne Sud) campus in Vannes 56000, France.

Document attaché : 202411210845_Master_topic_super_resolution.pdf

Déploiement et évaluation d’un annotateur immersif et embarqué, application à la reconnaissance d’entité

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MaIAGE, INRAE, université Paris-Saclay
Durée : 6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2025-01-31

Contexte :
Les techniques d’extraction d’information (text-mining) récentes les plus performantes reposent sur de l’apprentissage automatique supervisé. Or, l’évaluation et l’entraînement de ces méthodes nécessitent une phase d’annotation humaine laborieuse. Cela est particulièrement vrai pour les domaines spécialisés, tels que la microbiologie, où la production et la validation des annotations nécessitent l’intervention d’experts, et où les données produites sont d’un grand intérêt [Deléger2016]. La Réalité Virtuelle (RV) et par extension la Réalité Étendue (XR) permettent d’améliorer les performances d’utilisateurs ainsi que leur engagement lors de la réalisation de tâches spécifiques comme de la rééducation ou de l’apprentissage humain [David2017, Mayer2023].

Sujet :
Projet :
Nous proposons dans ce stage de développer et d’évaluer un outil d’annotation textuelle immersif en Réalité Virtuelle (RV) similaire à VAnnotator [Spiekermann2018] pouvant tirer parti des possibilités d’annotation en Réalité Étendue (XR) [Borhani2023]. La tâche d’annotation spécifique visée sera la reconnaissance d’entités. Cette dernière consiste à identifier et classifier des entités nommées dans un texte (ex : identifier dans la phrase suivante que la mention “Escherichia coli” est une bactérie – “Escherichia coli est trouvée dans les intestins des animaux”). L’accent sera mis sur la mise en place de l’annotateur immersif ainsi que de son évaluation comparée avec les outils existants.

Objectifs du stage :
– Revue de la littérature des solutions d’annotation immersives.
– Transfert de données textuelles issues d’un corpus BB4 pour la reconnaissance d’entités et développé à MaIAGE dans un casque de RV.
– Installation et configuration d’un annotateur standard [Colucci2024] dans un environnement immersif, pour la visualisation des données, le développement de fonctionnalités et pour améliorer l’annotation en RV.
– Mise en place d’expérimentations utilisateurs pour comparer l’utilisation immersive et non-immersive de Doccano (cybersickness, utilisabilité, etc.).
– Rédaction du manuscrit pour diffusion et documentation.

Le stage pourra être l’occasion de préparer un poster pour une conférence des domaines concernés (ex : IHM, TALN).

Profil du candidat :
Étudiant en Master 2, élève-ingénieur des Grandes Écoles ou équivalent.

Formation et compétences requises :
Formations visées : informatique (IHM, IA, etc.) ou équivalent.

Compétences requises :
– Compétences en développement informatique (préférentiellement web, Python et Android)
– Compétences en IHM (évaluation de l’expérience utilisateur, analyse d’applications interactives)
– Une expérience en développement XR serait un plus
– Capacité de travail en autonomie
– Un attrait pour la recherche scientifique

Adresse d’emploi :
INRAE – Unité MaIAGE Bât 210 et 233 Domaine de Vilvert 78352 JOUY-EN-JOSAS

Document attaché : 202411201454_Offre de stage M2 IHM & Text-Mining.pdf

Stage M2 (poursuite en thèse possible) – Machine Learning / Optimisation / Paléoprotéomique / Equipes ORKAD et BONSAI – Lille

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : équipes ORKAD et BONSAI (laboratoire CRIStAL, Lill
Durée : 6 mois
Contact : julie.jacques@univ-lille.fr
Date limite de publication : 2025-01-31

Contexte :
ORKAD et BONSAI sont deux équipes de recherche du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille, UMR CNRS 9189) de l’Université de Lille. L’équipe ORKAD (https://orkad.univ-lille.fr/) développe des méthodes pour l’optimisation combinatoire et l’extraction de connaissances avec des approches à base de méta-heurisitique. L’équipe BONSAI (https://www.cristal.univ-lille.fr/bonsai/) travaille en bioinformatique, avec le développement d’algorithmes et de logiciels pour l’analyse de données biologiques (génomes, gènes, protéines). Le sujet de ce stage s’inscrit également dans le cadre d’une collaboration pluridisciplinaire avec la plateforme de protéomique de l’Université de Lille.
La paléoprotéomique est l’étude des échantillons archéologiques ou paléontologiques, tels que des ossements, par des approches expérimentales de spectrométrie de masse. Les spectres de masses permettent ensuite l’identification des espèces d’origine des échantillons grâce à des peptides marqueurs [Warinner2022]. Ces peptides sont des courtes séquences protéiques susceptibles d’être obtenues par digestion et ionisées, et représentatives d’une espèce donnée. On peut donc les voir comme des peptides diagnostics ou des code-barres [Buckley2009]. Dans ce stage, nous souhaitons étudier le caractère explicatif des peptides marqueurs, en lien avec la taxonomie des espèces. Le stage mêlera les expertises de l’équipe Bonsai en algorithmique des séquences et bioinformatique et celles de l’équipe Orkad en optimisation combinatoire pour le machine learning.

Sujet :
Les peptides marqueurs permettent collectivement de caractériser une espèce ou un groupe d’espèces proches. Pour un clade donné, l’ensemble des peptides est souvent utilisé comme une boîte noire, sans prise en compte de la conservation de certains marqueurs entre espèces ou au contraire de leur caractère discriminant. Nous voulons regarder les questions suivantes: peut-on inférer un arbre de décision “simple” sur les peptides marqueurs expliquant l’assignation taxonomique ? Cet arbre de décision est-il consistant avec une taxonomie admise ? Peut-on inférer d’autres types de règles: modalités fréquentes ou corrélées avec un clade, par exemple ? Quelles sont les espèces pour lesquelles la prédiction est robuste, et a contrario, les espèces pour lesquelles la prédiction est sensible au bruit expérimental ? Cette analyse se fera à deux niveaux d’information: celui des séquences peptidiques, et celui des masses des peptides. La connaissance du premier niveau entraîne la connaissance du second niveau, mais la réciproque n’est pas vraie.
De nombreuses approches à base de métaheuristiques pour générer des arbres de décision ont été proposées [RiveraLopez2021,DhaenensJourdan2022]. Des approches prenant en compte les hiérarchies dans les données ont également été suggérées [Otero2010]. Dans ce stage, il s’agira de déterminer l’approche la plus appropriée aux données et d’adapter la modélisation (représentation d’une solution, voisinage, évaluation) pour trouver la plus appropriée aux particularités des données. Nous privilégierons une modélisation de type boîte blanche afin d’avoir une bonne exploitation des modèles générés. En particulier une réflexion sera menée sur le critère d’évaluation à utiliser pour l’optimisation: Qu’est-ce qui détermine qu’un arbre de décision répond au problème ? Cela demandera d’adapter aux données la notion d’accuracy utilisée habituellement pour les arbres de décision. Il faudra également intégrer la notion de robustesse au bruit pour permettre la prise en compte de peptides marqueurs manquants ou artéfactuels.
Ce travail mènera au développement d’un logiciel qui sera intégré à la suite PAMPA (Protein Analysis by Mass Spectrometry for Ancient Species) développée par l’équipe BONSAI : https://github.com/touzet/pampa/. En termes de données, l’équipe BONSAI a rassemblé une compilation d’environ 200 espèces mammifères, pour lesquelles un ensemble de 14 peptides marqueurs est annoté. Cela comprend des peptides consensuels au niveau de la communauté des paléoprotéomiciens, déterminés de manière expérimentale par spectrométrie de masse (https://docs.google.com/spreadsheets/d/1ipm9fFFyha8IEzRO2F5zVXIk0ldwYiWgX5pGqETzBco) ou générés par homologie.
Ce stage pourra donner lieu à une poursuite en thèse.

Profil du candidat :
Etudiant en stage de M2 informatique
Ce stage pourra donner lieu à une poursuite en thèse.

Formation et compétences requises :
Programmation Python et connaissances en machine learning (classification supervisée).
Des connaissances en recherche opérationnelle, optimisation combinatoire, technologies web ou bioinformatique seraient un plus.

Adresse d’emploi :
Laboratoire CRISTAL, Campus Scientfique, Villeneuve d’Ascq (https://www.cristal.univ-lille.fr/)

Document attaché : 202411201012_Sujet_stage_M2_ORKAD_BONSAI.pdf

Stage M2 – Intégration des données d’observation de la Terre et méthodes apprentissage profond pour le suivi des systèmes alimentaires [UMR TETIS – Montpellier]

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2024-12-20

Contexte :
Contexte :
Les systèmes alimentaires sont fortement interconnectés entre les pays à l’échelle mondiale, comme le montrent les récentes perturbations telles que la guerre en Ukraine et la pandémie mondiale. Le flux des denrées alimentaires est vulnérable aux chocs, et ces perturbations influencent les prix des denrées alimentaires, qui à leur tour affectent les modes de consommation alimentaire. Cela a eu un impact significatif sur les régimes alimentaires des populations, en particulier dans les pays sous-développés où la sécurité alimentaire est déjà fragile. Cependant, les scientifiques et les décideurs politiques manquent de données et d’outils pour identifier les points faibles des flux alimentaires et construire des systèmes alimentaires résistants aux chocs et aux perturbations. Si des progrès considérables ont été réalisés grâce aux données d’observation de la Terre pour cartographier l’emplacement des cultures et la productivité agricole (par exemple, le rendement des cultures), peu d’attention a été accordée aux étapes intermédiaires du flux de travail – distribution, transformation et marchés – qui sont essentielles pour comprendre et modéliser la manière dont les denrées alimentaires passent de la production à la consommation.
Grâce aux progrès de l’intelligence artificielle et à son application aux données d’observation de la Terre, les images satellitaires collectées en continu à l’échelle mondiale, combinées aux données météorologiques, permettent de suivre les systèmes alimentaires en temps réel. Les modèles d’apprentissage profond, capables de capturer des relations complexes et non linéaires, ainsi que les algorithmes multimodaux intégrant des données issues de sources variées, ouvrent de nouvelles perspectives dans ce domaine.
Ce stage propose d’exploiter des données d’observation de la Terre multi-temporelles et multi-résolutions, en les combinant avec des modèles d’apprentissage, pour surveiller les systèmes alimentaires, estimer les rendements agricoles et analyser leurs liens avec les prix des marchés.

Sujet :
Bonjour,

Nous proposons une offre de stage de master 2 sur “Intégration des données d’observation de la Terre et méthodes d’apprentissage profond pour le suivi des systèmes alimentaires”.

Ce stage se déroulera sur une période de 6 mois entre janvier et juin 2025 et sera co-encadré par des chercheurs Cirad de l’UMR TETIS, Simon Madec et Roberto Interdonato. Vous trouverez l’offre de stage sur ce lien :

https://nubes.teledetection.fr/s/mXoY5qYsQNnPRta

Les étudiant.e.s intéressé.e.s peuvent envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.

Merci par avance de bien vouloir transmettre cette offre à vos étudiants.

Candidature :
Envoyer CV, lettre de motivation et relevé de notes M1 (ou 4ème année) avant le 6/12/2024 à :
simon.madec@cirad.fr , roberto.interdonato@cirad.fr
en précisant en objet du mail “CANDIDATURE STAGE SCOSSA 2025”.

Profil du candidat :
Compétences du candidat/e :
• Connaissances/goût pour la programmation
• Intérêt pour l’analyse de données
• Rigueur scientifique
• Curiosité et ouverture d’esprit
• Capacité d’analyses, rédactionnelles et de synthèse

Formation et compétences requises :

Adresse d’emploi :
Maison de la Télédétection, 500 rue JEan François Breton, 34090, Montpellier

Document attaché : 202411200802_Stage SCOSSA 2025_FR.pdf

Stage M2 au CEA : Nouvelles approches de deep learning pour l’élucidation structurale des petites molécules

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-12-20

Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome [1]. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [2] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son graphe de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.

Sujet :
Sujet : L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées.
Travail demandé : A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder). Un nouveau type d’architecture basé sur la prédiction structurée sera ensuite développé pour intégrer l’ensemble des informations multiplexées et la modélisation de la fragmentation sous forme de graphe, et montrer l’impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit.
Mots clés : apprentissage statistique, prédiction structurée, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] De Vijlder,T. et al. (2018) A tutorial in small molecule identification via electrospray ionization-mass spectrometry: The practical art of structural elucidation. Mass Spectrometry Reviews, 37, 607–629.
[2] Russo,F.F. et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Communications in Mass Spectrometry, 38, e9876.

Profil du candidat :
Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie).

Formation et compétences requises :

Adresse d’emploi :
Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données du laboratoire Innovations en Spectrométrie de Masse pour la Santé, en partenariat avec l’équipe Signal, Statistique et Apprentissage de Telecom Paris.
Durée du stage : 6 mois à partir de début 2025
Date limite de candidature : 30 novembre 2024
Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

Document attaché : 202411191549_241119_stage_M2_cea_ai-ms2_EThevenot.pdf

Modèles et outils pour la gestion distribuée et l’interopérabilité des objets patrimoniaux augmentés

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS, MAP
Durée : 3 ans
Contact : dan.vodislav@u-cergy.fr
Date limite de publication : 2024-12-31

Contexte :
Cette thèse est financée par la Fondation des Sciences du Patrimoine (FSP), qui soutient des projets de recherche transdisciplinaires sur le patrimoine culturel matériel. La FSP est également coordinatrice de l’EquipEx+ ESPADON, dont l’objectif est la création d’une plateforme instrumentale d’étude des objets du patrimoine matériel, associée à une plateforme numérique qui assure l’interopérabilité et la gestion efficace des données produites par cette plateforme et par les études sur les objets, tout au long de leur cycle de vie.
L’un des objectifs centraux d’ESPADON est la création de l’objet patrimonial augmenté (OPA), qui associe à l’objet matériel l’ensemble des données produites lors des études sur cet objet: données descriptives, d’analyse instrumentale, de spatialisation, de transformation, etc., mais aussi des données spécifiques à divers domaines d’application: art, conservation-restauration, études historiques, médiation culturelle, etc., qui enrichissent continuellement les connaissances sur l’objet et les possibilités d’étude multi-aspects.
La création de l’OPA implique la conception de modèles de données communs et modulables, de méthodes de production, intégration, pérennisation, enrichissement, partage, consultation de données, ainsi que la réalisation d’outils efficaces et intuitifs mettant en pratique ces méthodes. Une attention particulière sera accordée à la formalisation explicite des protocoles de recherche. Cette démarche vise à documenter et harmoniser les processus scientifiques et méthodologiques sous-jacents à la production, l’intégration et la validation des données, tout en assurant leur traçabilité et leur réutilisation.
Dans un contexte proche, le projet européen ECHOES a pour objectif de concevoir et réaliser une infrastructure européenne de cloud collaboratif pour le stockage des données du patrimoine culturel, qui servent de base à un écosystème numérique de partage, recherche, enrichissement, etc. des connaissances dans ce domaine.
La thèse se situe dans le contexte de ces deux projets phares de la communauté des sciences du patrimoine, pour proposer des modèles et méthodes pour la représentation, la production, la consultation et l’exploitation distribuées des données des OPA. La thèse s’appuiera sur des travaux déjà initiés par la communauté et sur un dialogue avec différents acteurs du projet, représentatifs de la diversité des sciences du patrimoine. En parallèle, une formalisation explicite des protocoles de recherche permettra de structurer les échanges et d’assurer une cohérence méthodologique entre les acteurs, tout en renforçant l’interopérabilité des données et des pratiques.

Sujet :
Les principaux objectifs scientifiques de la thèse sont :
– L’élaboration d’un modèle de données pour l’objet patrimonial augmenté, capable d’intégrer l’extrême hétérogénéité des données pour différents types d’objets et de domaines d’études. Le modèle doit articuler des représentations communes, basées sur les graphes de connaissances utilisant les ontologies autour de CIDOC-CRM [2] et autres extensions [1][3][5], avec la possibilité d’intégrer des données de sources qui suivent des modèles spécifiques. Une attention particulière sera accordée aux approches narratives de représentation des connaissances pour produire des modèles génériques communs.
– La définition de protocoles de production [4], de gestion, d’intégration [6], d’interrogation et d’enrichissement des données dans un environnement distribué de sources d’information, en s’appuyant sur les modèles de données mentionnés ci-dessus. Cet objectif concerne les problématiques de gestion de graphes de connaissances distribués [8] et semi-homogènes, représentant des OPA.
– La conception de méthodes automatiques pour l’extraction de connaissances à partir de données peu structurées [7], guidées par le modèle d’OPA, en vue de l’intégration distribuée des données de sources diverses autour des OPA.

Profil du candidat :
Titulaire d’un diplôme de Master recherche en informatique ou équivalent, avec une spécialisation en systèmes d’information ou en gestion de données et de connaissances, si possible avec une ouverture interdisciplinaire vers les humanités numériques ou les applications numériques à la documentation du patrimoine.

Formation et compétences requises :

Adresse d’emploi :
ETIS, CY Cergy Paris Université, 2 avenue Adolphe Chauvin, 95000 Pontoise

Document attaché : 202411191334_Mediapat2-fr.pdf

Comparative analysis of the molecular pathology of neurodegenerative diseases using new optimal transport methods applied to graphs

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sorbonne University/IBPS
Durée : 6 months
Contact : lucile.megret@sorbonne-universite.fr
Date limite de publication : 2024-12-31

Contexte :
The Brain-C team at the Paris-Seine Institute of Biology (IBPS) is developing several original research projects aimed at understanding the dynamics of neuronal compensation mechanisms during the progression of neurodegenerative diseases (ND), such as Huntington’s disease and amyotrophic lateral sclerosis (ALS). The multidisciplinary team is composed of biologists and mathematicians and relies on a network of local and international collaborators for both the production of multi-omic data and their analysis. In this context, the Brain-C team has access to large temporal datasets (RNA-seq, ChIP-seq) obtained from specific neuronal populations, notably in mouse models, which are analyzed for therapeutic innovation purposes (target selection).
See: https://www.ibps.sorbonne-universite.fr/fr/Recherche/umr-8256/brainc

Sujet :
In collaboration with École Polytechnique and Telecom Paris, the objective of this internship is to identify, at a fine-grained level, the similarities and differences in the molecular dynamics underlying these diseases. Genomic deregulation will be modeled using graph-based approaches, and optimal transport will be employed as a metric to compare these objects across different levels of granularity.
Expected outcomes:
Develop a clustering method for comparing neurodegenerative diseases (ND).
Identify and interpret substructures within these graphs that reflect similarities or divergences, and relate them to underlying biological mechanisms.
Compile a comprehensive list of challenges that will be addressed and further explored in the context of a future PhD project.

Profil du candidat :
Students in their second year of a Master’s degree in Mathematics or Computer Science, or students from engineering schools, with a strong interest in AI,
Proficiency in Python or at least one programming language.biology, and translational research.

Formation et compétences requises :

Adresse d’emploi :
7 quai Saint-Bernard 75005 Paris

Problèmes de Satisfaction de Contraintes (CSPs) et réseaux de neurones pour une analyse de l’artificialisation des terres à partir de données satellitaires

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : zouhaira.ayadi@umontpellier.fr
Date limite de publication : 2024-12-31

Contexte :
L’artificialisation des terres, étroitement liée aux changements environnementaux, représente un enjeu environnemental majeur pour la préservation des écosystèmes et des ressources naturelles (Vidal-beaudet et Rossignol, 2018) (Desrousseaux et al., 2019). Ce phénomène complexe nécessite des outils de surveillance capables de détecter, à partir d’images satellitaires haute résolution, les transformations des sols afin d’anticiper et de gérer leurs impacts environnementaux. Le projet Hérelles (https://anr.fr/Projet-ANR-20-CE23-0022) (Koptelov et al., 2023b) (Koptelov et al., 2023a) vise à développer un cadre d’analyse collaborative et multiparadigme des séries temporelles d’images satellitaires. Un de ses principaux objectifs est de modéliser les dynamiques des changements environnementaux, tels que l’artificialisation des sols et l’urbanisation, dans un contexte où les données sont à la fois volumineuses et complexes. Ce stage, inscrit dans les activités interdisciplinaires du projet, propose une approche novatrice pour extraire des motifs d’artificialisation en combinant les Problèmes de Satisfaction de Contraintes (CSP) et l’apprentissage profond. L’analyse des données satellitaires, bien qu’essentielle pour suivre ces transformations, reste un défi en raison de la diversité des relations spatiales et des contraintes géographiques qui influencent ces processus. Les avancées récentes en apprentissage profond et en CSP (Koptelov et al., 2023c) (Schaus et al., 2017) ouvrent la possibilité de combiner la détection automatisée de motifs complexes avec une modélisation explicite des règles géospatiales. Bien que les réseaux de neurones, largement utilisés en apprentissage profond, offrent des performances remarquables pour la détection des motifs, leur caractère de “boîte noire” complique l’interprétation des décisions. À l’inverse, les méthodes CSP, telles que le Backtracking, la recherche locale, etc. permettent une transparence explicative en intégrant des règles géospatiales explicites, mais requièrent un effort humain considérable. L’approche hybride proposée conjugue la puissance prédictive des réseaux de neurones avec la clarté explicative des CSP pour une analyse robuste et interprétable des processus d’artificialisation. Les motifs d’artificialisation complexes reflètent des schémas spatiaux d’urbanisation et de transformation du territoire, permettant de détecter les zones artificialisées ou en voie d’artificialisation. Parmi ces motifs, on distingue notamment l’expansion urbaine(agrandissement des villes en zones rurales),la conversion des terres agricoles en surfaces construites (transformation des champs en bâtiments), la densification des zones bâties (augmentation de la densité dans les zones urbaines), la conversion de terres agricoles, la fragmentation des espaces naturels (morcellement ou division des zones naturelles (forêts, prairies) en parcelles plus petites et isolées), etc. Cette approche hybride repose sur l’utilisation de l’algorithme AC3 et du Backtracking optimisé pour intégrer des règles géospatiales explicites dans le modèle, tout en exploitant les Graph Neural Networks(GNN) pour identifier des motifs complexes. Les mécanismes d’explication factuelle (pourquoi une région a été artificialisée) et contrefactuelle (ce qui se serait produit dans d’autres circonstances) fourniront aux décideurs des informations interprétables pour une gestion durable des territoires.

Sujet :
L’objectif de ce stage est de développer un modèle hybride CSP-GNN combinant le backtracking optimisé et le GNN pour extraire les motifs d’artificialisation à partir d’images satellitaires haute résolution. Il s’agira de :
1. Définir les motifs sous forme de schémas géospatiaux structurés qui traduisent des configurations particulières d’occupation du sol. Chaque motif sera défini en termes de relations spatiales (topologiques, métriques, etc.), temporelles, ainsi que d’attributs contextuels (tailles , surfaces, NDVI, etc.) spécifiques aux transformations.
2. Implémenter le modèle hybride CSP-GNN, se basant sur :
– Le CSP pour expliciter des règles géospatiales, intégrer des contraintes spatiales (proximité, continuité) et temporelles (évolution sur plusieurs années). Pour cette étape de résolution des CSP, il s’agira d’implémenter l’algorithme AC-3 (Arc Consistency 3) combiné à une résolution avec Backtracking optimisé par des heuristiques de sélection de variables (Minimum Remaining Values, MRV) et/ou de valeurs (Least Constraining Value, LCV).
– L’apprentissage profond via le réseau de neurone graphique (Graph Neural Networks, GNN) pour modéliser les relations complexes entre entités spatiales et identifier automatiquement les motifs non explicitement définis.
Le modèle devra produire des explications factuelles justifiant pourquoi une région a été artificialisée et des explications contrefactuelles qui illustreront ce qui se serait produit avec des conditions différentes.

Profil du candidat :
Le/la candidat(e) doit être en Master 2. Il/elle aura un profil informatique avec des connaissances en apprentissage automatique et/ ou en programmation par contraintes (CSP), avec un intérêt pour le travail interdisciplinaire. Des compétences en traitement des données géospatiales et en explication seraient un atout.

Formation et compétences requises :

Adresse d’emploi :
UMR TETIS, 500 Rue Jean François Breton, 34000 Montpellier
ou
ICube, 300 bd Sébastien Brant, 67400 Illkirch (Strasbourg)

Document attaché : 202411181459_Offre_de_stage_M2___TETIS (1).pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Stage M1/ M2 à l’IRIT- Toulouse: Développement d’Approches d’Apprentissage automatique pour l’Étude du Vieillissement à Travers le Comportement de Nage du Poisson ATK

Symposium GeoKIF (Formalisation des Connaissances et de l’Interprétation en Géomodélisation)

Arbitrary-scale Flow Matching for super-resolution on satellite maritime images

Déploiement et évaluation d’un annotateur immersif et embarqué, application à la reconnaissance d’entité

Stage M2 (poursuite en thèse possible) – Machine Learning / Optimisation / Paléoprotéomique / Equipes ORKAD et BONSAI – Lille

Stage M2 – Intégration des données d’observation de la Terre et méthodes apprentissage profond pour le suivi des systèmes alimentaires [UMR TETIS – Montpellier]

Stage M2 au CEA : Nouvelles approches de deep learning pour l’élucidation structurale des petites molécules

Modèles et outils pour la gestion distribuée et l’interopérabilité des objets patrimoniaux augmentés

Comparative analysis of the molecular pathology of neurodegenerative diseases using new optimal transport methods applied to graphs

Problèmes de Satisfaction de Contraintes (CSPs) et réseaux de neurones pour une analyse de l’artificialisation des terres à partir de données satellitaires