Intégration des bases de données sur l’extraction de ressources minières avec NLP et modèles de langage

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : roberto.interdonato@cirad.fr
Date limite de publication : 2025-02-14

Contexte :
L’initiative Land Matrix (https://landmatrix.org) et son observatoire mondial des acquisitions de terres à grande
échelle ont pour objectifs de créer une source fiable de données permettant d’alimenter les débats et de mettre en
oeuvre des actions éclairées sur les transactions foncières à grande échelle. La Land Matrix collecte des données
sur les tentatives prévues, conclues et échouées visant à acquérir des terres au moyen d’achat, de location ou de
concession à des fins de production agricole, extraction de bois, extraction minière, finance du carbone, activités
industrielles, production d’énergie renouvelable, conservation de la nature et tourisme, dans les pays à revenus
faibles ou intermédiaires.
Bien que les données de la Land Matrix restent la référence mondiale sur les phénomènes d’acquisitions de terres
dans le monde académique, la couverture des sites d’exploitation minière dans la base n’est toujours pas
optimale, pour plusieurs raisons historiques et liées à des soucis d’accès aux données. D’autre part, le suivi des
activités minières (et des investisseurs associés) sur ces sites est au coeur des études concernant la transition
énergétique, qui est à son tour une dimension importante d’une stratégie globale de lutte contre le changement
climatique. Ces études peuvent également contribuer à sensibiliser aux injustices distributives et à la répartition
inéquitable des coûts, les pays cibles supportant la plupart des coûts sociaux et environnementaux de l’extraction
des ressources dans des régions marquées par l’insécurité foncière et alimentaire et l’instabilité en termes de
gouvernance.

Sujet :
L’objectif du stage est de construire une base de données la plus complète possible sur les sites d’exploitation
minière dans le monde, en incluant les informations sur les investisseurs derrière ces sites et les informations
géospatiales associées (coordonnées GPS et/ou polygones). Pour y parvenir, il faudra intégrer les données Land
Matrix (https://landmatrix.org/) avec celles d’une autre plateforme, ResourceContracts
(https://www.resourcecontracts.org/). ResourceContracts est un référentiel en ligne de contrats pétroliers, gaziers
et miniers. Le site comprend la version PDF et le texte intégral de chaque contrat, des étiquettes des principaux
termes financiers, sociaux, environnementaux, opérationnels et juridiques et des outils de recherche et de
comparaison des contrats. Des techniques de Traitement Automatique du Langage (TAL), possiblement avec
l’utilisation des modèles de type LLM (Large Language Models – Grand Modèle de Langage) seront nécessaires
pour compléter cette tâche d’intégration. Finalement, la base obtenue sera mise en lien avec une autre base qui
fournit l’étendue géographique des sites minières sous forme des polygones (i.e., shapefiles). Des méthodes de
télédétection pourront être mobilisés à côté des techniques de TAL pour compléter cette deuxième étape. La base
finale sera enfin utilisée pour mener deux cas d’études analytiques sur des pays spécifiques, qui sont des hotspots
de l’extraction des ressources minière nécessaires à la transition énergétique : la République démocratique du
Congo et l’Argentine.

Profil du candidat :
Compétences du candidat/e :
● Analyse des données (collecte, exploration, mise en lien)
● Programmation (préférablement Python)
● Capacités d’analyse, rédactionnelle et de synthèse
● Travail d’équipe
● Des expériences en TAL et/ou Télédétection seront considérées comme un plus.

Informations complémentaires :

Durée de 6 mois, à partir de février 2025.
Le stage se déroulera au CIRAD, dans l’UMR TETIS (Territoire, Environnement, Télédétection et Information
Spatiale), située dans les locaux de la Maison de la Télédétection à Montpellier.
Le stagiaire sera encadré par Rémi Decoupes (INRAE, UMR TETIS), Roberto Interdonato et Simon Madec
(CIRAD, UMR TETIS), Jérémy Bourgoin (CIRAD/ILC) et Marie Gradeler (ILC).
Si des résultats significatifs sont obtenus, le stage peut conduire à une publication scientifique.
Financement :
Le stage est soutenu par le projet Land Matrix. La rémunération du stagiaire sera de l’ordre de 600 euros par
mois.

Modalité de candidature :

Attention : cette proposition ne concerne que les stages d’étudiants sous convention avec une école ou une
université : il ne s’agit pas d’une offre d’emploi.
Envoyer une lettre de motivation d’une page, précisant en outre la durée et période possible du stage, un CV
détaillé, et un relevé des notes à : remy.decoupes@inrae.fr et roberto.interdonato@cirad.fr , en précisant dans
l’objet « CANDIDATURE STAGE LAND MATRIX 2025 ».

Date limite pour l’envoi du dossier : 06 Decembre, 2024

Formation et compétences requises :

Adresse d’emploi :
Maison de la Télédétection, 500 rue Jean François Breton, 34000, Montpellier

Document attaché : 202411221612_Stage2025.pdf

Classification de lésions intrahépatiques en histopathologie par apprentissage profond

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CReSTIC
Durée : 4 à 6 mois
Contact : eric.desjardin@univ-reims.fr
Date limite de publication : 2025-02-14

Contexte :
Le cholangiocarcinome intra-hépatique (iCCA) est une tumeur maligne primitive hépatique dont le diagnostic anatomopathologique peut être difficile. L’objectif du projet CholangIA est d’améliorer le diagnostic des lésions ductulaires intra-hépatiques réalisé à partir d’images histopathologiques par les approches de l’Intelligence Artificielle. Une étude bi-centrique a permis de tester les performances de classification binaire et multi-classe des modèles VGG16, MobileNetV2 et ResNet50 [1]. Un premier pipeline de détection a été développé [Figure 1]. Nous souhaitons explorer les mécanismes d’attention et Multiple instance learning [2] afin de pouvoir rendre plus robuste les classifications obtenues.
Ce projet est mené dans le cadre d’une collaboration entre l’équipe AI4M (Artificial Intelligence for Medicine) du laboratoire CReSTIC, l’unité de recherche MEDyC et l’IIAS (Institut de l’IA en Santé) en partenariat avec l’Institut Mondor de Recherche Biomédicale.

Sujet :
Le candidat participera à l’enrichissement des travaux actuels en :
– développant des méthodes explicatives et d’attention de apprentissage profond
– implémentant une approche « Multiple instance learning »
– réalisant les Évaluations & Intégration dans le pipeline d’analyse

Profil du candidat :
Compétences impératives :
• Intelligence artificielle, machine learning, deep learning
• Programmation Python
• Librairies usuelles de deep learning (TensorFlow, Keras. . . )
• Analyse d’images

Compétences souhaitées mais non-indispensables :
• Imagerie histopathologique
• Compétences en calcul intensif

Formation et compétences requises :
Le(la) candidat(e) sera en Master 2 ou en 3e année d’école d’ingénieur.

Adresse d’emploi :
Université de Reims Champagne-Ardenne,
Laboratoire CReSTIC, Campus Moulin de la Housse, site de Reims

Document attaché : 202411221451_Stage CholangIA 2024.pdf

Measuring the Environmental Impact of NoSQL Model Transformations on the Cloud

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC@ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2025-02-28

Contexte :
The development of NoSQL solutions on the Cloud is a complex task, and mastering all aspects of optimization is challenging. At the DVRC (the ESILV laboratory), we have developed an approach to help developers measure the impact of their solutions under different dimensions: time, financial, and environmental.

Sujet :
In the context of this research project, we aim to study the impact of data model transformations on environmental costs in the Cloud. A cost model was previously developed in the team, and we intend to use it to better understand the impact of these transformations and create a recommendation system to minimize the carbon footprint of a NoSQL solution.
The first objective of this project will be to familiarize oneself with the cost model and apply it to various benchmarks. The results will be analyzed to study correlations between data models, queries, and data evolution. In the second phase, these results will be used to design a recommendation system to propose data model generation with a low carbon footprint while respecting other dimensions (financial and time costs).
A potential evolution of the subject could involve studying schema evolution as the database state changes, especially in the context of polystores.
This internship includes:
– Study of a cost model specialized in carbon footprint measurement
– Behavioral analysis of NoSQL databases
– Development of an environmental recommendation model

Profil du candidat :
M2 level students (Master or Engineering Schools).

Formation et compétences requises :
Distributed DB, Cost Model, Data Modeling, Carbon footprint measuring, MongoDB

Adresse d’emploi :
DVRC at ESILV at (École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense).

Document attaché : 202411221058_2425_MALI_NoSQL_Mali-Travers.pdf

Optimization of Frequent Pattern Mining for Tourist Behavior Analysis

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : DVRC@ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2025-02-28

Contexte :
Understanding the appreciation of visits made by tourists is a major issue in the tourism sector to anticipate trend evolutions as well as how they move across the territory. One approach to estimating this appreciation is based on the extraction of frequent patterns on a circulation graph, such as Graphlet extraction [1], k-decomposition [2], or cohesive structures like k-plexes [6]. Thus, tourism trends are extracted using their frequency of occurrence in a topological manner.
However, tourism data from experience-recommending platforms such as TripAdvisor or Google Maps results in large data graphs that become challenging to process with traditional data mining techniques. With a large number of places visited (millions) and an enormous number of user comments (billions), it is necessary to develop a new approach for scaling graph-based algorithms.

Sujet :
To this end, within the STARCS axis of DVRC, we have developed an exhaustive and scalable pattern extraction approach on a graph using Pregel [3]. This approach allows us to extract both the pattern topology and node properties, including geodesic information [4, 5, 7]. The extraction has been extended to complex patterns giving interesting perspectives of enhancement. We now wish to take this approach a step further by focusing on optimizing the mining process.
The internship has two main goals:
• Use a topological signature technique to mine patterns in a Neo4j database (in Pregel/Java).
• Improve the method to provide a heuristic adapted to the geodesic context.
Example of aggregated tourist propagation graph across the French territory:
• How can we identify significant propagation patterns?
• What are the characteristics of a pattern?
• Can we extract seasonality from different
groups of patterns?

Profil du candidat :

M2 level students (Master or Engineering Schools).

Formation et compétences requises :
Databases, Data Mining, graph DB (Neo4j, Cypher), Java, parallelism.

Adresse d’emploi :
De Vinci Research Center at ESILV at (École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense).

Document attaché : 202411221055_2425_TRAVERS_GraphMining.pdf

Cahiers citoyens – Diagnostic et correction d’un corpus océrisé à l’aide de méthodes de TAL

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire LASTIG
Durée : 5 mois
Contact : sami.guembour@ign.fr
Date limite de publication : 2025-02-28

Contexte :
Contexte

*******

En janvier 2019, comme une des réponses à apporter au mouvement des Gilets Jaunes, le gouvernement a mis en place la consultation du Grand Débat national (GDN) qui propose aux contributeurs et contributrices à la fois une plate-forme numérique dématérialisée et non localisée, et des supports matériels localisés dans des lieux publics : les “Cahiers citoyens”.

Chaque contribution a été directement écrite ou bien collée sur le support papier par un contributeur ou une contributrice. D’autres contributions sont arrivées en mairie sous forme de courriel ou bien de lettre ; celles-ci ont été imprimées (par la mairie collectante) et collée sur le cahier mis à disposition du public. Concernant son agencement et son positionnement sur la ou les pages, la contribution peut prendre la forme d’une lettre, ou une liste à puces, ou une suite de paragraphes.

Au total 20 152 Cahiers ont été collectés. Ils ont ensuite été numérisés sous forme de fichiers image, transcrits automatiquement par océrisation, et partiellement vérifiés par des opérateur.rice.s humain.e.s. L’ensemble des contributions constitue le corpus des “Cahiers citoyens” (corpus CC).

Sujet :
Sujet

****

Des analyses précédentes portant sur le corpus CC ont permis d’évaluer partiellement la qualité de la transcription. Trois types d’erreur ont été détectés et prennent la forme de :

– mots illisibles : lorsque le mot océrisé n’est pas reconnu par l’opérateur humain, la mention manuelle “ILLISIBLE” est substituée à la séquence de lettres ou au mot incriminés. Des analyses exploratoires ont été menées pour quantifier le phénomène ; une méthode de correction a été explorée, fondée sur le fine-tuning du modèle de langue CamemBERT pour la tâche de prédiction des mots masqués “Mask Language Modelling” [3];

– mots inconnus : les mots inconnus sont ceux qui ne sont pas reconnus lorsque le corpus est soumis à une analyse lexicale à l’aide d’outils utilisant des dictionnaires électroniques ; il s’agit majoritairement d’erreurs d’océrisation ayant transformé un mot initialement valide, ou de coquilles du contributeur.rice, plus rarement de néologismes ;

– mots échangés : un mot reconnu par les dictionnaires, mais erroné en contexte, est produit par l’outil d’océrisation sans être repéré ni corrigé à l’étape de vérification manuelle, par exemple miches et riches transcrits à la place de niches dans l’expression niches fiscales.

L’objectif du stage consiste à proposer une identification et si possible une correction du corpus au travers des trois types d’erreurs relevés. Selon l’analyse exploratoire, la correction des mots inconnus peut être identique à celle des mots illisibles. Il s’agit donc d’implémenter la méthode explorée pour la correction des mots illisibles, et de l’évaluer pour les mots illisibles et les mots inconnus. Dans un deuxième temps, il s’agira de proposer et implémenter une méthode d’identification et de correction des mots échangés.

Le stage comportera les étapes suivantes (une attention particulière sera portée aux conditions de ré-utilisabilité des ressources et codes produits, et donc à leur documentation tout au long du stage) :

– appropriation des travaux déjà réalisés sur l’analyse des corpus plate-forme GDN et CC dont [4, 1, 2] ;

– concernant les mots illisibles et les mots inconnus :

* appropriation de la méthode explorée pour l’identification et la correction des mots illisibles ;

* amélioration de cette méthode : l’objectif consistera à adapter la méthode existante afin de prédire les mots illisibles, cette fois-ci vus comme des données manquantes ;

* adaptation de cette méthode pour la correction des mots inconnus, implémentation et évaluation ;

– concernant les mots échangés : la réflexion sur une méthode d’identification a été amorcée, fondée sur la comparaison de n-grammes entre les deux corpus comparables issus de la consultation du “Grand Débat national” : le corpus CC (obtenus à partir des “Cahiers citoyens”) et les contributions de la plate-forme (qui n’ont pas eu à être océrisées puisqu’elles étaient collectées sous une forme numérique) ; elle devra être menée à bien jusqu’à une implémentation.

Profil du candidat :
Ce stage s’adresse aux étudiant.e.s de master 2 en informatique/science des données ou en traitement automatique des langues (TAL) avec une formation suffisante pour l’utilisation autonome d’un langage de programmation (de préférence Python et R) et d’outils de TAL (outils fondés sur l’apprentissage, modèles de langue, encodage de mots, de phrases ; classifieurs ; outils statistiques de lexicométrie).

Formation et compétences requises :
Encadrement du stage

******************

Catherine Dominguès, chercheure HDR, catherine.domingues@ign.fr

Sami Guembour, doctorant, sami.guembour@ign.fr

Alexandre Hippert-Ferrer, enseignant-chercheur, alexandre.hippert-ferrer@ensg.eu

Pour candidater

*************

Des entretiens seront organisés à partir de novembre 2024. Préalablement, un dossier de candidature est à envoyer aux encadrant.e.s et devra contenir les documents suivants : CV, derniers relevés de notes (M1, et premier semestre de M2 si possible), description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu), dernier mémoire ou rapport de stage, lettre de motivation. L’accès au corpus des “Cahiers citoyens” étant soumis à autorisation des Archives nationales, il est souhaitable que la candidature soit validée le plus tôt possible.

Adresse d’emploi :
Laboratoire LASTIG à Champs-sur-Marne, 6-8 avenue Blaise Pascal (site de l’ENSG-Géomatique).

Accès : RER A – Noisy-Champs

Document attaché : 202411220935_stage2025_CC_diagnosticCorrectionCorpus.pdf

Estimation d’Incertitudes de Données Multimodales en Situations de Visibilité Dégradée

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab / INSA Rouen
Durée : 6 mois
Contact : hind.laghmara@insa-rouen.fr
Date limite de publication : 2025-01-31

Contexte :
Les systèmes de perception multimodale (caméras, radars, lidars, capteurs infrarouges) sont de plus en plus utilisés dans les applications de mobilité autonome (véhicules, drones) et de surveillance, en particulier pour surmonter les situations de visibilité dégradée (brouillard, pluie, faible luminosité). Dans ces conditions, les données provenant des différents capteurs peuvent être sujettes à des incertitudes importantes qui impactent la fiabilité des décisions prises par les systèmes automatisés. Pour cela, ce stage se tient dans le cadre du projet ANR AdaV (2025-2028) qui a pour but d’étudier les possibilités d’extraction de caractéristiques environnementales pour l’amélioration de la fusion adaptative des modalités pour la détection d’objets multiples.

Mots clés :
Capteurs non-conventionnels, fusion multi-capteurs, analyse de scènes routières, physical attention learning, incertitude, traitement de signal et des images, deep learning.

Sujet :
Ce stage vise à développer une méthode permettant d’estimer et de modéliser les incertitudes associées aux données multimodales collectées en conditions de visibilité dégradée. L’objectif est de quantifier ces incertitudes et d’améliorer la robustesse de la fusion de données en vue d’applications critiques (navigation autonome, détection d’obstacles, etc.).

Dans un second temps, l’objectif est d’appliquer une approche de perception basée sur une fusion adaptative d’information provenant d’une caméra polarimétrique et d’une caméra RGB ainsi que de données provenant d’un LiDAR . Une partie du stage portera également sur la réalisation d’expérimentations en collaboration avec Lucas Deregnaucourt, doctorant au LITIS, pour la détection d’objets dynamiques dans le cadre de conduite en situation de visibilité réduite [1]. Le LITIS dispose d’une plateforme robotique, PERMIS, qui comprend différents robots ainsi qu’un dispositif permettant de simuler une dégradation de visibilité par la génération d’un brouillard artificiel. L’objectif du stagiaire sera de mener à bien l’entraînement de réseaux de neurones évidentiel et d’appliquer un modèle à l’un des robots en utilisant l’environnement ROS.

[1] L. Deregnaucourt, A. Lerchervy, H. Laghmara, and S. Ainouz, “An evidential deep network based on Dempster-Shafer theory for large dataset,” Advances and Applications of DSmT for Information Fusion, 2023.

Profil du candidat :
Niveau Master 2 ou ingénieur (ou équivalent) en informatique ou mathématiques appliquées ou science des données (ou disciplines similaires)

Le stage est susceptible d’être poursuivi par une thèse de doctorat dans le cadre du projet ANR AdaV (financement acquis).

Merci d’envoyer votre CV et relevés de notes aux encadrants :
— Hind Laghmara, LITIS – EA 4108, hind.laghmara@insa-rouen.fr
— Alexis Lechervy, GREYC – UMR CNRS 6072 alexis.lechervy@unicaen.fr
— Paul Honeine, LITIS – EA 4108 paul.honeine@univ-rouen.fr

Formation et compétences requises :
— Bonnes compétences en Machine Learning et vision par ordinateur
— Bonnes compétences en programmation par Python
— Un intérêt pour la robotique et la mobilité intelligente, ainsi que l’utilisation de l’environnement ROS.

Adresse d’emploi :
LITIS Lab, INSA Rouen Normandie

Document attaché : 202411220859_Offre_de_stage_Printemps_2025.pdf

Modèles et algorithmes basés sur l’IA pour la détection et la prévention des perturbations chez les conducteurs TSA pour une mobilité intelligente et inclusive

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAAS-CNRS
Durée : 6 mois
Contact : nawal.guermouche@laas.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
La montée en puissance de l’intelligence artificielle (IA) permettrait d’offrir des services facilitant l’usage des voitures aux personnes TSA, notamment des véhicules connectés. Un véhicule connecté est doté de capteurs et objets connectés embarqués, permettant d’une part, de collecter des données en temps réel, et d’autre part, d’offrir des services capables d’interagir avec l’environnement (feux rouges, d’autres véhicules connectés. etc.) ainsi qu’avec l’écosystème plus large de la ville intelligente.
Dans le cadre de ce stage et en collaboration avec le Centre d’Études et de Recherches en Psychopathologie et Santé (CERPPS), Université Jean Jaures, nous visons à développer des modèles, des algorithmes, et des outils pour la mise en place d’un système autonome et intelligent dédié à l’accompagnement des personnes TSA dans leur mobilité. En s’appuyant sur l’IoT et l’IA, notamment via les réseaux de neurones profonds couplés aux mécanismes d’attention, ce système devra être capable d’identifier, de caractériser, et de quantifier de manière active et prédictive l’impact des événements routiers sur le conducteur. Cela doit permettre de mettre en place des solutions capables d’anticiper les potentiels impacts sur la cognition et les émotions du conducteur et ainsi l’aider à mener une conduite la plus sereine possible.

Pour atteindre les objectifs de ce stage, les principales étapes sont :
– État de l’art : une revue de littérature sur l’IoT, la mobilité intelligente, l’IA, et les troubles TSA dans le cadre la mobilité routière sera réalisée.
– Étude et analyse des dataset déjà constitués en vue de leur exploitation et enrichissement via la mise en place de nouveaux scénarios en utilisant le simulateur SimulAuto .
– Proposition d’une approche pour l’identification, la quantification, et la visualisation de l’impact des évènements routiers sur l’état cognitif et émotionnel des personnes TSA.
– Implémentation et évaluation de la solution proposée.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LAAS-CNRS, Toulouse, France

Document attaché : 202411220830_Sujet-Stage-Mobilité-Inclusive.pdf

Détection et résolution intelligente des conflits pour une gestion autonome et efficace des systèmes IoT

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAAS-CNRS
Durée : 6 mois
Contact : nawal.guermouche@laas.fr
Date limite de publication : 2025-02-28

Contexte :

Sujet :
Ce stage se focalise sur la gestion des conflits induits par les services IoT qui soit sensible au contexte de l’environnement d’exécution. En effet, définir une priorité absolue, par exemple à un certain groupe d’objets, est très restrictif. L’objectif est de proposer une approche dynamique de détection et de résolution des conflits flexible qui tienne compte de différents paramètres tel que l’environnement des objets et les caractéristiques des services clients. Nous nous intéressons particulièrement à l’exploitation des techniques d’apprentissage automatique dans la détection et la résolution des conflits. Les étapes du stage sont comme suit :
• Faire un état de l’art sur la détection et la résolution des conflits dans les systèmes IoT et des outils de simulation existants
• Exploration et application sur des scénarios des modèles d’apprentissage automatique et les mécanismes d’attention pour la détection des conflits des services IoT
• Implémentation d’un outil de simulation et de résolution de conflits IoT

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LAAS-CNRS, Toulouse

Document attaché : 202411220827_Sujet-Stage-IA-Conflit.pdf

Stage M1/ M2 à l’IRIT- Toulouse: Développement d’Approches d’Apprentissage automatique pour l’Étude du Vieillissement à Travers le Comportement de Nage du Poisson ATK

Offre en lien avec l’Action/le Réseau : HELP/– — –

Laboratoire/Entreprise : IRIT, Université Toulouse Capitole
Durée : 6 mois
Contact : moncef.garouani@irit.fr
Date limite de publication : 2025-01-30

Contexte :

Sujet :
I. Contexte général et projet de recherche

Le vieillissement d’une population d’individus est associé à une augmentation de nombreuses maladies chroniques. Trouver des moyens de prévenir et de traiter ces maladies est un enjeu majeur pour la santé publique et la vie socio-économique. Dans le cadre de la recherche sur le vieillissement, notre laboratoire utilise le poisson African Turquoise Killifish (ATK) comme un modèle d’étude très pertinent, puisque sa durée de vie est seulement de 6 à 8 mois et présente un vieillissement holistique multi-organes très rapide. Au laboratoire, nous étudions le vieillissement de l’ATK notamment par l’étude de son comportement de nage spontanée par analyse vidéo. Nos résultats préliminaires montrent, au cours d’un suivi cinétique, clairement que l’ATK a un comportement de nage qui se modifie avec l’âge. Cependant, les grandes quantités de données générées par l’analyse vidéo rendent l’intelligence artificielle (IA) indispensable pour l’extraction de variables pertinentes, l’analyse et l’interprétation des données. Nous proposons dans ce projet de développer des approches d’apprentissage multimodal
(« Multimodal Machine Learning », MML) permettant d’identifier, à partir des données déjà générées, des combinaisons de comportements de nage qui évoluent avec l’âge. Nous devons relever plusieurs défis pour le MML en raison du caractère hétérogène des données longitudinale à traiter. L’encodage unimodale des données est crucial pour le MML et influence fortement son efficacité prédictive. L’identification et le tuning des encodeurs pour extraire les caractéristiques abstraites se limitent actuellement à des tâches unimodales. Dans ce projet, nous développerons (i) des stratégies d’intégration de données originales (sans homogénéisation) pour améliorer l’efficacité de nos analyses, (ii) une méthode de « meta-learning » pour identifier les encodeurs optimaux adaptés à chaque modalité, et (iii) une méthode d’explicabilité multimodale pour identifier les biomarqueurs les plus pertinents et comprendre les relations causales dans les flux de données. L’utilisation du MML appliquée à l’étude du comportement de l’ATK, nous permettra d’atteindre nos objectifs qui sont de (i) réaliser une modélisation longitudinale du comportement de l’ATK, (ii) prédire, en fonction des patterns de nage, la durée de vie d’un individu donné et (iii) son score de fragilité, et enfin (iv) évaluer l’efficacité d’une intervention thérapeutique, qu’elle soit nutritionnelle, génétique ou médicamenteuse.

II. Objectifs du Stage :

L’objectif du stage Master est de contribuer au développement d’approches d’apprentissage multimodal pour l’étude du vieillissement à partir des données comportementales du poisson African Turquoise Killifish (ATK). Plus précisément, le stage se concentrera sur les objectifs suivants :
• Exploration des Architectures d’Apprentissage Multimodal : Réaliser une revue de la littérature sur les architectures et techniques de fusion adaptées à l’intégration de données hétérogènes déjà générés.
• Analyse des Comportements de Nage : Étudier les relations entre différents paramètres comportementaux (vitesse, trajectoire, fréquence de nage) pour identifier les caractéristiques qui évoluent avec l’âge.
• Expériences sur l’Explicabilité Multimodale : Mettre en œuvre des approches d’intelligence artificielle explicable (XAI) pour comprendre comment les comportements identifiés influencent la prédiction de la durée de vie et du score de fragilité.
Le stage impliquera une revue approfondie de la littérature, la conception d’expériences d’apprentissage multimodal, l’analyse des données existantes et l’interprétation des résultats. Le candidat sélectionné travaillera en étroite collaboration avec notre équipe de recherche, acquérant une expérience pratique en apprentissage machine, en intégration de données hétérogènes et en IA explicable appliquée à la biologie du vieillissement.

Profil du candidat :
• Le/la candidat(e) doit être en Master 1/2. Il/elle aura un profil informatique avec de profondes connaissances en apprentissage automatique, avec un intérêt pour le travail interdisciplinaire.
• Compétences techniques : Solide bagage en apprentissage automatique, apprentissage profond et analyse de données.
• Programmation : Maîtrise des langages de programmation tels que Python et expérience avec des bibliothèques pertinentes (e.g., TensorFlow, PyTorch).
• Compétences analytiques : Excellentes compétences en analyse et en résolution de problèmes, avec un intérêt marqué pour la recherche multidisciplinaire.

Formation et compétences requises :

Adresse d’emploi :
Institut de Recherche en Informatique de Toulouse

Document attaché : 202411211601_Stage ML_ATK.pdf

Symposium GeoKIF (Formalisation des Connaissances et de l’Interprétation en Géomodélisation)

Date : 2024-12-17 => 2024-12-18
Lieu : ORLEANS

(english version below if needs be)

Bonjour,

Nous organisons un Symposium pour échanger sur le thème de la Formalisation des Connaissances et de l’Interprétation en Géomodélisation (GeoKIF).
L’événement se déroulera à l’ISTO-OSUC (Orléans) les 17 et 18 décembre 2024 avec deux événements clef :
– mardi 17/12 14h soutenance de thèse d’Imad Laouici sur le Cadre de Connaissances et le processus d’interprétation pour la construction de l’architecture 3D du sous-sol
– mercredi 18/12 [9h-16h30] séminaires sur la Géomodélisation et sur L’ingénierie des Connaissances (avec un atelier participatif sur Les systèmes de modélisation de demain)
Cet événement est co-organisé par l’ISTO (Institut des Sciences de la Terre d’Orléans), le LIFO (Laboratoire d’Informatique Fondamentale d’Orléans), et le BRGM (Bureau de Recherches Géologiques et Minières).

N’hésitez pas à consulter ce lien pour plus d’information pour l’organisation et pour vous y inscrire : https://evento.renater.fr/survey/symposium-geokif-registration-j7buaxsj
Les participations à distances sont les bienvenues, tout comme les rencontres sur place bien entendu !

Cordialement,

Gautier LAURENT
avec la participation de Christelle Loiselet [BRGM], Imad Laouici [ISTO/BRGM], Anaïs Lefeuvre-Halftermeyer, Thi-Bich-Hanh Dao, et Christel Vrain [LIFO]

——————————————————————————————————————————–
Dear colleagues,

We are organising a Workshop on the topic of Geological Knowledge and Interpretation Formalization (GeoKIF).
The event will take place at ISTO-OSUC (School of Earth, Envrionment, and Space at Univ. Orléans) on the 17th and 18th of December.
There are two main events:
– Tuesday 17/12 2PM: Imad Laouici’s Ph.D. defence on Geological knowledge framework and structural interpretation process for building 3D architectures of sub-surface
– Wednesday 18/12 9AM-4:30PM: conference on Geomodelling and on Knowledge Engineering, with a cooperative workshop on the topic of Next generation modelling systems.
This event is co-organized by ISTO, LIFO and BRGM.

Please don’t hesitate to visit this link for further information and registration: https://evento.renater.fr/survey/symposium-geokif-registration-j7buaxsj
Online participations welcome, visit in person most welcome too!

Looking forward to this event,

Gautier LAURENT
with participation of Christelle Loiselet [BRGM], Imad Laouici [ISTO/BRGM], Anaïs Lefeuvre-Halftermeyer, Thi-Bich-Hanh Dao, and Christel Vrain [LIFO]


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.