CDD/Post-doctorate at CEA: Machine/deep learning approaches for the elucidation of small molecule structures

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEA
Durée : 12 months
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2023-11-30

Contexte :
Mass Spectrometry (MS) based metabolomics is a powerful technology for the discovery of biomarkers that can stratify patients. Within the MetaboHUB French infrastructure for metabolomics and fluxomics, a significant effort is dedicated to the development of innovative computational methods, software libraries and workflows for the processing, analysis, and interpretation of metabolomics data.
Determining the 2D structure of a metabolite from MS data is a major challenge. Since spectral libraries of reference compounds are scarce, in silico strategies have been developed to match experimental spectra directly to molecules, for which the structure is known, but no spectra is available [1]. The current reference method relies on the prediction of a vector of chemical descriptors using a set of Support Vector Machines; this fingerprint can subsequently be matched to those from known compounds in databases [2]. Performances, however, remain currently limited to 30% of correct structures [3]. Recently, alternatives based on artificial neural networks have been suggested to further take into account the interactions between features [4].

[1] Nguyen et al. (2019) Recent advances and prospects of computational methods for metabolite identification: a review with emphasis on machine learning approaches. Briefings in Bioinformatics, 20, 2028–2043.
[2] Dührkop et al. (2015) Searching molecular structure databases with tandem mass spectra using CSI:FingerID. PNAS, 112, 12580–12585.
[3] Schymanski et al. (2017) Critical Assessment of Small Molecule Identification 2016: automated methods. Journal of Cheminformatics, 9, 22.
[4] Fan et al. (2020) MetFID: artificial neural network-based compound fingerprint prediction for metabolite annotation. Metabolomics, 16, 104.

Sujet :
The first task will focus on the benchmark of the recent prediction tools against the consortium’s data (peakforest.org), as well as against those from the CASMI challenge data [3]. The model will then be enriched with new input features and output molecular properties, and the architecture will be optimized to improve the performances. Finally, the algorithms will be implemented into FAIR software libraries and computational workflows for high-throughput and reproducible structure recommendation.
Main responsibilities:
– Identify the open source prediction tools
– Implement a pipeline for FAIR comparison of their performances
– Build a training database of all publicly available spectra
– Build a comprehensive list of molecular descriptors
– Propose alternative learning architectures to increase the prediction performances
– Implement the selected solution in FAIR software libraries and computational workflows

Keywords: machine learning, deep learning, cheminformatics

Profil du candidat :
Bachelor’s degree (Bac +5) or PhD in machine learning, deep learning, cheminformatics or computational mass spectrometry.

MetaboHUB and CEA are committed to promoting gender equality, and female candidates are encouraged to apply.

Formation et compétences requises :
– Proficiency in Python and PyTorch
– Familiarity with RDKit
– Familiarity with QSAR approaches (an advantage)
– Familiarity with Singularity containers (an advantage)
– Ability to work independently and collaborate effectively within a multidisciplinary consortium.
– Good communication and documentation skills.

Adresse d’emploi :
You will join the metabolomics data science team (Odiscé; odisce.github.io) at CEA Saclay and interact with the colleagues from the MetaboHUB consortium.

Document attaché : 202310271615_CDD_Offer_MetaboHUB_MS2learning_madics.pdf

Apprentissage collaboratif multiparadigme interactif pour l’analyse de séries temporelles

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : AgroParisTech – ICube
Durée : 12 mois
Contact : gancarski@unistra.fr
Date limite de publication : 2023-11-24

Contexte :
Projet ANR Hérelles “Hétérogénéité des données – Hétérogénéité des méthodes : Un cadre collaboratif unifié pour l’analyse interactive de données temporelles”

https://seafile.unistra.fr/f/6453ca212850438684bc/

Salaire : de 2000€/mois à 2300€/mois (net) en fonction de l’expérience.
Contact : Antoine Cornuéjols antoine.cornuejols@agroparistech.fr et Pierre Gançarski, pierre.gancarski@unistra.fr

Sujet :
La personne recrutée devra proposer et définir des mécanismes originaux permettant à des méthodes supervisées et non-supervisées de collaborer de façon efficace pour arriver à un consensus de classification. Les modalités d’échange d’information entre celles-ci devront être précisées. Elle devra aussi définir un protocole d’interaction entre l’utilisateur et les méthodes d’apprentissage à travers l’utilisation de contraintes. Enfin, elle devra implanter concrètement les approches proposées pour permettre le test et la validation de celles-ci. Un ingénieur dédié à la plateforme FoDoMuST l’aidera dans cette tâche.

Profil du candidat :
Doctorat en informatique et spécialisé en apprentissage automatique/fouille de données.

Formation et compétences requises :
– Connaissances solides en Science des Données et plus particulièrement sur les méthodes standards de classification et de clustering. Une première expérience sur l’utilisation de modèles collaboratifs/ensemblistes ou d’intégration de contraintes serait un plus.
– Bonnes compétences en communication verbale (anglais ou français) et écrite (anglais).
– Compétences interpersonnelles et la capacité à travailler individuellement ou en tant que membre d’une équipe de projet.

Adresse d’emploi :
Lieu : Saclay (Campus d’AgroParisTech, 22 place de l’Agronomie, 91120 Palaiseau) ou au choix
Strasbourg (ICube, 300 bld Sébastien Brant 37400 Illkirch)
Durée : Un an
Date : Au plus tôt

Document attaché : 202310261121_Sujet_HERELLES_2023.pdf

Postdoc in Human Factor in Data-Intensive Applications for Health at Lyon1

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LIRIS
Durée : 1 year
Contact : andrea.mauri@univ-lyon1.fr
Date limite de publication : 2024-01-31

Contexte :
We are looking to hire one Postdoctoral Researcher to work on Human Data-Intensive Applications for Health. The position will be based at the Université Claude Bernard Lyon 1 in the Laboratoire d’InfoRmatique en Image et Systèmes d’information ((https://liris.cnrs.fr/liris).

In particular, the candidate will be part of the Database Team (DB) and co-supervised by Prof. Angela Bonifati and Dr. Andrea Mauri.

Sujet :
As a part of the role, you work on the integration of machine and human intelligence to design healthcare data-intensive systems more scalable, efficient, effective, and sustainable. This includes the investigation of how to integrate different kinds of data (from social media, sensors, lab studies, clinical trials, interviews, etc..), how to embed technology in a usually human-driven process, and how to provide trustworthy human-machine interactions in data-intensive applications.

You’ll be responsible for writing academic papers, technical reports, as well as attending academic conferences or meetings to present your findings and serve as a representative for the team.

Profil du candidat :
A Ph.D. in Computer Science or related topics such as Data Management, Human-Computer Interaction, Human-Centered AI, etc..

Formation et compétences requises :
Provable fluency in at least one programming language, e.g., Python/R, Java, C++, Rust.
Curiosity and passion for learning
Not being afraid of multidisciplinarity and transdisciplinarity
Experience in the health domain is a plus.

Adresse d’emploi :
Bâtiment Nautibus
Campus de la Doua
25 avenue Pierre de Coubertin
69622 Villeurbanne Cedex

To apply send an email to andrea.mauri@univ-lyon1.fr and angela.bonifati@univ-lyon1.fr with attached a single PDF containing
– Cover letter in which you describe your motivation and qualifications for the position.
– A research statement (max 2 pages, excluding references) where you describe the research you would like to do.
– Curriculum vitae, including a list of your publications and the contact information of three references.

We strongly encourage interested candidates to contact us to learn more about the position before sending the application.

Postdoc (2y) Bayesian inference for cosmology: Inferring initial conditions of the local cosmic web

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : CRIStAL UMR 9189 – Lille, France
Durée : 24 months
Contact : pierre.chainais@centralelille.fr
Date limite de publication : 2024-01-26

Contexte :
Postdoc Jan.2024 – Dec. 2025

The project is part of the ANR Chaire IA SHERLOCK (Fast inference with controlled uncertainty: application to astrophysical observations) led by Pierre Chainais (co-funded by Agence Nationale de la Recherche (ANR), I-SITE, Centrale Lille Institut and Région Haut-de-France). The successful candidate will be jointly supervised by Jenny Sorce (CNRS Researcher in cosmology), Pierre Chainais (Professor, Centrale Lille) and Pierre-Antoine Thouvenin (Assoc. Prof., Centrale Lille) in the CRIStAL lab (UMR 9189), Lille, France.
Access to the medium scale computing center from the Universtiy of Lille is acquired, with the possiblility to apply for computing resources from the national flagship Jean Zay supercomputer. In addition, 7 million cpu.hours have been secured at TGCC on the Irene/Rome partition. They will be used to produce the simulations required to trained the surrogate model.

Sujet :
According to the standard cosmological model, about 95% of the Universe is dark. Recent large survey analyses reveal tensions with this model. For instance, the local measurement of the expansion rate and the estimate of the Universe homogeneity differ by more than three standard deviations from those inferred with the first light of the Universe. The cosmological heated debate is to work out whether these tensions are a signature of new physics or of systematic biases in the observation processing pipeline. Part of this pipeline relies on cosmological simulations to act as the missing ground truth. However, the simulations only statistically reproduce the local cosmic web. A new type of simulations, qualified as constrained, is emerging. Initial velocity and density fields of such simulations stem from observational constraints.
This post-doctoral project is aimed at inferring the initial velocity and density fields of the local cosmic web from today’s luminosity distances and observational redshifts measurements. This high-dimensional astrophysical inverse problem is challenging. In particular, it will leverage a large number of measurements (Bayer et al. 2023; Prideaux-Ghee et al. 2023). The absence of ground truth data calls for reliable estimators with associated uncertainty quantification. This motivates the use of Markov chain Monte-Carlo (MCMC) algorithms to access posterior distributions. The hierarchical model relies on a costly cosmological simulator to describe the evolution of cosmological objects from the initial conditions. A first step will be to replace the black-box simulator in the inference algorithm by a tractable surrogate model trained on a grid of simulations, in the spirit of (Dai et al. 2023; Jindal et al. 2023; Raissi et al. 2019). The second step will focus on the design of a high-dimensional MCMC algorithm to infer the parameters of interest (Coeurdoux et al. 2023a,b; Durmus et al. 2018; Vono et al. 2020).

Keywords. Inverse problem, cosmological simulation model, Bayesian inference, MCMC algorithms.

Profil du candidat :
PhD in signal/image processing, computer science or applied mathematics.

Formation et compétences requises :
The project requires a strong background in data science and/or machine learning (statistics, optimization), signal & image processing. Very good
Python coding skills are expected. A B2 English level is mandatory.
Knowledge in C++ programming, as well as experience or interest in parallel/distributed code development (MPI, OpenMP, CUDA, …) will be appreciated.

Adresse d’emploi :
CRIStAL / Centrale Lille Institut
Centre de Recherche en Informatique, Signal et Automatique de Lille (UMR 9189 CRIStAL),
Avenue Henri Poincaré
59655 Villeneuve d’Ascq, France

Contacts:
Pierre CHAINAIS (pierre.chainais@centralelille.fr),
€ http://pierrechainais.ec-lille.fr/
Jenny SORCE (jenny.sorce@univ-lille.fr),
€ https://jennygsorce.appspot.com
Pierre-Antoine THOUVENIN (pierre-antoine.thouvenin@centralelille.fr),
€ https://pthouvenin.github.io/

Applicants are invited to email the following documents as a single .pdf file to all the co-advisors:
• a detailed curriculum, including a list of publications;
• link to the PhD manuscript (or PhD project if upcoming defense);
• reports from PhD reviewers if available;
• a cover letter;
• references: recommendation letters or names of 2 researchers/professors recommending your application.
For further information, please contact the co-advisors of the project:
• Jenny Sorce, jenny.sorce@univ-lille.fr
• Pierre-Antoine Thouvenin, pierre-antoine.thouvenin@centralelille.fr
• Pierre Chainais, pierre.chainais@centralelille.fr.

Document attaché : 202310260740_postdoc_Bayes_cosmology_Lille2024.pdf

Développement d’IA pour la prédiction de besoins de lit dans les hôpitaux.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : école d’ingénieur ISIS Castres
Durée : 5 à 6 mois
Contact : imen.megdiche@univ-jfc.fr
Date limite de publication : 2024-01-26

Contexte :
Actuellement, le temps d’attente moyen dans les services d’urgence est alarmant, atteignant une moyenne de 9 heures, principalement en raison d’une gestion perfectible des ressources disponibles à l’hôpital. Il est essentiel de noter que 75 % des admissions à l’hôpital découlent d’admissions non programmées suite à des passages aux urgences.

Sujet :
L’objectif de ce stage est d’élaborer un modèle d’intelligence artificielle visant à anticiper les besoins en lits pour chaque service hospitalier suite aux admissions non programmées aux urgences. Actuellement, le temps d’attente moyen dans les services d’urgence est alarmant, atteignant une moyenne de 9 heures, principalement en raison d’une gestion perfectible des ressources disponibles à l’hôpital. Il est essentiel de noter que 75 % des admissions à l’hôpital découlent d’admissions non programmées suite à des passages aux urgences.
Ce stage s’inscrit dans un projet recherche avec l’entreprise Atout Majeur Concept (AMC). Nous envisageons de croiser plusieurs types de données issues du SI de l’entreprise pour propose une approche IA , basée sur du MultiTask Leanring afin de prédire des besoins en lits sur une période de 7 à 15 jours.
Le stagiaire sera chargé de : faire une revue des travaux connexes dans la littérature, mettre en œuvre l’intégralité de la chaîne de développement de l’intelligence artificielle et de produire un livrable à tester avec l’ entreprise AMC.

Profil du candidat :
Des compétences en pyhton pour la data science
Connaissances solides en IA .
Rigoureux et autonome.
Très bon niveau de communication orale et écrite (anglais/ Français )

Formation et compétences requises :
formation en IA ou machine learning requise ( master ou école d’ingénieur)

Adresse d’emploi :
95 rue firmin Oulès , 81100 Castres

Développement et évaluation d’une descente d’échelle statistique des prévisions météorologiques sur la Réunion avec des méthodes de deep learning

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherches Météorologiques
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2024-01-26

Contexte :
Les prévisions météorologiques opérationnelles sur les domaines Outre-Mer ont vu leur résolution spatiale augmenter de 2.5km à 1.3km à l’été 2022. Cette évolution a permis d’améliorer la performance des prévisions, en particulier pour les événements à enjeux tels que les cyclones tropicaux et les fortes pluies. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.

Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution (par exemple 2.5km ou 1.3km) et les prévisions haute résolution (par exemple 500m). Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutifs offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une descente d’échelle à 500m des prévisions sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Un premier stage en 2023 a permis de mettre en place les jeux de données et d’évaluer deux architectures : un réseau convolutif simple de type U-Net et un modèle de diffusion. Les premiers résultats sont encourageants et plusieurs pistes d’approfondissement et d’amélioration sont envisagées, qui feront l’objet du présent stage, parmi lesquelles :
1. l’intégration de contraintes physiques dans les réseaux
2. l’amélioration des modèles de diffusion et de leur coût d’inférence : des variantes telles que les modèles implicites (Song et al., 2021), la diffusion latente ou la distillation progressive (Salimans et Ho, 2022) pourront être implémentées
3. la descente d’échelle stochastique, au travers de la génération d’ensembles de prévisions
4. la descente d’échelle pour les précipitations.

Profil du candidat :
Le stage requiert un réel intérêt pour la prévision du temps. De bonnes compétences en statistiques également sont attendues. Le langage de programmation utilisé sera Python. Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, TensorFlow, …) serait un plus.

Formation et compétences requises :
Ecole d’ingénieur ou M2.

Adresse d’emploi :
CNRM, Toulouse.

Document attaché : 202310251324_Fiche-proposition-PFE_IENM_IA500m_2024.pdf

Transformation d’un modèle Structure fonction de pommier pour l’assimilation de données de phénotypage numérique

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP Institut, CIRAD, Montpellier
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2023-12-31

Contexte :
Les modèles fonctionnels-structurels de plantes (FSPM) prennent en compte la structure modulaire des plantes, leur fonctionnement interne et l’interaction avec l’environnement (Prusinkiewicz, 2004 ; Fourcaud et al., 2008 ; Louarn et Song 2020). Leur développement est motivé par l’idée que la structure tridimensionnelle des plantes forme son interface avec l’environnement et module sa croissance et sa productivité (Costes et al., 2006). Ils ont notamment été utilisés pour la modélisation d’arbres fruitiers (Costes et al., 2008 ; Allen et al., 2005 ; Lescourret et al., 2011 ; Boudon et al., 2020) chez lesquels la compétition interne pour les ressources entre organes nécessite d’avoir des représentations dynamiques spatialisées.
Le développement de FSPM répond à trois objectifs principaux (Louarn et Song 2020):
• Intégrer les connaissances de différentes disciplines, notamment la biologie végétale, la biophysique, l’écologie et l’informatique ;
• Comprendre le fonctionnement des plantes à différentes échelles, du méristème aux communautés végétales ;
• Développer des modèles prédictifs ou explicatifs pour répondre à des enjeux sociétaux tel que la modélisation des plantes dans des environnements spécifiques (panneaux photovoltaïques, serres, vergers, etc.), la compétition pour les ressources, l’introduction de perturbations (taille, bioagresseurs, etc.) et la définition d’idéotypes pour les sélectionneurs.
Un verrou majeur de cette approche est la paramétrisation du modèle qui rend difficile son adoption pour construire des outils d’aide à la décision pour la gestion des vergers (DeJong, 2019) et plus généralement qui freine son utilisation dans la communauté scientifique. Récemment de nombreuses initiatives visent à automatiser le phénotypage des plantes, mais se concentrent sur un ensemble limité de traits, souvent peu compatible avec la définition d’un FSPM (Streit et al., 2023)

Sujet :
L’objectif de ce stage sera de réaliser une première étape de reformulation d’un modèle FSPM d’arbre fruitier, MAppleT (Costes et al., 2008) pour préparer son couplage avec des données numériques issues de différents protocoles d’acquisition (LiDAR, imagerie aéroportée).
Les résultats attendus portent sur
(1) l’évaluation de la faisabilité de reproduire les séquences d’événements développementaux observées en fonction de génotypes différents à partir de reconstructions 3D issues de scans LiDAR en hiver et par des méthodes d’assimilation de données, basées sur du machine ou deep learning (i.e. CNNS, RNNs, LSTMs et Transformers).
(2) la ré-écriture des règles de développement et de ramification d’un modèle FSPM de pommier de façon à pourvoir les paramétriser automatiquement à partir de données issues du phénotypage.

Le stage débutera par une analyse bibliographique des traits accessibles par phénotypage pour la modélisation. Un bilan sera fait des différents traits mesurés par phénotypage LiDAR et imagerie qui seront mis en regard des paramètres des modèles de simulation. En particulier, les aspects de topologie de l’architecture des arbres, notamment leur ramification seront analysés.
– La modification du FSPM MappleT portera principalement sur les paramètres des règles de développement et de ramification des méristèmes formalisées pour l’instant par des règles stochastiques dans le modèle pommier. A partir de reconstructions construites issues de scans LiDAR en hiver, des méthodes d’assimilation de données, basées sur du machine ou deep learning, pour permettre de reproduire les séquences d’événements développementaux observées en fonction des génotypes seront développées. Pour modéliser et simuler ces séquences, différents types d’architecture de réseaux seront testés, (i.e. CNNS, RNNs, LSTMs et Transformers). Les séquences déduites de la reconstruction 3D devront prendre en compte l’incertitude des mesures. Les modèles initiaux de séquences de ramification, construits à partir de modèles de semi chaînes de markov cachées, seront utilisés pour pré-entraîner les modèles de réseaux. Ceux-ci seront évalués pour leur capacité à prendre en compte les effets génotypiques.

Profil du candidat :
– Master en maths-info.

Formation et compétences requises :
– Connaissances : programmation en langage Python, des connaissances en statistiques seront appréciées
– Compétences opérationnelles : Goût pour le travail en équipe et l’inter-disciplinarité
– Langues : français, anglais

Adresse d’emploi :
Avenue Agropolis – 34398 Montpellier Cedex 05, France

Document attaché : 202310241551_Sujet-Bourse-Master2-GIS-Fruits-2024.pdf

Révision de la fonction d’allocation du carbone du modèle V-Mango pour une meilleure prise en compte de l’effet des relations source-puits sur la croissance des fruit

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UR Hortsys et UMR AGAP Institut, CIRAD, Montpellie
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2023-12-30

Contexte :
Chez de nombreuses espèces fruitières, il a été signalé que les relations source-puits affectent sur la
croissance des fruits. La quantité des assimilats carbonés synthétisés par les feuilles (les sources)
qui est fournie aux fruits (les puits) dépend de l’équilibre entre l’offre des sources et la demande des
puits. Chez le pêcher par exemple, la masse des fruits dépend non seulement des assimilats carbonés
produits par la photosynthèse des feuilles situées à proximité immédiate du fruit, mais aussi des
assimilats carbonés provenant de parties plus éloignées de l’arbre (Marini et Sowers, 1994). Chez le
manguier, de précédentes études suggèrent une autonomie partielle des charpentières et des
branches fruitières (Grechi et Normand, 2019), tandis que d’autres études suggèrent un échange de
carbone entre les différentes parties de l’arbre à un niveau global (Stassen et Janse van Vuuren,
1997). Cette étude a pour but d’évaluer comment les relations source-puits d’une échelle locale
(branche) à une échelle globale (arbre) affectent la croissance des fruits chez le manguier.
Étant donné les interactions entre les processus qui se produisent à différentes échelles, la
modélisation apparaît comme une approche méthodologique intégrative puissante pour aborder cette
question.
Une approche de modélisation sera développée et utilisée comme cadre d’intégration pour
analyser un ensemble de données acquises à différentes échelles. Ces données sont issues de
plusieurs expérimentations et mesures réalisées sur des manguiers (cv Cogshall) à la Réunion i) pour
quantifier les sources et puits de carbone de l’échelle locale des axes feuillés jusqu’à l’échelle
globale de l’arbre (topologie des branches et charpentières, caractérisation des axes feuillés et de
leur environnement lumineux, nombre et répartition des fruits dans l’arbre, croissance des fruits, etc) ;
ii) pour numériser l’architecture 3D de la partie aérienne d’un arbre adulte ; et iii) pour acquérir une
cartographie dynamique de la biomasse sèche et des sucres non structuraux dans les différents
compartiments d’arbres adultes au cours d’un cycle de production. Le cadre de modélisation
s’appuiera sur un modèle structure-fonction du manguier (V-Mango : Boudon et al 2020 ; Vaillant
et al., 2022) qui a été développé pour simuler le développement architectural de l’arbre et la production
de fruits. La version actuelle du modèle considère l’arbre comme un ensemble de branches fruitières
indépendantes. La modélisation de la croissance des fruits est basée sur un modèle d’allocation de
carbone paramétré à l’échelle individuelle des branches fruitières. En particulier, les échanges de
carbone des axes feuillés individualisés vers les fruits environnants utilisent une version simplifiée de
la fonction d’allocation basée sur la distance proposée dans des travaux antérieurs (Reyes et al.,
2020, Lescourret et al., 2011). Toutefois, ils restent limités à des échanges au sein de branches
fruitières indépendantes. Du point de vue de la modélisation, le défi consistera à définir un modèle multi-échelle de la structure de la plante et à formaliser les échanges de carbone à différentes
échelles (locale et globale). L’intensité des échanges dépendra de l’équilibre entre l’offre des sources
et la demande des puits, ainsi que des distances entre les organes. Pour cela, les méthodes
d’estimation des distances entre organes dans le graphe de l’arborescence seront adaptées pour
prendre en compte les informations multi-échelles.
L’approche intégrative s’appuyant sur V-Mango permettra d’étudier plus en profondeur les
processus liés au carbone, des axes feuillés à l’arbre entier, et de quantifier les effets des relations
source-puits, et d’autres facteurs structurels, environnementaux ou biotiques, sur l’hétérogénéité de
la masse des fruits à la récolte. L’intégration de ces connaissances et leur formalisation dans le
modèle V-Mango ouvrira un large éventail d’applications. En particulier, V-Mango sera mobilisé pour
quantifier in silico l’effet de certaines pratiques culturales ou de certains bio-agresseurs affectant les
sources ou les puits.

Sujet :
L’étudiant formalisera et étudiera les effets des relations source-puits d’une échelle locale (axes
feuillés, branche) à une échelle globale (arbre) sur la croissance des fruits en utilisant le modèle V-
Mango et les ensembles de données disponibles. V-Mango, basé sur Jupyter notebooks et Python,
est disponible sur un environnement de modélisation virtuel (vmango-lab ;
https ://github.com/fredboudon/vmango-lab) qui permet de travailler de manière distribuée et
collaborative. Plus spécifiquement, le travail de l’étudiant consistera en les tâches suivantes :
• Structuration des données pour les rendre facilement utilisables pour les applications de
modélisation. Les résultats expérimentaux et la description des architectures doivent être convertis
en une base de données structurelle et temporelle compatible avec une représentation multi-
échelle, en utilisant, par exemple, des graphes arborescents multi-échelles (MTG).
• Révision de la formalisation des processus liés au carbone de V-Mango :
– Extension de la fonction d’allocation basée sur la distance afin de prendre en compte les
relations multi-échelles pour l’allocation du carbone entre sources et puits.
– Optimisation du calcul des distances entre les organes en utilisant des relations multi-échelles.
– Intégration de nouveaux compartiments de réserve pour représenter les racines et le vieux bois.
• Recalibrage du modèle, en tenant compte du fait que le nombre d’organes, qui définissent les
compartiments pour la procédure d’allocation, peut varier au cours de la simulation.
• Analyse de sensibilité du comportement du modèle en utilisant des architectures de manguiers
observées et simulées :
– Évaluation de l’importance des différents paramètres du modèle.
– Quantification et comparaison des échanges de carbone à différentes échelles.
– Quantification des effets des relations source-puits, modifiés par des pratiques culturales ou
bio-agresseurs, sur la variabilité de la masse individuelle des fruits à la récolte.

Profil du candidat :
– Bonnes notions de modélisation et de programmation, et connaissance du langage Python
– Aptitude à travailler en équipe pluridisciplinaire (agronomes, informaticiens)

Formation et compétences requises :
– Niveau Master (Bac+5)
– Statisticien(ne)/informaticien(ne) avec un goût pour la biologie, ou agronome/éco-physiologiste
avec des connaissances solides en informatique et en statistiques

Adresse d’emploi :
Montpellier et la Réunion :

– Campus international de Baillarguet, 34398 Montpellier Cedex 5 France
– Station de Bassin-Plat BP 180 97455 Saint-Pierre cedex

Document attaché : 202310241137_Offre de stage Cirad 2024_Modélisation_FR.docx

A decision support to correct anomalies in multidimensional and multirelational data on agroecology for animal and plant health

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Le Laboratoire d’Informatique, de Robotique et de
Durée : 6 mois (+ CDD 2 mois
Contact : alexandre.bazin@lirmm.fr
Date limite de publication : 2023-12-15

Contexte :
To ensure the success of the agroecological transition, farmers need to have access to knowledge about alternatives to conventional farming techniques. However, before a knowledge base (KB) can be used by farmers and scientific experts, it needs to be corrected of its anomalies.

Sujet :
The context of this internship is the Knomana KB [Silvie et al., 2021], which brings together 48,000 descriptions of pesticidal and antibiotic uses of plants, and aims to propose plant-based preparations to replace synthetic chemicals. Dictionaries are already available to correct values for its 31 data types. But, verifying data correction and consistency is too complex to be carried out manually. For example, an inconsistency between the pesticide plant, the protected system (e.g. corn crop), the bio-aggressor (e.g. insect) and the geographical location is enough to mislead a farmer. The method named Attribute Exploration (EA), developed by Formal Concept Analysis, can be used to detect and correct these anomalies [Saab et al., 2022]. EA expresses each piece of knowledge in the form of an implication rule, and identifies generalizations at different levels (e.g. all insects of genus X are controlled by plants of Family Y). The rules are presented to the experts, who validate or invalidate them in order to bring the BC into a coherent state.
The objective of the internship is to develop a software prototype for detecting and correcting anomalies in multidimensional and multirelational data. This prototype will enable to manipulate data and data types, then interact with the FCA4J library, for rule computation, and the RCAvizIR software, developed with the support of #Digitag (Master internships in 2022 and 2023) to present them in an order that facilitates correction work by experts.
The work will be conducted according to the design stages described by Sedlmair et al. 2012 (literature study, definition of the need in terms of a visual problem, proposal of a mock-up, development, deployment, validation).

* Michael Sedlmair, Miriah D. Meyer et Tamara Munzner. Design Study Methodology: Reflections from the Trenches and the Stacks. IEEE TVCG 18(12): 2431-2440, 2012.

Profil du candidat :
Student in Master studies (computer science or bioinformatics)

Formation et compétences requises :
Strong skills in programming and data analysis, with an interest for knowledge engineering, visual analytics, and to find alternatives to chemical pesticides and antibiotics in organic agriculture.

Adresse d’emploi :
The student will be integrated in the Web3 teams of LIRMM, in Montpellier, and will collaborate with researchers from Advance and Marel teams.