Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Cirad
Durée : 6 mois
Contact : gregoire.blanchard@cirad.fr
Date limite de publication : 2025-01-10
Contexte :
L’objectif de ce stage est de définir, extraire et organiser des données de traits phénotypiques et de distribution géographique des adventices tropicales (plantes qui s’établissent spontanément dans les systèmes tropicaux cultivés) afin de construire une base de données complète et exploitable pour décrire et comparer leur caractéristiques et leur diversité. Les plantes adventices des cultures tropicales ont un impact significatif sur la productivité agricole mais aussi sur de multiples services écosystémiques comme le maintien de la fertilité des sols, la réduction de l’érosion, la régulation des bioagresseurs etc. Une meilleure connaissance des traits phénotypiques des adventices tropicales permettrait d’améliorer notre compréhension de leur fonctionnement et de leur écologie, qui déterminent leur développement aux sein des cultures, leur réponse aux facteurs environnementaux et aux pratiques agronomiques, ainsi que leur distribution géographique. C’est donc une étape cruciale pour développer des stratégies de gestion efficaces.
Sujet :
Dans ce contexte, le stage a pour objectif de collecter, de traiter et d’organiser des données pertinentes des traits des plantes en utilisant des techniques de web scraping et le text-mining. La finalité du stage est de construire une base de données relationnelle structurée regroupant les traits des adventices tropicales qui sera un outil précieux pour les
chercheurs, permettant d’effectuer différentes analyses, pour une meilleure compréhension de la réponse des espèces adventices aux facteurs environnementaux et aux pratiques agricoles, ainsi que de leur impact sur le fonctionnement des cultures tropicales. Le/la stagiaire sera responsable du développement des scripts de web scraping en utilisant principalement le langage de programmation Python via des bibliothèques spécialisées. Une première étape sera d’évaluer et de comparer les performances spécifiques de différentes méthodes de text mining (Spacy, GLiNER, UniversalNER) pour l’extraction des entités visées dans le cadre de ce travail. Les méthodes retenues permettront d’extraire des informations spécifiques sur les plantes adventices et leurs traits phénotypiques et éventuellement leur répartition géographique. Les données seront ensuite normalisées et structurées de manière cohérente pour leur intégration dans une base de données relationnelle (PostgreSQL). Enfin, des analyses descriptives des données recueillies pourront être réalisées pour évaluer l’état et le volume des connaissances accumulées dans la base de données, et la distribution des valeurs de traits des espèces en fonction de leur distribution au travers des gradients environnementaux, géographiques et agronomiques.
Profil du candidat :
Formation de niveau Master 2 en cours dans le domaine de l’intelligence artificielle ou de la science des données.
Formation et compétences requises :
Adresse d’emploi :
Stage basé en Guadeloupe (station de Neufchateau, Capesterre-Belle-Eau) avec une mission sur Montpellier pour Digitagora.
Document attaché : 202412021735_Stage_DigitAg_Text_mining.pdf