Normalisation automatique de variables issues de bases de données en agroécologie

When:
15/12/2022 all-day
2022-12-15T01:00:00+01:00
2022-12-15T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UR AIDA et UMR TETIS – #DigitAg
Durée : 6 mois
Contact : sandrine.auzoux@cirad.fr
Date limite de publication : 2022-12-15

Contexte :
Les études agro-écologiques génèrent de nombreuses bases de données hétérogènes en termes de structure et de contenu, qui sont difficilement exploitables et nécessitent une curation pour être mobilisées dans des approches statistiques ou de modélisation. La curation consiste à sélectionner les données les plus pertinentes et les enrichir de métadonnées nécessaires à leur compréhension pour pouvoir les rendre accessibles, partageables et réutilisables (principes FAIR).
Pour annoter les données et augmenter la précision des termes utilisés, un collectif interdisciplinaire de chercheurs du CIRAD a construit un dictionnaire des variables (Auzoux et al, 2018). Une variable est constituée de termes sémantiques issus des connaissances expertes et d’ontologies de référence. La liste des variables du dictionnaire a été définie pour faciliter la comparaison et l’analyse des données, et les liens avec les modèles de culture.

Un premier travail exploratoire sur la curation de bases de données en agroécologie, constituées à partir de 28 expérimentations sur la canne à sucre à La Réunion, a été réalisé lors d’un stage de Master 2 (Ngaba, 2022). Il a permis de tester et de valider une approche de fouille de textes pour automatiser la normalisation des variables créées et utilisées par les chercheur.e.s pour décrire leurs données.

Sujet :
L’objectif de ce stage est d’automatiser la labellisation des variables hétérogènes des chercheur.e.s issues des bases de données en agroécologie à partir d’une liste de variables standardisées (dictionnaire des variables). Plusieurs méthodes de fouille de texte seront mobilisées pour proposer les variables du dictionnaire les plus en phase avec les variables des bases de données :
– des mesures de proximité lexicale (Maedche et al., 2002),
– des méthodes de proximités contextuelles (Salton et al., 1988) fondées sur la description des variables issues des bases de données,
– des méthodes de proximités contextuelles fondées sur des corpus : des contextes seront constitués à partir de corpus textuels et de méthodes de plongements de mots (Mikolov et al., 2013) et de modèles de langues issus des méthodes d’apprentissage profond (Devlin et al., 2019).

Au-delà d’une extension de la méthode en proposant des méthodes originales de fouille de texte, un objectif important de ce stage consiste à proposer une approche générique pour labelliser les données et faciliter l’interopérabilité des bases de données en agroécologie.

Ce stage se déroulera en 3 grande étapes :
– Etape 1 : Appropriation des données et codes
– Etape 2 : Préparation de nouveaux jeux de données pour étudier la généricité de l’approche
– Etape 3 : Extension de l’approche de mise en lien de variable

Dans le cadre d’une démarche science ouverte, les codes sources et les données seront mises à dispositions sur la forge logicielle et le Dataverse du CIRAD. Les résultats de ce stage pourront donner lieu à deux publications scientifiques (Data paper et article scientifique).

Profil du candidat :
Le profil que nous recherchons, est un informaticien (Master 2 ou école d’ingénieur) ayant une formation en science des données ayant une maitrise des bases de données, des méthodes de fouille de texte et d’analyse de données. Une ouverture sur l’interdisciplinarité est indispensable pour pouvoir dialoguer avec les experts métiers.

Formation et compétences requises :
SGBD PostgreSQL, R studio, Python

Adresse d’emploi :
– Accueil à l’UMR TETIS à la Maison De la Télédétection sur le campus Agropolis de Montpellier
– Encadrement : 2 unités de recherche de #DigitAg (UR Aïda et UMR TETIS) sont impliquées dans cet encadrement. Le stagiaire évoluera dans une équipe pluridisciplinaire composée de deux informaticiens (Sandrine Auzoux et Mathieu Roche), un biostatisticien (Benjamin
Heuclin), et deux agronomes (Aude Ripoche et Mathias Christina).
– Période de stage : de février/mars à juillet/août 2023 (6 mois)
– Rémunération : indemnité au tarif en vigueur : 600 euros/mois x 6 mois = 3600 € + tickets restaurant
– 1 mission sera réalisée à La Réunion en milieu de stage pour présenter les premiers résultats et pour discuter plus en détail avec les encadrants et les partenaires réunionnais de la généricité de l’approche.

Document attaché : 202211181636_Stage_Digitag_TextMining.pdf