Construction d’un vocabulaire de l’Agroécologie via le traitement automatique d’un corpus document

When:
03/01/2021 – 04/01/2021 all-day
2021-01-03T01:00:00+01:00
2021-01-04T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : RoD/– — –

Laboratoire/Entreprise : Cirad
Durée : 6 mois
Contact : pierre.martin@cirad.fr
Date limite de publication : 01/03/2021

Contexte :
Le projet ASSET (Agroecology and Safe food System Transitions in Southeast Asia), coordonné par le Cirad et le Gret, a pour objectif d’accompagner et de promouvoir les approches territoriales de l’innovation, en partenariat avec l’ensemble des acteurs et en tirer des enseignements par une évaluation de leurs performances et impacts (2020-2025). Parmi ses activités, ASSET souhaite transformer une librairie existante en ligne ALiSEA (https://ali-sea.org) conçue pour des acteurs de la sous-région (Myanmar, Cambodge, Vietnam et Laos) en une plateforme de partage et de diffusion plus large des connaissances sur l’agroécologie, enrichie notamment par des travaux de recherche et d’experts, des traductions, des documents pratiques ou de vulgarisation, etc. Le corpus d’ALiSEA comporte actuellement 900 documents en anglais classés selon 6 approches de l’agroécologie, le pays et le type de document. Pour permettre la navigation au sein de ce corpus et accéder aux connaissances, la plateforme souhaite se doter d’un thésaurus documentaire. L’enjeu du stage est d’élaborer une première version de ce thésaurus.

La plateforme logicielle KEOPS (Knowledge ExtractOr Pipeline System) a, entre autres, été retenue pour instrumenter le développement de ce thésaurus. Cette plateforme logicielle propose différentes méthodes d’indexation de documents (en utilisant des mots clés libres ou un thésaurus, fouille de données basée sur un traitement lexical, etc.) et de classification.

Sujet :
L’objectif du stage est de produire une première version du vocabulaire contrôlé d’ALiSEA via l’analyse du corpus avec KEOPS, ce vocabulaire contrôlé étant le socle du thésaurus documentaire. Le stage sera co-tutoré par le Cirad et le Gret, avec d’une part une Convention de stage établie entre le Gret et l’organisme de formation, et d’autre part, un accueil par le Cirad.

En préalable à la construction du vocabulaire contrôle, l’étudiant conduira une revue de la littérature sur les méthodes de construction de thésaurus et les thésaurus de l’agroécologie développés et comparera les résultats d’indexation et de classification de KEOPS sur le corpus d’Alisea avec les thématiques considérées par ASSET. Cette évaluation inclut l’adéquation du thésaurus Agrovoc pour des classifications terminologiques diverses (e.g. expertes vs profanes).

Profil du candidat :
Etudiant de Master 2 (informatique) ayant des compétences solides en gestion des connaissances et text mining sensibilisé à l’agroécologie.

Formation et compétences requises :
Master 2 (informatique) ayant des compétences solides en gestion des connaissances et text mining

Adresse d’emploi :
Cirad -UR AIDA
Avenue Agropolis
34032 Montpellier cedex 5
France