Analyse comparative de méthodes neuronales de normalisation d’entités en domaine biologique

When:
28/02/2022 – 01/03/2022 all-day
2022-02-28T01:00:00+01:00
2022-03-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Unité MaIAGE, INRAE, Université Paris-Saclay
Durée : 6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2022-02-28

Contexte :
La quantité de données textuelles ne cesse d’augmenter, et c’est en particulier le cas de la publication d’articles scientifiques. Face à cette énorme quantité de données produites, de nombreuses informations et connaissances sont perdues ou ne sont simplement jamais exploitées. L’extraction d’information est le domaine de l’intelligence artificielle visant à extraire et à structurer automatiquement des informations contenues dans des grandes quantités de textes.

Aujourd’hui, quelle que soit la tâche d’extraction concernée, les approches état de l’art s’appuient sur de l’apprentissage profond (deep learning). C’est en particulier le cas pour la tâche de normalisation d’entités, dont l’objectif est de classer des mentions extraites de textes dans des classes contenues dans une référence du domaine concerné, telles que des bio-ontologies (ex : la mention “monoclonal B cells” représente un , qui est une classe de l’ontologie OntoBiotope). Cette tâche permet de compléter/produire automatiquement des bases de données d’intérêt beaucoup plus précises pour le domaine d’étude concerné. Le domaine biologique/biomédical a d’importants besoins de ce genre (ex : bases de données de phénotypes, de biotopes bactériens, d’effets secondaires de médicaments, …), et est le domaine d’application principal pour la recherche en normalisation.

Sujet :
Malgré un intérêt croissant de la communauté de recherche en extraction d’information, la normalisation d’entités reste un défi de taille. En domaine biologique/biomédical notamment, on observe une rareté et une dispersion des exemples d’entraînement, qui posaient jusqu’à récemment des difficultés aux approches par apprentissage. Mais depuis quelques années, des méthodes par apprentissage neuronal profond (ex : BioSyn – Sung et al., 2020 ; C-Norm – Ferré et al., 2020 ; Pattisapu et al., 2020) ont réussi à se démarquer sur certains jeux de données d’évaluation (ex : NCBI Disease Corpus, Bacteria Biotope 4, Custom CADEC).

Néanmoins, ces méthodes sont encore trop rarement évaluées sur plusieurs jeux de données distincts. Des travaux de notre équipe de recherche ont pourtant montré récemment une certaine sur-adaptation, c’est-à-dire qu’une méthode est souvent performante sur un jeu de données, sur lequel elle a été développée et publiquement évaluée, mais pas sur d’autres. Dans ce stage, nous proposons donc d’étudier la robustesse de méthodes état de l’art sur plusieurs jeux de données, et d’analyser comparativement les erreurs qui semblent encore résister aux approches neuronales profondes récentes.

Dans ce stage, les tâches suivantes seront à réaliser :
– Exécution/Implémentation de méthodes neuronales état de l’art sur des jeux de données standards utilisés pour l’évaluation (choix d’au moins 2 méthodes et 2 jeux de données) ;
– Comparaison des scores obtenus et de leur significativité ;
– Analyse et catégorisation des erreurs produites ;
– Comparaison des profils de prédictions des différentes méthodes.

Le stagiaire aura accès aux serveurs de calculs du laboratoire, ou, au besoin, à des infrastructures de calcul haute performance (ex : Lab-IA).

Les travaux effectués pourront mener à une publication.

Profil du candidat :
Autonome en programmation Python.
Connaissances en sciences du vivant/biomédical et fondamentaux en algèbre linéaire (ex : espace vectoriel, opération matricielle).
Une connaissance de la théorie derrière les réseaux de neurones et des compétences dans au moins une des libraires Python standards PyTorch/TensorFlow serait un plus.
Une expérience en traitement automatique des langues naturelles ou plus particulièrement en extraction d’information serait appréciée.

Formation et compétences requises :
Master 2 / dernière année d’école d’ingénieur en bio-informatique, informatique, mathématiques appliquées ou équivalent.

Adresse d’emploi :
Centre de recherche INRAE de Jouy-en-Josas (78)