Post-doctorat : Polysemic Embeddings

When:

01/10/2019 – 02/10/2019 all-day

2019-10-01T02:00:00+02:00

2019-10-02T02:00:00+02:00

Jobs

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Durée : 1 an
Contact : nicolas.dugue@univ-lemans.fr
Date limite de publication : 2019-09-31

Contexte :
Le LIUM termine actuellement un projet de collaboration avec la Direction Innovation et Recherche de SNCF autour de la structuration d’un corpus de documents en thématiques. Les ressources lexicales fournies par SNCF ont permis au LIUM de prendre connaissance de la richesse et des spécificités du vocabulaire métier utilisé au sein d’entreprises telles que SNCF. Ce vocabulaire est parfois peu fréquent dans les corpus mais d’après les experts, très important pour caractériser les documents. Par ailleurs, ce vocabulaire contient des acronymes qui, pour environ 40% ne servent pas d’abréviations aux mêmes
groupes de mots. Le corpus de ce projet nous a permis de mettre en lumière trois verrous scientifiques majeurs pour le traitement automatique efficace de ce type de documents en utilisant les plongements lexicaux :
• Comment apprendre des plongements de bonne qualité pour du vocabulaire spécifique parfois peu fréquent ?
• Comment apprendre des plongements pour des acronymes spécifiques ET polysémiques ?
• Comment évaluer les plongements appris ?

Sujet :
Le premier verrou scientifique est relatif à l’apprentissage de plongements lexicaux en langue de spécialité. C’est un problème difficile qui, à notre connaissance, peut être approché soit via des modèles capables de prendre en compte efficacement les basses fréquences (Levy et al. 2015), soit via la production de connaissances (thésaurus, ontologies) de façon à limiter la taille du vocabulaire spécifique à apprendre et à mutualiser les fréquences (Perinet, 2015), soit en utilisant des ressources capables de guider l’apprentissage (Tissier et al. 2017). Dans notre cas, SNCF dispose de ressources produites par des experts : lexiques et dictionnaires d’acronymes. Nous proposons donc d’écrire un modèle capable de tirer parti de ces ressources particulières pour guider l’apprentissage de plongements de bonne qualité pour ce vocabulaire spécialisé.
Nous pensons par ailleurs que cette approche, enrichie par une approche multi-prototypique telle que dans Tian et al. (2014) peut également permettre de résoudre le second verrou. Dans ce genre d’approches, il s’agit d’apprendre un vecteur différent pour chaque sens d’un mot, chaque vecteur étant un prototype. Dans notre cas, le nombre de prototypes à apprendre pour chaque acronyme correspond au nombre de définitions présentes dans le dictionnaire d’acronymes, et chaque définition pourra être utilisée pour apprendre les prototypes qui leur correspondent. Le modèle que nous souhaitons proposer
aura en particulier la capacité de réaliser la désambiguı̈sation en même temps que l’apprentissage des prototypes.
Enfin, le dernier problème concerne l’évaluation des modèles appris sur ces corpus. Pour cela, SNCF nous permet d’accéder à des experts métier capables de réaliser des tâches d’annotation ou d’évaluation. Nous souhaitons nous baser sur des travaux préliminaires qui nous ont permis de rendre compte de la difficulté de ce travail et d’ouvrir des pistes (Dugué et al. 2019). Pour nous aider à
formaliser ce problème d’évaluation, nous pourrons faire appel à Jane Wottawa, linguiste experte des tests de perception.

Profil du candidat :
Nous recherchons un.e jeune docteur.e (ou quelqu’un prêt à soutenir) en informatique, spécialisé.e dans l’apprentissage automatique via des méthodes statistiques, habitué.e à travailler avec des données textuelles. En particulier, un.e candidat.e idéal.e aurait déjà expérimenté des modèles de plongements
lexicaux. Nous cherchons également un.e bon.ne programmeu.r.se Python capable de produire une librairie lisible et réutilisable. Enfin, le/la candidat.e doit très bien maı̂triser la langue française, puisque les documents et le vocabulaire sont en français et qu’il s’agira de pouvoir analyser les résultats dans ce contexte.

Formation et compétences requises :
Nous recherchons un.e jeune docteur.e (ou quelqu’un prêt à soutenir) en informatique, spécialisé.e dans l’apprentissage automatique via des méthodes statistiques, habitué.e à travailler avec des données textuelles. En particulier, un.e candidat.e idéal.e aurait déjà expérimenté des modèles de plongements
lexicaux. Nous cherchons également un.e bon.ne programmeu.r.se Python capable de produire une librairie lisible et réutilisable. Enfin, le/la candidat.e doit très bien maı̂triser la langue française, puisque les documents et le vocabulaire sont en français et qu’il s’agira de pouvoir analyser les résultats dans ce contexte.

Adresse d’emploi :
Laboratoire d’Informatique de l’Université du Mans

Document attaché : Post_doc_Polysemy.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Post-doctorat : Polysemic Embeddings