Ingénieur de recherche/Post-Doc confirmé en Traitement Automatique des Langues. Mise au point d’un

When:
15/09/2021 – 14/09/2021 all-day
2021-09-15T00:00:00+02:00
2021-09-15T00:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN (issu le 1-1-21 de la fusion du LISMI et d’u
Durée : 12 mois
Contact : anne.vilnat@lisn.upsaclay.fr
Date limite de publication : 2021-09-15

Contexte :
Nous recherchons un ingénieur de recherche/post-doctorant expérimenté pour travailler au sein du laboratoire LISN du CNRS et de l’Université Paris-Saclay, au sein du groupe ILES, en Traitement Automatique des Langues (TAL).

Il s’agit de travailler sur un projet d’assistant virtuel d’enseignement (chatbot dédié à l’éducation et la formation), qui fait l’objet d’une collaboration entre le laboratoire et l’entreprise The AI Institute qui travaille sur la mise au point de https://professorbob.ai/.
Ce projet est soutenu par la SATT de Paris-Saclay dans le cadre des projets de maturation.

Sujet :
Le but global du projet est d’assister un enseignant en l’aidant à répondre à des questions nombreuses et répétitives des apprenants. Il faut donc apprendre à répondre aux questions, en s’appuyant sur des données fiables, fournies par les enseignants. En s’appuyant sur les travaux récents dans le domaine du TAL, on sait qu’il est possible d’améliorer les systèmes classiques et basiques de réponses à des questions. Cependant, les données au sein des quelles les réponses devront être trouvées ne sont pas les données classiques utilisées dans les campagnes d’évaluation, mais des données en lien avec la discipline en cours d’apprentissage.
Dans ce contexte, il faut d’abord recueillir une importante quantité de données, afin de constituer un grand nombre d’associations de questions et de réponses, pour ensuite mettre en œuvre des technologies de TAL pour associer la bonne réponse à une question posée.
Dans une première étape, le travail consistera donc à formater les données pour constituer un corpus puis à modéliser comment constituer cet ensemble de paires question/réponse partir de données structurées ou non structurées en relation avec la discipline en cours d’apprentissage. Les données sont issues de sources diverses : livres universitaires, polycopiés de cours, sites autorisés en lien avec la discipline en cours d’apprentissage par l’apprenant. Il faudra ensuite évaluer quelles sont les modèles les plus adéquats . La difficulté vient également du fait que l’on souhaite ensuite pouvoir généraliser les recherches, et donc minimiser le travail qui sera à refaire quand on veut transférer le système soit à une autre langue, soit à une autre discipline.

Profil du candidat :
Niveau de Formation : Doctorat avec de l’expérience
Expérience en encadrement souhaitable

Formation et compétences requises :
Compétences Requises
• Connaissance des les outils du TAL :
◦ Modèles Deep Learning: connaissances théoriques et manipulation avancée des RNN, Auto-encoders, Transformers, etc..
◦ Bibliothèques et frameworks Machine Learning comme NLTK, Spacy, Scikit-learn, Keras, Tensorflow, Pytorch, etc..
• Algorithmique: bonne connaissance des algorithmes classiques sur les textes, arbres, graphe
• Statistiques: connaissances des techniques d’échantillonnage
• Anglais scientifique courant
• Compétences supplémentaires souhaitables : Moteurs de recherche et traitements textuelindexation, utilisation d’ElasticSearch ou SolR, formalisation et recherche d’expressions régulières

Adresse d’emploi :
LISN, rue du Belvédère, campus universitaire Université Paris-Saclay

Document attaché : 202107131011_poste1.pdf