Post-Doctorant(e) Machine Learning – Natural Language Processing

When:

01/12/2017 – 02/12/2017 all-day

2017-12-01T01:00:00+01:00

2017-12-02T01:00:00+01:00

Jobs

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire Hubert Curien – UMR CNRS 5516 – Saint-Etienne (France)
Durée : 12 mois (extensible)
Contact : Francois.Jacquenet@univ-st-etienne.fr
Date limite de publication : 2017-12-01

Contexte :
L’équipe Data Intelligence du Laboratoire Hubert Curien de Saint-Etienne recrute un(e) post doctorant(e) dans le cadre d’un projet financé par le FUI22. Ce projet vise à développer un outil automatique d’extraction d’informations et de génération de comptes rendus à partir de transcriptions textuelles de captures d’échanges sonores entre les participants de réunions.

Les partenaires du projet sont :
* Viseo (http://www.viseo.com/fr)
* Vocapia (https://www.vocapia.com/)
* Synapse Développement (http://www.synapse-developpement.fr/)
* Co-work (http://www.co-work.fr/)
* Grenoble Ecole de Management (http://www.grenoble-em.com/)
* Laboratoire GREYC de Caen, équipe CoDaG (https://www.greyc.fr/fr/codag)
* Laboratoire Hubert Curien de Saint-Etienne, équipe Data Intelligence (https://laboratoirehubertcurien.univ-st-etienne.fr/en/teams/data-intelligence.html)

Sujet :
La personne recrutée devra explorer, concevoir et mettre en oeuvre des techniques d’apprentissage automatique permettant d’apprendre des modèles de générateurs de comptes rendus de réunions. On se basera sur des corpus textuels construits dans le cadre du projet. Une première version du système sera basée sur des algorithmes de génération de résumés par extraction, mais le travail du (de la) post-doctorant(e) devra se focaliser ensuite sur la conception d’algorithmes de génération de résumés par abstraction. Dans un résumé de texte par extraction, on cherche les phrases les plus pertinentes et on les utilise pour produire le résumé. L’approche par abstraction consiste quant à elle généralement à construire une représentation sémantique du texte à résumer, et à partir de cette représentation, à générer le texte du résumé. Le texte produit ne contient alors plus des phrases du texte origine mais des phrases dont le contenu sémantique est le même que celui du texte en entrée, des mots du résumé peuvent ainsi ne pas faire partie du texte initial. Depuis deux ans, le domaine du résumé par abstraction a été revisité à l’aide d’outils de deep learning. C’est cette approche que nous voudrions explorer à Saint-Etienne dans le cadre de ce projet FUI. Une difficulté par rapport aux approches qui commencent à émerger est qu’elles s’appliquent sur des corpus de textes assez propres alors que les transcriptions produites par les logiciel de speech to text ne peuvent pas produire des textes de cette qualité. De plus le corpus en cours de construction dans le cadre du projet n’est pas de taille très importante, ce qui est un problème en deep learning.

Un autre axe de travail important pour la personne recrutée sera également de combiner des travaux en analyse de sentiments avec les travaux résumé de textes développés dans le cadre de ce projet. Il s’agira d’étudier comment la détection de sentiments peut influencer la génération de résumés. On pourra ainsi imaginer de paramètrer le générateur de résumés pour ne résumer que les passages de la réunion qui ont été positifs.

Enfin, un dernier aspect à étudier sera l’évaluation de l’outil développé. Dans le domaine du résumé de textes, c’est la mesure ROUGE qui est classiquement utilisée. Dans le contexte des transcriptions de réunions, une telle mesure n’est pas forcément bien adaptée. Il sera donc nécessaire de mettre au point une mesure permettant d’évaluer la qualité des résumés produits.

Profil du candidat :
Le ou la candidat(e) doit avoir obtenu une thèse en informatique avec une expérience en apprentissage automatique et/ou en traitement automatique langage naturel.

Formation et compétences requises :
Compétences recherchées :
* Maitrise du domaine de l’apprentissage automatique, et si possible du deep learning, tant d’un point de vue théorique que d’un point de vue pratique (développement d’outils à base d’algorithmes variés de l’état de l’art)
* Fort intérêt pour le domaine du traitement automatique du langage naturel.
* Une connaissance du domaine de la génération automatique de résumés sera bien évidemment un plus.
* Capacité à rédiger des articles en anglais pour des conférences internationales de premier ordre.
* Maîtrise de la langue française car les réunions traitées par le système à concevoir seront toutes en français.
* Forte créativité.
* Autonomie et capacité à prendre des initiatives.

Adresse d’emploi :
La personne recrutée travaillera au sein de l’équipe Data Intelligence du laboratoire Hubert Curien, à Saint-Etienne.

Le dossier de candidature comportera :
– une lettre de motivation
– un CV détaillé
– des lettres de recommandation ou, à défaut, les nom et mail de personnes qui recommandent la candidature,
– tout document jugé utile.
à envoyer au format pdf simultanément à :
Francois.Jacquenet@univ-st-etienne.fr
Christine.Largeron@univ-st-etienne.fr
Marc.Bernard@univ-st-etienne.fr

Document attaché :

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Post-Doctorant(e) Machine Learning – Natural Language Processing