Wasserstein embeddings for language model visualization and document clustering

When:

20/03/2019 – 21/03/2019 all-day

2019-03-20T01:00:00+01:00

2019-03-21T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire Hubert Curien
Durée : 3 ans
Contact : charlotte.laclau@univ-st-etienne.fr
Date limite de publication : 2019-03-20

Contexte :
En intelligence artificielle, une part importante de la recherche en traitement automatique de la langue (par la suite NLP) consiste à trouver des modèles permettant de traiter de très grands volumes de données textuelles (ex: classification de textes, chatbot, questions/réponses, etc.). Pour cela, l’état de l’art consiste en deux réseaux de neurones successifs. Un premier, peu profond et entraîné de manière non supervisée, apprend à associer les mots d’une langue à un point dans un espace euclidien de 100 à 300 dimensions (word embeddings) – deux mots sémantiquement proches se voient associer deux points proches. Ces représentations modélisent la sémantique latente d’une langue – elles sont ensuite utilisées dans d’autres réseaux (profonds et entraînés de manière supervisées), ad hoc à chaque tâche de NLP visée.

Sujet :
Dans cette thèse, nous nous intéressons à améliorer les représentations de mots dans ces différents réseaux de neurones. Les questions posées par les limitations des représentations actuelles sont les suivantes : Comment observer en deux dimensions, pour mieux les comprendre, les vecteurs de mots d’une langue avec le minimum de pertes de régression (alternative aux approches PCA et t-SNE) ? Comment mieux modéliser les mots rares (rareté dans la langue ou par appartenance à un domaine de spécialistes) ? Comment gérer la polysémie suivant le type de document considéré, quand un simple mot peut revêtir différent sens suivant le contexte d’emploi ? Pour cela, nous nous intéresserons aux espaces de Wasserstein comme un espace de représentation intermédiaire avant de replonger les mots dans le plan. Nous nous intéresserons également à l’apprentissage conjoint de plongements de mots et de catégorisation de documents de domaine (Web, santé, et sécurité) dans un espace de Wasserstein – dans ce contexte, les mots pourront revêtir des représentations différentes suivant la catégorie dans laquelle ils sont employés.

Profil du candidat :
Le(a) candidat(e) devra posséder des connaissances solides en apprentissage automatique avec notamment de bonnes bases en apprentissage statistique et en mathématiques. Il devra également avoir un bon niveau en programmation python et être capable de développer des outils efficaces potentiellement complexes. Le candidat devra aussi posséder un bon niveau d’anglais et avoir à la fois un intérêt pour des aspects théoriques et pratiques.

Formation et compétences requises :
Voir profil.

Adresse d’emploi :
Laboratoire Hubert Curien, UMR 5516
Saint-Etienne

Document attaché : Proposition_Thèse_1819.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Wasserstein embeddings for language model visualization and document clustering