Apprentissage de représentations continues dans des corpus en langue spécialisée

When:

30/06/2018 – 01/07/2018 all-day

2018-06-30T02:00:00+02:00

2018-07-01T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : ADOCDoctorants

Laboratoire/Entreprise : LIUM, équipe LST
Durée : 3 ans
Contact : nicolas.dugue@univ-lemans.fr
Date limite de publication : 2018-06-30

Contexte :
Laboratoire d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)
Site : Le Mans
Directeur de thèse : Yannick ESTEVE (yannick.esteve[at]univ-lemans.fr)
Co-encadrant : Nathalie Camelin (natalie.camelin[at]univ-lemans.fr), Nicolas Dugué (nicolas.dugue[at]univ-lemans.fr)

Sujet :
https://lium.univ-lemans.fr/these2-lst-032018/

Contexte. Le travail de gestion documentaire est depuis plusieurs années en pleine mutation. Les connaissances métier sont de plus en plus digitalisées, sous des formats unifiés, et mises à disposition des utilisateurs ou du grand public. Ainsi par exemple, dans les hôpitaux parisiens, les dossiers des patients deviennent numériques, avec des formats unifiés [3]. Par ailleurs, à travers notre projet en cours avec le partenaire SNCF, nous voyons également émerger ce besoin de proposer un accès aux ressources métiers numérisées. Enfin, avec le lancement récent de la base ISTEX, socle de la bibliothèque scientifique numérique nationale, l’état français a affirmé sa volonté de mettre à disposition des chercheurs des corpus numériques de bonne qualité, organisés et enrichis [2].

Comme dans le cas d’ISTEX, cette digitalisation est en général accompagnée d’une réflexion sur l’organisation de ces corpus, les moyens d’y donner accès, et les méthodes pour en tirer une valeur ajoutée. Ainsi, des outils d’exploration de corpus, de cartographie [1, 9], des moteurs de recherche sont associés aux solutions de gestion documentaire.

Néanmoins, l’indexation et l’organisation (clustering/classification) en base documentaire de telles références métiers soulèvent de nombreux verrous scientifiques. En effet, ce travail passe par une bonne représentation des documents [10]. Il est donc en particulier important d’être capable de représenter le vocabulaire métier employé dans ces documents. Or, les vocabulaires employés dans ces documents sont spécifiques aux métiers. De plus, les données pour apprendre des représentations de ces documents sont bien souvent limitées. Enfin, ces données ne sont pas toujours accompagnées de ressources (lexiques, ontologies, catégorisation) validées par des experts, permettant ainsi de superviser le travail. Nous souhaitons donc dans cette thèse explorer cette problématique de représentation continue des documents dans le cadre de corpus en langue spécialisée. Nous considérerons également dans un second temps l’utilisation des méta-données des documents (citations, auteurs) pour enrichir leur représentation et ainsi améliorer l’organisation des bases documentaires.

Travailler avec peu de resources. La difficulté principale pour cette tâche est d’apprendre des représentations d’un vocabulaire spécialisé, potentiellement peu fréquent dans le corpus, ou bien sur un corpus de petite taille qui fournit donc peu d’exemples d’occurences. La tâche d’évaluation qui lui est associée relève de la même difficulté [14]. En effet, si les représentations continues sont bien évaluables sur le vocabulaire courant, il n’existe pas à notre connaissance de banc d’essai standard en considérant le vocabulaire de langue spécialisée. En ce qui concerne les représentations continues, la littérature peut nous fournir des pistes pertinentes dans ce contexte. Tout d’abord, il existe des méthodes qui permettent la construction automatique de dépendances sémantiques, voire de taxonomies [6], qui peuvent permettre de généraliser le vocabulaire [13].
Certains travaux proposent également d’utiliser ces ressources pour superviser l’apprentissage [5]. Ensuite, d’autre approches se penchent sur la combinaison de représentations pour celles des expressions composées [8]. Par ailleurs, il existe également des méthodes basées sur l’apprentissage de représentation pour des n-grams de caractère, de façon à pouvoir représenter des mots inconnus ou peu fréquents, même si ces résultats sont peu évalués dans ce cadre [4].

Une autre piste sérieuse pour utiliser au maximum les ressources à disposition dans de tels corpus, est d’exploiter les meta-données. Par exemple dans le cadre des articles scientifiques les informations d’auteurs et les citations entre articles.

Utiliser les meta-données. Jusque-là, les travaux réalisés sur l’organisation des ressources documentaires (de type scientifiques en particulier) organisaient thématiquement ces bases en utilisant en général séparément le contenu des documents [9], le réseau des citations entre documents, le réseau des collaborations d’auteurs. Ces trois sources de données ont été prouvées pertinentes et des tentatives ont été faites pour les utiliser conjointement [11, 12]. Néanmoins, à notre connaissance, il n’existe aucune approche permettant d’avoir une représentation continue unifiée pour les documents tenant compte de toutes ces informations, bien qu’il existe également des approches pour représenter de façon continue un noeud dans un graphe [7].

Résumé. Dans cette thèse, nous proposons d’étudier différentes représentations continues (de mots, de documents, de graphe) afin d’organiser des corpus en langue spécialisée. Le premier verrou scientifique considéré est celui de la représentation du vocabulaire métier employé dans ces corpus, dans le cas où le corpus est petit, et les fréquences du vocabulaire faibles. Dans un second temps, nous envisageons l’enrichissement de la représentation des documents via l’utilisation des méta-données, notamment les citations entre documents et les informations de collaborations entre auteurs dans le cadre de documents scientifiques par exemple.

Profil du candidat :
Goût pour l’apprentissage
Solides compétences en programmation
Notions en proba/stats
Intérêt pour le TAL

Formation et compétences requises :
Master 2
Programmation Python
Machine Learning

Adresse d’emploi :
Laboratoire d’accueil : Laboratoire d’Informatique de l’Université du Mans (LIUM)

Document attaché :

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Apprentissage de représentations continues dans des corpus en langue spécialisée