Unified structuration of heterogeneous and multimodals content for interactive mining

When:
01/09/2017 – 02/09/2017 all-day
2017-09-01T02:00:00+02:00
2017-09-02T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire L3i
Durée : 36 mois
Contact : mickael.coustaty@univ-lr.fr
Date limite de publication : 2017-09-01

Contexte :
Les données papiers et numériques produites par les grandes institutions publiques ou privées
intègrent différents types de contenus très hétérogènes dont la cohérence globale est difficile à
appréhender. Un exemple de telles données sont les contenus liés à l’activité de l’Université de La
Rochelle : celles-ci représentent un potentiel d’information riche qui nécessiterait d’être extraites,
structurées et agrégées pour renseigner ses partenaires (convention de stage avec les sujets,
termes des contrats de recherche, site web de l’offre de formation et des laboratoires, noms des
vacataires et enseignements assurés, entreprises d’origine, etc.). Un autre exemple pourrait
consister à analyser l’ensemble des contenus manipulés par une mairie afin de lui permettre de
retrouver les informations concernant une personne ou une entité, et proposer des services
innovant de recherche et de visualisation de ces contenus agrégés.
Dans cette thèse, nous souhaitons étudier la combinaison de mécanismes d’information spotting et
d’information retrieval afin de proposer des solutions pour rechercher et visualiser de l’information
de manière interactive. Le principe consiste, dans un premier temps, à extraire automatiquement
de l’information à partir des contenus présents dans les systèmes d’information (scan de
documents, informations structurées et non structurées), de l’organiser au sein d’une structure de
données complexe (tel que des graphes ou des hypergraphes) qui représentera les différents
types de liens qui peuvent exister entre des données (même type d’information, données
concernant une même entité, etc.) et de calculer des clusters de données proches spatialement ou
sémantiquement. Enfin, des outils de visualisation et de navigation interactifs seront testés afin
d’aider l’utilisateur à interagir avec le système mais également de comprendre ces interactions afin
de pouvoir proposer de nouvelles méthodes pour réorganiser l’espace de recherche.

Sujet :
Le propre de ce sujet repose dans le fait qu’il se situe à l’interface de deux domaines de
recherche : la reconnaissance, l’interprétation, et l’indexation de contenus numériques d’une part,
et l’étude des graphes de terrain, c’est-à-dire de réseaux réels modélisables par des graphes
d’autre part. C’est donc l’interface de ces deux domaines qui est ciblée avec la volonté de
proposer de nouvelles méthodes de structuration et d’indexation des contenus à partir des
méthodes utilisées sur des grands graphes (détection de communautés, de sous-graphes denses)
et enrichir les méthodes développées en analyse de graphes afin de les enrichir avec les
informations et les caractéristiques usuelles utilisées en analyse de documents et de contenus
numériques. Les verrous scientifiques se situent donc dans chacun de ces domaines et à
l’interface en mélangeant ces approches.
Analyse de contenus numériques : les travaux les plus récents en analyse de documents
s’intéressent à l’information spotting qui consiste à retrouver des contenus similaires sans les
reconnaître [2], et essayer de créer des liens entre des contenus textuels et des représentations
images [1] en plongeant leurs descriptions dans un espace de représentation commun. Cela
consiste donc à extraire des entités types à partir d’un corpus significatif de données (textes ou
images) et trouver un espace de représentation hybride entre texte et image. La question majeure
qui n’est pour le moment que peu adressée consiste à proposer un espace de représentation
commun, entre des éléments textuels et des éléments images, comme c’est le cas dans [3,4]. Cet
espace doit permettre de rapprocher des contenus similaires issus de documents nativement
numériques ou de contenus dématérialisés à l’aide de métriques usuelles. L’utilisation de
méthodes à base de réseaux profonds pourra être également envisagée [8].
Analyse de réseaux d’information et de graphes : une fois ces contenus résumés sous forme
d’entités types et de leurs représentations vectorielles, des liens seront proposés entre les
contenus les plus proches afin de construire un réseau d’information complexe. L’étude de ces
réseaux consiste ensuite à extraire des informations complexes implicites (liens entre ces sources,
détection de communauté ou de cluster dans des réseaux). Si les approches classiques de
clustering de graphes ne sont pas utilisables directement pour calculer des communautés dans
des graphes multiplexes (graphes avec plusieurs couches de différents niveaux sémantiques), des
approches de clustering consensuel, naturellement plus stables, peuvent être envisagées [5]. En
particulier, des systèmes récents proposent de détecter des communautés (qui pourraient
représenter des ensembles cohérents de données) à partir de recherche similarité entre des
noeuds basée sur la propagation des labels, en temps réel et dans un contexte big data [6,7].

Profil du candidat :
Master en informatique

Formation et compétences requises :
Pattern recognition
Graph
Deep Learning

Adresse d’emploi :
Laboratoire L3i
Université de La Rochelle
La Rochelle, France

Document attaché : sujet_these_2017_coustaty_final_cle4e7977.pdf