Découverte de règles associant données hétérogènes (images et textes) et retours utilisateurs

When:
01/05/2021 – 02/05/2021 all-day
2021-05-01T02:00:00+02:00
2021-05-02T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR GREYC et UMR TETIS
Durée : 3 ans
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2021-05-01

Contexte :
Cette thèse s’inscrit dans le cadre du projet Herelles financé par l’ANR (Agence Nationale de la Recherche), projet qui a démarré en novembre 2020. Herelles a pour but de définir un cadre théorique et opérationnel sur le clustering collaboratif avec une application phare portant sur des séries temporelles venant d’images de télédétection.

Dans ce cadre, une boucle d’interaction est mise en place entre les méthodes de clustering collaboratif et l’utilisateur afin que celui-ci puisse intervenir en ajoutant des contraintes sur les résultats des clusterings ; ces contraintes sont prises en compte dans les clusterings produits dans les itérations suivantes. Cette démarche permet à l’utilisateur de converger plus rapidement sur la découverte d’une information pertinente.

Cependant, l’utilisateur ne sait pas toujours formuler les contraintes exprimant son intérêt. Le but de cette thèse est de concevoir de nouvelles méthodes pour l’aider (i) à représenter les données en combinant des informations issues des images et textes, (ii) à prendre en compte les retours utilisateurs pour découvrir des règles explicitant l’intérêt de l’utilisateur.

Sujet :
Dans le cadre de ce projet de thèse, une représentation des objets (sols, bâtiments,…) sera proposée ; elle reposera sur une combinaison de descripteurs (issus des images et textes) permettant de “sémantiser” les clusters (labellisation des clusters). Par exemple, avec une image on repère des bâtiments ou une végétation, avec des textes, leurs fonctions ou leur type et on en déduit qu’un cluster représente des bâtiments industriels ou des arbres. L’ensemble de ces descripteurs formera une représentation originale et “sémantisée” qui associe une information calculée à partir des images satellites (compacité, spectre NDVI, nombre de points par clusters, etc.) et une information issue des ressources textuelles liée aux images (par exemple, mots-clés apportant une dimension thématique, toponymes apportant une dimension spatiale). En enrichissant la description des clusters, cette sémantisation va aider les utilisateurs dans l’analyse d’un clustering et de vérifier leur cohérence par rapport aux contraintes textuelles qui peuvent être extraites de documents dédiés (par exemple, “l’ouverture à l’urbanisation de la zone X de Montpellier est subordonnée à la desserte par des transports collectifs”).

D’autre part, ces clusters sémantiquement enrichis vont permettre de générer des règles de nature différente, intégrant à la fois cette sémantique et les retours de l’utilisateur. Ces retours sont obtenus de manière itérative, en s’appuyant sur le principe de la fouille interactive. Un aspect remarquable de cette démarche est que celle-ci permet d’apprendre, à partir des retours de l’utilisateur, son intérêt modélisable sous forme de règles. Ce résultat s’explique par le fait qu’un utilisateur peut être capable d’exprimer ce qui lui convient (ou pas) dans l’information extraite alors qu’il ne sait pas formaliser lui-même cet intérêt. Dans cette thèse, ce principe sera mis en oeuvre via le redescription mining. Le redescription mining propose “automatiquement” des règles intégrant différentes vues sur des objets. Ces vues sont ici l’information issue des images satellites, celle issue des ressources textuelles et les retours utilisateurs. L’originalité sera de combiner dans un même formalisme cette information hétérogène. Le but est de rendre possible la découverte de règles comme “l’utilisateur recherche des grandes zones végétales – clusters avec des points éloignés et ayant un indice NDVI élevé – et qui sont aussi des zones urbanisables”. Pour cela, il est nécessaire de prendre en compte le fait que l’une des vues d’une redescription capture les retours utilisateurs, ce qui nécessite le développement de nouvelles méthodes de redescription mining.

Profil du candidat :
Sciences des Données

Formation et compétences requises :
Master ou École d’ingénieur

Adresse d’emploi :
La thèse se déroulera à Caen ou à Montpellier (des déplacements entre les deux sites seront à prévoir).

Pour candidater, envoyer les documents suivants (exclusivement au format pdf) à Mathieu Roche (mathieu.roche@cirad.fr) et Bruno Crémilleux (bruno.cremilleux@unicaen.fr) :
– lettre de motivation expliquant vos qualifications, expériences et motivation pour ce sujet ;
– curriculum vitae ;
– relevés de notes de licence 3, de master (ou équivalent pour les écoles d’ingénieur) ;
– lettre de recommandations ou coordonnées de personnes (encadrants de stage, enseignants ou autre personne) pouvant fournir des informations sur vos compétences et votre travail.

Document attaché : 202104221427_SujetThese_Herelles.pdf