Clustering Ensemble sous Contraintes

When:

28/02/2021 – 01/03/2021 all-day

2021-02-28T01:00:00+01:00

2021-03-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO – Université d’Orléans
Durée : 5 à 6 mois
Contact : christel.vrain@univ-orleans.fr
Date limite de publication : 2021-02-28

Contexte :
Ce stage recherche est lié à un projet national InvolvD, financé par l’ANR (Agence National de la Recherche) débutant en Février 2021 et impliquant 4 laboratoires : GREYC et CERMN (Université de Caen), LABRI (Université de Bordeaux) et LIFO (Université d’Orléans). Il porte sur l’élicitation de contraintes pour l’apprentissage semi-supervisé.

Le stage sera au LIFO, Université d’Orléans, dans l’équipe Contraintes et Apprentissage.

Le projet InvolvD comporte aussi une bourse pour une thèse dont l’appel à candidature sera publié au Printemps 2021.

Sujet :
La classification non supervisée (clustering) a pour but de trouver des structures sous-jacentes présentes dans les données, comme par exemple une partition des données en groupes. Les observations appartenant à un même groupe doivent alors partager des propriétés pertinentes par rapport à l’application visée. Intégrer des connaissances du domaine peuvent permettre de guider le processus vers un clustering, plus proche des besoins de l’expert. Elles peuvent porter sur des paires de points exprimant que deux points doivent, resp. ne doivent pas être dans le même cluster, ou des contraintes sur les clusters (par exemple leur taille ou leur diamètre). Cela a conduit à un nouveau courant de recherche appelé Clustering sous Contraintes. De nombreuses méthodes ont déjà été développées pour intégrer des contraintes dans un processus de clustering. Certaines sont dédiées à un type de contraintes, d’autres sont plus génériques, souvent fondées sur des cadres déclaratifs comme la Programmation Linéaire en Nombres Entiers, la Programmation par Contraintes ou SAT.
Au lieu de produire un unique clustering sur lequel l’utilisateur peut donner un avis (feedback), on peut lui présenter plusieurs partitions et le laisser choisir des clusters qui lui semblent pertinents ou proposer la fusion de clusters qui partagent des propriétés similaires. Dans ce stage nous nous intéressons à l’intégration des retours de l’expert en présence de plusieurs partitions construites. A ces fins, nous devons développer deux aspects :
1) Interprétabilité: nous sommes intéressés par des applications en chemo-informatique où les données sont représentées par des descripteurs discrets. Pour faciliter la tâche de l’expert, nous devons développer des approches qui mettent en évidence les différences/similarités entre couples de clusters et ainsi proposent des interprétations des clusters, dont le niveau dépend de la connaissance structurelle ou sémantique disponible.
2) Fusionner différents clusters sous contraintes données par l’expert. L’idée est qu’il existe plusieurs partitions satisfaisant partiellement l’exert et qu’elles doivent être fusionnées dans une partition consensus satisfaisant toutes les contraintes. Nous considèrerons des méthodes purement déclaratives garantissant de trouver une partition consensus satisfaisant toutes les contraintes.
Ce stage de recherche a pour but de
• Produire un état de l’art sur les méthodes de clustering ensemble sous contraintes utilisateurs
• Proposer des explications, étant donné un ensemble de partitions
• Proposer et tester un premier prototype de clustering ensemble sous contraintes.

Profil du candidat :
Etudiante ou étudiant en master informatique ou école d’ingénieur en informatique.

Formation et compétences requises :
Compétences en machine learning/data mining. Bonnes capacités en programmation. Des connaissances en Programmation par Contraintes seraient appréciées.

Adresse d’emploi :
LIFO, Université d’Orléans

Document attaché : 202011250946_Master_internship.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Clustering Ensemble sous Contraintes