Approches déclaratives efficaces pour l’extraction des motifs d’intervalles fermés

When:
31/05/2022 – 01/06/2022 all-day
2022-05-31T02:00:00+02:00
2022-06-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC CNRS UMR 6072
Durée : 3 ans
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2022-05-31

Contexte :
En fouille de données, l’extraction de motifs [7] vise à identifier des régularités dans des ensembles de données (datasets). Ces motifs permettent de faire émerger des relations implicites dans une grande masse de données. Il appartient ensuite aux data scientists et aux experts sur les données de déterminer si un motif est le résultat d’une simple corrélation, ou s’il est le fruit d’une relation directe entre ses composants, par exemple un lien de causalité entre deux composants. De nombreuses applications en fouille de données sont amenées à traiter des données numériques. Dans ce contexte, il est souvent nécessaire de passer par une étape de binarisation pour profiter des méthodes symboliques. Cette binarisation s’effectue soit en créant des attributs pour constituer des intervalles sur les valeurs des données [4], soit en partitionnant les valeurs dans le dataset en catégories selon différents paramètres : taille, composition de blocs au regard de leur classe, tests statistiques, entropie, etc. [2]. La binarisation entraîne une perte d’information par rapport aux données d’origine. Une technique comme l’ “interordinal scaling” permet de préserver l’information d’origine mais conduit à des données de grande taille. Afin d’avoir une méthode capable de traiter directement les données numériques, Kaytoue et al. [4] ont proposé la méthode MintIntChange capable d’extraire des motifs d’intervalles fermés réduisant ainsi la chaîne de traitement de données. Cependant, étendre MintIntChange pour être capable de traiter d’autres tâches de fouille avec de nouvelles contraintes s’avère une tâche non triviale.

Sujet :
La synergie entre la fouille de données et les paradigmes déclaratifs tels que SAT, la Programmation Par Contraintes (PPC) et la Programmation Linéaire en Nombre Entier (PLNE) a connu un grand essor au cours de la dernière décennie à travers différents travaux [5, 1, 8, 6]. L’avantage principal de ces approches réside dans leur côté déclaratif qui offre une large flexibilité pour s’adapter à des tâches variées en fouille de données. Ces approches incluent la possibilité d’intégrer de nouvelles contraintes spécifiées par l’utilisateur sans besoin de développer de nouveaux algorithmes spécifiques de résolution. L’objectif de ce travail de thèse est de définir des méthodes et de concevoir des outils permettant l’extraction de motifs d’intervalles dans un cadre déclaratif. En effet, travailler directement sur les données numériques est un enjeu majeur pour réduire les étapes dans la chaîne de traitement des données. De plus, les approches déclaratives sont particulièrement adaptées pour cette tâche. Dans le cadre de la programmation par contraintes, différents types de contraintes sont à la disposition de l’utilisateur pour définir le réseau de contraintes à résoudre : des contraintes prédéfinies dans le solveur ou des contraintes définies en extension par un ensemble de valeurs autorisées ou interdites. En outre, un utilisateur expert peut définir ses propres contraintes en établissant la sémantique de la contrainte, ainsi que l’algorithme de filtrage associé [3, 5, 1].

Les principales contributions attendues sont :
— Proposition d’une approche déclarative offrant un bon compromis entre efficacité et flexibilité pour l’extraction de motifs d’intervalles.
— Les approches proposées doivent être capables d’enrichir l’expérience de l’utilisateur en mettant en place des moyens (contraintes ou techniques d’apprentissage) pour éviter d’inonder l’utilisateur avec des motifs inintéressants.
— L’avantage principal des méthodes déclarative réside dans leur aspect générique et tout domaine applicatif générant des données numériques peut être considéré comme un objet d’étude. Néanmoins, nous visons dans cette thèse l’extraction de motifs dans des bases de données moléculaires où les molécules sont décrites par des descripteurs numériques.

Profil du candidat :
Le(a) candidat(e) doit être titulaire d’un diplôme master ou équivalent en informatique.

Formation et compétences requises :
Le(a) candidat(e) doit être titulaire d’un diplôme master ou équivalent en informatique avec des compétences dans le domaine de la programmation par contraintes, la programmation linéaire et la fouille de motifs. Le candidat(e) recherché(e) devra avoir de solides compétences en programmation C++, JAVA, et Python3. La maîtrise des solveurs comme OR-tools, SCIP, Choco serait un vrai plus.

Adresse d’emploi :
GREYC CNRS UMR 6072
6 Boulevard du Maréchal Juin
Bâtiment Sciences 3
Université de Caen Normandie
CS 14032, 14032 CAEN cedex 5

Document attaché : 202204092202_ademif.pdf