Fouille de motifs structurés interactive

When:
31/01/2021 – 01/02/2021 all-day
2021-01-31T01:00:00+01:00
2021-02-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC, Université de Normandie Caen
Durée : 5-6 mois
Contact : albrecht_zimmermann@gmx.net
Date limite de publication : 2021-01-31

Contexte :
Fouille de motifs structurés interactive

Stage de recherche master de 5 ou 6 mois, GREYC, équipe CoDaG, Université de Caen Normandie, France

Contact : Albrecht Zimmermann (albrecht.zimmermann@unicaen.fr)

Encadrants scientifiques : Albrecht Zimmermann, Bertrand Cuissart, Abdelkader Ouali

Début: Février/Mars 2021

Gratification: selon les règles en vigueur (environ 560e par mois).

Ce stage de recherche sera réalisé dans le cadre du projet InvolvD, soutenu financièrement par l’Agence nationale de la recherche (ANR).
La fouille de motifs est une tâche consistant à trouver des régularités ou des motifs inattendus dans de grandes bases de données. La fouille de motifs structurés effectue cette tâche sur des données structurées comme des séquences, des arbres ou, ce qui est particulièrement important pour InvolvD, des graphes. Jusqu’à récemment, la fouille de motifs correspondait à une application répétée des étapes suivantes : l’utilisateur des données étudiées spécifie et paramètre des contraintes, puis il explore un large ensemble de modèles résultants et ajuste les contraintes et relance le processus.

Les candidats sont encouragés à nous contacter dès que possible. Le début du stage est prévu pour février ou mars 2021. Le dossier de candidature complet se compose des documents ci-dessous, qui doivent être envoyés sous forme de fichier PDF unique à Albrecht Zimmermann (albrecht.zimmermann@unicaen.fr), Bertrand Cuissart (bertrand.cuissart@unicaen) et Abdelkader Ouali (abdelkader.ouali@unicaen.fr).
– CV
– Une lettre de motivation d’une page (indiquant clairement la date d’entrée en fonction disponible ainsi que les qualifications, l’expérience et la motivation pertinentes)
– Certificats et relevés de notes universitaires (notes de licence et de master)
– Coordonnées de trois personnes de référence au maximum
– Eventuellement un certificat de langue anglaise et une liste de publications
– Attention : tous les documents doivent être rédigés en anglais ou en français.

Sujet :
Récemment, plusieurs chercheurs ont proposé d’intégrer le retour d’information de l’utilisateur pour modéliser de façon plus directe les contraintes de fouille. Ce retour d’information consiste généralement à rejeter ou à accepter des motifs individuels, ou à classer un petit ensemble de motifs. En plus du langage des modèles lui-même, les motifs ont une deuxième représentation dans ce cadre, qui les caractérise par rapport aux statistiques observées, aux instances couvertes, etc. Cette dernière représentation est utilisée avec le retour d’information de l’utilisateur pour apprendre une fonction de préférence, par exemple via un SVM ou un estimateur par régression. L’optimisation de cette fonction de préférence guide ensuite le processus d’extraction vers les zones de l’espace de recherche qui sont supposées contenir des motifs intéressants pour l’utilisateur, et loin de celles qui contiennent des motifs inintéressants.

Les travaux existants sur l’exploration interactive de motifs se limitent principalement à des motifs non-structurés, c’est-à-dire des ensembles d’éléments, qui peuvent être distingués plus facilement et pour lesquels des représentations ad hoc de motifs peuvent être construites sans grand effort. Par exemple, un itemet {i1, i2, i3, i4} diffère de {i1, i2, i3, i5} par la *présence* de i4/i5 et une représentation de modèle qui implique des indicateurs de présence peut être utilisée pour apprendre cela. Une séquence i1->i2->i3->i4 diffère de i2->i4->i3-

Profil du candidat :
Étudiant en master informatique ou mathématique appliquée, approfondissement apprentissage/fouille de données.

Formation et compétences requises :
Compétences requises :
– Une expérience dans l’apprentissage automatique, la fouille de données, la programmation ou les mathématiques appliquées est très appréciée.
– Le français et/ou l’anglais sont les langues de travail.

Adresse d’emploi :
Bd du Maréchal Juin. 14032 Caen Cedex, France