Vers des Modèles Graphiques d’Événements soutenables et explicables pour apprendre et raisonner à partir de séquences d’événements

When:
30/06/2024 – 01/07/2024 all-day
2024-06-30T02:00:00+02:00
2024-07-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 3 ans
Contact : julien.blanchard@univ-nantes.fr
Date limite de publication : 2024-06-30

Contexte :
Avec la transformation numérique de nos sociétés, de nombreux domaines ont recours à la modélisation et l’analyse de séquences temporelles d’événements, comme en marketing (analyse comportementale des utilisateurs en ligne), en santé (monitoring patient, pharmacovigilance) ou dans la finance (détection de fraudes). Saisir la dynamique de ces flux de données nécessite de découvrir les structures cachées qui les régissent. C’est l’objet de différentes techniques d’IA, par exemple les réseaux de neurones récurrents et les modèles transformers pour lesquels l’intérêt s’est accru rapidement ces dernières années. Mais les modèles d’apprentissage profond ont une empreinte environnementale conséquente de par la puissance de calcul qu’ils requièrent pour leur entraînement. Du fait de leur nombre gigantesque de paramètres, ils ont aussi l’inconvénient de ne pas être directement interprétables. Cette thèse, au contraire, s’inscrit dans l’effort de recherche pour une IA soutenable et interprétable puisque nous proposons d’utiliser des modèles graphiques d’événements (Graphical Event Models ou GEM) pour modéliser les séquences d’événements.

Sujet :
De manière générale, les modèles graphiques probabilistes [KF09] sont des outils de représentation de connaissances en présence d’incertitude. Introduits par Meek dans [M14], les modèles graphiques d’événements sont capables de décrire explicitement les dépendances temporelles entre événements, tant dans leurs relations structurelles que dans leurs propriétés dynamiques. Dans [GM16], Gunawardana et Meek définissent une classe particulière de GEM, nommée Recursive Timescale GEM (RTGEM), qui peut approximer tout processus ponctuel temporel multivarié satisfaisant des contraintes de régularité faibles. Surtout, ils proposent un algorithme pour l’apprentissage de ces modèles à partir de données de séquences d’événements. Les RTGEM ont déjà fait l’objet de travaux dans l’équipe DUKe : application dans le domaine de la sécurité [ADL19], apprentissage multi-tâches [ML19]. Ils sont actuellement mis en œuvre dans le cadre du projet CominLabs SPARS pour l’assistance à la modélisation de processus chirurgicaux.

Nous proposons de poursuivre ces travaux dans deux directions indépendantes : (1) l’inférence probabiliste, i.e. l’interrogation du modèle pour estimer la probabilité de variables non observées sachant celles observées, et (2) l’apprentissage à partir de données.

1. Inférence probabiliste soutenable et explicable
Les articles comme [GMX11] traitant de modèles précurseurs des RTGEM proposent d’utiliser un algorithme d’inférence approchée à base d’échantillonnage, en reprenant l’algorithme d’échantillonnage de [RGH05] ou un algorithme plus intéressant d’Importance Sampling adapté aux distributions de Poisson. Ces algorithmes n’ont pas encore été adaptés pour les modèles plus récents comme les RTGEM.
Une fois la réponse à la question posée au modèle obtenue par inférence probabiliste, il est possible de construire, comme pour tout modèle utilisé en IA, qu’il soit « boîte noire » ou pas, des indicateurs pour expliquer cette réponse. Les valeurs de Shapley sont des indicateurs de ce type [M23] qui ont été adaptés à des modèles graphiques probabilistes simples comme les réseaux bayésiens [HSB20], mais pas à des modèles plus complexes comme les RTGEM.
Dans cette thèse, nous nous proposons donc :
o de décrire de manière rigoureuse les types de questions l’on peut poser à un modèle graphique d’événements de type RTGEM, en nous inspirant par exemple de formalismes logiques [UM18] ;
o d’étudier l’adaptation des méthodes de type Importance Sampling pour répondre à ces types de questions de manière soutenable ;
o d’étudier l’adaptation de mesures comme les Shapley values pour que les sorties du modèle soient explicables.

2. Apprentissage soutenable
L’apprentissage de la structure et des paramètres d’un RTGEM nécessite de dénombrer les occurrences de suites d’événements dans les données. Il s’agit de déterminer par exemple combien de fois les événements A et B sont apparus ensemble dans les intervalles de 30 secondes qui précèdent un événement C. Comme de nombreuses combinaisons d’événements doivent être envisagées, l’apprentissage de la structure d’un RTGEM s’apparente pour partie à une tâche d’extraction d’épisodes, une classe particulière de motifs fréquents découvrables dans des séquences (voir [ONF23] pour un état de l’art). Nous proposons de tirer profit des algorithmes de ce domaine pour limiter la complexité de la procédure d’apprentissage de structure et la rendre plus soutenable. Parmi les approches récentes, on peut citer l’algorithme NONEPI qui extrait des occurrences d’épisodes disjointes [ONF21], et l’algorithme ONCE+ qui s’appuie sur une structure de données ad hoc pour accélérer la détection des occurrences [LPL19]. Les méthodes d’extraction de chroniques pourraient aussi s’avérer utiles pour notre problème [GBS20].
Dans cette thèse, nous nous proposons donc :
o d’étudier comment tirer au mieux parti des approches utilisées en fouille de données pour concevoir des algorithmes d’apprentissage de RTGEM plus soutenables que l’algorithme existant.

Les méthodes et algorithmes proposés durant la thèse seront implémentés dans la librairie C++ PILGRIM Evential. Cette librairie, dédiée aux modèles graphiques d’événements, fait partie de la librairie PILGRIM dédiée plus généralement aux modèles graphiques probabilistes (réseaux bayésiens, réseaux bayésiens dynamiques, modèles relationnels probabilistes). Les algorithmes implémentés seront validés expérimentalement avec différents benchmarks générés aléatoirement, ou issus de la littérature, et de datasets classiquement utilisés en Process Mining.

Références : voir le pdf en pj.

Profil du candidat :
Le sujet est à l’intersection de la Statistique et du Machine Learning. Le candidat doit donc avoir une solide expérience dans au moins l’un de ces domaines.
Autres compétences requises :
– bonnes capacités en conception d’algorithmes et en programmation C++
– très bon niveau (écrit et oral) en anglais
– capacité de synthèse et aptitudes à la communication (orale et écrite)
– capacité à travailler en équipe
– autonomie, rigueur et motivation pour la recherche.

Formation et compétences requises :
Le candidat doit être titulaire d’un master ou d’un diplôme équivalent en informatique.

Instructions de candidature : voir le pdf en pj.

Adresse d’emploi :
Polytech Nantes, rue Christian Pauc, 44306 Nantes, France

Document attaché : 202403041034_Sujet de thèse GEM 2024.pdf