Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : ICube Strasbourg
Durée : 3 ans
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2025-05-19
Contexte :
Cette thèse s’inscrit dans le champ de l’apprentissage non supervisé ou faiblement supervisé appliqué aux données temporelles. Le clustering / classification, qui consiste à partitionner l’ensemble des objets analysés en groupes ou clusters, est une des approches les plus employées et repose sur une mesure de similarité entre les objets. Plus particulièrement, le clustering de séquences soulève des problèmes liés à la mesure de similarité entre deux individus. Par exemple, dans le suivi des cours d’eau, certains phénomènes répondent à une fréquence annuelle liée au cycle naturel de l’eau, mais peuvent être décalés dans le temps du fait de l’éloignement géographique et de la météorologie locale. Or, la mesure de similarité doit pouvoir prendre en compte ces potentiels décalages ou légère distorsions dans le temps. De nombreuses méthodes ont été proposées dans la littérature pour prendre en compte ces spécificités par exemple, Dynamic Time Warpping, Longest Common SubSequence , ou plus récemment des représentations par shapeletsou par réseau de neurones.
Sujet :
L’objectif principal de la thèse est de développer de nouvelles approches pour mesurer la similarité entre deux séries temporelles multivariées en prenant en compte des valeurs manquantes distribuées de manière hétérogène dans le temps et entre les variables. Il s’agira de définir des solutions pour intégrer l’information temporelle (espacement entre deux pas de temps, fréquences temporelles des mesures, …) dans le calcul de la similarité. Nous nous intéresserons également à la manière d’intégrer la connaissance de l’expert via des annotations, aussi appelées contraintes (par exemple, proximité/éloignement entre deux individus sur la base d’informations externes), portant à la fois sur des liens temporels et spatiaux entre différents individus, afin d’améliorer la correspondance entre le clustering obtenu et les attentes de l’expert. Ces approches seront expérimentées sur les données de suivi des cours d’eau, qui soulèvent différentes difficultés, du fait de leur nombre, de leur diversité, et de leur hétérogénéité à la fois spatiale et temporelle. On s’intéressera en particulier aux questions suivantes :
– clustering de séquences constituées de vecteurs de paramètres, sachant que ces paramètres ne sont pas mesurés toujours en même temps
– prise en compte des contraintes temporelles (saisons) ou géographiques (régions hydrographiques)
– couplage des données physico-chimiques avec les données biologiques ou hydrologiques (temporalités différentes)
– exploration des limites des méthodes en nombre et taille de séquences
Profil du candidat :
— Master 2 en Informatique
— Formation en sciences des données, fouille de données, apprentissage.
Formation et compétences requises :
— Connaissances solides en apprentissage automatique et en modélisation de connaissances.
— Bonnes compétences en programmation en Python ou R.
— Bonnes compétences de communication et à l’écrit en anglais.
— Un intérêt pour le sujet d’application
Adresse d’emploi :
UMR ICube, 67400 Illkirch (banlieue sud de Strasbourg, accessible en tram)
Document attaché : 202503231357_Suite_Adqeau.pdf