SIMDAC

 

Atelier SIMDAC (2025)

Similarités de données massives et complexes – Des défis sémantiques à l’optimisation pour le calcul haute performance

Responsables

Correspondant ComDIR : Christophe Bobineau

Thématiques

analyse et exploration de données, calcul haute performance, modèle de programmation

Données concernées

Données longitudinales (séquences, séquences temporelles, séries temporelles, séries d’images, etc.)

Contexte scientifique

L’idée de cet atelier est née d’une convergence d’intérêts des équipes PAMDA du LIFO et BDTLN du LIFAT autour des problématiques de calcul de similarité de séquences complexes ou massives.

L’équipe PAMDA regroupe des chercheurs en parallélisme et bases de données, s’intéressant aux traitements de masses de données pour assurer la qualité des données et l’efficacité des traitements. Dans ce cadre elle a mené plusieurs actions autour des études de similarités dans ses deux axes de recherche.

L’équipe BDTLN développe des travaux sur (i) l’exploration et l’analyse interactive de données, (ii) le traitement automatique des langues naturelles et (iii) la représentation, l’extraction et l’exploitation de services et de connaissances. Dans le cadre du présent projet, elle amènera des compétences autour de la définition et l’apprentissage de similarités sur des séquences complexes.

Nous avons développé plusieurs collaborations de différentes natures en lien avec les études de similarité :

  1. Travaux LIFO/LIFAT sur la parallélisation d’algorithmes de similarité sur des trajectoires
  2. La thèse de Sébastien Rivault (LIFO) “Parallélisme, équilibrage de charges et extensibilité dans le traitement des mégadonnées sur des systèmes à grande échelle”
  3. Projet APR-IA BioSkel Framework HPC pour la biologie avec le CBM et le CHU d’Orléans (applications de transcriptomique)
  4. Collaboration avec l’université de Pise sur des projets de modèles de programmation parallèle pour des algorithmes de similarités
  5. Thèse de Clément Moreau (LIFAT) sur la fouille de trajectoires sémantiques
  6. Projet APR-IR Optimedias portant notamment sur l’étude de trajectoires de patients atteints de SLA.

À partir des expériences issues de nos différentes actions, il est apparu essentiel de définir une approche originale pour concevoir des solutions d’analyse de données fondées sur l’étude des similarités, en intégrant tous les enjeux de telles études. Cette approche innovante vise à considérer à la fois la nature et la qualité des données, la définition des mesures de similarité (distances), ainsi que les besoins de performance pour traiter la complexité des calculs et les vastes volumes de données à analyser. Si des travaux s’inscrivant dans cette direction, dont on pourra s’inspirer, existent pour les séries temporelles, il n’en existe pas, à notre connaissance, pour des séquences complexes.
Si de tels travaux ont été menés récemment sur des séries temporelles, SIMDAC vise plus spécifiquement des données séquentielles, c’est-à-dire des données longitudinales non-régulièrement échantillonnées, composées de descriptions complexes (non-réductibles à un espace vectoriel).
L’Atelier se positionne ainsi comme un espace de rassemblement pour une communauté scientifique pluridisciplinaire, incluant des chercheurs en méthodes théoriques, en calculs haute performance et en domaines applicatifs. Cette collaboration permettra d’aborder les études de similarité dans une perspective transversale pour définir de nouvelles approches des algorithmes de similarités.
Les géosciences représentent un domaine d’application clé pour notre proposition d’atelier. Le BRGM et l’ISTO, en tant qu’unités partenaires, sont également impliqués dans une proposition d’atelier « Sciences de la donnée pour les géosciences » avec le LIFO. Ces deux ateliers se complètent autour de l’axe « similarités », mais adoptent des approches distinctes : notre atelier vise la structuration d’une thématique spécifique, tandis que le second répond aux problématiques globales des données en géosciences. Cette complémentarité ouvre des perspectives de collaboration sur les points communs tout en poursuivant des objectifs spécifiques différenciés.

 

Site de l’Atelier SIMDAC en cours de construction…


Évènements à venir