Offre en lien avec l’Action/le Réseau : SIMDAC/– — –
Laboratoire/Entreprise : LIFO
Durée : 3 ans
Contact : Patrick.Marcel@univ-orleans.fr
Date limite de publication : 2025-02-26
Contexte :
De nombreux domaines nécessitent l’analyse de gros volumes de séquences de diverses complexités (en termes de périodicité, complétude, multivariée ou non, etc.) et en particulier de leur similarité. On peut citer les domaines aussi variés que le médical (e.g. stratification de patients, alignements de gènes), le social (analyse de trajectoires sémantiques), la science des données (génération et recommandation de pipelines d’exploration), etc.
Par exemple, le groupement de patients suivis sur de longues périodes peut être vu comme un problème de recherche et calcul de similarité sur des séquences complexes : les séquences sont apériodiques (la fréquence des rendez-vous médicaux n’étant pas fixe), multivariées (plusieurs informations sont enregistrées à chaque rendez-vous), incomplètes (les informations enregistrées peuvent varier d’un patient à l’autre).
Il est souvent nécessaire d’optimiser du calcul de similarités sur ces gros volumes de données de type séquences. Ce thème est à la croisée des domaines HPC (calcul haute performance) et analyse et exploration de données. Il recouvre différents challenges scientifiques : prise en compte de la spécificité des données (séquences, séries, trajectoires, etc.), définition de méthodes de réduction de dimensionalité et indexation, parallélisation des étapes du calcul de similarité, adaptation d’approches existantes (par exemple, sur séries temporelles ou données spatio-temporelles), etc.
Sujet :
Dans ce contexte, l’objectif de cette thèse est d’étudier différentes approches de recherche approximative pour le calcul de similarité de séquences complexes sur architecture HPC avec accélération GPU.
Parmi les approches, on s’intéressera plus particulièrement à utiliser et combiner des approches de Locality Sensitive Hashing (LSH), de réduction de dimensionalité, d’indexation, et d’échantillonage.
Profil du candidat :
Les candidats devront posséder un Master en informatique ou un niveau équivalent. Ils devront posséder un bon niveau en programmation, base de données, parallélisme et mathématique.
Formation et compétences requises :
Adresse d’emploi :
LIFO, Université d’Orléans
Document attaché : 202502261521_Sujet_de_th_se___approches_stochastiques_pour_le_calcul_de_similarit_s__de_s_quences_complexes (4).pdf