Protocoles reproductibles et réutilisables pour l’analyse de données multimodales en santé

When:
30/06/2020 – 01/07/2020 all-day
2020-06-30T02:00:00+02:00
2020-07-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LRI
Durée : 3 ans
Contact : alban.gaignard@univ-nantes.fr
Date limite de publication : 2020-06-30

Contexte :
L’anévrisme intracrânien est une anomalie vasculaire cérébrale affectant 3,2% de la population Française. Alors que sa rupture peut conduire au décès ou à un handicap sévère, il n’y a aucun outil diagnostic. L’étude de ces pathologies nécessitent i) l’utilisation d’une grande variété de jeux de données acquises à différentes échelles (génome, tissus vasculaires, organe vasculaire cérébral, population) dans le cadre de collaborations multidisciplinaires et multi-site et ii) la conception de protocoles d’analyse complexes et variés. Il est crucial de pouvoir reproduire ces analyses avec un fort niveau de confiance sur des jeux de données. Cependant, le partage de données de santé est souvent freiné par les impératifs de protection des données personnelles et se heurte à des contraintes techniques (sécurité, volume). Ces contraintes peuvent cependant être limitées lorsque les protocoles sont suffisamment réutilisables pour reproduire des analyses in situ. Aussi, lorsqu’ils sont conçus pour être réutilisables, les implémentations de protocoles (ou workflows) fournissent la provenance des données analysées, et augmentent la confiance des scientifiques dans les résultats produits.
La reproductibilité et réutilisation de protocoles doit faire face à de nombreux défis. C’est lorsqu’un protocole est reproductible qu’il peut être échangé pour être réutilisé en totalité ou partie, ou adapté pour répondre à de nouvelles questions biologiques. La crise de la reproductibilité qui a éclaté il y a 15 ans [SPZA03, AQM+11] a mis en évidence l’incapacité à reproduire des résultats obtenus par des méthodes bioinformatiques pour des raisons très diverses (manque de documentation sur les outils utilisés, non disponibilité des bibliothèques…). Une série de bonnes pratiques a vu le jour, combinées au développement de systèmes capturant la provenance des outils, jeux de données et informations relatives à l’environnement [DCE+07, Boe15, GNT10, BCC+13].
Néanmoins, les protocoles sont conçus et implémentés sans cadre adapté. Les systèmes de workflows offrent des interfaces de développement mais aucun ne permet de garder la trace des workflows réutilisés lors de la construction d’un nouveau workflow. Il en résulte un nombre croissant de workflows dérivés de workflows pré-existants. Il est donc difficile d’identifier l’origine d’un protocole et de son implémentation et de maintenir les nombreuses implémentations de ces protocoles de façon cohérente et efficace.
Alors que de nombreux travaux se sont attaqués à la production de données FAIR (Findable Accessible Interoperable Reusable) [WDA+16, MNV+17, HKP+18], le concept central de protocoles FAIR n’a été considéré que très récemment [GSS+20, Fai20]. Les principes FAIR [WDA+16] doivent être étendus pour prendre en compte notamment le caractère modulaire des protocoles et de leurs implémentations.

Sujet :
L’étude de pathologies comme les anévrismes intracrâniens nécessite l’utilisation d’une grande variété de données et la conception de protocoles d’analyse complexes. La diversité de leurs implémentations rend leur maintenance et partage difficile et limite la confiance des biologistes dans les données produites. Reproduire et réutiliser les protocoles est pourtant crucial pour comparer systématiquement les résultats biologiques, adapter des protocoles à de nouvelles problématiques et répondre aux exigences des plans de gestion de données. L’objectif de cette thèse est de fournir (i) une large bibliothèque de protocoles organisés, (ii) un module de conception et d’exécution de protocoles reproductibles, réutilisables et citables (conception d’algorithmes d’indexation et de recherche efficace de motifs dans les graphes formés par les workflows implémentant les protocoles), (iii) une évaluation de l’approche et (iv) un ensemble de critères FAIR pour les protocoles.

Ce sujet est financé par le CNRS (projet R2P2, appel 80 prime) où le/la doctorant.e collaborera avec des chercheurs du Laboratoire de Recherche en Informatique (LRI, Saclay) et de l’Institut du Thorax (ITX, Nantes).

Mots-clés
Intégration de données biologiques, Réutilisation et échange de protocoles, workflows scientifiques et protocoles FAIR, Analyse de données multi-échelles.

Profil du candidat :
Master M2 en Informatique ou Bioinformatique.

Merci d’envoyer au plus tard le 30 Juin 2020 à alban.gaignard@univ-nantes.fr et cohen@lri.fr un dossier zip avec l’ensemble des pièces suivantes au format pdf : CV – Lettre de motivation – lettre de recommandation (ou nom et coordonnées d’une personne prête à vous recommander) -relevés de notes de L3, M1, M2. Dans le cas où votre dossier serait retenu une audition est à prévoir les 2 ou 3 juillet.

Formation et compétences requises :
Bonnes connaissances en bases de données (si possible en intégration de données), représentation des connaissances (RDF), algorithmique des graphes. Programmation Python. Très bonnes capacités à communiquer notamment dans un milieu interdisciplinaires. Capacité à échanger en anglais est un plus. Connaissances de systèmes de workflows scientifiques (NextFlow, SnakeMake, Galaxy…) est un plus.

Adresse d’emploi :
Laboratoire de Recherche en Informatique
Bât 650 Ada Lovelace, Université Paris Saclay, 91405 Orsay Cedex France

Document attaché : 202006151432_Sujet de thèse – 80 Prime.pdf