ReProVirtuFlow

Action ReProVirtuFlow

Reproductibilité des expériences d’analyse de données scientifiques : enjeux et défis

Responsables

Thématiques
Base de données (en particulier Provenance), Workflows scientifiques, Virtualisation, Algorithmique, Graphes

Données concernées
Biologie moléculaire (Plantes, microbiologie, génétique et phenotypiques) et données de physique (astronomie, physiques des particules)

Résumé
Face aux masses de données disponibles, à la multitude d’outils existants et au caractère complexe des protocoles d’analyse de données scientifiques, reproduire une expérience est particulièrement difficile, comme en témoignent de nombreuses études récentes. ReProVirtuFlow vise à faire un état des lieux complet sur les approches existantes dans ce domaine en considérant en priorité comme éléments de solutions: (i) les workflows scientifiques, (ii) la provenance des données, (iii) les machines virtuelles. Notre consortium regroupe des experts en bases de données, algorithmique et environnements virtuels et des responsables de plateformes et centre de collecte de données scientifiques (biologie INSB et physique IN2P3).

Objectifs
L’objectif du groupe de travail que nous formons est double. D’abord, nous souhaitons proposer un cadre de comparaison capturant l’état-de-l’art complet de la problématique de la reproductibilité d’analyse de données biologiques massives pour mieux déterminer les possibilités offertes par les solutions existantes pour résoudre (partiellement) les problèmes posés dans les différents niveaux de reproductibilité.
Le défi ici est notamment de prendre en compte toutes les approches y compris les approches récentes, très hybrides (papiers reproductibles [Sh14], provenance de scripts [MBC+14]). Nous préciserons les verrous scientifiques qu’il reste à lever dans le domaine de la reproductibilité. Ensuite, nous souhaitons confronter les solutions les plus abouties avec des données réelles et utilisées dans un contexte de production par plusieurs grandes plateformes françaises traitant des données biologiques. Nous considèrerons deux grands types de jeux de données impliqués notamment dans certains cas d’utilisation du projet Européen ELIXIR (http://elixir-europe.org) : (i) les jeux de données issus des plateformes de bioinformatique françaises gérées par l’IFB en particulier GenOuest où de nombreux workflows d’analyse impliquant de très nombreux outils sont utilisés par un nombre important d’utilisateurs ; la réutilisation sera étudiée dans le cadre des différents workflows de GenOuest mais aussi d’autres plateformes de l’IFB (en particulier les workflows de l’institut Pasteur) ; le jeu de données associé au projet d’analyse de données de séquençage RADseq, pour de la cartographie génétique notamment, sera utilisé pour son workflow principal qui subit des évolutions très fréquentes, liées à l’évolution de l’utilisation de différentes techniques de séquençage et à la prolifération des outils d’analyses ; (ii) les jeux de données de phénotypage issus de la plateforme INRA de phénotypage de plantes de Montpellier étudiant l’impact des changements climatiques sur la croissance des plantes génère des données massives (50 GB/jour, 11 TB/an).

Visitez le site web de l’Action ReProVirtuFlow


Journées en cours


Évènements à venir