Actions en cours

Apprentissage, opTimisation Large-échelle et cAlculs distribuéS

Acronyme : ATLAS

Responsables :

Résumé :

L’objectif de la fouille de données est la recherche d’informations pertinentes dans de grandes masses de données afin d’aider à la décision et à la prévision. Il s’agit à chaque fois de développer de nouveaux outils pour prendre en compte la nature des données analysées qui peuvent être extrêmement complexes, par exemple hétérogènes et/ou présentant une structure de dépendance qu’il convient d’être capable de modéliser. L’Action ATLAS sera centrée autour de quatre axes principaux : collecte des données, apprentissage de représentation, optimisation pour l’apprentissage, calcul haute performance et réunira des collègues statisticiens, informaticiens, traiteurs de signaux, neuroscientifiques ainsi que des médecins, des biologistes et des industriels.

Environmental Acoustic Data Mining

Acronyme : EADM

Responsables :

Résumé :

La bioacoustique nécessite le croisement de disciplines et méthodes d’indexation et de modélisation HPC. A cette fin, cet atelier propose de développer une infrastructure complète de gestion de masse de données bioacoustiques : stockage, traitement, représentation collaborative et manipulation efficace, visualisation et synthèse automatique. En exemple de produits informatifs à forte valeur ajoutée : produire des indices écologiques liés à une espèce sensible au réchauffement climatique, ou analyser la qualité d’un écosystème par transcription de l’acoustique en indices sémantiques de haut niveau. Ces défis technologiques et écologiques imposent une innovation théorique en modélisation et analyse stochastique de données et le développement de systèmes efficients pour les sciences environnementales. Il n’existe pas à ce jour de solution algorithmique complète capable de traiter efficacement, en temps et en espace, l’explosion de ces données bioacoustiques. Pour cela EADM fédère des experts en masses de données, informatique fondamentale, traitement statistique du signal, classification automatique, bioacoustique et écologie.

Entrepôts et analyse de documents

Acronyme : ADOC

Responsables :

Résumé :

Depuis de nombreuses années, diverses disciplines des sciences humaines et sociales (SHS) produisent et mettent en valeur des corpora de documents variés et, pour certains, très volumineux. Au-delà de leur valorisation et de leur diffusion, diverses analyses (statistiques, de réseaux…) ouvrent de nombreuses perspectives scientifiques originales aux chercheurs en SHS. Les entrepôts de données et l’analyse en ligne, et notamment les entrepôts de données textuels et le textual-OLAP, sont susceptibles de répondre à ces besoins. L’objectif de cette action est de constituer un réseau pluridisciplinaire de laboratoires de SHS et d’informatique qui s’intéressent à cette problématique afin de partager données, verrous scientifiques, méthodologies et solutions.

Imagerie Hyperspectrale

Acronyme : Imhyp

Responsables :

Résumé :

L’imagerie hyperspectrale est utilisée dans un nombre croissant d’applications, touchant toutes les disciplines, de la télédétection satellitaire à la biologie en passant par le biomédical ou le contrôle qualité. L’exploitation optimale de ces données particulièrement massives (une seule acquisition avec le Nanoscopium nécessite 1 To !) pose de nombreuses questions sur l’ensemble de la chaîne de traitement : l’acquisition et l’instrumentation, la manipulation et la visualisation ainsi que les traitements, avec un enjeu de plus en plus stratégique portant sur l’utilisation conjointe de différentes modalités (fusion). L’objectif de cette Action est de mettre en réseau différentes communautés, de partager expériences, problématiques et solutions pour une fertilisation croisée.

MAsses de données En aSTROnomie et astrophysique

Acronyme : MAESTRO

Responsables :

Résumé :

La manipulation des grandes masses de données scientifiques dans le domaine de la cosmologie et de l’astrophysique posent des défis scientifiques et technologiques majeurs. Les réponses à ces défis doivent combiner des compétences issues de disciplines scientifiques variées telles que la physique, l’astrophysique, l’informatique et les statistiques pour faire émerger de nouveaux concepts, outils, approches et techniques à la mesure de ces défis. L’objectif principal de l’Action que nous proposons est l’organisation et la mise en réseau d’une communauté interdisciplinaire de chercheurs et d’ingénieurs qui s’intéressent à ces problèmes pour permettre une fertilisation croisée entre différents champs scientifiques et technologiques.

Preservation des données scientifiques

Acronyme : PREDON

Responsables :

Résumé :

Action de coordination sur la thématique de la préservation des données, PREDON est un projet interdisciplinaire qui a comme but l’échange de méthodes, pratiques et technologies entre des projets scientifiques basées sur la collectes et l’analyse de données digitales. A présent le projet regroupe un large panel de disciplines (physique des particules, astrophysique, écologie, informatique, sciences du vivant etc.) et a des contacts dans des grands centres de calcul comme le CC-IN2P3 et le CINES. Au sein de Madics, le groupe PREDON propose de poursuivre l’animation interdisciplinaire autour de la préservation de données.

Reproductibilité des expériences d’analyse de données scientifiques

Acronyme : ReProVirtuFlow

Responsables :

Résumé :

Face aux masses de données disponibles, à la multitude d’outils existants et au caractère complexe des protocoles d’analyse de données scientifiques, reproduire une expérience est particulièrement difficile, comme en témoignent de nombreuses études récentes. ReProVirtuFlow vise à faire un état des lieux complet sur les approches existantes dans ce domaine en considérant en priorité comme éléments de solutions: (i) les workflows scientifiques, (ii) la provenance des données, (iii) les machines virtuelles. Notre consortium regroupe des experts en bases de données, algorithmique et environnements virtuels et des responsables de plateformes et centre de collecte de données scientifiques (biologie INSB et physique IN2P3).