MAESTRO (2016-2019)

Action MAESTRO (2016-2019)

MAsses de données En aSTROnomie et astrophysique

Responsables

Thématiques
astrophysique, Informatique

Données concernées
Données d’observation en astrophysique

Résumé
La manipulation des grandes masses de données scientifiques dans le domaine de la cosmologie et de l’astrophysique posent des défis scientifiques et technologiques majeurs. Les réponses à ces défis doivent combiner des compétences issues de disciplines scientifiques variées telles que la physique, l’astrophysique, l’informatique et les statistiques pour faire émerger de nouveaux concepts, outils, approches et techniques à la mesure de ces défis. L’objectif principal de l’action que nous proposons dans le cadre du GDR est l’organisation et la mise en réseau d’une communauté interdisciplinaire de chercheurs et d’ingénieurs qui s’intéressent à ces problèmes pour permettre une fertilisation croisée entre différents champs scientifiques et technologiques.

Objectifs
Organisation et mise en réseau d’une communauté interdisciplinaire de chercheurs et d’ingénieurs pour la recherche de méthodes issues de big data adaptées au monde de l’Astrophysique.

Visitez le site web de l’Action MAESTRO


Smiley face

Dernières nouvelles

Ecole thématique ASTROINFO2018 par MAESTRO

2018 a été marqué par l’organisation de l’Ecole thématique du CNRS ASTROINfo 2018 qui a eu lieu à Polytech sur le site de Luminy (Marseille) du 25 au 29 Juin. Les informations et les présentations peuvent être visualisées sur le site https://astroinfo2018.sciencesconf.org/

L’Ecole a recueilli 45 participants. Cette école avait pour but de sensibiliser les chercheurs et ingénieurs aux nouvelles technologies du traitement de données, et former les scientifiques et ingénieurs aux méthodes informatiques de traitement de données de masse en Astrophysique. Durant les deux premiers jours se sont succédés des intervenants en Astrophysiques, Big data et Machine learning. Les jours suivants ont été dédiés aux TPs et à un hackathon qui a permis de mettre en pratique les acquis sur des cas de recherche concrets. Cette école a été une occasion d’échanger avec les enseignants, et les participants autour de sessions plus ludiques, comme des baignades dans les calanques de Luminy, un concours de pétanque accompagné d’un food truck et d’une sortie sur les iles du Frioul et du célèbre chateau d’If. Une belle ambiance, une belle réussite qui sera sans doute suivie par une nouvelle édition.

MAESTRO Présent au Kick-off ARQUADS

Des rapprochements ont été effectués avec l’action ARQUADS, avec une présentation lors des journées ARQUADS (5 juin 2018) et une demande plus particulières des besoins en astrophysique pour la gestion de qualité dans les données et activités astrophysiques. La présentation.

réunion MAESTRO 2017

la deuxième réunion MAESTRO a lieu à Marseille à l’EMD le 23 Juin 2017. Les informations et les présentations peuvent être visualisées sur le site https://maestro-2017.sciencesconf.org/

Première réunion MAESTRO

la première réunion MAESTRO a eu lieu à TOULOUSE à l’IRIT en juillet 2016. Les informations et les présentations peuvent être visualisées sur le site https://maestro-2016.sciencesconf.org/. Elle a réuni 34 participants autour de la thématique “de l’astrostatistique à l’astroinformatique”. Deux invités prestigieux G. Longo (U. Napoli) et F. Genova (CDS) ont accompagnés les débats sur les données Astrophysiques et les Big Data.

MAESTRO présent au colloque AAFD/SFC , Marrakech

MAESTRO a été présenté à la réunion de la Société francophone de Classification – Marrakech – 2016. La réunion a permis de présenter les problématiques de classification dans le domaine de l’astrophysique. Le poster est disponible à l’adresse : ici

Synopsis

Pourquoi une action dans le domaine de l’astrophysique

Dans le domaine de l’astronomie, l’évolution rapide des télescopes et autres instruments scientifiques ainsi que le recours intensif à la simulation informatique ont conduit, ces dernières années, à une production massive de données. Par exemple, la mission spatiale Gaia (http://gaia.obspm.fr) prévoit de gérer un volume de données de l’ordre du Petabyte relatif à plus d’un milliard d’objets, et dont la collecte a débuté depuis mi 2014.

Dans le cadre du projet LSST (Large Synoptic Survey Telescope http://lsst.in2p3.fr/projet-LSST.html), qui vise la construction d’un télescope de nouvelle génération, il est prévu la mise à la disposition des scientifiques et des utilisateurs finaux d’un volume de données total d’environ 140 Petabytes à la fin de cette décennie. De manière générale, les instruments utilisés, sols ou spatiaux, sont de plus en plus perfectionnés et sensibles; le volume et la qualité des données recueillies imposent de revoir les méthodes de réduction, d’analyse et d’interrogation de ces données.

Des données, des problèmes, des méthodes

En effet, les données collectées sont volumineuses et complexes (grandes images, données incertaines, multi-échelle, incomplètes, imprécises, bruitées, incohérentes, …). L’exploitation de ce type de données pose alors de nombreux défis pour les scientifiques experts du domaine ainsi que pour la communauté de recherche en informatique et en mathématiques. Parmi ces défis, on peut citer les questions classiques, mais posées dans un contexte nouveau, liées à l’acquisition, le stockage, l’indexation, l’interrogation et l’analyse de ces très grands volumes de données. Par ailleurs, tous les domaines de la cosmologie et de l’astronomie-astrophysique doivent aborder des problématiques de probabilités et statistiques que ce soit pour l’acquisition des données (détecteur), du traitement ou compression (image), de l’analyse et de l’exploitation (validation de modèles, problèmes inverses mal contraints, réduction de dimensionnalité, classifications, fouille de données, …). Par exemple, une des caractéristiques des grands relevés (des missions Gaia ou LSST, par exemple), est la problématique des analyses statistiques complexes et multiples pour la validation et l’exploitation scientifique ultérieure des données, que ce soit de l’ordre de la fouille de données ou de la prise en compte des erreurs observationnelles et des biais. Par ailleurs, dans le domaine des simulations cosmologiques, grâce à l’évolution des logiciels et de la puissance de calcul disponible, le facteur limitant devient actuellement la capacité de stocker, transférer et analyser les données produites par les simulations. Que ce soit les très gros jeux de données générés par des grandes simulations ou des volumes équivalents produits par des séries de simulations de moyenne taille explorant l’espace des paramètres, les données générées ont vocation à être exploitées pour préparer et/ou interpréter les observations, et ce, par une communauté sensiblement plus large que celle, très spécialisée, du calcul haute performances (HPC) en cosmologie.

Des solutions innovantes à trouver

Cela nécessite par conséquent une préparation et une maitrise de ces grands volumes de données qui requiert une expertise qui va au-delà du champ traditionnel de la simulation cosmologique. Aussi, avec le foisonnement des nouvelles solutions informatiques pour la gestion des données massives, il devient difficile, voire impossible, d’avoir la connaissance suffisante pour ne serait-ce que choisir entre telle ou telle autre solution.


Évènements à venir