Actions en cours

Entrepôts et analyse de documents

Acronyme : ADOC

Responsables :

Résumé :

Depuis de nombreuses années, diverses disciplines des sciences humaines et sociales (SHS) produisent et mettent en valeur des corpora de documents variés et, pour certains, très volumineux. Au-delà de leur valorisation et de leur diffusion, diverses analyses (statistiques, de réseaux…) ouvrent de nombreuses perspectives scientifiques originales aux chercheurs en SHS. Les entrepôts de données et l’analyse en ligne, et notamment les entrepôts de données textuels et le textual-OLAP, sont susceptibles de répondre à ces besoins. L’objectif de l’Action ADOC est de constituer un réseau pluridisciplinaire de laboratoires de SHS et d’informatique qui s’intéressent à cette problématique afin de partager données, verrous scientifiques, méthodologies et solutions.

Action de Recherche sur la Qualité des Données Scientifiques

Acronyme : ARQUADS

Responsables :

Résumé :

De nos jours, les scientifiques sont de plus en plus submergés par des quantités sans précédent des données provenant de différentes sources (capturées par des instruments, générées par des simulations ou des réseaux de capteurs, etc.). Ces données sont souvent entachées de nombreuses imperfections, ce qui rend leur analyse difficile en vue de prendre les décisions les plus fiables possibles. La qualité des données, en particulier dans les domaines scientifiques et avec l’avènement de l’ère “Big Data” nécessite un intérêt particulier des différents acteurs autour des données, afin de revisiter les outils et les méthodes existants et également réfléchir sur de nouvelles approches pour faire face aux différents défis posés.
L’Action ARQUADS a pour objectif de constituer un réseau pluridisciplinaire de laboratoires d’informatique, de sciences de l’ingénieur, sciences de la Terre, de l’Univers et du vivant qui s’intéressent à la problématique de la qualité des données afin de partager données, verrous scientifiques, méthodologies et solutions.

Apprentissage, opTimisation Large-échelle : Application à la Santé

Acronyme : ATLAS

Responsables :

Résumé :

L’objectif de la fouille de données est la recherche d’informations pertinentes dans de grandes masses de données afin d’aider à la décision et à la prévision. Il s’agit à chaque fois de développer de nouveaux outils pour prendre en compte la nature des données analysées qui peuvent être extrêmement complexes, par exemple hétérogènes et/ou présentant une structure de dépendance qu’il convient d’être capable de modéliser. L’Action ATLAS sera centrée autour de quatre axes principaux : collecte des données, apprentissage de représentation, optimisation pour l’apprentissage, calcul haute performance et réunira des collègues statisticiens, informaticiens, traiteurs de signaux, neuroscientifiques ainsi que des médecins, des biologistes et des industriels.

Environmental Acoustic Data Mining

Acronyme : EADM

Responsables :

Résumé :

La bioacoustique nécessite le croisement de disciplines et méthodes d’indexation et de modélisation HPC. A cette fin, cet atelier propose de développer une infrastructure complète de gestion de masse de données bioacoustiques : stockage, traitement, représentation collaborative et manipulation efficace, visualisation et synthèse automatique. En exemple de produits informatifs à forte valeur ajoutée : produire des indices écologiques liés à une espèce sensible au réchauffement climatique, ou analyser la qualité d’un écosystème par transcription de l’acoustique en indices sémantiques de haut niveau. Ces défis technologiques et écologiques imposent une innovation théorique en modélisation et analyse stochastique de données et le développement de systèmes efficients pour les sciences environnementales. Il n’existe pas à ce jour de solution algorithmique complète capable de traiter efficacement, en temps et en espace, l’explosion de ces données bioacoustiques. Pour cela EADM fédère des experts en masses de données, informatique fondamentale, traitement statistique du signal, classification automatique, bioacoustique et écologie.

Imagerie Hyperspectrale

Acronyme : Imhyp

Responsables :

Résumé :

L’imagerie hyperspectrale est utilisée dans un nombre croissant d’applications, touchant toutes les disciplines, de la télédétection satellitaire à la biologie en passant par le biomédical ou le contrôle qualité. L’exploitation optimale de ces données particulièrement massives (une seule acquisition avec le Nanoscopium nécessite 1 To !) pose de nombreuses questions sur l’ensemble de la chaîne de traitement : l’acquisition et l’instrumentation, la manipulation et la visualisation ainsi que les traitements, avec un enjeu de plus en plus stratégique portant sur l’utilisation conjointe de différentes modalités (fusion). L’objectif de cette Action est de mettre en réseau différentes communautés, de partager expériences, problématiques et solutions pour une fertilisation croisée.

anaLysE et dynaMique des messages et cONversations radicales sur Internet

Acronyme : LEMON

Responsables :

Résumé :

LEMON est une action de coordination structurée autour de l’exploration des données sociales pour détecter, analyser et caractériser les messages et conversations radicales sur Internet. Le but est de réunir des chercheurs en sociologie, sciences de la communication, traitement du langage, fouilles de données et intelligence artificielle afin de partager des méthodes, modèles et techniques développés pour explorer les données sociales. L’action vise plus particulièrement l’analyse de nouveaux modes d’interactions avec les plateformes sociales, la collecte des données ainsi produites, la caractérisation de leur contenu et de leur dynamique. L’action pourra produire des indices spécifiques au contenu radicalisé en ligne et des méthodes de détection fondées sur l’apprentissage et la sémantique.

MAChine LEarning for EArth observatioN

Acronyme : MACLEAN

Responsables :

Résumé :

L’objectif principal de cette action est de mettre en place une dynamique d’échange entre des experts en Sciences de l’Environnement et Télédétection et des experts en Science de Données (STIC) pour relever les nouveaux défis liés aux systèmes modernes d’observation de la Terre (grande quantité de données à différentes échelles spatiales, temporelles et spectrales, nuage de points 3D, fusion de données multimodales, etc.). Pour cela, nous focalisons notre attention sur l’analyse de ce type d’information à travers des techniques d’apprentissage automatique avec un focus sur les méthodes d’apprentissage profond, ces dernières étant très développées dans le milieu de la vision par ordinateur et traitement du signal mais pas encore mûres dans le domaine de la télédétection. L’action aura comme objectif de travailler et animer la communauté nationale autour de trois aspects principaux : i) méthode d’apprentissage automatique pour un seul capteur ii) méthode d’apprentissage pour des séries temporelles d’imagerie satellitaire et iii) méthode d’apprentissage pour de la fusion de données multi-capteurs (séries temporelles et capteur mono-date).

Maîtriser l’Analyse interactive de DOnnées pour la NArration journalistique

Acronyme : MADONA

Responsables :

Résumé :

L’action vise à faire se rencontrer des chercheurs en informatique, spécialistes de l’exploration interactive de données (INS2I) et des chercheurs en science de l’information et de la communication, spécialistes des pratiques de production et réception numérique (INSHS), en interaction avec des journalistes ayant des problématiques d’exploration de données. L’objectif de ces rencontres est : – une meilleure compréhension des mécanismes de sélection et de traitement des données qui permettent de construire progressivement des narrations : en appréhendant les méthodologies empiriques adoptées par les journalistes et en questionnant la scénarisation des productions du datajournalisme ; – la création et la mise à disposition d’outils permettant aux journalistes d’explorer et analyser des données ouvertes avec une interaction simplifiée : en formulant des hypothèses et en exprimant des besoins avec des primitives de haut niveau, en sélectionnant ou affinant des propositions de modèles ou visualisations extraits des données.

MAsses de données En aSTROnomie et astrophysique

Acronyme : MAESTRO

Responsables :

Résumé :

La manipulation des grandes masses de données scientifiques dans le domaine de la cosmologie et de l’astrophysique posent des défis scientifiques et technologiques majeurs. Les réponses à ces défis doivent combiner des compétences issues de disciplines scientifiques variées telles que la physique, l’astrophysique, l’informatique et les statistiques pour faire émerger de nouveaux concepts, outils, approches et techniques à la mesure de ces défis. L’objectif principal de l’Action que nous proposons est l’organisation et la mise en réseau d’une communauté interdisciplinaire de chercheurs et d’ingénieurs qui s’intéressent à ces problèmes pour permettre une fertilisation croisée entre différents champs scientifiques et technologiques.

Reproductibilité des expériences d’analyse de données scientifiques

Acronyme : ReProVirtuFlow

Responsables :

Résumé :

Face aux masses de données disponibles, à la multitude d’outils existants et au caractère complexe des protocoles d’analyse de données scientifiques, reproduire une expérience est particulièrement difficile, comme en témoignent de nombreuses études récentes. ReProVirtuFlow vise à faire un état des lieux complet sur les approches existantes dans ce domaine en considérant en priorité comme éléments de solutions: (i) les workflows scientifiques, (ii) la provenance des données, (iii) les machines virtuelles. Notre consortium regroupe des experts en bases de données, algorithmique et environnements virtuels et des responsables de plateformes et centre de collecte de données scientifiques (biologie INSB et physique IN2P3).

Raisonner sur les données

Acronyme : RoD

Responsables :

Résumé :

L’Action RoD (en commun avec le GDR IA) vise à rassembler des chercheurs en IA et en BD sur des problèmes à la croisée des deux domaines. Son objectif général est le développement de techniques de représentation de connaissances et de raisonnements permettant de mieux exploiter des données. L’accent est particulièrement mis sur le développement d’algorithmes efficaces pour l’interrogation, l’intégration, l’analyse et le liage de données hétérogènes et de qualité variable. Son pendant côté GDR IA est un groupe de travail de même nom. L’Action RoD se situe en amont de domaines applicatifs particuliers, tout en ayant identifié certains domaines (agriculture numérique, contenus pédagogiques en santé, données encyclopédiques du web) pour lesquels des fournisseurs de jeux de données sont impliqués