EXMIA

Action EXMIA (2025-2027)

Explicabilité des Modèles multi-modaux d’Intelligence Artificielle pour intensifier la découverte scientifique

Responsables

Céline ROBARDET, LIRIS, Sciences Informatiques
Sebastien FIORUCCI, ICN, Chimie
Moustafa BENSAFI, INSERM & CNRS, Biologie

Correspondant ComDIR : François GOASDOUÉ

Thématiques

Biologie moléculaire et cellulaire (exploration des interactions moléculaires au niveau de la signalisation cellulaire), data science (accès aux bases de données, traitement des données, intelligence artificielle, choix des modèles, des paramètres et leur validation, explication de modèles).

Données concernées

Bases de données chimiques, propriétés physico-chimiques, informations génétiques, réponses physiologiques, activité cérébrale.

Contexte scientifique

L’action EXMIA vise à créer un espace d’échange et de collaboration entre des chercheurs aux expertises variées, issus de disciplines telles que l’informatique, la chimie, les neurosciences, la biologie animale et humaine, et la médecine. L’objectif commun est de progresser dans la compréhension des phénomènes intracellulaires complexes en mobilisant les avancées en modélisation par apprentissage automatique. Les phénomènes abordés au sein de cette action couvrent des processus divers, qu’ils soient génétiques, moléculaires ou physiologiques, et nécessitent le développement de modèles multi-modaux capables de combiner différentes sources d’information, comme les gènes (séquences d’ADN/protéiques), les structures et interactions de petites molécules avec des récepteurs (membranaires par ex.), ainsi que des données descriptives contextuelles enrichies.

La conception de ces modèles est particulièrement exigeante, tant en termes de technologie que de méthodologie. Elle repose sur l’emploi d’architectures avancées, notamment les modèles de langage multimodal (LMM) et les réseaux de neurones sur graphes (GNN), qui offrent la capacité de traiter et d’intégrer des données hétérogènes et complexes, souvent reliées de manière non triviale. L’objectif est de capturer les interactions fines entre les différentes modalités de données pour obtenir une représentation riche et fidèle des phénomènes étudiés.

Cependant, un des principaux défis réside dans l’interprétation et l’explicabilité de ces modèles, car la complexité même des architectures utilisées rend difficile la compréhension des mécanismes prédictifs ou inférentiels. Surmonter ce défi est essentiel, car cela permet non seulement d’augmenter la fiabilité des résultats obtenus, mais également de générer des hypothèses basées sur des modèles sur les processus sous-jacents. Ces hypothèses peuvent ensuite guider les recherches et ouvrir des perspectives novatrices, tant dans la compréhension des mécanismes biologiques que dans le développement d’applications concrètes, par exemple en médecine de précision ou en biotechnologie. En somme, cette action cherche à poser les bases d’une réflexion interdisciplinaire autour de la modélisation explicable des systèmes biologiques complexes, et à favoriser la création de collaborations durables autour de ces questions à l’interface entre sciences expérimentales et informatique.

Cette action est en lien avec l’action DSChem, qui explore l’utilisation des bases de données chimiques pour la synthèse chimique, ainsi qu’avec le groupe de travail focalisé sur l’explication de modèles d’intelligence artificielle (IA) et issu de l’action HELP. EXMIA se distingue de DSChem en élargissant son périmètre d’étude : au-delà des données chimiques, il intègre également d’autres types de données, telles que les séquences en acides nucléiques ou aminés et les réponses physiologiques d’un organisme, et met particulièrement l’accent sur le développement et l’utilisation de modèles multimodaux.

Par rapport à HELP, EXMIA a pour ambition d’explorer un éventail plus large de techniques d’explicabilité, intégrant non seulement des méthodes agnostiques mais aussi des méthodes spécifiques aux modèles utilisés. Cette approche hybride vise à offrir des connaissances plus profondes et adaptées aux caractéristiques des modèles développés, permettant ainsi une meilleure interprétation des processus sous-jacents et des prédictions générées dans le cadre des phénomènes intracellulaires étudiés.

L’action a aussi des liens avec le GT EXPLICON du GDR RADIA qui s’intéressent à l’explicabilité et aux garanties de qualité des modèles.

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Action EXMIA (2025-2027)

Responsables

Thématiques

Données concernées

Contexte scientifique

Site de l’Action EXMIA en cours de construction…

Évènements à venir