|
Raisonnement et représentation des connaissances
Mardi 2 juin 2026 – Salle 2E07
|
| 11h00 |
Présentation de Davide Buscaldi – Univ. Sorbonne Paris Nord
De AI-KG à CS-KG 2.0 : construire un graphe de connaissances scientifiques d’un milliard de triplets |
| 11h40 |
Présentation de Fatiha Saïs – Univ. Paris Saclay
Validation de faits dans les graphes de connaissances |
| 12h20 |
Présentation de Danai Symeonidou – INRAE
Les graphes des connaissances au service des données du système Terre |
| 13h00 |
Fin de la session |
|
Mardi 2 juin 2026 – Salle 2E12 |
| 11h00 |
Présentation de Serge Torti, Dr Beorchia Sylvain et Tacien Petithomme – Groupe Yansys
De la structuration des données cliniques à leur exploitation à grande échelle : quels enjeux pour la similarité en santé ?
|
| 11h30 |
Présentation de Thomas Guyet – INRIA
Similarité entre trajectoires de soins : vers des outils flexibles et performants
|
| 12h00 |
Présentation du survey “The What and The How of Similarity Studies” (résumé)
Résumé : Un des axes de l’action SIMDAC est d’élaborer un état de l’art et une synthèse scientifique afin de structurer les connaissances sur les études de similarité dans les données massives et complexes. Cette présentation détaillera le plan de la synthèse, les différentes parties envisagées, les méthodes et types de données analysés, ainsi que les applications ciblées (santé, géosciences, sciences cognitives). L’idée est de partager ces orientations avec la communauté, de susciter des échanges et de recueillir des retours pour co-construire un état de l’art couvrant les enjeux les plus larges possibles des études de similarité.
|
| 13h00 |
Fin de la session |
Programme des Actions EXMIA et DSChem
Mardi 2 juin 2026 – Salle 0E20 |
| 11h00 |
Andrea Mastropietro – Lamarr Institute, University of Bonn
Demystifying Graph Neural Networks and Diffusion Models in Chemoinformatics
|
| 11h40 |
Marc Bianciotto – Sanofi Paris
AI, explainability, and the two jobs of the computational chemist
|
| 12h20 |
Présentations de jeunes chercheurs
Alessio Ragno – EPITA, Lyon
Explainable artificial intelligence and drug discovery: extracting actionable insights from deep learning models
Thomas Papastergiou – LIPN, Paris 13
Generative Reinforcement Learning for NDM-1 inhibitors
|
| 13h00 |
Fin de la session |
|
Mardi 2 juin 2026 – Salle 2E06 |
| 11h00 |
Ouverture |
| 11h10 |
Présentation de Matthieu De Castelbajac – LIRMM
Approche ensembliste pour la modélisation écologique avec forte incertitude épistémique, application aux trajectoires de méduses |
| 11h35 |
Présentation de Lamine Diop – LRE
Anomaly Detection You Can Trust: From a score, to a witness, to a rule, to a model that is interpretable by design – three angles, one story |
| 12h00 |
Présentations de Houdhem Assoudi – ESPACE-DEV
Bridging Interdisciplinary Climate–Health Knowledge with GraphRAG: Toward Explaining Severe Climate Event Impacts on the life of Maasai Herders |
| 12h25 |
Présentations de Marwa Boulakbech – LIS
IA hybride guidée par la physique pour des prédictions fiables en environnement complexe : Application au transport maritime |
| 12h50 |
Clôture |
| 13h00 |
Fin de la session |
|
Arts, humanités numériques et imaginaires de l’IA : perspectives critiques, culturelles et créatives
Mardi 2 juin 2026 – Salle 2E12 |
| 14h45 |
Baptiste Caramiaux – ISIR, Frédéric Bevilacqua – IRCAM, STMS, Genoveva Vargas-Solar – LIRIS
Présentation de l’Atelier CODA – annonce Chronotopies
|
| 14h50 |
Keynote de Alexander Grefen – THALIM, CNRS / Université Sorbonne Nouvelle (bio)
Que change l’IA à la création ?
Biographie : Directeur de recherche CNRS au sein de l’unité Théorie et histoire des arts et des littératures de la modernité (UMR7172, THALIM, CNRS / Université Sorbonne Nouvelle – Paris 3), est historien des idées et de la littérature. Il est l’auteur de nombreux articles et essais portant notamment sur la culture, la littérature contemporaine et la théorie littéraire. Dernières parutions : avec Sandra Laugier, Le Pouvoir des liens faibles, CNRS éditions, 2002. Territoires de la non-fiction, Brill, 2020. Avec Olivier Bessard-Banquy et Sylvie Ducas, Best-sellers. L’industrie du succès, Armand Colin, 2021. L’idée de littérature. De l’art pour l’art aux écritures d’intervention, Corti, 2021.
Fondateur de Fabula.org, il a été l’un des pionniers des Humanités Numériques en France. Il a découvert les usages de l’IA pour la recherche (vecteurs de mots, topic modelling) au Literary Lab de Stanford dans le cadre du projet « Pour une histoire empirique de la littérature », Transatlantic program for collaborative work in the field of digital humanities, dont il a été co-porteur avec Franco Moretti (FMSH Paris-Fondation Mellon).
Par ailleurs, Directeur Adjoint Scientifique de l’Institut des Sciences Humaines et Sociales du CNRS depuis 2017, il a en charge les priorités « Humanités Numériques » et « Intelligence Artificielle ». Il a notamment représenté les SHS dans le Forum mondial sur l’IA pour l’humanité organisé en 2019 et a coordonné avec Jérôme Lang l’appel à financement de la MITI du CNRS « Enjeux scientifiques et sociaux de l’intelligence artificielle » (2020).
Après un programme de recherche consacrées aux fictions de de l’Intelligence Artificielle (ia-fictions.net) il est porteur principal (PI) du projet ANR « CulturIA », pour une histoire culturelle de l’IA.
|
| 15h20 |
Pierre Saint-Germier – CNRS / IRCAM
La musique générée par IA est-elle de la musique ?
|
| 15:50 |
Discussion et Activité collective
Animation par Genoveva Vargas-Solar (CNRS, LIRIS), Frederic Bevilacqua (CNRS, STMS, IRCAM)
|
| 16h45 |
Fin de la session |
|
Effet de pairs dans les graphes de données sociales
Mardi 2 juin 2026 – Salle 2E06 |
| 14h45 |
Noémi BERLIN – Université Paris Nanterre, EconomiX, Carole TREIBICH – Université Grenoble Alpes, GAEL et Céline ROUVEIROL – Université Sorbonne Paris Nord
Introduction : Regards croisés informatique et économie
|
| 15h00 |
Keynote de Habiba DJEBBARI – Aix-Marseille School of Economics
Accounting for peer effects in treatment response
|
| 15h35 |
Keynote de Timothée CHABOT – LISST
Inférer les mécanismes d’évolution d’un réseau à partir de données longitudinales : les modèles SAOM (résumé)
Résumé : Une grande partie des méthodes en analyse des réseaux sociaux visent à décrire la structure observée d’un réseau – par exemple, une organisation en clusters, la prévalence de certaines triades, ou une ségrégation des liens selon certains attributs des noeuds. Cependant, ces analyses ne suffisent pas à expliquer ces structures de réseaux, c’est-à-dire à comprendre quel type de comportement des noeuds produit la distribution observée des liens. En effet, il existe souvent plusieurs mécanismes différents qui peuvent produire une même structure agrégée. Par exemple, duclusteringpeut émerger dans un réseau d’amitié en raison d’une tendance des individus à fermer leurs triades (“les amis de mes amis sont mes amis”), mais aussi d’une tendance à choisir des amis similaires à soi (sélection homophile).
Ce problème a motivé le développement de modèles statistiques visant à inférer les mécanismes relationnels susceptibles d’expliquer l’état observé d’un réseau, dont les plus connus sont ERGM (Exponential Random-Graph Model) et SAOM (Stochastic Actor-Oriented Model). Je me concentre dans cette présentation sur le second, qui se base sur l’observation d’un ou plusieurs réseaux complets à plusieurs points dans le temps. La particularité de ce modèle est de simuler un processus d’évolution du réseau en temps continu qui coïncide avec ces observations discrètes, en estimant des effets statistiques qui représentent les “décision” prises par les noeuds pour former ou dissoudre des relations.
Je proposerai une introduction générale et non-technique à la logique et aux postulats de ces modèles, avant de présenter un exemple de recherche en sociologie de l’éducation qui les utilise pour comprendre les déterminants de la ségrégation socioéconomique des amitiés entre des élèves de collège.
|
| 16h10 |
Keynote de Vincent LABATUT – Avignon Université
Classification de sous-graphes pour la détection de fraude dans les marchés publics (résumé)
Résumé : Le projet interdisciplinaire ANR DeCoMaP a réuni des économistes, des juristes et des informaticien·nes, avec pour objectif d’étudier la corruption et la fraude dans les marchés publics français. Cette présentation s’attardera plus spécifiquement sur le travail mené par les informaticien·nes du projet, dont le but était de proposer une méthode de détection automatique de fraude. L’idée originale était de ne pas se limiter à l’information individuelle disponible (i.e. red-flags basés sur les caractéristiques des agents économiques et des contrats), comme c’est le cas dans la littérature en économie et économétrie, mais d’exploiter aussi et surtout l’information relationnelle (i.e. l’interconnexion entre agents induite par les contrats). Cette approche a nécessité de constituer dans un premier temps une base de données adaptée, avant de pouvoir proposer une méthode à base de recherche de sous-graphes discriminants. Outre un taux de succès supérieur, l’intérêt de l’approche relationnelle est sa robustesse, puisqu’elle est applicable dans des situations où l’information nécessaire au calcul des red-flags n’est pas disponible.
|
| 16h45 |
Fin de la session |
|
Mardi 2 juin 2026 – Salle 0E20 |
| 14h45 |
Présentation de Juba Agou – Université Lyon 2, ERIC, Clara Bertolissi – INSA Centre-Val de Loire, LIFO, Laurent d’Orazio – Univ. Rennes, CNRS, IRISA et Margo Bernelin – CNRS Droit et Changement Social
Introduction de la session et aux défis sécurité/IA/gestion de données
|
| 15h15 |
Présentation de Margo Bernelin – CNRS Droit et Changement Social
Intelligence Artificielle et données de santé, une vision légale
|
| 15h45 |
Présentation de Serge Torti – Yansys
Intelligence Artificielle et données de santé, une vision applicative
|
| 16h15 |
Présentation de Myriam Maumy – EHESP, INSERM, CNRS
Gouvernance intelligente et sécurisée des données : à l’interface IA, cybersécurité et gestion des données – enjeux et applications en santé
|
| 16h45 |
Fin de la session |
|
Mardi 2 juin 2026 – Salle 2E07 |
| 14h45 |
Accueil et présentation de l’action et du thème de l’atelier |
| 14h55 |
Présentation de Thomas Roy, Alain Bouju, Wenjun Sun, Antoine Doucet et Mickaël Coustaty
De la qualité des sources à la qualité des extractions : adapter et évaluer une chaîne OCR pour des données de démographie historique
|
| 15h20 |
Présentation de Marie Puren et Florian Caffeiro
Aligner méthodes historiques et RAG : transformer un assistant conversationnel en chaîne de preuves auditable et discutable
|
| 15h45 |
Présentation de Stéphane Lamassé et Cédric du Mouza
Du temps incertain pour renforcer l’analyse temporelle
|
| 16h10 |
Présentation de Margot Ferrand
Graphes de connaissances et représentations de l’espace urbain médiéval (Ville d’Avignon)
|
| 16h35 |
Appel à participation pour les cahiers de la prospective sur le thème de l’atelier et mot de clôture |
| 16h45 |
Fin de la session |
|
Mercredi 3 juin 2026 – Salle 0E20 |
| 13h40 |
Présentation de Chaı̈maâ Touhami, Adrien Goëffon, Benoit Da Mota, Nicolas Gutowski et Thomas Cauchy – LERIA
Fitness landscape exploration for molecular optimization (résumé)
Résumé : The chemical space’s staggering size makes exhaustive search impossible. We therefore turn to combinatorial optimization and fitness landscape analysis to map molecular connectivity and optimization difficulty through ruggedness.
Empirical evidence reveals critical limitations. Random walks demonstrate short fitness autocorrelation lengths, where minor structural changes erase initial molecular characteristics. Adaptive walks confirm these observations, showing success depends heavily on starting positions with poor initial molecules rarely reaching global optima.
Fundamental questions remain: How do we sample effective starting points? And what representations could yield smoother, more tractable fitness landscapes?
|
| 13h55 |
Présentation de Vincent Lazeran – PCM2E, Marc Blétry – PCM2E, Nicolas Labroche – LIFAT, Bruno Schmaltz – PCM2E , Nicolas Berton – PCM2E et Emmanuel Doumard – LIFAT
Accélération massive de l’exploration conformationnelle : vers la génération de données pour l’apprentissage profond (résumé)
Résumé : L’entraînement des modèles d’apprentissage profond en chimie nécessite de vastes bases de données, mais la génération rapide de structures stables reste un défi. Les algorithmes actuels, GOAT/CREST, requièrent souvent plusieurs heures de calcul pour des molécules d’une centaine d’atomes. Ces travaux démontrent qu’il est possible de réduire ce temps d’un facteur 10 à 1000 en évitant l’exploration aveugle d’un espace de recherche gigantesque et redondant.
Pour lever ce verrou, une méthodologie en deux étapes a été développée: une énumération physiquement guidée, suivie d’un filtre topologique intelligent.
Dans un premier temps, l’espace de recherche est drastiquement réduit grâce aux connaissances chimiques fondamentales. En se concentrant sur les molécules π-conjuguées (naturellement planes), l’algorithme limite l’exploration aux conformations pertinentes.
Cette seule hypothèse physique fait chuter la complexité combinatoire de 6N à 2N (où N est le nombre de rotors).
Dans un second temps, ce paysage restreint est cartographié via un pipeline de clustering automatisé avant toute optimisation coûteuse :
- Matrice de distance hybride : Les structures sont évaluées selon une métrique combinant déviation géométrique (RMSD torsionnelle) et proximité thermodynamique.
- Tournoi de Clustering : La topologie de l’espace est analysée par une compétition d’algorithmes non supervisés (HDBSCAN, OPTICS, K-Medoids). Le meilleur modèle est sélectionné dynamiquement selon des contraintes physiques (plafonnement des clusters lié au nombre de rotors) et mathématiques (score DBCV).
- Échantillonnage Ciblé : Les représentants optimaux de chaque vallée sont extraits à l’aide d’une règle dérivant de la distribution de Boltzmann.
Ainsi, seuls les représentants sont soumis à l’optimisation géométrique (xTB). Cette synergie entre intuition chimique et apprentissage non supervisé garantit une couverture exhaustive de l’espace pertinent, ouvrant la voie à la création massive de bases de données de haute qualité pour l’IA.
|
| 14h10 |
Présentation de Paul-Henri Pinart, Annelaure Damont, Sylvain Dechaumet et Etienne A. Thévenot – Département Médicaments et Technologies pour la Santé
Université Paris-Saclay, CEA, INRAE, MetaboHUB
MassGAT: a graph-based collective learning approach leveraging chemical knowledge for the joint processing and annotation of metabolomics data (résumé)
Context: Metabolomics (i.e., the untargeted characterization of small molecules in a biological sample) is a major approach for the study of physiopathological mechanisms and for biomarker discovery. High-resolution mass spectrometry coupled with liquid chromatography (LC-HRMS) is the reference technology due to its sensitivity and large dynamic range [1]. Raw LC-HRMS data consist of triplets (mass over charge, retention time, intensity), where local maxima correspond to ion signals. Processing and annotation of these data, however, remain major challenges today due to their size, sparseness, overlap, shift, noise and complexity (e.g., multiplicity of distinct ion signals generated by a single molecule, such as isotopes, fragments, dimers, altogether called analytical redundancy) [2]. Recently, deep learning approaches have been proposed for peak picking (detection of ion signals) or filtering (discarding noise). Such models, however, still lack robustness (yielding false positives and negatives). More importantly, these methods process ion signals independently, without taking into account the chemical relationships between them.
Approach: We develop an alternative approach that jointly performs processing and annotation to leverage analytical redundancy. We first segment all data triplets into ion traces by using a Watershed-based algorithm. Then, ion traces putatively related to the same molecule are grouped into a graph component, based on chemical rules and on the similarity of the elution profiles. Finally, each component is processed by a graph attention network (GAT; [3]) to validate the nodes (ion traces), the edges (chemical relationships) and the component itself (as containing ion signals from a metabolite vs. consisting of noise only). The massive presence of noise within the initial ion traces is addressed in the architecture using gated message passing [4], and the coherence of predictions from the different heads is ensured through a consistency loss. To train the MassGAT model, a strategy combining both real spectra and simulated components was developed.
|
| 14h20 |
Présentation de Alexey Orlov – Laboratoire Chimie de la matière complexe, Université de Strasbourg
ChemSpace Copilot: une plateforme d’IA agentique pour la recherche autonome en chémoinformatique (résumé)
Résumé : Cette présentation portera sur le développement de systèmes multi-agents pour la recherche en chémoinformatique et en chimie médicinale. Nous présenterons ChemSpace Copilot, un système d’IA agentique développé au Laboratoire de Chémoinformatique (Université de Strasbourg) afin de soutenir la recherche autonome en chémoinformatique. Nous discuterons également de travaux portant sur le développement d’un LLM spécialisé et d’une plateforme d’IA agentique pour la chimie médicinale.
|
| 15h00 |
Présentation de Philippe Meyer – INRAE, AgroParisTech , Thomas Duigou – INRAE, AgroParisTech , Guillaume Gricourt – INRAE, AgroParisTech et Jean-Loup Faulon – INRAE, AgroParisTech, Manchester Institute of Biotechnology
Vectorized Retrosynthesis for Multi-Step Planning in ECFP Space (résumé)
Résumé : We propose a vectorized framework for retrosynthesis in which molecules and reactions are represented in Extended Connectivity Fingerprint (ECFP) space1. In this setting, key properties of chemical reactions, such as reaction applicability, product formation, and building block matching, are reformulated as algebraic operations in vector space. This enables multi-step retrosynthetic planning to be performed directly on vector representations, avoiding explicit manipulation of molecular graphs at each step. Within this framework, we explore and compare several search strategies, including A* search2 and other heuristic search strategies. We further investigate how this formulation applies to both chemical retrosynthesis and retro-biosynthesis, highlighting their differences in terms of search behavior and constraints. This approach provides a unified and flexible perspective on synthesis planning, bridging graph-based chemistry and vector-based representations.
|
| 15h20 |
Présentation de Alexandre Varnek – Université de Strasbourg
SynPlanner : un outil complet pour planifier la rétrosynthèse (résumé)
Résumé : SynPlanner permet de planifier une rétrosynthèse multi-étape en utilisant des règles réactionnelles extraites d’une base de réactions. La planification rétrosynthétique est effectuée par une méthode de recherche arborescente (Monte Carlo Tree Search (MCTS), Nested Monte Carlo Search (NMCTS) ou Best-First Search (BFS)), guidée par des réseaux neuronaux pour l’expansion des nœuds (proposition de règles réactionnelles) et l’évaluation de la synthétisabilité des précurseurs. Un module de préparation des données permet d’ajouter de nouvelles règles réactionnelles à partir de données brutes. Grâce à son système de règles prioritaires, SynPlanner peut être facilement adapté à une chimie « maison ». SynPlanner est accessible via une interface utilisateur graphique ou une interface en ligne de commande, et s’accompagne d’une série de tutoriels.
|
| 16h00 |
Fin de la session |
|
Mercredi 3 juin 2026 – Salle 2E12 |
| 14h00 |
Liana Ermakova, Eric Sanjuan
Présentation de l’action SimpleText
|
| 14h20 |
ASADULLAH Munshi – Orange
Subjective Questions In Sociolinguistics and Psycholinguistics Context
|
| 14h40 |
Présentation de Jeanne Vermeirsche – Université d’Avignon
Simplification des textes politiques
|
| 15h00 |
Présentation de Pascal Martinez – AI Edge 4u
Simplification des textes juridiques
|
| 15h20 |
Présentation de Hichem Semmar – Université d’Avignon
Analyse des dynamiques internes des LLMs pour distinguer mémorisation et hallucination
|
| 15h40 |
Présentation de Liana Ermakova – Université de Brest
Limites des LLMs dans la recherche des informations scientifiques
|
| 16h00 |
Fin de la session |
|
Mercredi 3 juin 2026 – Salle 0E19 |
| 14h00 |
Introduction, Action, travaux en cours (en liens avec ASOV et ASNUM, etc.) |
| 14h10 |
Présentation de Adeline Paiement – Université de Toulon
AI for sciences: Characterising shapes and motions, domain knowledge integration
|
| 14h50 |
Présentation de François-Xavier Dupé – AMU
Filament detection in the galactic plane: feasibility and evaluation
|
| 15h20 |
Présentation de Liza Fretel – Observatoire de Paris-Meudon
Automatically assigning UAT keywords to heliophysics papers with BERT models
|
| 15h40 |
Perspectives et actions en cours présentées en introduction
Discussion avec les participant·es |
| 16h00 |
Fin de la session |
|
Mercredi 3 juin 2026 – Salle 2E06 |
| 14h00 |
Présentation de Vincent Vuiblet – Fédération Nationale Scientifique des Données en Santé
Les données de santé au service de l’IA : Cas d’usage de l’Institut intelligence Artificielle en Santé.
|
| 14h40 |
Présentation de Arnaud Duvermy et Thomas Guyet – AIstroSight / Inria, HCL, UCBL
From data wrangling to clustering of temporal sequences
|
| 15h00 |
Présentation de Hugo Boisaubert – IRIT
Exploitation de données de santé en contexte fortement contraint et génération basée sur l’expertise de données synthétiques multimodales en anesthésie
|
| 15h20 |
Présentation de Natalia Grabar – CNRS/Savoirs, textes, langages
Un corpus de cas cliniques pour aider la recherche
|
| 15h40 |
Présentation de Joris Muller – CHU Strasbourg
Entrepôt de données de santé et Protection de la Vie Privée : Deux ans d’échanges interCHU
|
| 16h00 |
Fin de la session |