Multimodal GraphRAG for the Semantic Querying of Scientific Publications

When:
31/05/2026 – 01/06/2026 all-day
2026-05-31T02:00:00+02:00
2026-06-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 3 ans
Contact : bernd.amann@lip6.fr
Date limite de publication : 2026-05-31

Contexte :
Les publications scientifiques modernes sont intrinsèquement multimodales : elles combinent texte, figures et tableaux, tout en s’inscrivant dans un réseau de références bibliographiques. Pour interroger ces archives, les systèmes de Génération Augmentée par la Recherche (RAG), fondés sur les Grands Modèles de Langage (LLM), remplacent progressivement les moteurs de recherche classiques grâce à leur capacité à représenter le contenu sémantique des articles et à inférer des relations implicites. Néanmoins, ces approches atteignent aujourd’hui leurs limites, notamment face à des requêtes exigeant une compréhension globale et relationnelle du domaine.

Sujet :
Ce projet de thèse vise à concevoir un cadre GraphRAG multimodal pour l’interrogation sémantique de la littérature scientifique. Il s’agit d’unifier l’analyse du contenu (texte, figures, tableaux) et des métadonnées contextuelles (citations, benchmarks) pour modéliser les relations complexes entre fragments d’information. La méthodologie repose sur trois piliers : l’adaptation d’encodeurs multimodaux, l’alignement des données dans un espace latent commun, et la construction d’un graphe documentaire hétérogène augmenté par des ressources externes.

La problématique centrale de cette thèse se formule ainsi : Comment aligner et intégrer sémantiquement des représentations issues de modèles hétérogènes (texte, tableaux, figures) au sein d’un espace unifié, afin de démultiplier les capacités de raisonnement des LLM via une architecture GraphRAG multimodale ?

Les travaux s’articuleront autour de trois objectifs :

1. Identifier et adapter les modèles d’encodage existants pour les structures complexes (tableaux, figures). Il s’agira de valider leur capacité à préserver l’information topologique et visuelle sur des tâches de référence, afin de garantir la qualité des embeddings en entrée du système.

2. Faire de l’alignement inter-modalités un objet d’étude à part entière, fortement couplé à la modélisation en aval. Cet objectif vise à concevoir, comparer et évaluer différents paradigmes de fusion afin d’identifier l’architecture optimale en fonction des exigences topologiques des graphes cibles.

3. Modéliser le graphe documentaire intégrant ces modalités comme des nœuds enrichis, et déployer l’architecture GraphRAG en exploitant les mécanismes des graphes hétérogènes pour la contextualisation inter-modale. L’impact du système global sera mesuré sur des cas d’usage de compréhension scientifique complexe à l’aide de jeux de données de référence.

Profil du candidat :
Le poste s’adresse à une candidate ou un candidat motivé(e) par la recherche interdisciplinaire à l’interface entre traitement automatique des langues, vision par ordinateur et graphes de connaissances.

– Compétences scientifiques : bases solides en apprentissage automatique, en représentation de données et en évaluation expérimentale ; une appétence pour les approches multimodales et les LLM est attendue.

– Compétences techniques : bonne maîtrise de Python ; expérience appréciée avec les bibliothèques de deep learning, le traitement de documents et les bases de données graphes.

– Méthodologie de recherche : capacité à concevoir des protocoles expérimentaux rigoureux, à analyser les résultats de manière critique et à documenter les travaux dans une logique de reproductibilité.

– Compétences transversales : autonomie, esprit d’initiative, capacité de travail collaboratif et communication scientifique en français et en anglais (rédaction, présentations, échanges internatio-
naux).

Formation et compétences requises :

Adresse d’emploi :
LIP6-Sorbonne Université

Document attaché : 202604161652_sujet_aiko_heterogeneous_data_encoding_EN.pdf