Extraction semi-automatique d’annotations sémantiques pour la préservation du patrimoine culturel

When:
28/02/2026 – 01/03/2026 all-day
2026-02-28T01:00:00+01:00
2026-03-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS
Durée : 6 mois
Contact : baron@ensma.fr
Date limite de publication : 2026-02-28

Contexte :
L’étude du patrimoine repose sur des données hétérogènes provenant de sources multiples (mesures, croquis, photographies, acquisitions 3D, etc.), souvent difficiles à manipuler en raison de la fragilité ou de l’inaccessibilité des objets. Le projet ANR DIGITALIS vise à développer des outils numériques dédiés à la gestion, à la pérennisation, à la réutilisation et à la visualisation de ces données. Le laboratoire LIAS, partenaire du projet ANR, travaille sur la conception de méthodes et de structures pour gérer des données complexes de manière interopérable.

Dans le cadre du projet ANR DIGITALIS, cette expertise est utilisée pour proposer un modèle de données dédié au patrimoine, permettant aux experts de partager et d’enrichir leurs annotations sur des objets patrimoniaux. Ce besoin s’inscrit dans la continuité de travaux existants,
comme le modèle sémantique CIDOC CRM, qui vise à assurer la traçabilité et l’annotation des objets numériques dans le domaine historique. Le principal enjeu est d’automatiser l’extraction des données vers ce modèle, une tâche complexe et chronophage, d’autant plus que les historiens maîtrisent peu ce formalisme et que les informaticiens ne sont pas spécialistes du patrimoine.

Le laboratoire LIAS a obtenu des résultats en explorant l’usage de l’IA générative pour transformer des données textuelles issues de fouilles archéologiques en représentations conformes au modèle CIDOC CRM.

Sujet :
Les objectifs du stage sont multiples à vise à compléter les travaux obtenus.

Le premier objectif porte sur le compromis entre précision, performance et impact environnemental, ainsi que sur les enjeux de vie privée liés aux déploiements cloud ou locaux. Le stagiaire devra donc reprendre les résultats existants et les évaluer sur différents modèles d’IA générative, qu’ils soient hébergés dans le cloud ou exécutés localement via des modèles à poids ouverts de plus petite taille. Cela permettra au stagiaire de se familiariser avec les concepts de base de l’IA générative et des travaux développés par le laboratoire LIAS dans ce domaine.

Le deuxième objectif porte sur la capacité à référencer les sources (mesures, croquis, photographies, acquisitions 3D, etc.) utilisées pour produire les annotations. Cette question, non traitée dans nos travaux initiaux, est pourtant essentielle pour assurer la traçabilité des anno-
tations. Le stagiaire devra ainsi explorer des solutions permettant d’intégrer explicitement la notion de source dans le processus de génération des annotations. Cela permettra au stagiaire de se familiariser avec le modèle CIDOC CRM.

Le troisième objectif, qui constitue la contribution principale de ce stage, porte sur l’intégration de vocabulaires contrôlés, tels que des thésaurus, dans le processus de génération des annotations. Cette intégration vise à améliorer la cohérence et la qualité des annotations, notamment
en facilitant la gestion des synonymes (par exemple : église <=> lieu de culte).

Ce stage recherche sera encadré par un doctorant travaillant sur des problématiques similaires, ainsi que deux chercheurs du laboratoire LIAS spécialisés dans le domaine de l’IA générative et du patrimoine. Une publication scientifique serait attendue à l’issue du stage, en fonction des résultats obtenus.

Profil du candidat :
Le candidat doit être en Master 2 en Informatique ou en dernière année de préparation d’un diplôme d’ingénieur spécialité Informatique.

Formation et compétences requises :
Une bonne connaissance du langage de programmation Python et des bibliothèques usuelles d’apprentissage automatique est requise.

Adresse d’emploi :
Le stage se déroulera dans les locaux du LIAS sur le site du Futuroscope.

Document attaché : 202601050906_Sujet_Stage_DigitalisAli_2026.pdf