Construction et exploitation de dictionnaires de composants au travers de l’IA générative

When:
02/06/2025 all-day
2025-06-02T02:00:00+02:00
2025-06-02T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS ISAE-ENSMA et CRITT Informatique
Durée : 3 ans
Contact : baron@ensma.fr
Date limite de publication : 2025-06-02

Contexte :
Le CRITT Informatique (Centre Régional d’Innovation et de Transfert de Technologie) est une structure dédiée au transfert de technologie, labellisée CRT (Centre de Ressources Technologiques) au niveau national par le ministère de la Recherche. Ces centres ont été créés pour accompagner les entreprises dans leur développement et leur transformation technologique.

Dans ce contexte, le CRITT Informatique est régulièrement sollicité par des entreprises du domaine industrielle (aéronautique, ferroviaire, militaire, etc.) pour les accompagner dans la création de dictionnaires de composants, facilitant ainsi les échanges entre les entreprises. Ces dictionnaires de composants appelés des ontologies peuvent s’appuyer sur des standards comme par exemple OntoML (ISO 13584-32). Un travail de mapping est réalisé pour définir les ontologies à partir des concepts et des données de l’entreprise en accord avec ces standards. Ce travail est coûteux en temps, car la compréhension des données métiers est souvent complexe et nécessite alors l’analyse de nombreux documents structurés et non structurés lorsqu’ils sont disponibles.

L’utilisation des IA génératives de type LLM (Large Language Model) pourrait assister les équipes du CRITT dans la construction des ontologies. C’est pourquoi le CRITT a sollicité le LIAS (Laboratoire Informatique et d’Automatique pour les Systèmes), qui travaille déjà sur l’application des LLM aux données historiques et sur le mapping de ces données pour construire des ontologies. Plus spécifiquement, les travaux du LIAS dans le cadre du projet ANR Digitalis (https://digitalis.humanities.science) s’appuient sur un modèle conceptuel répandu CDOC-CRM ainsi que sur des IA génératives commerciales, comme GPT. L’utilisation de ces IA générative facilite le travail, car elles possèdent déjà une connaissance du modèle CDOC-CRM.

Sujet :
Un des enjeux principaux de cette thèse est de considérer que l’IA générative ne possède pas de connaissance préalable du modèle qui définit la structure de l’ontologie. Il est possible d’explorer l’extension des connaissances de ces IA génératives en s’appuyant, par exemple, sur le contenu du standard OntoML. Ainsi, un objectif à envisager serait d’utiliser la technique RAG (Retrieval Augmented Generation) pour alimenter en contexte la phase d’interrogation de l’IA générative. Toutefois, cette solution se heurte souvent à des problèmes de contextes insuffisants ou trop importants pour que l’IA générative puisse répondre efficacement. Ces problèmes de contexte ont été abordés au LIAS dans un autre domaine : les bases de connaissances sémantiques. Cette piste de recherche permettrait d’affiner le contexte à transmettre à l’IA générative et d’expliquer les raisons d’un manque ou d’un excès de contexte.

Dans un souci de confidentialité des données traitées par les IA génératives, souvent exigée par les entreprises, l’inférence sur site (on-premise) des IA génératives représente un autre défi. Le défi du déploiement et de la qualité des résultats des modèles d’IA générative inférés est d’assurer une performance équivalente à celle des solutions commerciales. Par ailleurs, l’inférence sur site permettra d’étudier l’efficacité énergétique des solutions mise en oeuvre, car le CRITT Informatique doit répondre aux exigences régionales en la matière.

Le cadre de cette thèse Cifre regroupe des problématiques de recherche liées à la construction d’ontologies via des IA génératives. Les besoins du CRITT Informatique incluent également le développement d’outils informatiques pour faciliter la mise en oeuvre des recherches obtenues dans cette thèse.

Profil du candidat :
Le candidat devra être titulaire d’un Master 2 ou d’un diplôme d’ingénieur

Formation et compétences requises :
Le candidat devra posséder des connaissances en développement logiciel et manipulation de modèles d’IA générative. Un bon niveau en français et en anglais est nécessaire.

Adresse d’emploi :
Laboratoire LIAS – ISAE-ENSMA
Téléport 2 – 1 avenue Clément Ader
BP 40109
86961 Chasseneuil
France

Document attaché : 202505080828_2025_lias_idd_critt_cifre_thesis_fr.pdf