Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : CNAM/Sorbonne Université
Durée : 36 mois
Contact : cedric.du_mouza@cnam.fr
Date limite de publication : 2025-04-30
Contexte :
Encadrants:
Cédric du MOUZA (dumouza@cnam.fr, lab. CEDRIC, CNAM Paris)
Raphaël FOURNIER-S’NIEHOTTA (Raphael.Fournier@lip6.fr, LIP6-ComplexNetworks, Sorbonne Université)
Camelia CONSTANTIN (camelia.constantin@lip6.fr, LIP6-Équipe BD, Sorbonne Université)
Sujet :
L’objectif de la thèse est d’améliorer l’enrichissement de graphes de connaissances en utilisant des techniques avancées issues des domaines des algorithmes de graphes, de la sémantique et de l’apprentissage automatique. Cette démarche vise à améliorer la qualité et l’utilité du graphe en découvrant et en intégrant des informations qui ne sont
pas explicitement présentes mais qui peuvent être inférées à partir des relations et des attributs existants.
L’enrichissement des graphes de connaissances s’appuie sur une approche hybride combinant algorithmes de graphes, NLP et apprentissage automatique, qui permet d’extraire et d’intégrer des informations implicites en exploitant les structures et relations existantes. Un défi majeur réside dans le liage d’entités, étape souvent imprécise qui entraîne une fragmentation due au manque de relations explicites et à la diversité des formulations. L’objectif est d’améliorer cette phase en détectant et fusionnant les entités redondantes via un post-traitement reposant sur des modèles de similarité et des techniques de clustering. Ainsi, l’approche renforce la qualité structurelle et sémantique du graphe, le rendant plus exploitable pour la recherche et la gestion des connaissances. Pour atteindre ces objectifs, nous combinons : (i) des algorithmes de graphes pour identifier motifs récurrents, connexions et communautés, (ii) des modèles d’apprentissage profond (BERT, GPT) pour évaluer la similarité sémantique, et (iii) des modèles prédictifs entraînés pour inférer de nouvelles relations.
Ce sujet propose une approche exploratoire pour la construction et l’enrichissement de graphes de connaissances en combinant méthodes d’intelligence artificielle (IA), sur graphes (GraphML) ou autour du texte, avec des algorithmes classiques de graphes, se plaçant ainsi au cœur des thématiques de recherche de institut Sorbonne Center for Artificial Intelligence. Les contributions attendues visent à développer et adapter des méthodes IA faisant un usage hybride d’algorithmes de graphe et d’apprentissage automatique, tout en apportant des solutions pour enrichir les graphes de connaissances dans le domaine des bases de données. Les résultats de cette recherche seront appliqués à la base Studium (http://studium.univ-paris1.fr/) de l’Université Panthéon-Sorbonne, dans le cadre d’une collaboration existante entre les Laboratoires LIP6 (SU), CEDRIC (CNAM) et LAMOP (Université Panthéon-Sorbonne) qui s’inscrit dans le projet ANR Laura en cours de soumission.
Profil du candidat :
Master 2 ou bac+5 en informatique
Formation et compétences requises :
Nous recherchons un.e candidat.e motivé.e avec avec de solides bases en informatique et en apprentissage automatique et idéalement de bonnes notions de graphes. La maîtrise d’un langage de programmation (comme Python) est indispensable. Des connaissances en bases de données (SQL, indexation) et algorithmique sont un plus.
Adresse d’emploi :
CNAM Paris – 2, Rue Conté 75003 Paris
Document attaché : 202503312054_theseSCAI.pdf