Génération et validation de connaissances depuis des documents textuels

When:
31/01/2025 – 01/02/2025 all-day
2025-01-31T01:00:00+01:00
2025-02-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : EDF R&D
Durée : 6 mois
Contact : victor.charpenay@emse.fr
Date limite de publication : 2025-01-31

Contexte :
La R&D d’EDF (2000 chercheurs) a pour missions principales de contribuer à l’amélioration de la performance des unités opérationnelles du groupe EDF, d’identifier et de préparer les relais de croissance à moyen et long terme. Dans ce cadre, le département Services, Economie, Outils Innovants et IA (SEQUOIA) est un département pluridisciplinaire (sciences de l’ingénieur, sciences humaines et sociales) qui fournit un appui à l’élaboration et au portage des offres, des services et des outils de relation client aux directions opérationnelles du groupe EDF.

Au sein de ce département, ce stage sera rattaché au groupe « Statistiques et Outils d’Aide à la Décision » (SOAD) : cette équipe compte une vingtaine d’ingénieurs chercheurs spécialisés en IA et data science avec des compétences fortes autour du machine learning et du deep learning, du web sémantique, de l’IA symbolique et de l’IA générative (texte, voix, image, multimodalité…), en particulier du NLP (LLM, RAG, data mining,). Le stage portera sur l’interaction entre grands modèles de langage (LLM) et IA symbolique.

Sujet :
Les LLM sont multi-tâches. Ils peuvent aussi bien traduire un texte d’une langue à une autre que répondre à des questions de culture générale. Cependant, il est difficile de contraindre un LLM à n’effectuer qu’une seule tâche, comme répondre seulement par un nombre ou générer des données structurées selon un schéma prédéfini. Il est possible de valider a posteriori la réponse d’un LLM mais si elle s’avère syntaxiquement fausse, il n’existe pas d’approche standard pour corriger cette première réponse sans avoir à en générer une deuxième. L’objectif du stage sera d’explorer une approche neuro-symbolique pour guider la génération de LLM selon un langage contrôlé (comme un langage de requête ou un modèle de données), afin de garantir la conformité syntaxique et sémantique de chaque réponse.

Cette approche sera appliquée à la génération de graphes de connaissances à partir de documents textuels. Au sein du groupe SOAD, nous travaillons sur les possibilités d’intégration des graphes de connaissances pour améliorer la fiabilité et l’explicabilité des systèmes IA, un enjeu clé pour les applications critiques. Cependant la construction des graphes de connaissances reste une tâche coûteuse en termes de temps et de ressources, en particulier lorsqu’il s’agit d’extraire et de structurer ces connaissances à partir de documents textuels. Dans le groupe EDF, de nombreuses connaissances métiers proviennent de documents complexes, comme les descriptions d’infrastructures de production et leurs contraintes d’exploitation. Exploiter ces connaissances permettrait d’accélérer l’adoption de solutions de rupture tout en les fiabilisant et en valorisant l’expertise métier.

Profil du candidat :
• Excellent niveau français oral et écrit
• Curiosité scientifique et forte motivation pour l’innovation

Formation et compétences requises :
• Etudiant(e) en Master 2 ou équivalent école d’ingénieur, spécialité data science, IA ou équivalent
• Compétences solides en programmation, en particulier en Python.
• Connaissance des techniques de traitement du langage naturel (NLP) et des modèles d’IA générative (par exemple, GPT-4).
• Compétences en construction et manipulation de graphes de connaissances (RDF, Neo4j, graphDB, ontologie…) fortement souhaitées.

Adresse d’emploi :
EDF R&D Lab
Saclay (91120)

Document attaché : 202412041504_Offre_Stage_Knowledge_generation_2025.pdf