Un assistant en langue naturelle pour interroger le Web sémantique

When:
22/07/2021 all-day
2021-07-22T00:00:00+02:00
2021-07-23T00:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA, équipe SEMLIS
Durée : 3 ans
Contact : ferre@irisa.fr
Date limite de publication : 2021-09-30

Contexte :
Les technologies du Web sémantique [1] associent la précision et la puissance des bases de données à l’ouverture et l’interopérabilité du Web. Le W3C a standardisé plusieurs langages pour le Web sémantique, notamment :
• RDF pour la représentation des données ;
• RDFS pour la définition du schéma de ces données ;
• SPARQL pour l’interrogation de ces données.
L’écriture de requêtes SPARQL est au même niveau que l’écriture de requêtes SQL et n’est donc pas accessible au plus grand nombre. De nombreuses approches ont été proposées pour faciliter l’interrogation de données sémantiques [6]. La plupart sont des interfaces en langue naturelle [2,3] où l’utilisateur peut formuler sa question de façon spontanée. Cependant, en raison de la complexité de la langue naturelle, ces approches sont limitées aux questions les plus simples (ex., “Qui est la femme de Barack Obama?”) et manquent à la fois de robustesse (pas de réponse) et de fiabilité (mauvaises réponses). D’autres approches, telles que les constructeurs de requêtes et la recherche à facette [8], s’appuient sur l’interactivité pour guider pas à pas l’utilisateur dans la formulation de ses requêtes. Elles offrent une plus grande fiabilité en donnant davantage de contrôle à l’utilisateur mais sont d’utilisation moins spontanée.
L’équipe SemLIS a développé un outil de recherche sémantique, Sparklis [5], qui combine l’expressivité de SPARQL, le guidage de type recherche à facettes pour la construction de requêtes et la verbalisation des requêtes en langue naturelle. Néanmoins, la construction pas à pas des requêtes peut s’avérer fastidieuse, par exemple pour de grandes bases de données ou lorsque l’utilisateur commence à bien connaître le vocabulaire de la base.

Sujet :
L’objectif de cette thèse est d’explorer et d’évaluer l’ajout d’un dialogue en langue naturelle spontanée au-dessus d’un système interactif de construction guidée de requêtes, tel que Sparklis. L’avantage attendu de passer par ce système interactif pour construire une requête, plutôt que de produire directement une requête cible, est que celui-ci serve de guide dans la résolution des ambiguïtés inhérentes à la langue naturelle. Par exemple, si un utilisateur cherche des “scientifiques français en informatique” dans DBpedia, il pourrait d’abord demander les “scientifiques français”. Le système demanderait alors s’il préfère ceux “nés en France” (propriété dbo:birthDate) ou ceux “de nationalité française” (propriété dbo:nationality). Après avoir consulté les résultats, l’utilisateur pourrait compléter sa recherche en demandant “ceux en informatique”, etc.
Le principal verrou scientifique par rapport aux approches existantes en question answering est de parvenir à construire des requêtes, en une ou plusieurs étapes, sans que la robustesse et la fiabilité ne baissent sensiblement avec l’accroissement de leur complexité. Un autre verrou scientifique est de rendre l’interaction suffisamment fluide, c’est-à-dire avoir des délais de réponse compatibles avec l’interaction et un nombre limité de questions du système à l’utilisateur.
L’étude bibliographique consistera à étudier les différentes approches de l’interrogation du Web sémantique [6,2] en approfondissant les techniques employées dans les approches d’interrogation en langue naturelle [3].
La stratégie envisagée consistera à concevoir, réaliser et évaluer différentes solutions, en partant de solutions simples et en évoluant vers des solutions plus complexes en fonction des résultats obtenus. Il s’agira de réutiliser des outils et ressources existantes dans le domaine du traitement de la langue [7] pour analyser les phrases de l’utilisateur, et de piloter le système de construction guidée en fonction des éléments reconnus. L’utilisateur doit pouvoir exprimer son besoin d’information en plusieurs étapes, alterner entre expression en langue naturelle et navigation dans l’interface. De plus, le système doit savoir poser des questions à l’utilisateur pour résoudre les ambiguïtés résiduelles.
Les solutions développées pourront être évaluées sur des jeux de questions-réponses tels que QALD [4] (questions simples) ou LC-QuAD 2.0 [9] (questions complexes). Ces questions portent sur les bases DBpedia et Wikidata, qui jouent un rôle central dans le Web sémantique.

Profil du candidat :
Titulaire d’un master en informatique avec une formation à la recherche.

Formation et compétences requises :
• Web sémantique (RDF, RDFS, SPARQL 1.1)
• Traitement automatique de la langue (TAL)
• Algorithmes de recherche, de résolution de problème (IA)
• curiosité, autonomie, rigueur et ténacité
• goût pour l’expérimentation
• développement d’applications Web (la connaissance du langage OCaml serait un plus)

Adresse d’emploi :
IRISA, Campus de Beaulieu, 35042 Rennes cedex

Document attaché : 202104220737_sujet_de_these_Sparklis_QA_v2.pdf