DOING

 

Atelier DOING

Données Intelligentes: transformer l’information en connaissance

Responsables

Correspondant ComDIR : Bruno Cremilleux

Thématiques

Bases de données, intelligence artificielle, traitement automatique du langage naturel, évaluation et optimisation de requêtes, traitement de données (data analytics)

Données concernées

D’une manière générale, notre intérêt porte sur tout type de données textuelles non structurées (ou semi-structurées) desquelles nous voulons extraire des connaissances. Parmi les domaines d’application nous mettons en avant la santé, la transition énergétique ainsi que les textes juridiques concernant principalement ces deux domaines. Nous considérons des textes de ces domaines provenant de différents types de documents (articles scientifiques, forums, réseaux sociaux, rapports d’activité, formulaires, contributions du grand débat, etc.)

Mots clés

Extraction d’information, graphe de connaissance, RDF, base de données graphe, interrogation en fonction du contexte, contraintes, qualité, intelligence artificielle, data science, évaluation et optimisation de requêtes et des processus de traitement de données.

Contexte scientifique

L’exploitation intelligente, efficace et sûre des documents requiert, dans la plupart des cas, la transformation de l’information non-structurée présente dans ces textes, dans un ensemble de données, plus au moins structurées selon une sémantique adaptée au domaine d’application. En effet, la résolution des problèmes de la société moderne passe par une recherche interdisciplinaire et les croisements des informations, surpassant ainsi une simple mise à disposition de données non structurées. Il existe un besoin urgent d’une représentation plus souple, plus fine, plus sensible au contexte, facilement accessible via des outils de consultation. En outre, la consultation, dans ce cadre, demande des requêtes robustes, efficaces, proposant une analyse des informations, avec une assurance de qualité, de cohérence et du respect de la vie privée. Les mêmes principes doivent régir la maintenance et l’évolution des bases de connaissances. Un tel environnement représente la nouvelle génération des infrastructures, la mise en place de la science de données au bénéfice du progrès scientifique ou de la prise de décisions éclairées.

Cette action s’intéresse à toutes les étapes concernant la mise en place de ces infrastructures modernes, se focalisant sur les données liées à la santé et à la transition écologique. Elle vise en particulier deux grandes lignes de discussions ainsi que leur mise en relation :

(I) La transformation des données en information, c’est-à-dire, l’extraction de l’information des données textuelles pour peupler une base de connaissances. Cette extraction peut englober des questions diverses comme la détection des entités, leur normalisation et l’extraction des relations entre entités ; la construction d’un schéma à partir des instances ; les mappings entre les schémas ; le résumé des données ; les problèmes d’anonymisation des données à publier ; l’extraction de contraintes d’intégrité à partir des textes juridiques ; etc. Dans les domaines de spécialité, des terminologies sont parfois disponibles et peuvent être utilisées pour la détection des entités et leur normalisation. Par exemple dans le domaine médical, les noms de médicaments, les symptômes, etc. sont décrits dans des ressources telles que l’UMLS, MedDRA, le MeSH ou le référentiel ouvert du médicament ROMEDI. Dans le domaine de l’énergie, il existe en revanche peu ou pas de vocabulaires normalisés.

(II) La transformation de l’information en connaissance, c’est-à-dire, l’interrogation intelligente et efficace, et la maintenance de bases de connaissances. L’intelligence dans la manipulation d’une base de connaissance passe par la capacité d’offrir des mécanismes d’analyse efficaces, flexibles, faciles à utiliser et adaptés à l’utilisateur. Les requêtes ‘data science’, capables de rendre des résultats analytiques sur les données de la base, sont des perspectives importantes dans l’aide à la décision et devraient être considérées en fonction de l’efficacité, la fiabilité, le profil de l’utilisateur, le respect des contraintes, du contexte, de la vie privée…

 

Site de l’Atelier DOING en cours de construction…


Évènements à venir

Aug 25 – Aug 26 all-day
Annonce en lien avec l’Action/le Réseau : DOING Thème : Information extraction from textual data, intelligent and efficient interrogation, and maintenance of knowledge bases. Présentation : The workshop focuses on transforming data into information and[...]
Jul 8 @ 14:00 – 17:00 BigBlueButton: https://bbb.unistra.fr/b/pie-p6e-e7c
Canal Slack #doing-webinar-madics : https://join.slack.com/t/doing-madics/shared_invite/zt-fbzccfmp-SFw1fYMI7qQNuRWVfQhcEA Twitter : https://twitter.com/NetworkDoing L’atelier DOING invite les chercheurs de la communauté MADICS à participer à son Webinar en marge du Symposium GDR du CNRS MaDICS avec le programme suivant :[...]
Jul 6 – Jul 9 all-day En distanciel avec BBB
Présentation La seconde édition du Symposium MaDICS aura lieu en distanciel du 6 au 9 juillet 2020. Chaque demi-journée propose un programme riche en exposés courts construit par nos responsables d’Actions et d’Atelier. Les sessions[...]