DOING

 

Atelier DOING

Données Intelligentes: transformer l’information en connaissance

Responsables

Correspondant ComDIR : Bruno Cremilleux

Thématiques

Bases de données, intelligence artificielle, traitement automatique du langage naturel, évaluation et optimisation de requêtes, traitement de données (data analytics)

Données concernées

D’une manière générale, notre intérêt porte sur tout type de données textuelles non structurées (ou semi-structurées) desquelles nous voulons extraire des connaissances. Parmi les domaines d’application nous mettons en avant la santé, la transition énergétique ainsi que les textes juridiques concernant principalement ces deux domaines. Nous considérons des textes de ces domaines provenant de différents types de documents (articles scientifiques, forums, réseaux sociaux, rapports d’activité, formulaires, contributions du grand débat, etc.)

Mots clés

Extraction d’information, graphe de connaissance, RDF, base de données graphe, interrogation en fonction du contexte, contraintes, qualité, intelligence artificielle, data science, évaluation et optimisation de requêtes et des processus de traitement de données.

Contexte scientifique

L’exploitation intelligente, efficace et sûre des documents requiert, dans la plupart des cas, la transformation de l’information non-structurée présente dans ces textes, dans un ensemble de données, plus au moins structurées selon une sémantique adaptée au domaine d’application. En effet, la résolution des problèmes de la société moderne passe par une recherche interdisciplinaire et les croisements des informations, surpassant ainsi une simple mise à disposition de données non structurées. Il existe un besoin urgent d’une représentation plus souple, plus fine, plus sensible au contexte, facilement accessible via des outils de consultation. En outre, la consultation, dans ce cadre, demande des requêtes robustes, efficaces, proposant une analyse des informations, avec une assurance de qualité, de cohérence et du respect de la vie privée. Les mêmes principes doivent régir la maintenance et l’évolution des bases de connaissances. Un tel environnement représente la nouvelle génération des infrastructures, la mise en place de la science de données au bénéfice du progrès scientifique ou de la prise de décisions éclairées.

Cette action s’intéresse à toutes les étapes concernant la mise en place de ces infrastructures modernes, se focalisant sur les données liées à la santé et à la transition écologique. Elle vise en particulier deux grandes lignes de discussions ainsi que leur mise en relation :

(I) La transformation des données en information, c’est-à-dire, l’extraction de l’information des données textuelles pour peupler une base de connaissances. Cette extraction peut englober des questions diverses comme la détection des entités, leur normalisation et l’extraction des relations entre entités ; la construction d’un schéma à partir des instances ; les mappings entre les schémas ; le résumé des données ; les problèmes d’anonymisation des données à publier ; l’extraction de contraintes d’intégrité à partir des textes juridiques ; etc. Dans les domaines de spécialité, des terminologies sont parfois disponibles et peuvent être utilisées pour la détection des entités et leur normalisation. Par exemple dans le domaine médical, les noms de médicaments, les symptômes, etc. sont décrits dans des ressources telles que l’UMLS, MedDRA, le MeSH ou le référentiel ouvert du médicament ROMEDI. Dans le domaine de l’énergie, il existe en revanche peu ou pas de vocabulaires normalisés.

(II) La transformation de l’information en connaissance, c’est-à-dire, l’interrogation intelligente et efficace, et la maintenance de bases de connaissances. L’intelligence dans la manipulation d’une base de connaissance passe par la capacité d’offrir des mécanismes d’analyse efficaces, flexibles, faciles à utiliser et adaptés à l’utilisateur. Les requêtes ‘data science’, capables de rendre des résultats analytiques sur les données de la base, sont des perspectives importantes dans l’aide à la décision et devraient être considérées en fonction de l’efficacité, la fiabilité, le profil de l’utilisateur, le respect des contraintes, du contexte, de la vie privée…

 

Site de l’Atelier DOING en cours de construction…


Évènements à venir

Apr 8 all-day INALCO 65 rue des Grands Moulins 75214 Paris Cedex 13 – SALLE 3.13
L’atelier DOING@MADICS propose une journée de travail autour de données intelligentes. Elle vise en particulier deux grandes lignes de discussions ainsi que leur mise en relation : (I) La transformation des données en information, c’est-à-dire,[...]