DOING

Action DOING (2020-2024)

Données Intelligentes: transformer l’information en connaissance

Responsables

Mirian HALFELD FERRARI ALVES, LIFO, INS2i
Anne-Lyse MINARD-FORST, LLL, INSHS
Genoveva VARGAS-SOLAR, LIRIS, INS2i

Correspondant ComDIR :

Thématiques

Bases de données, traitement automatique du langage naturel, intelligence artificielle (techniques pour le traitement de texte et data analytics sur les textes/documents).

Données concernées

Notre intérêt porte sur tout type de données textuelles non structurées (ou éventuellement semi-structurées) à partir desquelles nous voulons construire des bases de données qui puissent être explorées, interrogées et analysées pour extraire des connaissances. Parmi les domaines d’application, jusqu’à maintenant, nous avons travaillé surtout sur les données du domaine médical. Néanmoins DOING reste intéressé non seulement aux données textuelles du domaine de la santé mais aussi du domaine de l’environnement, et éventuellement aux textes juridiques concernant ces deux domaines. Nous considérons des textes provenant de différents types de documents (articles scientifiques, forums, réseaux sociaux, rapports d’activité, formulaires semi-structurés, etc.). Un aspect plus original de DOING concerne l’utilisation de collections de questions formulées par des spécialistes du domaine d’application pour calibrer l’extraction d’information et de connaissance. Nous avons plusieurs jeux de données à disposition que nous pourrons utiliser dans le cadre de cette action, à la fois en français et en anglais. Pour le domaine médical nous pouvons par exemple citer : Corpus de cas cliniques développé et annoté pour DEFT 2019/2020 (https://deft.limsi.fr/) et accessible après acceptation de la licence ; Corpus de cas cliniques en cours de développement (fin du projet en juillet 2021) multilingue (français, anglais, italien, espagnol, basque) dans le cadre du projet ELG European Language Grid) E3C (https://e3c.fbk.eu/home); licence CC-BY-NC-SA ; QUAERO FrenchMedical corpus (https://quaerofrenchmed.limsi.fr/quaeroFRmed_FR.htm) qui contient entre autres des notices de médicament annotées ; COVID-19 Open Research Dataset (non annoté) : https://github.com/allenai/s2orc PANACEA Environment French monolingual corpus (non annoté) : https://catalogue.elra.info/en-us/repository/browse/ELRA-W0065/ Nous signalons les interactions possibles avec le programme régional ARD-CVL-JUNON. Dans ce cadre, seulement le volet ‘interrogation intelligente’ de notre action serait concernée, en utilisant des données (non textuelles) que JUNON compte laisser disponibles.

Contexte et positionnement scientifique

Les textes sont une source d’information et de communication importante pour les métiers de la santé. Il en existe différents types : protocoles médicaux, articles scientifiques, dossiers des patients, rapports d’intervention, suivis des traitements, tweets, observations des l’environnement, etc. Dans le domaine de l’environnement, beaucoup d’informations circulent aussi entre les experts sous forme textuelle, comme par exemple dans les rapports des bureaux d’études, les articles scientifiques, ou encore les textes législatifs.

L’exploitation intelligente, efficace et sûre des documents requiert, dans la plupart des cas, la transformation de l’information non structurée présente dans ces textes, dans un ensemble de données, structurées selon une sémantique adaptée au domaine d’application. Plus encore, cette étape de structuration devrait être faite en visant à écarter le superflus, pour se concentrer sur les données ssentielles aux applications et analyses en aval. En effet, la résolution des problèmes de la société moderne passe par une recherche interdisciplinaire et les croisements des informations, surpassant ainsi une simple mise à disposition de données non structurées. Il existe un besoin urgent d’une représentation plus souple, plus fine, plus sensible au contexte, facilement accessible via des outils de consultation. En outre, la consultation, dans ce cadre, demande des requêtes robustes, efficaces, proposant une analyse des informations, avec une assurance de qualité, de cohérence et du respect de la vie privée. Les mêmes principes doivent régir la maintenance et l’évolution des bases de connaissances. Un tel environnement représente la nouvelle génération des infrastructures, la mise en place de la science de données au bénéfice du progrès scientifique ou de la prise de décisions éclairées.

Cette action s’intéresse à toutes les étapes concernant la mise en place de ces infrastructures modernes, se focalisant sur les données liées à la santé et à l’environnement. Elle vise en particulier deux grandes lignes de discussion ainsi que leur mise en relation :

(I) La transformation des données en information, c’est-à-dire, l’extraction de l’information des données textuelles pour peupler une base de connaissance. Cette extraction peut englober des questions diverses comme la détection des entités, leur normalisation et l’extraction des relations entre entités ; la construction d’un schéma à partir des instances ; les mappings entre les schémas ; le résumé des données ; les problèmes d’anonymisation des données à publier ; l’extraction de contraintes d’intégrité à partir des textes juridiques ; etc. Après un premier travail sur l’extraction des entités cette année (voir Bilan), nous souhaitons dans l’action DOING mettre l’accent sur l’extraction des relations, et sur l’interaction des systèmes d’extraction d’information et des bases de données (du texte à la base de données et de la base de données au texte). Nous voulons aussi, en lien avec ces aspects, réfléchir aux problématiques de l’adaptation au domaine et de la fusion d’information provenant d’articles scientifiques, de cas cliniques, de base de données des médicaments, etc.

(II) La transformation de l’information en connaissance, c’est-à-dire, l’interrogation intelligente et efficace, et la maintenance de bases de connaissances. L’intelligence dans la manipulation d’une base de connaissance passe par la capacité d’offrir des mécanismes d’analyse efficaces, flexibles, faciles à utiliser et adaptés à l’utilisateur. Les requêtes ‘data science’, capables de rendre des résultats analytiques sur les données de la base, sont des perspectives importantes dans l’aide à la décision et devraient être considérées en fonction de l’efficacité, la fiabilité, le profil de l’utilisateur, le respect des contraintes, du contexte, de la vie privée… Suite à une première année de travail en tant qu’atelier (voir Bilan, section 6), DOING propose une réflexion plus centrée sur les graphes de propriétés, en se focalisant, dans un premier temps, sur les valeurs classiques du domaine bases de données (en contraste avec le domaine du web sémantique), en particulier en ce qui concerne la dichotomie entre les sémantiques du monde ouvert et fermé. DOING s’intéresse en particulier au langage d’interrogation style Cypher dans le cadre de Open Cypher et GQL et aux algorithmes d’analyse des graphes (centrality, community detection, similarity, link prediction, pathfinding).

L’atelier DOING réunit des chercheurs en traitement automatique du langage naturel, en bases de données et en intelligence artificielle autour de la problématique des données intelligentes.

Initialement proposé comme groupe de travail du réseau régional RTR-DIAMS, DOING travaille au niveau régional depuis 2019 avec les laboratoires LIFO, LIFAT, et LLL. Dès cette période, DOING a commencé à s’étendre vers des collaborations nationales et internationales. Son évolution vers un atelier MADICS a naturellement accentué cette expansion. Aujourd’hui nous comptons avec plusieurs groupes ayant manifesté leur intérêt pour nos activités (voir liste ci-dessous) et nous avons 40 déclarations d’intention sur le site MADICS de DOING. Nous croyons que
cette première année d’activité de DOING@MADICS, malgré la crise sanitaire, a permis de consolider ou de créer des liens entre, non seulement les laboratoires de la région Centre-Val-de-Loire, le LIFO, le LIFAT, le LLL, mais aussi de ces laboratoires vers le LIPADE, l’IRISA (qui participe à nos réunions depuis 2019), le LIG, et d’autres encore, comme nous pouvons constater via les déclarations de soutien (ci-dessous) et les échanges réalisés en
2020 (voir Bilan). Nos liens internationaux ont aussi été renforcés avec le Brésil : avec des anciens partenaires, UFRN et UFPR, ce dernier co-porteur du workshop international DOING@ADBIS-TPDL-EDA et le démarrage de nouvelles collaborations, notamment avec des médecins de l’hôpital universitaire de l’UFJF. Un contact prometteur avec l’Université de Genève à été aussi établi. De plus, il ne faut pas oublier que l’atelier compte avec la participation de chercheurs de l’UMI LAFMIA au Mexique. Enfin, une thèse Cifre-LIFO [1], dans la thématique de DOING, formalise une collaboration avec une entreprise capable d’exprimer des besoins pratiques dans la construction des logiciels pour le domaine de la pharmacovigilance.

Avec l’objectif d’élargir le réseau et de le consolider à travers la participation d’autres groupes intéressés à la définition des nouvelles techniques d’interrogation de données et d’extraction de connaissances, nous voulons créer cette action MADICS. Des groupes experts en extraction d’information, en représentation de la connaissance, en data analytics et en traitement de requêtes pourront réfléchir sur des problèmes communs et sur des perspectives ouvertes.

Pour le positionnement nous avons trouvé intéressant de voir ce que nous avons en commun avec certains
Ateliers/Actions existants et ce qui est particulier à DOING.

1. Nous avons remarqué que MADONA, LEMON et DOING partent du traitement de données textuelles,
souvent en utilisant des techniques de TAL mais bien sûr avec des objectifs différents. RoCED, LEMON et DOING ont en commun de se servir des graphes pour représenter le contenu des textes, mais à la différence de RoCED qui ne travaille pas forcément uniquement avec du texte, LEMON et DOING se concentrent sur les collections textes.

2.LEMON et RoCED s’intéressent en particulier aux ontologies. RoCED s’intéresse à l’intégration de données par des ontologies alors que LEMON, DOING et MADONA ne travaillent pas sur l’intégration de données mais plus sur une phase de « préparation de données » qui leur permet d’extraire du contenu et de le représenter pour ensuite l’interroger, appliquer de la fouille, ou du ML pour en extraire de la connaissance.

3. DOING a la particularité lors de cette phase de préparation de données de s’intéresser à la qualité exprimée par des contraintes, et pour l’interrogation d’étudier comment exprimer de manière déclarative les tâches de traitement des graphes et comment les optimiser comme dans le cas des requêtes relationnelles.

4. Certaines questions abordées dans l’item (II) de notre contexte scientifique, sont aussi sujets de réflexion dans l’atelier RoCED. Néanmoins, contrairement à RoCED, l’action DOING a des préoccupations plus accrochées au domaine des bases de données – et pas forcément ancrée dans le domaine du web sémantique. Cette différenciation, subtile parfois, nous guide vers des choix différents dans plusieurs situations. DOING propose de donner priorité aux choix issus du domaine ‘base de données’ et d’organiser des échanges avec les actions travaillant sur le web sémantique, car si nous sommes persuadées que les liens existent et que l’échange serait riche, nous sommes aussi convaincues que le travail en parallèle ne peut qu’apporter des évolutions scientifiques.

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Action DOING (2020-2024)

Responsables

Thématiques

Données concernées

Contexte et positionnement scientifique

Visitez le site web de l’Action DOING