DOING

 

Action DOING (2020-2024)

Données Intelligentes: transformer l’information en connaissance

Responsables

Correspondant ComDIR : Bruno Cremilleux

Thématiques

Bases de données, traitement automatique du langage naturel, intelligence artificielle (techniques pour le traitement de texte et data analytics sur les textes/documents).

Données concernées

Notre intérêt porte sur tout type de données textuelles non structurées (ou éventuellement semi-structurées) à partir desquelles nous voulons construire des bases de données qui puissent être explorées, interrogées et analysées pour extraire des connaissances. Parmi les domaines d’application, jusqu’à maintenant, nous avons travaillé surtout sur les données du domaine médical. Néanmoins DOING reste intéressé non seulement aux données textuelles du domaine de la santé mais aussi du domaine de l’environnement, et éventuellement aux textes juridiques concernant ces deux domaines. Nous considérons des textes provenant de différents types de documents (articles scientifiques, forums, réseaux sociaux, rapports d’activité, formulaires semi-structurés, etc.). Un aspect plus original de DOING concerne l’utilisation de collections de questions formulées par des spécialistes du domaine d’application pour calibrer l’extraction d’information et de connaissance. Nous avons plusieurs jeux de données à disposition que nous pourrons utiliser dans le cadre de cette action, à la fois en français et en anglais. Pour le domaine médical nous pouvons par exemple citer : Corpus de cas cliniques développé et annoté pour DEFT 2019/2020 (https://deft.limsi.fr/) et accessible après acceptation de la licence ; Corpus de cas cliniques en cours de développement (fin du projet en juillet 2021) multilingue (français, anglais, italien, espagnol, basque) dans le cadre du projet ELG European Language Grid) E3C (https://e3c.fbk.eu/home); licence CC-BY-NC-SA ; QUAERO FrenchMedical corpus (https://quaerofrenchmed.limsi.fr/quaeroFRmed_FR.htm) qui contient entre autres des notices de médicament annotées ; COVID-19 Open Research Dataset (non annoté) : https://github.com/allenai/s2orc PANACEA Environment French monolingual corpus (non annoté) : https://catalogue.elra.info/en-us/repository/browse/ELRA-W0065/ Nous signalons les interactions possibles avec le programme régional ARD-CVL-JUNON. Dans ce cadre, seulement le volet ‘interrogation intelligente’ de notre action serait concernée, en utilisant des données (non textuelles) que JUNON compte laisser disponibles.

Contexte et positionnement scientifique

Les textes sont une source d’information et de communication importante pour les métiers de la santé. Il en existe différents types : protocoles médicaux, articles scientifiques, dossiers des patients, rapports d’intervention, suivis des traitements, tweets, observations des l’environnement, etc. Dans le domaine de l’environnement, beaucoup d’informations circulent aussi entre les experts sous forme textuelle, comme par exemple dans les rapports des bureaux d’études, les articles scientifiques, ou encore les textes législatifs.

L’exploitation intelligente, efficace et sûre des documents requiert, dans la plupart des cas, la transformation de l’information non structurée présente dans ces textes, dans un ensemble de données, structurées selon une sémantique adaptée au domaine d’application. Plus encore, cette étape de structuration devrait être faite en visant à écarter le superflus, pour se concentrer sur les données ssentielles aux applications et analyses en aval. En effet, la résolution des problèmes de la société moderne passe par une recherche interdisciplinaire et les croisements des informations, surpassant ainsi une simple mise à disposition de données non structurées. Il existe un besoin urgent d’une représentation plus souple, plus fine, plus sensible au contexte, facilement accessible via des outils de consultation. En outre, la consultation, dans ce cadre, demande des requêtes robustes, efficaces, proposant une analyse des informations, avec une assurance de qualité, de cohérence et du respect de la vie privée. Les mêmes principes doivent régir la maintenance et l’évolution des bases de connaissances. Un tel environnement représente la nouvelle génération des infrastructures, la mise en place de la science de données au bénéfice du progrès scientifique ou de la prise de décisions éclairées.

Cette action s’intéresse à toutes les étapes concernant la mise en place de ces infrastructures modernes, se focalisant sur les données liées à la santé et à l’environnement. Elle vise en particulier deux grandes lignes de discussion ainsi que leur mise en relation :

(I) La transformation des données en information, c’est-à-dire, l’extraction de l’information des données textuelles pour peupler une base de connaissance. Cette extraction peut englober des questions diverses comme la détection des entités, leur normalisation et l’extraction des relations entre entités ; la construction d’un schéma à partir des instances ; les mappings entre les schémas ; le résumé des données ; les problèmes d’anonymisation des données à publier ; l’extraction de contraintes d’intégrité à partir des textes juridiques ; etc. Après un premier travail sur l’extraction des entités cette année (voir Bilan), nous souhaitons dans l’action DOING mettre l’accent sur l’extraction des relations, et sur l’interaction des systèmes d’extraction d’information et des bases de données (du texte à la base de données et de la base de données au texte). Nous voulons aussi, en lien avec ces aspects, réfléchir aux problématiques de l’adaptation au domaine et de la fusion d’information provenant d’articles scientifiques, de cas cliniques, de base de données des médicaments, etc.

(II) La transformation de l’information en connaissance, c’est-à-dire, l’interrogation intelligente et efficace, et la maintenance de bases de connaissances. L’intelligence dans la manipulation d’une base de connaissance passe par la capacité d’offrir des mécanismes d’analyse efficaces, flexibles, faciles à utiliser et adaptés à l’utilisateur. Les requêtes ‘data science’, capables de rendre des résultats analytiques sur les données de la base, sont des perspectives importantes dans l’aide à la décision et devraient être considérées en fonction de l’efficacité, la fiabilité, le profil de l’utilisateur, le respect des contraintes, du contexte, de la vie privée… Suite à une première année de travail en tant qu’atelier (voir Bilan, section 6), DOING propose une réflexion plus centrée sur les graphes de propriétés, en se focalisant, dans un premier temps, sur les valeurs classiques du domaine bases de données (en contraste avec le domaine du web sémantique), en particulier en ce qui concerne la dichotomie entre les sémantiques du monde ouvert et fermé. DOING s’intéresse en particulier au langage d’interrogation style Cypher dans le cadre de Open Cypher et GQL et aux algorithmes d’analyse des graphes (centrality, community detection, similarity, link prediction, pathfinding).

L’atelier DOING réunit des chercheurs en traitement automatique du langage naturel, en bases de données et en intelligence artificielle autour de la problématique des données intelligentes.

Initialement proposé comme groupe de travail du réseau régional RTR-DIAMS, DOING travaille au niveau régional depuis 2019 avec les laboratoires LIFO, LIFAT, et LLL. Dès cette période, DOING a commencé à s’étendre vers des collaborations nationales et internationales. Son évolution vers un atelier MADICS a naturellement accentué cette expansion. Aujourd’hui nous comptons avec plusieurs groupes ayant manifesté leur intérêt pour nos activités (voir liste ci-dessous) et nous avons 40 déclarations d’intention sur le site MADICS de DOING. Nous croyons que
cette première année d’activité de DOING@MADICS, malgré la crise sanitaire, a permis de consolider ou de créer des liens entre, non seulement les laboratoires de la région Centre-Val-de-Loire, le LIFO, le LIFAT, le LLL, mais aussi de ces laboratoires vers le LIPADE, l’IRISA (qui participe à nos réunions depuis 2019), le LIG, et d’autres encore, comme nous pouvons constater via les déclarations de soutien (ci-dessous) et les échanges réalisés en
2020 (voir Bilan). Nos liens internationaux ont aussi été renforcés avec le Brésil : avec des anciens partenaires, UFRN et UFPR, ce dernier co-porteur du workshop international DOING@ADBIS-TPDL-EDA et le démarrage de nouvelles collaborations, notamment avec des médecins de l’hôpital universitaire de l’UFJF. Un contact prometteur avec l’Université de Genève à été aussi établi. De plus, il ne faut pas oublier que l’atelier compte avec la participation de chercheurs de l’UMI LAFMIA au Mexique. Enfin, une thèse Cifre-LIFO [1], dans la thématique de DOING, formalise une collaboration avec une entreprise capable d’exprimer des besoins pratiques dans la construction des logiciels pour le domaine de la pharmacovigilance.

Avec l’objectif d’élargir le réseau et de le consolider à travers la participation d’autres groupes intéressés à la définition des nouvelles techniques d’interrogation de données et d’extraction de connaissances, nous voulons créer cette action MADICS. Des groupes experts en extraction d’information, en représentation de la connaissance, en data analytics et en traitement de requêtes pourront réfléchir sur des problèmes communs et sur des perspectives ouvertes.

Pour le positionnement nous avons trouvé intéressant de voir ce que nous avons en commun avec certains
Ateliers/Actions existants et ce qui est particulier à DOING.

1. Nous avons remarqué que MADONA, LEMON et DOING partent du traitement de données textuelles,
souvent en utilisant des techniques de TAL mais bien sûr avec des objectifs différents. RoCED, LEMON et DOING ont en commun de se servir des graphes pour représenter le contenu des textes, mais à la différence de RoCED qui ne travaille pas forcément uniquement avec du texte, LEMON et DOING se concentrent sur les collections textes.

2.LEMON et RoCED s’intéressent en particulier aux ontologies. RoCED s’intéresse à l’intégration de données par des ontologies alors que LEMON, DOING et MADONA ne travaillent pas sur l’intégration de données mais plus sur une phase de « préparation de données » qui leur permet d’extraire du contenu et de le représenter pour ensuite l’interroger, appliquer de la fouille, ou du ML pour en extraire de la connaissance.

3. DOING a la particularité lors de cette phase de préparation de données de s’intéresser à la qualité exprimée par des contraintes, et pour l’interrogation d’étudier comment exprimer de manière déclarative les tâches de traitement des graphes et comment les optimiser comme dans le cas des requêtes relationnelles.

4. Certaines questions abordées dans l’item (II) de notre contexte scientifique, sont aussi sujets de réflexion dans l’atelier RoCED. Néanmoins, contrairement à RoCED, l’action DOING a des préoccupations plus accrochées au domaine des bases de données – et pas forcément ancrée dans le domaine du web sémantique. Cette différenciation, subtile parfois, nous guide vers des choix différents dans plusieurs situations. DOING propose de donner priorité aux choix issus du domaine ‘base de données’ et d’organiser des échanges avec les actions travaillant sur le web sémantique, car si nous sommes persuadées que les liens existent et que l’échange serait riche, nous sommes aussi convaincues que le travail en parallèle ne peut qu’apporter des évolutions scientifiques.

 

Visitez le site web de l’Action DOING



Évènements à venir

Date : 2024-04-17Lieu : EPITA, 14-16 rue Voltaire, 94 270 Le Kremlin-BicêtreDans le cadre d’une journée thématique commune AFIA – EGC co-organisée par le groupe de travail GAST, le 17 avril 2024, nous souhaitons réunir les[...]
Date : 2024-05-03Lieu : BnF – Paris(Avec toutes nos excuses en cas de réceptions multiples) Le vocable humanités numériques s’est aujourd’hui imposé pour désigner les travaux de recherche relevant tantôt de la création, la gestion[...]
May 6 – May 7 all-day
Date : 2024-05-06 => 2024-05-07Lieu : Bordeaux, FranceAnnouncement and Call for papers 1st Edition of Econom’IA Conference We are proud to announce the first Econom’IA conference that will take place in BSE (Bordeaux School of[...]
May 8 – May 14 all-day
Date : 2024-05-08 => 2024-05-14Lieu : Brasov, RoumanieEcole intelligence artificielle pour l’agriculture. L’école est gratuite, les étudiants logés. En revanche, les frais de déplacements ne sont pas pris en compte par l’école. Les financements sont[...]
May 27 – May 31 all-day
Date : 2024-05-27 => 2024-05-31Lieu : Nancy – France1er Appel à Communication INFORSID 2024 @Nancy (Date limite de réception des articles : 23 février 2024) Les organisations et le monde vivent actuellement de grandes transformations[...]
Date : 2024-05-28Lieu : Montpellier, FranceWorkshop on Complex Network Sparsification In conjunction with the French Regional Conference on Complex Systems (FRCCS 2024) May 28, 2024  Montpellier France The aim of this workshop is to bring[...]
Date : 2024-05-29 => 2024-05-31Lieu : Université Grenoble Alpes MACI 339 avenue Centrale Domaine Universitaire 38400 Saint-Martin-d’Hères Dear colleagues, We would like to invite you to the Grenoble Artificial Intelligence for Physical Sciences Workshop” (GAP2024)[...]
Date : 2024-05-31Lieu : Le séminaire des doctorants aura lieu sur plusieurs sites locaux, et en ligne.Séminaire des doctorantes et doctorants en informatique Le 31 mai 2024, se tiendra le séminaire des doctorantes et doctorants[...]
Date : 2024-06-17 => 2024-06-20Lieu : Tampere, FinlandCall for Papers – ICWE 2024 24th International Conference on Web Engineering June 17-20, 2024 in Tampere, Finland https://icwe2024.webengineering.org ICWE 2024 – AT A GLANCE The International Conference[...]
Date : 2024-06-17 => 2023-09-21Lieu : LIASD, IUT de Montreuil, Université Paris8 Adresse : 140, rue de la nouvelle France 93100 MontreuilDear, You are invited to attend a presentation by Professor Tommie Meyer (University of[...]
Date : 2024-06-17 => 2024-02-19Lieu : Poitiers, FranceOverview ********* Welcome to ISMIS 2024 27th International Symposium on Methodologies for Intelligent Systems Website of the Conference: https://ismis2024.ensma.fr/ June 17 – 19, 2024 Poitiers, France ISMIS is[...]
Date : 2024-06-18 => 2024-06-20Lieu : Rennes, FranceSave the date! The ACM Conference on Reproducibility and Replicability will take place on: June 18-20, 2024 at INRIA, Rennes, France This will be a hybrid event –[...]
Jun 23 – Jun 27 all-day
Date : 2024-06-23 => 2024-06-27Lieu : Ceillac-en-QueyrasThe thematic school ‘Masses de Données’ (MDD) originates from the research community in databases. Its aim is to strengthen the educational component (tutorials) within an independent event, leading to[...]
Date : 2024-06-24 => 2024-07-01Lieu : INSA de Rouen (76)Les graphes sont au cœur de nombreuses thématiques de recherche ou apparaissent spontanément dans des projets où on ne les attendaient pas. Le traitement de ces[...]
Jul 30 – Aug 2 all-day
Date : 2024-07-30 => 2024-08-02Lieu : Vienne AutricheThe 5th International Workshop on Graph-based Approaches for CyberSecurity to be held in conjunction with the 19th International Conference on Availability, Reliability and Security Vienna, Austria July 30[...]
Date : 2024-08-05Lieu : Co-localisé avec la conférence IJCAI 2024, île de Jeju, Corée du SudCall For Papers The 3rd International Workshop on Spatio-Temporal Reasoning and Learning (STRL 2024) will take place in Jeju, South[...]
Aug 26 – Aug 30 all-day
Date : 2024-08-26 => 2024-08-30Lieu : Lyon, FranceConference EUSIPCO 2024, in Lyon (France) on August 26th-30th. https://eusipcolyon.sciencesconf.org Important dates: Special Session proposals: Jan 14, 2024 / Submission of Tutorial proposals: March 1, 2024 / Full[...]
Date : 2024-08-28Lieu : Bayonne, France**************************** CALL FOR PAPERS DOING 2024: 5th International Workshop on Intelligent Data – From Data to Knowledge **************************** August 28, 2024 Bayonne, France In conjunction with ADBIS 2024 https://www.univ-orleans.fr/lifo/evenements/doing/?page_id=1259 https://conferences.sigappfr.org/adbis2024/[...]
Date : 2024-12-02 => 2024-12-05Lieu : Lyon, FranceDear Colleagues, We are thrilled to announce the opening of extended abstract submissions for the 15th edition of the Traffic & Granular Flow (TGF) Conference, a pivotal event[...]