Action RoD – GdR IA (2017-2020)
Raisonner sur les données (Reasoning on Data)
Responsables
Correspondant ComDIR :
Thématiques
Cette action sest inter-GDR (MaDICS et IA), avec deux thématiques centrales :
- la gestion de données hétérogènes (sciences des données)
- la représentation de connaissances et les raisonnements (intelligence artificielle)
Données concernées
Nous considérons des données pour lesquelles l’ajout d’une couche « sémantique » a potentiellement une forte valeur ajoutée : Données hétérogènes (hétérogénéité des modèles de données et hétérogénéité sémantique) , Données du Web (Linked Open Data) , Données imparfaites (contradictoires, incomplètes, de fiabilité variable, …)
Mots clés
Algorithmes, Ontology-Based Data Access, Intégration de données hétérogènes, Liage de données et traitement de données liées, Raisonnements sur des données imparfaites
Contexte scientifique
Au niveau international, la question de l’exploitation de connaissances pour accéder à des données volumineuses et hétérogènes est très étudiée depuis quelques années. De nombreux travaux visent à prendre en compte des connaissances de nature ontologique (qui peuvent aller de la simple taxomomie à des connaissances décrites dans des langages logiques, comme les logiques de description, ou des langages à base de règles, organisés et étudiés en fragments d’expressivité variable) et à exploiter les inférences associées à ces connaissances dans tout le cycle de vie des données (accès, validation, enrichissement, etc.), le problème emblématique étant celui de l’interrogation (ou requêtage) des données (de nombreuses tâches complexes sur les données pouvant se reformuler en termes d’interrogation). On peut citer notamment la problématique d’Ontology-Based Data Access, très présente au niveau international dans les communautés Knowledge Representation and Reasoning, Data Management, et Semantic Web, mais dans une moindre mesure en France.
Cette action s’intéresse de façon générale au développement de techniques de représentation de connaissances et de raisonnements permettant de mieux tirer parti des données disponibles en masse dans différents formats, modèles et systèmes.
L’accent est particulièrement mis sur le développement d’algorithmes efficaces :
- pour l’interrogation de données prenant en compte des connaissances ontologiques
- pour l’intégration et l’analyse de données hétérogènes
- pour le traitement de données liées, et le liage de données issues de différentes bases
- pour raisonner sur des données incomplètes, pouvant être incertaines et de qualité variable (possiblement inconsistantes avec les connaissances ontologiques, issues de bases de diverse fiabilité, …).
L’objectif est de fédérer une communauté française sur le sujet.
Trois domaines d’application sont mis en avant, avec des fournisseurs de données prêts à mettre leurs données à disposition de la communauté de recherche :
- Agriculture numérique. L’institut de convergence #DigitAd (Human-Centred Digital Agriculture Convergence Lab) basé à Montpellier sera initié en janvier 2017. Son objectif général est de construire les briques scientifiques permettant le déploiement de l’agriculture numérique, en se basant sur une approche pluri-disciplinaire. En association avec #DigitAd, l’Irstea a été mandaté par les ministres de l’agriculture, de la recherche et de l’économie pour proposer un portail de données agricoles ouvertes. Dans ce domaine, de nombreuses bases de données relationnelles existent et stockent des données hétérogènes massives qu’il s’agit d’intégrer pour en faciliter l’accès à des usagers (décideurs, scientifiques, agriculteurs) ayant des besoins d’analyse très variés. Des ontologies, développées avec l’aide des experts du domaine, offrent un vocabulaire métier pour servir d’interfaces de requêtes adaptées au différents utilisateurs impliqués. Ce domaine est particulièrement adapté au développement d’approches de type Ontology-Based Data Access, et de méthodes de gestion d’inconsistances.
- Contenus pédagogiques en santé. La totalité des examens facultaires des facultés de médecine en France sont réalisés depuis plus de 3 ans sur une plate-forme numérique nationale dédiée intitulée SIDES. Il est offert aussi à tous les étudiants (60 000 actuellement) la possibilité de réaliser des entrainements avec correction automatique. Toutes ces activités sont tracées. L’unité élémentaire est un cas clinique, intitulé “dossier progressif”, constitué de 15 questions et devant être réalisé en 30 minutes par l’étudiant. Il existe aujourd’hui plus de 2000 dossiers de ce type dans une banque nationale dite d’entrainement alimentée par toutes les facultés de médecine de France. A titre indicatif et seulement sur la partie entrainement, plus de 4 millions de dossiers réalisés ont été enregistrés dans une base de données relationnelle de logs d’activités. Ce jeu de données sera anonymisé et permettra de tester la valeur ajoutée de l’enrichissement de ces données par des méta-données RDF et des connaissances ontologiques pour l’analyse personnalisée, et à la demande, des résultats, des lacunes et de la progression d’un étudiant ou d’un groupe d’étudiants. Les enjeux dépassent la formation initiale en Médecine car SIDES a pour vocation de s’élargir à toutes les formations en santé, y compris la formation continue.
- Données ouvertes du Web. DBpedia.fr regroupe 200 millions de triplets RDF extraits de Wikipedia francophone et le récent DBpedia historic représente toutes les révisions de pages depuis la création de Wikipedia Fr soit 1,9 milliard de triplets. Yago contient 120 millions de triplets RDF extraits également de Wikipedia. Web Data Commons met à disposition plusieurs gros jeux de données structurées extraites du Web sur des domaines variés. Ces jeux de données permettront de tester la faisabilité et l’apport d’algorithmes d’inférence pour améliorer la qualité et la complétude des données et des réponses aux requêtes, ainsi que pour le liage et la fusion de données. De plus, avec une moyenne de 70 000 requêtes par jour et des pics à 2,5 million de requêtes, le service DBpedia.fr publie des données sur le LOD depuis 2012 et place le chapitre francophone de DBpedia en deuxième position derrière l’Anglais. Dès lors il représente aussi un domaine d’application directe des recherches proposées ici.
Évènements à venir
Apr 13 – Apr 15 all-day
Annonce en lien avec l’Action/le Réseau : DOING Thème : Problèmes au carrefour du traitement du langage naturel, de l’intelligence artificielle et des bases de donnée Présentation : L’action DOING (https://www.madics.fr/ateliers/doing/) organise deux journées de[...]
Mar 27 all-day
Date : 2023-03-27 => 2023-03-28Lieu : LyonAprès les dix dernières éditions fructueuses des journées GreenDays, nous organisons les GreenDays 2023 @ Lyon les 27 et 28 Mars 2023 sur le thème “Efficacité énergétique, impacts environnementaux[...]
Mar 17 – Mar 18 all-day
Annonce en lien avec l’Action/le Réseau : SimpleText Thème : terminologie, mots-clés Présentation : La terminologie est un sujet particulièrement important pour la traduction et la rédaction techniques. La compréhension de documents techniques ou scientifiques[...]
Mar 8 all-day
Date : 2023-03-08 => 2023-03-09Lieu : Institut Pasteur, ParisUn nombre croissant de chercheurs s’intéresse à la problématique de la reproductibilité, dont la définition même peut grandement varier d’une discpline à une autre (observationnelle, expérimentale, statistique,[...]
Dec 13 all-day
Date : 2022-12-13Lieu : ISIMA, Salle du conseil (A102) and visioHello, I hope you are doing well. I have the great pleasure to invite you to my PhD defense entitled Explainable Classification of Uncertain Time Series.[...]
Dec 12 – Dec 16 all-day
Date : 2022-12-12 => 2022-12-16Lieu : ENS LyonRationale : Numerical computation and data analysis are essential aspects of research in astrophysics and astronomy, a field which has historically always been a producer of big data.[...]
Oct 6 – Oct 8 all-day
Annonce en lien avec l’Action/le Réseau : Musiscale Thème : Similarités musicales : échelles, dimensions, modèles, usages Présentation : Les données musicales constituent une masse d’information considérable qui est cependant mal exploitée du fait de[...]
Sep 5 – Sep 6 all-day
Annonce en lien avec l’Action/le Réseau : DOING Thème : Databases, Natural Language Processing, Artificial Intelligence Présentation : The workshop focuses on transforming data into information and then into knowledge. The idea is to gather[...]
Sep 5 – Sep 8 all-day
Date : 2022-09-05 => 2022-09-08Lieu : Torino, Italy******************* IMPORTANT DATES ****************** Paper submission: May 3, 2022 at 5 a.m. CET Notification of acceptance: May 23, 2022 Camera-ready due: June 7, 2022 Workshop day: September 5,[...]
Jul 7 – Jul 8 all-day
Annonce en lien avec l’Action/le Réseau : RoCED Thème : Gestion et intégration de données agronomiques, phénotypiques et environnementales Présentation : Rendre accessibles, exploitables et réutilisables les jeux de données issues d’expérimentation en milieu naturel[...]
Jul 5 – Jul 6 all-day
Annonce en lien avec l’Action/le Réseau : MACLEAN Thème : Machine learning and computer vision in earth observation: scientific results versus industrial needs Présentation : In the framework of the CAp and RFIAP conferences, a[...]
Jun 27 – Jun 28 all-day
Annonce en lien avec l’Action/le Réseau : RoCED Thème : construire une cartographie de jeux de données disponibles pour les raisonneurs Présentation : Le but de cette nouvelle édition de l’atelier ROCED@PFIA 2022 est de[...]
May 17 – May 20 all-day
Date : 2022-05-17 => 2022-05-20Lieu : Barcelona, SpainRCIS aims to bring together scientists, researchers, engineers, and practitioners from a wide range of information science fields and to provide opportunities for knowledge sharing and dissemination. The[...]
May 2 – May 3 all-day
Annonce en lien avec l’Action/le Réseau : RoCED Thème : workshop associated to The Knowledge Graph Conference (KGC) 2022 Présentation : In this workshop, we seek contributions describing methods and uses-cases that rely on the[...]
Mar 28 – Apr 3 all-day
Annonce en lien avec l’Action/le Réseau : DOING Thème : Modélisation et Simulation, Systèmes Multi-Agents, Optimisation Présentation : Les JFMS sont un rendez-vous biennal de la communauté des chercheurs francophones travaillant sur le formalisme DEVS[...]
Mar 28 – Apr 1 all-day
Date : 2022-03-28 => 2022-04-01Lieu : IES de Cargèse (Corse)Les journées Francophones de la modélisation et de la simulation 2022 seront organisées par le réseau RED du 28 mars au 2 Avril 2022 à l’Institut[...]
Nov 29 – Dec 11 all-day
Annonce en lien avec l’Action/le Réseau : BigData4Astro Thème : Ecole Thematique AstroInformatique 2021 (ANF) Présentation : L’astronomie a toujours été précurseur dans les problématiques de traitement de données (grands projets EUCLID, GAIA) et de[...]
Sep 21 – Sep 25 all-day
Annonce en lien avec l’Action/le Réseau : SimpleText Thème : Text Simplification for Scientific Information Access Présentation : CALL FOR PAPERS CLEF website: http://clef2021.clef-initiative.eu/index.php Submission site : https://easychair.org/conferences/?conf=simpletext2021 Deadlines Submissions : 28 April 2021 (AoE)[...]
Aug 24 all-day
Annonce en lien avec l’Action/le Réseau : DOING Thème : NLP (Natural Language Processing), DB (Databases), and AI (Artificial Intelligence) Présentation : The workshop focuses on transforming data into information and then into knowledge. The[...]
Jul 7 – Jul 8 all-day ISTIC
Annonce en lien avec l’Action/le Réseau : MADONA Programme Mercredi 7 juillet 9h30-20h30 9h00 Accueil des participants 9h30 “La poule, le couteau et l’open data: quand les non-experts découvrent la réalité des données ouvertes”, Simon[...]
Jun 17 @ 09:00 – 13:00
Annonce en lien avec l’Action/le Réseau : DOING Thème : Transformation de données textuelles en information Présentation : L’action DOING MADICS (https://www.madics.fr/ateliers/doing/) vous invite à participer de son deuxième webinar 2021 ! DOING regroupe une[...]
Jun 1 – Jun 5 all-day
Annonce en lien avec l’Action/le Réseau : SimpleText Thème : Simplification et Vulgarisation des Textes Scientifiques Présentation : APPEL À COMMUNICATION L’atelier SimpleText abordera les opportunités et les défis des approches de simplification de textes[...]
Mar 10 @ 09:00 – 12:30 ONLINE
L’action DOING MADICS (https://www.madics.fr/ateliers/doing/) organise son premier « kick-off » Webinar. Le premier Webinar donnera l’occasion de discuter sur la création de groupes de travail qui permettront d’organiser les activités de l’action. Étant donné que[...]
Dec 4 – Dec 5 all-day
Annonce en lien avec l’Action/le Réseau : LEMON Thème : Analyse des données sociales Présentation : Atelier organisé dans le cadre de l’action LEMON (anaLysE et dynaMique des messages et cONversations radicales sur Internet), action[...]
Oct 27 – Oct 30 all-day
Annonce en lien avec l’Action/le Réseau : Thème : gestion de données Présentation : La conférence “Gestion de Données – Principes, Technologies et Applications” (BDA) est le rendez-vous annuel incontournable de la communauté de la[...]
Sep 25 – Sep 26 all-day
Annonce en lien avec l’Action/le Réseau : PLATFORM Thème : Plateformes et risques algorithmiques Présentation : La manifestation vise à produire un document résumant notre retour d’expérience sur le travail de PLATFORM : autorisations légales,[...]
Aug 25 – Aug 26 all-day
Annonce en lien avec l’Action/le Réseau : DOING Thème : Information extraction from textual data, intelligent and efficient interrogation, and maintenance of knowledge bases. Présentation : The workshop focuses on transforming data into information and[...]
Jul 8 @ 14:00 – 17:00 BigBlueButton: https://bbb.unistra.fr/b/pie-p6e-e7c
Canal Slack #doing-webinar-madics : https://join.slack.com/t/doing-madics/shared_invite/zt-fbzccfmp-SFw1fYMI7qQNuRWVfQhcEA Twitter : https://twitter.com/NetworkDoing L’atelier DOING invite les chercheurs de la communauté MADICS à participer à son Webinar en marge du Symposium GDR du CNRS MaDICS avec le programme suivant :[...]
Jul 6 – Jul 9 all-day En distanciel avec BBB
Présentation La seconde édition du Symposium MaDICS aura lieu en distanciel du 6 au 9 juillet 2020. Chaque demi-journée propose un programme riche en exposés courts construit par nos responsables d’Actions et d’Atelier. Les sessions[...]
Jun 17 @ 10:00 – 12:00 Google meet : https://meet.google.com/ddy-gsqc-cnk
L’atelier DOING invite les chercheurs de la communauté MADICS à participer à son deuxième Webinar avec le programme suivant : 10:00 – 11 :00 Keynote: Natural Language Processing in the Health Domain (see abstract below)[...]