RoD (2017-2020)

Action RoD – GdR IA (2017-2020)

Raisonner sur les données (Reasoning on Data)

Responsables

Correspondant ComDIR :

Thématiques

Cette action sest inter-GDR (MaDICS et IA), avec deux thématiques centrales :

  • la gestion de données hétérogènes (sciences des données)
  • la représentation de connaissances et les raisonnements (intelligence artificielle)

Données concernées

Nous considérons des données pour lesquelles l’ajout d’une couche « sémantique » a potentiellement une forte valeur ajoutée : Données hétérogènes (hétérogénéité des modèles de données et hétérogénéité sémantique) , Données du Web (Linked Open Data) , Données imparfaites (contradictoires, incomplètes, de fiabilité variable, …)

Mots clés

Algorithmes, Ontology-Based Data Access, Intégration de données hétérogènes, Liage de données et traitement de données liées, Raisonnements sur des données imparfaites

Contexte scientifique

Au niveau international, la question de l’exploitation de connaissances pour accéder à des données volumineuses et hétérogènes est très étudiée depuis quelques années. De nombreux travaux visent à prendre en compte des connaissances de nature ontologique (qui peuvent aller de la simple taxomomie à des connaissances décrites dans des langages logiques, comme les logiques de description, ou des langages à base de règles, organisés et étudiés en fragments d’expressivité variable) et à exploiter les inférences associées à ces connaissances dans tout le cycle de vie des données (accès, validation, enrichissement, etc.), le problème emblématique étant celui de l’interrogation (ou requêtage) des données (de nombreuses tâches complexes sur les données pouvant se reformuler en termes d’interrogation). On peut citer notamment la problématique d’Ontology-Based Data Access, très présente au niveau international dans les communautés Knowledge Representation and Reasoning, Data Management, et Semantic Web, mais dans une moindre mesure en France.

Cette action s’intéresse de façon générale au développement de techniques de représentation de connaissances et de raisonnements permettant de mieux tirer parti des données disponibles en masse dans différents formats, modèles et systèmes.

L’accent est particulièrement mis sur le développement d’algorithmes efficaces :

  • pour l’interrogation de données prenant en compte des connaissances ontologiques
  • pour l’intégration et l’analyse de données hétérogènes
  • pour le traitement de données liées, et le liage de données issues de différentes bases
  • pour raisonner sur des données incomplètes, pouvant être incertaines et de qualité variable (possiblement inconsistantes avec les connaissances ontologiques, issues de bases de diverse fiabilité, …).

L’objectif est de fédérer une communauté française sur le sujet.

Trois domaines d’application sont mis en avant, avec des fournisseurs de données prêts à mettre leurs données à disposition de la communauté de recherche : 


  • Agriculture numérique. L’institut de convergence #DigitAd (Human-Centred Digital Agriculture Convergence Lab) basé à Montpellier sera initié en janvier 2017. Son objectif général est de construire les briques scientifiques permettant le déploiement de l’agriculture numérique, en se basant sur une approche pluri-disciplinaire. En association avec #DigitAd, l’Irstea a été mandaté par les ministres de l’agriculture, de la recherche et de l’économie pour proposer un portail de données agricoles ouvertes. Dans ce domaine, de nombreuses bases de données relationnelles existent et stockent des données hétérogènes massives qu’il s’agit d’intégrer pour en faciliter l’accès à des usagers (décideurs, scientifiques, agriculteurs) ayant des besoins d’analyse très variés. Des ontologies, développées avec l’aide des experts du domaine, offrent un vocabulaire métier pour servir d’interfaces de requêtes adaptées au différents utilisateurs impliqués. Ce domaine est particulièrement adapté au développement d’approches de type Ontology-Based Data Access, et de méthodes de gestion d’inconsistances.
  • Contenus pédagogiques en santé. La totalité des examens facultaires des facultés de médecine en France sont réalisés depuis plus de 3 ans sur une plate-forme numérique nationale dédiée intitulée SIDES. Il est offert aussi à tous les étudiants (60 000 actuellement) la possibilité de réaliser des entrainements avec correction automatique. Toutes ces activités sont tracées. L’unité élémentaire est un cas clinique, intitulé “dossier progressif”, constitué de 15 questions et devant être réalisé en 30 minutes par l’étudiant. Il existe aujourd’hui plus de 2000 dossiers de ce type dans une banque nationale dite d’entrainement alimentée par toutes les facultés de médecine de France. A titre indicatif et seulement sur la partie entrainement, plus de 4 millions de dossiers réalisés ont été enregistrés dans une base de données relationnelle de logs d’activités. Ce jeu de données sera anonymisé et permettra de tester la valeur ajoutée de l’enrichissement de ces données par des méta-données RDF et des connaissances ontologiques pour l’analyse personnalisée, et à la demande, des résultats, des lacunes et de la progression d’un étudiant ou d’un groupe d’étudiants. Les enjeux dépassent la formation initiale en Médecine car SIDES a pour vocation de s’élargir à toutes les formations en santé, y compris la formation continue.
  • Données ouvertes du Web. DBpedia.fr regroupe 200 millions de triplets RDF extraits de Wikipedia francophone et le récent DBpedia historic représente toutes les révisions de pages depuis la création de Wikipedia Fr soit 1,9 milliard de triplets. Yago contient 120 millions de triplets RDF extraits également de Wikipedia. Web Data Commons met à disposition plusieurs gros jeux de données structurées extraites du Web sur des domaines variés. Ces jeux de données permettront de tester la faisabilité et l’apport d’algorithmes d’inférence pour améliorer la qualité et la complétude des données et des réponses aux requêtes, ainsi que pour le liage et la fusion de données. De plus, avec une moyenne de 70 000 requêtes par jour et des pics à 2,5 million de requêtes, le service DBpedia.fr publie des données sur le LOD depuis 2012 et place le chapitre francophone de DBpedia en deuxième position derrière l’Anglais. Dès lors il représente aussi un domaine d’application directe des recherches proposées ici.

Visitez le site web de l’Action RoD


Évènements à venir

May 3 – Jun 2 all-day
Date : 2022-05-03 => 2022-06-02Web site: https://www.frontiersin.org/research-topics/34050/text-complexity-and-simplification Submission Deadlines 03 May 2022 Abstract 02 July 2022 Manuscript Context Text complexity assessment is one of the urgent problems of our time. Many modern texts, including classroom[...]
Apr 22 all-day
Date : 2022-04-22Context The web and social media have democratized information sharing and have become the main source of information for citizens, risking users to rely on shallow information in sources prioritizing commercial or political[...]
Apr 22 all-day
Date : 2022-04-22Deadlines Data & guidelines release: February – March 2022 Run submission: 22 April 2022 Draft paper submission: 27 May 2022 CLEF conference: 5–8 September 2022 Context Humour remains one of the most difficult[...]
Apr 22 all-day
Date : 2022-04-22Lieu : Montpellier, FranceThe 25th International Conference on Discovery Science (DS 2022) https://ds2022.sciencesconf.org/ Montpellier, France, October, 10-12, 2022 *********************************** COVID-19 *********************************** We hope that by October the world will have returned to normality[...]
Apr 22 all-day
Date : 2022-04-22Lieu : Université de Bretagne Occidentale 20, rue Duquesne – CS9383729238 Brest Cedex 3, FranceLa simplification de textes est utilisée dans les domaines de la traduction,la localisation et la rédaction technique. La pré-édition[...]
Apr 7 all-day
Date : 2022-04-07Lieu : CNAM, Paris 75003L’Association Française pour l’Intelligence Artificielle (AFIA) organise sa huitième journée PERSPECTIVES ET DEFIS DE l’IA sur le thème de « IA et créativité » le 07 avril 2022, au[...]
Mar 29 all-day
Date : 2022-03-29Lieu : EdinburghCall For Papers for DataPlat 2022, the 1st International Workshop on Data Platform Design, Management, and Optimization, which will be held on March 29, 2022 at Edinburgh, co-located with EDBT/ICDT. DataPlat[...]
Mar 28 – Apr 1 all-day
Date : 2022-03-28 => 2022-04-01Lieu : IES de Cargèse (Corse)Les journées Francophones de la modélisation et de la simulation 2022 seront organisées par le réseau RED du 28 mars au 2 Avril 2022 à l’Institut[...]
Mar 21 – Mar 23 all-day
Date : 2022-03-21 => 2022-03-23Lieu : Grenoble, Campus de Saint-Martin-d’Hères Bâtiment IMAGRenouvelé en 2022 pour 5 ans par ses deux instituts de rattachement INS2I et INSHS, et avec le soutien de l’INEE, le GdR CNRS[...]
Mar 18 all-day
Date : 2022-03-18Lieu : Campus des Cordeliers, Paris (LIMICS)Détection, représentation, et exploitation des aspects temporels dans les données Les données temporelles sont présentes dans un large éventail de domaines tels que la médecine, la bio-informatique,[...]
Mar 15 – Mar 16 all-day
Date : 2022-03-15 => 2022-03-16Lieu : Rennes========================================= March 15-16, 2022, Rennes, France https://semestres-cyber.inria.fr/supsec/ ========================================= We are pleased to announce the first Workshop on Security Monitoring which will take place in Rennes (France), March 15-16, 2022.[...]
Mar 8 all-day
Date : 2022-03-08Lieu : virtuel, organisé par le LS2N (Laboratoire des Sciences du Numérique de Nantes)Le Thème transverse Sciences du Vivant du LS2N organise une mini-série de deux demi-journées de séminaires sur “l’anonymisation de données”.[...]
Mar 1 all-day
Date : 2022-03-01Lieu : virtuel, organisé par le LS2N (Laboratoire des Sciences du Numérique de Nantes)Le Thème transverse Sciences du Vivant du LS2N organise une mini-série de deux demi-journées de séminaires sur “l’anonymisation de données”.[...]
Jan 25 all-day
Date : 2022-01-25Lieu : Blois, FranceDESCRIPTIF L’apprentissage profond (deep learning) révolutionne depuis plusieurs années l’apprentissage automatique. Alors que les premiers résultats marquants ont été obtenus principalement en analyse d’images, les travaux actuels en apprentissage profond[...]
Jan 24 – Jan 28 all-day
Date : 2022-01-24 => 2022-01-28Lieu : Blois, FranceECOLE D’HIVER – APPEL A PARTICIPATION 8ème Ecole d’Hiver é-EGC sur le thème « L’humain dans la boucle de l’exploration des données et de l’apprentissage » 24 –[...]
Jan 24 – Jan 28 all-day
Date : 2022-01-24 => 2021-12-10Lieu : Rotonde, INSA Lyon Campus de la Doua 20 avenue Albert Einstein 69621 Villeurbanne Cedex SIFED (Symposium International Francophone sur l’Ecrit et le Document) , anciennement CIFED, est organisé par[...]
Dec 16 all-day
Date : 2021-12-16Lieu : DistancielNous avons le plaisir de vous convier au séminaire de clôture du projet ANR ALEGORIA sur la structurAtion et vaLorisation du patrimoinE géoGraphique icOnogRaphIque démAtérialisé, qui se déroulera le 16 décembre[...]
Dec 10 all-day
Date : 2021-12-10Lieu : LIMICS, campus des cordeliers – 15 rue de l’école de médecine Paris, FranceThe relation between terminological and ontological dimensions in knowledge organisation systems (KOSs) is a major problem when working on[...]
Dec 9 all-day
Date : 2021-12-09Lieu : Paris (Jussieu)Le GDR-TAL (Groupement de recherche en Traitement Automatique de la Langue) et deux associations : l’AFIA (Association française pour l’intelligence artificielle), au travers de son collège Technologies du Langage Humain[...]
Nov 30 – Dec 2 all-day
Date : 2021-11-30 => 2021-12-02Lieu : MadridSPEAKERS • Marc Barthélémy CEA France • Ginestra Bianconi Queen Mary University of London UK • João Gama University of Porto Portugal • Dirk Helbing ETH Zürich Switzerland •[...]
Nov 29 – Dec 11 all-day
Annonce en lien avec l’Action/le Réseau : BigData4Astro Thème : Ecole Thematique AstroInformatique 2021 (ANF) Présentation : L’astronomie a toujours été précurseur dans les problématiques de traitement de données (grands projets EUCLID, GAIA) et de[...]
Nov 24 – Nov 25 all-day
Date : 2021-11-24 => 2021-11-25Lieu : Paris, 24 et 25 novembre 2021 Dans le cadre de l’action MACLEAN (MAChine Learning for EArth observatioN) du GdR MADICS et des actions prospectives “Analyse d’images pour le suivi[...]
Nov 19 all-day
Date : 2021-11-19Le GDR MaDICS (https://www.madics.fr/) est un Groupement de Recherche du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Les activités[...]
Nov 16 all-day
Date : 2021-11-16Lieu : Institut de Recherche en informatique de Toulouse (IRIT)-Salle des thèses, mais également sur zoom sur le lien suivant : https://univ-tlse3-fr.zoom.us/j/99806869715?pwd=S29mbklLR0hRS1dyMnB1Rm5zRWpMdz09L’action Lemon (https://www.madics.fr/actions/lemon/) organise un séminaire sur les approches de traitement automatique[...]
Nov 8 all-day
Date : 2021-11-08Lieu : Monday, November 8th, 12:00 CET Online, via ZoomThe sixth “One World webinar” organized by YoungStatS will take place on November 8th, 2021. With the development of digital systems, very large datasets[...]
Oct 25 – Oct 28 all-day
Date : 2021-10-25 => 2021-10-28Lieu : Paris, http://bda2021.inria.fr/37e Conférence sur la Gestion de Données – Principes, Technologies et Applications La conférence “Gestion de Données – Principes, Technologies et Applications” (BDA) est le rendez-vous annuel incontournable[...]
Oct 20 all-day
Date : 2021-10-20Lieu : Chengdu, China *** Call for Papers for SUMAC 2021 *** The 3rd workshop on Structuring and Understanding of Multimedia heritAge Contents In conjunction with ACM Multimedia 2021 20 October 2020, Chengdu,[...]
Oct 5 @ 16:00 – Oct 8 @ 17:00
Date : 2021-05-04 => 2021-10-08Lieu : Porto, Portugal – ONLINE event CFP – EnGeoData – DSAA 2021 html, body { width: 70%; height: 100%; margin-left: 10px; padding: 6px; background-color: white; } div { background-color: #F8F9F9;[...]
Sep 21 all-day
Date : 2021-09-21Lieu : Journée virtuelle en visioconférenceRecent advances on unsupervised learning Le 21 septembre 2021 Cette journée scientifique vise à un moment d’échanges autour du thème de la classification avec des développements récents issus[...]
Sep 13 all-day
Date : 2021-09-13Lieu : En présentiel à Grenoble sur le Domaine Universitaire de Saint-Martin; en visio-conférence via la plateforme Zoom Ce séminaire présentera les résultats du projet ANR ECLATS (ANR-15-CE38-0002) , porté par l’équipe Steamer[...]