RoD (2017-2020)

Action RoD – GdR IA (2017-2020)

Raisonner sur les données (Reasoning on Data)

Responsables

Correspondant ComDIR :

Thématiques

Cette action sest inter-GDR (MaDICS et IA), avec deux thématiques centrales :

  • la gestion de données hétérogènes (sciences des données)
  • la représentation de connaissances et les raisonnements (intelligence artificielle)

Données concernées

Nous considérons des données pour lesquelles l’ajout d’une couche « sémantique » a potentiellement une forte valeur ajoutée : Données hétérogènes (hétérogénéité des modèles de données et hétérogénéité sémantique) , Données du Web (Linked Open Data) , Données imparfaites (contradictoires, incomplètes, de fiabilité variable, …)

Mots clés

Algorithmes, Ontology-Based Data Access, Intégration de données hétérogènes, Liage de données et traitement de données liées, Raisonnements sur des données imparfaites

Contexte scientifique

Au niveau international, la question de l’exploitation de connaissances pour accéder à des données volumineuses et hétérogènes est très étudiée depuis quelques années. De nombreux travaux visent à prendre en compte des connaissances de nature ontologique (qui peuvent aller de la simple taxomomie à des connaissances décrites dans des langages logiques, comme les logiques de description, ou des langages à base de règles, organisés et étudiés en fragments d’expressivité variable) et à exploiter les inférences associées à ces connaissances dans tout le cycle de vie des données (accès, validation, enrichissement, etc.), le problème emblématique étant celui de l’interrogation (ou requêtage) des données (de nombreuses tâches complexes sur les données pouvant se reformuler en termes d’interrogation). On peut citer notamment la problématique d’Ontology-Based Data Access, très présente au niveau international dans les communautés Knowledge Representation and Reasoning, Data Management, et Semantic Web, mais dans une moindre mesure en France.

Cette action s’intéresse de façon générale au développement de techniques de représentation de connaissances et de raisonnements permettant de mieux tirer parti des données disponibles en masse dans différents formats, modèles et systèmes.

L’accent est particulièrement mis sur le développement d’algorithmes efficaces :

  • pour l’interrogation de données prenant en compte des connaissances ontologiques
  • pour l’intégration et l’analyse de données hétérogènes
  • pour le traitement de données liées, et le liage de données issues de différentes bases
  • pour raisonner sur des données incomplètes, pouvant être incertaines et de qualité variable (possiblement inconsistantes avec les connaissances ontologiques, issues de bases de diverse fiabilité, …).

L’objectif est de fédérer une communauté française sur le sujet.

Trois domaines d’application sont mis en avant, avec des fournisseurs de données prêts à mettre leurs données à disposition de la communauté de recherche : 


  • Agriculture numérique. L’institut de convergence #DigitAd (Human-Centred Digital Agriculture Convergence Lab) basé à Montpellier sera initié en janvier 2017. Son objectif général est de construire les briques scientifiques permettant le déploiement de l’agriculture numérique, en se basant sur une approche pluri-disciplinaire. En association avec #DigitAd, l’Irstea a été mandaté par les ministres de l’agriculture, de la recherche et de l’économie pour proposer un portail de données agricoles ouvertes. Dans ce domaine, de nombreuses bases de données relationnelles existent et stockent des données hétérogènes massives qu’il s’agit d’intégrer pour en faciliter l’accès à des usagers (décideurs, scientifiques, agriculteurs) ayant des besoins d’analyse très variés. Des ontologies, développées avec l’aide des experts du domaine, offrent un vocabulaire métier pour servir d’interfaces de requêtes adaptées au différents utilisateurs impliqués. Ce domaine est particulièrement adapté au développement d’approches de type Ontology-Based Data Access, et de méthodes de gestion d’inconsistances.
  • Contenus pédagogiques en santé. La totalité des examens facultaires des facultés de médecine en France sont réalisés depuis plus de 3 ans sur une plate-forme numérique nationale dédiée intitulée SIDES. Il est offert aussi à tous les étudiants (60 000 actuellement) la possibilité de réaliser des entrainements avec correction automatique. Toutes ces activités sont tracées. L’unité élémentaire est un cas clinique, intitulé “dossier progressif”, constitué de 15 questions et devant être réalisé en 30 minutes par l’étudiant. Il existe aujourd’hui plus de 2000 dossiers de ce type dans une banque nationale dite d’entrainement alimentée par toutes les facultés de médecine de France. A titre indicatif et seulement sur la partie entrainement, plus de 4 millions de dossiers réalisés ont été enregistrés dans une base de données relationnelle de logs d’activités. Ce jeu de données sera anonymisé et permettra de tester la valeur ajoutée de l’enrichissement de ces données par des méta-données RDF et des connaissances ontologiques pour l’analyse personnalisée, et à la demande, des résultats, des lacunes et de la progression d’un étudiant ou d’un groupe d’étudiants. Les enjeux dépassent la formation initiale en Médecine car SIDES a pour vocation de s’élargir à toutes les formations en santé, y compris la formation continue.
  • Données ouvertes du Web. DBpedia.fr regroupe 200 millions de triplets RDF extraits de Wikipedia francophone et le récent DBpedia historic représente toutes les révisions de pages depuis la création de Wikipedia Fr soit 1,9 milliard de triplets. Yago contient 120 millions de triplets RDF extraits également de Wikipedia. Web Data Commons met à disposition plusieurs gros jeux de données structurées extraites du Web sur des domaines variés. Ces jeux de données permettront de tester la faisabilité et l’apport d’algorithmes d’inférence pour améliorer la qualité et la complétude des données et des réponses aux requêtes, ainsi que pour le liage et la fusion de données. De plus, avec une moyenne de 70 000 requêtes par jour et des pics à 2,5 million de requêtes, le service DBpedia.fr publie des données sur le LOD depuis 2012 et place le chapitre francophone de DBpedia en deuxième position derrière l’Anglais. Dès lors il représente aussi un domaine d’application directe des recherches proposées ici.

Visitez le site web de l’Action RoD


Évènements à venir

Jul 3 – Jul 8 all-day
Annonce en lien avec l’Action/le Réseau : Formation Thème : Informatique décisionnelle Présentation : Cette école d’été est destinée à des étudiants et des chercheurs. Elle fait intervenir des chercheurs ou industriels leaders dans le[...]
Jun 7 – Jun 10 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Apprentissage statistique Présentation : The Research Summer School in Statistics & BigData Science (SBDS) is at the interface of several disciplines: statistics, computer science (machine[...]
Jun 19 – Jun 23 all-day
Annonce en lien avec l’Action/le Réseau : / Groupe Sigma de la SMAI Thème : High-Dimensional Data Analysis Présentation : The SMF (French Mathematical Society) and the Institut Henri Poincaré organize a mathematical summer school[...]
Jun 23 all-day
Annonce en lien avec l’Action/le Réseau : RoD / Action MaDICS Thème : Raisonner sur les données Présentation : Cette première journée RoD a pour objectif d’identifier les équipes intéressées, de faire interagir les équipes[...]
Aug 28 – Sep 2 all-day
Annonce en lien avec l’Action/le Réseau : ImHyp / Formation Thème : Imagerie hyperspectrale Présentation : Les axes du programme se définissent donc autour de l’architecture présentée ci-dessus en proposant (1) des approfondissements sur certaines[...]
Oct 9 – Oct 14 all-day
Annonce en lien avec l’Action/le Réseau : MAESTRO / Thème : Astrostatistique Présentation : L’objectif de l’école est de donner les compétences nécessaires aux participants pour entreprendre par eux-mêmes des analyses de type bayésien qui[...]
Jan 15 – Jan 20 all-day
Annonce en lien avec l’Action/le Réseau : ImHyp / Thème : machine learning, data mining on geoscience data Présentation : We propose a one-week introduction to data sciences for geosciences. This doctoral course is free[...]
Mar 25 2018 – Jan 2 1970 all-day
Annonce en lien avec l’Action/le Réseau : Thème : Recherche d’information, deep learning Présentation : L’école offre un cadre d’échange convivial tant autour des fondements théoriques de l’apprentissage automatique et de leur utilisation en recherche[...]
Apr 24 all-day Lyon, Centre des congrès
Workshop lié à RoD et ouvert à la communauté internationale dans le cadre de la conférence The Web 2018URL : https://sites.google.com/site/2018rod/
Apr 29 – May 6 all-day
Annonce en lien avec l’Action/le Réseau : / Innovation Thème : Informatique, Modélisation et Simulation Présentation : La seconde édition des journées du réseau RED a vocation à animer et faire vivre le réseau, poursuivre[...]
Jun 4 – Jun 5 all-day
Annonce en lien avec l’Action/le Réseau : EADM / Thème : Suivi de la biodiversité par apprentissage deep et bioacoustique Présentation : Sorbonne Université, l’Université Paris Sud Orsay, l’Université de Toulon et le CNRS, organise[...]
Jun 17 – Jun 22 all-day
Annonce en lien avec l’Action/le Réseau : / Formation Thème : Exploitation de données massives Présentation : L’école thématique CNRS MDD ” Masses de données distribuées ” est une école thématique récurrente ayant lieu tous[...]
Jun 18 – Jun 23 all-day
Annonce en lien avec l’Action/le Réseau : / Formation Thème : Data science, Network Science and Machine Learning Présentation : Le thème de l’école ResCom 2018 (la 13ème édition) est la « science des données[...]
Jun 18 – Jun 23 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Apprentissage Statistique, Analyse de données massives, Optimisation, Traitement de signaux Présentation : Large-scale data analysis is an inherently multidisciplinary area and is becoming increasingly important[...]
Jun 25 – Jun 30 all-day
Annonce en lien avec l’Action/le Réseau : MAESTRO / Thème : Astrophysique, machine learning, big data Présentation : Objectifs de la formation – Sensibiliser les chercheurs et ingénieurs aux nouvelles technologies du traitement de données,[...]
Jun 25 – Jun 30 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Deep Learning Présentation : Program Deep Learning @UCA Event 2018, From June 25 to 29 • 3-hour Lecture in the morning (9 am – 12:30)[...]
Jul 1 – Jul 8 all-day
Annonce en lien avec l’Action/le Réseau : / GRS ISIS, Association GRETSI Thème : Signaux, Images, et Science des Donnees Présentation : Le GRETSI et le GdR ISIS organisent depuis 2006 une École d’Été annuelle[...]
Jul 9 – Jul 13 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : apprentissage des techniques développées pour traiter les données massives en parole à destination des chercheurs en linguistique (phonétique/phonologie, dialectologie, typologie, acquisition, pathologies de la parole,[...]
Oct 4 all-day LIP6 (salle Gérard Noguez - couloir 26--00 salle 101)
3ème journée RoD – Programme en cours de construction – Tutoriel invité : Querying/reasoning on spatio-temporal data par Konstantina Bereta et Georgios Stamoulis (National & Kapodistrian University of Athens) – Sessions problèmes ouverts et démos[...]
Jan 21 – Jan 26 all-day
Annonce en lien avec l’Action/le Réseau : Thème : Extraction et gestion de connaissances Présentation : La conférence EGC est l’occasion de faire se rencontrer académiques et industriels afin de confronter des travaux théoriques et[...]
May 20 – May 24 all-day
Annonce en lien avec l’Action/le Réseau : Thème : Regards croisés interdisciplinaires sur le partage, la maîtrise des méthodes de recueil, d’analyse et d’interprétation d’informations de santé spatialisées Présentation : Les dimensions spatiales de la[...]
Jun 27 @ 13:30 – 17:00 Rennes (symposium MaDICS)
Session ‘Raisonnements sur les données : besoins applicatifs et techniques’ dans le cadre du symposium du GDR MaDICS 4 exposés invités : Olivier Rey (Airbus) : Using semantic web technologies for aerospace industrial data migration[...]
Oct 6 – Oct 12 all-day
Annonce en lien avec l’Action/le Réseau : MAESTRO Thème : Astrostatistics Présentation : The topic of the 2019 session of Stat4Astro is the time series (including variabilities and transient events) that, from celestial mechanics to[...]
Jun 8 – Jun 13 all-day
Annonce en lien avec l’Action/le Réseau : Thème : bioinformatique Présentation : Le GDR Bioinformatique Moléculaire organise une école sur les fondements statistiques, algorithmiques et combinatoires pour l’analyse des grandes masses de données de séquences,[...]
Jun 14 – Jun 19 all-day
Annonce en lien avec l’Action/le Réseau : Thème : Artificial Intelligence and Software Verification and Validation Présentation : En partenariat avec Simula Research Lab., Norvège, et avec le soutien de l’Institut Français en Norvège nous[...]
Jun 20 – Jun 26 all-day
Annonce en lien avec l’Action/le Réseau : Thème : Gestion de données à grande échelle: polystores, blockchain, expériences et confluence IA et gestion de données Présentation : Le principal objectif de l’école est de compléter[...]
Jun 29 – Jul 3 all-day
Annonce en lien avec l’Action/le Réseau : Thème : Recherche d’information, Traitement automatique des langues, Traitement de la parole, chatbots Présentation : L’école d’été en Traitement automatique des langues (ETAL) est l’un des outils de[...]
Jul 6 – Jul 9 all-day En distanciel avec BBB
Présentation La seconde édition du Symposium MaDICS aura lieu en distanciel du 6 au 9 juillet 2020. Chaque demi-journée propose un programme riche en exposés courts construit par nos responsables d’Actions et d’Atelier. Les sessions[...]
Jul 19 – Jul 25 all-day
Annonce en lien avec l’Action/le Réseau : MACLEAN Thème : Earth Observation and Artificial Intelligence Présentation : Ecole d’été en lien avec le projet InnEO, sur la thématique de l’observation de la Terre et l’Intelligence[...]
Nov 29 – Dec 11 all-day
Annonce en lien avec l’Action/le Réseau : BigData4Astro Thème : Ecole Thematique AstroInformatique 2021 (ANF) Présentation : L’astronomie a toujours été précurseur dans les problématiques de traitement de données (grands projets EUCLID, GAIA) et de[...]