RoD (2017-2020)

Action RoD – GdR IA (2017-2020)

Raisonner sur les données (Reasoning on Data)

Responsables

Correspondant ComDIR :

Thématiques

Cette action sest inter-GDR (MaDICS et IA), avec deux thématiques centrales :

  • la gestion de données hétérogènes (sciences des données)
  • la représentation de connaissances et les raisonnements (intelligence artificielle)

Données concernées

Nous considérons des données pour lesquelles l’ajout d’une couche « sémantique » a potentiellement une forte valeur ajoutée : Données hétérogènes (hétérogénéité des modèles de données et hétérogénéité sémantique) , Données du Web (Linked Open Data) , Données imparfaites (contradictoires, incomplètes, de fiabilité variable, …)

Mots clés

Algorithmes, Ontology-Based Data Access, Intégration de données hétérogènes, Liage de données et traitement de données liées, Raisonnements sur des données imparfaites

Contexte scientifique

Au niveau international, la question de l’exploitation de connaissances pour accéder à des données volumineuses et hétérogènes est très étudiée depuis quelques années. De nombreux travaux visent à prendre en compte des connaissances de nature ontologique (qui peuvent aller de la simple taxomomie à des connaissances décrites dans des langages logiques, comme les logiques de description, ou des langages à base de règles, organisés et étudiés en fragments d’expressivité variable) et à exploiter les inférences associées à ces connaissances dans tout le cycle de vie des données (accès, validation, enrichissement, etc.), le problème emblématique étant celui de l’interrogation (ou requêtage) des données (de nombreuses tâches complexes sur les données pouvant se reformuler en termes d’interrogation). On peut citer notamment la problématique d’Ontology-Based Data Access, très présente au niveau international dans les communautés Knowledge Representation and Reasoning, Data Management, et Semantic Web, mais dans une moindre mesure en France.

Cette action s’intéresse de façon générale au développement de techniques de représentation de connaissances et de raisonnements permettant de mieux tirer parti des données disponibles en masse dans différents formats, modèles et systèmes.

L’accent est particulièrement mis sur le développement d’algorithmes efficaces :

  • pour l’interrogation de données prenant en compte des connaissances ontologiques
  • pour l’intégration et l’analyse de données hétérogènes
  • pour le traitement de données liées, et le liage de données issues de différentes bases
  • pour raisonner sur des données incomplètes, pouvant être incertaines et de qualité variable (possiblement inconsistantes avec les connaissances ontologiques, issues de bases de diverse fiabilité, …).

L’objectif est de fédérer une communauté française sur le sujet.

Trois domaines d’application sont mis en avant, avec des fournisseurs de données prêts à mettre leurs données à disposition de la communauté de recherche : 


  • Agriculture numérique. L’institut de convergence #DigitAd (Human-Centred Digital Agriculture Convergence Lab) basé à Montpellier sera initié en janvier 2017. Son objectif général est de construire les briques scientifiques permettant le déploiement de l’agriculture numérique, en se basant sur une approche pluri-disciplinaire. En association avec #DigitAd, l’Irstea a été mandaté par les ministres de l’agriculture, de la recherche et de l’économie pour proposer un portail de données agricoles ouvertes. Dans ce domaine, de nombreuses bases de données relationnelles existent et stockent des données hétérogènes massives qu’il s’agit d’intégrer pour en faciliter l’accès à des usagers (décideurs, scientifiques, agriculteurs) ayant des besoins d’analyse très variés. Des ontologies, développées avec l’aide des experts du domaine, offrent un vocabulaire métier pour servir d’interfaces de requêtes adaptées au différents utilisateurs impliqués. Ce domaine est particulièrement adapté au développement d’approches de type Ontology-Based Data Access, et de méthodes de gestion d’inconsistances.
  • Contenus pédagogiques en santé. La totalité des examens facultaires des facultés de médecine en France sont réalisés depuis plus de 3 ans sur une plate-forme numérique nationale dédiée intitulée SIDES. Il est offert aussi à tous les étudiants (60 000 actuellement) la possibilité de réaliser des entrainements avec correction automatique. Toutes ces activités sont tracées. L’unité élémentaire est un cas clinique, intitulé “dossier progressif”, constitué de 15 questions et devant être réalisé en 30 minutes par l’étudiant. Il existe aujourd’hui plus de 2000 dossiers de ce type dans une banque nationale dite d’entrainement alimentée par toutes les facultés de médecine de France. A titre indicatif et seulement sur la partie entrainement, plus de 4 millions de dossiers réalisés ont été enregistrés dans une base de données relationnelle de logs d’activités. Ce jeu de données sera anonymisé et permettra de tester la valeur ajoutée de l’enrichissement de ces données par des méta-données RDF et des connaissances ontologiques pour l’analyse personnalisée, et à la demande, des résultats, des lacunes et de la progression d’un étudiant ou d’un groupe d’étudiants. Les enjeux dépassent la formation initiale en Médecine car SIDES a pour vocation de s’élargir à toutes les formations en santé, y compris la formation continue.
  • Données ouvertes du Web. DBpedia.fr regroupe 200 millions de triplets RDF extraits de Wikipedia francophone et le récent DBpedia historic représente toutes les révisions de pages depuis la création de Wikipedia Fr soit 1,9 milliard de triplets. Yago contient 120 millions de triplets RDF extraits également de Wikipedia. Web Data Commons met à disposition plusieurs gros jeux de données structurées extraites du Web sur des domaines variés. Ces jeux de données permettront de tester la faisabilité et l’apport d’algorithmes d’inférence pour améliorer la qualité et la complétude des données et des réponses aux requêtes, ainsi que pour le liage et la fusion de données. De plus, avec une moyenne de 70 000 requêtes par jour et des pics à 2,5 million de requêtes, le service DBpedia.fr publie des données sur le LOD depuis 2012 et place le chapitre francophone de DBpedia en deuxième position derrière l’Anglais. Dès lors il représente aussi un domaine d’application directe des recherches proposées ici.

Visitez le site web de l’Action RoD


Évènements à venir

Mar 26 all-day
Workshop reporté à une date ultérieure Annonce en lien avec l’Action/le Réseau : ATLAS Thème : Machine Learning – Medical Data Présentation : This day will be dedicated to mathematical and algorithmic approaches for high[...]
Jan 24 – Jan 26 all-day
Annonce en lien avec l’Action/le Réseau : MAESTRO Thème : Traitement d’image en astrophysique Présentation : Nous organisons les 24 et 25 janvier 2019 à Strasbourg deux journées scientifiques sur le traitement d’images astronomiques. Ces[...]
Nov 20 – Nov 21 all-day
Cette rencontre présentera le bilan général du GDR et le résultat de la réflexion sur le projet MaDICS  dans le cadre  de son renouvellement (2020-2024).  Nous aurons également des présentations scientifiques en lien avec le[...]
Nov 19 – Nov 20 all-day
Annonce en lien avec l’Action/le Réseau : Thème : Vie privée – Sécurité – Web Semantic – IA Présentation : La quantité de données produites par les particuliers et les entreprises a explosé au cours[...]
Nov 14 all-day
Annonce en lien avec l’Action/le Réseau : EADM Thème : Learning and data mining on massive bioacoustic data Présentation : This workshop aims to demonstrate the needs and realisation of long term, big data monitoring[...]
Nov 9 all-day
Journée en commun entre les GdRs CNRS ISIS, MaDICS, MIA et Ondes Annonce en lien avec l’Action/le Réseau : ImHyp / Thème : capteurs hybrides et algorithmes pour des systèmes innovants Présentation : La conception[...]
Oct 22 – Oct 27 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : 34ème Conférence sur la Gestion de Données – Principes, Technologies et Applications Présentation : Les 34-èmes journées de la conférence « Gestion de Données –[...]
Oct 4 all-day LIP6 (salle Gérard Noguez - couloir 26--00 salle 101)
3ème journée RoD – Programme en cours de construction – Tutoriel invité : Querying/reasoning on spatio-temporal data par Konstantina Bereta et Georgios Stamoulis (National & Kapodistrian University of Athens) – Sessions problèmes ouverts et démos[...]
Oct 4 2018 – Jan 18 2019 all-day
Annonce en lien avec l’Action/le Réseau : Thème : Machine Learning Présentation : Airbus Defence and Space et les établissements toulousains ( INSA , Université Paul Sabatier , Toulouse School of Economy ) s’associent pour[...]
Sep 21 – Sep 22 all-day
Annonce en lien avec l’Action/le Réseau : ATLAS / Thème : Machine Learning – Statistics – Medical Data Présentation : Cette journée vise à se faire rencontrer des acteurs de la recherche en machine learning[...]
Sep 10 – Sep 14 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Machine Learning Présentation : The « Optimization and Learning » workshop will take place at Institut de Mathématiques de Toulouse (IMT) and is part of[...]
Sep 4 – Sep 7 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Données multimédia, indexation Présentation : CBMI aims at bringing together the various communities involved in all aspects of content-based multimedia indexing for retrieval, browsing, management,[...]
Jul 29 – Jan 26 all-day
Annonce en lien avec l’Action/le Réseau : ADOC Thème : Intégration, entreposage, fouille, visualisation (etc. !) de donnée Présentation : L’action ADOC du GDR MaDICS lance pour 2018-2019 un “défi données” dont l’objectif est d’enrichir[...]
Jul 9 – Jul 11 all-day
Annonce en lien avec l’Action/le Réseau : ReProVirtuFlow / Thème : Reproductibilité d’analyse de données Présentation : Dans le cadre de notre action, nous lançons l’organisation d’une série de ReproHackathons visant à tester les capacités[...]
Jun 7 – Jun 9 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Plateformes de calcul et de stockage Présentation : Les journées plateforme visent à réunir les acteurs académiques et industriels afin d’échanger sur les processus de[...]
Jun 5 – Jun 6 all-day
Annonce en lien avec l’Action/le Réseau : ARQUADS / Thème : Qualité des données scientifiques Présentation : L’objectif de cette journée est de réunir les acteurs (académiques et industriels) qui s’intéressent à la question de[...]
Jun 5 – Jun 9 all-day
Annonce en lien avec l’Action/le Réseau : EADM / Thème : Conférence en bioacoustique large échelle Présentation : Sorbonne Université, l’Université Paris Sud Orsay, l’Université de Toulon et le CNRS, organise du 5 au 8[...]
Jun 3 – Jun 7 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : La protection de la vie privée et des données personnelles Présentation : Le but principal de l’atelier est de rassembler les chercheurs de la communauté[...]
May 28 – May 31 all-day
Annonce en lien avec l’Action : ADOC Thème : Variété (au sens big data) des données SHS Présentation : Au sein du GdR CNRS MaDICS (1), l’action ADOC (2) vise à mettre en relation des[...]
May 15 all-day
Annonce en lien avec l’Action : Journée en conjoinction avec TALN CORIA RJC Thème : Analyse et exploration des données sociales Présentation : Cet atelier s’adresse aux différents acteurs concernés par l’exploration des données sociales.[...]
May 14 – May 19 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Journalisme des données, qualité Présentation : L’atelier vise à rassembler différents acteurs : journalistes, chercheurs en RI, TAL, science de l’information ou gestion de connaissances,[...]
Apr 24 all-day Lyon, Centre des congrès
Workshop lié à RoD et ouvert à la communauté internationale dans le cadre de la conférence The Web 2018URL : https://sites.google.com/site/2018rod/
Feb 8 – Feb 9 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Statistical Advances for Real Data Problems Présentation : Cette journée propose une série d’exposés sur des thèmes statistiques varié, comportant tous une partie théorique ainsi[...]
Jan 22 – Jan 27 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Extraction et Gestion des Connaissances Présentation : La conférence Extraction et Gestion des Connaissances (EGC) est un événement annuel réunissant des chercheurs et praticiens de[...]
Jan 18 – Jan 19 all-day
Annonce en lien avec l’Action/le Réseau : / Formation Thème : Machine Learning Présentation : Cette journée de clôture du hackaton “Défi Grosses Data 2018” comportera deux temps: * le matin, 3 exposés scientifiques en[...]
Dec 12 all-day
Annonce en lien avec l’Action/le Réseau : ReproVituFlow Thème : Reproductibilité; bioinformatique Présentation : L’objectif de cette journée est de présenter les activités de l’action ReproVirtuFlow, fondée et soutenue par le GDR MaDICS, qui s’intéresse[...]
Nov 30 – Dec 1 all-day
Annonce en lien avec l’Action/le Réseau : EADM / Innovation Thème : Environmental Big Data Présentation : This workshop aims to demonstrate the needs and realisation of low latency, long term, big data monitoring of[...]
Nov 29 – Dec 2 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : données, interactions, science des réseaux Présentation : COMPLEX NETWORKS 2017 sera un temps fort d’échanges entre les principaux acteurs de la recherche industrielle et universitaire.[...]
Nov 29 – Dec 1 all-day
Annonce en lien avec l’Action/le Réseau : aucun Thème : Apprantissage Profond – Télédétection et Sciences de L’environnement Présentation : Dans le cadre de recherche de l’applicabilité des techniques de Deep Learning aux données satellitaires[...]
Nov 20 – Nov 23 all-day
Annonce en lien avec l’Action/le Réseau : ImHyp / ACTION IMHYP Thème : Planetologie, Imagerie hyperspectrale Présentation : Le réseau MultiPlanNet qui regroupe des chercheurs issus des communautés de la planétologie, du traitement du signal[...]