RoD (2017-2020)

Action RoD – GdR IA (2017-2020)

Raisonner sur les données (Reasoning on Data)

Responsables

Correspondant ComDIR :

Thématiques

Cette action sest inter-GDR (MaDICS et IA), avec deux thématiques centrales :

  • la gestion de donnĂ©es hĂ©tĂ©rogènes (sciences des donnĂ©es)
  • la reprĂ©sentation de connaissances et les raisonnements (intelligence artificielle)

Données concernées

Nous considérons des données pour lesquelles l’ajout d’une couche « sémantique » a potentiellement une forte valeur ajoutée : Données hétérogènes (hétérogénéité des modèles de données et hétérogénéité sémantique) , Données du Web (Linked Open Data) , Données imparfaites (contradictoires, incomplètes, de fiabilité variable, …)

Mots clés

Algorithmes, Ontology-Based Data Access, Intégration de données hétérogènes, Liage de données et traitement de données liées, Raisonnements sur des données imparfaites

Contexte scientifique

Au niveau international, la question de l’exploitation de connaissances pour accéder à des données volumineuses et hétérogènes est très étudiée depuis quelques années. De nombreux travaux visent à prendre en compte des connaissances de nature ontologique (qui peuvent aller de la simple taxomomie à des connaissances décrites dans des langages logiques, comme les logiques de description, ou des langages à base de règles, organisés et étudiés en fragments d’expressivité variable) et à exploiter les inférences associées à ces connaissances dans tout le cycle de vie des données (accès, validation, enrichissement, etc.), le problème emblématique étant celui de l’interrogation (ou requêtage) des données (de nombreuses tâches complexes sur les données pouvant se reformuler en termes d’interrogation). On peut citer notamment la problématique d’Ontology-Based Data Access, très présente au niveau international dans les communautés Knowledge Representation and Reasoning, Data Management, et Semantic Web, mais dans une moindre mesure en France.

Cette action s’intéresse de façon générale au développement de techniques de représentation de connaissances et de raisonnements permettant de mieux tirer parti des données disponibles en masse dans différents formats, modèles et systèmes.

L’accent est particulièrement mis sur le développement d’algorithmes efficaces :

  • pour l’interrogation de donnĂ©es prenant en compte des connaissances ontologiques
  • pour l’intĂ©gration et l’analyse de donnĂ©es hĂ©tĂ©rogènes
  • pour le traitement de donnĂ©es liĂ©es, et le liage de donnĂ©es issues de diffĂ©rentes bases
  • pour raisonner sur des donnĂ©es incomplètes, pouvant ĂŞtre incertaines et de qualitĂ© variable (possiblement inconsistantes avec les connaissances ontologiques, issues de bases de diverse fiabilitĂ©, …).

L’objectif est de fédérer une communauté française sur le sujet.

Trois domaines d’application sont mis en avant, avec des fournisseurs de données prêts à mettre leurs données à disposition de la communauté de recherche : 


  • Agriculture numĂ©rique. L’institut de convergence #DigitAd (Human-Centred Digital Agriculture Convergence Lab) basĂ© Ă  Montpellier sera initiĂ© en janvier 2017. Son objectif gĂ©nĂ©ral est de construire les briques scientifiques permettant le dĂ©ploiement de l’agriculture numĂ©rique, en se basant sur une approche pluri-disciplinaire. En association avec #DigitAd, l’Irstea a Ă©tĂ© mandatĂ© par les ministres de l’agriculture, de la recherche et de l’économie pour proposer un portail de donnĂ©es agricoles ouvertes. Dans ce domaine, de nombreuses bases de donnĂ©es relationnelles existent et stockent des donnĂ©es hĂ©tĂ©rogènes massives qu’il s’agit d’intĂ©grer pour en faciliter l’accès Ă  des usagers (dĂ©cideurs, scientifiques, agriculteurs) ayant des besoins d’analyse très variĂ©s. Des ontologies, dĂ©veloppĂ©es avec l’aide des experts du domaine, offrent un vocabulaire mĂ©tier pour servir d’interfaces de requĂŞtes adaptĂ©es au diffĂ©rents utilisateurs impliquĂ©s. Ce domaine est particulièrement adaptĂ© au dĂ©veloppement d’approches de type Ontology-Based Data Access, et de mĂ©thodes de gestion d’inconsistances.
  • Contenus pĂ©dagogiques en santĂ©. La totalitĂ© des examens facultaires des facultĂ©s de mĂ©decine en France sont rĂ©alisĂ©s depuis plus de 3 ans sur une plate-forme numĂ©rique nationale dĂ©diĂ©e intitulĂ©e SIDES. Il est offert aussi Ă  tous les Ă©tudiants (60 000 actuellement) la possibilitĂ© de rĂ©aliser des entrainements avec correction automatique. Toutes ces activitĂ©s sont tracĂ©es. L’unitĂ© Ă©lĂ©mentaire est un cas clinique, intitulĂ© “dossier progressif”, constituĂ© de 15 questions et devant ĂŞtre rĂ©alisĂ© en 30 minutes par l’Ă©tudiant. Il existe aujourd’hui plus de 2000 dossiers de ce type dans une banque nationale dite d’entrainement alimentĂ©e par toutes les facultĂ©s de mĂ©decine de France. A titre indicatif et seulement sur la partie entrainement, plus de 4 millions de dossiers rĂ©alisĂ©s ont Ă©tĂ© enregistrĂ©s dans une base de donnĂ©es relationnelle de logs d’activitĂ©s. Ce jeu de donnĂ©es sera anonymisĂ© et permettra de tester la valeur ajoutĂ©e de l’enrichissement de ces donnĂ©es par des mĂ©ta-donnĂ©es RDF et des connaissances ontologiques pour l’analyse personnalisĂ©e, et Ă  la demande, des rĂ©sultats, des lacunes et de la progression d’un Ă©tudiant ou d’un groupe d’étudiants. Les enjeux dĂ©passent la formation initiale en MĂ©decine car SIDES a pour vocation de s’élargir Ă  toutes les formations en santĂ©, y compris la formation continue.
  • DonnĂ©es ouvertes du Web. DBpedia.fr regroupe 200 millions de triplets RDF extraits de Wikipedia francophone et le rĂ©cent DBpedia historic reprĂ©sente toutes les rĂ©visions de pages depuis la crĂ©ation de Wikipedia Fr soit 1,9 milliard de triplets. Yago contient 120 millions de triplets RDF extraits Ă©galement de Wikipedia. Web Data Commons met Ă  disposition plusieurs gros jeux de donnĂ©es structurĂ©es extraites du Web sur des domaines variĂ©s. Ces jeux de donnĂ©es permettront de tester la faisabilitĂ© et l’apport d’algorithmes d’infĂ©rence pour amĂ©liorer la qualitĂ© et la complĂ©tude des donnĂ©es et des rĂ©ponses aux requĂŞtes, ainsi que pour le liage et la fusion de donnĂ©es. De plus, avec une moyenne de 70 000 requĂŞtes par jour et des pics Ă  2,5 million de requĂŞtes, le service DBpedia.fr publie des donnĂ©es sur le LOD depuis 2012 et place le chapitre francophone de DBpedia en deuxième position derrière l’Anglais. Dès lors il reprĂ©sente aussi un domaine d’application directe des recherches proposĂ©es ici.

Visitez le site web de l’Action RoD


Évènements à venir

Nov 29 – Dec 11 all-day
Annonce en lien avec l’Action/le RĂ©seau : BigData4Astro Thème : Ecole Thematique AstroInformatique 2021 (ANF) PrĂ©sentation : L’astronomie a toujours Ă©tĂ© prĂ©curseur dans les problĂ©matiques de traitement de donnĂ©es (grands projets EUCLID, GAIA) et de[...]
Jul 6 – Jul 9 all-day En distanciel avec BBB
Présentation La seconde édition du Symposium MaDICS aura lieu en distanciel du 6 au 9 juillet 2020. Chaque demi-journée propose un programme riche en exposés courts construit par nos responsables d’Actions et d’Atelier. Les sessions[...]
Mar 9 – Mar 11 all-day
Annonce en lien avec l’Action/le RĂ©seau : ATLAS Thème : Machine Learning applied to medical imaging PrĂ©sentation : The research group ATLAS of GdR MADICS and the Paris Brain Institute (ICM) are organizing a workshop[...]
Nov 25 – Nov 27 all-day
Annonce en lien avec l’Action/le RĂ©seau : ReProVirtuFlow Thème : ReproductibilitĂ© des expĂ©riences d’analyse de donnĂ©es scientifiques PrĂ©sentation : Face aux masses de donnĂ©es disponibles, Ă  la multitude d’outils existants et au caractère complexe des[...]
Nov 22 all-day
Annonce en lien avec l’Action/le RĂ©seau : ATLAS Thème : Machine learning and Medical data PrĂ©sentation : This day will be dedicated to machine learning applied to medical data and to the presentation of real-world[...]
Jun 27 @ 13:30 – 17:00 Rennes (symposium MaDICS)
Session ‘Raisonnements sur les donnĂ©es : besoins applicatifs et techniques’ dans le cadre du symposium du GDR MaDICS 4 exposĂ©s invitĂ©s : Olivier Rey (Airbus) : Using semantic web technologies for aerospace industrial data migration[...]
Mar 26 all-day
Workshop reportĂ© Ă  une date ultĂ©rieure Annonce en lien avec l’Action/le RĂ©seau : ATLAS Thème : Machine Learning – Medical Data PrĂ©sentation : This day will be dedicated to mathematical and algorithmic approaches for high[...]
Oct 4 all-day LIP6 (salle Gérard Noguez - couloir 26--00 salle 101)
3ème journĂ©e RoD – Programme en cours de construction – Tutoriel invitĂ© : Querying/reasoning on spatio-temporal data par Konstantina Bereta et Georgios Stamoulis (National & Kapodistrian University of Athens) – Sessions problèmes ouverts et dĂ©mos[...]
Sep 21 – Sep 22 all-day
Annonce en lien avec l’Action/le RĂ©seau : ATLAS / Thème : Machine Learning – Statistics – Medical Data PrĂ©sentation : Cette journĂ©e vise Ă  se faire rencontrer des acteurs de la recherche en machine learning[...]
Jul 9 – Jul 11 all-day
Annonce en lien avec l’Action/le RĂ©seau : ReProVirtuFlow / Thème : ReproductibilitĂ© d’analyse de donnĂ©es PrĂ©sentation : Dans le cadre de notre action, nous lançons l’organisation d’une sĂ©rie de ReproHackathons visant Ă  tester les capacitĂ©s[...]
Apr 24 all-day Lyon, Centre des congrès
Workshop lié à RoD et ouvert à la communauté internationale dans le cadre de la conférence The Web 2018URL : https://sites.google.com/site/2018rod/
Dec 12 all-day
Annonce en lien avec l’Action/le RĂ©seau : ReproVituFlow Thème : ReproductibilitĂ©; bioinformatique PrĂ©sentation : L’objectif de cette journĂ©e est de prĂ©senter les activitĂ©s de l’action ReproVirtuFlow, fondĂ©e et soutenue par le GDR MaDICS, qui s’intĂ©resse[...]
Jun 28 – Jun 30 all-day Grenoble
La Conférence sur l’Apprentissage automatique (CAp) est le rendez-vous annuel de la communauté francophone pour la présentation des résultats de recherche originaux, ainsi que l’échange et la diffusion d’expériences novatrices dans le domaine de l’apprentissage[...]
Jun 23 all-day
Annonce en lien avec l’Action/le RĂ©seau : RoD / Action MaDICS Thème : Raisonner sur les donnĂ©es PrĂ©sentation : Cette première journĂ©e RoD a pour objectif d’identifier les Ă©quipes intĂ©ressĂ©es, de faire interagir les Ă©quipes[...]
Jun 1 – Jun 2 all-day
Annonce en lien avec l’Action/le RĂ©seau : ReProVirtuFlow / Thème : ReproductibilitĂ© d’analyse de donnĂ©es PrĂ©sentation : Dans le cadre de l’action Reprovirtuflow, nous lançons l’organisation d’une sĂ©rie de ReproHackathons visant Ă  tester les capacitĂ©s[...]
Dec 12 all-day Institut Pasteur, Paris
SnakeMake est un système de workflows scientifiques utilisĂ© de façon croissante pour gĂ©rer les analyses scientifiques (bioinformatiques). L’objectif de cette journĂ©e est de fĂ©dĂ©rer la communautĂ© francaise des utilisateurs de snakemake.URL : https://c3bi.pasteur.fr/news-journee-snakemake/
Dec 12 – Dec 13 all-day
Annonce en lien avec l’Action/le RĂ©seau : ReProVirtuFlow / Thème : Rassemblement des (futurs et actuels) utilisateurs du système Snakemake pour la gestion d’expĂ©riences scientifiques. PrĂ©sentation : Snakemake est un nouveau système de workflows (utilisĂ©[...]
Dec 6 @ 13:30 – 16:30 Grenoble (Webinar)
Webinar sur la problĂ©matique de reproductibilitĂ© en bioinformatique dans le cadre de la serie de Webinars organisĂ©e par Arnaud Legrand (INRIA grenoble). Plus d’informations disponibles d’ici Ă  la mi novembre !URL : https://team.inria.fr/polaris/mc-events/webinar-on-reproducible-research-by-arnaud-legrand/
Jun 6 – Jun 9 all-day Washington DC (USA)
Semaine de la Provenance (workshops TaPP et IPAW) et satellites. URL : http://www2.mitre.org/public/provenance2016/
May 23 – May 25 all-day
Annonce en lien avec l’Action/le RĂ©seau : ATLAS Thème : JournĂ©es d’ouvertures de l’action ATLAS PrĂ©sentation : The ATLAS conference is an interdisciplinary workshop on mathematical and algorithmimcal approaches for high dimensional problems in data[...]
Mar 16 – Mar 17 all-day
Annonce en lien avec l’Action/le RĂ©seau : ReProVirtuFlow Thème : Vers un premier Ă©tat de l’art sur les Workflows – Provenance – Machines virtuelles – approches Ă©mergentes – use cases PrĂ©sentation : Vers un premier[...]