RoCED

 

Atelier RoCED – GDR IA (2021)

Reasoning on Complex and Evolving Data

Responsables

Correspondant ComDIR : Khalid Belhajjame

Thématiques

Cet atelier est inter-GDR (MaDICS et IA), avec deux thématiques centrales : la gestion de données hétérogènes de complexité et de qualité variables (sciences des données), et la représentation de connaissances et les raisonnements (intelligence artificielle)

Données concernées

Données de capteurs, Flux de données, Données spatio-temporelles, Données personnelles, Données hétérogènes, Données incertaines

Mots clés

Contexte scientifique

Durant la dernière décennie la communauté scientifique internationale et française s’est beaucoup intéressée aux processus de publication et de raffinement de données et de connaissances grâce à des initiatives comme le Linked Open Data et TeraData. Une multitude de méthodes et de systèmes ont été développés pour répondre aux problématiques liées à l’acquisition, la publication et l’exploitation des données et des connaissances. Des avancées considérables ont été réalisées pour la construction de graphes de connaissances, l’alignement d’ontologies, le liage de données, la prédiction/l’invalidation de liens dans les graphes de connaissances, mais aussi dans le domaine de la représentation de connaissances et le raisonnement via des systèmes d’OBDA (Ontology-based Data Access). Dans ce contexte, les différents algorithmes de raisonnement symbolique ont montré leur importance et leur efficacité pour différentes tâches, comme l’interrogation multi-sources, le liage de données et l’invalidation de liens dans les graphes de connaissances. Cependant, des efforts importants sont nécessaires pour prendre en compte toutes les dimensions qui caractérisent les données et les connaissances auxquelles les systèmes sont amenés à faire face.

Dans cet atelier, nous nous focaliserons notamment sur la complexité, l’hétérogénéité, l’incertitude et l’évolution des données et des connaissances. Des caractéristiques spécifiques à certains domaines comme l’aspect spatio-temporel, les données à caractère personnel et les contraintes physiques et matérielles (e.g. mémoires, CPU, énergie) vont également être déterminantes et doivent être prises en compte lors de la conception des systèmes de raisonnement exploitant ces données et connaissances.

Un des champs d’application où les défis scientifiques mentionnés plus haut sont pour la plupart posés est le domaine de l’internet des objets (IoT). Nous prendrons ce domaine pour appuyer nos objectifs.

L’évolution des performances et du rayonnement de l’Internet (5G notamment) ainsi que la multitude d’objets connectés disponibles sur le marché génèrent de nos jours une masse de données de plus en plus complexes, volumineuses et évolutives. Les systèmes informatiques doivent donc s’adapter à ces volumes de données aux caractéristiques propres tout en considérant qu’une partie de ces données peuvent être à caractère personnel et doivent donc être traitées en respectant les législations en vigueur, tout en répondant au mieux aux besoins des utilisateurs.

Cet atelier se focalise sur les systèmes informatiques embarquant du raisonnement pour aider à la prise de décision à partir de flux de données hétérogènes, complexes et personnelles.

Données hétérogènes et complexes : avant de prendre une décision, le système doit être capable d’intégrer des données hétérogènes et complexes.

La multitude de capteurs déployables sur le réseau génèrent des données hétérogènes aussi bien de par leur nature (température, localisation…), que de par leur format ou encore leurs utilisations potentielles.

Une autre caractéristique des capteurs est qu’ils produisent des flux de mesures, les mesures étant estampillées temporellement mais aussi spatialement (trajectoire).

Les données produites par les capteurs présentent également la particularité d’avoir un degré de précision variable dépendant du capteur les ayant produites, mais également de l’acheminement de ces données via le réseau pouvant provoquer des pertes ou des détériorations. Il faut donc élaborer des algorithmes de consolidation des données et des représentations de connaissances pertinentes (liage de onnées, consensus entre des connaissances distribuées, correction d’incohérences…)

Des travaux dans le domaine des capteurs et de l’internet des objets abordent ces différentes problématiques en proposant des standards et des représentations de connaissances dans le but de gommer l’hétérogénéité des données issues de capteurs ou de prendre en compte certaines de leurs caractéristiques

Préservation et sécurisation des données personnelles dans un environnement distribué : les données produites par les capteurs correspondent en partie à des données personnelles. De plus, les objets, ou machines au sens large, qui collectent, acheminent ou traitent ces données, sont distribués sur l’internet. La communication entre les composants doit donc préserver la sécurité des échanges et protéger les données personnelles. De nouveaux concepts apparaissent, tels la privacy by design et la privacy by default, selon lesquels la protection des données personnelles doit être prise en compte dès la conception d’un service. Une solution pour y parvenir est de proposer des vocabulaires (ou ontologies) et des mécanismes d’enrichissement sémantique de la donnée personnelle pour décrire au mieux sa nature en vue de la protéger. Il s’agit également de proposer des mécanismes distribués d’utilisations et de traitements au “juste” endroit de ces données en veillant à assurer un niveau adéquat de visibilité et de fiabilité (en s’appuyant par exemple sur une architecture de type fog computing).

Pertinence des données et des connaissances pour la prise de décisions :

Une décision est pertinente si elle arrive en temps et en heure et si elle est déterminée à partir de données représentatives de la situation environnante. Les systèmes construits doivent donc être réactifs et prendre en compte une représentation du contexte dans lequel les données sont collectées ainsi que du contexte dans lequel la décision doit être prise. Concernant, la traçabilité des données, des connaissances et des décisions, les décisions déduites par ces systèmes doivent être adaptées au contexte de l’utilisateur. Pour améliorer l’efficacité et l’acceptation des décisions proposées, il faut pouvoir tracer les résultats des différentes étapes des processus appliqués : observation, consolidation, décision et action.

Le raisonnement pour la prise de décision dans un environnement contraint :

La prise de décision reposant sur une approche par raisonnement présente l’avantage de pouvoir expliquer la décision proposée. Plusieurs types de raisonnement peuvent être mis en oeuvre sur les données hétérogènes et complexes produites dans le cadre de l’IoT :

  • raisonnement spatial
  • raisonnement temporel
  • raisonnement dans des environnements contraints
  • raisonnement sur des données incertaines
  • raisonnement et incomplétude
  • raisonnement sur des gros volumes de données
  • raisonnement et mondes ouvert / fermé
  • raisonnement distribué
  • raisonnement pour la vie privée (politique d’accès aux données, anonymisation, réécriture de requêtes…)
  • hybridation du raisonnement et de l’apprentissage automatique
  • etc…

Les différentes problématiques citées précédemment doivent également être confrontées à la réalité du terrain afin de valider leur adéquation par rapport à des besoins réels. Pour ce faire, nous identifierons plusieurs jeux de données représentatifs de situations réelles pour favoriser l’évaluation des approches de raisonnement sur des données et connaissances complexes, spatio-temporelles et évolutives.

Nous envisageons d’encourager les membres de la communauté scientifique à évaluer leurs systèmes de raisonnement sur des jeux de données identifiés et représentatifs des domaines ciblés. Nous prendrons dans un premier temps, sans nous y limiter, le domaine de l’IoT qui touche à plusieurs champs thématiques : la domotique, le bâtiment intelligent, les villes intelligentes, la gestion des territoires, l’agriculture numérique, le transport et la santé.

Notre atelier peut être vu comme une initiative d’animation de la recherche proposant des solutions complémentaires à celles traitées dans l’Action DOING.

Cet atelier, comme l’action RoD précédente, demandera également le soutien du GDR IA.

 

Visitez le site web de l’Atelier RoCED



Évènements à venir