Plateforme internet d’accès aux données pour les Observatoires Hommes-Milieux du CNRS-INEE

When:
28/07/2021 – 29/07/2021 all-day
2021-07-28T02:00:00+02:00
2021-07-29T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT, Institut de Recherche en Informatique de Tou
Durée : 5 à 6 mois (date
Contact : pascal.dayre@irit.fr
Date limite de publication : 2021-07-28

Contexte :
Contexte de la science ouverte
Les principes FAIR fournissent des lignes directrices pour améliorer la facilité le repérage [F], l’accessibilité [A], l’interopérabilité [I] et la réutilisation [R] des ressources numériques scientifiques. 
Pour ce faire, il est nécessaire de mettre en place des éco-systèmes numériques intégrant des ressources et des services en nombre toujours plus grand et facilitant la “FAIRisation” des données de la recherche.

Contexte métier
Le dispositif de recherche (LabEx DRIIHM) rassemble 13 observatoires scientifiques, les observatoires « hommes-milieux » (OHM) en France et à l’international. Depuis plusieurs années, les scientifiques impliqués étudient les dynamiques environnementales, culturelles et sociétales sur ces territoires, à différentes échelles spatiales et temporelles.

Des données hétérogènes sont produites chaque année par les équipes de recherche multidisciplinaires (>100 projets annuels lauréats). Elles font essentiellement partie de la “longue traîne des données”, elles ne disposent donc pas d’infrastructure facilitant leur gestion et leur partage. Au-delà de leurs incontournables stockage et catalogage, il est crucial d’améliorer le partage et l’ouverture de ces données pour favoriser les analyses croisées interdisciplinaires et communiquer les résultats auprès de la société.

Le projet ANR SO-DRIIHM (2020-2023) offre un nouvel élan visant à :
1. Informer la communauté scientifique des bénéfices du partage et de l’ouverture des données
2. Créer un portail web qui facilite l’accès aux ressources existantes et la démarche de diffusion de la donnée.

Le stage s’inscrit dans le second objectif du projet SO-DRIIHM avec la création d’un premier prototype DATA-DRIIHM.

Sujet :
Description du travail demandé
La science ouverte s’appuie sur les principes FAIR (Findable Accessible Interoperable Reusable). Ces principes doivent être mis en œuvre dans un environnement facilitant la recherche, l’accès, l’utilisation et la gestion des ressources numériques afférentes.

Il s’agit de concevoir et de développer un environnement « virtuel » de travail composé de :
1/  le portail web pour la mise en œuvre des cas d’usage des principes FAIR (frontend).
2/ Web APIs pour implémenter une couche intergicielle de service (middleware) permettant l’intégration et l’accès aux différents services existants de l’éco-système numérique de la recherche aux niveaux national et international comme les services institutionnels ou les services des e-infrastructures de recherche pour alimenter le portail web (backend).

Au cours de ce stage, nous nous concentrerons principalement sur la mise en œuvre des fonctionnalités de “facilité le repérage” [F – Findable] et l’accessibilité [A – Accessible] des données selon les principes FAIR. Il s’agit  de faciliter la découverte, l’exploration et l’accès des données disponibles sur les zones géographiques d’emprise des observatoires. Il sera demandé de contribuer à la spécification, de concevoir et de développer cet environnement pour les données des différentes disciplines scientifiques des observatoires. Nous parlons ici de données ou de ressources numériques au sens large.

L’IHM devra permettre les cas d’usage suivants (organisés autour du principe [F] de FAIR) sur ordinateur et sur smartphone:
[F]> Enregistrer un annuaire de référentiels de données comme re3data.org
[F]> Trouver des entrepôts de données selon une thématique scientifique
[F]> Trouver des jeux de données dans des référentiels tiers et dans un référentiel pour la longue traîne de données sur les emprises géographiques des 13 observatoires
[F]> Trouver des publications dans des référentiels tiers
[A]> Accéder par téléchargement et par visualiser en ligne d’un jeu de données sélectionné
[A]> Accéder par téléchargement et par visualiser en ligne d’une publication sélectionnée

Le portail web offrira à l’utilisateur une IHM et un espace personnel de travail permettant d’afficher et de sélectionner la liste des référentiels de données, des disciplines et de lancer des recherches en paramétrant le service de recherche par la sélection de son observatoire OHM et par la sélection des disciplines scientifiques, de mots-clés et une emprise spatiale et/ou temporelle. 
L’utilisateur pourra alors raffiner sa requête puis télécharger, visualiser les données, jeux de données par jeux de données, ou faire une visualisation croisée sur l’e-infrastructure DATA-DRIIHM.
L’utilisateur pourra réutiliser son historique de recherche.

La couche de service web devra permettre de :
    – construire un registre des services de catalogage de données, 
    – paramétrer et enregistrer  les requêtes fédérées pour récupérer la liste des méta-données et les accès aux données pour chacun des services de référentiels de données ou de catalogues de données,
    – Exécuter les requêtes fédérées et restituer comme résultat les méta-données, un lien de téléchargement, un lien de visualisation de chaque jeu de données et un lien source de données pour permettre la visualisation croisée multi-sources dans l’e-infrastructure DATA-DRIIHM.

Une démonstration sur l’exploration, l’utilisation des données de la recherche, de leurs services associés, des publications dans le cadre du LabEx DRIIHM sera un attendu. Nous nous intéressons à des scénarios d’usage faisant appels à des données d’observatoire et de la longue traîne des sciences de l’univers, sciences de l’environnement et sciences humaines et sociales.

Les développements se feront selon l’état de l’art des développements internet comme par exemple les web API, les spécifications d’Open API (https://www.openapis.org/), REST pour le backend et HTML5 et les frameworks javascript pour le frontend compatible ordinateur et smartphone. Nous utiliserons les technologies du web sémantique et du W3C pour descrire et utiliser les ressources (cf. RDF, RDFS, OWL, DCAT https://www.w3.org/TR/vocab-dcat-3/)

Les livrables suivants sont attendus :
• les spécifications de l’IHM (frontend) et de la couche de service (backend)
• la conception générale et détaillée
• le code et la documentation détaillée
• les tests et le scénario de livraison
• le manuel utilisateur
• le manuel administrateur de la couche de service
• le manuel de déploiement
• Une machine virtuelle pour l’environnement de développement
• Une machine virtuelle et/ou des conteneurs Docker pour le déploiement

Profil du candidat :
M2 en informatique ou dernière année d’école d’ingénieur avec une spécialité de développement informatique internet et systèmes d’information distribués.

Formation et compétences requises :
Compétences dans le développement de plateformes internet distribuées basées sur le web sémantique.
Compétences et formation requises:
• Le cadre de Description des Ressources du W3C : JSON, Web sémantique, Sparql, RDF, RDFS, OWL, DCAT https://www.w3.org/TR/vocab-dcat-3/, …
• Modélisation du logiciel UML
• Architectures orientées services SOA voir ROA (micro-services), REST
• Frontend : HTML5, javascript, frameworks.
• Backend : web API, web services, SPARQL endpoints (https://www.openapis.org/)

• Pour le déploiement, les conteneurs Dockers seront privilégiés afin de pouvoir faire un déploiement dans le CLOUD

Adresse d’emploi :
118 Route de Narbonne, F-31062 TOULOUSE CEDEX 9 https://www.irit.fr/informations-pratiques/acceder-a-lirit/ 

Document attaché : 202012221504_SO-DRIIHM_stage_2021_20201222.pdf