Composant d’intégration de données multi-source pour la plateforme de données sémantiques DataNoos.

When:
30/06/2021 – 01/07/2021 all-day
2021-06-30T02:00:00+02:00
2021-07-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT, Institut de Recherche en Informatique de Tou
Durée : 5/6 mois
Contact : pascal.dayre@irit.fr
Date limite de publication : 2021-06-30

Contexte :
A l’heure actuelle les entreprises ou les unités de recherche souhaitent faire de nouvelles agrégations de données existantes pour créer de la valeur, prendre des décisions ou produire de nouvelles connaissances.
L’intégration de données est le processus qui consiste à combiner et à aligner des données provenant de différentes sources.
L’intégration de données augmente la valeur des données disponibles et permet de constituer de nouveaux jeux de données en fonction des buts recherchés.
Nous considérerons un ensemble de sources de données, une plateforme d’intégration de données offrant un accès unifié à un ensemble de jeux de données disponibles sur internet.
La plateforme sera celle du projet DataNoos (https://datanoos.univ-toulouse.fr/).

Sujet :
Le travail demandé est de concevoir et de développer le composant d’intégration de données multi-source de la plateforme de données sémantisées DataNoos.

La plateforme DataNoos permet actuellement l’alignement de méta-données.
Il est nécessaire néanmoins de développer un composant sous forme d’une couche de service offrant les fonctionnalités suivantes pour la connecter à des e-infrastructures existantes:
• la recherche des sources de données
• l’intégration de sources de données
• la recherche de jeu de données
• l’importation et/ou le référencement des thésaurus / vocabulaires contrôlés /ontologies
• l’importation des méta-données des jeux de données et des référentiels
• l’alignement des méta-données dans un référentiel de méta-données local
• l’importation des données dans un référentiel de données local
• l’importation de référentiel de service et de workflow

Nous nous placerons dans le cadre du web des données pour la gestion des méta-données et des ETL sémantique pour leur moissonnage. Le cas d’application sera celui de la science ouverte notamment lors d’une recherche interdisciplinaire nécessitant l’accès et l’intégration de données multi-sources multi-domaines.

La constitution d’un catalogue des productions de l’université Toulousaine sera demandé comme délivrable.

Profil du candidat :
Stage M2 ou stage ingénieur

Formation et compétences requises :
Technologies du W3C.
UML
Python / Django
javascript / framework
Architecture orientée service: API REST

Adresse d’emploi :
Développement Logiciel des systèmes distribués (connaissance des
architectures distribuées et des technologies du net)