Post-Doc : « Schema matching » et « embeddings de graphs »

When:
01/04/2021 – 02/04/2021 all-day
2021-04-01T02:00:00+02:00
2021-04-02T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT, Toulouse
Durée : 6 mois
Contact : ravat@irit.fr
Date limite de publication : 2021-04-01

Contexte :
A l’heure actuelle, les entreprises disposent de nombreuses sources de données disséminées au sein des différents services. Or, pour faciliter les prises de décision, il est primordial qu’elles puissent :
– localiser et connaître au mieux les données de ces sources,
– accéder aux données de ces sources à ces sources en ayant une vision unifiée pour faciliter les analyses.

Sujet :
Dans ce cadre, le besoin de « vue unifiée des données disponibles » dans l’entreprise est fondamental. L’objectif de cette vue, pour l’usager final, est « d’effacer autant que possible l’hétérogénéité des systèmes, des formats etc… dans lesquels se trouvent les données ». Cette vue unifiée a donc pour objectif de permettre à l’usager final d’avoir une vision synthétique des données au travers de laquelle il pourra interagir avec les données (interroger, extraire, traiter…). Cette vue unifiée peut, en fonction des besoins, couvrir l’activité globale de l’entreprise ou être spécifique à un projet ou un service.
Cependant obtenir une telle vue unifiée nécessite notamment la prise en compte et l’intégration des schéma des différentes sources de données (“schema matching”). Beaucoup de travaux existent dans ce domaine [1]. L’utilisation de graphes semble prometteuse. et notamment, nous pouvons identifier de nouvelles tendances notamment basées sur les « embeddings » de graphs telles que node2vec [2]. De par l’hétérogénéité des sources et des données, les travaux prenant en compte les graphes hétérogènes seront privilégiés [3].
Enfin pour faciliter l’usage de la vue unifiée par les usagers, cette vue unifiée doit proposer un schéma synthétique du schéma global obtenu par l’intégration des schémas des sources de données. De ce fait, des opérateurs notamment de forage tel que celui bien connu dans le monde décisionnel devront être intégrés pour permettre à l’usager final de descendre dans les détails du schéma ou directement revenir aux données souhaitées.

[1] Rahm, E., Bernstein, P. A survey of approaches to automatic schema matching. The VLDB Journal 10, 334–350 (2001). https://doi.org/10.1007/s007780100057
[2] node2vec: Scalable Feature Learning for Networks. A. Grover, J. Leskovec. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016. https://snap.stanford.edu/node2vec/
[3] Rana Hussein, Dingqi Yang, and Philippe Cudré-Mauroux. 2018. Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management (CIKM ’18). Association for Computing Machinery, New York, NY, USA, 437–446. DOI:https://doi.org/10.1145/3269206.3271777

Profil du candidat :
Dans le cadre de ce contrat de Post-Doc, nous recherchons un candidat motivé et intéressé par le sujet. Il devra démontrer ses qualités dans le domaine abordé par les travaux. Des compétences techniques en informatique et dans le domaine plus spécifique des systèmes d’informations et du management de données seront un atout indéniable.
Les candidats intéressés doivent envoyer leur dossier au format PDF et contenant les pièces indiquées ci-dessous par email, au plus vite, à Max.Chevalier@irit.fr et Franck.Ravat@irit.fr.
Pièces à joindre au dossier :
– CV complet et à jour
– Lettre de motivation pour ce Post-Doc
– Résumé de la thèse soutenue et lien vers le document en version manuscrite
– Lettre(s) de recommandation du directeur de thèse ou des co-encadrants (non obligatoire)

N’hésitez pas à nous contacter pour toute information complémentaire.

Formation et compétences requises :
Doctorat en Informatique avec déjà une première expérience en modélisation et intégration de données.

Adresse d’emploi :
IRIT : Institut de Rechercher en Informatique de Toulouse,
Université Toulouse Capitole – 2, Rue du Doyen Gabriel Marty, Toulouse
Lieu d’activité : Manufacture des tabacs, Allée de Brienne, Toulouse