Data lakes & Analytics

When:
01/07/2021 – 02/07/2021 all-day
2021-07-01T02:00:00+02:00
2021-07-02T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : société Bial-X (Limonest, Rhône) et laboratoire ER
Durée : 36 mois
Contact : sabine.loudcher@univ-lyon2.fr
Date limite de publication : 2021-07-01

Contexte :
Cette proposition de thèse se place dans le cadre d’une collaboration entre le laboratoire ERIC, qui mène des recherches dans les domaines de la science des données et de l’informatique décisionnelle (business intelligence), et l’entreprise Bial-X, cabinet d’experts en business intelligence et big data. Une première thèse CIFRE entre les deux partenaires, portant sur la conception et l’implémentation d’un premier lac de données destiné à l’habitat social, va être soutenue d’ici décembre 2021.

Sujet :
Depuis le début du 21e siècle, les usages des organisations dans les processus de prise de décision sont bouleversés par la disponibilité de grands volumes de données hétérogènes appelées big data. Ces mégadonnées constituent une véritable opportunité pour les organisations, mais elles s’accompagnent entre autres de problématiques de volume, de vélocité et de variété qui surpassent les capacités des systèmes traditionnels de stockage et de traitement des données [6]. C’est dans ce con-texte que Dixon introduit le concept de lac de données (data lake), en guise de solution aux pro-blèmes induits par l’hétérogénéité des mégadonnées [7].

Un lac de données propose de stocker les données dans leur format d’origine et sans schéma prédéfi-ni [5]. Cette approche, qualifiée de schema-on-read, s’oppose à celle des entrepôts de données, appe-lée schema-on-write, où les données sont transformées avant leur stockage. Avec un tel principe, tous types de données peuvent cohabiter dans un lac de données, qu’elles soient structurées ou non. Pour être exploitable, un lac de données a besoin de métadonnées qui permettent de décrire les données stockées dans le lac, ainsi qu’un système efficace de gestion de ces métadonnées. Le laboratoire ERIC a étendu la définition du concept de lacs de données ainsi que les fonctionnalités que le sys-tème de métadonnées devait avoir pour être complet et efficace [9]. Récemment, il vient de proposer un modèle de métadonnées, baptisé goldMEDAL, basé sur 4 concepts principaux : entité de données, groupement, lien et processus [11]. Une étude des modèles de métadonnées actuels montre que goldMEDAL permet de généraliser les concepts proposés dans la littérature, faisant de lui le modèle le plus générique [4, 7, 8].
La 1re thèse CIFRE entre le laboratoire ERIC et la société Bial-X est ancrée dans le domaine de l’habitat social, domaine en lien avec les clients de l’entreprise. C’est dans ce contexte qu’un premier prototype de lac de données dédié à l’habitat social vient d’être développé [10].

Après avoir démontré l’intérêt et la faisabilité d’utiliser un lac de données dans le contexte de l’habitat social, les partenaires souhaitent poursuivre avec la conception, la mise en place et l’industrialisation de lacs dans différents domaines liés aux activités des clients de la société Bial-X. De plus les partenaires souhaitent explorer le nouveau concept de data mesh pour l’organisation et l’exploitation des données hétérogènes massives [1].

A partir de 2022, dans le cadre du concept de business intelligence and analytics (BI&A), l’objectif de la présente thèse sera de permettre :
– la création assistée ou semi-automatique de métadonnées au moment de l’insertion de nou-velles entités de données dans un lac, et ce grâce à l’extraction automatique d’informations depuis les données « primaires » par des méthodes d’intelligence artificielle ;
– l’interrogation des données du lac sur la base de requêtes formulées sur les métadonnées ;
– l’utilisation du lac possible non seulement par des data scientists, mais aussi par des experts métier pour extraire et analyser des données hétérogènes ;
– la généralisation et l’industrialisation des lacs de données dans différents projets de la société Bial-X ;
– l’étude les possibilités offertes par le nouveau concept de data mesh pour l’industrialisation des processus de science de données.

Cette thèse comprendra trois grand niveaux de réalisation : un niveau conceptuel ou théorique pour concevoir les différentes propositions, un niveau technique pour l’implémentation informatique des solutions et un niveau applicatif avec la mise en œuvre des propositions sur des données réelles et sur des problématiques métiers des clients de la société Bial-X.

D’un point de vue technique, les propositions faites par le/la doctorant(e) seront implémentées et in-tégrées aux solutions logicielles développées par la société Bial-X. Le/la doctorant(e) intégrera une équipe de spécialistes passionnés, à dimension humaine, où il pourra mettre en action ses propositions, sa créativité et ses compétences sur des cas concrets, réels et passionnants.

Profil du candidat :
Des compétences en bases de données, en traitement des données massives ou en technologies liées aux big data seront particulièrement appréciées.

Formation et compétences requises :
Master (ou équivalent) en informatique décisionnelle ou en sciences des données.

Adresse d’emploi :
Lyon

Document attaché : 202104261448_Sujet thèse DL&analytics 2022.pdf