Un modele de coût pour bases de donnéees NoSQL dénormalisées

When:
01/03/2019 – 02/03/2019 all-day
2019-03-01T01:00:00+01:00
2019-03-02T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : ADOCFormation

Laboratoire/Entreprise : DVRC / ESILV
Durée : 6 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2019-03-01

Contexte :
Les systèmes d’information doivent faire face à une quantité toujours plus grande de données, et cherche à prendre en compte toutes les dimensions de leur éco-système afin de répondre aux exigences du métier. Ce volume toujours plus grand, complexe et dynamique (connu comme les 3V) a mis à mal les techniques traditionnelles de bases de données relationnelles et les entrepôts de données. Ainsi, pour des problèmes de passage à l’échelle, les bases de données NoSQL (HBase , Cassandra , MongoDB , Néo4J , etc.) ont vu le jour depuis une dizaine d’années et tentent de répondre à ces besoins. De nouvelles solutions sont proposées chaque année en vue de cibler une optimisation particulière, toutefois, ces fonctionnalités restent ad-hoc.
En conséquence, le choix de la bonne solution NoSQL en fonction des besoins métiers est fondamental pour le système d’information. Il peut avoir d’énormes impacts sur le passage à l’échelle et la pérennité de la solution. Ce choix implique une connaissance précise du besoin, en matière de volumes et dynamicité des données, de diversité d’interrogations et de contraintes sur le système. De plus, être capable de faire la corrélation entre les besoins et les solutions demande une réelle expertise sur le marché de la Data, ce qui très souvent s’avère donner une orientation commerciale plutôt que qualitative.

Sujet :
L’objectif de nos travaux de recherche est donc de proposer un modèle de coût générique pour différentes solutions NoSQL, en vue de définir pour chaque requête effectuée son coût d’évaluation. Du fait du choix de dénormalisation de schéma relationnel (fusions et éclatement), ce modèle de coût doit prendre en compte la diversité de schémas et les différentes techniques d’optimisation possible dans ce contexte.
Ainsi, dans le cadre d’un stage financé par le CEDRIC en 2018 et effectué par Asma Mokrani, étudiante en M2R Système d’information et Business intelligence en partenariat avec le laboratoire Cédric/CNAM, nous avons réussi à (i) étudier l’état de l’art sur la dénormalisation, (ii) formaliser notre approche globale, (iii) proposer un protocole d’expérimentation et des tests en utilisant TPC-C. Ces premiers résultats ont été présentés lors d’un workshop franco-russe autour des big data qui a eu lieu le 25 & le 26 octobre 2018 à Paris [4]. D’autre part, avec Asma Mokrani, nous sommes également en train de finaliser un article à soumettre à la revue Ingénierie des systèmes d’information (ISI). Dans la continuité de cette thématique, nous cherchons à élargir le domaine en vue de déposer un projet de recherche permettant à terme, de financer une thèse.

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique
Bon niveau en informatique et plus précisément en optimisation de bases de données, systèmes NoSQL.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
ESILV, avenue léonard de Vinci, Courbevoie

Document attaché : Sujet-Stage-NoSQL-cost-model-ESILV-2019.pdf