Approche dirigée par les modèles pour la démoralisation de schéma NoSQL

When:
01/03/2019 – 02/03/2019 all-day
2019-03-01T01:00:00+01:00
2019-03-02T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : ADOC

Laboratoire/Entreprise : CEDRIC/CNAM
Durée : 5 mois
Contact : faten.atigui@cnam.fr
Date limite de publication : 2019-03-01

Contexte :
Les systèmes d’information doivent faire face à une quantité toujours plus grande de données, et cherche à prendre en compte toutes les dimensions de leur éco-système afin de répondre aux exigences du métier. Ce volume toujours plus grand, complexe et dynamique (connu comme les 3V) a mis à mal les techniques traditionnelles de bases de données relationnelles et les entrepôts de données. Ainsi, pour des problèmes de passage à l’échelle, les bases de données NoSQL (HBase, Cassandra, MongoDB, Néo4J, etc.) ont vu le jour depuis une dizaine d’années et tentent de répondre à ces besoins. De nouvelles solutions sont proposées chaque année en vue de cibler une optimisation particulière, toutefois, ces fonctionnalités restent ad-hoc.

En conséquence, le choix de la bonne solution NoSQL en fonction des besoins métiers est fondamental pour le système d’information. Il peut avoir d’énormes impacts sur le passage à l’échelle et la pérennité de la solution. Ce choix implique une connaissance précise du besoin, en matière de volumes et dynamicité des données, de diversité d’interrogations et de contraintes sur le système. De plus, être capable de faire la corrélation entre les besoins et les solutions demande une réelle expertise sur le marché de la Data, ce qui très souvent s’avère donner une orientation commerciale plutôt que qualitative.

L’objectif de nos travaux de recherche est donc de proposer une approche d’aide au choix d’orientation technologique et de conception d’un système d’information, en reposant sur une méthodologie de modélisation des données, simulation de distribution des données et un modèle de coût adaptatif (pour intégrer de nouvelles fonctionnalités NoSQL). Nous nous intéressons à la fois à un niveau d’abstraction pour la modélisation de SI, mais également à un niveau physique pour favoriser l’optimisation du système. Ces deux approches traditionnellement séparées (architecture ANSI-SPARC) se doivent d’interagir finement pour s’adapter à un contexte d’optimisation extrêmement contraint et complexe.

Sujet :
Le stage débutera par l’étude des méthodes de dénormalisation de schéma conceptuels (entités/associations ou diagrammes de classes UML) pour le NoSQL de la littérature [1,2,3,4], ainsi que les différentes solutions NoSQL existantes [5,6,7] pour comprendre les fonctionnalités spécifiques de chacune. Ensuite, l’objectif de ce stage est de :
1. Compléter l’étude de l’état de l’art proposépar [8];
2. Proposer une approche dirigée par les modèles permettant de guider le choix du modèle logique et du système NoSQL en se basant principalement sur le modèle conceptuel (diagramme de classes) et les besoins de l’utilisateur formalisés sous forme de requêtes SQL. L’idée est d’étudier les types d’associations spécifiques à UML : agrégation, composition, héritage, etc. ainsi que leur impact sur l’imbrication ou l’éclatement de schémas ;
3. Comparer les résultats issus des recommandations basées sur les modèles conceptuels aux résultats de recommandation basés sur les tests et les expérimentations [8]. Les expérimentations seront testées principalement sur la base MongoDB, mais une ouverture sur HBase est envisagée ;
4. Automatiser le processus de transformation du schéma conceptuel vers le schéma logique et puis en schéma physique.
La finalité est de proposer des orientations d’implémentation pondérées, tout en donnant les avantages et les inconvénients de chaque solution envisagée.

Profil du candidat :
Etudiant(e) de Master 2 ou de dernière année d’école d’ingénieur sur un cursus d’informatique
Bon niveau en informatique et plus précisément en systèmes d’information et bases de données, systèmes NoSQL.
Bon niveau de communication scientifique à l’écrit et oral, notamment en anglais

Formation et compétences requises :
L’étudiant retenu devra présenter de bonnes compétences dans le domaine des systèmes de gestion de données massives, l’analyse des données. Elle ou il devra avoir un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l’issue du stage.

Adresse d’emploi :
CNAM
2 rue Conté, 75003 Paris

Document attaché : Sujet-Stage-Fusion-de-schemas-CEDRIC-CNAM-2019.pdf