Refactorisation dynamique des mégadonnées pour l’optimisation des données de capteurs

When:
24/07/2016 – 25/07/2016 all-day
2016-07-24T02:00:00+02:00
2016-07-25T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRIT-UMR5505, Equipe SIG, Toulouse
Durée : 2016 – 2019
Contact : Olivier.Teste@irit.fr
Date limite de publication : 2016-07-24

Contexte :
Cette thèse a pour objectif d’apporter des solutions pour la modélisation et l’exploration du Big Data généré par des capteurs disséminés sur un campus, une ville… Dans le sillage des Big Data, le domaine des bases de données a connu ces dernières années l’émergence de nouveaux systèmes de stockage, de gestion de données et d’exploitation, appelés systèmes « not only SQL » (NoSQL). Leur grande flexibilité et extensibilité rendent ces systèmes pertinents pour la gestion des mégadonnées. Néanmoins, ces approches impliquent une forte dépendance entre le modèle de stockage et les traitements sur les données [CACM12]. Cette limite exige le développement de mécanismes permettant un accès optimal et indépendant quelque soit le type de requêtes effectuées.

[CACM12] M. Stonebraker, New opportunities for New SQL. Communications of the ACM, Vol. 55 (11), p.10-11, 2012.

Sujet :
La conjecture portée par cette thèse est de résoudre la dépendance des systèmes NoSQL aux traitements par une approche de refactorisation dynamique des données [ER15].
Ces systèmes ne reposent pas sur le principe de la séparation des données et des traitements, rendant la modélisation des données très dépendante des traitements associés. La structure de données conçue à la création de la base de données est très efficace pour certains traitements mais, en même temps, inefficace et parfois incompatible avec d’autres traitements néanmoins nécessaires. Ces systèmes ne permettent donc pas de supporter tout type de traitement avec la même efficacité.
La refactorisation des données consiste à restructurer les données pour les adapter à des traitements (par exemple, structures aplaties versus structures imbriquées).
L’objectif de la thèse est de développer de nouveaux modèles, méthodes et outils permettant la refactorisation des Big Data. Nous prévoyons de développer des mécanismes inter-système NoSQL, consistant à migrer (ou dupliquer) physiquement de manière efficace système NoSQL distribué en clusters vers un autre système réputé mieux adapté aux traitements ciblés. Une autre solution à développer intra-système NoSQL consiste à réorganiser automatiquement les données au sein du même système, avec ou sens duplication, de manière matérialisée ou virtualisée, tout en garantissant la cohérence des données.

Profil du candidat :
Etudiant diplômé de master ou ingénieur dans le domaine de l’informatique ayant des compétences en gestion de données, systèmes d’informations, et big data.

Formation et compétences requises :
Le candidat doit faire preuve de compétences dans la mise en œuvre logicielle tout en étant capable de maîtriser un cadre théorique formalisé. Les technologies Hadoop, Map/Reduce, NoSQL sont particulièrement visées. De bonnes compétences en anglais sont également un atout.

Adresse d’emploi :
IRIT
118 route de narbonne
31062 Toulouse cedex 9

Document attaché :