Developpement et deploiement de strategies de replication de donnees sur

When:
03/02/2021 all-day
2021-02-03T00:00:00+01:00
2021-02-04T00:00:00+01:00

Offre en lien avec l’Action/le Réseau : PLATFORM/– — –

Laboratoire/Entreprise : Institut de Recherche en Informatique de Toulouse
Durée : 5 à 6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2021-03-01

Contexte :
Cloud, Rréplication de données, NoSQL, Déploiement, Grid’5000

Sujet :
Les infrastructures récentes telles que le Cloud se doivent de considérer une gestion élastique des
ressources tout en prenant en compte l’aspect commercial pour les fournisseurs de Cloud public. Cela
entra^ne la mise en place d’un modèle économique ‘Pay-as-you-go’ qui signifie que l’utilisateur paie
uniquement ce qu’il consomme comme ressources. Le Service Level Agreement (SLA), un contrat signé entre le fournisseur et le locataire, doit également être respecté. Coté locataire, ce contrat précise le
montant payé par ce dernier au fournisseur pour la location des services. Dans le SLA, on retrouve
également les objectifs de niveau de service que le fournisseur doit satisfaire au risque de payer des
pénalités au locataire concerné. Parmi ces objectifs, on citera les objectifs de disponibilité et de performances. De plus, les considérations environnementales sont de plus en plus présentes dans l’esprit
collectif augmentant ainsi l’impact de politiques réduisant la consommation énergétique et donc de la
production de gaz a e et de serre.
La réplication de données, une technique largement utilisée dans les systèmes distribués, permet
d’améliorer la disponibilité de données et de réduire le temps de réponse lors de l’accès à ces données.
De nombreuses stratégies de réplication de données ont été proposées dans différentes architectures
en tenant compte des caractéristiques de chacune de ces architectures. Dans les architectures Cloud, ces
stratégies s’appuient sur l’élasticité pour le partage de ressources entre les différents locataires tout en
satisfaisant les objectifs attendus par ces locataires, en termes de performances par exemple. De nos
jours, la satisfaction d’autres objectifs tels que la réduction des dépenses du fournisseur ou encore de la
consommation énergétique constituent un challenge intéressant a relever.
La plate-forme Grid5000 est une plate-forme d’expérimentation nationale présente sur 8 sites différents
et contenant plus de 800 nœuds. Cette plate-forme permet de réaliser des expériences sur des architectures a large echelle. De plus, de nombreux outils sont mis en place sur cette plate-forme pour émuler des
nœuds présents dans différentes villes. Ils permettent également d’estimer la consommation en puissance
des logiciels et conteneurs sur plusieurs nœuds.
L’objectif de ce stage est de développer et de déployer plusieurs stratégies de réplications de données
sur des nœuds de Grid5000 puis, de les comparer. Ces stratégies de réplication de données seront mises
en place sur un système de gestion de fichiers distribués de type Hadoop. Par la suite, des requêtes
seront mises en place a n d’interroger des bases de données de type NoSQL. Différentes charges de
travail seront également considérées afin de rréaliser des expérimentations réelles sur des infrastructures
physiques. En n, ce stage se déroulera a l’IRIT (Institut de Recherche en Informatique de Toulouse) et
se fera en soutient d’un doctorant en 3eme année de Thèse .

Profil du candidat :
Master 1 ou Master 2

Formation et compétences requises :
Mots clés : Cloud, Réplication de données, NoSQL, Déploiement, Grid’5000
Compétences attendues : Programmation (Java, Python ou C), Déploiement d’outils
Rémunération : 564€/mois

Adresse d’emploi :
Institut de Recherche en Informatique de Toulouse (IRIT), Université Paul Sabatier Toulouse III

Document attaché : 202101181031_Offre_de_Stage 2021_déploiment Grid5000 Français_anglais.pdf