Benchmarking de middleware pour le Big Data

When:
01/04/2023 – 02/04/2023 all-day
2023-04-01T02:00:00+02:00
2023-04-02T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4 à 6 mois
Contact : asma.dhaouadi@univ-smb.fr
Date limite de publication : 2023-04-01

Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une approche de modélisation personnalisable d’un pipeline Big Data pour l’acquisition, le traitement et le stockage de données pour une analyse future. En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : fichiers plats, données opérationnelles, nouveaux services internet, différents réseaux sociaux, nouvelles applications de l’internet des objets (IOT), etc. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « volume » de données collectées par l’entreprise, la « variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « vitesse » qui devrait être prise en considération. Pour faire face aux challenges de Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. Dans la littérature de différentes solutions architecturales Big Data ont été proposées. Dans ces architectures se trouvent une ou plusieurs technologies pour répondre à un besoin spécifique. Par ailleurs, le choix de ces technologies n’est pas toujours suffisamment justifié.

Sujet :
L’objectif de ce stage sera le déploiement de trois différentes architectures Big Data pour l’extraction, le traitement, le chargement (ETL) des données. Dans chacune de ces architectures, l’étudiant teste le déploiement des technologies selon des critères à définir (RAM, réseau, stockage, etc). L’étudiant est appelé aussi à étudier la compatibilité entre les technologies mises en œuvre au sein d’une même architecture. De plus, tout au long du stage, il serait utile de prendre note de tous les problèmes rencontrés, en particulier celle de configuration et de préciser comment sont-ils surmontés. À la fin du stage, l’étudiant est appelé à synthétiser toutes les étapes menées et relever les résultats du travail de benchmarking.

Pour la mise en œuvre des architectures proposées le candidat pourra avoir accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB ainsi qu’a des machines de calcul internes au laboratoire.

Profil du candidat :
BUT, L3, M1 ou M2 recherche
Ingénieur année 1, 2 ou 3

Formation et compétences requises :
– Connaissance et compréhension des phases d’acquisition, de traitement, de stockage de données.
– Connaissances relativement bonnes de l’écosystème Hadoop et d’autres technologies : Redis, Spark, etc.
– Configuration des technologies Big Data.
– Comprendre, analyser et rédiger des documents scientifiques et techniques.

Adresse d’emploi :
LISTIC – Laboratoire d’Informatique, Systèmes, Traitement de l’Information et de la Connaissance
Annecy-le-Vieux, France

Document attaché : 202211251032_SUJET_STAGE_M2-FI5_2022-2023_LISTIC FINAL.pdf