Des images de synthèse pour entraîner les réseaux de neurones

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire AMAP, Montpellier
Durée : 4 à 6 mois
Contact : marc.chaumont@lirmm.fr
Date limite de publication : 2022-01-29

Contexte :
Identifier et dénombrer des arbres de manière automatique à partir d’images RGB satellitaires/drones, et plus encore en zones de forêts naturelles, est un vrai challenge. Les variétés, l’âge de la plantation, l’état phytosanitaire, la densité impliquent en effet une grande variabilité dans le contenu des images ce qui rend la détection automatique difficile, même par deep learning.

Sujet :
Objet d’étude :
a) Synthèse de scènes 3D contenant des arbres (l’architecture est réaliste) ressemblant à une photo aérienne prise par un drone (i.e. génération d’un DOE – Design of Experiences).
b) Apprentissage d’un réseau de neurones de type Faster-RCNN [Ren et al. 2021 – Faster-RCNN] ou Yolo [YOLOV5], [Ge et al. 2021 – YOLOX] dédié à la détection d’arbres à partir des images de synthèse.
c) Transfert de l’apprentissage pour que le réseau de neurones soit capable de réaliser des détections dans des images réelles. Il y a de nombreuses solutions pour cette « adaptation de domaine ».

Problématique :
Dans le cadre de ce stage, nous souhaitons vérifier que l’utilisation d’images de synthèse peut, in fine, améliorer les performances d’un algorithme de détection dans des images réelles.

Descriptif complet ici :
http://www.lirmm.fr/~chaumont/download/Stage_M1_M2_2022_DeepLearning-Arbre-AMAP-LIRMM.pdf

Profil du candidat :
Elève Master 2 ou Master 1 ou Ingénieur : traitement d’images et signal/télédétection/bioinformatique

Formation et compétences requises :
– Maitrise d’un langage de programmation de bas niveau (ex: C++),
– Maîtrise d’un langage de programmation de script (ex. Python),
– Expérience en apprentissage profond (TensorFlow ou Pytorch),
– Connaissances en traitement d’images,
– Aptitude au travail en interdisciplinarité
– Prise d’initiative et bon relationnel,
– Anglais scientifique courant

Adresse d’emploi :
UMR Amap – CIRAD Montpellier
Parc Scientifique Agropolis,
2196 Bd de la Lironde,
34980 Montferrier-sur-Lez
http://amap.cirad.fr/fr/index.php

Document attaché : 202111250903_Stage_M1_M2_2022_DeepLearning-Arbre-AMAP-LIRMM.pdf

Conception et prototypage d’une interface WEB pour une plateforme d’analyse de données temporelles

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube – Université de Strasbourg
Durée : 4 à 6 mois
Contact : a.capobianco@unistra.fr
Date limite de publication : 2022-01-29

Contexte :
L’utilisation de techniques de Machine Learning/Data Mining pour l’analyse de séries temporelles est en plein essor, plus particulièrement en Sciences de l’Environnement (Hydrologie, télédétection).
Dans le cadre de ses travaux, l’équipe SDC-ICube développe la plateforme d’analyse de séries temporelles FODOMUST (https://sdc.icube.unistra.fr/en/index.php?title=FODOMUST).
Cette plateforme dispose d’une interface déportée MultICube suivant un modèle MVC.

FODOMUST propose des outils d’analyse d’image et de visualisation des résultats de classifications à l’expert. Ces visualisations doivent permettre de faciliter le travail d’analyse des experts géographe et faciliter les tâches de classification et de décision sur la base des propositions du logiciel. La visualisation des informations fournie, pour être utile, doit être suffisamment précise et complète pour que l’expert puisse réellement faire son choix. Cependant, la masse des données à traiter et la complexité des processus d’analyse entraine une importante densité informationnelle et donc un risque de surcharge cognitive qui représente un frein à l’adoption des outils développés.

Sujet :
Pour mieux répondre aux besoins des experts, nous souhaitons migrer l’application existante vers une application web. Afin de faciliter l’intégration de ces nouveaux outils dans des processus d’analyse de données complexes tout en limitant le coût cognitif induit par l’usage de la plateforme, nous souhaitons nous inscrire dans une démarche de co-conception impliquant les utilisateurs finaux dans le processus de création et de développement de ce nouvel outil.

L’objectif de ce travail sera donc triple. Il s’agira :
1. de faire une étude des besoins et attentes des utilisateurs : pour cela, le•la stagiaire organisera des ateliers de co-conception avec les utilisateurs finaux. Différentes méthodes pourront être considérées. Le•la stagiaire sera secondé•e par Margaux Holveck (Ingénieur de Recherche – Géomatique).
2. de concevoir et valider avec les utilisateurs une proposition d’interface.
3. de fournir et d’évaluer un prototype « preuve de concept » permettant de mieux visualiser le résultat potentiel. Le•la stagiaire sera secondé par un•e étudiant•e stagiaire en développement web pour la réalisation de ce prototype fonctionnel.

Profil du candidat :
Le•la candidat•e devra poursuivre une formation en Informatique, Sciences humaines et sociales ou Psychologie Cognitive avec de bonne connaissance en Ergonomie ou Interaction Homme-Machine.

Formation et compétences requises :
Des connaissances en UI/UX et conception d’interface sont requises. Des connaissances en développement front-end (HTML/CSS et Javascript) seront un plus.

Adresse d’emploi :
ICube – Université de Strasbourg
300 bld Sébastien Brant
67400 Illkirch

Document attaché : 202111250634_SujetM2-2021-Ergonomie-Interface.pdf

Prévision du temps à très haute résolution avec des méthodes de Deep Learning

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-02-28

Contexte :
Les prévisions météorologiques fournies par le modèle Arome, opérationnel à Météo-France, ont une résolution spatiale de 2.5km sur les domaines Outre-Mer. En 2022, l’augmentation de résolution atteindra 1.3km, et permettra d’améliorer la performance des prévisions, en particulier pour les évènements à enjeux tels que les cyclones tropicaux et les fortes pluies. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions Arome à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.

Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution (par exemple 2.5km ou 1.3km) et les prévisions haute résolution (par exemple 500m). Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, inspirées par les travaux de super-résolution en traitement d’images, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutionnels offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une première descente d’échelle à 500m des prévisions Arome sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Pour cela il s’agira :
1. de sélectionner et d’implémenter une ou plusieurs architectures de réseaux de neurones adaptées au problème de descente d’échelle, en s’appuyant en partie sur la littérature existante
2. de préparer les jeux de données d’entraînement et de validation pour les réseaux, à partir des simulations Arome basse et haute résolution réalisées par l’encadrement en amont du stage
3. de réaliser des expériences de sensibilité des descentes d’échelle à différents réglages des méthodes statistiques et configurations des jeux de données d’apprentissage
4. d’évaluer la pertinence des prévisions Arome 500m obtenues sur des situations à enjeux variées (fortes pluies, risque de feu de forêt, etc.)

Profil du candidat :
Le stage requiert un réel intérêt pour les méthodes d’intelligence artificielle et leur application aux géosciences. Une bonne connaissance des réseaux de neurones convolutionnels et de leur implémentation Python est requise.

Formation et compétences requises :
M2 ou Ecole d’ingénieur.

Adresse d’emploi :
Centre National de Recherche Météorologique, Toulouse, France

Apprentissage multi-tâche pour le traitement de la parole et de la langue dans le cadre de conversat

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Linagora
Durée : 5-6 mois
Contact : jhunter@linagora.com
Date limite de publication : 2022-01-01

Contexte :
L’équipe R&D (https://labs.linagora.com/) de la société LINAGORA (http://linagora.com) développe en open-source des outils d’assistance intelligente pour entreprises, y compris l’assistant vocal LinTO (https://linto.ai/), et LinSTT (https://github.com/linto-ai/linstt-engine), un outil de reconnaissance de la parole qui est capable de transcrire sous forme textuelle un signal vocal, ce qui nous permet de produire, de manière automatique, des transcriptions de réunion. Actuellement, nous travaillons sur un gestionnaire de conversation, Conversation Manager, une plateforme qui permettra à partir d’un enregistrement complet d’une réunion d’en déduire un résumé aussi pertinent que possible. L’idée est qu’un utilisateur du Conversation Manager va pouvoir d’abord visualiser, corriger et annoter une transcription proposée par notre système et ensuite exploiter le contenu de la transcription et ses annotations pour créer un résumé de manière semi-automatique.
Pour ce faire, il est impératif que la transcription proposée à l’utilisateur, avant l’étape de correction, soit aussi correcte et facile à visualiser que possible, ce qui peut être difficile pour les transcriptions de réunion où il y a plusieurs locuteurs et où les participants ont tendance à faire des interventions longues et mal structurées d’un point de vue grammatical. Pouvoir bien associer un tour de parole à son locuteur (segmentation et regroupement en locuteurs, ou diarisation en anglais) et ajouter les marques de ponctuation qui rendent le texte plus facile à lire sont très importants pour faire des transcriptions de haute qualité.
La diarisation et la ponctuation peuvent ensuite servir à améliorer les algorithmes de résumé automatique en aidant un système à découper le contenu d’une réunion en clauses individuelles — appelés segments discursifs. Ces segments fournissent des unités sémantiques qui seront passées ensuite aux algorithmes de résumé qui jugeront quels segments sont plus centraux à la conversation et du coup, au résumé final.

Références

Bredin, H., Laurent, A. (2021) End-To-End Speaker Segmentation for Overlap-Aware Resegmentation. Proc. Interspeech 2021, 3111-3115.

Muller, P., Braud, C., Morey, M. (2019) ToNy: Contextual embeddings for accurate multilingual discourse segmentation of full documents. Proceedings of the Workshop on Discourse Relation Parsing and Treebanking 2019, 115-124.

Sujet :
Pour ce stage, le stagiaire étudiera les trois tâches – la diarisation, la ponctuation, et la segmentation discursive – en parallèle avec une approche d’apprentissage multi-tâche. L’entraînement du modèle sera fait sur des données de conversation transcrites soit en français, soit en anglais. Nous commencerons avec des modèles existants de ponctuation et segmentation qui se basent sur une architecture de transformer + bi-LSTM ainsi qu’un modèle de diarisation. La nouveauté de ce stage consistera dans (a) l’approche multi-tâche pour étudier ces trois sujets en parallèle et (b) l’usage des informations acoustiques des enregistrements de conversation et de réunion (alors que les modèles de base pour la ponctuation et la segmentation discursive sont entraînés exclusivement sur du texte).
L’encadrement du stage : Le stagiaire sera encadré par Samir Tanfous de LINAGORA, mais travaillera en collaboration avec Julie Hunter de LINAGORA et plusieurs membres du laboratoire IRIT, notamment Philippe Muller de l’équipe Melodi (NLP) et Thomas Pellegrini et Hervé Bredin de l’équipe Samova (Traitement de la parole).

Profil du candidat :
Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique et IA avec des compétences en machine learning
De l’expérience en deep learning et PyTorch serait un plus
De l’expérience en speech processing et/ou NLP serait un plus

Formation et compétences requises :
Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique et IA avec des compétences en machine learning
De l’expérience en deep learning et PyTorch serait un plus
De l’expérience en speech processing et/ou NLP serait un plus

Adresse d’emploi :
LINAGORA, soit à Paris, soit à Toulouse

3D PRIAD : 3D Printer with Intelligent Anomaly Detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ICube, Equipe MLMS, Strasbourg
Durée : 6 mois
Contact : cedric.bobenrieth@ecam-strasbourg.eu
Date limite de publication : 2022-01-01

Contexte :
À l’apogée de l’industrie 4.0, la conception de nouvelles méthodes et applications permettant un suivi et un contrôle de la production est un réel enjeu. Le projet 3D-PRIAD se concentre spécifiquement sur les problématiques liées à la production par impression 3D.

En effet, il est nécessaire qu’une imprimante 3D puisse fonctionner de manière autonome en permanence tout en assurant une production de pièces de bonnes qualités, c’est-à-dire dépourvue de quelconques défauts d’impressions.

L’équipe MLMS (Machine Learning, Modeling & Simulation) propose donc un projet combinant le deep learning à l’analyse d’images, de modèles 3D, et de données issues de multiples capteurs sensorielles (thermique, poussière, pression de l’air, etc) afin de permettre un suivi en temps réel de la qualité de l’impression et la détection automatique d’anomalies.

La mission aura lieu sur 6 mois, entre février et août 2021, et se déroulera au sein de l’équipe MLMS du laboratoire ICube.

Sujet :
Ce stage s’inscrit dans le projet 3D-PRIAD et fait suite à des travaux déjà réalisés.
Vous aurez donc à votre disposition :
1) Un début de jeux de données, constituées de vidéos d’impressions 3D provenant de 5 caméras disposée autour de l’imprimante 3D de manière à couvrir tous les angles de vues (Front, Back, Left, Right et Top) accompagnées du GCode (modèle 3D) de l’impression en question, couvrant un ensemble de défauts d’impression. Ce jeu de données est déjà labellisé.

2) Une implémentation d’un réseau de neurones type YoloV4 entraîné sur ces données pour détecter par angle de vue des défauts d’impressions.

3) Le matériel nécessaire pour l’acquisition de plus de données d’impressions (caméras, imprimante 3D, matériel d’impression)

4) Le matériel nécessaire pour l’acquisition de données ambiantes (capteurs d’humidité, de température, de pression, de présence de poussière)

L’objectif global du stage est de mettre au point un réseau de neurones capable de faire de l’analyse préventive sur les impressions 3D, c’est-à-dire être capable de déterminer à l’aide des images issues des caméras et des données issues des capteurs extérieurs (donc multimodales) qu’un défaut d’impression va se produire avant que celui-ci ne se réalise.
Pour atteindre cet objectif, ce stage peut être décomposé selon les missions suivantes :
1) Finaliser la détection automatique des défauts d’impressions à l’aide des modèles YoloV4 : La détection étant faite actuellement individuellement sur une caméra, et uniquement en prenant en compte l’image 2D ; il est nécessaire d’améliorer cette détection en utilisant en combinant les 5 vues ainsi que le modèle 3D attendu.

2) Mettre en place un modèle d’apprentissage capable de prédire si une erreur d’impression va arriver à un instant T+1 en ayant comme données d’entrée les données des capteurs + images à l’instant T. Ce modèle utilisera le modèle finaliser en (1) pour permettre un apprentissage non-supervisé. (Cœur du stage)

3) Complétez le jeu de données d’impressions 3D et créer le jeu de données de capteurs ambiants.

Notez que puisque ce stage s’inscrit dans le cadre d’un projet de recherche actuel, le point (1) pourrait être finalisé avant l’arrivée du stagiaire.
Les livrables attendus en fin de stage sont :
1) Le réseau de prédiction de défaut d’impression
2) Un document de conception (en anglais)
3) Une documentation sur l’installation et l’utilisation de la solution mise en place par le stagiaire
4) Rapport de Master
5) Soutenance de stage

Profil du candidat :
L’offre s’adresse à un étudiant en M2, ou dernière année d’école d’ingénieur avec de fortes compétences en informatiques, et notamment en Python.

Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D sont un plus.

Formation et compétences requises :
Il est nécessaire d’avoir de fortes compétences en programmation, surtout en Python.

Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D sont un plus.

Adresse d’emploi :
Strasbourg, Place de l’hôpital

Document attaché : 202111241537_Sujet stage 3DPRIAD_Master2 Recherche.pdf

Développement d’une méthode d’apprentissage profond pour la cartographie de l’occupation du sol

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2022-02-01

Contexte :
Le développement de la chaîne de traitement iota 2 (Infrastructure pour l’Occupation des sols par
Traitement Automatique Incorporant les Orfeo Toolbox Applications 1 [1] a été initié par l’UMR CESBIO
(Centre d’Etudes Spatiales de la BIOsphère, Toulouse) dans l’objectif principal d’assurer la production
opérationnelle de cartes d’occupation des sols à l’échelle nationale (France Métropolitaine) à partir de
séries temporelles d’images à haute résolution spatiale (telles que les images issues des mission Sentinel
de l’ESA), comme établi par le Centre d’Expertise Scientifique « Occupation des SOls » (CES OSO)
du Pôle Surfaces Continentales THEIA 2 . Depuis, face aux besoins des utilisateurs, qui sont très variés,
et aux contributeurs potentiels pouvant fournir des améliorations méthodologiques, iota 2 évolue vers une
plateforme puissante et flexible pour faciliter la mise en place de chaînes de traitement en télédétection
pour l’occupation du sol à grande échelle.
La composante CIRAD de l’UMR TETIS participe depuis plusieurs années aux développements de la
chaîne iota 2 , et a mis à disposition de ses utilisateurs un workflow de classification à objet (approche
OBIA) pour la production de cartes d’occupation du sol à Très Haute Résolution Spatiale (THRS), inspiré
de la chaîne Moringa 3 [2, 3], et adaptée aux contextes des paysages et systèmes agricoles tropicaux
(couverture nuageuse importante, petit parcellaire, fragmentation des paysages et hétérogénéité des
pratiques agricoles, faible disponibilité de données de référence).

Sujet :
Dans le cadres des activités du projet TOSCA PARCELLE soutenu par le Centre National d’Etudes
Spatiales (CNES), nos objectifs actuels évoluent vers l’amélioration du workflow Moringa par l’intégration
dans iota 2 de nouvelles méthodes basées sur l’apprentissage profond récemment mises au point dans
l’unité, couvrant des étapes allant des prétraitement des séries temporelles (super-résolution, interpolation
des observations nuageuses) à l’extraction de descripteurs et la classification à objet. Pour ce stage, les
activités se concentreront en particulier sur le développement dans iota 2 d’une technique
classification de séries temporelles multi-capteurs (optiques/radar) issue de l’apprentissage
profond (deep learning ) (inspirée par la méthode TWINNS [4]), pouvant être également utilisée pour
l’extraction de descripteurs pour la stratégie de classification à objet .
Les étapes principales envisagées pour la réalisation de ce stage sont :
• revue bibliographique sur les méthodes d’apprentissage profond développées au sein de l’unité
en lien avec TWINNS et prise en main de l’implémentation existante;
• production de jeux de données à partir de séries temporelles d’images de télédétection (imagerie
Sentinel-1 et -2) et des bases de données de référence disponibles, et réalisation de tests à partir
des implémentations existantes;
• prise en main de la chaîne iota 2 et des stratégies de développement collaboratifs;
• adaptation des codes sources et leurs intégration dans la chaîne iota 2 ;
• test des méthodes après intégration, évaluation des performances et comparaisons avec la
stratégie existantes (qualitatives, complexité des calculs);
• rédaction d’un rapport sur les activités menées et préparation de la soutenance.

Profil du candidat :
• Étudiant M2 ou 3ème ingénieur en Informatique ou Télédétection / Géomatique;
• bonnes compétences en programmation (Python);
• connaissance des méthodes d’apprentissage automatique (machine learning, deep learning )
et des modules Python concernés (scikit-learn, TensorFlow/Keras, PyTorch …);
• une compétence en manipulation de données géo-spatiales (raster/vecteur, GDAL/OGR,
Orfeo Toolbox, …) est souhaitée;
• goût pour la recherche, l’innovation et le travail collaboratif intra- et inter-équipe.

Formation et compétences requises :
• Étudiant M2 ou 3ème ingénieur en Informatique ou Télédétection / Géomatique;
• bonnes compétences en programmation (Python);
• connaissance des méthodes d’apprentissage automatique (machine learning, deep learning )
et des modules Python concernés (scikit-learn, TensorFlow/Keras, PyTorch …);
• une compétence en manipulation de données géo-spatiales (raster/vecteur, GDAL/OGR,
Orfeo Toolbox, …) est souhaitée;
• goût pour la recherche, l’innovation et le travail collaboratif intra- et inter-équipe.

Adresse d’emploi :
Maison de la Télédétection,
500 Rue J.-F. Breton, 34090 Montpellier, France.

Document attaché : 202111240927_stage_PARCELLE_2022.pdf

Mises à jour de bases de données graphe avec informations incomplètes

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO (Laboratoire d’Informatique Fondamentale d’
Durée : 4-6 mois
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-12-10

Contexte :
Stage dans le cadre de l’action DOING (Données Intelligentes) du GDR MADICS

Sujet :

Le but de cet stage serait de proposer une adaptation de la politique de mise à jour présentée dans [1] aux graphes d’attributs.

[1] Jacques Chabin, Mírian Halfeld Ferrari, Dominique Laurent: Consistent updating of databases with marked nulls. Knowl. Inf. Syst. 62(4): 1571-1609 (2020)

Profil du candidat :
L’ étudiant doit être intéressé par l’approfondissement de ses connaissances dans le domaine de bases de données. Niveau master

Encadrantes :
Mirian Halfeld Ferrari (LIFO, Orléans), mirian@univ-orleans.fr
Jacques Chabin (LIFO, Orléans), jacques.chabin@univ-orleans.fr

Formation et compétences requises :
Connaissances en bases de données
Bonnes bases théoriques

Adresse d’emploi :
Nous souhaitons que le stagiaire soit physiquement au LIFO, même si des périodes de télétravail peuvent être envisagées/ programmées.

Document attaché : 202111222249_UpdateGraph.pdf

Poste de Professeur des Universités en Statistique (Section 26 CNRS)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MAP5 (UMR CNRS 8145, Université de Paris)
Durée : CDI
Contact : antoine.chambaz@u-paris.fr
Date limite de publication : 2022-03-01

Contexte :
Ancrée au coeur de la capitale, Université de Paris figure parmi les établissements français et internationaux les plus prestigieux grâce à sa recherche de très haut niveau, ses formations supérieures d’excellence, son soutien à l’innovation et sa participation active à la construction de l’espace européen de la recherche et de la formation. Labellisée Idex depuis mars 2018, Université de Paris s’appuie sur ses enseignants, ses chercheurs, ses enseignants-chercheurs, ses personnels administratifs et techniques, ses étudiants, pour développer des projets scientifiques à forte valeur ajoutée, et former les hommes et les femmes dont le monde de demain a besoin. Des sciences exactes et expérimentales aux sciences humaines et sociales, en passant par la santé, Université de Paris a fait de l’interdisciplinarité un marqueur fort de son identité. Elle compte aujourd’hui 64 000 étudiants, 7 500 personnels, 138 laboratoires, répartis au sein de ses trois grandes Facultés en Santé, Sciences et Société et Humanités et de l’institut de physique du globe de Paris. Rejoindre Université de Paris c’est faire le choix de l’exigence et de l’engagement au service de valeurs fortes ; celles du service public, de la rigueur scientifique et intellectuelle mais aussi de la curiosité et de l’ouverture aux autres et au monde.

Sujet :
Statistique et applications.

L’enseignement se fera au sein de l’UFR Mathématiques et Informatique. La personne recrutée devra être à même d’enseigner les Mathématiques et plus spécifiquement les Statistiques en Licence et Master, notamment l’Analyse de données en grande dimension, l’Apprentissage ou les Statistiques Mathématiques. Elle devra s’investir dans la responsabilité et la gestion du Master Ingénierie Mathématique et Biostatistique (IMB, niveaux Master 1 et 2) et du Master de Mathématiques Appliquées « Mathématiques Modélisation Apprentissage » (MMA, niveaux Master 1 et 2). Enfin, la personne recrutée sera amenée à s’impliquer dans les instances de l’UFR (Conseil d’UFR, Conseil Scientifique Local), devra endosser des responsabilités au niveau du Laboratoire ou des instances de la Faculté des Sciences de l’Université.

Postes d’enseignants-chercheurs mis au concours en 2022

Profil du candidat :
Le recrutement proposé est destiné à remplacer le départ d’un PR de l’équipe de statistique, qui est à ce jour composée de 12 membres permanents (4 en poste à l’UFR Mathématiques et Informatique et 8 à l’IUT de Paris — Rives de Seine) et de 5 membres émérites. Les candidatures pourront permettre soit de renforcer l’un des nombreux thèmes de recherche en statistique développés au sein de l’équipe (voir le site du Laboratoire), soit d’apporter une expertise nouvelle ou peu représentée. Notamment, une expertise dans le domaine des données massives et de grande dimension ainsi que des applications aux sciences du vivant seront appréciées. La personne recrutée apportera également un soutien à l’encadrement de projets de Master, ainsi qu’à l’encadrement doctoral et postdoctoral, et s’impliquera dans des réponses aux nombreux Appels à Projets.

Formation et compétences requises :
Habilitation à diriger des recherches, ou équivalence

Adresse d’emploi :
MAP5 (UMR CNRS 8145, Université de Paris)
Campus Saint-Germain des Prés
45 rue des Saints-Pères
75270 Paris cedex 06

Document attaché : 202111221706_FichePoste_PR26_MAP5.pdf

Conception d’une architecture ETL générique pour l’analyse vidéo en temps réel

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4 – 6 mois
Contact : khadija.arfaoui@univ-smb.fr
Date limite de publication : 2022-02-28

Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une nouvelle architecture pour l’acquisition, le traitement et l’analyse de données massives (Big Data). En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : de fichiers plats, de données opérationnelles, de nouveaux services internet, de différents réseaux sociaux, de nouvelles applications de l’internet des objets (IOT), en particulier les capteurs. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « Volume » de données collectées par l’entreprise, la « Variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « Vitesse » qui devrait être prise en considération. Dans ce stage nous nous intéressons à l’acquisition, le traitement et l’analyse des données vidéos en temps réel, c’est-à-dire les « video analytics » [2], [3].
Par ailleurs, autours du Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. En particulier nous trouvons ceux qui s’adressent à l’ingestion et au traitement de données produites en streaming (les vidéos), tels que : Kafka, Apache Samza, Spark Streaming, Flume, Storm et d’autres.

Sujet :
L’objectif du stage sera de développer les composants fondamentaux d’une architecture générique pour l’extraction, le traitement, le chargement (ETL) et l’analyse des vidéos de trafic routier collectées en temps réel. En particulier, l’étudiant étudiera comment optimiser la localisation de l’état des applications au sein de l’architecture de stockage utilisée par les pipelines ETL pour améliorer les performances d’analyse vidéo. L’étudiant s’appuiera sur un prototype déjà développé au sein du LISTIC qui utilise un schéma de routage dit Bloom Filter-based Routing « BFR » [4] sur un cache distribué pour la découverte des contenus. Détails supplémentaires sur l’architecture à implémenter seront définie avant le début du stage dans le cadre d’un sujet de thèse annexe.
Pour l’exécution des tâches de traitement sur les flux de vidéo collectés et le stockage des données, le candidat aura accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB.
En résumé, les résultats attendus de ce stage sont les suivants :
1. Acquérir de compétences sur les technologies Big Data dédiées au traitement de flux vidéo.
2. Implémenter l’architecture générique proposée pour l’extraction, de traitement, le chargement, et l’analyse de vidéo.
3. Validation du système avec un exemple de flux de vidéo en temps réel, en vue de détecter par exemple les matricules de voitures circulant sur la route.
4. Réaliser des tests de performance de l’architecture implémentée sur la plateforme MUST.

Références.
[1] Thibeault, J. (2020). Streaming Video Fundamentals. SMPTE Motion Imaging Journal, 129(3), 10-15. DOI: 10.5594/JMI.2020.2976257
[2] J. Jiang, G. Ananthanarayanan, P. Bodik, S. Sen, and I. Stoica. Chameleon: scalable adaptation of video analytics. In Proceedings of the 2018 Conference of the ACM Special Interest Group on Data Communication, pages 253–266, 2018.
[3] Rachuri, S. P., Bronzino, F., and Jain, S. (2021, October). Decentralized modular architecture for live video analytics at the edge. In Proceedings of the 3rd ACM Workshop on Hot Topics in Video Analytics and Intelligent Edges (pp. 13-18).
[4] Marandi, A., Braun, T., Salamatian, K. and Thomos, N., 2020, June. Network Coding-based Content Retrieval based on Bloom Filter-based Content Discovery for ICN. In ICC 2020-2020 IEEE International Conference on Communications (ICC) (pp. 1-7). IEEE.

Profil du candidat :
Connaissances en Réseau et Systèmes Distribués
Connaissances recommandées en Informatique: Linux, Python, Redis, Spark Streaming, Kafka, container (Docker et/ou Kubernetes)

Formation et compétences requises :
Étudiant en Master 2ème année ou Ingénieur 5ème année en Informatique avec comme spécialité Réseaux et systèmes distribués de préférence.

Adresse d’emploi :
Étudiant en Master 2ème année ou Ingénieur 5ème année

Document attaché : 202111221638_offre_distributed.pdf

Réplication de données basée sur l’apprentissage par renforcement dans le Cloud

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT/Université Toulouse III
Durée : 5-6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2021-12-05

Contexte :
Conception et implémentation d’une stratégie de réplication de données basée sur l’apprentissage par renforcement dans les systèmes Cloud
La popularité croissante des services et applications interconnectés (par exemple Internet des objets et les réseaux sociaux) ont conduit à la génération de gros volumes de données. Un des défis pour les applications est de pouvoir stocker et analyser ces données hétérogènes et réparties avec des coûts raisonnables d’infrastructure. Dans ce contexte, l’approche «Cloud Computing» permet de réduire considérablement ces coûts, soit en se basant sur des serveurs composés de machines à bas prix (Clouds privés), soit en louant des services auprès de fournisseurs Cloud suivant le modèle « pay-as-you-go » (Clouds publics). Pour les applications analysant ces données, les problèmes d’accès et de disponibilité de données sont très importants. Une technique bien connue pour traiter ces problèmes est la réplication de données qui consiste à stocker plusieurs copies de données, appelées répliques, sur plusieurs sites. Elle vise à : (i) augmenter la disponibilité des données, (ii) réduire la consommation de la bande passante et (iii) gérer efficacement la tolérance aux pannes [1]. De nombreuses stratégies de réplication de données ont été proposées dans les environnements cloud. Elles visent à obtenir les meilleures performances du système tout en satisfaisant un contrat de niveau de service (SLA), établi entre un fournisseur de cloud et ses locataires, i.e., les consommateurs. Principalement, un SLA comprend des objectifs de niveau de service (SLO) du locataire, par exemple, la disponibilité et la performance, qui doivent être satisfaits par le fournisseur. D’un autre coté, le fournisseur Cloud vise à maximiser son profit économique [2]. Il est alors important d’ajuster le nombre de répliques de manière dynamique afin de prendre en compte la rentabilité du fournisseur.
Afin d’assurer le dimensionnement automatique des ressources, de nombreux fournisseurs de Cloud se basent sur la réplication de données basée sur des seuils à cause de sa nature intuitive. A titre d’exemple, un seuil de temps de réponse, intégré dans le SLA, est préalablement négocié entre le fournisseur et ses locataires. Dans ce contexte, certains travaux se basent sur l’observation des valeurs de métriques afin de les comparer par la suite à des seuils fixés d’avance [1]. D’autres travaux [3] combinent l’approche des seuils avec la théorie de contrôle permettant l’obtention de seuils dynamiques en se basant sur une modélisation mathématique de la charge de travail. Enfin, certains travaux se basent sur la prédiction des valeurs de métriques tels que le score de réplication par intervalle [4] ou encore la charge de travail [5] afin de les comparer à des seuils prédéfinis. Cette prédiction s’appuie sur l’utilisation de techniques telles que les séries chronologiques ou encore sur l’exploitation du journal de requêtes afin de prédire les périodes à forte charge de travail et les données qui seront les plus populaires dans le futur [6]. En conséquence, des ressources peuvent être allouées à l’avance, par exemple la création de nouvelles répliques. Cependant, le choix des métriques à considérer et la fixation de seuils de manière efficace nécessite une intervention humaine afin de fixer le seuil pour chaque métrique et une connaissance approfondie des tendances actuelles de la charge de travail, ce qui n’est pas facile à réaliser.

Sujet :
Afin d’éviter l’intervention humaine lors de la définition des seuils, nous pourrons considérer une réplication de données basée sur l’apprentissage par renforcement [7]. Dans les algorithmes d’apprentissage par renforcement tel que le Q-learning, un agent autonome dispose d’un certain nombre d’actions possibles permettant le changement de l’état d’un environnement. Il reçoit alors une récompense (ou une pénalité) pour chacune de ses actions. Ensuite, cet agent doit mémoriser la séquence des actions qui maximise sa récompense totale. Néanmoins, cette approche nécessite une période d’apprentissage.
Seuls quelques travaux de dimensionnement automatique basés sur l’apprentissage par renforcement dans le Cloud sont dédiés à l’interrogation de bases de données relationnelles. La plupart se sont intéressé aux systèmes NoSQL [8]. Les méthodes existantes doivent alors être adaptées au contexte des bases de données relationnelles avec notamment, la prise en compte de nombreuses tâches dépendantes et des relations intermédiaires qui peuvent être stockées sur le disque.
L’objectif de ce stage est la conception d’une stratégie de réplication de données efficace basée sur l’apprentissage par renforcement. La stratégie proposée pourra s’appuyer sur un agent informatique qui pourra mémoriser certaines actions lui permettant de privilégier la création rentable (pour le fournisseur) d’une réplique d’une relation, tout en satisfaisant les objectifs des locataires. Il est donc important de proposer, puis d’implémenter via simulation [9], une stratégie de réplication permettant de répondre aux problématiques classiques telles que : (i) quelles données répliquer ? (ii) quand répliquer ces données ? (iii) où répliquer ces données mais aussi à des problématiques spécifiques aux environnements Cloud tels que (iv) déterminer le nombre de répliques nécessaires afin de satisfaire simultanément les objectifs du locataire, i.e., objectifs SLO, avec un profit économique pour le fournisseur de Cloud.
3. Mots clés
Gestion de données, Systèmes Cloud, Réplication de données, Apprentissage par renforcement, Modèle de coûts, Modèle économique, Performances.
4. Bibliographie
[1]. R. Mokadem, A. Hameurlain. A Data Replication Strategy with Tenant Performance and Provider Economic Profit Guarantees in Cloud Data Centers. Journal of Systems and Software (JSS), Elsevier, V. 159, (2020).
[2] Armbrust, M., Stoica, I., Zaharia, M., Fox, A., Grifh, R., Joseph, A.D., Katz, R., Konwinski, A., Lee, G., Patterson, D., Rabkin. A.: A view of cloud computing. Communications of the ACM. V. 53(4). pp. 50-58, (2010)
[3] H. Ghanbari, B. Simmons, M. Litoiu, G. Iszlai. Exploring alternative approaches to implement an elasticity policy. IEEE Int. Conf. on Cloud Computing (CLOUD), pp. 716–723. (2011)
[4] Li, C., Wang, Y., Chen, Y., and Luo, Y. Energy efficient fault-tolerant replica management policy with deadline and budget constraints in edge-cloud environment. Journal of Network and Computer Applications, V. 143 : pp. 152–166, (2019)
[5] Hsu, T.-Y. and Kshemkalyani, A. D. A Proactive, Cost-aware, Optimized Data Replication Strategy in Geodistributed Cloud Datastores. In Proceedings of the 12th IEEE/ACM International Conference on Utility and Cloud Computing, UCC’19, pp. 143–153, New York, NY, USA (2019)
[6] Liu, J., Shen, H., Narman, H. S., Lin, Z., and Li, Z. Popularity-aware Multi-failure Resilient and Cost-effective Replication for High Data Durability in Cloud Storage. IEEE Transactions on Parallel and Distributed Systems, V. 30 (10), pp. 2355-2369, (2018).
[7] L. Ferreira, F. Coelho, J. Pereira. Self-tunable DBMS Replication with Reinforcement Learning. Remke A., Schiavoni V. (eds) Distributed Applications and Interoperable Systems. DAIS 2020. Lecture Notes in Computer Science, V. 12135. Springer, Cham, pp. 131-145, (2020)
[8] A. Naskos, A. Gounaris, I. Konstantinou. Elton: a cloud resource scaling-out manager for nosql databases. 34th IEEE Int. Conf. on Data Engineering (ICDE), IEEE, pp.1641–1644. (2018)
[9] R.N. Calheiros, R. Ranjan, A. Beloglazov, C.A.F. De Rose, R. Buyya. CloudSim: A Toolkit for Modeling and Simulation of Cloud Computing Environments and Evaluation of Resource Provisioning Algorithms. Software: Practice and Experience. V. 41, N. 1, pp. 23-50. (2010)

Profil du candidat :
M2

Formation et compétences requises :
Connaissances en Bases de données
Programmation

Adresse d’emploi :
113 route de Narbonne, Université Paul Sabatier Toulouse 3, Toulouse

Document attaché : 202111221311_Proposition Stage_CIMI_Nov_2021.pdf