Apprentissage multi-tâche pour le traitement de la parole et de la langue dans le cadre de conversat

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Linagora
Durée : 5-6 mois
Contact : jhunter@linagora.com
Date limite de publication : 2022-01-01

Contexte :
L’équipe R&D (https://labs.linagora.com/) de la société LINAGORA (http://linagora.com) développe en open-source des outils d’assistance intelligente pour entreprises, y compris l’assistant vocal LinTO (https://linto.ai/), et LinSTT (https://github.com/linto-ai/linstt-engine), un outil de reconnaissance de la parole qui est capable de transcrire sous forme textuelle un signal vocal, ce qui nous permet de produire, de manière automatique, des transcriptions de réunion. Actuellement, nous travaillons sur un gestionnaire de conversation, Conversation Manager, une plateforme qui permettra à partir d’un enregistrement complet d’une réunion d’en déduire un résumé aussi pertinent que possible. L’idée est qu’un utilisateur du Conversation Manager va pouvoir d’abord visualiser, corriger et annoter une transcription proposée par notre système et ensuite exploiter le contenu de la transcription et ses annotations pour créer un résumé de manière semi-automatique.
Pour ce faire, il est impératif que la transcription proposée à l’utilisateur, avant l’étape de correction, soit aussi correcte et facile à visualiser que possible, ce qui peut être difficile pour les transcriptions de réunion où il y a plusieurs locuteurs et où les participants ont tendance à faire des interventions longues et mal structurées d’un point de vue grammatical. Pouvoir bien associer un tour de parole à son locuteur (segmentation et regroupement en locuteurs, ou diarisation en anglais) et ajouter les marques de ponctuation qui rendent le texte plus facile à lire sont très importants pour faire des transcriptions de haute qualité.
La diarisation et la ponctuation peuvent ensuite servir à améliorer les algorithmes de résumé automatique en aidant un système à découper le contenu d’une réunion en clauses individuelles — appelés segments discursifs. Ces segments fournissent des unités sémantiques qui seront passées ensuite aux algorithmes de résumé qui jugeront quels segments sont plus centraux à la conversation et du coup, au résumé final.

Références

Bredin, H., Laurent, A. (2021) End-To-End Speaker Segmentation for Overlap-Aware Resegmentation. Proc. Interspeech 2021, 3111-3115.

Muller, P., Braud, C., Morey, M. (2019) ToNy: Contextual embeddings for accurate multilingual discourse segmentation of full documents. Proceedings of the Workshop on Discourse Relation Parsing and Treebanking 2019, 115-124.

Sujet :
Pour ce stage, le stagiaire étudiera les trois tâches – la diarisation, la ponctuation, et la segmentation discursive – en parallèle avec une approche d’apprentissage multi-tâche. L’entraînement du modèle sera fait sur des données de conversation transcrites soit en français, soit en anglais. Nous commencerons avec des modèles existants de ponctuation et segmentation qui se basent sur une architecture de transformer + bi-LSTM ainsi qu’un modèle de diarisation. La nouveauté de ce stage consistera dans (a) l’approche multi-tâche pour étudier ces trois sujets en parallèle et (b) l’usage des informations acoustiques des enregistrements de conversation et de réunion (alors que les modèles de base pour la ponctuation et la segmentation discursive sont entraînés exclusivement sur du texte).
L’encadrement du stage : Le stagiaire sera encadré par Samir Tanfous de LINAGORA, mais travaillera en collaboration avec Julie Hunter de LINAGORA et plusieurs membres du laboratoire IRIT, notamment Philippe Muller de l’équipe Melodi (NLP) et Thomas Pellegrini et Hervé Bredin de l’équipe Samova (Traitement de la parole).

Profil du candidat :
Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique et IA avec des compétences en machine learning
De l’expérience en deep learning et PyTorch serait un plus
De l’expérience en speech processing et/ou NLP serait un plus

Formation et compétences requises :
Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique et IA avec des compétences en machine learning
De l’expérience en deep learning et PyTorch serait un plus
De l’expérience en speech processing et/ou NLP serait un plus

Adresse d’emploi :
LINAGORA, soit à Paris, soit à Toulouse

3D PRIAD : 3D Printer with Intelligent Anomaly Detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ICube, Equipe MLMS, Strasbourg
Durée : 6 mois
Contact : cedric.bobenrieth@ecam-strasbourg.eu
Date limite de publication : 2022-01-01

Contexte :
À l’apogée de l’industrie 4.0, la conception de nouvelles méthodes et applications permettant un suivi et un contrôle de la production est un réel enjeu. Le projet 3D-PRIAD se concentre spécifiquement sur les problématiques liées à la production par impression 3D.

En effet, il est nécessaire qu’une imprimante 3D puisse fonctionner de manière autonome en permanence tout en assurant une production de pièces de bonnes qualités, c’est-à-dire dépourvue de quelconques défauts d’impressions.

L’équipe MLMS (Machine Learning, Modeling & Simulation) propose donc un projet combinant le deep learning à l’analyse d’images, de modèles 3D, et de données issues de multiples capteurs sensorielles (thermique, poussière, pression de l’air, etc) afin de permettre un suivi en temps réel de la qualité de l’impression et la détection automatique d’anomalies.

La mission aura lieu sur 6 mois, entre février et août 2021, et se déroulera au sein de l’équipe MLMS du laboratoire ICube.

Sujet :
Ce stage s’inscrit dans le projet 3D-PRIAD et fait suite à des travaux déjà réalisés.
Vous aurez donc à votre disposition :
1) Un début de jeux de données, constituées de vidéos d’impressions 3D provenant de 5 caméras disposée autour de l’imprimante 3D de manière à couvrir tous les angles de vues (Front, Back, Left, Right et Top) accompagnées du GCode (modèle 3D) de l’impression en question, couvrant un ensemble de défauts d’impression. Ce jeu de données est déjà labellisé.

2) Une implémentation d’un réseau de neurones type YoloV4 entraîné sur ces données pour détecter par angle de vue des défauts d’impressions.

3) Le matériel nécessaire pour l’acquisition de plus de données d’impressions (caméras, imprimante 3D, matériel d’impression)

4) Le matériel nécessaire pour l’acquisition de données ambiantes (capteurs d’humidité, de température, de pression, de présence de poussière)

L’objectif global du stage est de mettre au point un réseau de neurones capable de faire de l’analyse préventive sur les impressions 3D, c’est-à-dire être capable de déterminer à l’aide des images issues des caméras et des données issues des capteurs extérieurs (donc multimodales) qu’un défaut d’impression va se produire avant que celui-ci ne se réalise.
Pour atteindre cet objectif, ce stage peut être décomposé selon les missions suivantes :
1) Finaliser la détection automatique des défauts d’impressions à l’aide des modèles YoloV4 : La détection étant faite actuellement individuellement sur une caméra, et uniquement en prenant en compte l’image 2D ; il est nécessaire d’améliorer cette détection en utilisant en combinant les 5 vues ainsi que le modèle 3D attendu.

2) Mettre en place un modèle d’apprentissage capable de prédire si une erreur d’impression va arriver à un instant T+1 en ayant comme données d’entrée les données des capteurs + images à l’instant T. Ce modèle utilisera le modèle finaliser en (1) pour permettre un apprentissage non-supervisé. (Cœur du stage)

3) Complétez le jeu de données d’impressions 3D et créer le jeu de données de capteurs ambiants.

Notez que puisque ce stage s’inscrit dans le cadre d’un projet de recherche actuel, le point (1) pourrait être finalisé avant l’arrivée du stagiaire.
Les livrables attendus en fin de stage sont :
1) Le réseau de prédiction de défaut d’impression
2) Un document de conception (en anglais)
3) Une documentation sur l’installation et l’utilisation de la solution mise en place par le stagiaire
4) Rapport de Master
5) Soutenance de stage

Profil du candidat :
L’offre s’adresse à un étudiant en M2, ou dernière année d’école d’ingénieur avec de fortes compétences en informatiques, et notamment en Python.

Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D sont un plus.

Formation et compétences requises :
Il est nécessaire d’avoir de fortes compétences en programmation, surtout en Python.

Des connaissances sur les réseaux de neurones, le traitement et l’analyse d’images et/ou la modélisation 3D sont un plus.

Adresse d’emploi :
Strasbourg, Place de l’hôpital

Document attaché : 202111241537_Sujet stage 3DPRIAD_Master2 Recherche.pdf

Développement d’une méthode d’apprentissage profond pour la cartographie de l’occupation du sol

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2022-02-01

Contexte :
Le développement de la chaîne de traitement iota 2 (Infrastructure pour l’Occupation des sols par
Traitement Automatique Incorporant les Orfeo Toolbox Applications 1 [1] a été initié par l’UMR CESBIO
(Centre d’Etudes Spatiales de la BIOsphère, Toulouse) dans l’objectif principal d’assurer la production
opérationnelle de cartes d’occupation des sols à l’échelle nationale (France Métropolitaine) à partir de
séries temporelles d’images à haute résolution spatiale (telles que les images issues des mission Sentinel
de l’ESA), comme établi par le Centre d’Expertise Scientifique « Occupation des SOls » (CES OSO)
du Pôle Surfaces Continentales THEIA 2 . Depuis, face aux besoins des utilisateurs, qui sont très variés,
et aux contributeurs potentiels pouvant fournir des améliorations méthodologiques, iota 2 évolue vers une
plateforme puissante et flexible pour faciliter la mise en place de chaînes de traitement en télédétection
pour l’occupation du sol à grande échelle.
La composante CIRAD de l’UMR TETIS participe depuis plusieurs années aux développements de la
chaîne iota 2 , et a mis à disposition de ses utilisateurs un workflow de classification à objet (approche
OBIA) pour la production de cartes d’occupation du sol à Très Haute Résolution Spatiale (THRS), inspiré
de la chaîne Moringa 3 [2, 3], et adaptée aux contextes des paysages et systèmes agricoles tropicaux
(couverture nuageuse importante, petit parcellaire, fragmentation des paysages et hétérogénéité des
pratiques agricoles, faible disponibilité de données de référence).

Sujet :
Dans le cadres des activités du projet TOSCA PARCELLE soutenu par le Centre National d’Etudes
Spatiales (CNES), nos objectifs actuels évoluent vers l’amélioration du workflow Moringa par l’intégration
dans iota 2 de nouvelles méthodes basées sur l’apprentissage profond récemment mises au point dans
l’unité, couvrant des étapes allant des prétraitement des séries temporelles (super-résolution, interpolation
des observations nuageuses) à l’extraction de descripteurs et la classification à objet. Pour ce stage, les
activités se concentreront en particulier sur le développement dans iota 2 d’une technique
classification de séries temporelles multi-capteurs (optiques/radar) issue de l’apprentissage
profond (deep learning ) (inspirée par la méthode TWINNS [4]), pouvant être également utilisée pour
l’extraction de descripteurs pour la stratégie de classification à objet .
Les étapes principales envisagées pour la réalisation de ce stage sont :
• revue bibliographique sur les méthodes d’apprentissage profond développées au sein de l’unité
en lien avec TWINNS et prise en main de l’implémentation existante;
• production de jeux de données à partir de séries temporelles d’images de télédétection (imagerie
Sentinel-1 et -2) et des bases de données de référence disponibles, et réalisation de tests à partir
des implémentations existantes;
• prise en main de la chaîne iota 2 et des stratégies de développement collaboratifs;
• adaptation des codes sources et leurs intégration dans la chaîne iota 2 ;
• test des méthodes après intégration, évaluation des performances et comparaisons avec la
stratégie existantes (qualitatives, complexité des calculs);
• rédaction d’un rapport sur les activités menées et préparation de la soutenance.

Profil du candidat :
• Étudiant M2 ou 3ème ingénieur en Informatique ou Télédétection / Géomatique;
• bonnes compétences en programmation (Python);
• connaissance des méthodes d’apprentissage automatique (machine learning, deep learning )
et des modules Python concernés (scikit-learn, TensorFlow/Keras, PyTorch …);
• une compétence en manipulation de données géo-spatiales (raster/vecteur, GDAL/OGR,
Orfeo Toolbox, …) est souhaitée;
• goût pour la recherche, l’innovation et le travail collaboratif intra- et inter-équipe.

Formation et compétences requises :
• Étudiant M2 ou 3ème ingénieur en Informatique ou Télédétection / Géomatique;
• bonnes compétences en programmation (Python);
• connaissance des méthodes d’apprentissage automatique (machine learning, deep learning )
et des modules Python concernés (scikit-learn, TensorFlow/Keras, PyTorch …);
• une compétence en manipulation de données géo-spatiales (raster/vecteur, GDAL/OGR,
Orfeo Toolbox, …) est souhaitée;
• goût pour la recherche, l’innovation et le travail collaboratif intra- et inter-équipe.

Adresse d’emploi :
Maison de la Télédétection,
500 Rue J.-F. Breton, 34090 Montpellier, France.

Document attaché : 202111240927_stage_PARCELLE_2022.pdf

Mises à jour de bases de données graphe avec informations incomplètes

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO (Laboratoire d’Informatique Fondamentale d’
Durée : 4-6 mois
Contact : mirian@univ-orleans.fr
Date limite de publication : 2021-12-10

Contexte :
Stage dans le cadre de l’action DOING (Données Intelligentes) du GDR MADICS

Sujet :

Le but de cet stage serait de proposer une adaptation de la politique de mise à jour présentée dans [1] aux graphes d’attributs.

[1] Jacques Chabin, Mírian Halfeld Ferrari, Dominique Laurent: Consistent updating of databases with marked nulls. Knowl. Inf. Syst. 62(4): 1571-1609 (2020)

Profil du candidat :
L’ étudiant doit être intéressé par l’approfondissement de ses connaissances dans le domaine de bases de données. Niveau master

Encadrantes :
Mirian Halfeld Ferrari (LIFO, Orléans), mirian@univ-orleans.fr
Jacques Chabin (LIFO, Orléans), jacques.chabin@univ-orleans.fr

Formation et compétences requises :
Connaissances en bases de données
Bonnes bases théoriques

Adresse d’emploi :
Nous souhaitons que le stagiaire soit physiquement au LIFO, même si des périodes de télétravail peuvent être envisagées/ programmées.

Document attaché : 202111222249_UpdateGraph.pdf

Poste de Professeur des Universités en Statistique (Section 26 CNRS)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MAP5 (UMR CNRS 8145, Université de Paris)
Durée : CDI
Contact : antoine.chambaz@u-paris.fr
Date limite de publication : 2022-03-01

Contexte :
Ancrée au coeur de la capitale, Université de Paris figure parmi les établissements français et internationaux les plus prestigieux grâce à sa recherche de très haut niveau, ses formations supérieures d’excellence, son soutien à l’innovation et sa participation active à la construction de l’espace européen de la recherche et de la formation. Labellisée Idex depuis mars 2018, Université de Paris s’appuie sur ses enseignants, ses chercheurs, ses enseignants-chercheurs, ses personnels administratifs et techniques, ses étudiants, pour développer des projets scientifiques à forte valeur ajoutée, et former les hommes et les femmes dont le monde de demain a besoin. Des sciences exactes et expérimentales aux sciences humaines et sociales, en passant par la santé, Université de Paris a fait de l’interdisciplinarité un marqueur fort de son identité. Elle compte aujourd’hui 64 000 étudiants, 7 500 personnels, 138 laboratoires, répartis au sein de ses trois grandes Facultés en Santé, Sciences et Société et Humanités et de l’institut de physique du globe de Paris. Rejoindre Université de Paris c’est faire le choix de l’exigence et de l’engagement au service de valeurs fortes ; celles du service public, de la rigueur scientifique et intellectuelle mais aussi de la curiosité et de l’ouverture aux autres et au monde.

Sujet :
Statistique et applications.

L’enseignement se fera au sein de l’UFR Mathématiques et Informatique. La personne recrutée devra être à même d’enseigner les Mathématiques et plus spécifiquement les Statistiques en Licence et Master, notamment l’Analyse de données en grande dimension, l’Apprentissage ou les Statistiques Mathématiques. Elle devra s’investir dans la responsabilité et la gestion du Master Ingénierie Mathématique et Biostatistique (IMB, niveaux Master 1 et 2) et du Master de Mathématiques Appliquées « Mathématiques Modélisation Apprentissage » (MMA, niveaux Master 1 et 2). Enfin, la personne recrutée sera amenée à s’impliquer dans les instances de l’UFR (Conseil d’UFR, Conseil Scientifique Local), devra endosser des responsabilités au niveau du Laboratoire ou des instances de la Faculté des Sciences de l’Université.

Postes d’enseignants-chercheurs mis au concours en 2022

Profil du candidat :
Le recrutement proposé est destiné à remplacer le départ d’un PR de l’équipe de statistique, qui est à ce jour composée de 12 membres permanents (4 en poste à l’UFR Mathématiques et Informatique et 8 à l’IUT de Paris — Rives de Seine) et de 5 membres émérites. Les candidatures pourront permettre soit de renforcer l’un des nombreux thèmes de recherche en statistique développés au sein de l’équipe (voir le site du Laboratoire), soit d’apporter une expertise nouvelle ou peu représentée. Notamment, une expertise dans le domaine des données massives et de grande dimension ainsi que des applications aux sciences du vivant seront appréciées. La personne recrutée apportera également un soutien à l’encadrement de projets de Master, ainsi qu’à l’encadrement doctoral et postdoctoral, et s’impliquera dans des réponses aux nombreux Appels à Projets.

Formation et compétences requises :
Habilitation à diriger des recherches, ou équivalence

Adresse d’emploi :
MAP5 (UMR CNRS 8145, Université de Paris)
Campus Saint-Germain des Prés
45 rue des Saints-Pères
75270 Paris cedex 06

Document attaché : 202111221706_FichePoste_PR26_MAP5.pdf

Conception d’une architecture ETL générique pour l’analyse vidéo en temps réel

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4 – 6 mois
Contact : khadija.arfaoui@univ-smb.fr
Date limite de publication : 2022-02-28

Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une nouvelle architecture pour l’acquisition, le traitement et l’analyse de données massives (Big Data). En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : de fichiers plats, de données opérationnelles, de nouveaux services internet, de différents réseaux sociaux, de nouvelles applications de l’internet des objets (IOT), en particulier les capteurs. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « Volume » de données collectées par l’entreprise, la « Variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « Vitesse » qui devrait être prise en considération. Dans ce stage nous nous intéressons à l’acquisition, le traitement et l’analyse des données vidéos en temps réel, c’est-à-dire les « video analytics » [2], [3].
Par ailleurs, autours du Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. En particulier nous trouvons ceux qui s’adressent à l’ingestion et au traitement de données produites en streaming (les vidéos), tels que : Kafka, Apache Samza, Spark Streaming, Flume, Storm et d’autres.

Sujet :
L’objectif du stage sera de développer les composants fondamentaux d’une architecture générique pour l’extraction, le traitement, le chargement (ETL) et l’analyse des vidéos de trafic routier collectées en temps réel. En particulier, l’étudiant étudiera comment optimiser la localisation de l’état des applications au sein de l’architecture de stockage utilisée par les pipelines ETL pour améliorer les performances d’analyse vidéo. L’étudiant s’appuiera sur un prototype déjà développé au sein du LISTIC qui utilise un schéma de routage dit Bloom Filter-based Routing « BFR » [4] sur un cache distribué pour la découverte des contenus. Détails supplémentaires sur l’architecture à implémenter seront définie avant le début du stage dans le cadre d’un sujet de thèse annexe.
Pour l’exécution des tâches de traitement sur les flux de vidéo collectés et le stockage des données, le candidat aura accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB.
En résumé, les résultats attendus de ce stage sont les suivants :
1. Acquérir de compétences sur les technologies Big Data dédiées au traitement de flux vidéo.
2. Implémenter l’architecture générique proposée pour l’extraction, de traitement, le chargement, et l’analyse de vidéo.
3. Validation du système avec un exemple de flux de vidéo en temps réel, en vue de détecter par exemple les matricules de voitures circulant sur la route.
4. Réaliser des tests de performance de l’architecture implémentée sur la plateforme MUST.

Références.
[1] Thibeault, J. (2020). Streaming Video Fundamentals. SMPTE Motion Imaging Journal, 129(3), 10-15. DOI: 10.5594/JMI.2020.2976257
[2] J. Jiang, G. Ananthanarayanan, P. Bodik, S. Sen, and I. Stoica. Chameleon: scalable adaptation of video analytics. In Proceedings of the 2018 Conference of the ACM Special Interest Group on Data Communication, pages 253–266, 2018.
[3] Rachuri, S. P., Bronzino, F., and Jain, S. (2021, October). Decentralized modular architecture for live video analytics at the edge. In Proceedings of the 3rd ACM Workshop on Hot Topics in Video Analytics and Intelligent Edges (pp. 13-18).
[4] Marandi, A., Braun, T., Salamatian, K. and Thomos, N., 2020, June. Network Coding-based Content Retrieval based on Bloom Filter-based Content Discovery for ICN. In ICC 2020-2020 IEEE International Conference on Communications (ICC) (pp. 1-7). IEEE.

Profil du candidat :
Connaissances en Réseau et Systèmes Distribués
Connaissances recommandées en Informatique: Linux, Python, Redis, Spark Streaming, Kafka, container (Docker et/ou Kubernetes)

Formation et compétences requises :
Étudiant en Master 2ème année ou Ingénieur 5ème année en Informatique avec comme spécialité Réseaux et systèmes distribués de préférence.

Adresse d’emploi :
Étudiant en Master 2ème année ou Ingénieur 5ème année

Document attaché : 202111221638_offre_distributed.pdf

Réplication de données basée sur l’apprentissage par renforcement dans le Cloud

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT/Université Toulouse III
Durée : 5-6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2021-12-05

Contexte :
Conception et implémentation d’une stratégie de réplication de données basée sur l’apprentissage par renforcement dans les systèmes Cloud
La popularité croissante des services et applications interconnectés (par exemple Internet des objets et les réseaux sociaux) ont conduit à la génération de gros volumes de données. Un des défis pour les applications est de pouvoir stocker et analyser ces données hétérogènes et réparties avec des coûts raisonnables d’infrastructure. Dans ce contexte, l’approche «Cloud Computing» permet de réduire considérablement ces coûts, soit en se basant sur des serveurs composés de machines à bas prix (Clouds privés), soit en louant des services auprès de fournisseurs Cloud suivant le modèle « pay-as-you-go » (Clouds publics). Pour les applications analysant ces données, les problèmes d’accès et de disponibilité de données sont très importants. Une technique bien connue pour traiter ces problèmes est la réplication de données qui consiste à stocker plusieurs copies de données, appelées répliques, sur plusieurs sites. Elle vise à : (i) augmenter la disponibilité des données, (ii) réduire la consommation de la bande passante et (iii) gérer efficacement la tolérance aux pannes [1]. De nombreuses stratégies de réplication de données ont été proposées dans les environnements cloud. Elles visent à obtenir les meilleures performances du système tout en satisfaisant un contrat de niveau de service (SLA), établi entre un fournisseur de cloud et ses locataires, i.e., les consommateurs. Principalement, un SLA comprend des objectifs de niveau de service (SLO) du locataire, par exemple, la disponibilité et la performance, qui doivent être satisfaits par le fournisseur. D’un autre coté, le fournisseur Cloud vise à maximiser son profit économique [2]. Il est alors important d’ajuster le nombre de répliques de manière dynamique afin de prendre en compte la rentabilité du fournisseur.
Afin d’assurer le dimensionnement automatique des ressources, de nombreux fournisseurs de Cloud se basent sur la réplication de données basée sur des seuils à cause de sa nature intuitive. A titre d’exemple, un seuil de temps de réponse, intégré dans le SLA, est préalablement négocié entre le fournisseur et ses locataires. Dans ce contexte, certains travaux se basent sur l’observation des valeurs de métriques afin de les comparer par la suite à des seuils fixés d’avance [1]. D’autres travaux [3] combinent l’approche des seuils avec la théorie de contrôle permettant l’obtention de seuils dynamiques en se basant sur une modélisation mathématique de la charge de travail. Enfin, certains travaux se basent sur la prédiction des valeurs de métriques tels que le score de réplication par intervalle [4] ou encore la charge de travail [5] afin de les comparer à des seuils prédéfinis. Cette prédiction s’appuie sur l’utilisation de techniques telles que les séries chronologiques ou encore sur l’exploitation du journal de requêtes afin de prédire les périodes à forte charge de travail et les données qui seront les plus populaires dans le futur [6]. En conséquence, des ressources peuvent être allouées à l’avance, par exemple la création de nouvelles répliques. Cependant, le choix des métriques à considérer et la fixation de seuils de manière efficace nécessite une intervention humaine afin de fixer le seuil pour chaque métrique et une connaissance approfondie des tendances actuelles de la charge de travail, ce qui n’est pas facile à réaliser.

Sujet :
Afin d’éviter l’intervention humaine lors de la définition des seuils, nous pourrons considérer une réplication de données basée sur l’apprentissage par renforcement [7]. Dans les algorithmes d’apprentissage par renforcement tel que le Q-learning, un agent autonome dispose d’un certain nombre d’actions possibles permettant le changement de l’état d’un environnement. Il reçoit alors une récompense (ou une pénalité) pour chacune de ses actions. Ensuite, cet agent doit mémoriser la séquence des actions qui maximise sa récompense totale. Néanmoins, cette approche nécessite une période d’apprentissage.
Seuls quelques travaux de dimensionnement automatique basés sur l’apprentissage par renforcement dans le Cloud sont dédiés à l’interrogation de bases de données relationnelles. La plupart se sont intéressé aux systèmes NoSQL [8]. Les méthodes existantes doivent alors être adaptées au contexte des bases de données relationnelles avec notamment, la prise en compte de nombreuses tâches dépendantes et des relations intermédiaires qui peuvent être stockées sur le disque.
L’objectif de ce stage est la conception d’une stratégie de réplication de données efficace basée sur l’apprentissage par renforcement. La stratégie proposée pourra s’appuyer sur un agent informatique qui pourra mémoriser certaines actions lui permettant de privilégier la création rentable (pour le fournisseur) d’une réplique d’une relation, tout en satisfaisant les objectifs des locataires. Il est donc important de proposer, puis d’implémenter via simulation [9], une stratégie de réplication permettant de répondre aux problématiques classiques telles que : (i) quelles données répliquer ? (ii) quand répliquer ces données ? (iii) où répliquer ces données mais aussi à des problématiques spécifiques aux environnements Cloud tels que (iv) déterminer le nombre de répliques nécessaires afin de satisfaire simultanément les objectifs du locataire, i.e., objectifs SLO, avec un profit économique pour le fournisseur de Cloud.
3. Mots clés
Gestion de données, Systèmes Cloud, Réplication de données, Apprentissage par renforcement, Modèle de coûts, Modèle économique, Performances.
4. Bibliographie
[1]. R. Mokadem, A. Hameurlain. A Data Replication Strategy with Tenant Performance and Provider Economic Profit Guarantees in Cloud Data Centers. Journal of Systems and Software (JSS), Elsevier, V. 159, (2020).
[2] Armbrust, M., Stoica, I., Zaharia, M., Fox, A., Grifh, R., Joseph, A.D., Katz, R., Konwinski, A., Lee, G., Patterson, D., Rabkin. A.: A view of cloud computing. Communications of the ACM. V. 53(4). pp. 50-58, (2010)
[3] H. Ghanbari, B. Simmons, M. Litoiu, G. Iszlai. Exploring alternative approaches to implement an elasticity policy. IEEE Int. Conf. on Cloud Computing (CLOUD), pp. 716–723. (2011)
[4] Li, C., Wang, Y., Chen, Y., and Luo, Y. Energy efficient fault-tolerant replica management policy with deadline and budget constraints in edge-cloud environment. Journal of Network and Computer Applications, V. 143 : pp. 152–166, (2019)
[5] Hsu, T.-Y. and Kshemkalyani, A. D. A Proactive, Cost-aware, Optimized Data Replication Strategy in Geodistributed Cloud Datastores. In Proceedings of the 12th IEEE/ACM International Conference on Utility and Cloud Computing, UCC’19, pp. 143–153, New York, NY, USA (2019)
[6] Liu, J., Shen, H., Narman, H. S., Lin, Z., and Li, Z. Popularity-aware Multi-failure Resilient and Cost-effective Replication for High Data Durability in Cloud Storage. IEEE Transactions on Parallel and Distributed Systems, V. 30 (10), pp. 2355-2369, (2018).
[7] L. Ferreira, F. Coelho, J. Pereira. Self-tunable DBMS Replication with Reinforcement Learning. Remke A., Schiavoni V. (eds) Distributed Applications and Interoperable Systems. DAIS 2020. Lecture Notes in Computer Science, V. 12135. Springer, Cham, pp. 131-145, (2020)
[8] A. Naskos, A. Gounaris, I. Konstantinou. Elton: a cloud resource scaling-out manager for nosql databases. 34th IEEE Int. Conf. on Data Engineering (ICDE), IEEE, pp.1641–1644. (2018)
[9] R.N. Calheiros, R. Ranjan, A. Beloglazov, C.A.F. De Rose, R. Buyya. CloudSim: A Toolkit for Modeling and Simulation of Cloud Computing Environments and Evaluation of Resource Provisioning Algorithms. Software: Practice and Experience. V. 41, N. 1, pp. 23-50. (2010)

Profil du candidat :
M2

Formation et compétences requises :
Connaissances en Bases de données
Programmation

Adresse d’emploi :
113 route de Narbonne, Université Paul Sabatier Toulouse 3, Toulouse

Document attaché : 202111221311_Proposition Stage_CIMI_Nov_2021.pdf

Segmentation semi-supervisée par apprentissage profond de données IRM pédiatriques

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IMT Atlantique
Durée : 6 mois
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 2022-01-31

Contexte :
Lab

La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

Ce stage se déroulera à l’IMT Atlantique, laboratoire LaTIM (INSERM U1101), sur le campus de Brest.

Date de début : Mars 2022
Durée : 6 mois

Sujet :
Description

La paralysie périnatale du plexus brachial est une paralysie flasque du bras à la naissance, survenant le plus souvent suite à un accouchement difficile. Dans un tiers des cas, les bébés auront une récupération incomplète ou absente et présenteront des conséquences à vie. Les enfants avec paralysie du plexus brachial présentent une atteinte musculaire très précoce, dès quelques mois d’âge. Un défi est de mieux comprendre cette atteinte afin de guider les thérapies favorisant la récupération. L’objectif principal de l’étude est d’évaluer l’efficacité des injections de toxine botulique dans les muscles rotateurs internes de l’épaule dans la prévention de l’aggravation de la déformation de l’articulation gléno-humérale chez le nourrisson avec paralysie du plexus brachial.

Ce projet s’intéresse à l’analyse d’images pour la compréhension de cette pathologie chez le nourrisson. En collaboration avec le CHRU de Brest et la fondation Ildys, ce stage vise à quantifier la morphométrie des muscles des épaules au travers de l’analyse des données IRM anatomiques acquises chez 20 sujets.

La cohorte acquise dans le cadre du projet POPBtox comporte environ 20 enfants avec paralysie du plexus brachial (20 épaules saines, 20 épaules pathologiques). L’acquisition des données IRM des deux épaules pour chacun des enfants est réalisée à 12 et 18 mois. Deux types de contrastes sont acquis : T1w & DIXON (6 échos). Les défis en analyse d’images concernent principalement la variabilité de forme et d’apparence (cartilages, acquisition multicentrique, injection de toxine). Ce stage se focalise sur la mise en place d’une méthode de segmentation semi-supervisée pour l’étude des données de cette cohorte.

L’objectif du stage est contribuer à l’analyse de données IRM anatomiques pour la compréhension de la paralysie du plexus brachial chez le nourrisson:
– Segmentation semi-supervisée par apprentissage profond des muscles de l’épaule de nourrissons sur des données multicontrastes longitudinales.
– Utilisation de bases externes pédiatriques pour la phase de pré-apprentissage.
– Etude morphométrique des muscles de l’épaule pour une meilleure caractérisation de la pathologie.

Profil du candidat :
Profil
– Maîtrise en traitement d’images et/ou mathématiques appliquées
– Maitrise de Python pour le calcul scientifique (numpy) et l’apprentissage profond (PyTorch)
– Compétences requises en apprentissage et analyse d’images

Formation et compétences requises :
– Compétences en analyse d’images, programmation et apprentissage.

Adresse d’emploi :
IMT Atlantique, Brest

Document attaché : 202111221239_2022-Stage-AI4Child-Popbtox.pdf

Postdoctoral position: Federated Statistical Learning for Large-scale Biomedical Applications

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : EPIONE group – Inria Sophia Antipolis
Durée : 18 months
Contact : marco.lorenzi@inria.fr
Date limite de publication : 2022-01-31

Contexte :
The project Fed-BioMed focuses on methodological and technical advances towards the development of a novel generation of federated learning methods for the analysis of private and large-scale multi-centric biomedical data. The project has a specific focus on the efficient federation of frameworks robust to data heterogeneity and uncertainty, and tackles the following scientific challenges:

– Methodological. Extending the federated paradigm to novel scalable approaches to probabilistic modeling and prediction from siloed data.
– Technical. Developing our federated learning framework through a self-contained system that can be securely deployed across different centers and collaborators (fedbiomed.gitlabpages.inria.fr).
– Translational. Demonstrating federated learning on two applications: 1) Discovering novel genetic underpinnings of neurological and psychiatric disorders, and 2) Prediction of response to immunotherapy from the analysis of federated lung imaging data.

Sujet :
During the project the candidate will:

• Develop learning methods for federated analysis for private and distributed data;
• Deploy advanced statistical learning methods into a wide range of biomedical/clinical applications;
• Interact with INRIA researchers and engineers, and participate to the scientific life of the team;

Profil du candidat :
We look for a motivated candidate holding a PhD in a domain among computer science, biomedical engineering, and related fields.
A proven track record of publications and presentations to scientific events is required.

Formation et compétences requises :
Demonstrable experience in some of the following topics (the more the better):

– Statistics, Bayesian Modeling;
– Optimization, Distributed Computing;
– Python and PyTorch/TensorFlow;
– Biomedical Data Analysis;
– Signal Processing;

Strong communication abilities are necessary, as well as motivation in taking responsibilities (e.g. supervision, organization of scientific events).

Adresse d’emploi :
Epione team (Inria), located in the tech park of Sophia Antipolis (France).
Email: marco.lorenzi@inria.fr

Document attaché : 202111220859_job_offer-PostDoc-FedBioMED_v2.pdf

Nouvelles m éthodes de fusion spectro-spatio-temporelle d’images Sentinel-2 et Sentinel-3

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2022-02-01

Contexte :
Ce stage s’inscrit dans le cadre des activités conjointes des laboratoires LISIC (EA 4491, Calais) – plus particulièrement les activités de l’équipe SPeciFI dans l’antenne de Saint-Omer du LISIC – et LOG (UMR 8187, Wimereux) – plus particulièrement les activités de l’équipe TELHYD du LOG – autour de l’imagerie satellitaire pour l’observation marine côtière, dans le cadre de la Structure Fédérative de Recherche “Campus de la Mer” et du projet TOSCA OSYNICO financé par le CNES. En particulier, dans le cadre de ces projets initiés en 2020, le LISIC développe des méthodes à la frontière entre traitement du signal et des images et intelligence artificielle appliquées aux données satellitaires (images multi- ou hyper-spectrales). Le LOG s’intéresse à l’analyse théorique et l’observation de processus physiques afin de comprendre et prévoir leurs impacts sur l’environnement marin, d’un point de vue de la biologie ou de la biogéochimie.

Sujet :
L’observation satellitaire de notre planète connaît depuis plusieurs décennies d’importantes avancées instrumentales, avec des développements conséquents que ce soit en terme de résolution spatiale (par exemple en télédétection de la couleur de l’eau à haute résolution spatiale 10-60 m) et en terme de résolution spectrale (imagerie hyper-spectrale). Une image Multi-Spectrale (MS) ou Hyper-Spectrale (HS) consiste en un cube de données dont deux axes décrivent les variations spatiales et un axe décrit les variations spectrales. La principale différence entre une image HS et une image MS réside dans le nombre très réduit de bandes spectrales observées dans cette dernière. L’ajout de bandes spectrales dans une image HS se fait au détriment de sa résolution spatiale, qui est plus faible. Ainsi, aujourd’hui, notre planète est observée à la fois par des imageurs MS ayant une très bonne résolution spatiale mais une faible résolution spectrale et par des imageurs HS ayant une très bonne résolution spectrale mais une faible résolution spatiale (et un ensemble d’imageurs aux propriétés intermédiaires).

La fusion d’images satellitaires MS et HS permet d’améliorer les résolutions spectrale, spatiale voire temporelle de ces images d’origine. De nouvelles techniques de fusion d’images émergent constamment, faisant passer de pan-sharpening (fusion d’images panchromatiques et multi-spectrales) à la fusion spectro-spatio-temporelle de données provenant de différents capteurs et plates-formes. Cependant, l’application de la fusion d’images satellitaires dans le domaine de l’observation des environnements marins et des zones côtières reste encore limitée. Le nombre et la complexité des différentes techniques disponibles aujourd’hui peuvent être accablants, empêchant ainsi les utilisateurs d’exploiter pleinement le potentiel des produits de fusion spectro-spatio-temporelle des images tels que la fusion des images provenant de Sentinel-3 et Sentinel-2. Ainsi, plusieurs techniques de fusion de données (aussi connues sous le nom de multi-sharpening) ont été proposées ces dernières années pour créer de nouvelles images combinant la bonne résolution spatiale des image MS avec la bonne résolution spectrale des images HS [1].

Dans le cadre de ce stage, nous nous intéressons à l’observation marine côtière via les données des satellites Sentinel-2 et Sentinel-3. Les images obtenues par ces deux satellites permettent d’étudier la couleur de l’océan, c’est-à-dire la répartition spatiale et temporelle de la concentration en phytoplancton, en matière en suspension et en matière organique. Les données Sentinel-2 consistent en des cubes avec 13 bandes spectrales pour une résolution spatiale variant de 10 à 60~m en fonction des bandes, acquises tous les 5 jours environ. Les données Sentinel-3 sont des cubes avec 21 bandes spectrales pour une résolution spatiale de 300~m, acquises tous les jours. En observation marine, pour comprendre les phénomènes complexes qui se passent en milieu côtier, il est nécessaire que les données à disposition combinent :
– une bonne résolution spectrale pour mieux analyser le milieu biogéochimique (chlorophylle, particules en suspension, etc) ;
– une bonne résolution spatiale pour mieux appréhender les phénomènes de répartition de ce milieu qui sont beaucoup plus complexes en milieu côtier qu’en pleine mer ;
– une courte période d’acquisition de ces images pour repérer des phénomènes très concentrés dans le temps (blooms de phytoplanctons par exemple).
Aucune donnée satellitaire ne permet aujourd’hui de respecter ces trois contraintes.

Dans le cadre de ce stage, nous proposons de traiter conjointement les séries temporelles de données Sentinel-2 et Sentinel-3, afin de générer une nouvelle série temporelle de cubes de données obtenues par multi-sharpening, permettant d’obtenir des images avec la résolution temporelle de Sentinel-3 (une image par jour), le nombre de bandes spectrales de Sentinel-3 et la résolution spatiale de Sentinel-2. Cela permettra de mieux caractériser la couleur des eaux côtières. Les méthodes envisagées feront appel à un formalise de type apprentissage profond et étendront les derniers travaux de l’équipe à ce sujet [2-4]. Les approches seront validées par des comparaisons avec des données in situ et sur des scénarios spécifiques, co-construits avec les partenaires du LOG.

Le stage pourra être poursuivi par la préparation d’une thèse dans le domaine de la factorisation matricielle et/ou de l’apprentissage profond (sous réserve d’obtention d’un financement : ce point sera défini durant le stage).

Encadrement :
Le stage aura lieu dans la nouvelle antenne de Longuenesse du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée récemment, compte à ce jour 5 chercheurs permanents, 1 chercheur post-doctorant et 4 doctorants. Le stagaire sera encadré par Ahed Alboody, Mattthieu Puigt et Gilles Roussel qui apporteront leur expertise respective en traitement des images MS/HS et en machine learning (deep learning, factorisation matricielle, optimisation) pour l’imagerie satellitaire.

De nombreux échanges auront lieu avec le LOG, situé à Wimereux (et plus particulièrement avec Cédric Jamet et Vincent Vantrepotte). Le LOG apportera ses compétences sur la couleur de l’océan, notamment sur l’analyse des images fusionnées et leur validation. Le LOG fournira les mesures in-situ de validation et des images dans des zones côtières d’intérêt (Manche orientale, Guyane, Cambodge, Vietnam).

Ces deux laboratoires sont situés au coe{}ur du Parc naturel régional des caps et marais d’Opale, à proximité directe de Lille, de l’Angleterre, de la Belgique et de l’Europe du Nord (Amsterdam à 4h de route de Longuenesse).

Références :
[1] Laetitia Loncan, Luis B De Almeida, Jos ́e M Bioucas-Dias, Xavier Briottet, Jocelyn Chanussot, NicolasDobigeon, Sophie Fabre, Wenzhi Liao, Giorgio A Licciardi, Miguel Simoes, et al. Hyperspectral pansharpening :A review. IEEE Geoscience and remote sensing magazine, 3(3) :27–46, 2015.
[2] Ahed Alboody, Matthieu Puigt, Gilles Roussel, Vincent Vantrepotte, C ́edric Jamet, and Trung Kien Tran. Experimental comparison of multi-sharpening methods applied to Sentinel-2 MSI and Sentinel-3 OLCI images. In Proc. IEEE WHISPERS’21, 2021.
[3] Cheick Tidiani Cissé, Ahed Alboody, Matthieu Puigt, Gilles Roussel, Vincent Vantrepotte, Cédric Jamet, and Trung Kien Tran. A new deep learning method for multispectral image time series completion using hyperspectral data. submitted.
[4] Ahed Alboody, Matthieu Puigt, Gilles Roussel, Vincent Vantrepotte, Cédric Jamet, and Trung Kien Tran. Multi-scale deep learning model for spatio-spectral fusion of hyperspectral and multi-spectral remote sensing images. submitted.

Profil du candidat :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python, Tensorflow). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire) ou en deep learning sera appréciée.

Pour candidater, merci d’envoyer un courriel à {ahed.alboody, matthieu.puigt, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :*
– votre CV,
– une lettre de motivation,
– vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
– deux lettres de recommandation ou les noms et moyens de contact de deux référents académiques.

Formation et compétences requises :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python, Tensorflow). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire) ou en deep learning sera appréciée.

Adresse d’emploi :
LISIC, EILCO,
Chemin de la Malassise,
62219 Longuenesse

Document attaché : 202111211747_Stage_OSYNICO_2022.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Archives

Apprentissage multi-tâche pour le traitement de la parole et de la langue dans le cadre de conversat

3D PRIAD : 3D Printer with Intelligent Anomaly Detection

Développement d’une méthode d’apprentissage profond pour la cartographie de l’occupation du sol

Mises à jour de bases de données graphe avec informations incomplètes

Poste de Professeur des Universités en Statistique (Section 26 CNRS)

Conception d’une architecture ETL générique pour l’analyse vidéo en temps réel

Réplication de données basée sur l’apprentissage par renforcement dans le Cloud

Segmentation semi-supervisée par apprentissage profond de données IRM pédiatriques

Postdoctoral position: Federated Statistical Learning for Large-scale Biomedical Applications

Nouvelles m éthodes de fusion spectro-spatio-temporelle d’images Sentinel-2 et Sentinel-3