
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire AMAP, Montpellier
Durée : 4 à 6 mois
Contact : marc.chaumont@lirmm.fr
Date limite de publication : 2022-01-29
Contexte :
Identifier et dénombrer des arbres de manière automatique à partir d’images RGB satellitaires/drones, et plus encore en zones de forêts naturelles, est un vrai challenge. Les variétés, l’âge de la plantation, l’état phytosanitaire, la densité impliquent en effet une grande variabilité dans le contenu des images ce qui rend la détection automatique difficile, même par deep learning.
Sujet :
Objet d’étude :
a) Synthèse de scènes 3D contenant des arbres (l’architecture est réaliste) ressemblant à une photo aérienne prise par un drone (i.e. génération d’un DOE – Design of Experiences).
b) Apprentissage d’un réseau de neurones de type Faster-RCNN [Ren et al. 2021 – Faster-RCNN] ou Yolo [YOLOV5], [Ge et al. 2021 – YOLOX] dédié à la détection d’arbres à partir des images de synthèse.
c) Transfert de l’apprentissage pour que le réseau de neurones soit capable de réaliser des détections dans des images réelles. Il y a de nombreuses solutions pour cette « adaptation de domaine ».
Problématique :
Dans le cadre de ce stage, nous souhaitons vérifier que l’utilisation d’images de synthèse peut, in fine, améliorer les performances d’un algorithme de détection dans des images réelles.
Descriptif complet ici :
http://www.lirmm.fr/~chaumont/download/Stage_M1_M2_2022_DeepLearning-Arbre-AMAP-LIRMM.pdf
Profil du candidat :
Elève Master 2 ou Master 1 ou Ingénieur : traitement d’images et signal/télédétection/bioinformatique
Formation et compétences requises :
– Maitrise d’un langage de programmation de bas niveau (ex: C++),
– Maîtrise d’un langage de programmation de script (ex. Python),
– Expérience en apprentissage profond (TensorFlow ou Pytorch),
– Connaissances en traitement d’images,
– Aptitude au travail en interdisciplinarité
– Prise d’initiative et bon relationnel,
– Anglais scientifique courant
Adresse d’emploi :
UMR Amap – CIRAD Montpellier
Parc Scientifique Agropolis,
2196 Bd de la Lironde,
34980 Montferrier-sur-Lez
http://amap.cirad.fr/fr/index.php
Document attaché : 202111250903_Stage_M1_M2_2022_DeepLearning-Arbre-AMAP-LIRMM.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Institut FEMTO-ST
Durée : 5 à 6 mois
Contact : zeina.almasry@femto-st.fr
Date limite de publication : 2022-01-29
Contexte :
Le matériau VO2 présente une transition métal-isolant réversible proche de la température ambiante (60-70◦C). Une telle transition se manifeste par des variations significatives (4 à 5 ordres de grandeur) de ses propriétés électroniques notamment. Afin d’optimiser cette transition, une collecte de données (mesures de résistivité électrique en fonction de la température) est nécessaire. La collecte de données est parfois une tâche coûteuse en termes de temps et de ressources, et en particulier dans la préparation des expérimentations. Pour pallier à ce problème, ce projet vise à développer un simulateur basé sur des modèles probabilistes pour identifier les paramètres pertinents à la réalisation de ces expérimentations.
Sujet :
Développement attendus :
— Analyse des besoins et écriture d’un cahier des charges ;
— Appropriation des méthodes probabilistes pour les mettre en oeuvre dans la
réalisation du simulateur ;
— Faire des expérimentations sur la transition du film VO2 ;
— Identification des paramètres clés ;
— Réalisation et validation du simulateur.
Profil du candidat :
Master 2 en probabilités et statistique ou dernière année en école d’ingénieurs.
Formation et compétences requises :
Master 2 en probabilités et statistique ou dernière année en école d’ingénieurs.
Adresse d’emploi :
24 Rue Alain Savary, 25000 Besançon
Document attaché : 202111251048_OffredeStage.pdf
Offre en lien avec l’Action/le Réseau : MACLEAN/– — –
Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : dino.ienco@inrae.fr
Date limite de publication : 2022-01-31
Contexte :
A l’heure actuelle, une pléthore de missions satellitaires recueille en permanence des données de télédétection décrivant la surface de la Terre selon diverses modalités (par exemple, SAR ou optique) et à différentes résolutions spatiales et temporelles. Par conséquent, une même zone d’étude peut être couverte par des informations hétérogènes et multimodales. Ces informations sont d’une importance capitale pour surveiller les phénomènes spatio-temporels et produire des cartes d’occupation des sols afin de faciliter une agriculture durable, le suivi de l’artificialisation et les décisions de politique publique. Ces dernières années, la communauté des chercheurs en télédétection a porté son attention sur l’utilisation d’approches fondées sur l’apprentissage profond (ou deep-learning). Ces approches permettent d’intégrer des acquisitions de capteurs complémentaires disponibles sur la même zone d’étude [1], dans le but d’exploiter l’interaction entre des sources ayant différents contenus spectraux et spatiaux. L’objectif est d’améliorer la cartographie d’occupation du sol en tirant parti de toutes les sources d’imagerie disponibles.
Une tâche particulièrement intéressante pour la communauté de télédétection est l’augmentation de la résolution spatiale des images satellitaires à travers un processus dit de super-résolution [2]. Ce processus permet d’améliorer la résolution spatiale d’une image pour faciliter des analyses expertes ainsi que pour la classification supervisée ou la segmentation sémantique d’imagerie satellitaire [3]. Aujourd’hui, pour accomplir cette tâche, les méthodes de deep-learning de type Réseau Génératif Adverse (Generative Adversarial Networks, GAN) [2] ou d’autres approches basées sur des erreurs de reconstruction [4] sont de plus en plus utilisées du fait que leurs performances s’avèrent très intéressantes pour améliorer la résolution spatiale initiale des images satellitaires.
[1] D. Hong, L. Gao, N. Yokoya, J. Yao, J. Chanussot, Q. Du, B. Zhang: More Diverse Means Better: Multimodal Deep Learning Meets Remote-Sensing Imagery Classification. IEEE Trans. Geosci. Remote. Sens. 59(5): 4340-4354 (2021).
[2] D. Guo, Y. Xia, L. Xu, W. Li, X. Luo: Remote sensing image super-resolution using cascade generative adversarial nets. Neurocomputing 443: 117-130 (2021)
[3] X. Chen, Z. Li, J. Jiang, Z. Han, S. Deng, Z. Li, T. Fang, H. Huo, Q. Li, M. Liu: Adaptive Effective Receptive Field Convolution for Semantic Segmentation of VHR Remote Sensing Images. IEEE Trans. Geosci. Remote. Sens. 59(4): 3532-3546 (2021)
[4] B. Huang, B. He, L. Wu, Z. Guo: Deep Residual Dual-Attention Network for Super-Resolution Reconstruction of Remote Sensing Images. Remote. Sens. 13(14): 2784 (2021)
Sujet :
L’objectif du stage est de caractériser le potentiel de la super-résolution des images optiques Sentinel-2 (imagerie satellitaires multispectrales – 13 bandes spectrales couvrent du visible au proche/moyen visible – à 10m de résolution spatiale) à partir d’images optiques très haute résolution Spot-6/7 (imagerie satellitaires multispectrales – 1 bande panchromatique plus 4 bandes spectrales Rouge, Bleu, Vert et Proche Infrarouge – à 1,5m panchromatic et 6m multispectrales) pour la classification d’images au pixel.
En particulier, la mission de la personne recrutée seront:
Une étude bibliographique des méthodes à état de l’art en apprentissage profond, dans le domaine de la télédétection, pour la tâche de super-résolution spatiale;
La construction d’un jeu de données d’images Sentinel-2 et Spot-6/7;
Le choix de deux méthodes de super-résolution complémentaires, leur implémentation et leur application sur le jeu de données précédemment constitué;
L’évaluation des résultats des méthodes implémentées et leur comparaison en utilisant des métriques d’estimation de la qualité des images reconstruites;
L’évaluation des résultats obtenus avec les méthodes de super-résolution implémentées dans le contexte d’une application de classification supervisée d’images satellitaires sur une tâche de cartographie d’occupation du sol et/ou classification de la surface artificialisée.
Profil du candidat :
– Master en informatique ou un autre domaine des mathématiques appliquées, ou Diplôme d’Ingénieur.
– Connaissance requise du langage python, avec une première expérience de TensorFlow, Keras ou Pytorch.
– Compétences en traitement des signaux ou des images.
– Connaissance et expérience dans l’analyse de données de télédétection est un plus.
– Bon niveau en anglais (lecture).
Formation et compétences requises :
– Master en informatique ou un autre domaine des mathématiques appliquées, ou Diplôme d’Ingénieur.
– Connaissance requise du langage python, avec une première expérience de TensorFlow, Keras ou Pytorch.
– Compétences en traitement des signaux ou des images.
– Connaissance et expérience dans l’analyse de données de télédétection est un plus.
– Bon niveau en anglais (lecture).
Adresse d’emploi :
UMR TETIS,
500, Rue Jean François Breton
34090 Montpellier
Document attaché : 202111270922_Sujet_Stage.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IMT Atlantique
Durée : 6 mois
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 2022-01-31
Contexte :
Lab
La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.
Ce stage se déroulera à l’IMT Atlantique, laboratoire LaTIM (INSERM U1101), sur le campus de Brest.
Date de début : Mars 2022
Durée : 6 mois
Sujet :
Description
La paralysie périnatale du plexus brachial est une paralysie flasque du bras à la naissance, survenant le plus souvent suite à un accouchement difficile. Dans un tiers des cas, les bébés auront une récupération incomplète ou absente et présenteront des conséquences à vie. Les enfants avec paralysie du plexus brachial présentent une atteinte musculaire très précoce, dès quelques mois d’âge. Un défi est de mieux comprendre cette atteinte afin de guider les thérapies favorisant la récupération. L’objectif principal de l’étude est d’évaluer l’efficacité des injections de toxine botulique dans les muscles rotateurs internes de l’épaule dans la prévention de l’aggravation de la déformation de l’articulation gléno-humérale chez le nourrisson avec paralysie du plexus brachial.
Ce projet s’intéresse à l’analyse d’images pour la compréhension de cette pathologie chez le nourrisson. En collaboration avec le CHRU de Brest et la fondation Ildys, ce stage vise à quantifier la morphométrie des muscles des épaules au travers de l’analyse des données IRM anatomiques acquises chez 20 sujets.
La cohorte acquise dans le cadre du projet POPBtox comporte environ 20 enfants avec paralysie du plexus brachial (20 épaules saines, 20 épaules pathologiques). L’acquisition des données IRM des deux épaules pour chacun des enfants est réalisée à 12 et 18 mois. Deux types de contrastes sont acquis : T1w & DIXON (6 échos). Les défis en analyse d’images concernent principalement la variabilité de forme et d’apparence (cartilages, acquisition multicentrique, injection de toxine). Ce stage se focalise sur la mise en place d’une méthode de segmentation semi-supervisée pour l’étude des données de cette cohorte.
L’objectif du stage est contribuer à l’analyse de données IRM anatomiques pour la compréhension de la paralysie du plexus brachial chez le nourrisson:
– Segmentation semi-supervisée par apprentissage profond des muscles de l’épaule de nourrissons sur des données multicontrastes longitudinales.
– Utilisation de bases externes pédiatriques pour la phase de pré-apprentissage.
– Etude morphométrique des muscles de l’épaule pour une meilleure caractérisation de la pathologie.
Profil du candidat :
Profil
– Maîtrise en traitement d’images et/ou mathématiques appliquées
– Maitrise de Python pour le calcul scientifique (numpy) et l’apprentissage profond (PyTorch)
– Compétences requises en apprentissage et analyse d’images
Formation et compétences requises :
– Compétences en analyse d’images, programmation et apprentissage.
Adresse d’emploi :
IMT Atlantique, Brest
Document attaché : 202111221239_2022-Stage-AI4Child-Popbtox.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFAT Tours France
Durée : 5 mois
Contact : jyramel@univ-tours.fr
Date limite de publication : 2022-01-31
Contexte :
Ce stage est proposé dans le cadre d’un projet collaboratif mené par des membres du LIFAT (à Tours) et du LITIS (à Rouen) et visant à mieux coupler les techniques d’apprentissage profond et de reconnaissance des formes structurelles (traitement de données de type graphes, geometric deep learningn GNN, Graph Transormer).
Sujet :
Missions du stage :
Intégration d’informations structurelles dans le mécanisme d’attention des Graph Transformers ou GNN.
Dans des travaux précédents [2, 3], une première architecture GNN travaillant directement dans l’espace des graphes a été proposée. Les opérateurs de convolution et de pooling sont définis dans le domaine des graphes tout en permettant l’utilisation d’un algorithme de rétro-propagation pendant l’étape d’apprentissage. En particulier, la convolution est remplacée par un solveur d’appariement de graphes [5] appliqué sur un sous-graphe enraciné autour de chaque nœud du graphe. L’idée est d’étudier l’utilisation d’un solveur de mise en correspondance de graphes dans l’objectif d’un mécanisme d’attention structurelle. L’objectif de ce travail serait ainsi de :
1. Etudier des méthodes alternatives de mise en place du mécanisme d’attention pour prendre mieux en compte les informations structurelles.
2. Proposer un modèle de transformer de graphes basé sur un de ces mécanismes d’attention structurel.
3. Programmer ces modèles (en Python), et les comparer à l’état de l’art sur des jeux de données standards pour différentes applications.
Code suggéré : Les lecteurs intéressés pourraient considérer le code suivant comme une base de référence: https://github.com/graphdeeplearning/graphtransformer
Profil du candidat :
• Licence/master en informatique, mathématiques appliquées, science des données, ou similaire.
• Compétences (avec expériences si possible) : réseaux neuronaux, apprentissage profond, programmation Python, analyse numérique.
Le stage se déroulera entre fevrier et septembre 2022.
Possibilité de poursuite en thèse en septembre 2022
Formation et compétences requises :
• Licence/master en informatique, mathématiques appliquées, science des données, ou similaire.
• Compétences (avec expériences si possible) : réseaux neuronaux, apprentissage profond, programmation Python, analyse numérique.
Adresse d’emploi :
Le stage aura lieu au Laboratoire d’Informatique Fondamentale et Appliquees de Tours (LIFAT, http://lifat.univ-tours.fr )
Veuillez soumettre votre CV en format pdf à: ramel@univ-tours.fr and romain.raveaux@univ-tours.fr.
Document attaché : 202111181415_LIFAT_Internship_ANR_CodeGNNen.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2022-02-01
Contexte :
Le développement de la chaîne de traitement iota 2 (Infrastructure pour l’Occupation des sols par
Traitement Automatique Incorporant les Orfeo Toolbox Applications 1 [1] a été initié par l’UMR CESBIO
(Centre d’Etudes Spatiales de la BIOsphère, Toulouse) dans l’objectif principal d’assurer la production
opérationnelle de cartes d’occupation des sols à l’échelle nationale (France Métropolitaine) à partir de
séries temporelles d’images à haute résolution spatiale (telles que les images issues des mission Sentinel
de l’ESA), comme établi par le Centre d’Expertise Scientifique « Occupation des SOls » (CES OSO)
du Pôle Surfaces Continentales THEIA 2 . Depuis, face aux besoins des utilisateurs, qui sont très variés,
et aux contributeurs potentiels pouvant fournir des améliorations méthodologiques, iota 2 évolue vers une
plateforme puissante et flexible pour faciliter la mise en place de chaînes de traitement en télédétection
pour l’occupation du sol à grande échelle.
La composante CIRAD de l’UMR TETIS participe depuis plusieurs années aux développements de la
chaîne iota 2 , et a mis à disposition de ses utilisateurs un workflow de classification à objet (approche
OBIA) pour la production de cartes d’occupation du sol à Très Haute Résolution Spatiale (THRS), inspiré
de la chaîne Moringa 3 [2, 3], et adaptée aux contextes des paysages et systèmes agricoles tropicaux
(couverture nuageuse importante, petit parcellaire, fragmentation des paysages et hétérogénéité des
pratiques agricoles, faible disponibilité de données de référence).
Sujet :
Dans le cadres des activités du projet TOSCA PARCELLE soutenu par le Centre National d’Etudes
Spatiales (CNES), nos objectifs actuels évoluent vers l’amélioration du workflow Moringa par l’intégration
dans iota 2 de nouvelles méthodes basées sur l’apprentissage profond récemment mises au point dans
l’unité, couvrant des étapes allant des prétraitement des séries temporelles (super-résolution, interpolation
des observations nuageuses) à l’extraction de descripteurs et la classification à objet. Pour ce stage, les
activités se concentreront en particulier sur le développement dans iota 2 d’une technique
classification de séries temporelles multi-capteurs (optiques/radar) issue de l’apprentissage
profond (deep learning ) (inspirée par la méthode TWINNS [4]), pouvant être également utilisée pour
l’extraction de descripteurs pour la stratégie de classification à objet .
Les étapes principales envisagées pour la réalisation de ce stage sont :
• revue bibliographique sur les méthodes d’apprentissage profond développées au sein de l’unité
en lien avec TWINNS et prise en main de l’implémentation existante;
• production de jeux de données à partir de séries temporelles d’images de télédétection (imagerie
Sentinel-1 et -2) et des bases de données de référence disponibles, et réalisation de tests à partir
des implémentations existantes;
• prise en main de la chaîne iota 2 et des stratégies de développement collaboratifs;
• adaptation des codes sources et leurs intégration dans la chaîne iota 2 ;
• test des méthodes après intégration, évaluation des performances et comparaisons avec la
stratégie existantes (qualitatives, complexité des calculs);
• rédaction d’un rapport sur les activités menées et préparation de la soutenance.
Profil du candidat :
• Étudiant M2 ou 3ème ingénieur en Informatique ou Télédétection / Géomatique;
• bonnes compétences en programmation (Python);
• connaissance des méthodes d’apprentissage automatique (machine learning, deep learning )
et des modules Python concernés (scikit-learn, TensorFlow/Keras, PyTorch …);
• une compétence en manipulation de données géo-spatiales (raster/vecteur, GDAL/OGR,
Orfeo Toolbox, …) est souhaitée;
• goût pour la recherche, l’innovation et le travail collaboratif intra- et inter-équipe.
Formation et compétences requises :
• Étudiant M2 ou 3ème ingénieur en Informatique ou Télédétection / Géomatique;
• bonnes compétences en programmation (Python);
• connaissance des méthodes d’apprentissage automatique (machine learning, deep learning )
et des modules Python concernés (scikit-learn, TensorFlow/Keras, PyTorch …);
• une compétence en manipulation de données géo-spatiales (raster/vecteur, GDAL/OGR,
Orfeo Toolbox, …) est souhaitée;
• goût pour la recherche, l’innovation et le travail collaboratif intra- et inter-équipe.
Adresse d’emploi :
Maison de la Télédétection,
500 Rue J.-F. Breton, 34090 Montpellier, France.
Document attaché : 202111240927_stage_PARCELLE_2022.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS (Rouen)
Durée : 6 mois
Contact : jerome.lapuyade-lahorgue@univ-rouen.fr
Date limite de publication : 2022-02-01
Contexte :
Un auto-encodeur variationnel est un type de réseau de neurones utilisé généralement pour la reconstruction de données et ainsi extraire les caractéristiques principales des données. Celui-ci prend en entrée un vecteur ou matrice de données x, l’encode sous forme d’un vecteur z de caractéristiques et décode la sortie à partir de z. Cette sortie doit être la plus fidèle possible à l’entrée. Les caractéristiques obtenues sont des valeurs évoluant dans un espace de dimension plus faible que celle des données brutes à analyser. Ainsi, un auto-encodeur peut être considéré comme un algorithme de réduction de dimension.
Sujet :
L’objectif principal du projet est de proposer des distributions a priori pour les caractéristiques alternatives à la distribution normale habituellement utilisée. Ces lois statistiques seront des distributions sur variétés différentielles. Les variétés différentielles pourront être représentées, via leur discrétisation, comme des graphes dans lesquels les opérateurs classiques de gradient et laplacien, ainsi que la notion de géodésique peuvent être étendus. Les auto-encodeurs ainsi implémentés pourront également être utilisés dans les réseaux multitâches actuellement d´enveloppés dans notre équipe et appliqués pour la classification de cancers et la prédiction de l’évolution d’un cancer après un traitement à partir des images TDM/TEP ou IRM.
Profil du candidat :
L’étudiant(e) devra être à l’aise en programmation avec le langage Python. Il/elle devra apprécier la démarche scientifique, le travail en équipe. Une bonne culture dans le domaine de l’apprentissage machine et/ou de l’imagerie sera appréciée.
Formation et compétences requises :
Étudiant(e) en dernière année de Master en Informatique, Science des Données, Traitement et Analyse d’Images.
Compétences en analyse statistique, apprentissage machine, programmation python.
Adresse d’emploi :
LITIS, Université de Rouen, 76800 Saint-Étienne-du-Rouvray
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2022-02-01
Contexte :
Ce stage s’inscrit dans le cadre des activités conjointes des laboratoires LISIC (EA 4491, Calais) – plus particulièrement les activités de l’équipe SPeciFI dans l’antenne de Saint-Omer du LISIC – et LOG (UMR 8187, Wimereux) – plus particulièrement les activités de l’équipe TELHYD du LOG – autour de l’imagerie satellitaire pour l’observation marine côtière, dans le cadre de la Structure Fédérative de Recherche “Campus de la Mer” et du projet TOSCA OSYNICO financé par le CNES. En particulier, dans le cadre de ces projets initiés en 2020, le LISIC développe des méthodes à la frontière entre traitement du signal et des images et intelligence artificielle appliquées aux données satellitaires (images multi- ou hyper-spectrales). Le LOG s’intéresse à l’analyse théorique et l’observation de processus physiques afin de comprendre et prévoir leurs impacts sur l’environnement marin, d’un point de vue de la biologie ou de la biogéochimie.
Sujet :
L’observation satellitaire de notre planète connaît depuis plusieurs décennies d’importantes avancées instrumentales, avec des développements conséquents que ce soit en terme de résolution spatiale (par exemple en télédétection de la couleur de l’eau à haute résolution spatiale 10-60 m) et en terme de résolution spectrale (imagerie hyper-spectrale). Une image Multi-Spectrale (MS) ou Hyper-Spectrale (HS) consiste en un cube de données dont deux axes décrivent les variations spatiales et un axe décrit les variations spectrales. La principale différence entre une image HS et une image MS réside dans le nombre très réduit de bandes spectrales observées dans cette dernière. L’ajout de bandes spectrales dans une image HS se fait au détriment de sa résolution spatiale, qui est plus faible. Ainsi, aujourd’hui, notre planète est observée à la fois par des imageurs MS ayant une très bonne résolution spatiale mais une faible résolution spectrale et par des imageurs HS ayant une très bonne résolution spectrale mais une faible résolution spatiale (et un ensemble d’imageurs aux propriétés intermédiaires).
La fusion d’images satellitaires MS et HS permet d’améliorer les résolutions spectrale, spatiale voire temporelle de ces images d’origine. De nouvelles techniques de fusion d’images émergent constamment, faisant passer de pan-sharpening (fusion d’images panchromatiques et multi-spectrales) à la fusion spectro-spatio-temporelle de données provenant de différents capteurs et plates-formes. Cependant, l’application de la fusion d’images satellitaires dans le domaine de l’observation des environnements marins et des zones côtières reste encore limitée. Le nombre et la complexité des différentes techniques disponibles aujourd’hui peuvent être accablants, empêchant ainsi les utilisateurs d’exploiter pleinement le potentiel des produits de fusion spectro-spatio-temporelle des images tels que la fusion des images provenant de Sentinel-3 et Sentinel-2. Ainsi, plusieurs techniques de fusion de données (aussi connues sous le nom de multi-sharpening) ont été proposées ces dernières années pour créer de nouvelles images combinant la bonne résolution spatiale des image MS avec la bonne résolution spectrale des images HS [1].
Dans le cadre de ce stage, nous nous intéressons à l’observation marine côtière via les données des satellites Sentinel-2 et Sentinel-3. Les images obtenues par ces deux satellites permettent d’étudier la couleur de l’océan, c’est-à-dire la répartition spatiale et temporelle de la concentration en phytoplancton, en matière en suspension et en matière organique. Les données Sentinel-2 consistent en des cubes avec 13 bandes spectrales pour une résolution spatiale variant de 10 à 60~m en fonction des bandes, acquises tous les 5 jours environ. Les données Sentinel-3 sont des cubes avec 21 bandes spectrales pour une résolution spatiale de 300~m, acquises tous les jours. En observation marine, pour comprendre les phénomènes complexes qui se passent en milieu côtier, il est nécessaire que les données à disposition combinent :
– une bonne résolution spectrale pour mieux analyser le milieu biogéochimique (chlorophylle, particules en suspension, etc) ;
– une bonne résolution spatiale pour mieux appréhender les phénomènes de répartition de ce milieu qui sont beaucoup plus complexes en milieu côtier qu’en pleine mer ;
– une courte période d’acquisition de ces images pour repérer des phénomènes très concentrés dans le temps (blooms de phytoplanctons par exemple).
Aucune donnée satellitaire ne permet aujourd’hui de respecter ces trois contraintes.
Dans le cadre de ce stage, nous proposons de traiter conjointement les séries temporelles de données Sentinel-2 et Sentinel-3, afin de générer une nouvelle série temporelle de cubes de données obtenues par multi-sharpening, permettant d’obtenir des images avec la résolution temporelle de Sentinel-3 (une image par jour), le nombre de bandes spectrales de Sentinel-3 et la résolution spatiale de Sentinel-2. Cela permettra de mieux caractériser la couleur des eaux côtières. Les méthodes envisagées feront appel à un formalise de type apprentissage profond et étendront les derniers travaux de l’équipe à ce sujet [2-4]. Les approches seront validées par des comparaisons avec des données in situ et sur des scénarios spécifiques, co-construits avec les partenaires du LOG.
Le stage pourra être poursuivi par la préparation d’une thèse dans le domaine de la factorisation matricielle et/ou de l’apprentissage profond (sous réserve d’obtention d’un financement : ce point sera défini durant le stage).
Encadrement :
Le stage aura lieu dans la nouvelle antenne de Longuenesse du LISIC, dédiée actuellement à l’imagerie hyperspectrale. Cette antenne, créée récemment, compte à ce jour 5 chercheurs permanents, 1 chercheur post-doctorant et 4 doctorants. Le stagaire sera encadré par Ahed Alboody, Mattthieu Puigt et Gilles Roussel qui apporteront leur expertise respective en traitement des images MS/HS et en machine learning (deep learning, factorisation matricielle, optimisation) pour l’imagerie satellitaire.
De nombreux échanges auront lieu avec le LOG, situé à Wimereux (et plus particulièrement avec Cédric Jamet et Vincent Vantrepotte). Le LOG apportera ses compétences sur la couleur de l’océan, notamment sur l’analyse des images fusionnées et leur validation. Le LOG fournira les mesures in-situ de validation et des images dans des zones côtières d’intérêt (Manche orientale, Guyane, Cambodge, Vietnam).
Ces deux laboratoires sont situés au coe{}ur du Parc naturel régional des caps et marais d’Opale, à proximité directe de Lille, de l’Angleterre, de la Belgique et de l’Europe du Nord (Amsterdam à 4h de route de Longuenesse).
Références :
[1] Laetitia Loncan, Luis B De Almeida, Jos ́e M Bioucas-Dias, Xavier Briottet, Jocelyn Chanussot, NicolasDobigeon, Sophie Fabre, Wenzhi Liao, Giorgio A Licciardi, Miguel Simoes, et al. Hyperspectral pansharpening :A review. IEEE Geoscience and remote sensing magazine, 3(3) :27–46, 2015.
[2] Ahed Alboody, Matthieu Puigt, Gilles Roussel, Vincent Vantrepotte, C ́edric Jamet, and Trung Kien Tran. Experimental comparison of multi-sharpening methods applied to Sentinel-2 MSI and Sentinel-3 OLCI images. In Proc. IEEE WHISPERS’21, 2021.
[3] Cheick Tidiani Cissé, Ahed Alboody, Matthieu Puigt, Gilles Roussel, Vincent Vantrepotte, Cédric Jamet, and Trung Kien Tran. A new deep learning method for multispectral image time series completion using hyperspectral data. submitted.
[4] Ahed Alboody, Matthieu Puigt, Gilles Roussel, Vincent Vantrepotte, Cédric Jamet, and Trung Kien Tran. Multi-scale deep learning model for spatio-spectral fusion of hyperspectral and multi-spectral remote sensing images. submitted.
Profil du candidat :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python, Tensorflow). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire) ou en deep learning sera appréciée.
Pour candidater, merci d’envoyer un courriel à {ahed.alboody, matthieu.puigt, gilles.roussel} [at] univ-littoral.fr en y annexant les documents pouvant supporter votre candidature :*
– votre CV,
– une lettre de motivation,
– vos relevés de notes de Licence 3, Master 1, Master 2 (si ces dernières sont disponibles) ou d’Ecole d’Ingénieurs (première à troisième année),
– deux lettres de recommandation ou les noms et moyens de contact de deux référents académiques.
Formation et compétences requises :
Issu(e) d’une filière scientifique en sciences de données (traitement du signal et des images, informatique avec une dominante en intelligence artificielle/apprentissage/machine learning, mathématiques appliquées), vous êtes curieux(se) et très à l’aise en programmation (Matlab, Python, Tensorflow). Vous lisez et parlez avec aisance l’anglais courant. Bien que non-obligatoire, une première expérience en factorisation de données (matrices ou tenseurs, séparation de sources, apprentissage de dictionnaire) ou en deep learning sera appréciée.
Adresse d’emploi :
LISIC, EILCO,
Chemin de la Malassise,
62219 Longuenesse
Document attaché : 202111211747_Stage_OSYNICO_2022.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire ICube / Université de Strasbourg
Durée : 5 à 6 mois
Contact : stella@unistra.fr
Date limite de publication : 2022-02-01
Contexte :
Les systèmes autonomes intelligents dits à “boîte noire”, qui reposent sur des algorithmes d’apprentissage comme les réseaux de neurones profonds, deviennent omniprésents dans notre paysage quotidien. L’exigence d’un meilleur encadrement de ces algorithmes devient un enjeu sociétal, et requiert le développement de techniques permettant de comprendre leur fonctionnement ou d’expliquer leurs décisions. Ce stage s’inscrit dans le cadre du projet DEEPISH (Deep lEarning ExPlainabilIty through Symbolic approacHes), qui a pour objectif de proposer un modèle reposant sur des techniques de raisonnement symbolique (graphes de connaissances et règles), permettant d’expliquer les décisions de systèmes basés sur un apprentissage profond. Le domaine d’application considéré est le diagnostic médical.
Différentes approches ont été proposées pour développer l’explicabilité des modèles profonds. Parmi les plus populaires, on trouve les techniques de visualisation permettant d’identifier, dans le cadre de la reconnaissance d’objets dans des images, les portions de celles-ci ayant permis au modèle de faire sa prédiction (Wang et al., 2020). Bien qu’intéressants, ces modèles sont limités lorsque les objets recherchés sur l’image sont trop complexes pour être appréciés à l’œil nu par des experts humains, par exemple dans le cas de détection de lésions subtiles dans des mammographies (Oren et al., 2020).
Nous envisageons une approche multi-modale qui permettrait d’identifier les facteurs de confusion dans les données. En effet, dans le domaine médical, de nombreuses sources de données peuvent apporter des éléments permettant d’appuyer ou de rejeter un diagnostic : rapports textuels, bilans sanguins, données génétiques, etc. On peut alors concevoir un système, qui, lorsqu’une lésion non détectable par un expert humain est caractérisée, pourrait fournir d’autres éléments factuels appuyant sa prédiction : si le patient est une femme et que la patiente possède le marqueur génétique xxx alors il est probable à n% qu’un traitement soit nécessaire.
Sujet :
Il sera d’abord nécessaire, pour alimenter le système de raisonnement, de commencer par construire des graphes de connaissances à partir de données textuelles issues des données multi-modales (coupes histologiques et rapports histologiques) disponibles, afin d’en extraire des concepts qui seront utilisés par le système de raisonnement. L’extraction d’informations à partir de textes nécessite d’extraire des triplets comprenant un sujet, une relation et un objet (Hohenecker et al., 2020, Solawetz & Larson, 2021). Ces graphes de connaissances seront ensuite enrichis par des connaissances extraites automatiquement à partir d’articles scientifiques disponibles dans le domaine public.
On pourra ensuite considérer que le modèle profond utilisé n’aura pas d’autre utilité que d’extraire des faits à partir de données complexes (ce qu’aucun système à base de règle n’est capable de faire), qui viendront compléter la connaissance organisée extraite des données textuelles. Ainsi, dans un deuxième temps, il faudra étudier différents types d’approches permettant de générer des règles logiques de façon autonome, comme les approches neuro- symboliques (Garcez et al., 2019 ; Ciravegna et al., 2021), ou les systèmes de classeurs (Learning Classifier Systems) (Orhand et al., 2021).
Références
Ciravegna, G., Barbiero, P., Giannini, F., Gori, M., Lió, P., Maggini, M., & Melacci, S. (2021). Logic Explained Networks. arXiv preprint arXiv:2108.05149.
Garcez, A. D. A., Gori, M., Lamb, L. C., Serafini, L., Spranger, M., & Tran, S. N. (2019). Neural- symbolic computing: An effective methodology for principled integration of machine learning and reasoning. arXiv preprint arXiv:1905.06088.
Hohenecker, P., Mtumbuka, F., Kocijan, V., & Lukasiewicz, T. (2020). Systematic Comparison of Neural Architectures and Training Approaches for Open Information Extraction. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 8554‐8565.
Oren, O, Gersh, B. J. and Bhatt, D. L., “Artificial intelligence in medical imaging: switching from radiographic pathological data to clinically meaningful endpoints,” The Lancet Digital Health, vol. 2, no. 9, pp. e486–e488, Sep. 2020, doi: 10.1016/S2589-7500(20)30160-6.
Orhand, R., Jeannin-Girardon, A., Parrend, P. and, Collet, P., “Explainability and Performance of Anticipatory Learning Classifier Systems in Non-Deterministic Environments”, Genetic and Evolutionary Computation Conference (GECCO), Lille, France, juillet 2021
Solawetz, J., & Larson, S. (2021). LSOIE : A Large-Scale Dataset for Supervised Open Information Extraction. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 2595‐2600.
Wang et al., “Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2020
Profil du candidat :
Le stage requiert un réel intérêt pour les méthodes d’intelligence artificielle :
– IA symbolique : modélisation de connaissances et raisonnement logique (graphes de connaissances et règles),
– apprentissage machine et réseaux de neurones profonds.
Formation et compétences requises :
L’étudiant·e en M2 informatique ou de niveau équivalent, devra avoir une spécialisation en intelligence artificielle (“deep learning”, modélisation de connaissances, raisonnement symbolique).
Il ou elle devra maîtriser le langage Python, être capable de manipuler des bibliothèques de TAL (spaCy, stanza, flair), et des réseaux de neurones profonds, afin d’être autonome pour l’implémentation.
Adresse d’emploi :
Laboratoire ICube / Université de Strasbourg
Lieu : Pole API (illkirch)
Document attaché : 202112021138_sujet stage M2 2022.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : Inria Lyon
Durée : 4 – 6 mois
Contact : thomas.guyet@inria.fr
Date limite de publication : 2022-02-01
Contexte :
**Supervising environment**
The project is proposed to contribute to the chair AI-RACLES funded by Inria-APHP-CS. Inria is the French national institute for digital science. APHP is the greater Paris university Hospital. And Central Supelec (CS) is a prestigious engineering school. AI-RACLES aims at developing artificial intelligence techniques to better exploit the APHP data lake to improve healthcare system and practices, especially for fragile patients.
The internship is proposed by two chair holders of AI-RACLES (Thomas Guyet and Pr. Etienne Audureau) and it will be supervised by:
* Thomas Guyet, Inria, Lyon thomas.guyet@inria.fr
* Pr. Etienne Audureau, APHP/UPEC, CEpiA (Clinical Epidemiology and Ageing), CHU Henri Mondor, etienne.audureau@aphp.fr
* Romain Tavenard, Univ. Rennes/LETG, romain.tavenard@univ-rennes2.fr
There will be opportunities for a funded PhD position after the internship.
**Context**
The APHP data lake is a huge Electronic Health Records (EHR) repository of the patients being admitted in one of the hospitals located in the greatest Paris. The database contains information about patient visits, including the care and drugs delivered along each of their visit (with their timestamps). For example, the APHP identified a cohort of more than 20,000 patients hospitalized during the Covid-19 crisis. A dataset was thus created from information on their condition and the care they received. This information constitutes their care pathway.
The main objective of the chair AI-RACLES is to develop new artificial intelligence techniques to analyze this data lake in order to address health questions. The context of this internship is to investigate how to support the evaluation of health care pathways. The notion of health care pathways denotes the sequence of cares of a patient being cured for a given disease. Quality assessment aims to identify the key characteristics of pathways which may likely leads to a positive outcome for the patient. For example, in the case of the Covid-19 crisis, it is interesting to identify the care strategies that would prevent patients from requiring intensive cares.
The first step to achieve this objective is to describe the actual care pathways. The APHP data lake gives us the opportunity to describe objectively the care pathways of patients from historical data. This internship aims to contribute to identifying the care pathways through the unsupervised or semi-supervised machine learning techniques.
Sujet :
The proposed research direction is the use of a powerful unsupervised machine learning technique called tensor factorization (or tensor decomposition).
In the context of EHR data analysis, tensor is seen as a three-dimensional tensor whose dimensions are the patient identifier, the time and the medical events (procedures, labtests, drugs delivered. The decomposition of two dimensional tensors allow the identification of typical patient profiles (the medical events per patients), which are called phenotypes. A care pathway is then represented by the sequence of the phenotypes.
The problem of tensor decomposition is an old statistical problem for which statistical approaches have been proposed since the early years of the past century. But in recent years, this problem is renewed on the light of machine learning, and neural networks. Several recent neural networks architecture have been proposed. They proved the feasibility of the approach to decompose efficiently large and complex tensors. In parallel, the interest of phenotyping from EHR data has also been highlighted in the biomedical literature.
In this internship, we would like to investigate the notion of temporal phenotypes, and temporal phenotyping. Contrary to a phenotype that gives a combination of medical events at one time instant, a temporal phenotype describes a temporal arrangement of medical events. It is thus more expressive and may be useful to identify short-term procedures that make the care pathways.
A similar objective is targeted by Emonet et al. with Temporal Analysis of Motif Mixtures (TAMM). The problem of identifying temporal phenotypes (topic models) is addressed by a non-parametric Bayesian model fitted using Gibbs sampling. One of the limitation of the proposal is the slowness and resources consumption of the solving technique, and a rigid model (modifying the model requires deriving a new sampler).
A starting point of the internship will be to adapt the model of TAMM to solve it using machine learning techniques and to evaluate it (from the efficiency and accuracy points of view). Then, the implemented model will be applied to extract temporal patient phenotypes from the APHP Covid-19 cohort data and contribute to 1) describing Covid-19 patients, possibly by criticality group, and 2) describing hospitalizations by conditions (comparison of new and historical ICUs). A secondary objective is to investigate the possibility of using these models to create discriminant temporal phenotypes, i.e. phenotypes that would occur more likely in a group of patients than in the others.
Profil du candidat :
* You are enthusiastic about research, you love to understand in depth the problems and to find them elegant solutions.
* You have an strong background in math and computer science (Python for machine learning environment).
* You are interested in artificial intelligence and, more precisely, in machine learning, optimization techniques, data analysis, …
* You have interest in the field of health and to contribute to the development of solutions that may help clinicians or epidemiologists.
* You speak and write English and/or French.
Formation et compétences requises :
* You are student in a Master 2 in computer science, data science or statistics, or student in a engineering school.
Adresse d’emploi :
* Location: Lyon (or possibly Paris). The intern will be hosted at Inria Lyon located on the Doua scientific campus, at Villeurbanne. Some meeting will be organized in Paris.
* Data access is secured
* application by mail with CV, motivation letter, transcripts
* Start date between february to may (4 to 6 months)
Document attaché : 202111151133_sujet_APHP.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Plateforme de bioinformatique BiRD (Institut du Th
Durée : 6 mois
Contact : alban.gaignard@univ-nantes.fr
Date limite de publication : 2022-02-02
Contexte :
Inflammatory Bowel Diseases (IBDs) are multifactorial chronic conditions of the gastrointestinal tract, of which the most common are Crohn’s disease (CD) and Ulcerative Colitis (UC). These disorders are notably associated with the environment, the patient’s genetics and its gut microbiota [1]. The microbiota is known to play an important role in host’s health by protecting them from pathogens [2], helping digest and absorb nutrients [3], and shaping the immune system [4]. Although a core group of essential bacteria is shared across individuals [5], the gut microbiota contains individual-specific strains stable over time, which makes it harder to identify bacteria linked to the host, the environment, or a given pathology.
Today, various ’omics’ technologies are available to measure molecules at all levels of cellular organisation in complex microbial communities. DNA sequences can be determined (metagenomics), transcripts levels can be measured (metatranscriptomics), metabolites can be detected (metametabolomics), and proteins can be catalogued and quantified (metaproteomics). Computational biology advances enabling the description of environmental genomes and their expression in situ have accompanied these new technologies [6]. The field of environmental omics (or meta-omics) has drastically expanded our knowledge about microbial communities [7], prompting a change of paradigm in which not a single species is considered but rather a complete microbial community. The importance of ecological interactions among microorganisms is also now recognized, and they need to be included in a global framework to further develop models of community eco-systems functioning [8].
Sujet :
*Challenges*
Multi-omics technologies in gut microbiome research provide a global view of changes in genetic, metabolic and biochemical processes, and have recently been applied to the gut microbiota in the context of IBD [9]. These data have provided a first comprehensive view of functional dysbiosis in the gut microbiome during IBD activity and first steps towards a functional understanding of host–microbe interactions during disease pathogenesis. However, major challenges remain to systematically integrate microbial, biochemical, and host factors in order to identify systems-level biomarkers, from genes to communities, of IBD onset and progression.
*Objectives *
The aim of this project is i) to develop a workflow for the graph-based transformation and integration of meta-omics data (metagenomic and metatranscriptomic), and ii) feed an integrated knowledge graph connecting longitudinal genomic observations as well as phenotypes and environmental context. Through a catalogue of semantic queries, this knowledge graph will empower biologists to more easily assemble genome co-activity networks towards identifying novel systems-level (from genes to communities) IBD biomarkers and patient stratification strategies.
Profil du candidat :
We are looking for an enthusiastic bioinformatician or data scientist, with excellent programming skills, and real interest in Life Science applications.
Formation et compétences requises :
M2 in bioinformatics, computer or data sciences
Adresse d’emploi :
The recruited data scientist will work in the context of an interdisciplinary collaboration, involving health, computational research teams and the Bioinformatics core facility, under the supervision of Audrey Bihouée (Engineer at BiRD facility), Samuel Chaffron (CNRS Researcher at LS2N) and Alban Gaignard (CNRS Research Engineer at Institut du Thorax). The developments resulting from this internship will constitute a framework for a generalisation of the model to other pathologies.
Document attaché : 202201121643_Stage M2 – IBD – KG.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : ERIC Lyon
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2022-02-02
Contexte :
Ce stage se déroulera dans le cadre de l’ANR BI4people ( https://eric.univ-lyon2.fr/bi4people/ ). L’utilisation des technologies de la Business Intelligence (BI) telles que les entrepôts de données et les techniques d’analyses en ligne (OLAP) restent complexes et réservées à des spécialistes. L’objet de cette ANR est de simplifier ces outils afin de les rendre accessible au plus grand nombre (petites entreprises, associations, etc.).
Sujet :
Dans ce contexte, il est important de permettre aux utilisateurs de pouvoir partager leurs données et leurs analyses. Ces aspects collaboratifs induisent des problèmes de confidentialité de données. Plus généralement, on peut considérer des scenarios où la confidentialité des données ou des requêtes doit être garantie. On pourrait également imaginer que des utilisateurs agissent de manière malveillante afin d’altérer les calculs et de compromettre le résultat des requêtes.
Quelques solutions sont proposées dans la littérature [1, 2]. Les plus abouties en termes de sécurité sont basées sur des primitives cryptographiques récentes, appelées FHE (Fully Homomorphic Encryption). Ces solutions n’ont à ce jour qu’un intérêt théorique, puisque les FHE existantes ne sont pas encore suffisamment performantes [3]. Pour obtenir des solutions utilisables en pratique, il est donc nécessaire de dégrader la sécurité ou le type de requêtes prises en charge. Des hypothèses sur les utilisateur·trices peuvent aussi être introduites, comme par exemple la proportion d’utilisateurs malveillants, le fait qu’ils soient coalisés ou non, etc.
L’objectif de ce stage est d’explorer, d’évaluer et de comparer les solutions existantes. Suite à cette analyse de l’état de l’art, il s’agira de proposer des solutions dédiées à la problématique et aux contraintes spécifiques du projet BI4 people.
Profil du candidat :
Bac + 5 en informatique
Formation et compétences requises :
Compétences avancées (niveau M2) en informatique. Notions de cryptographie ou de sécurité informatique fortement souhaitées.
Adresse d’emploi :
Laboratoire ERIC
Université Lyon 2
5 avenue Pierre Mendès France
69676 Bron Cedex
Document attaché : 202111121307_StageBI4people4.pdf
Offre en lien avec l’Action/le Réseau : MADONA/– — –
Laboratoire/Entreprise : LIST3N/UTT
Durée : 6 mois
Contact : malika.kharouf@utt.fr
Date limite de publication : 2022-02-10
Contexte :
Collaboration de recherche entre deux des axes du laboratoire LIST3N.
Sujet :
Le but de ce stage est de développer une méthode d’apprentissage exploitant les données provenant de capteurs afin de détecter des anomalies dans le cadre d’une maintenance prédictive.
L’algorithme à développer sera basé sur de récents résultats de la théorie des matrices aléatoires.
Profil du candidat :
Etudiant en M2 mathématiques appliquées ou dernière année d’école d’ingénieurs, avec une spécialisation dans la science des données et/ou en apprentissage statistique.
Formation et compétences requises :
Le(la) candidat(e) devra avoir des connaissances académiques en apprentissage statistique, en modélisations numériques et en programmation (Python, Matlab, …).
Adresse d’emploi :
Université de technologie de Troyes
12 Rue Marie Curie, 10300 Troyes
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Lip6 – Sorbonne Université
Durée : 6 mois
Contact : esteban.bautista-ruiz@lip6.fr
Date limite de publication : 2022-02-15
Contexte :
Dans les réseaux sociaux, il est crucial de mesurer l’importance des utilisateurs. Par exemple, les entreprises peuvent utiliser ces informations pour identifier les influenceurs les mieux adaptés pour faire la publicité d’un produit. Il peut également être utilisé par des algorithmes d’apprentissage automatique pour se concentrer uniquement sur les utilisateurs qui créent des tendances. Ce stage vise à développer des algorithmes capables de mesurer l’influence des utilisateurs sur les réseaux sociaux massifs et dynamiques qui sont omniprésents de nos jours.
Sujet :
Nous avons récemment développé une métrique très informative (appelée Ψ-score) pour évaluer l’influence des utilisateurs sur les réseaux sociaux. Cependant, Ψ-score a encore des problèmes qui compliquent son utilisation en pratique: sa complexité de calcul empêche de l’appliquer à de grands réseaux et il ne s’adapte pas bien aux réseaux qui évoluent au cours de temps. Il est crucial de résoudre ces défis car les réseaux sociaux du monde réel sont massifs et évoluent constamment.
Par conséquent, l’ambition de ce projet est double : (i) nous visons à développer des algorithmes rapides capables de calculer le Ψ-score dans des réseaux sociaux de tailles réalistes ; et (ii) nous visons à adapter le Ψ-score afin qu’il puisse prendre en compte la dimension temporelle des réseaux sociaux du monde réel.
Pour cela, nous nous intéressons à l’utilisation de techniques d’accélération récemment utilisées dans les moteurs de recherche et l’apprentissage automatique (comme les algorithmes push et les polynômes de Chebyshev), ainsi qu’à exploiter de nouveaux concepts développés pour les réseaux temporels et le traitement du signal sur les graphes.
Profil du candidat :
Étudiants en M2 ayant une formation variée (réseaux complexes, algorithmique, théorie des graphes, traitement du signal) mais avec un fort intérêt pour l’algorithmique des graphes, la théorie et ses applications.
Formation et compétences requises :
Étudiants en M2 ayant des connaissances en théorie des graphes et algorithmique, algèbre linéaire, codage en Python et un langage compilé comme C/C++/Go/Rust.
Adresse d’emploi :
Le stagiaire fera partie des équipes Complex Networks et Network Performance Analysis du LIP6 – Sorbonne Université, situé à:
4 place Jussieu
75252 PARIS CEDEX 05, France
Document attaché : 202201201736_Fast_Algorithms_for_Influence_Measure_in_Social_Networks.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CNRS Lyon/Grenoble/Chambéry
Durée : 5 à 6 mois
Contact : vincent.miele@univ-lyon1.fr
Date limite de publication : 2022-02-15
Contexte :
Depuis plusieurs années, de nombreux acteurs de l’étude de la faune sauvage (parcs et réserves naturelles, office français de la biodiversité, chercheur.ses) ont installés des centaines de “pièges photographiques” en France, boitiers à déclenchement automatique qui sont censés photographier les animaux durant leur passage. En particulier, des dizaines de ses appareils ont été installés dans le cadre de l’observatoire ORCHAMP de la Zône Atelier Alpes, pilotée par W.Thuiller (co-encadrant). Ces matériels produisent une “avalanche” de données photographiques qu’il faut trier a posteriori : trier les images vides et identifier les espèces.
Dans le même temps, une équipe CNRS incluant des membres du LECA et du LBBE et pilotée par V.Miele (co-encadrant), s’est mobilisée pour proposer une application de vision par ordinateur qui permettrait l’identification automatique des espèces de la faune sauvage française dans les images issues de pièges photos (cf. image de renard ci-dessus).
Les dernières techniques de deep learning sont appliquées, à partir d’une banque de données de plus de 500 000 images annotées de la faune française (renard, loup, cerf, chamois,…). Un prototype d’application Tensorflow-Keras/Python est d’ores et déjà en phase de test.
Sujet :
La mise au point de la chaîne de traitement des images de l’observatoire ORCHAMP reste à mettre en œuvre, avec pour objectif la capacité à analyser end-to-end les centaines de milliers d’images de la faune arrivant en flux régulier depuis le terrain.
Le/la stagiaire s’attachera à traiter plus précisément les problématiques suivantes:
– contribuer à l’amélioration des modèles de réseaux de neurones convolutifs (utilisation de GPU sur calculateurs régionaux/nationaux) avec des propositions méthodologiques et de nouvelles images récoltées au fil du stage;
– évaluer continuellement les performances des modèles sur les nouvelles images;
– confronter les alternatives de détection d’objet (plus coûteuses en temps) vis à vis de la simple classification;
– contribuer à l’élaboration d’une chaîne de traitement “du piège photo à l’identification puis la diffusion” qui permettra la reproductibilité des analyses et la mise à disposition des résultats, en suivant les principes de la Science Ouverte (principes FAIR)
Une sortie “terrain” en montagne pour l’installation ou la maintenance des pièges photographiques peut être envisagée si l’étudiant.e s’avère intéressé.e par cet aspect.
Profil du candidat :
L’étudiant/e devra présenter de fortes compétences en machine learning pour la vision par ordinateur, en programmation Python et maîtriser parfaitement les environnements Linux.
Un intérêt pour les questions de biodiversité serait un plus (le stage permet en effet de découvrir de nombreuses problématiques relatives à la conservation de la faune sauvage en France).
Formation et compétences requises :
Ecole d’ingénieur dernière année, Master 2 en informatique/mathématiques ou bien césure.
Adresse d’emploi :
Campus UCBLyon-Villeurbanne La Doua / campus USMB Chambéry-Technolac / campus UGA Grenoble-St Martin D’hères
Les laboratoire d’Ecologie Alpine (LECA, Chambéry-Grenoble) et Biométrie et Biologie Evolutive (LBBE, Lyon) regroupent des écologues, des biologistes et des méthodologistes. En particulier, ils forment l’épicentre rhône-alpin de l’écologie des communauté, discipline dédiée à la compréhension de l’organisation et du fonctionnement des écosystèmes. Ces laboratoires sont reconnus pour l’excellence de leurs développements méthodologiques pour l’écologie.
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ETIS UMR 8051
Durée : 6 mois
Contact : maria.malek@cyu.fr
Date limite de publication : 2022-02-24
Contexte :
Nous explorons dans nos travaux actuels portant sur l’analyse des médias sociaux, la combinaison de méthodes classiques d’exploration d’opinion avec l’analyse des réseaux sociaux et son impact sur la formation et la propagation d’opinion afin de construire un modèle d’opinion cohérent.
Afin d’étudier l’impact des utilisateurs influents (nœuds influents), nous intégrons dans un premier temps plusieurs facteurs d’influence extraits du réseau dans le processus d’exploration d’opinions. Ces facteurs sont généralement calculés en utilisant différentes mesures de centralité comme le degré, la proximité, l’intermédiarité, la centralité PageRank, etc.
Nous définissons et étudions ensuite la notion de la stabilité d’opinion au sein des réseaux égocentriques autour des influenceurs et au sein des communautés détectées, notre objectif étant de détecter la modification d’opinion pour les deux types de sous-réseaux.
Nous analysons les communautés obtenues afin de comprendre les opinions émergeantes à partir de ces communautés non seulement en fonction des profils utilisateurs mais aussi en fonction d’éléments topologiques. Nous souhaitons également proposer des indicateurs concernant la stabilité des opinions et d’autres liés à leurs changements.
Sujet :
Le but de stage est de proposer et d’intégrer une méthode d’explicabilité dans les algorithmes d’analyse d’opinions afin de produire des explications émergeantes qui combinent des informations nodales (comme le profil d’utilisateur) et topologiques extraites de la structure du graphe de propagation des opinions.
En intégrant une méthode d’explicabilité adéquate, nous souhaitons rendre plus compréhensible également les résultats concernant la polarité de l’opinion trouvée au niveau des utilisateurs et au niveau des groupes. De même, le modèle doit être capable d’expliquer les changements d’opinion détectés en lien avec les informations extraites du réseau de propagation et les séquences d’actions entreprises (par exemple : tweets, retweets, réponses) menant à ce changement.
Profil du candidat :
Master 2 ou dernière année d’école d’ingénieur
Formation et compétences requises :
Bonne connaissance en Machine Learning et en programmation Python.
Adresse d’emploi :
2 Av. Adolphe Chauvin, 95300 Pontoise, bâtiment A, 5 étage étage, laboratoire ETIS.
Document attaché : 202202231431_Stage_M2_ETIS_Explicabilite_AnalyseOpinions.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : unité Statistique, Sensométrie et Chimiométrie / O
Durée : 6 mois
Contact : veronique.cariou@oniris-nantes.fr
Date limite de publication : 2022-02-25
Contexte :
Les allergies touchent 30-40% de la population mondiale. Parmi elles, la dermatite atopique est la plus fréquente et précoce. Ces allergies sont associées à un déséquilibre de la flore intestinale et à un dysfonctionnement du système immunitaire chez les nouveaux-nés. En induisant une flore optimale, les prébiotiques donnés tôt dans la vie pourraient prévenir des allergies. Le projet ANR CIMMAP (Characterising the effect of maternal prebiotic supplementation on perinatal Immune system maturation, Gut Microbiota and breast Milk compositions for Allergy Prevention in high-risk children) est un projet de recherche ANR collaboratif (voir https://www6.angers-nantes.inrae.fr/bia/Equipes-de-recherche/Allergie-ALL/Actualites/ANR-CIMMAP).
En particulier, CIMMAP explore la période périnatale chez l’enfant à risque d’allergie en se focalisant sur la mise en place du système immunitaire et du microbiote et les effets des prébiotiques sur le système immunitaire et sur le microbiote. Les données considérées dans CIMMAP sont issues dans un premier temps d’un modèle murin et dans un second temps d’un modèle humain, sur la base d’une cohorte sélectionnée à partir de l’étude PREGRALL (https://www.chu-nantes.fr/pregrall-participez-a-notre-etude-et-aidez-nous-a-prevenir-les-allergies-de-l-enfant).
Sujet :
Des travaux antérieurs sur le modèle murin ont permis de mesurer les effets d’une supplémentation en prébiotiques d’une part sur la composition du microbiote et d’autre part sur les caractéristiques du système immunitaire. L’objectif de ce stage est d’investiguer une approche holistique visant à mettre en relation ces deux blocs de données, en prenant également en compte une dimension longitudinale (plusieurs points de prélèvement effectués au cours de l’étude). Cette approche holistique repose sur un traitement de données multi-blocs (plusieurs tableaux de données, appariés sur les lignes c’est-à-dire les individus, sont analysés simultanément pour révéler la force des liens entre ces tableaux) voire un traitement de données trois voies (les tableaux de données étant cette fois appariés à la fois sur les individus et sur les variables).
En particulier deux verrous statistiques seront appréhendés.
Dimensionalité des tableaux et sparsité : dans le cadre des données de microbiote, le tableau de données présente un grand nombre de variables, avec existence d’une forte multicolinéarité. Un premier enjeu est donc de pouvoir gérer la dimensionnalité de ce tableau au regard des données d’immunologie, en particulier de manière à mesurer le lien entre ces deux tableaux et identifier un petit nombre de marqueurs du microbiote fortement liés aux caractéristiques du système immunitaire. Pour répondre à ce premier enjeu, le stage visera à étudier et mettre en œuvre des méthodes multi-blocs sparse dans un contexte non supervisé (ComDim, MB-PCA, RGCCA) et supervisé (P-ComDim, MB-PLS, MB-WCov).
Introduction de la dimension longitudinale : dans un second temps, une approche longitudinale sera investiguée pour prendre en compte simultanément les tableaux de données du microbiote prélevés à différents temps. Il s’agira en particulier d’identifier des trajectoires communes pour des groupes de marqueurs par des méthodes de décomposition tensorielle.
Profil du candidat :
Niveau Bac +5, Master II ou ingénieur, avec une formation en statistique ou biostatistique.
Formation et compétences requises :
Intérêt pour le traitement statistique de données biologiques et de santé.
Maîtrise des méthodes d’analyse multivariée dans le cadre supervisé et non supervisé.
Maîtrise du langage R.
Adresse d’emploi :
ONIRIS, Rue de la Géraudière, CS 82225, 44322 Nantes
Document attaché : 202112021708_stage_StatSC_CIMMAP_2022.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CASC4DE
Durée : 6 mois
Contact : mad@casc4de.eu
Date limite de publication : 2022-02-28
Contexte :
CASC4DE est une entreprise spécialisée dans le développement de méthodes analytiques ainsi que dans l’ingénierie de logiciels et de données. Nous développons des solutions innovantes pour relever les défis de la gestion et du traitement de grands ensembles de données analytiques en combinant des compétences interdisciplinaires dans les domaines de la biochimie, des mathématiques et des sciences des données. En outre, la société mène sa R&D dans l’esprit de la science ouverte (données F.A.I.R. si possible) et de l’open-source (logiciels libres et indépendants). CASC4DE propose également des services pour répondre aux problématiques analytiques des clients. Nous proposons des approches multi-analytiques avec un accès à des techniques avancées de Résonance Magnétique Nucléaire (19F fluor, RMN 2D, 3D) ou de Spectrométrie de Masse (FTICR MS, 2D FTMS).
Sujet :
Le fluor est un élément commun mais non métabolisé dans les organismes vivants. Il fait partie de molécules artificielles largement utilisées dans l’industrie et les produits de consommation courante. Les molécules fluorées sont extrêmement résistantes et couramment utilisées dans la synthèse de produits, elles font partie des polluants de l’environnement et sont plus particulièrement connues sous le nom de POP (polluants organiques persistants). Des normes existent pour limiter la quantité de molécules fluorées présentes dans l’environnement mais aucune technique complète n’existe pour le moment pour détecter et identifier ces polluants fluorés. L’idée du projet ANR “FLUOVIAL” est d’atteindre cet objectif en utilisant la RMN 19F.
Le projet est conçu en plusieurs phases :
– acquisition de données RMN 19F de composés fluorés connus
– application d’algorithmes spécialement conçus pour le prétraitement des données
– développement d’un algorithme d’apprentissage automatique (Random Forest) sur les spectres prétraités pour effectuer une classification par molécules
– application de l’algorithme entraîné à des composés inconnus pour détecter et identifier les molécules fluorées
Ce projet sert de base au projet IPANEMA (https://www6.paca.inrae.fr/emmah/Equipes-de-recherche/Equipe-DISCOVE/Projets-en-cours/IPANEMA) financé par l’ADEME qui vise à développer des outils permettant de mieux prévoir le devenir dans les sols des polluants perfluorés (PFAS), très utilisés dans l’industrie.
L’algorithme Random Forest (RF) a été choisi parmi la grande quantité d’algorithmes d’apprentissage automatique disponibles et applicables dans le cas présent car il a fourni de bons résultats préliminaires. La RF est un algorithme d’apprentissage supervisé, avec tous les échantillons étiquetés, basé sur de multiples arbres de décision à partir desquels une prédiction finale est faite par un vote entre chaque arbre individuel. L’algorithme développé et optimisé a donné de bons résultats sur les exemples de la base de données, atteignant plus de 90% de bonnes prédictions.
L’idée durant le stage serait d’améliorer l’outil d’apprentissage automatique développé en :
– ajoutant des outils d’analyse de la Random Forest, notamment pour la recherche et l’évaluation des critères déclenchant la décision de classification
– mettant en évidence graphiquement les zones du spectre qui ont déclenché la décision de la Random Forest
– proposant la superposition du spectre expérimental inconnu, et des spectres de référence
– effectuant éventuellement une nouvelle optimisation de l’algorithme
– permettant l’analyse sur des mélanges
Profil du candidat :
Etudiant de M2 ou cycle ingénieur portant un intérêt aux méthodes d’analyses de données automatiques.
Formation et compétences requises :
Compétences de programmation en langage Python – Familiarité avec l’environnement Jupyter.
Adresse d’emploi :
Pôle API – Boulevard Sébastien Brant – 67400 Illkirch-Graffenstaden
Contacts: mad@casc4de.eu, laura.duciel@casc4de.eu
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Unité MaIAGE, INRAE, Université Paris-Saclay
Durée : 6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2022-02-28
Contexte :
La quantité de données textuelles ne cesse d’augmenter, et c’est en particulier le cas de la publication d’articles scientifiques. Face à cette énorme quantité de données produites, de nombreuses informations et connaissances sont perdues ou ne sont simplement jamais exploitées. L’extraction d’information est le domaine de l’intelligence artificielle visant à extraire et à structurer automatiquement des informations contenues dans des grandes quantités de textes.
Aujourd’hui, quelle que soit la tâche d’extraction concernée, les approches état de l’art s’appuient sur de l’apprentissage profond (deep learning). C’est en particulier le cas pour la tâche de normalisation d’entités, dont l’objectif est de classer des mentions extraites de textes dans des classes contenues dans une référence du domaine concerné, telles que des bio-ontologies (ex : la mention “monoclonal B cells” représente un
Sujet :
Malgré un intérêt croissant de la communauté de recherche en extraction d’information, la normalisation d’entités reste un défi de taille. En domaine biologique/biomédical notamment, on observe une rareté et une dispersion des exemples d’entraînement, qui posaient jusqu’à récemment des difficultés aux approches par apprentissage. Mais depuis quelques années, des méthodes par apprentissage neuronal profond (ex : BioSyn – Sung et al., 2020 ; C-Norm – Ferré et al., 2020 ; Pattisapu et al., 2020) ont réussi à se démarquer sur certains jeux de données d’évaluation (ex : NCBI Disease Corpus, Bacteria Biotope 4, Custom CADEC).
Néanmoins, ces méthodes sont encore trop rarement évaluées sur plusieurs jeux de données distincts. Des travaux de notre équipe de recherche ont pourtant montré récemment une certaine sur-adaptation, c’est-à-dire qu’une méthode est souvent performante sur un jeu de données, sur lequel elle a été développée et publiquement évaluée, mais pas sur d’autres. Dans ce stage, nous proposons donc d’étudier la robustesse de méthodes état de l’art sur plusieurs jeux de données, et d’analyser comparativement les erreurs qui semblent encore résister aux approches neuronales profondes récentes.
Dans ce stage, les tâches suivantes seront à réaliser :
– Exécution/Implémentation de méthodes neuronales état de l’art sur des jeux de données standards utilisés pour l’évaluation (choix d’au moins 2 méthodes et 2 jeux de données) ;
– Comparaison des scores obtenus et de leur significativité ;
– Analyse et catégorisation des erreurs produites ;
– Comparaison des profils de prédictions des différentes méthodes.
Le stagiaire aura accès aux serveurs de calculs du laboratoire, ou, au besoin, à des infrastructures de calcul haute performance (ex : Lab-IA).
Les travaux effectués pourront mener à une publication.
Profil du candidat :
Autonome en programmation Python.
Connaissances en sciences du vivant/biomédical et fondamentaux en algèbre linéaire (ex : espace vectoriel, opération matricielle).
Une connaissance de la théorie derrière les réseaux de neurones et des compétences dans au moins une des libraires Python standards PyTorch/TensorFlow serait un plus.
Une expérience en traitement automatique des langues naturelles ou plus particulièrement en extraction d’information serait appréciée.
Formation et compétences requises :
Master 2 / dernière année d’école d’ingénieur en bio-informatique, informatique, mathématiques appliquées ou équivalent.
Adresse d’emploi :
Centre de recherche INRAE de Jouy-en-Josas (78)
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2022-02-28
Contexte :
Le suivi de l’état des forêts tropicales est d’importance mondiale (Herold et al. 2019). Il appelle le suivi dans la durée et sur de grandes surfaces de variables « biophysiques » de structures forestières (couvert, hauteur de canopée, biomasse épigée, …) et d’indicateurs de diversité spécifique et fonctionnelle. Le suivi du couvert arboré, notion polysémique, a fait l’objet de travaux importants, principalement basés sur les séries d’images satellitaires longues à moyenne résolution ou haute résolution spatiale (MODIS, Landsat, respectivement), Ceci a débouché sur des produits cartographiques ambitieux à des échelles pantropicales et mondiales (e.g. Avitabile et al. 2012; Hansen et al. 2013 ; Kubayashi et al. 2016). Cependant, ces produits recèlent des faiblesses de plusieurs ordres. Si celles-ci n’opèrent pas leur intérêt, tant que l’ampleur des surfaces peut permettre la compensation des imprécisions locales, elles rendent leurs utilisations hasardeuses pour des applications demandant de se focaliser sur des surfaces plus restreintes (downscaling), ou requérant un niveau de précision supérieur à celui effectif (qui n’est pas toujours explicite, d’ailleurs).
Le projet Sé2coul, a pour objectif de traduire les opportunités, offertes par les données Sentinel-1 et Sentinel-2, pour le suivi et la caractérisation des forêts, en tirant partie :
i) de la densification temporelle des séries temporelles d’images satellitaires et de leur accroissement en résolution spatiale. Ceci doit permettre d’aller bien au-delà de ce qui peut déjà être fait actuellement avec les séries HR de type « Landsat » (par exemple via le Google Earth Engine) pour corriger les effets instrumentaux dans l’optique de détection de changements francs de couvert (déforestation, feu, plantation, …), ou de détections de perturbations localisées (exploitation, chute d’arbres, …).
ii) de la facilitation de l’usage conjoint des données radar et optiques (Sentinel-1 et -2). En complément de l’optique, l’information radar en bande C (bien que probablement saturante à des niveaux assez bas de couvert et de biomasse) est sensible à la structure tridimensionnelle, et peut aider à lever des ambiguïtés dans les végétations complexes, ouvertes (par exemple pour le suivi de la dynamique des trouées, naturelles ou non), ou marquées par des variations saisonnières d’humidité (y compris du substrat).
iii) du développement de techniques d’intelligence artificielle (deep-learning) pour tirer parti des atouts des données Sentinel dans la perspective spécifique de la caractérisation biophysique des composantes ligneuses de la végétation dans des contextes tropicaux variés.
Le projet aura pour objectif de traduire ces opportunités en avancées significatives concernant l’estimation de caractéristiques fondamentales de la végétation ligneuse : (i) structure : Hauteur de canopée, LAI, etc. (ii) diversité, (iii) signature fonctionnelle saisonnière.
Sujet :
En s’appuyant sur les résultats actuels du projet, qui ont permis d’évaluer le potentiel des images Sentinel pour l’extraction de variables biophysiques sur la structure et la diversité des couverts forestiers, l’objectif de ce stage est de tester des solutions basées sur l’apprentissage profond pour : (i) s’affranchir du problème de la forte nébulosité des images disponibles en optique (Sentinel-2) en s’appuyant sur l’utilisation conjointe d’images optiques et radar; (ii) mettre en place des solutions permettant la mise en opération de la production cartographique de ces variables; (iii) poser les bases pour l’extraction d’information à valeur ajoutée (cartographie de la typologie des couverts forestiers, extraction de traits fonctionnels par analyse de séries temporelles). Le terrain d’étude en Guyane Française sera ciblé en priorité pour tester ces méthodes.
Pour cela, nous allons mobiliser en grande partie des méthodes déjà développées au sein de notre unité, concernant à la fois l’extraction de variables biophysiques et la génération de séries temporelles d’images Sentinel-2 dénuagées, avec l’objectif de les combiner opportunément et de tester la production de cartes sous différentes contraintes en termes de disponibilité d’images (e.g. nébulosité). Selon les acquis de cette phase, un deuxième objectif serait de travailler sur des séries temporelles d’images optiques dénuagées pour évaluer des premières méthodes d’extraction d’information à valeur ajoutée.
Les principales étapes envisagées pour la réalisation du stage sont :
Analyse bibliographique sur les méthodes d’apprentissage profond pour la synthèse d’images sans nuages par couplage radar/optique, et sur l’état de l’art concernant l’extraction de variables biophysiques du couvert forestier.
Mise en place du jeu de données :
Prise en main des données existantes
Téléchargement et prétraitements de série temporelle d’images Sentinel-1 et Sentinel-2
Préparation du jeu de données pour l’évaluation
Prise en main des méthodes d’apprentissage profond qui sont à mobiliser.
Mise en place de telle méthode dans le contexte de la cartographie de la typologie du couvert forestier sur la zone d’étude.
Évaluation de la méthode déployée à travers une analyse quantitative/qualitative.
Rédaction du rapport et préparation de la soutenance.
Profil du candidat :
Master II ou 3ème année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine et deep learning (TensorFlow/PyTorch, Keras, …)
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle
Formation et compétences requises :
Master II ou 3ème année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine et deep learning (TensorFlow/PyTorch, Keras, …)
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle
Adresse d’emploi :
Maison de la Télédétection, 500, rue Jean François Breton – Montpellier (34)
Document attaché : 202202071401_Fiche_Stage_M2_SE2COUL_TETIS.pdf
