Recherche efficace de motifs spatio-temporels dans des grands cubes de données satellites

When:
30/04/2023 – 01/05/2023 all-day
2023-04-30T02:00:00+02:00
2023-05-01T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA Vannes et CLS Lille
Durée : 36 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2023-04-30

Contexte :
Contexte industriel

Depuis 2011, le Copernicus Land Monitoring Service (CLMS https://land.copernicus.eu/) fournit des produits pour la surveillance de l’état, des changements et des caractéristiques de la couverture/utilisation des terres végétalisées, non végétalisées, des variables biophysiques, des conditions de l’eau et de la cryosphère. Cette cartographie à large échelle utilisent les données d’observation à haute résolution de la terre (10 m de résolution spatiale, une acquisition toutes les semaines) gratuites et libres d’accès telles que Sentinel (1 et 2), ainsi que des données commerciales à très haute résolution spatiale (1 m de résolution spatiale, tous les ans).
Dans ce contexte, il est important de développer des algorithmes, des méthodes et procédés semi- automatiques (voire automatiques) afin de limiter au strict nécessaire le recours à des traitements humains au regard des masses de données manipulées. Des interventions humaines, même de courte durée, répétées à l’échelle de l’Europe voire du globe ont un effet majeur sur la capacité à fournit les produits Copernicus en un temps raisonnable. De plus, il est nécessaire d’optimiser les traitements informatiques pour réduire leur coût financier et énergétique. Dans ce contexte, l’unité de R&D du pôle Terre et Eau du groupe CLS cherche à concevoir des solutions (semi-)automatiques efficaces pour analyser de grands volumes de données d’observation de la Terre.
La recherche d’automatisation a donné lieu à une collaboration entre CLS et OBELIX depuis plusieurs années, afin de concevoir et déployer des solutions efficientes de cartographie automatisée large-échelle.

Contexte scientifique

Ainsi, dans le cadre d’une demande de l’Agence Européenne de l’Environnement, CLS et OBELIX ont conçu et déployé une chaîne de production originale de la cartographie des trames vertes à l’échelle continentale pour le compte du programme Copernicus. Pour faire face au volume de données à traiter (38 000 images, soit 120 To), et à la diversité des scènes étudiées, la solution développée s’est appuyée sur des algorithmes efficaces de caractérisation multi-échelle des pixels (profils d’attributs) à l’aide des hiérarchies morphologiques, et de classification semi-supervisée par une approche ensembliste de forêts aléatoires. Elle a été implantée à l’aide de composants logiciels C++ diffusés sous licence libre : TRISKELE et Broceliande. Une attention particulière est portée à l’optimisation systématique de toutes les étapes du processus, y compris l’extraction des descripteurs. Cette étape, centrale dans le processus de cartographie automatique, est souvent mise en oeuvre à l’aide des profils d’attributs calculés efficacement à l’aide des hiérarchies morphologiques.
Dans un autre contexte, l’équipe OBELIX a collaboré avec le CNES dans le cadre d’une étude R&T pour développer une solution efficace de recherche automatique par l’exemple dans des bases d’images satellites. Pour cela, elle a exploité les hiérarchies morphologiques pour calculer des histogrammes de formes (ou Pattern Spectra) qui permettent de mettre en oeuvre des algorithmes efficaces de recherche par l’exemple. La solution ainsi développée rend possible la recherche de motifs spatiaux de taille variable (et non connue a priori) dans une base de très grandes images. Contrairement aux approches populaires en vision par ordinateur basées sur l’apprentissage automatique ou profond, elle ne s’appuie pas sur un entraînement préalable d’un modèle prédictif, et fonctionne sans recourir à des données annotées. Ce travail a abouti au démonstrateur Korrigan.
Au vu de la pertinence des hiérarchies morphologiques et des outils qui en découlent (profils d’attributs, histogrammes de formes) pour élaborer des solutions efficaces d’analyse semi-automatique d’images satellites, leur extension aux séries temporelles d’images satellites a également été étudiée, au travers d’une thèse de doctorat conduite conjointement par l’équipe OBELIX, le CNES, et CLS.

Sujet :
En dépit des progrès récents en intelligence artificielle appliquée à l’observation de la Terre, illustrés par des performances toujours accrues sur des jeux de données standardisés, son utilisation dans un contexte de cartographie opérationnelle reste confrontée à différents verrous, que la thèse cherchera à lever.
En premier lieu, les approches modernes d’analyse d’image requièrent, dans leur grande majorité, de disposer au préalable d’une grande quantité d’exemples afin d’entraîner les modèles prédictifs comme les réseaux de neurones profonds. Les solutions interactives, permettant à un utilisateur de fouiller ses données afin d’en extraire les informations recherchées et d’en découvrir de nouvelles, restent peu étudiées.
De plus, l’avènement de l’apprentissage profond a amené un besoin toujours plus important en ressources in- formatiques : capacité de calcul sur CPU ou GPU, mémoire vive. La sobriété numérique est devenue aujourd’hui une question sociétale majeure, au-delà des intérêts économiques qu’elle peut procurer.
Enfin, la majorité des développements récents portent sur l’identification de motifs soit purement spatiaux (segmentation sémantique, détection d’objets) soit purement temporels (classification de séries temporelles). Les séries temporelles d’images satellites, disponibles en masse avec l’avènement de missions telles que Landsat ou Sentinel, nécessitent de porter une attention conjointe aux dimensions spatiale et temporelle.
La prise en compte de ces différents verrous s’effectuera au travers d’une problématique scientifique originale : la recherche efficace de motifs spatio-temporels dans des grands cubes de données satellites. Cette recherche, conduite de façon interactive et itérative par un utilisateur, s’appuiera sur un nombre restreint d’exemples, sur la base desquels une fouille d’un cube de données spatio-temporelles sera effectuée afin d’en extraire les motifs les plus similaires.
Bien que le paradigme de la recherche par l’exemple ou par le contenu ait été largement étudié en analyse d’image, y compris en observation de la terre, son application à des exemples spatio-temporels reste originale. Elle permettrait pourtant d’offrir de nombreux cas d’utilisation, comme par exemple l’identification d’inondations, de feux de foret, de fauchages non conformes de prairie, etc.
Ce mécanisme de fouille interactive permettra également de constituer facilement des ensembles de données de référence, qui pourront être par la suite utilisés pour entraîner des modèles IA dont la pertinence reste avérée lorsque les phénomènes étudiés peuvent être observés en amont.
Afin de mettre en oeuvre un tel mécanisme, plusieurs paradigmes peuvent être explorés, et nous souhaitons comparer l’intérêt des approches stochastiques et déterministes dans un tel contexte. Alors que les premières sont généralement basées sur un apprentissage et font aujourd’hui office de référence dans des tâches usuelles de classification (réseaux de neurones profonds), les secondes présentent l’avantage de pouvoir être implantées à l’aide d’algorithmes particulièrement efficaces, comme les hiérarchies morphologiques par exemple. Dans tous les cas, une attention particulière sera portée à l’efficience, au passage à l’échelle, et à la robustesse de la méthode en présence de peu d’exemples.

Profil du candidat :
Le candidat devra être titulaire d’un Master ou d’un Diplôme d’Ingénieur prioritairement en Informatique, ou à défaut en Traitement du Signal et des Images, ou en Mathématiques Appliquées. Il devra être capable d’aborder les différents aspects du sujet, tels que la conception et l’optimisation d’algorithmes efficaces, la mise en oeuvre de réseaux de neurones profonds au travers de frameworks existants, l’implantation et l’expérimentation dans des environnements informatiques complexes, la maîtrise des fondements scientifiques des méthodes étudiées.

Formation et compétences requises :
Les compétences suivantes sont attendues :
— excellentes compétences en algorithmique et programmation (C++, Python)
— expérience du traitement d’image et/ou de l’apprentissage profond
— intérêt marqué pour les problématiques liées à l’observation de la terre (des connaissances en télédétection
seront appréciées)
— maîtrise de l’anglais à l’oral et à l’écrit
— curiosité et rigueur scientifiques
— esprit d’analyse et de synthèse
— communication et esprit d’équipe

Adresse d’emploi :
Les travaux se dérouleront majoritairement dans les locaux de CLS à Villeneuve d’Ascq à proximité de Lille (59) avec un accompagnement de l’équipe OBELIX (UMR 6074 IRISA) à Vannes (56). L’inscription académique s’effectuera au sein de l’Université Bretagne Sud (UBS) et de l’École Doctorale MathSTIC – Bretagne Océane.
La thèse sera dirigée par Sébastien Lefèvre (Professeur, UBS) et co-encadrée par François Merciol (Maître de Conférences, UBS) et Antoine Masse (Responsable Département R&D, CLS).

Document attaché : 202303181051_CIFRE-CLS-IRISA.pdf