Apprentissage semi-supervisé et faiblement supervisé pour la segmentation sémantique

When:
01/02/2020 – 02/02/2020 all-day
2020-02-01T01:00:00+01:00
2020-02-02T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CEDRIC – CNAM
Durée : 6 mois
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2020-02-01

Contexte :
La compréhension de scènes est un enjeu majeur de la recherche en perception artificielle. Il s’agit non seulement d’identifier les objets imagés mais aussi de comprendre les relations qui les lient : la fracture est-elle horizontale ou verticale, les livres sont-ils rangés, le piéton traverse-t-il ? Depuis quelques années, les approches les plus efficaces de l’état de l’art reposent sur des réseaux de neurones convolutifs profonds (CNN) permettant la détection ou la segmentation d’objets d’intérêt dans les images. Toutefois, le paradigme d’apprentissage supervisé demeure le plus populaire et les modèles profonds sont ainsi gourmands en annotations. Or, l’étiquetage exhaustif des objets, voire des pixels, d’une image est un procédé d’annotation coûteux et qui nécessite souvent l’intervention d’experts (par exemple, des médecins) dont le temps est précieux. Récemment de nouvelles approches d’apprentissage dites semi-supervisée ou faiblement supervisées [Dur+17] se sont intéressées à la réduction de la quantité et de la qualité des annotations nécessaires à l’obtension des performances à l’état de l’art en reconnaissance de formes, jusqu’à se passer entièrement d’annotations [Buc+19]. L’objet de ce stage est ainsi d’étudier les approches parcimonieuses en supervision pour la compréhension d’images.

Sujet :
Il existe dans la littérature scientifique plusieurs approches de classification d’images semi-supervisées, par préentraînement non-supervisé [Car+18 ; NF16], propagation d’étiquettes [Rad+18 ; Kho+17] ou contraintes géométriques [Xie+19].

Le premier objectif de ce stage consiste à adapter les techniques de classification semi-supervisées et non-supervisées au problème de la segmentation sémantique. En effet, ces approches exploitent généralement des notions d’invariance ou d’équivariance à des objets à des transformations géométriques qu’il est possible de retrouver ou de modéliser dans le cadre de la compréhension de scènes. Par exemple, faire tourner un objet de 90° doit produire une segmentation où le masque de l’objet correspond à une même rotation du masque initial.

Le second objectif du stage est de réduire le niveau de supervision des exemples d’entraînement, c’est-à-dire d’apprendre à partir d’annotations moins fines ou incomplètes. En pratique, il est rare de pouvoir travailler sur des bases de données où les images ont été complètement annotées au niveau pixellique et il est bien souvent nécessaire de se contenter d’annotations partielles ou grossières, plus rapides à obtenir.

La mise en application des méthodes développées pourra se faire sur différentes applications déjà étudiées au sein du laboratoire : conduite de véhicules autonomes, cartographie d’images satellitaires, analyse d’images médicales ou segmentation d’images naturelles génériques.

[Buc+19] M. Bucher, T.-H. VU, M. Cord et P. Pérez, “Zero-Shot Semantic Segmentation”, in Advances in Neural Information Processing Systems 32, 2019, p. 466-477.
[Car+18] M. Caron, P. Bojanowski, A. Joulin et M. Douze, “Deep Clustering for Unsupervised Learning of Visual Features”, in The European Conference on Computer Vision (ECCV), 2018.
[Dur+17] T. Durand, T. Mordan, N. Thome et M. Cord, “WILDCAT : Weakly Supervised Learning of Deep ConvNets for Image Classification, Pointwise Localization and Segmentation”, in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[Kho+17] A. Khoreva, R. Benenson, J. Hosang, M. Hein et B. Schiele, “Simple Does It : Weakly Supervised Instance and Semantic Segmentation”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[NF16] M. Noroozi et P. Favaro, “Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles”, in Computer Vision – ECCV 2016, 2016.
[Rad+18] I. Radosavovic, P. Dollár, R. Girshick, G. Gkioxari et K. He, “Data Distillation : Towards Omni-Supervised Learning”, in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[Xie+19] Q. Xie, Z. Dai, E. Hovy, M.-T. Luong et Q. V. Le, Unsupervised Dat

Profil du candidat :
Nous recherchons un ou une candidate de niveau master 2 ou école d’ingénieur avec une spécialité en mathématiques, en informatique ou en traitement du signal.

Formation et compétences requises :
Le ou la candidate doit démontrer un certain goût pour la recherche et des bases théoriques adéquates en apprentissage automatique, apprentissage profond et traitement d’image. Une aptitude à la programmation, de préférence avec Python, est indispensable. Une première expérience avec une bibliothèque d’apprentissage profond telle que TensorFlow ou PyTorch est un plus.

Adresse d’emploi :
Laboratoire CEDRIC(EA4629) – Conservatoire National des Arts & Métiers
2, rue Conté
75003 Paris

Document attaché : sujet.pdf