Segmentation d’images fish-eye par Deep Learning pour l’analyse comportementale des deux-roues motorisés

When:
16/03/2018 – 17/03/2018 all-day
2018-03-16T01:00:00+01:00
2018-03-17T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire d’Informatique de Traitement de l’Information et des Systèmes (LITIS, NormaSTIC, FR CNRS), Rouen, France
Durée : 36 mois
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2018-03-16

Contexte :
La segmentation sémantique est de plus en plus utilisée dans les applications liées au véhicule autonome que ce soit pour la détection d’objets, la localisation et la navigation [1] [2] [3]. Ces systèmes donnent des résultats impressionnants pour des caméras perspectives classiques fixées rigidement au véhicule et minimisant ainsi les effets de roulis et de tangage. Dans le cadre des deux-roues, il n’existe quasiment aucun travail équivalent alors que cette modalité représente une large part de la mortalité routière.

Les caméras fish-eye sont très pertinentes dans le cas des deux-roues puisqu’elles permettent de toujours garder dans le champ de vue les éléments de la scène tels que la route, les obstacles proches, etc. Cependant, ceci est au détriment d’un usage direct des méthodes classiques qui ne sont pas adaptées aux distorsions et aux changements d’orientation. En effet, les réseaux de neurones convolutifs (CNN) en Deep Learning, très utilisés dans le cadre de la segmentation sémantique avec des excellents résultats sur des images classiques, reposent sur un maillage régulier qui n’est pas compatible avec les images omnidirectionnelles sphériques. Il devient donc nécessaire d’introduire une géométrie différente dans la définition du réseau de convolution, ce qui constitue le cœur même de notre sujet.

Ce thème conjoint de la géométrie et du Deep Learning devient tout particulièrement sensible dans la communauté puisqu’il concerne une vaste gamme d’applications allant des modèles 3D déformables aux graphes par exemple.

Sujet :
Cette thèse de doctorat s’intéresse à la segmentation sémantique précise et robuste d’images fish-eye (à large champ de vue) de scènes routières obtenues selon six degrés de liberté. Les distorsions de ces images ainsi que la variabilité du point vue selon les trois rotations possibles constituent les verrous scientifiques majeurs dans la réussite de cette tâche. Les approches basées sur les CNN ont démontré leur très grande efficacité pour la segmentation de scènes mais elles sont exclusivement dédiées à des caméras perspectives classiques avec une pose constante, i.e., orientées de telle façon que l’image soit verticale par exemple.

Les distorsions des images fish-eye, et plus généralement omnidirectionnelles, ne permettent pas un usage direct des CNN qui reposent sur un voisinage régulier. De même, les orientations selon les trois angles d’Euler perturbent profondément ces outils qui ne sont pas invariants aux rotations sans un apprentissage particulier. Le doctorant proposera des solutions à ces deux difficultés majeures durant cette thèse en développant des méthodes adaptées qui devront être validées sur un jeu de données significatif.

L’objectif principal est le développement d’un système de segmentation d’images stéréoscopiques fish-eye invariant à la rotation pour l’analyse de scènes routières dans l’optique du comportement et de l’analyse de situations à risque. Cette contribution technique majeure sera abordée en association avec le CEREMA (Centre d’Études et d’Expertise sur les Risques, l’Environnement, la Mobilité et l’Aménagement) qui dispose d’une moto instrumentée d’un banc de stéréovision fish-eye. Ce jeu de données pourra être mis à la disposition de la communauté pour constituer le premier benchmark de ce type.

Bibliographie :
[1] B. Zhou, A. Lapedriza, A. Khosla, A. Oliva and A. Torralba, “Places: A 10 million Image Database for Scene Recognition,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, (in press), 2018.
[2] J. Redmon, A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in IEEE International Conference on Computer Vision and Pattern Recognition, 2017.
[3] S. Wang et al. “TorontoCity: Seeing the world with a million eyes,” in IEEE International Conference on Computer Vision, 2017.

Mots-clés :
Deep Learning, Convolutional Neural Networks, Géométrie, Traitement d’image (images sphériques, fish-eye)

Profil du candidat :
Master 2 recherche et/ou un diplôme d’ingénieur en apprentissage automatique/statistique, en informatique, en traitement d’image ou en vision

Formation et compétences requises :
Compétences souhaitées en Deep Learning et/ou Computer Vision

Adresse d’emploi :
Laboratoire d’Informatique de Traitement de l’Information et des Systèmes (LITIS, NormaSTIC, FR CNRS)
Université de Rouen Normandie, Rouen, France

Contact :
Pascal Vasseur, Professeur à l’Université de Rouen Normandie (pascal.vasseur@univ-rouen.fr)
Paul Honeine, Professeur à l’Université de Rouen Normandie (paul.honeine@univ-rouen.fr)

Document attaché :