Réseaux Profonds Multimodaux pour l’analyse et la classification de documents audio-visuels

When:

30/06/2017 – 01/07/2017 all-day

2017-06-30T02:00:00+02:00

2017-07-01T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : EURECOM/ORKIS
Durée : 3 ans
Contact : secretariat@eurecom.fr
Date limite de publication : 2017-06-30

Contexte :
Cette thèse s’inscrit dans le cadre du développement de fonctionnalités nouvelles pour une plateforme d’indexation, de recherche et de liage d’informations multimodales. L’étude s’intéresse à l’utilisation de méthodes dites d’apprentissage profond pour l’analyse et la structuration de documents audio-visuels, principalement à la vidéo, mais d’autres documents textuels (articles, rapport, etc..) et visuels (images, visages, logos) pourront aussi être traités. L’objectif étant de permettre l’analyse automatique de documents audio-visuels pour en extraire le contenu à des fins d’indexation et pour la création de liens sémantiques entre documents. La thèse se concentrera sur les aspects d’analyse vidéo, de fusion multimodale et de construction automatique d’index à partir de ces données. Les travaux construiront de nouveaux modèles multimodaux en s’appuyant d’abord sur les architectures les plus récentes de Réseaux Neuronaux profonds, puis en les étendant afin de repousser l’état de l’art.

Sujet :
Cette thèse a trois principaux objectifs:
• développer des techniques d’analyse du contenu audio-visuel (texte inclus), de façon à pouvoir catégoriser les données multimodales, en adaptant et améliorant les modèles à base de Réseaux Profonds. Cette catégorisation servira à structurer et annoter sémantiquement les collections et mieux comprendre leur contenu et leur évolution.
• étudier et mettre en place des approches de segmentations temporelles prenant en compte le contexte et le contenu afin de définir de façon précise et localisée (temporellement et éventuellement spatialement) le découpage sémantique des documents audio-visuels
• élaborer et valider des méthodes automatiques pour mettre en relation des contenus audio-visuels partageants des concepts sémantiques communs construisant sur les approches d’analyse et de segmentations précédemment développées.

Profil du candidat :
Interessé par l’apprentissage machine et profond.
Possedant des connaissances en analyse d’image et/ou données multimodales.
Aime la programmation.
Curieux et méthodique.

Formation et compétences requises :
Niveau académique/diplôme : Master avec mention
• Domaine/spécialité : Informatique
• Technologies : Apprentissage Automatique, Modèles Probabilistes, Programmation
• Langues: Français (Requis) et Anglais

Adresse d’emploi :
Sophia Antipolis (06) / Aix en Provence (13)

Document attaché : phd_ds_bh_may2017_fr_v2.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Réseaux Profonds Multimodaux pour l’analyse et la classification de documents audio-visuels