Modèles multimodaux profonds pour faciliter la narration audio-visuelle

When:
01/03/2018 – 02/03/2018 all-day
2018-03-01T01:00:00+01:00
2018-03-02T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : EURECOM
Durée : 3 ans
Contact : benoit.huet@eurecom.fr
Date limite de publication : 2018-03-01

Contexte :
Cette thèse est financée par le projet européen MeMAD H2020: www.memad.eu. MeMAD est synonyme de méthodes de gestion des données audiovisuelles et vise à développer des méthodes automatiques de gestion, d’accès et de publication des contenus numériques préexistants et produits à l’origine, de manière efficace et précise dans les industries créatives, en particulier dans la télédiffusion et les services de médias a la demande. Le «contenu numérique» contient la partie audio-visuelle ainsi que divers textes «auxiliaires» tels que des légendes, des descriptions dans différentes langues et des hyperliens vers des contenus connexes. Plus spécifiquement, MeMAD vise à développer des méthodes et des modèles pour produire des informations audiovisuelles numériques enrichies dans plusieurs langues et pour différents contextes d’utilisation et publics, et à industrialiser ces résultats avec des scenarios démontrables. Ces objectifs seront mis en œuvre à travers un certain nombre de work-packages et de différents cas d’utilisation à l’échelle du projet qui serviront également de moyens supplémentaires pour mesurer notre succès dans la réalisation des objectifs et des impacts attendus.

Sujet :
L’objectif global de ce programme de recherche est de développer de nouvelles méthodes et outils pour la narration numérique de documents audio-visuels. À cette fin, une meilleure compréhension scientifique de l’analyse multimodale du contenu des médias, des liens et de leur consommation sera développée. Ce programme de thèse aborde plus spécifiquement les sujets suivants:
• Combiner les meilleures techniques disponibles pour l’analyse, l’apprentissage automatique et l’édition de descriptions textuelles, pour industrialiser le processus de narration numérique et réutiliser les médias existants comme ressources nouvelles par
les producteurs et les consommateurs de médias.
• Développer des techniques de pointe pour analyser le contenu audiovisuel (y compris le texte), afin que les données multimodales puissent être largement décrites. Les descriptions extraites serviront à structurer et à annoter sémantiquement des archives de données audiovisuelles importantes et à mieux comprendre leur contenu et leur évolution.
• Étudier et mettre en œuvre des approches de segmentation
temporelle qui prennent en compte le contexte et le contenu afin de définir de façon précise et localisée (temporellement et éventuellement spatialement) la fragmentation sémantique des documents audiovisuels
• Étudier et évaluer les méthodes automatiques de détection des moments clés et d’identification des hyperliens pertinents dans les contenus audiovisuels dans le contexte du projet et dans les campagnes d’évaluations comparatives internationales.

Profil du candidat :
Motive et travailleur, vous recherche un environment international de qualite pour effectuer une these de doctorat a l’intersection de thematiques suivantes: Intelligence Artificielle, Reseaux Profonds, Vision par Ordinateur et Multimedia.

Formation et compétences requises :
* Niveau académique/diplôme : Master avec mention
* Domaine/spécialité : Informatique
* Technologies : Apprentissage Automatique et Profond, Vision par Ordinateur, Intelligence Artificielle
* Langues: Français et Anglais

Adresse d’emploi :
EURECOM
Campus Sophia Tech
06904 Sophia Antipolis,
France

Document attaché : PhD_DS_BH_022018_US_V1.pdf