PostDoc: Extraction d’indices sonores dans les textes et les images, identification de concepts et recherche d’information multimodale

When:
29/01/2020 – 30/01/2020 all-day
2020-01-29T01:00:00+01:00
2020-01-30T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIRIS UMR 5205
Durée : 18 mois
Contact : veronique.eglin@insa-lyon.fr
Date limite de publication : 2020-01-29

Contexte :
Le laboratoire LIRIS recrute un postdoc de 18 mois sur la recherche d’information multimodale. Ce poste est destiné à rejoindre un programme de prématuration du CNRS SYMTESENS (SYstème MulTimodal d’Extraction de données SENSorielles hétérogènes) qui couvre des thématiques autour de l’Archéologie du paysage sensoriel, les données hétérogènes, l’analyse sensorielle multimodale, le wordspotting, les approches sémantiques de la fouille de texte, l’apprentissage automatique. Le projet vise plus largement à industrialiser la production de paysages sensoriels telle qu’elle a été réalisée jusqu’ici dans le cadre du projet Bretez (reconstruction sonore du quartier du Châtelet dans le Paris du 19ème).

Sujet :
L’objectif est de concevoir et mettre au point une méthodologie de recherche d’information (de la méthode au moteur de recherche) dans les documents numérisés des archives (textes imprimés OCRisés ou non, textes manuscrits numérisés de faible qualité) autour des périodes 18ème-19ème siècle relatives à la ville de Paris. Le framework d’interrogation sera fondé sur la construction d’un dictionnaire terminologique conçu selon des techniques de word-embedding basées sur une modélisation du langage et des modèles attentionnels incorporant le contexte. L’objectif est de proposer une solution de recherche par le contenu en créant une véritable interaction texte/image (dans un espace de représentation joint liant les mots dans leur représentation textuelle et image) qui permettra une interrogation par requête au vocabulaire ouvert.

Profil du candidat :
Savoirs : indexation et classification d’images, reconnaissance de formes, techniques d’apprentissage, recherche d’information par le contenu, word-spotting, word-embedding (BERT ou ELMO)
Savoir-faire : maîtrise des environnements de développement, en particulier de la programmation C++ et usage de la libraire OpenCV, utilisation de librairies de deep-learning (Pytorch ou Tensorflow), réalisation de prototype fonctionnel
Savoir être : aisance dans le cadre d’un travail de groupe pluridisciplinaire, ouverture et communication avec des spécialistes des sciences humaines et sociales, autonomie et capacité à prendre des initiatives

Formation et compétences requises :
Formation: doctorat en informatique

Pré-requis: maîtrise de techniques de recherche d’information multimodale, de vision par ordinateur, d’apprentissage automatique, des bonnes notions des outils de TAL

Compétences: maîtrise des environnements de développement, en particulier de la programmation C++ et usage de la libraire OpenCV, utilisation de librairies de deep-learning (Pytorch ou Tensorflow), réalisation de prototype fonctionnel

Adresse d’emploi :
Laboratoire LIRIS UMR 5205
INSA Lyon, Bâtiment Joseph Fourier,
Campus de la Doua
20 avenue Albert Einstein
69621 Villeurbanne Cedex

Document attaché : AnnoncePostDoc2020.pdf