PostDoc Représentation des connaissances IRIT Airbus

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT
Durée : 9 mois (et plus)
Contact : hernande@irit.fr
Date limite de publication : 2021-10-15

Contexte :
Digital Design, Manufacturing and Services (DDMS) is the project that aims at transforming Airbus methods, processes and tools with the objectif of improving the strategic axes of the company: from the ability to develop a new product more quickly to its reduction of the ecological footprint. The issues of knowledge representation and sharing are at the heart of the capacities to be implemented in order to succeed in this development. In DDMS, the Modeling & Simulation department is therefore working to have the necessary foundations, in terms of methods and tools, for the knowledge representation and sharing, in relation with other Airbus entities in order to implement an industrial solution.

Sujet :
As part of the development of DDMS capabilities in 2021, the tasks that are to be taken into account are the following :
- to align different domain ontologies
- to implement a domain ontology validation mechanism, particularly through the useof shape constraints (SHACL)
- to enable the semantic integration of data (development of an Ontology Based Data Access service).
For each task, the expected activities are:
 – the application of knowledge representation to solve the problems of a pilot business application use case in the Airbus environment
 – the synthesis of a methodological approach and an architectural solution based on this case
 – a generalized framework to respond to this problem in other areas by applying the methodological principles acquired and synthesized previously.
The proposed pilot case is Flight Dynamics and Sizing, which is responsible, in conjunction with pre-projects and industrialization, for sizing the aircraft according to loads, mass, aerodynamic forces, flight controls in particular.
It is expected to continue on themes such as:
 – Automatic publication of ontology documentation
 – Managing the criticality of data in ontologies
 – Reasoning in the service of extending data sets and checking the consistency of information
 – Semantic search in data Searching for ontologies in catalogs (notably using dcat)

Profil du candidat :
Applicants are required to have a PhD in Computer Science, a strong background in semantic web technologies, ontology engineering, linked data management and query, and if possible, in ontology alignment.

Formation et compétences requises :
Fluency in written / spoken English is required too. A good publication record and strong programing skills will be a plus.

Adresse d’emploi :
Localization : Institut de Recherche en Informatique de Toulouse (IRIT) – Université Toulouse – Jean Jaurès / Maison de la Recherche, 5, allées Antonio Machado 31058 Toulouse, and Airbus (St Martin du Touch).
Duration : 9 months, starting in january 2022 – probability of renewal 9 to 12 months. Salary between 2 131 and 3 338 euros (depending on experience).
Applications will be accepted until the position is closed through the plateform https://emploi.cnrs.fr/Offres/CDD/UMR5505-CHLBOU-043/Default.aspx. Applicants should send a full Curriculum including a complete list of publications, a cover letter indicating their research interests, achievements to date and vision for the future, as well as either support letters or the name of 2 persons that have worked with them. Contact: Nathalie Hernandez and Cassia Trojahn .

Document attaché : 202110080800_Fiche de poste – post doc – représentation des connaissances IDMP-2_CT.pdf

Détection par deep learning des numéros de parcelles dans le cadastre napoléonie

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire GeF/laboratoire CEDRIC
Durée : 6 mois
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2021-11-30

Contexte :
Les plans cadastraux anciens représentent une mine d’informations sur un territoire, par exemple pour l’analyse de l’évolution du parcellaire au cours du temps en lien avec les politiques d’aménagement. Ces plans correspondent à la numérisation de feuilles au format papier de qualités très inégales selon leur année de création et les conditions de leur conservation. Une avancée considérable pour l’analyse fine de l’évolution du territoire par les historiens, géographes, urbanistes, aménagistes et sociologues, viendrait sans conteste de la construction d’une base de données multi-dates du cadastre « ancien » au cadastre « actuel ». A ce jour, il n’existe pas à notre connaissance d’outils permettant l’analyse automatique du contenu de ces planches en vue de les intégrer dans un SIG (Système d’Informations Géographiques).

Aussi, le laboratoire GeF mène depuis 2016 des travaux de recherche sur le développement d’une chaîne semi-automatique d’analyse des images du cadastre ancien appelée « GeFVectoMoCad » (pour Géoréférencement, Vectorisation et Mosaïquage du Cadastre) à partir d’outils libres, dont le langage Python. Cette chaîne comporte plusieurs étapes : 1) la vectorisation, 2) le géoréférencement et 3) le mosaïquage des planches cadastrales anciennes.

Sujet :
L’étape de vectorisation est cruciale pour la réussite du processus et repose actuellement sur l’emploi d’algorithmes classiques de détection de segments qui constituent ici les limites de parcelles, comme le « Line Segment Detector » et la Transformée de Hough Probabiliste. Ces segments sont ensuite convertis en polygones fermés formant les parcelles. Bien qu’efficace et intégrant des post-traitements adaptés, cette approche n’est pas exempte d’erreurs notamment avec de la sur-segmentation et de la sous-segmentation [Follin et al., 2021]. Elle requiert donc des corrections manuelles a posteriori.

L’amélioration de ces résultats peut notamment passer par la détection des numéros de parcelles. En effet chaque parcelle est associée à un numéro unique écrit à la main. Les numéros de parcelles extraits pourront être confrontés aux polygones des parcelles pour détecter les incohérences, et donc les éventuelles erreurs de segmentation, et les corriger.

Une approche par apprentissage profond ou « Deep Learning » (DL) semble adaptée à la détection des caractères manuscrits (digits). La reconnaissance de caractères écrits à la main est un des premiers cas traités par les réseaux de neurones convolutifs. [LeCun et al., 1989] a ainsi proposé une approche de type DL pour la reconnaissance des chiffres pour le service postal des États-Unis. Ce sujet étant plutôt bien maîtrisé, les problématiques du stage sont :

La production d’un jeu de données suffisamment volumineux pour entraîner des modèles profonds de reconnaissance de caractères. Cela pourra notamment passer par la génération d’images synthétiques et l’usage de techniques d’adaptation de domaine pour rendre ces images similaires aux planches de cadastres numérisées.

Le choix et la mise en œuvre d’’un ou plusieurs réseaux profonds de reconnaissance de chiffres manuscrits. On pourra notamment étudier des détecteurs génériques (YOLO [Redmon et al., 2015], Mask-RCNN [He et al. 2017]) mais aussi des architectures spécifiques à la reconnaissance de caractères (CharGrid-OCR [Reisswig et al., 2019], Calamari [Wick et al., 2018]).

Une fois les chiffres détectés, les numéros devront ensuite être reconstruits. Le parcellaire sera alors représentée sous forme de graphe avec pour sommets les parcelles et pour arêtes les relations d’adjacence. Chaque sommet sera associé éventuellement à un (ou plusieurs) numéro de parcelle. On pourra s’appuyer sur ce graphe pour détecter des incohérences (absence ou multiplicité de numéro) et réfléchir aux corrections à apporter.

Des travaux récents en traitement d’images ont prouvé l’intérêt de méthodes basées sur le DL pour l’extraction de textes [Laumer et al. 2020] et de nombres manuscrits [Kusetogullari et al., 2020] sur des documents anciens.

Plusieurs jeux de données existent. MNIST (Modified National Institute of Standards and Technology) contenant des chiffres manuscrits et USPS (United-States Postal Service) qui regroupe des chiffres mais aussi des lettres et des mots se présentent sous forme d’images respectivement en noir et blanc et en niveaux de gris. ARDIS (ARkiv Digital Sweden) correspond à des chiffres écrits à la main issus de registres religieux suédois et DIDA, extension d’ARDIS, contient des chiffres manuscrits issus de documents historiques suédois. Ces deux derniers jeux de données sont sous forme d’images en couleurs et se rapprochent le plus de nos données.

Un stage de fin d’études a été mené au laboratoire GeF en 2021 et a permis de réaliser de premières expérimentations. Elles ont consisté en la génération d’un jeu de données reprenant des chiffres de ARDIS et la mise en œuvre d’un réseau adoptant une architecture Faster-RCNN. Les résultats obtenus sur nos données, bien qu’encourageants, sont perfectibles.

Profil du candidat :
Nous recherchons pour ce stage un·e candidat·e de niveau M2 ou dernière année d’école d’ingénieur avec une formation en géomatique et/ou en apprentissage automatique.

Formation et compétences requises :
Le ou la candidat·e idéal·e a une appétence pour la recherche et des bases en apprentissage profond. Sans être indispensable, un intérêt pour les données géographiques est un point positif pour ce stage. Une connaissance de la programmation avec Python est nécessaire. Une première expérience avec une bibliothèque d’apprentissage profond (TensorFlow ou PyTorch) est un plus.

Adresse d’emploi :
Le stage se déroulera au laboratoire GeF situé au Mans, avec des visites à prévoir au laboratoire CEDRIC à Paris.

Document attaché : 202110071605_2022-Stage_CEDRIC_GeF.pdf

Maître Assistant Associé en sciences de données à Mines Saint-Etienne (Campus de Gardanne)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Mines Saint-Etienne (Gardanne, 13) – LIMOS
Durée : 12 mois
Contact : dauzere-peres@emse.fr
Date limite de publication : 2021-11-30

Contexte :
Un poste de Maître Assistant Associé en sciences de données et optimisation pour la production et la logistique est ouvert à Mines Saint-Etienne (Campus de Gardanne, à proximité d’Aix-en-Provence), département Sciences de la Fabrication et de la Logistique avec un rattachement à l’UMR CNRS 6158 LIMOS.

Sujet :
The SFL department, related to the CNRS (LIMOS), develops researches on two main axes. The first axis is related to manufacturing sciences and logistics for microelectronics, and in particular in semiconductor manufacturing, including Advanced Process Control and the modeling and optimization of manufacturing at different decision levels. The second axis develops original optimization models and approaches to answer challenges induced by the numerical revolution in production and transportation.

Profil du candidat :
An expertise in data sciences is essential in both research axes, and complementary to the existing expertise in operational research, industrial engineering and microelectronics. In particular, the candidate should be involved in the Advanced Process Control theme, which aims at controlling in real time manufacturing processes and equipment, which is required to face the evolution of manufacturing technologies.

The candidate will have to work in strong partnership with French industries, in particular in semiconductor manufacturing, and to develop collaborations at the national and international levels. The candidate will integrate and participate to the management of national and European research projects. The candidate will participate in the supervision of PhD students and Master’s students.

Formation et compétences requises :
The successful applicant will have to hold a PhD and have demonstrated his abilities in research (publications, conferences, participation to industrial or cooperative projects, …). An academic experience combined with an industrial experience would be very much appreciated.

Adresse d’emploi :
Mines Saint-Etienne, Campus Georges Charpak Provence, 13541 Gardanne

DeepFlowering: Prédiction des dates de floraison du pommier à partir d’images aériennes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP, CIRAD
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2021-12-31

Contexte :
La disponibilité de nouvelles technologies modifie profondément l’agriculture moderne et permet d’envisager des solutions innovantes aux problèmes posés par le réchauffement climatique. La télédétection, couplée au traitement de données par deep learning, ont un potentiel important pour aider à la caractérisation de variétés végétales et la sélection des plus résilientes. Dans ce contexte, le projet FRUITFLOW s’intéresse à comprendre les mécanismes de floraison chez deux espèces fruitières de grande importance économique : le pommier et le pêcher. Une des ambitions de ce projet est de développer une approche de deep learning pour prédire les dates de floraison chez le pommier, à l’aide d’images aériennes (dans le spectre du visible au proche infra-rouge), acquises par drone à des intervalles de temps réguliers.

Des premières études ont montré l’intérêt de solutions basées sur du deep learning pour la détection et le comptage des fleurs pour les cultures annuelles telles que le blé, le maïs, le sorgho, le riz et le coton. A partir de ces analyses, des méthodes d’estimations des dates de mise en place des épis (Desai et al. 2019, Zhao et al. 2021) ont été proposées. Ces solutions sont basées sur des approches de type réseaux CNN. En partant de ces travaux, nous souhaitons proposer un réseau qui permettra de prédire la date de floraison d’une collection de pommiers contenant de nombreuses variétés. L’originalité de notre approche est de considérer des plantes pérennes dont la floraison est en partie déterminée l’année précédente.

Le stage portera sur une population de diversité de pommiers, implantée en 2014 sur la station expérimentale INRAe Diascope (Mauguio). A différentes périodes de l’année 2021 (printemps et automne), des collectes d’images RVB et multi-spectrales ont été acquises sur le verger, grâce à des capteurs embarqués par drone, pour caractériser différentes phases du développement des arbres tel que la sénescence (changement de couleur puis chute des feuilles). Parallèlement à ces acquisitions, des notations expertes ont été réalisées sur les arbres à la floraison et à la sénescence. Au printemps 2022, des relevés des dates de floraison et de l’évolution de la phénologie seront réalisés.

Sujet :
L’objectif du stage est de développer un pipeline automatisé capable de prédire les dates de floraison à partir des images acquises en 2021 et des relevés du printemps. Les missions qui seront confiées au stagiaire seront :
Préparation des données sous forme d’ortho-mosaïques
Mise en place de méthodes de normalisation
Génération d’une base de données de patchs représentant chaque arbres en utilisant des information GPS
Développement et entraînement d’un réseau de neurones type CNN pour la prédiction des dates de floraison
Étude de sensibilité du modèle développé au nombre et type de dates d’acquisition considérées, au nombre et type de canaux RVB et multi-spectraux considérés.
Test sur des bases de données externes (pêchers en Espagne) des résultats de prédiction.

Pour réaliser ce travail l’étudiant.e disposera de jeux de données images (jeux de données d’images RVB et jeux de données d’images multi-spectrales acquises sur la saison 2021), des coordonnées des centres des arbres de la parcelle, des dates de floraison des arbres au printemps 2021 et celle de 2022 (acquisition au printemps 2022 par I. Farrera) et des données climatiques collectées sur la station expérimentale.

Profil du candidat :
Etudiant en master en science des données ou informatique

Formation et compétences requises :
– Connaissances en informatique : Machine Learning, Deep Learning, réseaux de neurones.
– Connaissances en mathématiques et en statistiques : méthodes de normalisation, etc.
– Compétences opérationnelles : bonnes capacités de codage (Python), des connaissances sur les frameworks d’apprentissage profond (Keras, Tensorflow, Py Torch, …), connaissance de Fiji
– Langues : français et/ou anglais courant
– Autonomie
– Curiosité pour la biologie;

Adresse d’emploi :
UMR AGAP, Avenue Agropolis, 34398 Montpellier

Document attaché : 202110060954_proposition imagerie-ML_2022.pdf

Post-doc/research engineer in medical data processing (Reims)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : U. Reims — CReSTIC
Durée : 12-24 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2021-12-31

Contexte :
The recruited person will be integrated within the framework of a scientific project carried out in partnership between the Reims Mathematics Laboratory (LMR) UMR CNRS 9008, the CReSTIC EA 3804, and the neonatology service at the University Hospital of Reims. This project is focused on the issue of data processing from EEG / aEEG signals, biological data and MRI images for the newborn. It is funded by the National Research Agency and the American Memorial Hospital Foundation.
In this context, the work will consist more precisely in processing and analyzing data from a ancillary study of a cohort of approximately 800 term newborns as part of the LyTONEPAL study one of the objectives of which is to study the predictive factors of unfavorable outcome (neuropathologies, disorders psychomotor) at 3 years.
The work will consist in analyzing predefined biomarkers which will be confronted with characteristics extracted from standard EEG signals using statistical and machine learning tools. In parallel, it will also be a question of providing treatment and visualization tools adapted to clinical research to determine the neuroprotection measures to put in place, in particular for the management pre-hospital anoxo-ischemic encephalopathies.

Sujet :
The recruited person will be in charge to: develop new algorithms and digital methods; participate in the optimization and development of the project’s digital tools; contribute to the porting of codes on the supercomputers made available; participate in the dissemination of knowledge through conferences, articles, training sessions around the tools developed.

Activities

• Develop data processing and analysis methods (biomarkers, EEG signals)
• Develop digital calculation and visualization tools
• Exploit the ROMEO supercomputer
• Collaborate closely with the neonatology service of the CHU de Reims
• Participate in the dissemination of knowledge

Profil du candidat :
Statistics and/or signal processing and/or machine learning

Formation et compétences requises :

Skills

• Expertise in statistics and data analysis
• Computer skills and programming languages (Python, C/C++, R)
• Knowledge of signal processing
• Knowledge of machine learning methods (GAN, autoencoders, . . . )
• Knowledge of parallelism CPU/GPU (MPI, openmp, cuda/opencl)
• Correct level in English
• Ability to work in a team and independently
• Ability to communicate

Adresse d’emploi :
Université de Reims Champagne-Ardenne, Reims

Document attaché : 202110051616_2021_fiche_de_poste_eeg.pdf

JFMS2022: Journées francophones de la modélisation et de la simulation

Annonce en lien avec l’Action/le Réseau : DOING

Thème :

Modélisation et Simulation, Systèmes Multi-Agents, Optimisation

Présentation :

Les JFMS sont un rendez-vous biennal de la communauté des chercheurs francophones travaillant sur le formalisme DEVS et plus largement sur la théorie de la Modélisation et de la Simulation initié par B.P. Zeigler. Placées sous le signe de l’échange et de l’interdisciplinarité, ces journées sont ouvertes vers d’autres disciplines et vers l’ensemble des domaines d’applications de la modélisation et de la simulation. L’ouverture vers les entreprises et les organismes de recherche privés est un aspect important de cet atelier pour que les défis liés à l’ingénierie de la modélisation et de la simulation soient pleinement considérés. Cet atelier est un lieu privilégié d’échanges scientifiques et technologiques et permet aux jeunes chercheurs et aux doctorants de faire connaître leurs travaux, ainsi que faire émerger des collaborations ou encore répondre de manière collégiale à des appels à projet.
https://devs-network.org/jfms-2022/

Du : 2022-03-28

Au : 2022-04-02

Lieu : IES de Cargèse (Corse du Sud)

Site Web : https://easychair.org/cfp/jfms-2022

Appel à Ateliers 2022 du GDR MaDICS

Date : 2021-11-19

Le GDR MaDICS (https://www.madics.fr/) est un Groupement de Recherche du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données.

Les activités de MaDICS sont structurées à travers des Actions. L’objectif d’une Action est d’être un lieu d’animation associant des acteurs (producteurs/consommateurs de données, scientifiques) issus de domaines différents. Il s’agit de promouvoir et/ou amplifier des échanges autour de problématiques de recherche interdisciplinaires positionnées dans un continuum « des données aux connaissances et à la prise de décision ». La liste des Actions en cours est à
https://www.madics.fr/actions/.

Construire une Action MaDICS requiert une bonne connaissance de l’écosystème interdisciplinaire de notre GDR. Une Action démarre ainsi toujours sous la forme d’un Atelier durant un an au bout duquel une Action de 2 ans, renouvelable une fois, pourra être proposée. L’objectif d’un Atelier est donc de définir en collaboration avec les responsables du GDR, les contours et attendus de cette Action.

Un Atelier, préfigurant une Action MaDICS, se devra de recouvrir une problématique de recherche partagée par une communauté de chercheurs et de partenaires de diverses disciplines sur des masses de données scientifiques bien identifiées. Un Atelier (comme une Action) est un lieu d’animation coordonnant diverses activités (journées thématiques ou scientifiques, écoles d’été, études prospectives, comparaison de méthodes et d’algorithmes, défis scientifiques, etc.) entre spécialistes des données dans divers domaines scientifiques. On décrira les données produites ou consommées dont la nature est clairement identifiée et qui seront au cœur de l’Action envisagée. Il ne s’agit pas de mettre à disposition de la communauté de telles données mais plutôt d’identifier et d’échanger sur les besoins et les attentes thématiques et sur les verrous scientifiques et techniques associés. Un Atelier (comme une Action) ne peut donc qu’être interdisciplinaire, et de fait, il est sous la responsabilité de personnes issues de domaines différents (STIC, SHS, Vie et Santé…).

Des activités en collaboration avec d’autres instances telles que des grands instruments, centres de calcul, autres organismes, autres GDR pourront être proposées.

Qui peut soumettre à l’appel à Atelier MaDICS ? Toute personne concernée par les thématiques MaDICS indépendamment de son appartenance ou non à un institut du CNRS. Néanmoins, au moins un des responsables de l’Atelier doit être membre d’une UMR CNRS. De plus, si cette personne est “informaticienne”, elle devra être membre d’une UMR INS2I.

Comment soumettre ? La proposition d’un Atelier se fait au travers du formulaire (accessible uniquement après connexion au site) :
https://www.madics.fr/ateliers/actions-appel/proposition-datelier/

Pour quel résultat ? Si votre proposition est retenue par le comité de direction du GDR, elle débutera au 1er janvier 2022. Le GDR mettra à votre disposition tous les moyens de communication et de diffusion nécessaires ainsi qu’un budget d’animation propre de 1 500 € (pour mémoire, une Action dispose d’un budget de 3 000 € par an).

Dates importantes
Soumission : 19 novembre 2021
Retour vers la mi-décembre 2021
Démarrage :

N’hésitez pas à contacter Bruno Crémilleux (bruno.cremilleux@unicaen.fr) et/ou Sarah Cohen-Boulakia (cohen@lri.fr) pour tout renseignement complémentaire.

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

junior R&D engineer, AI & Ocean

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : IMT Atlantique, AI Chair OceaniX
Durée : 24 mois
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2021-11-21

Contexte :
Interested by AI and oceans? We have an open 2-year position for a junior R&D scientist in our team (https://cia-oceanix.github.io/) in collaboration with CLS (https://www.cls.fr/).

Sujet :
The successful applicant will participe to the development of deep learning methods for the monitoring of the oceans from multimodal (e.g., SAR-optical) satellite imaging data. Applciations of interest include among others, ship detection and recognition, oilspill monitoring, inversion of geophysical parameters,…

Profil du candidat :
We look for a young professional with a MSc. and/or engineer degree in AI/Data science/Computer Vision/Applied Math and strong interest in R&D activities at the interface between ocean science and AI.

Formation et compétences requises :
Some experience with deep learning frameworks (pytorch, tensorflow, keras) would be expected.

Adresse d’emploi :
IMT Atlantique, Brest

Deep Learning for Data to Text and Text to Data Generation

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Sorbonne Universite – Laboratoire d’Informatique
Durée : 36 mois
Contact : patrick.gallinari@lip6.fr
Date limite de publication : 2021-11-21

Contexte :
Full description: https://mlia.lip6.fr/wp-content/uploads/2021/09/PhD-proposal-Deep-Learning-for-Data-to-Text-and-Text-to-Data-Generation-1.pdf

Knowledge sources are often encoded into structured format such as indexes, tables, triplets, ontologies, knowledge bases, or even raw numerical data. These data are easily readable by machines, but hardly interpretable by humans. On the opposite, textual information, easily accessible to humans is often complex to exploit by machines. A key challenge and an emerging field in machine learning and natural language processing, is the transcription of structured data to text and the inverse problem of transforming raw text into structured data. The former problem is called data-to text generation and it occurs in several applications like journalism, medical diagnosis, financial reports. It may be a component of explainable AI systems. The latter problem is known as semantic parsing and comes in different instantiations like information extraction, reasoning over the structured data (table or graph), generating symbolic queries.

Sujet :
The research will explore new paradigms for the dual tasks of data to text and text to data generation such as:

• Learning from unaligned corpora
Most current methods require learning from parallel corpora, where data and text are fully aligned and correspond closely one to the other. A first line of research will be the development of new unsupervised frameworks allowing training from unaligned data-text corpora.

• Learning from diverse sources
Current benchmarks focus on learning mappings from a unique structured data format to text. In practice data will be collected from different sources encoded through a diversity of formats. A second direction will explore new formalisms for learning such multiple correspondences.

• Controlled text and data generation
Current research mainly focuses on the cases where there is a bijective correspondence between the data and text. A more general task is to summarize information along different aspects of the data. We will explore how to control generation according to different aspects and user needs.

Profil du candidat :
Master in computer science or applied mathematics, Engineering school. Strong background and experience in machine learning and/or natural language processing , and good technical skills in programming.

Formation et compétences requises :
Machine learning and Deep Learning
Experience or interest for Natural Language processing
Strong computer programming skills

Adresse d’emploi :
Sorbonne Université, Pierre et Marie Curie Campus, 4 Place Jussieu, Paris, Fr

Document attaché : 202109281616_PhD-proposal-Deep Learning for Data to Text and Text to Data Generation.pdf

Postdoc: Article separation in historical newspapers

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : L3i – La Rochelle Université
Durée : 2 ans
Contact : antoine.doucet@univ-lr.fr
Date limite de publication : 2021-11-21

Contexte :
Joining a young group the crossroad between document analysis and NLP, located in a historical town by the Atlantic Ocean? And walk 10 minutes from the lab to the beach. We have open positions in the context of 2 ongoing Horizon 2020 projects: Embeddia and NewsEye as well as subsequent projects. In 2020-2021, we have among others published long papers in CORE A* and A conferences ACL, JCDL, ICDAR, CoNLL, DAS COLING, ICADL.. We coordinate the H2020 NewsEye project, focused on improving access to large European collections of historical newspapers. We developed the NewsEye platform for navigating through such collections, a platform it will build upon in future years. Full details on the NewsEye project are available on its website – http://newseye.eu/

Sujet :
Applications are invited for a postdoctoral researcher position on the separation of articles from digitized newspapers, in particular historical newspapers. This task is a critical first step for any use of digitized newspapers, which are initially only split per “page image” files.

Your goal will be to study the state of the art and devise methods combining visual and textual features so as improve the performance of article separation on a large scale. In particular, we seek for methods that function with limited training data and that function for several languages.

Profil du candidat :
Who we search for:
– proven record of high-level publications in one or more of those fields

Keywords: digitized documents, combination of visual and textual features, layout analysis, statistical NLP, language-independent approaches, deep/machine learning.

Formation et compétences requises :
– PhD in document analysis, NLP, IR, or ML, ideally followed by postdoctoral experience
– fluency in written and spoken English (French language skills are not relevant)

Adresse d’emploi :
Laboratoire L3i
Université de La Rochelle
Ave EINSTEIN
F-17000 LA ROCHELLE

Document attaché : 202109281405__2021-PosteANNA.pdf