Navigation dans les règles d’implication multidimensionnelles pour l’aide à la décision en santé animale et végétale (agroécologie)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRMM/CIRAD
Durée : 6 mois
Contact : marianne.huchard@lirmm.fr
Date limite de publication : 2023-03-01

Contexte :
Le stage est réalisé dans le cadre de l’Institut de convergence # Digitag (https://www.hdigitag.fr/fr/).

Pour un producteur agricole, décider d’une pratique impose de considérer celles mises en place afin d’éviter de perturber l’équilibre du système. Il doit donc connaître la diversité des situations culturales. Par exemple, la littérature présente diverses solutions à base de plantes pour contrôler l’infestation d’une culture agricole par une population de bioagresseurs. Choisir une solution qui la repousserait peut la faire migrer vers une culture avoisinante peu attaquée. En comportant plus de 48000 descriptions d’utilisation de plantes à effet pesticide et antibiotique, la base Knomana [Silvie et al., 2021] peut permettre ce choix. Les plateformes logicielles RCAviz [Muller et al. 2022] et RCAvizIR permettent de naviguer dans cette base dont les connaissances ont été classées par l’Analyse de Concepts Relationnels. De façon à représenter fidèlement les données en plusieurs dimensions et faciliter leur interprétation par le producteur agricole, une solution consiste à les exprimer sous forme de règles d’implication multidimensionnelles, une méthode nouvelle issue de l’Analyse de Concepts Formels. Pour une relation ternaire connectant des bioagresseurs, des plantes qui les contrôlent et des cultures protégées, cette méthode permet par exemple d’énoncer les connaissances sous la forme « quand Bioag1 est contrôlé par plant1 sur culture1, alors Bioag1 est également contrôlé par plant2 sur culture1, et par plant3 sur culture2 ».

Sujet :
L’objectif du stage est de développer une approche et un prototype logiciel de visualisation de connaissances, exprimées sous forme de règles d’implication multidimensionnelles. Ces règles sont produites par un algorithme implémenté en Python. Nous développerons également une stratégie de présentation des règles à l’utilisateur incluant ses centres d’intérêt et d’après la sémantique du contenu des règles.

Profil du candidat :
Personne intéressée par l’ingénierie des connaissances, l’analyse visuelle (visual analytics) et à trouver des solutions alternatives aux pesticides et antibiotiques de synthèse pour l’agriculture biologique.

Formation et compétences requises :
Etudiante ou étudiant de Master 2 (informatique ou bioinformatique) ayant des compétences solides en programmation et en analyse de données.

Adresse d’emploi :
LIRMM, 161, rue Ada, 34095 Montpellier Cedex 05

Document attaché : 202210200644_SujetStage2022_2023.pdf

Research engineer at CEA – Tech – Collective intelligence of/for Scientists

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEA – Tech
Durée : 18 months
Contact : mathilde.noual@cea.fr
Date limite de publication : 2022-12-31

Contexte :
Our world is facing unprecedentedly severe social and environmental crises. The scale of the response requires deep and efficient _coordination_ of resources and efforts.

The CEA is a French public research institution with strong ties to the industrial ecosystem and European institutions. It constitutes the ideal setting to agilely build, test and implant the necessary digital supporting foundations for wide scale inclusive interdisciplinary coordination.

Our group is part of the CEA Tech. It designs and develops tools for a wide variety of engineering applications in a wide variety of domains. We are equipped with long-standing experience and expertise in tailoring, developing, optimising, interfacing and integrating open source and proprietary software solutions for our various clients, both public and private.

Sujet :
We wish to hire a new team member, to come and work full-time with us on our coordination solution, to architecture the system’s foundations, set them up and test them in diverse use cases.

We are looking for a research engineer. The new team member will participate in the development of a collaborative digital platform implementing principles of collective intelligence.

The role is a hands-on opportunity to contribute at the centre of an exciting, meaningful, avant-garde project, empowering coordination across engineering domains and solutions and scientific disciplines and research.

Profil du candidat :
Core responsibilities:

– Participate in the architectural design of a complex distributed system
– Design and develop a web-based system (front-end and back-end) that accesses and manages large datasets
– Write technical documentation of software and solutions
– Support all activities related to end to end software design and testing
– Fit in with the development team and interact with cross-functional teams

Formation et compétences requises :
Requirements & Qualifications:

– Programming languages: C, C++, Rust or Java
– Knowledge of one or several DBMS
– Experience with version control technology (e.g. Git)
– Basic knowledge of RESTful architectures and implementations
– Fluent in English and/or French
– Proactive work ethics
– Attention to detail and excellent analytical skills (profound algorithmic and complex architectural decisions will be involved)
– Engaging entrepreneurial personality, interested in broadening your horizons and expanding your skills to master new technologies and new perspectives.
– Master’s degree or higher

Plusses :

– Conversant in French and in English (if not fluent)
– Experience with NoSQL is a serious plus
– Knowledge of P2P protocols (Hypercore, IPFS, SSB…) is also a serious plus
– Knowledge of Eclipse-based modelling technologies (e.g. EMF, Sirius, Xtext)
– Knowledge of automated model management (e.g. model transformation, code
generation) technologies
– The project aims at easing the daily work life of scientist researchers so sensitivity to the academic lifestyle is also a plus.

Perks and benefits:

You will …
– Work closely with cross-functional interdisciplinary scientific research and engineering teams,
– Evolve in a stimulating goal-oriented environment
– Have the possibility of working remotely part of the week
– Be involved in meaningful technological decision making
– Enjoy unlimited free coffee/tea

Adresse d’emploi :
CEA-Tech in Palaiseau (plateau de Saclay, Île-de-France), France

Application link:

https://www.emploi.cea.fr/Pages/Offre/detailoffre.aspx?idOffre=23814&idOrigine=502&LCID=1036&offerReference=2022-23814

Document attaché : 202210181122_fiche-text.txt

DataPlat 2023, the 2nd International Workshop on Data Platform Design, Management, and Optimization

Date : 2023-03-28
Lieu : Ioannina, Grece

This is a Call for Papers for DataPlat 2023, which will be held on March 28, 2023, and co-located with EDBT/ICDT at Ioannina (Greece). For further information on the workshop, please head to https://big.csr.unibo.it/dataplat2023/

We are currently negotiating the invitation of best papers to a special issue in a top-tier journal in Computer Science and Information Systems.

Important dates
* Paper submission: January 8, 2023
* Authors notification: February 5, 2023
* Camera ready: February 19, 2023
* Date of the workshop: March 28, 2023

Information systems have evolved into complex data platforms supporting end-to-end data-intensive needs, such as storage, computation, and analysis of data with heterogeneous structures. However, a smart and comprehensive support for data scientists and architects to govern the data through the whole life-cycle is still necessary.
Supporting data management and governance requires the collection of metadata capturing the distinguishing features of the data; this enables advanced functionalities spanning from data research and profiling to provenance control, orchestration of data pipelines, incremental data integration, efficient querying, automated analytics, and homogeneous data access. The challenges begin with metadata management in terms of the modeling effort, storage, complexity of retrieval activities, and effective exploitation. While coping with big-data issues, the enabled functionalities must: (i) handle the heterogeneity of storage and computation engines (including DBMSs supporting multiple data models and cloud storage systems with limited control and predictability), (ii) meet suitability requirements for less-skilled users, and (iii) limit the costs of pay-as-you-go resources.
This workshop calls for innovative solutions — from researchers and practitioners — that address the aforementioned challenges. We welcome papers that contribute to the advancement of data platforms in engineering, optimizing, and simplifying the different aspects of data and metadata management and fruition.

The scope of the workshop includes, but is not limited to, the following topics.
* Metadata modeling for data platforms
* Techniques for metadata discovery and management
* Advanced search, exploration, and profiling of data and metadata
* Semantic enrichment of metadata
* Data governance
* Data wrangling
* Provenance and data versioning control
* Orchestration and optimization of data transformation pipelines
* Data integration and querying in multimodel databases, multistores, polystores
* Query processing, optimization, and performance
* Entity resolution and data fusion
* Big data management and querying
* Artificial Intelligence solutions for data platforms
* AutoML techniques
* Cloud computing and architectures
* Advanced architectures for data lakes and data platforms
* Analysis, design, implementation, and testing of data platforms
* Case studies and project experiences

Submissions should present original results and substantial new work not currently under review or published elsewhere. DataPlat 2023 will follow a single-blind review process to evaluate submissions on the basis of originality, relevance, quality, and technical contribution. The following submissions are accepted:
* Regular and short research papers (up to 10 and 5 pages, respectively)
* Vision papers (up to 5 pages)
* Application papers (up to 5 pages)

Papers must be submitted via Microsoft CMT, in PDF, according to the EDBT Proceedings Format: https://cmt3.research.microsoft.com/DataPlat2023

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Imagerie Hyperspectrale pour l’Astrophysique

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : 5 mois
Contact : mickael.bonnefoy@univ-grenoble-alpes.fr
Date limite de publication : 2023-01-31

Contexte :
Les spectrographes intégraux de champ sont une classe d’instruments aujourd’hui déployée sur la majorité des observatoires astronomiques modernes (Very-Large-Telescope au Chili; Télescope Keck à Hawaii). Les cubes d’images hyperspectrales qu’ils produisent contiennent une diversité d’information qui commence à être exploitée pour rechercher et caractériser des planètes en cours de formation (proto-planètes) autour d’autres étoiles [1].

Les données sont dominées par le halo de flux de l’étoile qui agit comme une nuisance. Les signaux produits par les planètes en formation sont parcimonieux et proches du niveau du bruit. Des méthodes de recherche de signaux faibles dans des cubes de données hyperspectraux ont été développées dans des contextes méthodologiques proches [2]. Ces méthodes nécessitent d’être adaptées au présent problème de détection de planètes en formation en recherchant une raie spectrale spécifique de l’hydrogène (raie Hɑ).

Sujet :
Le travail proposé consiste à prendre en main des données de l’instrument MUSE (Very-Large-Telescope) et de reproduire dans un premier temps les résultats de l’état de l’art [3]. Il s’agit alors de bien mettre en évidence les possibilités et les limites des solutions algorithmiques existantes. Un effort particulier sera déployé vers les méthodes de soustraction de halo dans les images et l’analyse de performances de détection sur les résidus obtenus par soustraction de ce dernier. Les données à traiter/analyser sont déjà acquises et seront donc facilement disponibles.

L’expertise développée devra permettre d’étendre et de proposer des évolutions de ces méthodes, possiblement dans le cadre d’une prolongation de ces travaux par un doctorat (financement ANR acquis). Le travail se déroule dans le contexte d’une collaboration entre les laboratoires GIPSA-Lab et IPAG à Saint-Martin-d’Hères.

Profil du candidat :
Bonnes connaissances en détection, estimation, approches Bayésiennes. Notions sur la formation des images. Appétences pour le traitement de données astrophysiques et échange entre plusieurs disciplines scientifiques. Bonne maîtrise de Matlab et Python.

Formation et compétences requises :
Etudiant en master 2 recherche en traitement du signal et/ou étudiant en fin de cycle ingénieur.

Adresse d’emploi :
IPAG
414 Rue de la Piscine
38400 Saint-Martin d’Hères

GIPSA-Lab
11 Rue des Mathématiques
38400 Saint-Martin-d’Hères

Document attaché : 202210180908_Detecting propoplanets in hyperspectral data.pdf

TOTh 2023 Training Session on “Terminology & Digital Humanities”

Date : 2023-05-30 => 2023-05-31
Lieu : Campus Scientifique
Université Savoie Mont Blanc

TOTh TRAINING 2023
“Terminology & Digital Humanities”

Digital Humanities (DH) is a newly emerging interdisciplinary area at the intersection of Computer Science and the Humanities (including but not limited to art, geography, history, language, literature, music). Its main aim is to develop and implement digital tools for Humanities research.

The fundamental question in DH is how datasets from the Humanities can be represented digitally so that both humans and machines can process and exchange them on the Web. Ontology and Terminology have a central role to play in this end.

This two-day summer school is dedicated to constructing terminologies and ontologies in Digital Humanities using Protégé, the most commonly used ontology editor.

This two-day course will be illustrated with practical works on the example of ancient Greek vases

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

TOTh 2023 Call for Papers

Date : 2023-06-01 => 2023-06-02
Lieu : Campus Scientifique
Université Savoie Mont Blanc

Call for Papers
TOTh 2023 CONFERENCE – ONSITE & ONLINE
Terminology & Ontology: Theories and applications

Home


1 & 2 June 2023
University Savoie Mont-Blanc (Chambéry, France)
—————————————————————————————–
Deadline for submission of extended abstracts: 8 January 2023
Notification to authors: 12 February 2023
Easychair submission page: https://easychair.org/conferences/?conf=toth2023
Easychair call for papers: https://easychair.org/cfp/TOTh-2023
Author guidelines: The format for submitting abstracts is free. The number of characters including spaces is between 12,000 and 15,000, excluding the bibliography
—————————————————————————————–
The proceeding will be published in the “Terminologica” Collection (http://toth.condillac.org/proceedings) distributed by “le Comptoir des presses d’universités” (http://www.lcdpu.fr/).
The previous proceedings can be downloaded at: http://toth.condillac.org/proceedings

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Etude pilote pour une modélisation des transitions agroécologiques par des techniques d’apprentissage

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : IMBE Aix-Marseille University (Marseille, Campus S
Durée : 5 à 6 mois
Contact : laure.berti@ird.fr
Date limite de publication : 2022-12-31

Contexte :

Le stage se définit dans le cadre d’une collaboration entre l’IMBE (https://www.imbe.fr/), ESPACE-DEV (https://www.espace-dev.fr/) et l’Université Fédérale de Paraíba – Campus IV (https://www.biodiversidade.info/rafael-raimundo/index.php).

Le ou la candidat.e retenu travaillera sur des approches de modélisation pour découvrir des voies alternatives de transition durable en agroécologie pour les paysages du Nord-Est brésilien.

En particulier, le travail portera sur l’élaboration de modèles informatiques pour comprendre et faire des inférences et des prédictions sur les menaces à la biodiversité et les vulnérabilités sociales afin de (i) proposer des stratégies pour favoriser le développement de systèmes agroécologiques durables combinant conservation de la biodiversité et inclusion sociale, et (ii) fournir des recommandations pour des solutions adaptatives et une gouvernance face à la crise de la biodiversité et au changement climatique.

Sujet :
Le travail consiste en 4 objectifs :

1) Recueillir toutes les données déjà disponibles (identifiées en amont du stage par les équipes encadrantes) pour cartographier les services écosystémiques et d’autres indicateurs socio-économiques liés à l’état des agroécosystèmes dans le Nord-Est brésilien, à l’échelle régionale, et plus précisément dans l’état de Paraíba où un corridor agroécologique impliquant des fragments restant de la forêt atlantique a été proposé pour combiner restauration de la biodiversité et transitions agroécologiques à l’échelle du paysage.

2) Cartographier les changements (qui peuvent être des dégradations) entre différentes périodes ; cependant, nous nous intéressons surtout à la restauration observée suite à une transition vers l’agroécologie. Les données multi-sources seront intégrées et préparées pour être ensuite utilisées par les différentes approches de modélisation, notamment les modèles d’apprentissage.

3) Mener une première étude conjointe de la littérature :
– du point de vue agroécologique, à partir d’un corpus d’articles rassemblés par les équipes encadrantes, extraire des informations dans le but de quantifier l’effet des pratiques agroécologiques sur certaines variables de l’agroécosystème (séquestration du carbone, capacité de rétention d’eau du sol, vulnérabilité des cultures aux ravageurs et aux maladies, stabilité des rendements, etc.) et sur certains indicateurs socio-économiques (coûts, emplois requis, etc.) Cette synthèse sera comparée aux données recueillies en 1). Pour les effets qui semblent significatifs, quelques fonctions simples seront dérivées.

– du point de vue de l’Intelligence Artificielle, afin d’étudier l’état de l’art dans le domaine de l’apprentissage, notamment pour évaluer comment les modèles existants d’apprentissage par renforcement peuvent être appliqués à la gouvernance agroécologique ;

4) Développer un prototype en Python pour déterminer la durabilité des pratiques agroécologiques (espace d’actions, récompense en apprentissage par renforcement à partir des données collectées) sur des scénarios de stress simplifiés de changement climatique.

Profil du candidat :
PRÉREQUIS:
– Bonne expérience de la programmation en Python
– Connaissance des méthodes, outils et librairies en apprentissage automatique
– Formation en modélisation (et idéalement en agroécologie)

CANDIDATURE: Envoyer votre CV et lettre de motivation à laure.berti@ird.fr, sophie.gachet@imbe.fr, et alberte.bondeau@imbe.fr

Formation et compétences requises :
Etudiant.e de Master 2 en Informatique

Adresse d’emploi :
IMBE Aix-Marseille Université – Campus Étoile Faculté des Sciences St-Jérôme Case 421 Av Escadrille Normandie Niémen 13 397 Marseille cedex 20

Création d’une ontologie pour le domaine de la métabolomique

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Plateau de profilage métabolique et de metabolomiq
Durée : 6 mois
Contact : olivier.filangi@inrae.fr
Date limite de publication : 2023-01-26

Contexte :
INRAE est un institut de recherche public œuvrant pour un développement cohérent et durable de l’agriculture, l’alimentation et l’environnement. Pour répondre à des questions scientifiques de plus en plus complexes, il est souvent nécessaire de combiner des données provenant de banques de données publiques. La manière de représenter
ces données peut varier en fonction des communautés scientifiques ou des outils utilisés pour les produire par exemple. Dans ce cas, il est nécessaire de formaliser la manière de représenter et de
nommer les objets du domaine d’étude ainsi que leurs propriétés. Cette étape se concrétise généralement par la constitution de ressources sémantiques telles que les thésaurus et les ontologies.
L’infrastructure nationale de métabolomique MetaboHUB a pour objectif de fournir des outils technologiques de pointe et des services en métabolomique et fluxomique aux équipes de recherche académiques et à des partenaires industriels dans les domaines de la santé, de la nutrition, de l’agriculture, de l’environnement et des biotechnologies. Dans le cadre de sa nouvelle feuille de route, un des objectifs principaux est de favoriser une meilleure intégration des données et des services MetaboHUB au sein du consortium et au-delà. Les études actuelles sur le
métabolisme nécessitent l’utilisation d’un nombre croissant de ressources de données, complexes, produites ou stockées et au sein des plateformes de métabolomique et sur le Web.

le projet MetaSaurus réunit des experts en ingénierie des connaissances et en science des données du domaine de la métabolomique avec pour objectif de bâtir un modèle de connaissance adapté aux études
métabolomiques en s’appuyant sur les ontologies, thésaurus et vocabulaires contrôlés publiés (Thesaurus INRAE, Ontologies OBO Foundry / BioPortal).

Sujet :
Produire une ontologie adaptée au domaine de la métabolomique et les supports méthodologiques d’accompagnement de la démarche

A partir des spécifications du projet MetaSaurus et de la description des étapes d’intégration de données en métabolomique, le projet consistera à élaborer la première version d’une ontologie dédiée à la métabolomique. Vous étudierez les modalités de réutilisation des ressources sémantiques existantes en lien avec la maintenance de cette ontologie (mis en œuvre des principes OBO) et intégrerez l’environnement de gestion de l’ontologie dans une forge logicielle. L’implémentation de l’ontologie sera réaliser au format OWL. Cette démarche fera l’objet d’une proposition de méthodologie générique qui pourra être transposée à d’autres cas d’études.

Profil du candidat :
Étudiant de niveau master 2

Formation et compétences requises :
– Connaissances générales des standards du web sémantique (OWL/RDF) et des outils : Protégé, Github.
– Aptitude à la rédaction de documentation technique
– Maîtrise de l’anglais technique (lu)

Adresse d’emploi :
P2M2
Domaine de, La Motte Bat 305, 35650 Le Rheu

Document attaché : 202210171248_Stage_IngenierieConnaissance_Metabo.pdf

Ingénieur.e d’étude (H/F) Data Scientist ANR SUMM-RE

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Parole et Langage
Durée : 12 mois
Contact : laurent.prevot@univ-amu.fr
Date limite de publication : 2022-10-28

Contexte :
L’objectif général du projet est d’utiliser les informations sémantiques riches fournies par la structure du discours pour améliorer les algorithmes de résumé automatique.

Un objectif central de SUMM-RE est de s’appuyer sur des travaux existants qui exploitent une faible supervision pour annoter automatiquement des ensembles de données pour la structure du discours en étendant ces méthodes au discours spontané et conversationnel.

Un deuxième objectif est de créer un corpus audio/vidéo de 100 heures d’interactions parlées, multipartites, de type réunion en français, qui sera utile aux chercheurs dans de nombreux domaines. Cet objectif est motivé non seulement par le manque général d’ensembles de données pour les tâches TAL en français, mais aussi par l’hypothèse centrale de SUMM-RE, selon laquelle les informations encodées dans les graphes de discours peuvent être exploitées pour améliorer le résumé automatique.

Sujet :
Le rôle de la personne recrutée sera de :

(i) Aider la curation des données brutes et des premières étapes de pré-traitement (détection parole / silence, transcription automatique) ;
(ii) préparer les données brutes en vue de leur diffusion à la communauté scientifique ;
(iii) Assurer la publication des données sur les entrepôts adaptés.

Profil du candidat :
Spécialiste dans l’analyse des données langagières.

Formation et compétences requises :
Master en Sciences des Données, Sciences du Langage, Sciences Cognitives

Compétences souhaitées:
– Expérience avec l’enregistrement et la gestion de données de parole et / ou comportementales ;
– Analyse d’erreurs / Annotation Manuelle / Evaluation des outils automatiques ;
– Data science (data wrangling, data viz…)

Compétences informatiques souhaitées:
– bash, python (notebooks)

Autres outils utilisés:
– SPPAS, praat, transcriber, elan

Adresse d’emploi :
5 avenue Pasteur, 13100 Aix-en-Provence

PostDoc/Research Engineer in NLP – Question-Answering and Chatbot project

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Hubert Curien – Université de Saint-Et
Durée : 18 mois
Contact : Francois.Jacquenet@univ-st-etienne.fr
Date limite de publication : 2022-12-02

Contexte :
Dans le cadre du projet R&D Booster qaBot : Question Answering et Chatbot, réunissant les entreprises The QACompany, Wikit et le laboratoire Hubert Curien, nous recrutons un.e post-doc ou ingénieur.e de recherche pour une durée de 18 mois.

Les agents conversationnels (chatbots) sont de plus en plus utilisés dans tous les secteurs pour fournir une assistance rapide et bon marché aux utilisateurs. En adressant une question, l’utilisateur exprime son intention ; celle-ci est reconnue parmi une liste d’intentions du système qui donne alors sa réponse à l’utilisateur. A l’instar de tout système expert, cette technique a pour avantage de fournir des réponses précises car préparées. L’inconvénient est de nécessiter un temps important de conception et de maintenance des scénarios conversationnels avec les intentions associées. Les systèmes de questions-réponses (Question Answering, QA) sont apparus très récemment, en particulier pour interroger des bases de documents. L’utilisateur adresse sa question, et le système répond en sélectionnant un document et en y identifiant le texte répondant à la question. La technique des systèmes de QA nécessite moins d’effort de conception spécifique, mais elle nécessite actuellement des ressources d’entraînement très volumineuses (questions et réponses dans les documents) qui limite son adoption au-delà des très grosses bases telles que Wikipedia et pour l’anglais.

Le projet qaBot est axé sur le traitement automatique du langage naturel (NLP) et l’apprentissage profond (Deep Learning). Son objectif est d’amener sur le marché une approche mixte combinant la technologie de Chatbot – apportée par l’entreprise lyonnaise Wikit – et celle de Questions-Réponses sur des documents – élaborée par The QA Company. Le volet scientifique et académique du programme est sous la direction du laboratoire Hubert Curien (avec en tutelles principales l’Université de Saint-Étienne et le CNRS).

Sujet :
La personne recrutée devra s’investir principalement sur le soutien scientifique au projet sur les volets de l’entraînement des modèles, pour des données spécifiques et peu volumineuses (régimes few shots), l’étude et la synthèse des travaux récents, et l’implémentation/l’évaluation de celles-ci. Plus spécifiquement les verrous scientifiques identifiés sont :

* Concevoir une architecture neuronale performante avec des ensembles de données d’entraînement frugaux (few-shots) pour la tâche d’extraction de réponse à base de question (extractive question answering) sur des domaines spécifiques

* Définir des métriques pour évaluer les chatbots créés. Ces métriques seront utilisées pour évaluer les systèmes pendant la durée du projet.

* Adaptation rapide des modèles linguistiques existants sur des langues non anglaises.

* Adapter le système à des corpus de textes dans des formats spécifiques (comme par exemple pdf ou sites Web)

Profil du candidat :
Le/la candidat.e doit posséder des compétences solides en Apprentissage Automatique (conception de modèles, maîtrise des framework d’apprentissage deep tels que PyTorch/TensorFlow), mais aussi des compétences avancées en Python, une forte appétence pour les données textuelles, le question answering et les Modèles de Langues dits Larges (BERT, PaLM), ainsi que le surapprentissage et l’application de ces derniers (Notamment via HuggingFace).

Formation et compétences requises :
Doctorat ou Master spécialité Machine Learning et plus particulièrement Natural Language Processing

Adresse d’emploi :
Le lieu d’accueil est le laboratoire Hubert Curien, unité mixte de recherche (UMR 5516) de l’Université Jean Monnet de Saint-Etienne, du Centre National de la Recherche Scientifique (CNRS) et de l’Institut d’Optique Graduate School. Il est composé d’environ 90 chercheurs, professeurs et maîtres de conférences, 20 ingénieurs et personnels administratifs et 130 doctorants et post-doctorants. Nos activités de recherche sont organisées selon deux départements scientifiques : Optique, photonique et surfaces et Informatique, sécurité, image. L’équipe Data Intelligence, au sein de laquelle la personne recrutée travaillera, est spécialisée dans le domaine du Machine Learning

Le salaire est modulable en fonction de l’expérience du/de la candidat.e. La personne recrutée aura accès à un poste de travail avec un ordinateur permettant l’utilisation du cluster de calcul du laboratoire. Le début du contrat est prévu pour début Janvier 2023. Le laboratoire se situe sur le même campus que la société The QA Company, facilitant ainsi les échanges avec les chercheurs et le doctorant de la société impliqués dans le projet.

Pour candidater, merci d’envoyer à antoine.gourru@univ-st-etienne.fr et francois.jacquenet@univ-st-etienne.fr : un CV détaillé et une lettre de motivation, tout cela le plus rapidement possible.