Deep learning semantic segmentation guided by underwater acoustics for seafloor mapping

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Lab-sticc / ENSTA Bretagne
Durée : 3 ans
Contact : gilles.le_chenadec@ensta-bretagne.fr
Date limite de publication : 2023-06-30

Contexte :
The SeabAId project is being carried out in partnership with Shom and funded by the Defence Innovation Agency within the framework of the
Ingéblue Institute over a period of 4 years. It concerns the analysis and exploitation of the acoustic reflectivity of the seabed using multibeam sonar.
The project has three scientific aspects. The first aspect is the processing of acoustic data from Shom multibeam echosounders to estimate the reflectivity of the seafloor and assess its uncertainty. The second aspect is to develop a semantic segmentation approach using deep learning adapted to automatic seafloor prediction. The last aspect aims at developing a hybrid data-driven, deep learning and acoustically guided
approach.

Sujet :
is post-doc offer concerns the last two deep learning aspects of this project, i.e. the automatic processing of acoustic data recorded on the seafloor by multibeam echosounders in order to automatically generate maps (homogeneous zones).
The initial work will be based on the team’s previous work on the semantic segmentation of side-scan sonar images. Adapting this algorithm to multibeam echosounder data is the first objective of the study. For this task, a large database of labelled images has been created, recorded on various seabeds with a labelled map as additional information. For the learning process, the labels considered will come from the sedimentological expertise already produced in the various coastal areas through the Shom sedimentary maps (“carte G”).
There are several issues that need to be analysed and resolved in this study.
A first issue is how to train a semantic segmentation neural network when the labels are underresolved compared to the observations? A first idea is to generate the reflectivity mosaic at label resolution and train the model. The analysis should then focus on increasing the resolution of the observations to see how accurate the method can be.
A second issue will be to assess the relevance of using all the classes of the sedimentary map. It may not be possible to obtain the same level of detail from the reflectivity observations as the sedimentologists (which are often the result of multi-sensor analyses supplemented by sediment samples). The analysis to be undertaken will be to understand these possible cases where the algorithm cannot discriminate between two sedimentary classes. A fusion of sedimentary classes could be carried out or a complementary method could be proposed.
Finally, here semantic segmentation concerns the ability to create acoustically homogeneous zones. The second and last objective of this post-doc is to inform the semantic segmentation algorithm by acoustic models and/or by a-priori acoustic information. These recent frameworks [1,2,3,4,5] make it possible to develop algorithms that allow massive processing of the data while taking into account the physics of the problem. This consideration may be particularly interesting for improving models; promoting explainability; using less data for learning; taking advantage of all available information to predict the seafloor.

Profil du candidat :
The successful candidate should have a strong background (phd or science degree) in machine learning. He/She should have good programming skills (Python). The successful candidates should have the ability to work in a team, be curious and have rigorous spirit.

Formation et compétences requises :
machine learning, deep learning, pytorch, tensorflow ,python
computer vision

Adresse d’emploi :
ENSTA Bretagne – Lab-STICC UMR CNRS 6285 – 2 rue François Verny, 29806 Brest

Document attaché : 202305231631_seabaid_postdoc_ia.pdf

Candidate genes prioritization using knowledge graphs and AI

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : University of Montpellier. LIRMM computer science
Durée : 3 years
Contact : pierre.larmande@ird.fr
Date limite de publication : 2023-06-23

Contexte :
To meet the challenges of the global demand for food in a context of climate change, a better understanding of agronomically important traits, such as yield, quality, and resistance to abiotic and biotic stresses is crucial to improve crops production capacities. Deciphering molecular mechanisms that drive a particular trait is one of the most critical research areas in biology. However, these genotype-phenotype interactions are difficult to identify because they occur at different molecular levels in the plant and are strongly influenced by environmental factors (i.e., climate change). For biologists, it is difficult to search for relevant information as it is often dispersed in several databases on the Internet each with different data models, scales or distinct means of access. Today’s major challenges are related to the development of methods to integrate these heterogeneous data and to enrich biological knowledge. The scientists also need methods to dig into this mass of data and to highlight relevant information that identifies key genes. To this end, we developed the AgroLD [1] platform which is a knowledge graph that uses Semantic Web technologies to integrate heterogeneous agronomic data from the genome to the phenome (i.e., from the set of genes to the set of phenotypes observed in a plant organism). AgroLD is actively developed. As of today, AgroLD contains more than 900 million triples resulting from the integration of around 100 datasets gathered in 33 named graphs.

Sujet :
The thesis is proposed under the frame of the DIG-AI ANR project which aims to develop machine learning methods combined with knowledge graphs such as AgroLD to study the molecular interactions driving the phenotype development in crops.

Objective 1: The current challenges are related to the development of methods for functional analysis of genes and in particular to methods for prioritization of candidate genes. Indeed, the data integrated from databases are incomplete, heterogeneous, insufficient to infer genes function with good accuracy. One of the first objectives of the thesis will be the development of knowledge extraction methods to extract functional information on genes in scientific documents.

Objective 2: The recent success of graph neural networks (GNNs) suggests the possibility of systematically incorporating multiple sources of information into a heterogeneous network and learning the nonlinear relationship between phenotypes and genes [2]. However, knowledge graphs like AgroLD can be complex and contain interference information. Therefore, as proposed by [3, 4], some GNN models could reduce the influence of noisy data on the overall prediction effect by assigning low weights to unreliable nodes/edges. The second objective will be to develop an adapted approach to the AgroLD context by building meaningful representations from the high dimensional and complex gene data.

Objective 3: Finally, based on previous candidate gene studies in the biomedical field [5, 6] and because inferring gene regulatory networks (GRN) can be formulated as a link prediction problem in Graph Neural Networks (GNN) [7], the third objective will be to apply GNN models to implement candidate gene prioritization and GRN methods to answer biological questions related to adaptation of crops to drought stress and plant diseases.

References

1. Venkatesan A, Tagny Ngompe G, Hassouni NE, Chentli I, Guignon V, Jonquet C, et al. Agronomic Linked Data (AgroLD): A knowledge-based system to enable integrative biology in agronomy. PLOS ONE. 2018;13:1–17.
2. Zhang X-M, Liang L, Liu L, Tang M-J. Graph Neural Networks and Their Current Applications in Bioinformatics. Front Genet. 2021;12.
3. Neil D, Briody J, Lacoste A, Sim A, Creed P, Saffari A. Interpretable Graph Convolutional Neural Networks for Inference on Noisy Knowledge Graphs. ArXiv181200279 Cs Stat. 2018.
4. Li X, Saude J. Explain Graph Neural Networks to Understand Weighted Graph Features in Node Classification. ArXiv200200514 Cs. 2020.
5. Alshahrani M, Hoehndorf R. Semantic Disease Gene Embeddings (SmuDGE): phenotype-based disease gene prioritization without phenotypes. Bioinform. 2018;34:i901–7.
6. Chen J, Althagafi A, Hoehndorf R. Predicting candidate genes from phenotypes, functions and anatomical site of expression. Bioinformatics. 2021;37:853–60.
7. Gligorijević V, Barot M, Bonneau R. deepNF: deep network fusion for protein function prediction. Bioinformatics. 2018;34:3873–81.

Profil du candidat :
Expected profile:
The candidate must have the equivalent of a BAC+5 degree from a University or Engineering School, with specialization in applied mathematics, data science-related, graph theory and machine learning fields. A good understanding of molecular biology and bioinformatics is a plus. We are expecting applicants to have a solid background in programming (Python). The candidate must have a good understanding of English.

Formation et compétences requises :

How to apply:
Applications have to be send before June 23th 2023 and require the following documents:
1) Motivation letter
2) 2-pages max CV
3) M1, M2 academic transcripts
4) references if possible
to be sent by mail to: pierre.larmande@ird.fr and francois.scharffe@umontpellier.fr

Adresse d’emploi :
Link to the full description: https://sites.google.com/site/larmandepierre/positions/phd-in-computational-biology-and-bioinformatics

Explainable and Multi-Modal DL/ML Models for Extreme Narrative Detection in the Online Social Discourse.

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS (equipe REMI) / AGORA
Durée : 3 ans
Contact : michele.linardi@cyu.fr
Date limite de publication : 2023-06-15

Contexte :
Increased polarization triggered by social protest movements, the Covid-19 crisis and the war in Ukraine are historical events that have recently favored extremist narratives in public and online debates.
Extremist (a.k.a Extreme) narratives (EN) constitute counter-narratives in the sense that they challenge mainstream worldviews and social interpretations of major events in many kinds of public debate e.g., social media, parliamentary interventions, journals, books, and many others. This thesis offer is integrated in the context of the Horizon Europe ARENAS project (Grant agreement ID: 101094731), coordinated by CY Cergy Paris Université, and aims to contribute to Work Package 2 dedicated to the definition, identification and detection of extremist narratives. (https://cordis.europa.eu/project/id/101094731).

Sujet :
In this Ph.D. thesis, we want to study the EN characterization, modeling and automatic detection. Specifically, we note that the extremist narratives analysis should not only be seen from a radicalization/terrorism viewpoint, for which a rich Machine Learning (ML) literature already proposes multiple solutions. We observe that EN must be studied in a more general context that concerns different kind of values such as people democracy, citizenship, rights, etc., which do not necessarily assume a violent or hatred sentiments.
EN modeling cannot be only isolated to violent and extreme language features, but it must also consider a wider spectrum of narrative elements such as the beliefs, traits, practices of a collectivity, etc. that identifies a group of people sharing the same identity.

The principal thesis objective is to propose new (DL/ML) tools that characterize extremist narratives in corpora from different contexts (social media, political debates, transcripts, etc.).
We argue that EN modeling choice is not only restricted to text but must effectively consider other types of data, i.e., Graphs, Images, and Knowledge Base. In this case, we want to focus on multi-modal knowledge extraction, which is a challenging topic in Machine Learning.
The existing multi-view machine learning approaches usually are not adapted for multi-modal data or use the same similarity/distance measure for all the views.
A crucial objective of our research is to propose novel multi-modal knowledge extraction methods to detect extremism narratives and characterize them.

The successful candidate will work in close collaboration with language experts (from Heinrich Heine University of Düsseldorf and from Institute of Contemporary History-Ljubjana University) that will provide linguistic expertise and validation, along with labelled corpora from heterogeneous online (multi-modal) content. Interactions will be made with work already in progress at Cergy on forensic linguistics, the analysis of fake news, and digital discourse in a political context.

Profil du candidat :
Applicants should contact via email Michele Linardi (michele.linardi@cyu.fr), Julien Longhi (julien.longhi@cyu.fr) and Nistor Grozavu (nistor.grozavu@cyu.fr) with:

• A full curriculum vitae, including a summary of previous research experience.
• A transcript of higher education records.
• A one-page research statement discussing how the candidate’s background fits the proposed topic.
• Two support letters of persons that have worked with them.

The deadline of the application is: June 4th, 2023 (11h59 pm AoE).

Formation et compétences requises :
The candidate must fit the following requirements:

– Master’s degree in computer science or data science.
– Advanced programming skills in Python (C++/Java is a plus).
– Strong mathematical background, including Linear Algebra and Statistics.
– Research experience in Machine learning, Deep Learning and Data Mining.
– Fluency in written and spoken English is essential.

Adresse d’emploi :
CY Cergy Paris Université
33 bd Port, 95000 Cergy

Document attaché : 202305170940_ThesisProposal_full.pdf

Post-Doc – Fouille de motifs fréquents pour l’analyse de comportement touristique circulatoire

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : DVRC/ESILV
Durée : 12 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2023-07-12

Contexte :
L’appréciation des visites effectuées par les touristes est un enjeu majeur dans le monde du tourisme afin d’anticiper les évolutions de tendances, mais aussi la manière dont ils circulent sur le territoire. Une approche permettant d’estimer cette appréciation est de reposer sur l’extraction de motifs fréquents sur un graphe de circulation, comme l’extraction de Graphlet [1], k-decomposition [2], ou encore les structures cohésives comme les k-plex [6]. Ainsi, les tendances touristiques sont extraites grâce à leurs fréquences d’apparition de manière topologique.
Toutefois, les données touristiques provenant de sites prescripteurs d’expérience, tels que TripAdvisor, donnent lieu à des volumes difficiles à intégrer dans les techniques traditionnelles de fouille de données. En effet, avec un grand nombre de lieux visité (millions), et un nombre énorme de commentaires laissés par les utilisateurs (milliards), il est nécessaire de développer une nouvelle approche pour le passage à l’échelle d’algorithmes basés sur les graphes. De plus, la compréhension du territoire se fait également par l’analyse du graphe à plusieurs échelles.

Sujet :
Pour ce faire, au sein du groupe digital du DVRC, nous travaillons sur le développement en Pregel [3] de différentes approches existantes pour pouvoir définir la meilleure stratégie de fouille de motifs tout en les adaptant à des problématiques de résumer de graphes à différentes échelles. De plus, l’aspect géodésique des données est un facteur important lié à la topologie des données [4, 5, 7], tout autant que la fréquentation. Nous étudions donc l’adaptation des méthodes existantes pour améliorer l’efficacité de la fouille de motifs basée sur ces informations [8, 9, 10, 11].
Ce postdoctorat est financé grâce à un projet lié à la Métropole Européenne de Lille (MEL2). Dans ce cadre, nous collaborons avec la Métropole et l’ADULM pour les questions métiers, mais surtout avec le laboratoire EIREST de Panthéon-Sorbonne sur la recherche en géographie liée au tourisme. Un autre postdoctorant sur ces aspects a déjà débuté ses travaux et sera en interaction avec le candidat. Le but étant d’apporter de la transdisciplinarité dans ces travaux en intégrant les questions métiers du tourisme au sein même des stratégies de fouille de motifs. Nous accorderons aussi une importance à l’interprétation des résultats pour traduire les motifs pour la compréhension des comportements touristiques sur le territoire Lillois. Pour finir, les données pourront être complétées avec des informations multidimensionnelles disponibles au sein du projet MEL2 (Booking, Airbnb, Observatoire du tourisme à la MEL, etc.).
Le but de ce postdoc est donc multiple :
– Intégrer des méthodes de fouille de motifs dans une base de données Neo4j (en Pregel/Java) ;
– Améliorer une méthode pour donner une heuristique de fouille adaptée au contexte géodésique ; – Traduction des motifs fréquents sur un comportement touristique à différentes échelles ;
– Développement sur la plateforme eKhonsou avec données multidimensionnelles.

Profil du candidat :
Niveau Doctorat en informatique.

Formation et compétences requises :
Connaissances en bases de données, Data Mining, BD graph (Neo4j, Cypher), Java programmation répartie, node.js.

Adresse d’emploi :
Laboratoire de recherche De Vinci Research Center au sein de l’École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense.

Document attaché : 202305151624_2023_PostDoc_GraphMining.pdf

CFP First Workshop on Conceptual design for Internet of Robotic Things @ER23 with Software and Systems Modeling Journal

Date : 2023-08-08
Lieu : Lisbon, Portugal

First Workshop on Conceptual design for Internet of Robotic Things (CD4IoRT)
To be held in conjunction with ER 2023 (https://er2023.inesc-id.pt)
November 6-9 2023
Lisbon, Portugal
https://pros.unicam.it/cd4iort

!!!!Selected regular papers will be invited to submit an extended version to the special session of Software and Systems Modeling Journal

************************************************************************
** GENERAL INFORMATION and GOAL OF THE WORKSHOP **

The objective of the First Workshop on Conceptual Desing for Internet of Robotic Things (CD4IoRT) is to foster the use of conceptual design in the Internet of Robotic Things (IoRT) domain. Thanks to the advantages brought into everyday human life, IoRT systems have emerged as key technologies with a wide range of applications, in many application domains, e.g., agriculture, manufacturing, industry, domotics, and health. However, the implementation and management of these systems require a broad set of skills. This knowledge gap can be closed by novel conceptual modeling and engineering approaches specific to these software systems. The workshop aims to be a point of contact for practitioners and researchers from Conceptual Modeling with other communities such as Software Engineering, Databases, Business Process Management, Distributed Systems, Formal Methods, and Information Systems where creating a dialogue centered on the development of scientific foundations in this topic. The workshop will foster the discussion of research works case studies, experiences, and industry showcases in order to set up joint activities and future research directions.

** LIST OF TOPICS **

We seek contributions covering all aspects of data modeling for IoRT data applications including, but not limited to, the following topics:

Conceptual modeling and languages for IoRT data
Model-driven engineering for IoRT systems
Low code methods for IoRT systems
Integration and querying IoRT data
Requirement engineering for IoRT systems
IoRT and Artificial Intelligence
Edge-Fog-Cloud architectures design
Data and QoS modeling
Real-time, NoSQL databases
Data stream management systems design
Embedded systems design
Real-life (Urban, agriculture, health, …) applications

** SUBMISSION INSTRUCTIONS **

Submissions should present original works not currently under review or published elsewhere.

This workshop accepts research and industrial papers:
Regular: 10 pages max.
Short: 6 pages max (Demostration, Vision, and Showcase papers)

All accepted papers will be published in the conference proceedings and will be submitted for inclusion.

Papers should be submitted in PDF format using the EasyChair online submission system (https://easychair.org/conferences/overview?a=30545729). Authors should consult Springer’s authors’ guidelines and use their proceedings templates, either for LaTeX or for Word, for the preparation of their papers.

!
** IMPORTANT DATES **
Abstract Submission: 02 August 2023
Acceptance Notification: 04 September 2023
Camera-Ready Papers: 20 September 2023

** WORKSHOP ORGANIZERS **

Sandro Bimonte, INRAE, France
Lorenzo Rossi, University of Camerino, Italy

** PUBLICATION **

The workshop papers will be published by Springer in LNCS series.

The authors of selected workshop regular papers will be invited to submit an extended version of their contributions to the special session “Model-based Engineering for Internet of Robotic Things Applications” of the Springer’s Software and Systems Modeling Journal


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Ecole thématique “Masses de Données Distribuées”

Annonce en lien avec l’Action/le Réseau :

Thème :

Exploitation de données massives

Présentation :

L’école thématique CNRS MDD « Masses de données distribuées » est une école thématique récurrente ayant lieu tous les deux ans depuis 2010. Cette école est une émanation de la communauté des bases de données en France, structurée autour de la conférence BDA : Gestion de données – principes et applications, qui a fêté ses 30 ans d’existence en 2016. Si notre conférence est le lieu de rencontre de notre communauté, l’école thématique MDD permet d’exposer en détails des thèmes fondamentaux pour la compréhension de l’évolution de notre domaine de recherche, et de préparer les doctorant(e)s à suivre – et provoquer – ses évolutions.

Du : 2024-06-23

Au : 2024-06-28

Lieu : Ceillac

Site Web : https://cedric.cnam.fr/lab/confs/mdd2024/

Partage et analyse de données multi-points de vues pour la préservation du patrimoine culturel

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LIAS, équipe IDDM, ISAE-ENSMA , Poitiers, Futurosc
Durée : 3 ans
Contact : baron@ensma.fr
Date limite de publication : 2023-05-27

Contexte :
Cette thèse se déroule dans le contexte du projet ANR Digitalis : https://digitalis.humanities.science/

Sujet :
L’objectif est de proposer une représentation numérique intégrée et des outils qui accompagneront la recherche archéologique. Ils faciliteront l’efficacité de la collecte et de la numérisation de données. Il devra permettre des raisonnements sur des objets du patrimoine en s’appuyant à la fois sur la collecte de données et sur la visualisation 3D de ces objets. La connaissance sera structurée via un modèle de connaissances qui facilitera le partage en s’appuyant sur des standards existants. Des techniques liées à l’apprentissage automatique pourront être utilisées pour inférer de nouveaux faits historiques.

Profil du candidat :
Le candidat doit détenir un diplôme de Master en Informatique ou un diplôme d’ingénieur spécialité Informatique.

Formation et compétences requises :
Une bonne connaissance de la programmation (Java, JavaScript et Python), des bibliothèques/frameworks (frameworks web, bibliothèque d’apprentissage automatique) et des solutions de stockage (stockage RDF et SGBDR) est requise. Un bon niveau en français et en anglais est fondamental. Une motivation pour le domaine historique est fortement recommandée.

Adresse d’emploi :
Poitiers, Futuroscope

Document attaché : 202305150802_Digitalis_thesis_2023_fr.pdf

Stockage de données numériques dans de l’ADN synthétique – Grandes avancées et défis à relever

Annonce en lien avec l’Action/le Réseau :

Thème :

Stockage des données

Présentation :

L’objectif de cette journée est de faire le point sur les avancées technologiques et les grands défis à relever dans le domaine du stockage moléculaire. La journée débutera par deux tutoriels d’introduction au sujet, avant de se poursuivre par des exposés plus techniques. Cette journée est organisée par le GDR ISIS, mais est ouverte aux GDR MADICS et BIM dans le but de fédérer une communauté interdisciplinaire autour de cette thématique.

Du : 2023-07-03

Au : 2023-07-03

Lieu : Jussieu, Paris

Site Web : https://www.gdr-isis.fr/index.php/reunion/492/

Machine Learning for EArth Observation Data (Workshop @ECML/PKDD2023)

Annonce en lien avec l’Action/le Réseau :

Thème :

Machine Learning for Earth Observation Data

Présentation :

This workshop aims to be an international forum where machine learning researchers and domain experts can meet each other to exchange, debate, and draw short and long-term research objectives around the exploitation and analysis of EO and atmospheric data via Machine Learning techniques. Among the workshop’s goals, we want to give an overview of the current machine-learning research dealing with EO and other atmospheric measurement data. On the other hand, we want to stimulate concrete discussions to pave the way to new machine learning frameworks especially tailored to deal with such data.

Du : 2023-09-18

Au : 2023-09-18

Lieu : Torino, Italy, 2023

Site Web : https://sites.google.com/view/maclean23/

Estimation de l’uplift dans les systèmes de recommandation d’offres

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Innovation Orange (Lannion) et GREYC CNRS UMR 6072
Durée : 3 ans
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2023-08-31

Contexte :
Pour candidater :
déposer votre candidature à
https://orange.jobs/jobs/v3/offers/124860?lang=fr

Les systèmes de recommandation d’offres tels que les NBO (Next Best Offer) sont de plus en plus courants dans les entreprises comme Orange qui cherchent à améliorer leurs relations avec les usagers de leurs services. On propose aux clients ou visiteurs une action personnalisée en fonction de leurs profils et de leurs préférences. Cependant, le traitement personnalisé en recommandant une offre sur ces critères ne suffit pas toujours à satisfaire un client. Il est donc important pour les entreprises de mesurer l’uplift [1], c’est-à-dire la différence de revenu ou de satisfaction entre les choix que le client aurait effectué sans recommandation et ceux qu’il effectue avec recommandation. Le défi des systèmes de recommandation d’offres est donc de trouver des algorithmes pour mesurer l’uplift et estimer des politiques du système de recommandation efficaces. Le choix de la mesure d’uplift et de la modélisation de la politique du système est un enjeu important pour maximiser l’impact des actions. Une difficulté intrinsèque de l’uplift est qu’on ne peut pas faire un traitement et un non-traitement pour un même individu. Ce qui implique que l’uplift ne peut pas être mesuré directement pour un individu mais uniquement pour un groupe d’individus, ce qu’on appelle le CATE (Conditional Average Treatment Effect). Hors la mesure du CATE dans un système ou les profils changent selon le traitement que l’on veut faire devient difficile à estimer [4]. De plus, les biais entre les données issues de différents traitements biaisent la mesure de CATE. La littérature propose différentes approches pour résoudre ce problème. Certaines visent à débiaiser les données et utiliser un estimateur robuste [2] et d’autres à utiliser directement les approches causales [5].

Sujet :
L’objectif de la thèse consiste à proposer de nouvelles métriques d’évaluation et des méthodes de modélisation pour l’uplift dans un système de recommandation d’offres. Les défis principaux défis sont l’évaluation de l’uplift dans un système de recommandation et l’apprentissage de politique de recommandation optimisant l’uplift dans un contexte de données biaisées. On s’intéressera en particulier aux approches causales [3, 5] et approche bayésienne connues [2] pour leur robustesse.

[1] Sato Masahiro et al. “Uplift-based evaluation and optimization of recommenders”, proceedings of the 13th ACM Conference on Recommender Systems, 2019.
[2] Rafla Mina, et al. “A Non-Parametric Bayesian Approach for Uplift Discretization and Feature Selection”, ECML PKDD 2022.
[3] Verlelst Théo et al. “Partial counterfactual identification and uplift modeling: theoretical results and real-world assessment”, Machine Learning, 2023, p. 1-25.
[4] Qian Xufeng et al. “Intelligent Request Strategy Design in Recommender System”, proceedings of the 28th ACM SIGKDD 2022.
[5] Bang Heejung et Robins James M. “Doubly robust estimation in missing data and causal inference models”, Biometrics, 2005.

Profil du candidat :
Le profil souhaité est BAC + 5, école d’ingénieur ou Master Recherche statistiques et/ou mathématiques appliquées et/ou data sciences.

Formation et compétences requises :
– la doctorante ou le doctorant devra avoir une bonne connaissance des statistiques et des mathématiques.
– des connaissances en apprentissage machine sont un réel plus.
– des compétences en programmation sont indispensables : maîtrise d’un langage de script dédié à l’analyse de données (Python, éventuellement R ou Matlab).
– une forte motivation, des capacités de synthèse, à bien rédiger et présenter les travaux (anglais) et à s’intégrer dans une équipe sont également demandées
– une expérience sous la forme d’un stage de recherche dans le domaine statistique/ apprentissage machine.

Adresse d’emploi :
Innovation Orange (Lannion) et laboratoire GREYC CNRS UMR 6072 (Caen)

Au sein de Innovation Orange, vous serez intégré(e) dans une équipe de recherche à la pointe de l’innovation et de l’expertise en Machine Learning travaillant sur diverses thématiques, comme par exemple les modèles génératifs, le traitement de séries temporelles, l’IA éthique et la modélisation de l’Uplift. Vous ferez partie d’un écosystème de recherche côtoyant les unités opérationnelles, ayant pour but de développer des algorithmes à la pointe et de les diffuser dans le groupe.

Sujet porteur permettant l’évolution vers les métiers de la recherche en apprentissage artificiel ou de la data-science

Valorisation des travaux via la collaboration au développement d’une librairie open source python sur la modélisation de l’uplift (Kuplift).

Salaire : Vous percevez une rémunération annuelle brute de 33 848 € en 1ère et 2ème année et de 38 480 € en troisième année.

Pour candidater :
déposer votre candidature à
https://orange.jobs/jobs/v3/offers/124860?lang=fr