optimization in the presence of uncertainties, application to the energy efficiency of buildings

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : Ecole Centrale Lyon
Durée : 12 months
Contact : celine.helbert@ec-lyon.fr
Date limite de publication : 2024-03-31

Contexte :
Including model and environmental uncertainties in decision aiding methods is often seen as becoming increasingly important. This is the case when seeking optimal renewing strategies for buildings.
However the theory and the algorithms for optimizing in the presence of uncertainties is still an active research domain, particularly when optimizing many criteria.
In this post-doctoral work, we will focus on costly and general nonlinear constrained multi-objective optimization problems that are affected by uncertainties. We will consider the case where the uncertain parameters can be separated from the optimization variables and can be chosen during the simulations. Because of this separation and providing a probability of occurence of the uncertainties exists, a statistical modeling in the joint design × uncertain parameters space is possible. This will be the context of the work.

Sujet :
The goal of this work is to improve the ideas introduced in [El Amri 23] by putting them in the context of multi-objective optimization under uncertainties. The expected hyper-volume improvement must be adapted to take into account the uncertainties and a sampling SUR criterion must be devised to choose the value of the random parameter to be evaluated. A multi-output Gaussian process can be proposed to take into account the correlation between the objective functions. A wise choice of the correlation kernel should be done.
The methods developed will be applied to the design of energy efficient
buildings, a major contemporary challenge. The criteria are the energy usage of the building, the thermal comfort and the cost. Important uncertainties affect the cost (through the cost of energy) and the external conditions through the climate change.
[El Amri] : R. El Amri, R. Le Riche, C. Helbert, C. Blanchet-Scalliet and S. Da Veiga, A sampling criterion for constrained Bayesian optimization with uncertainties, to appear in SMAI Journal of Computational Mathematics, 2023.

Profil du candidat :
• doctoral degree or equivalent in mathematics,
• proven strong background in uncertainty quantification or statistical learning theory,
• substantial experience in numerical programming.

Formation et compétences requises :
See above

Adresse d’emploi :
Institut Camille Jordan (ICJ), Campus of l’Ecole Centrale de Lyon, Ecully.
Stays will be expected at the LIMOS laboratory, either in Clermont-Ferrand, or in Saint-Etienne, FR.

Document attaché : 202312141710_postdocoffer_moo_uncertainties.pdf

Synergies in Turbulent Natural Convection: Bridging Convolutional Neural Networks, Physics- Informed Machine Learning, and High-Performance Computing for improved modeling

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN – UMR9015
Durée : 12 (+6)
Contact : anne.sergent@lisn.fr
Date limite de publication : 2024-06-30

Contexte :
The mechanical engineering department of the LISN lab invites applications for a one-year postdoctorate position to conduct cutting-edge research at the intersection of turbulent natural convection, convolutional neural networks (CNN), physics-informed machine learning, and high-performance computing (HPC). The successful candidate will work on advancing the field of super-resolution analysis for turbulent fluid flows using innovative approaches based on numerical and
experimental ombroscopy techniques.

Supervision and research team

The Postdoc will work in collaboration with Didier Lucor and Anne Sergent from LISN, and Julien Salort and Francesca Chillà from the Physics Lab of ENS Lyon (https://www.ens-lyon.fr/PHYSIQUE). Thus, the research team is composed by physicist, fluid mechanics and artificial intelligence researchers from different laboratories, leading to a multidisciplinary project funded by ANR.

Funding

This project is funded by the ANR research project THERMAL.
The post-doctoral position is a one-year full-time appointment starting during 2024. Gross salary will depend on the experience of the candidate, up to approx. 40,000 €/year (net salary: up to approx. 32,000 €/year). The candidate will also benefit from French social insurance.
Within the framework of the ANR project THERMAL the postdoc will have funding for participation in conferences, publication fees and visits to Lyon lab. Moreover, the postdoc will have access to compute servers from University Paris-Saclay and GENCI national supercomputers.

Deadline for Applications: first semester 2024
The Postdoc is expected to start in 2024 (preferably during the first semester)

Application Process
Interested candidates should submit the following documents to didier.lucor@lisn.fr and anne.sergent@lisn.fr :
1. Curriculum Vitae (CV) including a list of publications.
2. Cover letter detailing the candidate’s research experience and interest in the position.
3. Contact information for three references.

Sujet :
The research will build upon recent surveys on machine-learning-based super-resolution reconstruction of turbulent flows. The candidate will explore and develop methods to enhance the resolution of turbulent flows through the application of CNN-based techniques, physics-informed loss
functions with access to direct numerical simulations databases produced with high-performance computing technologies on national supercomputers. The goal is to reconstruct instantaneous vortical
flows and temperature fields with high fidelity, even in scenarios with limited/partial training data and noisy inputs.

Key Responsibilities

1. Implement and refine machine-learning models, particularly CNN-based methods, for super-resolution reconstruction of turbulent flows.
2. Investigate the use of physics-informed loss functions and neural network structures to improve the accuracy and robustness of super-resolution models.
3. Collaborate with the lab team to integrate multi-scale filters, unsupervised techniques, and spectral properties into the super-resolution models.
4. Assess the robustness and sensitivity of models against noisy inputs, especially in the context of experimental measurements.
5. Contribute to the development of super-resolution models in wavespace for incorporating specific spectral properties.

Profil du candidat :
– Ph.D. in Computational Fluid Mechanics, Aerospace Engineering, Applied mathematics, Computer Science or a related field.
– Proven track record of publications in relevant peer-reviewed journals.

Formation et compétences requises :
– Strong background in machine learning, particularly convolutional neural networks.
– Experience in physics-informed machine learning and high-performance computing.
– Very good programming skills (e.g., Python, TensorFlow, PyTorch).

Adresse d’emploi :

Page d’accueil

LISN lab (CNRS & Université Paris Saclay):
The mechanical engineering department develops broad-spectrum research activities mainly in fluid mechanics and computer science. Over the last decade, expertise has developed at the interface of computational fluid mechanics, HPC and physics-informed machine learning, uncertainty
quantification and data assimilation techniques.

Document attaché : 202312141407_postdoc-anr-thermal_v2.pdf

Experimenting Embeddings with Graph Neural Networks for Knowledge Graphs using RDF Reification

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université de Nantes
Durée : 5 à 6 mois
Contact : Patricia.Serrano-Alvarado@univ-nantes.fr
Date limite de publication : 2024-03-31

Contexte :
The context of this work is the CLARA project [CLARABench]1. In this internship, we are interested in analyzing knowledge graphs using deep learning methods. Since their introduction, deep learning models have been at the center of attention. The latest examples are the Large Language Models (LLMs) and in particular the transformer model [Transformer] used by ChatGPT. These models are built for tasks such as chatbots, conversational AIs, or sentiment analysis of texts. However, deep learning models have proven to be very efficient for other tasks, like the Convolutional Neural Networks (CNNs) for image recognition. This efficiency has also been proven for analyzing knowledge graphs with Graph Neural Networks (GNN) [SurveyGNN]. GNN models are particularly efficient for tasks such as link prediction, entity classification, or k-nearest neighbours.
Knowledge graphs represent statements as triples (head, relation, tail). Each triple is a fact stating a relation between two entities. Statements about statements, also called statement-level annotations, are increasingly used. They allow specifying that a statement is true under a particular context. Context can concern temporal aspects, provenance, trust values, scores, weights, etc. RDF reification allows expressing statement-based annotations in a generic way. We believe that current GNN models are not suited for processing annotations. GNN models do not support RDF reification because it may introduce noise that would reduce the quality of the results.

Sujet :
The goal of this internship is to show the limits of existing GNN models in the presence of RDF reification and to propose a new model that efficiently integrates RDF annotations.

You will participate in research work alongside a PhD student in the following tasks:
● Defining and running an experimental protocol. You will conceptualize and run an experimental protocol to put into light the impact of reification on GNN models. This will require the understanding of (a) several models (e.g., R-GCN [RGCN], HypE [HypE], RDF2vec [RDF2vec]), (b) the different reification approaches and their impact on GNN models (standard reification [Standard], n-ary relations [N-ary],

RDF-star [RDF-star]), and (c) how the impact of RDF reification on the GNN models can be measured. The obtained results will be the baseline for the next task.
● Creating a new GNN model. You will help in contributing a GNN model that better integrates RDF reification. The model will be inspired by the message-passing algorithm used in GNNs such as R-GCN and it should be able to adapt to RDF reification. The result of this approach should be compared to the baseline previously obtained.

Profil du candidat :

Knowledge of Machine Learning and Deep Learning.

Good programming skills, in particular in Python.

Formation et compétences requises :
Master or Engineer Student.

Adresse d’emploi :
Université de Nantes

Document attaché : 202312141033_2023-2024 Stage Master 2.pdf

Méthodes de dé-mélange pour la correction d’atténuation en tomographie optique diffuse de fluorescence

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Insitut Fresnel
Durée : 5 mois (Mars à Juill
Contact : andre@fresnel.fr
Date limite de publication : 2024-03-31

Contexte :

Les technologies d’imagerie capables de détecter les processus biologiques précoces in vivo de manière non invasive pour des études longitudinales, avec une haute résolution, représentent un défi pour la recherche biomédicale. Le concept de notre système d’imagerie repose sur un nouveau d’imagerie optique diffuse de fluorescence multicolore pour l’imagerie in vivo du petit animal en trois dimensions (3D) dans la fenêtre NIR-II (1000-2000 nm). La tomographie optique diffuse de fluorescence consiste à injecter au sujet (ici une souris) des substances chimiques qui se fixent sur différents organes. Ces substances chimiques, appelées fluorophores, sont alors excitées par une source lumineuse puis réémettent de la lumière lors de leur relaxation, à plus faible énergie (plus longue longueur d’onde). L’objectif est de reconstruire des images à partir de ce signal de fluorescence. Le signal de fluorescence ainsi que la source d’excitation peuvent être atténués à la fois par l’absorption et la diffusion des différents milieux traversés, ce qui entraîne une distorsion des spectres mesurés. Les méthodes conventionnelles de dé-mélange linéaire permettent de séparer les spectres sans tenir compte de ces effets.

Sujet :
Les algorithmes de dé-mélange multilinéaire [1] ont montré leur efficacité pour la séparation de signaux multidimensionnels issus de la spectroscopie de fluorescence [2]. Ils permettent d’estimer les spectres d’excitation, les spectres d’émission de fluorescence ainsi que les concentrations relatives de plusieurs fluorophores présents dans plusieurs solutions chimiques.
Le but de ce stage est de mettre en œuvre des méthodes de décomposition multilinéaire pour corriger des images tomographiques hyper-spectrales de l’atténuation [3].

[1] T. G. Kolda and B. W. Bader, “Tensor decompositions and applications,” SIAM Review, vol. 51, no. 3, pp. 455–500, 2009.

[2] R. Bro, “Parafac, tutorial and applications,” Chemom. Intel. Lab. Syst., vol. 38, pp. 149–171, 1997.

[3] Hayato Ikoma, Barmak Heshmat, Gordon Wetzstein, and Ramesh Raskar, “Attenuation-corrected fluorescence spectra unmixing for spectroscopy and microscopy,” Opt. Express 22, 19469-19483 (2014)

Profil du candidat :
Le candidat devra être particulièrement à l’aise en programmation (python/Matlab) et avoir une réelle appétence pour les interactions entre l’informatique et la physique.

Formation et compétences requises :
Le candidat recruté devra être en dernière année d’école d’ingénieurs ou en Master 2 dans le domaine des mathématiques appliquées, le traitement du signal/images ou dans une formation équivalente. Il devra être particulièrement à l’aise en programmation (python/Matlab) et avoir une réelle appétence pour les interactions entre l’informatique et la physique.

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Automatic classification of plasmodium parasite species and stages of development from stained thin blood smears using machine learning

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre d’épidémiologie et de santé publique des a
Durée : 4-6 mois
Contact : muriel.visani@univ-lr.fr
Date limite de publication : 2024-03-31

Contexte :
Voir le fichier ci-joint

Sujet :
Voir le fichier ci-joint

Profil du candidat :
Voir le fichier ci-joint

Formation et compétences requises :
Voir le fichier ci-joint

Adresse d’emploi :
Centre d’épidémiologie et de santé publique des armées (CESPA), Marseille.

Document attaché : 202312131521_InternshipBloodSmear-CESPA-final_compressed.pdf

CORIA 2024 (COnférence en Recherche d’Information et Applications)

Date : 2024-04-03
Lieu : La Rochelle

CORIA (COnférence en Recherche d’Information et Applications) est la principale manifestation soutenue par l’Association Francophone de Recherche d’Information et Applications ARIA (http://www.asso-aria.org ).

Dates importantes

Soumission des articles résumés, courts et longs : jeudi 1er février 2024

Notification aux auteurs : mardi 5 mars 2024

Conférence : les 3 et 4 avril 2024 à La Rochelle

CORIA vise à rassembler les équipes et les personnes menant des travaux scientifiques dans le domaine de la recherche d’information et de ses applications : recherche d’information sur le web, sur les réseaux sociaux ou sur des collections spécifiques, systèmes de recommandation, fouille de documents, d’images, d’enregistrements audio, de vidéos, assistants personnels et chatbots… Devenue activité quotidienne du grand public, la recherche d’information est essentielle à de nombreux usages du numérique. L’activité scientifique et technologique associée ne cesse de croître en interaction avec d’autres domaines de l’informatique et d’autres disciplines, mathématiques, linguistique, sciences cognitives, mais aussi en lien direct avec l’industrie et les acteurs de l’internet, des médias, de la culture, de la santé ou de l’éducation. Les modèles récents intègrent l’apprentissage automatique, la fouille de données, le traitement automatique des langues, le traitement de la parole et du signal, l’analyse d’images ou encore l’informatique affective.

La conférence CORIA est ouverte à l’ensemble de la communauté scientifique internationale concernée par la recherche d’information du point de vue théorique comme du point de vue des applications. Le public visé par CORIA est celui des chercheurs académiques, incluant les étudiants en master et doctorat, des industriels et de tous les spécialistes du domaine. Toutes les publications CORIA sont diffusées en accès ouvert sur le site de l’ARIA et sont indexées par DBLP.

Soumissions

Les soumissions doivent être rédigées selon le style CEURART à une colonne et être soumises sous forme de fichiers PDF via le système EasyChair.

Système de soumission : https://easychair.org/conferences/?conf=coria2024

Modèle Overleaf : https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/wqyfdgftmcfw

Modèle de présentation téléchargeable : http://ceur-ws.org/Vol-XXX/CEURART.zip

Il est possible de soumettre des articles dans 3 formats :

– résumé (2 pages + références) : traduction résumée d’un papier déjà publié, résultat négatif, prise de position, description d’un projet;

– court (8 pages + références) : résultats préliminaires ou état de l’art;

– long (12 à 16 pages + références) : article scientifique complet.

Les soumissions, anonymisées, seront évaluées par 3 membres du comité de programme.

Dans le cas de soumissions de résumés d’articles déjà publiés, elles ne devront pas être anonymisées, et seront évaluées par un membre du comité de programme. L’article d’origine doit être indiqué ote toute ambiguité.

Des articles de longueur inférieure à la limite peuvent être soumis sans que cela soit préjudiciable. CORIA accepte les articles en anglais lorsque les auteurs ne sont pas francophones, mais privilégie les articles en français quand l’un des auteurs est francophone pour les versions finales.

Thèmes (liste non exhaustive) :

– Apprentissage et fouille pour la RI : apprentissage profond, apprentissage de représentations, apprentissage d’ordonnancement, classification;

– Représentation de l’information : indexation, entités liées, multimédia, profils, bases de connaissances;

– Compréhension de requêtes : intention de recherche, suggestion de requêtes, difficulté des requêtes, adaptation aux requêtes;

– Interaction utilisateur : interrogation flexible, modélisation de l’utilisateur, du contexte et de l’usage, accessibilité, RI conversationnelle, personnalisation, RI collaborative, RI interactive;

– Systèmes question/réponse, systèmes de dialogue, chatbots classiques et ChatGPT;

– RI et Humanités Numériques;

– Traitement automatique de la langue naturelle écrite et orale pour la recherche d’information : résumé automatique, détection d’entités nommées et de relations, analyse de sentiments et fouille d’arguments;

– RI et connaissances : web sémantique, web des données, ontologies;

– RI pour les assistants personnels et/ou vocaux;

– RI multilingue : recherche d’information multilingue, traduction automatique, RI interlangue;

– Passage à l’échelle : architectures, performance, compression;

– Analyse du Web : grands graphes, utilisation de la topologie du web, citations, analyse de liens;

– Réseaux sociaux : analyse de réseaux, d’opinions, diffusion d’information, prédiction d’activités, détection d’événements;

– Filtrage et recommandation : filtrage collaborative, démarrage à froid;

– Multimédia (image, audio, vidéos, sons, musiques) et texte : indexation, recherche, catégorisation, alignement;

– Systèmes de recherche d’information dédiés : recherche d’information génomique, géographique, médicale, recherche de brevets;

– Ressources et évaluation de la RI : évaluation, bancs d’essais, métriques, expérimentations qualitatives des systèmes;

– Transparence, équité et explicabilité des systèmes de RI…



Liana Ermakova et Philippe Mulhem

Co-chairs du comité de programme de CORIA 2024


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Workshop AI for Biological Imaging

Date : 2024-01-08 => 2024-01-09
Lieu : Sorbonne University, Paris
4, place Jussieu 75005
Bâtiment Esclangon

Dear all,

We are very happy to announce the:

7th Cross-disciplinary Genomics Meeting: “AI for Biological Imaging”
which will take place at Sorbonne University, Paris, January 8-9 2024.

Keynote speakers:
Haitham Shaban – University of Geneva, Lausanne, Switzerland
Christophe Zimmer – Institut Pasteur, Paris, France
Ulrike Endesfelder – Bonn University, Bonn, Germany
G. V. Shivashankar – ETH, Zürich, Switzerland
Olivier Colliot – Sorbonne Université, Paris, France
Thomas Walter – Institut Curie, Paris, France
Isabelle Bloch – Sorbonne Université, Paris, France
Matthieu Cord – Sorbonne Université, Paris, France
Susan Cox – King’s College London, London, UK
Maxime Deforet – Sorbonne Université, Paris, France

The registration is free but mandatory.

Please visit our website to discover our program and to register: https://ai4bi.sciencesconf.org

Looking forward to meeting you there,
Judith Miné-Hattab and Nataliya Sokolovska

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Self-Supervised Anomaly Detection in complex-valued SAR imaging

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ONERA / SONDRA, CentraleSupelec
Durée : 36 mois
Contact : chengfang.ren@centralesupelec.fr
Date limite de publication : 2023-12-07

Contexte :
Deep anomaly detection methods leverage neural networks to automatically extract crucial data features, mapping high-dimensional data into a more manageable, lower-dimensional latent space, thereby significantly enhancing anomaly detection performance. One standard method for anomaly detection is to utilize Autoencoders (AE) for data encoding and reconstruction, detecting anomalies based on reconstruction errors [S. Sinha, 20, S. Mabu, 21]. Due to the presence of speckle noise in SAR images, [M. Muzeau, 2022] proposed to denoise SAR images using the MERLIN algorithm [E. Dalsasso, 2021b] based on the noise2noise principle [J. Lehtinen, 18, E. Dalsasso, 21a]. This pre-processing step leads to better compression in the latent space, subsequently improving the detection performance. Further extension in [M. Muzeau, 23] proposed to guide the Adversarial AE (AAE) in the training process by filtering anomalies using an RX detector [I. S. Reed, 90].
On the other hand, self-supervised learning leverages pretext tasks to extract supervised information from unsupervised data, thereby learning valuable feature representations for downstream tasks such as classification, object detection, and segmentation [M. Caron, 21]. Self-supervised anomaly detection methods acquire data representations by creating supervised pretext tasks. The key to constructing these pretext tasks is to guide the model in learning a specialized representation suitable for anomaly detection, distinct from the general representation obtained through unsupervised learning.

Sujet :
This Ph.D. aims to investigate the above-mentioned methods for SAR anomaly detection, exploiting SAR diversities: polarimetric and interferometric channels [Pottier, 09], multi-bands, and multi-looks representation [A. Mian, 19]. Particular attention is dedicated to the phase information of the complex-valued SAR images, which is crucial to assessing the spectral (range-azimuth) bandwidth and keeping the coherency in polarimetric and interferometric channels. The Ph.D. student will rely on the previously developed open-source library (https://github.com/NEGU93) developed in [Barrachina, 19] for complex-valued radar data and based on Tensorflow although recent developments of the PyTorch framework now allow for processing complex-valued tensors with differentiable computational graphs. Using this library, it is possible to address and analyze any recent Machine Learning components like Autoencoders, Transformers, etc., through challenging theoretical methodologies (SAR denoising, self-supervised learning, characterization of latent spaces, etc.).

References:

• [S. Sinha, 20] S. Sinha et al., “Variational autoencoder anomaly detection of avalanche deposits in satellite SAR imagery,” in Proc. 10th Int. Conf. Climate Inform., 2020, pp. 113–119.
• [S. Mabu, 21] S. Mabu, S. Hirata, and T. Kuremoto, “Anomaly detection
using convolutional adversarial autoencoder and one-class SVM for landslide area detection from synthetic aperture radar images,” J. Robot., Netw. Artif. Life, vol. 8, no. 2, pp. 139–144, 2021.
• [M. Muzeau, 22] M. Muzeau, C. Ren, S. Angelliaume, M. Datcu and J. –
P. Ovarlez, “Self-Supervised Learning Based Anomaly Detection in Synthetic Aperture Radar Imaging,” in IEEE Open Journal of Signal Processing, vol. 3, pp. 440-449, 2022.
• [M. Muzeau, 23] M. Muzeau, C. Ren, S. Angelliaume, M. Datcu and J. . -P.
Ovarlez, “Self-Supervised SAR Anomaly Detection Guided with RX Detec-
tor,” IGARSS 2023 – 2023 IEEE International Geoscience and Remote Sensing Symposium, Pasadena, CA, USA, 2023, pp. 1918-1921.
• [J. Lehtinen, 18] J. Lehtinen et al., “Noise2Noise: Learning image restoration without clean data,” in Proc. 35th Int. Conf. Mach. Learn., 2018, vol. 80, pp. 2965–2974.
• [E. Dalsasso, 21a] E. Dalsasso, L. Denis, and F. Tupin, “SAR2SAR: A semi-
supervised despeckling algorithm for SAR images,” IEEE J. Sel. Topics Appl.
Earth Observ. Remote Sens., vol. 14, pp. 4321–4329, 2021.
• [E. Dalsasso, 21b] E. Dalsasso, L. Denis and F. Tupin, (2021), “As if by magic: self-supervised training of deep despeckling networks with MERLIN”, arXiv preprint arXiv:2110.13148.
• [I. S. Reed, 90] I. S. Reed and X. Yu, “Adaptive multiple-band CFAR detection of an optical pattern with unknown spectral distribution,” IEEE Transactions on acoustics, speech, and Signal Processing, vol. 38, no. 10, pp. 1760–1770, 1990.
• [M. Caron, 21] M. Caron, H. Touvron, I. Misra, H. Jégou, J. Mairal, P. Bo-
janowski, and A. Joulin. Emerging properties in self-supervised vision transformers, in Proceedings of the International Conference on Computer Vision (ICCV), 2021.
• [A. Mian, 19] A. Mian, J.-P. Ovarlez, A. M. Atto and G. Ginolhac, “Design of New Wavelet Packets Adapted to High-Resolution SAR Images With an Application to Target Detection”, Geoscience and Remote Sensing, IEEE
Transactions on, 57(6), pp.3919-3932, June 2019.
• [Pottier, 09] J.-S. Lee and E. Pottier, “Polarimetric Radar Imaging: From
Basics to Applications”, CRC Press, 2009.
• [Barrachina, 23] J.-A. Barrachina, C. Ren, G. Vieillard, C. Morisseau, and J.-
P. Ovarlez, “Theory and implementation of complex-valued neural networks,” arXiv preprint arXiv:2302.08286, Feb. 2023.

Profil du candidat :
Master in machine learning, applied mathematics, statistics, or signal processing. Good technical skills in programming. Eager to work in the radar and SAR imaging field.

Formation et compétences requises :
Master in machine learning, applied mathematics, statistics, or signal processing. Good technical skills in programming. Eager to work in the radar and SAR imaging field.

Adresse d’emploi :
The Ph.D. student will be hosted at the SONDRA laboratory (joint international laboratory between CentraleSupélec, ONERA, DSO National Laboratories, and National University of Singapore) in Paris-Saclay campus in Gif-sur-Yvette and at the MATS research unit (Advanced Methods in Signal Processing) of the Electromagnetism and Radar Department at ONERA’s Palaiseau site. Due to the international visibility of the lab, some overseas exchanges with Singapore could be easily considered. The SONDRA laboratory may finance any conference travel by the doctoral student.

Document attaché : 202312071051_Self_Supervised_Anomaly_Detection_in_complex_valued_SAR_imaging.pdf

Extraction d’Information sur les maladies transmises par vecteurs chez les plantes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MaIAGE – INRAE et AgroParisTech Saclay
Durée : 6 mois
Contact : claire.nedellec@inrae.fr
Date limite de publication : 2023-12-07

Contexte :
Contacts : claire.nedellec@inrae.fr, vincent.guigue@agrosparistech.fr, nicolas.sauvion@inrae.fr

Les phytoplasmes sont des bactéries qui causent des maladies d’arbres fruitiers dont les impacts économiques sont très importants en Europe [Hadidi et al., 2011]. Ces bactéries pathogènes s’attaquent à différents types de plantes de la famille des rosacées (Prunus, pommiers et poiriers). Les bactéries peuvent être transmises d’une plante à l’autre par des insectes piqueurs suceurs, des psylles du genre Cacopsylla. Ces bactéries et leurs insectes vecteurs sont endémiques en Europe. Ils sont largement présents dans les vergers ainsi que dans les habitats sauvages, ce qui limite leur contrôle et, par conséquent l’endiguement des maladies dont ils sont responsables. Les psylles vecteurs sont aujourd’hui contrôlés principalement par des insecticides, mais l’évolution des pratiques agricoles pourraient être, voire sont déjà, la source de nouvelles émergences de maladies. En effet, la réduction de l’utilisation des pesticides en accord avec le plan EcoPhyto en France et les nouvelles réglementations européennes moins contraignantes en terme de surveillance facilite leur dissémination.
Les efforts de la recherche pour mieux comprendre la biologie et l’écologie des psylles vecteurs (ou potentiellement vecteurs) de phytoplasmes visent à proposer de nouveaux moyens d’anticipation et de contrôle du risque épidémiologique. Malgré ces travaux, la connaissance des interactions biologiques de ces bactéries, insectes et plantes est incomplète et mal établie, notamment en raison du très grand nombre de publications.
Le web a démultiplié les possibilités d’accès aux documents scientifiques y compris très anciens. L’extraction automatique d’informations contenues dans ce type de documents par des méthodes de TAL a fait ses preuves dans de nombreux domaines de la biologie, notamment l’extraction d’entités nommées, leur normalisation et leur mise en relation. Les progrès récents sont considérables grâce aux larges modèles de langue (LLMs) qui ont trouvé de nombreuses applications notamment dans le domaine biomédical. Le domaine de l’écologie, sujet de ce stage, soulève des questions d’intérêt pour la recherche en TAL. Tout d’abord, les interactions biologiques d’intérêt impliquent plusieurs participants, au moins un pathogène, un vecteur et une plante, l’extraction de relations n-aires est donc nécessaire. Les articles reprennent des informations publiées en les citant. Associer la source bibliographique (la référence) à l’information extraite est nécessaire pour caractériser l’information dans la perspective d’en estimer la pertinence.

Sujet :
Le projet de Master porte sur l’extraction automatique de relations biologiques à partir de documents. Le stage ciblera en priorité trois espèces particulières de psylles vecteurs de bactéries pathogènes d’arbres fruitiers. Ce travail s’inscrit dans le cadre plus large d’un projet de thèse, sur la qualité et la nouveauté d’informations épidémiologiques [Nédellec et al. 2024], pour laquelle des candidats étudiants sont également recherchés. Les événements représentant les interactions biologiques entre microbe, insecte, plante et leurs lieux et dates d’observation sont dénotés dans les textes scientifiques par des formulations complexes variables qui portent fréquemment sur plusieurs phrases. L’enjeu sera d’extraire ces événements (voir figure) par des méthodes d’apprentissage profond (deep learning) avec un nombre limité d’exemples produits manuellement.
Nous faisons l’hypothèse qu’exploiter la connaissance disponible dans les domaines spécialisés par des LLMs peut pallier le nombre réduit de données d’entraînement annotées. Il s’agit ici de la base de connaissance Global DataBase de l’EPPO et Psyl’list [Ouvrard, 2022]. La méthode KBPubMedBERT [Tang et al., 2023] pourra être une première solution à explorer, ainsi que des méthodes génératives [Xu et al., 2023], ou semi-supervisée [Genest et al., 2022]. La distance parfois élevée entre les arguments d’événements multiphrases dépasse les limites de modèles de langue (e.g. BERT [Devlin et al., 2019], SciBERT [Beltagy et al., 2019], BioBERT [Lee et al., 2020) et devra faire l’objet de propositions adaptées, par exemple de réseau neuronal de graphe (GNN) pour construire un graphe d’entités et capturer les interactions entre les entités à travers les phrases [Li et al. 2022].
Le rattachement aux événements extraits des sources bibliographiques à travers leur citation est un second objectif du stage. Le rattachement des entités et références a fait l’objet de travaux [Viswanathan et al. 2021]. Il s’agit ici de traiter le rattachement des références à des événements structurés.

**Programme**

La/le stagiaire réalisera un état de l’art des méthodes existantes d’extraction de relations n-aires et de citations. Il/Elle adaptera une de ces méthodes au sujet et proposera des extensions originales intégrées dans le workflow ESV. Robert Bossy (éq. Bibliome) formera et accompagnera la/le stagiaire dans l’utilisation d’AlvisNLP. Les prédictions seront évaluées par les méthodes standards du domaine (e.g. F-mesure, rappel, précision). Les entités de type citation feront l’objet d’un traitement particulier portant sur leur extraction et leur rattachement aux événements biologiques. Un article sera préparé en collaboration avec les co-encadrants en fonction des résultats obtenus.

**Ressources**

Seront mis à disposition les éléments nécessaires à la réalisation des objectifs du stage : (1) le workflow opérationnel ESV sur la plateforme AlvisNLP d’extraction d’information d’entités, de normalisation et d’extraction de relations binaires, (2) la base de connaissance Global DataBase de l’EPPO, (3) un corpus de documents non annoté d’où les informations sont à extraire, (4) le corpus EPOP (Epidemiomonitoring Of Plant) annoté manuellement. Les moyens de calcul GPU du méso-centre de l’Université Paris-Saclay seront utilisés (e.g. Lab.IA).

Profil du candidat :
– Expérience de deep learning
– Expérience en TAL et/ou utilisation de la bibliothèque HuggingFace
– Maîtrise de l’anglais ou français courant.
– Compétences techniques requises : Python et/ou Java
– Intérêt pour les applications en biologie et le travail interdisciplinaire.

Formation et compétences requises :
– Master 2 en INFORMATIQUE orienté Traitement Automatique des Langues et/ou Apprentissage automatique

Adresse d’emploi :
Equipe Bibliome, unité MaIAGE, INRAE, Jouy-en-Josas

Document attaché : 202312061614_Stage IEV.pdf

Le TAL au service de la fouille d’articles scientifiques. Méthodes, objets d’études, sites d’études et impact des publications en écologie : une question de genre ?

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Informatique et Systèmes (LIS), Profes
Durée : 6 mois
Contact : patrice.bellot@univ-amu.fr
Date limite de publication : 2023-12-07

Contexte :
Les statistiques concernant l’équilibre des genres dans la recherche académique montrent que le pourcentage d’hommes et de femmes varie en fonction de la discipline concernée, et que dans les domaines dans lesquels les femmes sont traditionnellement minoritaires, les trajectoires de carrière des femmes sont en moyenne plus lentes que celles des hommes. La question de l’évaluation de la carrière et de la promotion repose en grande partie sur des critères de performance en termes de production scientifique. Se pose toutefois le défi d’évaluer l’originalité, la quantité, la qualité, et l’impact des recherches menées par une personne en particulier, que ce soit en termes d’impacts académique ou sociétal. Dans ce cadre, la disponibilité d’outils bibliométriques relativement faciles d’utilisation (logiciels dédiés, packages R et Python, outils fournis dans Google Scholar, Web of Knowledge, Altmetric) permet non seulement de calculer des critères usuels de performance (nombres d’articles, position, nombre de citations, « h-index ») et de visibilité en ligne (le nombre de consultations, de commentaires ou de partages), mais également des métriques propres aux analyses de réseaux complexes, reposant entre autres sur les listes de coauteurs, les adresses, les mots clés, les listes de référence. Des logiciels tels que Gargantext1 et VosViewer permettent d’explorer de tels réseaux de publications et d’auteurs au moyen de visualisations avancées.
Ceci ouvre donc la possibilité d’étudier plus finement où se jouent éventuellement des différences de performance et d’impact entre les genres. Par ailleurs, un des aspects peu étudiés des différences de genre est le contenu des articles publiés, qui permet cependant d’accéder à d’éventuelles différences de genre dans la production de connaissances, c’est-à-dire les méthodes utilisées, les organismes étudiés ou les lieux. Si ces caractéristiques diffèrent entre genre, et qu’elles influencent aussi l’impact des articles, alors, elles pourraient expliquer certaines des différences de performance bibliométriques et par suite, du déroulement de la carrière.

Sujet :
Résumé.
Le stage vise à identifier, à partir d’une analyse automatisée d’un corpus d’articles scientifiques issus de revues d’écologie, si le genre des auteurs impacte les méthodes, modèles, espèces et type d’écosystèmes étudiées, et les sites d’études. Dans un deuxième temps, la relation entre genre des auteurs, performance individuelle des auteurs, contenu et l’impact des articles sera aussi étudiée.
Sur le plan informatique, le stage combine des problématiques du traitement automatique des langues, de la recherche d’information et de la fouille de données : extraction d’information (notamment reconnaissance d’entités nommées et identification de mots-clés), représentations de documents et partitionnement à partir d’approches neuronales (modèles de thèmes de type BERTopic), analyse de graphes et détection de communautés.

Profil du candidat :
Master Informatique ou équivalent

Formation et compétences requises :
• Méthodes du traitement automatique des langues à base d’apprentissage machine pour l’extraction d’information et la classification automatique de textes (transformeurs, LDA, représentations vectorielles…)
• Intérêt pour les analyses bibliométriques et scientométriques
• Langage Python et bibliothèques spaCy, scikit-learn, Pandas et Keras ou PyTorch

Adresse d’emploi :
Le/la stagiaire réalisera son stage au LIS Marseille. Le/la stagiaire sera sous la responsabilité de Anne Loison, directrice de recherche au CNRS au LECA et de Patrice Bellot, professeur à l’université Aix-Marseille.
Des déplacements entre l’Université Aix-Marseille et l’université Savoie Mont-Blanc sont à prévoir (frais de déplacement et d’hébergement pris en charge).

Document attaché : 202312061355_stageMethodesObjectRechercheEcologieGenre.pdf