MaDICS

Analysis of SAR images of the Sundarban region for deforestation detection

Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IBISC/LMEE, Université Paris-Saclay, Univ. Evry
Durée : 4 à 6 mois
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2022-06-01

Contexte :
Sundarbans, UNESCO world heritage site, is a mangrove area in the delta formed by the confluence of the Ganga, Padma, Brahmaputra and Meghna Rivers in the Bay of Bengal. The site is intersected by a complex network of tidal waterways, mudflats and small islands of salt-tolerant mangrove forests.
This is also home to many endangered species like the Royal Bengal Tiger, Crocodile and numerous faunae. This is one of the most cyclone prone region of India where presence of this mangrove safeguards eastern part of India from the effect of cyclone. These forests also act as protection from soil erosion in the coastal region.
The sundari tree that populates the region is important for survival of various fauna of this region especially big mammals like royal Bengal tiger and spotted deer due to the characteristic of the tree. Other mangroves trees are relatively smaller in nature and grow in saline water, creating a bush type low height canopy near the canals, causing a hindrance to the movement of wild animals.
However, for the past couple of decades the mangroves of Sundarban are facing threats due to several natural and manmade causes. Due to global warming the number of cyclones and their intensity has increased in the Bay of Bengal. Cyclone Sidr (2007), Aila (2009), Amphan (2020) destroyed almost 40% of the forest.
Developing a strategy of active monitoring of the Sundarban forest, would allow to follow in real time the evolution of its state. Detecting the deforestation, would allow to identify the cause and to plan a remedy to finally protect the fauna but also the flora.

Sujet :
Internship proposal and main tasks to be carried out:

The candidate will carry out an appropriate survey of the state of the art on SAR image processing approaches in a deforestation context. The candidate will then investigate relevant classical features extraction methods and those based on machine learning techniques. The last step will focus on the development of a method that combines classical features from a SAR image with a deep learning architecture to characterize the state of the forest.

References:

[1] Abdelkader Horch, Khalifa Djemal, Abdelkader Gafour and Nasreddine Taleb, Supervised fusion approach of local features extracted from SAR images for detecting deforestation changes. IET Image Processing, 13 pages, DOI: 10.1049/iet-ipr.2019.0122, september 2019.

[2] Sahana, M., Rehman, S., Patel, P.P. et al. Assessing the degree of soil salinity in the Indian Sundarban Biosphere Reserve using measured soil electrical conductivity and remote sensing data–derived salinity indices. Arab J Geosci 13, 1289 (2020). https://doi.org/10.1007/s12517-020-06310-w

[3] Samanta, S.; Hazra, S.; Mondal, P.P.; Chanda, A.; Giri, S.; French, J.R.; Nicholls, R.J. Assessment and Attribution of Mangrove Forest Changes in the Indian Sundarbans from 2000 to 2020. Remote Sens. 2021, 13, 4957. https://doi.org/10.3390/rs13244957

Profil du candidat :
Required skills: To carry out this research work, the candidate need to have the following skills:
– Artificial intelligence, machine learning
– Data and image processing
– Computer science
– Applied mathematics (modeling and scientific calculations)

Internship supervision:
Khalifa DJEMAL and Amir FEIZ: University of Paris Saclay, France
Soham SARKAR: RCC Institute of Information Technology, Kolkata, India
Sheli Sinha CHAUDHURI: University of Jadavpur, Kolkata, India

Internship contacts:
Khalifa DJEMAL: khalifa.djemal@univ-evry.fr
Amir FEIZ: amirali.feiz@univ-evry.fr

Formation et compétences requises :
Python programming, data and image processing tools.
Machine learning methods. Basic knowledge in environmental sciences will also be highly appreciated.

Please send us your CV and Motivation letter.

Adresse d’emploi :
Université Paris-Saclay, Univ. Evry
IBISC, 40 rue du Pelvoux
91020 Evry.

Document attaché : 202205031006_Proposal-Inernship-deforestation.pdf

Categories: Stages

Navigation dans des règles d’implication extraites de connaissances agroécologiques en santé animale

Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRMM, CNRS et Univ Montpellier
Durée : 6 mois
Contact : marianne.huchard@lirmm.fr
Date limite de publication : 2022-06-01

Contexte :
Le stage est financé par l’institut de convergence #Digitag (https://www.hdigitag.fr/fr/) et pourra être complété par un mois de CDD.

Sujet :
Pour un producteur agricole, implémenter les pratiques agroécologiques au sein de son exploitation lui impose de disposer d’un système d’aide à la décision (SAD) pour les identifier, ce SAD comportant une base de connaissances suffisamment étoffée et un système de navigation adapté à ses besoins. La base de connaissances Knomana, par exemple, rassemble plus de 46000 descriptions d’usage de plantes à effet pesticide et antibiotique en santé végétale, animale et humaine (Silvie et al. 2021). La plateforme de visualisation RCAviz (https://info-demo.lirmm.fr/rcaviz/) permet de naviguer dans ce type de base de connaissances. Basé sur l’Analyse de Concepts Relationnels (RCA), une méthode de classification de données relationnelles, RCAviz permet de naviguer dans des structures conceptuelles de type graphe et d’identifier facilement, par exemple, une plante locale susceptible de protéger une culture contre un bioagresseur invasif, ou des plantes en partie équivalentes pour un problème sanitaire donné.
Outre les structures conceptuelles, RCA propose de représenter les connaissances sous forme de règles d’implication, un formalisme qui, proche du langage naturel, est bien adapté aux utilisateurs du monde rural (e.g. « F_Meliaceae => no-food » : les plantes de la famillle Meliaceae ne sont pas consommées). Pour autant, identifier la règle la mieux appropriée dans un grand ensemble de règles est difficile.

L’objectif du stage est de développer un prototype logiciel de visualisation de connaissances, exprimées sous forme de règles d’implications produites par la librairie FCA4J (http://www.lirmm.fr/fca4j). Cette application présentera les règles en regard de mesures d’intérêt ou d’après une formulation symbolique donnée par l’utilisateur, e.g. les règles relatives à un certain ensemble de conditions, pour les exploiter facilement.

Profil du candidat :
Etudiant de Master 2 (informatique ou bioinformatique) avec un intérêt pour l’ingénierie des connaissances, l’analyse visuelle (visual analytics), et à trouver des solutions alternatives aux pesticides et antibiotiques de synthèse pour l’agriculture biologique.

Formation et compétences requises :
Compétences solides en programmation d’application web (notamment javascript) et connaissances en ingénierie des connaissances.

Adresse d’emploi :
LIRMM, Univ. Montpellier, CNRS
161 rue Ada
35095 Montpellier Cedex 5
France

Document attaché : 202112111817_SujetDigitag2022_diffusion.pdf

Categories: Stages

Jun

Wed

Analyze and integrate multi-modal data (sequencing, imaging, spatial profiling, treatment response and clinical data) for translational outcomes to cancer patients

Jun 15 – Jun 16 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : Bioinformatics Institute, A*STAR
Durée : 6 months
Contact : woo_xing_yi@bii.a-star.edu.sg
Date limite de publication : 2022-06-15

Contexte :
This offer is proposed by Xing Yi Woo, Head of Research Data Integration and Senior Principal Investigator at Bioinformatics Institute, A*STAR.
We work closely with clinicians to explore personalized treatment options for cancer patients using multi-omic and spatial profiling, and therapeutic screening in patient-derived models. Data of multiple modalities are generated in the process, and we are developing systematic workflows to integrate and analyze the data to enable clinical-decision-making and drive translation research. This project is looking for candidates to develop computational methods, including big-data analytics and AI/ML approaches, to analyze and integrate the multi-modal data (sequencing, imaging, spatial profiling, treatment response and clinical data) that can deliver translational outcomes to cancer patients. The candidate will have the opportunity to work in a multi-disciplinary team led by a senior Principal Investigator highly experienced in cancer computational biology and clinician-scientists specializing in oncology. Eventually, the candidate will receive training in both computational biology and translation oncology disciplines.

Sujet :
The intern is expected to work on any of these tasks, depending on field of study and interests.
1. Develop, implement and benchmark executable workflows for variant (SNP, Indels, SV, CNV) calling from WES/WGS data, transcriptome profiling from RNASeq data and image processing of histology images.
2. Write scripts to output data in a format that can be integrated with publicly available cancer datasets
3. Organize and analyze publicly available cancer datasets
4. Develop visualization tools to visualize results in a meaningful way
5. Organize all data in a structured manner using relational databases
6. Curation of cancer treatment and biomarkers, and patient clinical data.

Profil du candidat :
• The candidate should have basic programming skills (e.g. Python, R, RStudio, Jupyter Notebook, RShiny, SQL), except for curation tasks.
• Familiarity with Unix/Linux environment or cloud architecture would be an advantage
• Strong analytical and problem-solving skills.
• Excellent oral and written communication and presentation skills.
• Able to work independently, and as part of a team

Formation et compétences requises :
Computer science, any field of Science and Engineering, Pharmacy, Medicine, Public Health

Adresse d’emploi :
BII, A*STAR, Singapore

Categories: Stages

Jun

IOT-ML : Secure Machine Learning on IOT Traces for Daily Activity Discovery

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Equipe PETRUS INRIA / UVSQ
Durée : 6 mois
Contact : luc.bouganim@inria.fr
Date limite de publication : 2022-06-30

Contexte :
The PETRUS team (Inria/UVSQ), in association with the Hippocad company and the Yvelines Departmental Council, is currently deploying secure home boxes for 10,000 patients in the Yvelines region. These boxes, based on the team’s research results (DBMS embedded in secure hardware), include a personal medical-social database to improve care coordination for dependent people at home. Medical and social workers interact with these secure boxes via a smartphone application. Our objective is to enhance these boxes with the ability to communicate with IOT sensors measuring e.g., luminosity, movement, temperature, to improve patient monitoring. The raw data from the sensors are analyzed by Machine Learning (ML) techniques to identify the patient activities and thus, detect the evolution of patients towards risk situations like depression or illness. Because of their precision, these raw data are however very intrusive. The originality of our approach is to allow a local processing of these data in each box which includes hardware security elements, in order to externalize only the relevant information: alerts, aggregated values on patient dashboards.

Sujet :
ML algorithms build a model based on a training dataset in order to make predictions, in our case, to discover the activity of an individual based on her IOT traces. Beside the classical issues of data representations (from IOT traces to a dataset that can feed an ML algorithm), our approach faces two challenges:
First, we have no possibility to obtain a training dataset for each targeted home-box user. Indeed, we cannot ask elderly people to label their activities during some weeks in order to build the corresponding training datasets: It would be too complex, costly and error prone without a personal assistant. We can however use existing datasets labelled for daily activity discovery (e.g., [1]) and use semi-supervised ML approaches [3] to dynamically adapt the produced model to the targeted home-box user. Indeed semi-supervised approaches use un-labelled data to refine an existing model obtained on labelled data. Other strategies could be defined based on a minimal feedback from the user or on some questionnaires describing the typical activities of the user.
Second, the ML algorithms must be computed inside the home-box, and more precisely in the secure part of the home-box which is composed by a microcontroller with limited RAM resource and a trusted platform module (TPM). Thus the algorithms must be efficient despite limited RAM resources. This may imply to define specific data structures adapted to this environment.

Profil du candidat :
The applicant could be willing to do a Master2 internship or a part-time trainee (Master2 level), or having completed a Master2 and willing to do a PhD

Formation et compétences requises :
• ML algorithm knowledge
• Python (knowledge in C or Rust will be appreciated)

Adresse d’emploi :
UVSQ – Versailles – 45 avenue des états unis.

Document attaché : 202202141426_Master-internship-2022-IOT-ML.pdf

Categories: Stages

Jul

Sun

Migration et intégration de données hétérogènes et multi-sources

Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : CERI Systèmes Numériques – IMT Nord Europe
Durée : 5 mois
Contact : jerry.lonlac@imt-nord-europe.fr
Date limite de publication : 2022-07-31

Contexte :
L’objectif de travail du stage est de concevoir et de mettre en place un outil permettant la migration et l’intégration d’un ensemble de données issues de diverses sources et représentées sous différents modèles (données relationnelles, données liées, données XML, etc.) dans une base de données communes. Pour effectuer cette tâche, des règles de migration devront être établies pour s’adapter à la structure de la base de données qui contient préalablement quelques données. Afin de limiter la duplication des données dans la base de données après l’intégration, un travail préliminaire d’alignement de données devra être réalisé. Pour garantir une migration efficace des données, l’intégration des données importées devrait satisfaire quelques contraintes parmi lesquelles : le maintien de la cohérence de la base données ; le maching/l’appariement entre les champs de données provenant de différentes sources et ceux de la base de données, phase préalable essentielle à la migration.

Sujet :
L’objectif de travail du stage est de concevoir et de mettre en place un outil permettant la migration et l’intégration d’un ensemble de données issues de diverses sources et représentées sous différents modèles (données relationnelles, données liées, données XML, etc.) dans une base de données communes. Pour effectuer cette tâche, des règles de migration devront être établies pour s’adapter à la structure de la base de données qui contient préalablement quelques données. Afin de limiter la duplication des données dans la base de données après l’intégration, un travail préliminaire d’alignement de données devra être réalisé. Pour garantir une migration efficace des données, l’intégration des données importées devrait satisfaire quelques contraintes parmi lesquelles : le maintien de la cohérence de la base données ; le maching/l’appariement entre les champs de données provenant de différentes sources et ceux de la base de données, phase préalable essentielle à la migration.

Profil du candidat :
– M2 ou dernière année d’école d’ingénieurs sur un cursus informatique
– Connaissances en Intelligence Artificielle (Data mining, Machine Learning)

Formation et compétences requises :
– Connaissances en intégration/analyse de données massives, ETL
– Connaissances en développement d’applications web
– Bon niveau en programmation (SQL, XML, C++, python)
– Bon niveau en communication (écrit/oral) en français et/ou en anglais.

Adresse d’emploi :
IMT Nord Europe
941, rue Charles Bourseul
CS 10838
59508 DOUAI Cedex – France

Document attaché : 202205200849_Proposal_for_internship_IMT_Nord_Europe-Data_integration.pdf

Categories: Stages

Vers des données ouvertes de microscopie fonctionnelle en neurosciences

Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Neurosciences de la Timone, INT, Marse
Durée : 4-6 mois
Contact : sylvain.takerkart@univ-amu.fr
Date limite de publication : 2022-07-31

Contexte :
L’Institut de Neurosciences de la Timone (INT, http://www.int.univ-amu.fr ) est une unité mixte de recherche qui a pour objectif de développer des recherches interdisciplinaires en neuroscience. Situé sur le Campus de la Faculté de Médecine d’Aix Marseille Université, il est doté de plateformes technologiques de haut niveau au service d’équipes de recherche en neurosciences théoriques et expérimentales.

Sujet :
Dans le cadre du plan national pour la science ouverte (https://www.ouvrirlascience.fr/plan-national-pour-la-science-ouverte/), la mise en place de procédures d’ouverture des données scientifiques récoltées en neurosciences reste un challenge. En effet, ces données sont complexes et la mise en place de standards basés sur des formats de données ouverts sont des initiatives récentes. En particulier, les microscopes de dernières génération qui permettent d’enregistrer l’activité cérébrale en temps réel fournissent des gros volumes de données qu’il est important de gérer de manière efficace afin d’obtenir des données FAIR (Faciles à trouver, Accessibles, Intéropérables, Réutilisables : https://www.go-fair.org/fair-principles/). L’objectif de ce stage est de développer des composants logiciels open source qui permettront la production de données FAIR-by-design en partant des données brutes acquises sur les microscopes récemment acquis dans le laboratoire.

Profil du candidat :
Nous recherchons un.e candidat.e qui soit:
– curieux.se pour les applications en imagerie biomédicale;
– volontaire et sachant avancer de manière autonome;
– bon.ne communiquant.e et sachant partager ses progrès et les obstacles rencontrés;
– motivé.e pour coder dans un environnement “open source”.

Le stage peut se dérouler sur toute l’année 2022, suivant le calendrier des stages du cursus suivi par le.la candidat.e.

Formation et compétences requises :
Formation: bac + 4 ou bac + 5, cursus « Sciences des données » ou « Développement logiciel »

Compétences requises:
– bonne connaissance de l’écosystème des sciences des données
– maitrise des concepts avancés en développement logiciel (test unitaires, gestion de version avec des outils de type GIT, intégration continue, etc.)
– maitrise du langage python
– connaissances en mathématiques appliquées et en algorithmie
– intérêt pour la biologie et/ou les neurosciences et/ou l’imagerie médicale

Adresse d’emploi :
Institut de Neurosciences de la Timone, INT
27 boulevard Jean Moulin
13005 Marseille

Categories: Stages

Sep

Stage de M2 : Algorithmes asynchrones pour l’inférence bayésienne

Sep 15 – Sep 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRIStAL UMR 9189, Lille
Durée : 6 mois
Contact : pierre.chainais@centralelille.fr
Date limite de publication : 2022-09-15

Contexte :
Centre de Recherche en Informatique, Signal et Automatique de Lille (UMR 9189 CRIStAL), Villeneuve d’Ascq, France.

Dates: Starting date between March and April 2022, 4 to 6 months internship.

Pierre-Antoine THOUVENIN (pierre-antoine.thouvenin@centralelille.fr), https://pthouvenin.github.io/
Pierre CHAINAIS (pierre.chainais@centralelille.fr),
pierre.chainais@centralelille.fr

The intern will be jointly supervised by Pierre Chainais, professor at Centrale Lille, and Pierre-Antoine Thouvenin, assitant professor at Centrale Lille. The internship will take place in the Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL, UMR 9189), France, within the SigMA team.
This project is part of the ANR Chaire IA SHERLOCK (Fast inference with controlled uncertainty: application to astrophysical observations) led by Pierre Chainais (co-funded by Agence Nationale de la Recherche (ANR), ISITE, Centrale Lille Institut and Région Haut-de-France). Participation to a national or international workshop is considered.
Period and continuation in PhD
This 4 to 6-months internship will start between March and April 2022. The precise start and end dates will be adjusted depending on the availability of the candidate. The intern will be granted the usual stipend of ∼ 600 euros/month (3,90 euros/hour).
This M.Sc. project may be continued as a PhD thesis, for which a grant is already secured for the period 2022-2025 thanks to the ANR Chaire IA SHERLOCK.

Keywords. Bayesian inference, continuous optimization, distributed asynchronous algorithms, MCMC methods.

Sujet :
Bayesian inference is a usual approach to estimate parameters from a dataset, a typical setting underlying the resolution of inverse problems. An inverse problem consists in estimating a collection of parameters involved in a physical model from degraded and noisy observations, e.g., reconstucting an image from noisy incomplete observations of the sky in radio- astronomy. In many signal and image processing applications, especially in astronomy (Abdulaziz et al. 2019; Cai et al. 2018) and remote sensing (Ghamisi et al. 2019), no ground truth is available. Fast parameter inference under controlled uncertainty is thus critical to guarantee the quality of the resulting predictions. Indeed, different values of a parameter can be associated to different physical processes, for instance in remote sensing source separation in presence of outliers.
Inference cost can be large, and increases significantly with both the number of observations (large dataset) and param- eters to be inferred (high dimensional problem). Typical signal and image processing applications lead to the resolution of high-dimensional inverse problems, relying on large datasets. Asynchronous (parallel or distributed) optimization al- gorithms have recently regained interest due to their potential of acceleration to form an estimator, in comparison with their synchronous counterparts (Hannah et al. 2017).
The project is aimed at investigating the potential of asynchrony to accelerate distributed optimization algorithms amenable to a Single Program Multiple Data (SPMD) implementation. We will study several aspects, such as the algo- rithm convergence, the resulting estimation quality and inference time. Applications to the resolution of inverse problems in remote sensing or astronomy will be considered.
Depending on the evolution of the project, the study will be extended to a few selected Markov-chain Monte Carlo (MCMC) methods (Durmus et al. 2018; Simsekli et al. 2018; Terenin et al. 2020) to provide estimators with quantified uncertainty, beyond the point estimate provided by optimization algorithms.
This M.Sc. project may be continued as a PhD thesis, for which a grant is already secured for the period 2022-2025 thanks to the ANR Chaire IA SHERLOCK.

Profil du candidat :
Master 2 or last year engineering school students with major in applied mathematics, computer science or electrical engineering. The project requires a strong background in data science and/or machine learning (statistics, optimization), signal & image processing. Very good Python coding skills are expected.

Application procedure
Applicants are invited to send the following documents in .pdf format to both co-advisors:
• a detailed curriculum;
• official transcripts from the institutions you have attended over the last 2 years (in French or in English);
• references: letters of recommendation or names of two researchers/professors willing to recommend your applica- tion.
For further information, please contact both co-advisors of the project:
• Pierre-Antoine Thouvenin, pierre-antoine.thouvenin@centralelille.fr • Pierre Chainais, pierre.chainais@centralelille.fr.

Formation et compétences requises :
A B2 English level is mandatory.
Knowledge in C++ programming, as well as experience or interest in parallel/distributed code development (MPI, OpenMP, CUDA, …) will be appreciated.

Adresse d’emploi :
CRIStAL, Cité Scientifique, 59651 Villeneuve d’Ascq Cedex

Document attaché : 202201242012_msc_proposal_2022_CRIStAL.pdf

Categories: Stages

Nov

Stage M2 : Driver scene monitoring / analyse de l’environnement de conducteur

Nov 24 – Nov 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ImViA
Durée : 6 months
Contact : yannick.benezeth@u-bourgogne.fr
Date limite de publication : 2022-11-24

Contexte :
Titre : Driver scene monitoring / analyse de l’environnement de conducteur
Laboratoire ImViA (Univ. Bourgogne)
Location: Dijon France
Supervisor:
Yannick Benezeth – yannick.benezeth@u-bourgogne.fr – https://sites.google.com/view/ybenezeth
Cédric Demonceaux (cedric.demonceaux@u-bourgogne.fr) https://sites.google.com/view/cedricdemonceaux/home
Houda Rafi (houda.rafi@renault.com)
Keywords: Image and signal analysis, deep learning, scene understanding
If you are interested, send CV and motivation letter to yannick.benezeth@u-bourgogne.fr, cedric.demonceaux@u-bourgogne.fr and houda.rafi@renault.com.

Sujet :
(english below)
Le domaine des systèmes d’aide à la conduite s’intéresse de plus en plus à la manière dont l’environnement de conduite affecte l’état émotionnel du conducteur. Alors que certaines études de cas spécifiques montrent une corrélation entre le stress des conducteurs et l’environnement de la voiture, comme les types de routes (ville, autoroute et parking) [1, 2, 3] et les conditions de circulation [4], d’autres recherches ont exploré plus en profondeur la possibilité d’estimer directement le stress ressenti des conducteurs à partir des informations trouvées dans la scène entourant la voiture [5]. L’identification et l’analyse des objets de la scène visuelle et de leur emplacement sont essentielles pour comprendre comment la scène routière affecte le stress du conducteur. Pour atteindre cet objectif, diverses architectures de segmentation sémantique doivent être exploitées afin de surmonter les multiples problèmes qui peuvent survenir lors de l’identification d’objets dans différentes scènes enregistrées dans différents environnements. Les architectures de segmentation sémantique les plus récentes sont SFNet-R18 [6] , PSPNet-101 [7], HRNetV2 + OCR + [8] etc…
L’objectif de ce projet est de rechercher différentes architectures de segmentation sémantique, d’évaluer leur efficacité et d’utiliser les résultats de la segmentation pour déduire et estimer le stress perçu par le conducteur.
Le projet s’inscrit dans le cadre d’une collaboration avec la société Renault. Les travaux seront menés au sein du laboratoire ImViA sur le campus de Dijon.

*******************
The field of driver-assistance systems is increasingly interested in determining how the driving environment affects the driver’s emotional state. While some specific case studies show a correlation between the drivers’ stress and the car environment like the types of roads (e.g. city, highway, and parking) [1, 2, 3] and traffic circumstances [4], other research explored more in-depth the possibility of estimating directly the drivers’ subjective stress from the information found in the scene surrounding the car [5]. Identification and analysis of the objects in the visual scene and their locations are crucial to understanding how the road scene affects the driver’s stress. For this goal, various architectures of semantic segmentation should be exploited to upsample multiple issues that can occur while identifying objects in different scenes recorded in different environments. Some up-to-date semantic segmentation architectures are SFNet-R18 [6] , PSPNet-101 [7], HRNetV2 + OCR + [8] etc… This project’s objective is to research various semantic segmentation architectures, assess their effectiveness, and use the segmentation result to infer and estimate the perceived stress of the driver.
The project is part of a collaboration with the Renault company. The work will be carried out within the ImViA lab on the Dijon campus.

********************
[1] O. V. Bitkina et al. “Identifying traffic context using driving stress: A longitudinal preliminary case study,” Sensors, 2019.
[2] J. A. Healey and R. W. Picard, “Detecting stress during real-world driving tasks using physiological sensors,” IEEE Trans. on Intelligent Transportation Systems, vol. 6, no. 2, pp. 156–166, 2005.
[3] N. Elhaouij, J.-M. Poggi, S. Sevestre-Ghalila, R. Ghozi, and M. Ja¨ıdane, “AffectiveROAD system and database to assess driver’s attention,” in Proc. of the 33rd Annual ACM Symposium on Applied Computing, 2018, pp. 800–803.
[4] W.-Y. Chung, T.-W. Chong, and B.-G. Lee, “Methods to detect and reduce driver stress: a review,” Int. Journal of Automotive Technology, vol. 20, no. 5, pp. 1051–1063, 2019
[5] Bustos, Cristina, et al. “Predicting driver self-reported stress by analyzing the road scene.” 2021 9th International Conference on Affective Computing and Intelligent Interaction (ACII). IEEE, 2021.
[6] LI, Xiangtai, YOU, Ansheng, ZHU, Zhen, et al. Semantic flow for fast and accurate scene parsing. In : European Conference on Computer Vision. Springer, Cham, 2020. p. 775-793.
[7] ZHAO, Hengshuang, SHI, Jianping, QI, Xiaojuan, et al. Pyramid scene parsing network. In : Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. p. 2881-2890.
[8] YUAN, Yuhui, CHEN, Xiaokang, CHEN, Xilin, et al. Segmentation transformer: Object-contextual representations for semantic segmentation. arXiv preprint arXiv:1909.11065, 2019.

Profil du candidat :
The recruited student should have strong computer science background, applied mathematics or programming.

Formation et compétences requises :
computer science

Adresse d’emploi :
Dijon

Categories: Stages

Nov

Wed

Managing the variability of complex software families using Polyadic Concept Analysis

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DISP, Université Lyon 2
Durée : 6 mois
Contact : giacomo.kahn@univ-lyon2.fr
Date limite de publication : 2022-11-30

Contexte :
Des études menées au sein de plusieurs industries montrent que les éditeurs de logiciels ont tendance à produire des variantes de systèmes logiciels en réutilisant de manière ad-hoc des clones de projets précédents, aboutissant ainsi à des familles de logiciels similaires où chaque produit est géré et maintenu séparément. L’ingénierie des lignes de produits logiciels regroupe un ensemble de méthodes basées sur la réutilisation systématique d’artefacts logiciels afin de développer, maintenir et faire évoluer en parallèle un ensemble de variantes d’une même famille de logiciels. Cela permet de réduire le temps et le coût de développement et de maintenance de la famille de logiciels tout en augmentant sa qualité. La migration depuis une famille de produits logiciels vers une ligne de produits est donc une problématique essentielle partagée par de nombreux éditeurs de logiciels. La modélisation et la gestion de la variabilité, i.e., quels artefacts varient entre les variantes logicielles et comment, est un point central de ces méthodes.

Sujet :
L’ingénierie des lignes de produits multiples est un domaine émergeant qui se consacre à la représentation et la gestion de la variabilité dans des familles de logiciels qui sont considérés comme complexes du fait de leur hétérogénéité, de leur taille ou encore de leur architecture. Cette complexité donne lieu à des données pouvant inclure de multiples dimensions (e.g., caractéristiques logicielles, contexte et environnement, équipe de développement, dépendances avec d’autres systèmes) ce qui présente un réel défi lorsque l’on cherche à les analyser avec les techniques actuelles. La migration depuis une famille de logiciels complexes vers une ligne de produits multiples nécessite donc de reconsidérer et d’adapter les techniques traditionnelles de rétro-ingénierie de la variabilité afin de manipuler des données plus complexes.

L’objectif de ce stage est d’utiliser une extension de l’analyse formelle de concepts, l’analyse polyadique (PCA), qui permet d’extraire des motifs et des informations de données multi-dimensionnelles, afin d’extraire la variabilité d’un ensemble de familles de logiciels complexes.

Profil du candidat :
Master 2 informatique, avec des penchants pour le génie logiciel et les approches de représentation et d’extraction de connaissance.

Formation et compétences requises :
Ingénierie logicielle, représentation des connaissances

Adresse d’emploi :
Laboratoire Disp, pôle RTI, Université Lyon 2

Document attaché : 202210280931_23PropPCADISP_Fiche-appel-à-candidature.pdf

Categories: Stages

Prediagnosis using machine learning for dental health in Mongolia

Nov 30 – Dec 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Disp
Durée : 6 mois
Contact : giacomo.kahn@univ-lyon2.fr
Date limite de publication : 2022-11-30

Contexte :
Le projet Européen Erasmus+ DigiHealth-Asia a pour objectif le renforcement des capacités de formation en santé numérique d’universités provenant de trois pays asiatiques : la Mongolie, le Pakistan, et la Thaïlande. Des problématiques spécifiques ont été identifiées dans chacun des pays partenaires. La Mongolie est un pays particulièrement étendu, et dont les services de santé sont concentrés dans un unique pôle urbain, qui concentre 45% de la population du pays. Dans le cadre du projet DigiHealth, nous développons en partenariat avec deux universités mongoles un système de consultation à distance assisté par des modèles d’intelligence artificielle, pour le cas de la santé dentaire.

Sujet :
Ce stage s’appuie sur des données de terrain réelles. L’objectif de ce stage est de récupérer ces données, les nettoyer, prétraiter, traiter et analyser, dans le but de déployer les modèles d’apprentissage automatique dans l’architecture proposée par nos partenaires mongoles. Pour se faire, un déplacement en Mongolie est prévu lors du stage, pour rencontrer les partenaires (côté recherche et professionnels de santé) et préparer le déploiement. Pour cette raison, il faut impérativement un niveau d’anglais suffisant.

Profil du candidat :
Master ou ingénieur en informatique

Formation et compétences requises :
Anglais obligatoire (déplacement en Mongolie),
Apprentissage automatique,
Santé numérique

Adresse d’emploi :
Laboartoire DISP, RTI, Université Lyon 2

Document attaché : 202210280926_PC3DISP_Fiche appel à candidature_20191119.pdf

Categories: Stages

Mon

Representation Learning for Geographic Spatio-Temporal Generalisation

Dec 12 – Dec 13 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ICube, University of Strasbourg
Durée : 6 mois
Contact : lampert@unistra.fr
Date limite de publication : 2022-12-12

Contexte :
Time-series are becoming prevalent in many fields, particularly when monitoring environmental changes of the Earth’s surface in the long term (climate change, urbanisation, etc), medium term (annual crop cycle, etc) or short term (earthquakes, floods, etc). With the current and future satellite constellations satellite image time-series (SITS) expand remote sensing’s impact.

Sujet :
Detailed subject: https://seafile.unistra.fr/f/7b4b402e34124fb396b7/?dl=1

The project’s goal is to develop domain invariant representations using deep learning for SITS analysis. Such methods will enable geographic generalisation, which consists of reusing information from the analysis of one geographic area to analyse others by using, or not, the same sensors, as proposed in [5]. Current approaches work for single images because they generally originate from the computer vision community.

The internship will start the evaluation of the state-of-the-art and to implement and extend approaches already developed in ICube [5,6].
Current work on domain adaptation (DA) for time-series uses either weak supervision [1] or attention-based mechanisms [2,3] for classification or focus on the related problem of time- series forecasting [4]. However, none of these approaches tackle the problem of learning DIRs that can be applied to several geographical locations simultaneously.

The work has two benefits: on the one hand, to reduce the burden of ground truth collection when sensors of different characteristics are used; and on the other to exploit the information contained in each data modality to learn representations that are more robust and general, i.e. to detect crops, land cover evolution, etc in different countries that exhibit different characteristics.

Your contributions will be part of the global work of the SDC researchers and will be validated through the partnership with CNES and potential collaboration with Tour du Valat. SDC’s aim is to propose and implement new generic methods and tools to exploit large sets of reference data from one domain/modality (sufficient to train an accurate detector) to train a multi- modal/domain detector that can be applied to imagery taken from another sensor for which there exists no reference data.

As such, the work tackles key problems in many machine learning & computer vision applications.

Profil du candidat :
• Experience with the Python (numpy, keras, tensorflow, etc.)
• Interest/experience in deep learning
• Knowledge of machine learning workflows and techniques (e.g. best practices around
training data management, understand basics of numerical optimisation)
• Familiarity with Linux environments
• Have excellent communication skills and a strong team player
• Good knowledge of English (French is not mandatory)

Formation et compétences requises :
2nd year of a Master’s in Computer Science degree or similar

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Categories: Stages

Normalisation automatique de variables issues de bases de données en agroécologie

Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UR AIDA et UMR TETIS – #DigitAg
Durée : 6 mois
Contact : sandrine.auzoux@cirad.fr
Date limite de publication : 2022-12-15

Contexte :
Les études agro-écologiques génèrent de nombreuses bases de données hétérogènes en termes de structure et de contenu, qui sont difficilement exploitables et nécessitent une curation pour être mobilisées dans des approches statistiques ou de modélisation. La curation consiste à sélectionner les données les plus pertinentes et les enrichir de métadonnées nécessaires à leur compréhension pour pouvoir les rendre accessibles, partageables et réutilisables (principes FAIR).
Pour annoter les données et augmenter la précision des termes utilisés, un collectif interdisciplinaire de chercheurs du CIRAD a construit un dictionnaire des variables (Auzoux et al, 2018). Une variable est constituée de termes sémantiques issus des connaissances expertes et d’ontologies de référence. La liste des variables du dictionnaire a été définie pour faciliter la comparaison et l’analyse des données, et les liens avec les modèles de culture.

Un premier travail exploratoire sur la curation de bases de données en agroécologie, constituées à partir de 28 expérimentations sur la canne à sucre à La Réunion, a été réalisé lors d’un stage de Master 2 (Ngaba, 2022). Il a permis de tester et de valider une approche de fouille de textes pour automatiser la normalisation des variables créées et utilisées par les chercheur.e.s pour décrire leurs données.

Sujet :
L’objectif de ce stage est d’automatiser la labellisation des variables hétérogènes des chercheur.e.s issues des bases de données en agroécologie à partir d’une liste de variables standardisées (dictionnaire des variables). Plusieurs méthodes de fouille de texte seront mobilisées pour proposer les variables du dictionnaire les plus en phase avec les variables des bases de données :
– des mesures de proximité lexicale (Maedche et al., 2002),
– des méthodes de proximités contextuelles (Salton et al., 1988) fondées sur la description des variables issues des bases de données,
– des méthodes de proximités contextuelles fondées sur des corpus : des contextes seront constitués à partir de corpus textuels et de méthodes de plongements de mots (Mikolov et al., 2013) et de modèles de langues issus des méthodes d’apprentissage profond (Devlin et al., 2019).

Au-delà d’une extension de la méthode en proposant des méthodes originales de fouille de texte, un objectif important de ce stage consiste à proposer une approche générique pour labelliser les données et faciliter l’interopérabilité des bases de données en agroécologie.

Ce stage se déroulera en 3 grande étapes :
– Etape 1 : Appropriation des données et codes
– Etape 2 : Préparation de nouveaux jeux de données pour étudier la généricité de l’approche
– Etape 3 : Extension de l’approche de mise en lien de variable

Dans le cadre d’une démarche science ouverte, les codes sources et les données seront mises à dispositions sur la forge logicielle et le Dataverse du CIRAD. Les résultats de ce stage pourront donner lieu à deux publications scientifiques (Data paper et article scientifique).

Profil du candidat :
Le profil que nous recherchons, est un informaticien (Master 2 ou école d’ingénieur) ayant une formation en science des données ayant une maitrise des bases de données, des méthodes de fouille de texte et d’analyse de données. Une ouverture sur l’interdisciplinarité est indispensable pour pouvoir dialoguer avec les experts métiers.

Formation et compétences requises :
SGBD PostgreSQL, R studio, Python

Adresse d’emploi :
– Accueil à l’UMR TETIS à la Maison De la Télédétection sur le campus Agropolis de Montpellier
– Encadrement : 2 unités de recherche de #DigitAg (UR Aïda et UMR TETIS) sont impliquées dans cet encadrement. Le stagiaire évoluera dans une équipe pluridisciplinaire composée de deux informaticiens (Sandrine Auzoux et Mathieu Roche), un biostatisticien (Benjamin
Heuclin), et deux agronomes (Aude Ripoche et Mathias Christina).
– Période de stage : de février/mars à juillet/août 2023 (6 mois)
– Rémunération : indemnité au tarif en vigueur : 600 euros/mois x 6 mois = 3600 € + tickets restaurant
– 1 mission sera réalisée à La Réunion en milieu de stage pour présenter les premiers résultats et pour discuter plus en détail avec les encadrants et les partenaires réunionnais de la généricité de l’approche.

Document attaché : 202211181636_Stage_Digitag_TextMining.pdf

Categories: Stages

Prévisions météorologiques à très haute résolution avec des méthodes de deep learning

Dec 15 – Dec 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-12-15

Contexte :
Les prévisions météorologiques de fine échelle opérées quotidiennement par Météo-France sur les domaines Outre-Mer s’appuient sur le modèle AROME et ont vu leur résolution spatiale augmenter de 2.5km à 1.3km à l’été 2022. Cette évolution a permis d’améliorer la performance des prévisions, en particulier pour les évènements à enjeux tels que les cyclones tropicaux et les fortes pluies. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions AROME à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années. L’objectif du stage est de mettre en place et d’évaluer une alternative moins coûteuse à cette descente d’échelle dynamique.

Sujet :
Le stage vise à mettre en place et évaluer plusieurs méthodes de descente d’échelle statistique, dont l’objectif est d’apprendre une relation statistique entre les prévisions basse résolution (par exemple 2.5km ou 1.3km) et les prévisions haute résolution (par exemple 500m). Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutifs offrent des perspectives intéressantes pour la descente d’échelle.
L’objectif du travail proposé est de développer une première descente d’échelle à 500m des prévisions AROME sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations.

Profil du candidat :
M2/Ecole d’ingénieurs.

Formation et compétences requises :
Le stage requiert un réel intérêt pour la prévision numérique du temps. De bonnes compétences en statistiques sont attendues. Le langage de programmation utilisé sera Python. Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, Keras, TensorFlow, Caffe, …) serait un plus.

Adresse d’emploi :
CNRM, 42 avenue Gaspard Coriolis, Toulouse.

Document attaché : 202210061430_Fiche-proposition-PFE_IENM_IA500m_Madics.pdf

Categories: Stages

Fri

Exploitation de données spatio-temporelles multimodales pour l’études de trajectoires d’activités nautiques de loisirs

Dec 16 – Dec 17 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : Exploitation de données spatio-temporelles multimo
Durée : 6 mois
Contact : alain.bouju@univ-lr.fr
Date limite de publication : 2022-12-16

Contexte :
Ce travail s’inscrit dans le programme PLAIZPARC (Plaisance et zostère dans le Parc naturel marin de l’estuaire de la Gironde et de la mer des Pertuis) porté par le Parc naturel marin de l’estuaire de la Gironde et de la mer des Pertuis (PNMEGMP) qui vise à réduire la pression des mouillages des navires de plaisance sur les herbiers de zostère dans le Parc.

Dans ce projet, l’action 2.2 vise à obtenir une meilleure connaissance des dynamiques spatio-temporelles des pratiques de plaisance. Pour cela, le projet « Développement d’un système automatisé d’évaluation des fréquentations de plaisance à partir de données multimodales (2021-2023) » a été lancé en novembre 2021 et regroupe le PNM EGMP, La Rochelle Université (LRU) et la société IKOMIA. Il

Il vise à mettre au point de nouvelles solutions basée sur les technologies de machine learning et de fouille de données, pour l’évaluation des fréquentations des ports et des zones de mouillage à partir de données multimodales issues d’images vidéo et de données de suivi des embarcations de plaisance.

Ce projet est organisé en quatre volets :
• Volet A : Le portage du système de comptage vers Ikomia Studio ;
• Volet B : le développement d’un système de comptage spécifique aux zones de mouillages ;
• Volet C : Le traitement des données multimodales recueillies par croisements ;
• Volet D : L’amélioration des algorithmes de détection d’embarcations.

Ce stage s’inscrit dans le volet C de ce projet.

Sujet :
Objectif du stage proposé :

– Etat de l’art sur la thématique des croisements de données multimodales pour la spatialisation des activités (Méthodologie et sources fournies)
– Intégration données multimodales de comptages (issue des traitements IA, AIS, GPS, données d’enquêtes, etc. (Outils d’analyse et agrégation, base de données)
– Création outils informatiques intégrables à QGIS permettant de produire des analyses spatiales et cartographiques (Python)

Profil du candidat :
Les mots clefs du profil sont :
Fouille de données, Machine Learning, Ontologie, Acquisition, agrégation, traitement et analyse de données, géospatiale,

Les technologies :
Python, Base de données géospatiale (PostgreSQL,/PostGIS), QGIS, RDF,

Formation et compétences requises :
Formation en Master 2 Informatique en cours (Stage de fin d’étude)

Adresse d’emploi :
Laboratoire Informatique, Images et Interaction (L3i)-La Rochelle Université, Faculté des Sciences et Technologies, Bâtiment Pascal – Avenue Michel Crépeau, 17042 La Rochelle Cedex 1.

Document attaché : 202212081530_Offre de stage de master 2_informatique_AB2023.pdf

Categories: Stages

Mon

Caractérisation des formalismes et performances de modèles de simulation de culture en grille pour le riz pluvial en Afrique de l’Ouest

Dec 19 – Dec 20 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : maguelonne.teisseire@teledetection.fr
Date limite de publication : 2022-12-19

Contexte :
Au sein du laboratoire TETIS à Montpellier, un modèle de simulation des cultures (SARRA, Baron et al,, 2005) a été proposé depuis plusieurs années. Il permet, sur la base d’un bilan hydrique dynamique simple, d’estimer l’impact de scénarios climatiques sur une culture annuelle. Sa déclinaison logicielle SARRA-H est spécifiquement adaptée à l’analyse d’impact du climat sur la croissance des céréales sèches (mil, sorgho, maïs, riz) et du rendement potentiel en milieu tropical. La version la plus récente de SARRA, SARRA-O (http://sarra-h-dev.teledetection.fr), introduit la possibilité de spatialiser les simulations de culture selon le principe de modèle de simulation de cultures en grille (gridded crop model, GCM). La littérature présente également des GCM adaptés d’autres plateformes de simulation de cultures (DSSAT, WOFOST, STICS…).
L’objectif de ce stage est de réaliser une comparaison des formalismes et des performances de SARRA-O avec des GCM alternatifs, en prenant comme cas d’étude le riz pluvial en Afrique de l’Ouest. Le riz est la culture vivrière la plus importante au monde, et on estime qu’il constitue l’aliment de base de la moitié de l’humanité. Les pays d’Afrique de l’Ouest sont fortement dépendants du riz pour leurs calories alimentaires. Cependant, une gestion inadéquate de l’eau, des sols et des cultures y compromet toujours la productivité du paddy. La production rizicole y est également menacée par la variabilité des précipitations annuelles, les fluctuations dans les dates de démarrage de saison, et l’augmentation de l’aridité. L’utilisation de GCM dans ce contexte répond donc à des enjeux liés notamment à la sécurité alimentaire.

Sujet :
L’objectif de ce stage est de positionner la suite SARRA-O par rapport à ses concurrents nationaux ou internationaux, en utilisant le riz pluvial comme cas d’étude. Cette comparaison suivra une grille d’évaluation à définir en adéquation avec les standards académiques. De façon plus précise, le travail à réaliser se décompose de la façon suivante :
1. Une familiarisation des différents concepts liés au modèle SARRA-O ;
2. Un état de l’art permettant de lister les modèles similaires à SARRA-O ou partageant les mêmes objectifs d’estimation de rendements ;
3. La définition d’une grille de comparaison des modèles selon principalement les données en entrée (incluant les différents paramètres et la calibration nécessaire selon le type de culture), la méthode adoptée, les données en sortie ;
4. La sélection avec l’équipe encadrante de 2 à 3 modèles alternatifs à SARRA-O ainsi que des mesures d’évaluation adaptées aux modèles choisis ;
5. La réalisation de simulations à partir des modèles sélectionnées, et leur évaluation face à des données observées sur le riz pluvial en Afrique de l’Ouest.

Le cas d’étude s’inscrit dans le cadre de travaux de TETIS sur l’impact du changement climatique sur le rendement du riz en Afrique de l’Ouest. Le/la stagiaire bénéficiera de l’aide d’un autre étudiant qui travaillera sur la calibration du modèle SARRA-O pour le cas du riz pluvial à partir d’un ensemble de données expérimentales d’Afrique de l’Ouest (Sénégal, Côte d’Ivoire) et de Madagascar.

Bibliographie :

Baron, C., Sultan, B., Balme, M., Sarr, B., Traore, S., Lebel, T., Janicot, S., & Dingkuhn, M. (2005). From GCM grid cell to agricultural plot: scale issues affecting modelling of climate impact. Philosophical Transactions of the Royal Society B: Biological Sciences, 360(1463), 2095–2108. https://doi.org/10.1098/rstb.2005.1741

Profil du candidat :
Dernière année Ingénieur agro ou Master 2 ou (stage de césure ou de fin d’études)

Formation et compétences requises :
Le stage exige des connaissances de base en agronomie, une bonne maîtrise du langage de programmation Python (+ librairies Pandas et Numpy), une aisance à la manipulation de fichiers et de l’appétence pour les approches de modélisation.
Une bonne maîtrise écrite de l’anglais (lu) est indispensable.

Adresse d’emploi :
UMR TETIS (Territoires, Environnement, Télédétection et Information Spatiale)
Maison de la Télédetection
500, rue J.F.Breton 34093 MONTPELLIER Cedex 5

Document attaché : 202211071542_Offre de stage état des lieux modélisation.pdf

Categories: Stages

Mon

Bayesian inference with expensive and imperfect data models

Dec 26 – Dec 27 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 3 à 6 mois
Contact : florent.leclercq@iap.fr
Date limite de publication : 2022-12-26

Contexte :
Surveys of the cosmic large-scale structure carry rich scientific opportunities. Advancing the research frontier requires solving unique and challenging statistical problems, to unlock the information content of massive and complex data vectors. The recently-proposed machine learning technique BOLFI (Bayesian optimisation for likelihood-free inference) makes inference of complex Bayesian hierarchical models under the constraint of a very limited simulation budget possible. Unfortunately, its use is currently hampered by several theoretical and practical challenges.

Sujet :
The goal of this interdisciplinary project is to upgrade the BOLFI algorithm for the extraction of information distributed in massive and heterogeneous data, in the context of expensive and imperfect data models. Motivating problems and applications will come from upcoming galaxy survey data such as Euclid. We will address several issues, including: (i) the parallel acquisition of simulations when only a limited number of noisy likelihood evaluations can be obtained, (ii) the robustification of the technique against model mis-specification, (iii) the definition of summary statistics that maximise the extraction of information, e.g. via information-maximising neural networks (IMNN). The proposed algorithm will be applied to the inference of cosmological parameters using a realistic simulator. Ultimately, the developed method will be an important tool for the extraction of physical information from Euclid data, which has the potential to influence the design of future data analysis pipelines.

Related links and literature / Version française : https://florent-leclercq.eu/supervision.php#internship-2023-info

Profil du candidat :
The student will get experience of statistical modelling, machine learning, data mining, cosmology, and astronomical observations. They should be comfortable with computing (preferably, experience with python and git). This work could naturally lead to a PhD project in data science and/or cosmology, for example in the large-scale structure and distant Universe group of the Institut d’Astrophysique de Paris (IAP).

Formation et compétences requises :
Interest in information science, machine learning, data science, and a taste for (astro)physics.

Adresse d’emploi :
Institut d’Astrophysique de Paris, 98 bis boulevard Arago, 75014 Paris, France

Categories: Stages

Étude de la robustesse à l’échantillonnage de modèles d’apprentissage : application à la prédiction

Dec 26 – Dec 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IFP Energies nouvelles, Lyon
Durée : 3-4 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2022-12-26

Contexte :
Le génie des procédés est un domaine d’ingénierie, qui s’intéresse à l’application de la chimie physique dans l’industrie avec pour but principal de transformer de la matière. Il vise à concevoir et gérer le fonctionnement d’un procédé à différentes transformations chimiques et physiques. Ce domaine s’appuie sur l’analyse régulière de différents capteurs, paramètres et quantités physiques (température, pression, concentration, etc.), permettant d’optimiser les points de fonctionnement et la qualité des produits en fonction des matières sources. Être capable de bâtir des modèles statistiques prédictifs ou explicatifs, liant les données mesurées ou calculées aux propriétés souhaitées, devient donc un enjeu important en termes d’efficacité des procédés. Depuis plusieurs années se développent des approches combinant connaissances métiers et méthodes de science des données pour améliorer la performance et la robustesse des modèles ; les défis sont nombreux : disponibilités des données, incertitudes, validité des modèles physiques, capacité des modèles off-line expérimentaux à fonctionner en conditions industrielles réelles on-line, etc. Ce sujet s’intéresse essentiellement à ce dernier aspect. En effet, les données industrielles ne disposent bien souvent que de mesures acquises à une fréquence assez lente, sans maîtrise entière du moment exact de l’acquisition, tandis que les données expérimentales produites sur unités pilotes peuvent être obtenues toutes les minutes, avec une bonne précision temporelle.

Sujet :
La ou le stagiaire sera affecté(e) au sein de la direction Expérimentation Procédés et travaillera en étroite collaboration avec la direction Sciences et Technologies du Numérique. La ou le stagiaire devra analyser les données sur un procédé identifié dans la continuité d’un stage de 2021 et devra étudier l’impact de l’échantillonnage sur la fiabilité et la robustesse de modèles d’imputation et de prédiction développés. Le coeur du travail consistera en la mise en place d’un workflow permettant de réduire la fréquence d’acquisition initiale de données pilotes pour l’approcher des mesures industrielles et de mesurer précisément la perte d’efficacité et les incertitudes induites, et à adapter les modèles en conséquence. Il est également attendu de pouvoir donner des préconisations de « bon échantillonnage » en fonction des dépendances temporelles entre les différentes variables mesurées.

Information: http://www.laurent-duval.eu/job-2022-internship-process-engineering-data-science-ifpen-sampling-robustness.html

Profil du candidat :
Ce sujet étant à l’interface de deux domaines, il s’adresse soit à des étudiants M1 ou M2 en sciences du numérique ayant un sens physique développé ou à des étudiants M1 ou M2 en génie des procédés ayant une appétence pour le machine-learning et la programmation.

Formation et compétences requises :
Statistiques, apprentissage, traitement de séries temporelles, génie des procédés

Adresse d’emploi :
France, IFP Energies nouvelles, Lyon (Solaize)

Document attaché : 202202052239_job-2022-internship-ifpen-machine-learning-robustness-process-sampling-english.pdf

Categories: Stages

Ocean Bottom Noise Shazam: Signal processing and data science applied to marine seismology data

Dec 26 – Dec 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IFREMER Brest
Durée : 16 months
Contact : laurent.duval@ifpen.fr
Date limite de publication : 2022-12-26

Contexte :
Marine seismology has made tremendous technological advances in the past decades: data recorded at the seafloor by ocean bottom seismometers (OBSs) are becoming widely available (eg IRIS consortium). An OBS is a multicomponent instrument able to continuously record pressure and earth motion. There are two types of OBSs: short-period instruments for recording high-frequency motions, and long-period instruments for acquiring a wider range of motions (cf. INSU-IPGP national OBS facility). With both instruments, OBSs record a superposition of a broad variety of signals generated by solid earth, ocean wave, biologic, ship sources and noise. These signals can be very different in amplitude, duration and frequency content. They however also overlap in those domains, making them hard to isolate from each other. That is why OBS data cannot yet be fully exploited by the seismological community, as they require more advanced processing and identification techniques.

Sujet :
This postdoctoral position funded by the BRUIT-FM project primarily aims at developing signal processing and machine learning techniques to classify and separate signals recorded by OBSs and to enhance earthquake waveforms and microseismic noise. It devotes to a better exploitation of non-seismological signals for defining a seafloor soundscape. Hence the moniker ”Ocean Bottom Noise Shazam”, from the famous music retrieval/identification application

Information: http://www.laurent-duval.eu/job-2022-postdoc-ocean-shazam-bruit-fm-data-science-signal-processing-marine-seismology.html

Profil du candidat :
PhD with strong interest in spectral analysis, adaptive filtering, machine learning, data science with a taste of physics.

Formation et compétences requises :
Languages: C/C++, Python/Matlab or similar. Seismology is a plus

Adresse d’emploi :
France, IFREMER, Brest

Document attaché : 202202052227_KER_S_2022_SUBJ_PSD-Bruit-FM-Postdoc-Ocean-Bottom-Noise-Shazam.pdf

Categories: Stages

Fri

Modélisation de l’effet de la lumière sur la ramification : formalisation et analyse de sensibilité pour la comparaison d’hypothèses de fonctionnement.

Dec 30 – Dec 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP, CIRAD, Montpellier ou IRHS, INRAE, Anger
Durée : 6 mois
Contact : frederic.boudon@cirad.fr
Date limite de publication : 2022-12-30

Contexte :
Aujourd’hui, la science doit trouver de nouvelles solutions pour augmenter la tolérance des plantes cultivées aux stress environnementaux. Pour cela, une meilleure compréhension des mécanismes sous-jacents à l’édification des plantes et leur contrôle par l’environnement est nécessaire. Notamment, les bourgeons formés à l’aisselle des feuilles restent dormants ou s’activent selon l’environnement donnant naissance à de nouveaux axes [1]. Ce processus a des conséquences importantes sur divers aspects des performances agronomiques des plantes (par exemple, la qualité visuelle des plantes ornementales, le rendement des plantes utilisées pour l’alimentation). Néanmoins, les mécanismes par lesquels l’environnement régule le débourrement ont été peu étudiés [2]. Dans l’équipe, des résultats expérimentaux sur le rosier nous conduisent à émettre une hypothèse quant aux mécanismes par lesquels l’intensité lumineuse contrôle le débourrement. Cette hypothèse implique une interaction entre une classe d’hormones, les cytokinines (CK), et la disponibilité en sucre, deux régulateurs contrôlés par la lumière [3,4].
Pour l’évaluation de notre hypothèse, nous souhaitons la modéliser et confronter les comportements de la plante simulés aux comportements observés. Cela implique de modéliser les flux de carbone au sein de la structure de la plante et leur interaction avec les hormones. Or, aujourd’hui, les modèles de flux de carbone utilisés dans la littérature ne reproduisent que très partiellement les mécanismes physiologiques décrits par la théorie de Münch. Des premiers modèles permettent de résoudre ces flux sur des structures topologiquement très simples [5,6]. Des travaux récents montrent la possibilité d’une résolution sur des structures plus complexes [7].

[1] Rameau, C., Bertheloot, J., Leduc, N., Andrieu, B., Foucher, F., & Sakr, S. (2015). Multiple pathways regulate shoot branching. Frontiers in plant science, 5.
[2] Schneider A., Godin C., Boudon F., Demotes-Mainard S., Sakr S., Bertheloot J. (2019). Light Regulation of Axillary Bud Outgrowth Along Plant Axes: An Overview of the Roles of Sugars and Hormones. Frontiers in Plant Science, 10, 1-17.
[3] Roman, H., Girault, T., Barbier, F., Péron, T., Brouard, N., Pencik, A., et al. (2016). Cytokinins are initial targets of light in the control of bud outgrowth. Plant Physiology, 172, 489-509.
[4] Corot A., Roman H., Douillet O., Autret H., Perez-Garcia M. D., Citerne S., Bertheloot J., Sakr S., Leduc N., Demotes-Mainard S. (2017). Cytokinins and abscisic acid act antagonistically in the regulation of the bud outgrowth pattern by light intensity. Frontiers in Plant Science, 8, 1-16.
[5] Bancal, P., & Soltani, F. (2002). Source-sink partitioning. Do we need Munch? Journal of Experimental Botany, 53(376), 1919-1928.
[6] Minchin, P. E. H., Thorpe, M. R., & Farrar, J. F. (1993). A SIMPLE MECHANISTIC MODEL OF PHLOEM TRANSPORT WHICH EXPLAINS SINK PRIORITY. Journal of Experimental Botany, 44(262), 947-955.
[7] Lacointe, A., & Minchin, P. E. H. (2019). A Mechanistic Model to Predict Distribution of Carbon Among Multiple Sinks. In J. Liesche (Ed.), Phloem: Methods and Protocols (Vol. 2014, pp. 371-386).

Sujet :
L’objectif du stage est de développer un modèle de réponse du débourrement à la lumière, intégrant les flux de carbone selon la théorie de Münch et leur interaction avec les CK. Lors d’un précédent travail, une première version simplifiée du modèle a été développée pour une structure simple de plante. Lors du stage, l’étudiant étendra ce modèle pour une structure plus complexe et pour intégrer notre hypothèse sur l’interaction sucre-CK; Il explorera également le comportement du modèle par la mise en place d’une analyse de sensibilité, et confrontera les simulations à des données expérimentales pour tester notre hypothèse.

Étapes principales du stage :
– Implémentation du modèle :
– Etendre le modèle développé pour une structure simple de plante (pools d’organes représentés) à une structure plus complexe (organes individualisés)
– Introduire l’hypothèse d’interaction Sucre-Cytokinine
– Ajuster les paramètres par optimisation à partir d’un jeu de données mesurées
– Exploration du modèle et évaluation:
– Faire une analyse de sensibilité des paramètres du modèle
– Évaluer la capacité du modèle à simuler les comportements de plante observés sous une gamme de traitements expérimentaux. Les données sont déjà disponibles. Selon l’avancement, une 2e phase pourra être envisagée au cours de laquelle d’autres hypothèses pourraient être testées.
– Intégrer le modèle à la plateforme en ligne MorphoNet pour le rendre accessible à la communauté des modélisateurs biologistes.

Profil du candidat :
Ce stage peut convenir à des étudiant(e)s provenant d’une école en modélisation mathématique, en informatique ayant un attrait pour la biologie, et la modélisation de systèmes biologiques.

Formation et compétences requises :
Une capacité rédactionnelle et un goût pour le travail en équipe à l’interface entre plusieurs disciplines (maths, info, écophysiologie) seront nécessaires.

Adresse d’emploi :
– CIRAD, Équipe Phénomen, UMR AGAP, Avenue Agropolis TA A-108/01 34398 Montpellier Cedex 5, France
ou
– Institut de Recherche en Horticulture et Semences, INRAE, 49000 Angers, France

Document attaché : 202209301412_Physioscope_Model_2023_VInfo.pdf

Categories: Stages

Sat

Etude pilote pour une modélisation des transitions agroécologiques par des techniques d’apprentissage