Postdoc position in computational statistics and machine learning

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LTCI, Telecom Paris, Institut Polytechnique de Par
Durée : 2 years
Contact : pavlo.mozharovskyi@telecom-paris.fr
Date limite de publication : 2023-04-25

Contexte :
2-year postdoc position is available at the Image, Data and Signal department of Telecom Paris (https://www.telecom-paris.fr/) – one of the leading French engineering schools, a member of Institut Polytechnic de Paris (https://www.ip-paris.fr/).

Sujet :
The position is within the project LS-Depth-CaP funded by the Starting Grant of the French National Agency for Research in category Artificial Intelligence (ANR JCJC, CE23). The successful candidate is expected to conduct research on the topics including either or both theoretical and computational constituents focused on development of large-scale and robust statistical and machine learning methodology.

Profil du candidat :
Expected qualifications of the successful candidate:
– PhD (or equivalent) degree in statistics / data science / machine learning / artificial intelligence.
– Knowledge of programming in languages of machine learning: R / Python, C / C++, or similar.
– A good command of English.

Formation et compétences requises :
To candidate, following documents:
– Motivation letter.
– Curriculum vitae.
– Name(s) / email(s) of at least two references.
– Any other element(s) considered by the candidate useful for the application.
are to be uploaded at:
https://institutminestelecom.recruitee.com/o/postdoctorante-ou-postdoctorant-en-statistique-computationnelle-et-machine-learning-a-telecom-paris-cdd-de-24-mois

Adresse d’emploi :
Telecom Paris
19 place Marguerite Perey, F-91120, Palaiseau, France
https://institutminestelecom.recruitee.com/o/postdoctorante-ou-postdoctorant-en-statistique-computationnelle-et-machine-learning-a-telecom-paris-cdd-de-24-mois

Postdoctoral position on machine learning based eddy closures for ocean models

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut des Geosciences de l’Environnement, Gren
Durée : 12 months (renewable
Contact : Julien.Lesommer@univ-grenoble-alpes.fr
Date limite de publication : 2023-04-25

Contexte :
Mesoscale eddies are essential oceanic processes and their effect needs to be accurately represented in ocean components of climate models. In these models, the representation of mesoscale eddy processes affects the simulated means states, but also the overall variability and the response to changing conditions. Yet, because the spatial scales of mesoscale eddies are not explicitly represented in most ocean components of climate models, their effect is accounted for by subgrid closures.

The design of eddy closures for ocean models is an active field of research. With the development of scientific machine learning and its applications to fluid simulations, several eddy closures based on deep learning have been proposed (see Zanna and Bolton 2021). However, to date there has been no systematic evaluation of the impact of these new closures in full-scale realistic simulations. An important question is in particular whether their performance can be easily transferred from one ocean model to another.

Sujet :
The general mission is to conduct research work investigating the impact of machine learning based mesoscale eddy closures in ocean circulation models. The selected candidate will contribute to the M2LINES international project.

The selected candidate will contribute to a joint study aiming at analyzing the impact of several machine learning based eddy closures across different ocean models as part of the M2LINES international project. The work will specifically focus on the scheme proposed by Guillaumin and Zanna (2021) and its impact in the NEMO and MOM6 ocean circulation models. The selected candidate will be in charge of defining a test bed (simulation protocols, evaluation metrics) for assessing the impact of eddy closures in the NEMO 1/4° global ocean model (eORCA025). The work will then focus on refining the implementation of the Guillaumin and Zanna (2021) scheme in the NEMO ocean model and on performing a series of (ocean-only) model experiments. He/she will then analyze the results and contribute to the comparison with a companion effort with the MOM6 ocean model.

The work will be developed and implemented in close coordination with the MOM6 team, as part of the M2LINES collaboration. An important part of the work is therefore the participation in the M2LINES project activities (group meetings, seminars, etc). Regular visits to LOCEAN in Paris will also be required. The selected candidate will be expected to monitor upcoming publications, to write scientific articles, to present results in international conferences and to the relevant NEMO working groups (https://forge.nemo-ocean.eu/wgs).

Profil du candidat :
The selected candidate will hold a PhD in physical oceanography or in computational fluid dynamics, or computer science.

Formation et compétences requises :

The selection will be based on the following scientific and technical criteria: experience in geoscientific modeling, understanding of oceanic processes, experience Fortran and Python coding, experience in scientific writing, experience with one the prominent machine learning libraries (PyTorch, TensorFlow) (not compulsory); motivation to disseminate scientific results; ability to work within a team and in an international context.

The selection panel will also consider the gender balance of the entire research team.

Adresse d’emploi :
Institut des Géosciences de l’Environnement, Maison Climat Planète, 70 rue de la Physique, Domaine Universitaire, 38400 St Martin d’Hères

More information : https://lesommer.github.io/2023/02/15/postdoc-eddy-params-ml/

Please contact : julien.lesommer@univ-grenoble-alpes.fr and julie.deshayes@locean.ipsl.fr

Review of applications will begin immediately and continue until the position is filled.

Research engineer position on hybrid AI/physics ocean modeling

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut des Geosciences de l’Environnement, Gren
Durée : 18 months (renewable
Contact : Julien.Lesommer@univ-grenoble-alpes.fr
Date limite de publication : 2023-04-25

Contexte :
The combination of machine learning with scientific computing is an active area of research which is expected to improve geoscientific models and their integration into broader numerical systems, such as climate models and operational forecasting systems. A key practical question for these models is to define how machine learning components can be encoded and maintained into pre-existing legacy codes, written in low level abstraction languages (as FORTRAN). Several practical options exist, each coming with pros and cons. Neural networks may for instance directly be implemented in FORTRAN, one could alternatively use the C/C++-bindings of specific machine learning libraries or more generic high level coupling interfaces. But the trade-offs between these different strategies are usually model and use-case specific.

The NEMO ocean / sea-ice model (https://www.nemo-ocean.eu) and the CROCO ocean model (https://www.croco-ocean.org) are two important tools for the oceanographic community, in particular in the context of operational forecasting systems and european Earth System Models. Their development roadmaps involve the definition of sustainable interfaces for trainable components to be leveraged on-line during model simulations. A working group dedicated to machine learning related developments has been set-up as part of the NEMO development team.

Sujet :
The selected candidate will be in charge of providing quantitative information and developing practical solutions for a sustainable implementation of trainable components into the NEMO and the CROCO ocean models. This will involve defining benchmark use-cases of machine learning based components in ocean models. These will be based for instance on subgrid parameterizations already developed as part of the M2LINES project. The selected candidate will define quantitative metrics for intercomparing the different available options for coupling AI-based trainable components and legacy ocean models, and implement several options into the NEMO and CROCO ocean models. Possible options may include Infero (https://github.com/ecmwf-projects/infero), ICCS Fortran ML Bridge (https://github.com/Cambridge-ICCS/fortran-ml-bridge), HPE SmartSim (https://github.com/CrayLabs/SmartSim), Melissa (https://gitlab.inria.fr/melissa) or OASIS (https://oasis.cerfacs.fr/en/). The work will then involve performing systematic intercomparison based on realistic model simulations to be performed on HPC resources. The selected candidate will then write reports on the results and present the outcome of the work to relevant working group and project meetings. He/She will participate also in the discussions and meetings of the M2LINES and MEDIATION projects.

Profil du candidat :
The selected candidate will hold a MSc in computer science, engineer or PhD.

Formation et compétences requises :
The selection will be based on the following scientific and technical criteria: demonstrated experience in High Performance Computing; demonstrated experience in Fortran/C/C++ and Python coding; demonstrated experience in (at least) one of the prominent machine learning frameworks (PyTorch, TensorFlow,… ); basic understanding of Computational Fluid Dynamics and subgrid closures for fluid flows;
experience in running atmospheric, ocean circulation or climate models (not compulsory); demonstrated ability to work within a team.

The selection panel will also consider the gender balance of the entire research team. Junior candidates with a fresh title are also welcome.

This position may help you build a curriculum in the very active domain of hybridization between Numerical Simulation and Deep Learning (ML4Sci)

Adresse d’emploi :
Institut des Géosciences de l’Environnement, Maison Climat Planète, 70 rue de la Physique, Domaine Universitaire, 38400 St Martin d’Hères

More information : https://lesommer.github.io/2023/02/15/research-engineer-ml/

Please contact : julien.lesommer@univ-grenoble-alpes.fr and jurelie.albert@univ-grenoble-alpes.fr

Review of applications will begin immediately and continue until the position is filled.

CfP The 34th International Conference on Database and Expert Systems Applications – DEXA2023

Date : 2023-08-28 => 2023-08-30
Lieu : Penang, Malaysia

**** IMPORTANT DATES ****
Paper submission: 07 April 2023 (SHARP – FINAL)
Notification of acceptance: 10 May 2023
Camera-ready copies due: 1 June 2023
Conference days: 28-30 August 2023

Papers submission: https://equinocs.springernature.com/service/DEXA2023

**** PUBLICATION ****
All accepted DEXA2023 papers will be published by Springer in their Lecture Notes in Computer Science (LNCS). LNCS volumes are indexed in Scopus; EI Engineering Index; Google Scholar; DBLP; etc. and submitted for indexing in the Conference Proceedings Citation Index (CPCI), part of Clarivate Analytics’ Web of Science. Selected high-quality papers, after revision and extension, will be invited to be published, in a special issue of Knowledge and Information Systems (KAIS), Springer (IF = 3.161) and Transactions of Large Scale Data and Knowledge Centered Systems (TLDKS), Springer.

**** SCOPE ****
Database, information, and knowledge systems have always been a core subject of computer science. The ever increasing need to distribute, exchange, and integrate data, information, and knowledge has added further importance to this subject. Advances in the field will help facilitate new avenues of communication, to proliferate interdisciplinary discovery, and to drive innovation and commercial opportunity. Since 1990, DEXA has been an annual international conference which showcases state-of-the-art research activities in database, information, and knowledge systems. DEXA provides a forum to present research results and to examine advanced applications in the field. The conference and its associated workshops offer an opportunity for developers, scientists, and users to extensively discuss requirements, problems, and solutions in database, information, and knowledge systems.
DEXA 2023 invites research submissions on all topics related to database, information, and knowledge systems including, but not limited to the points in the list below. We also welcome survey papers, provided that the survey fills a void or goes beyond existing overview papers.
– Acquisition, Modelling, Management and Processing of Knowledge
– Authenticity, Privacy, Security, and Trust
– Availability, Reliability and Fault Tolerance
– Big Data Management and Analytics
– Consistency, Integrity, Quality of Data
– Constraint Modelling and Processing
– Cloud Computing and Database-as-a-Service
– Database Federation and Integration, Interoperability, Multi-Databases
– Data and Information Networks
– Data and Information Semantics
– Data Integration, Metadata Management, and Interoperability
– Data Structures and Data Management Algorithms
– Database and Information System Architecture and Performance
– Data Streams, and Sensor Data
– Data Warehousing
– Decision Support Systems and Their Applications
– Dependability, Reliability and Fault Tolerance
– Digital Libraries, and Multimedia Databases
– Distributed, Parallel, P2P, Grid, and Cloud Databases
– Graph Databases
– Incomplete and Uncertain Data
– Information Retrieval
– Information and Database Systems and Their Applications
– Mobile, Pervasive and Ubiquitous Data
– Modelling, Automation and Optimisation of Processes
– NoSQL and NewSQL Databases
– Object, Object-Relational, and Deductive Databases
– Provenance of Data and Information
– Semantic Web and Ontologies
– Social Networks, Social Web, Graph, and Personal Information Management
– Statistical and Scientific Databases
– Temporal, Spatial, and High Dimensional Databases
– Query Processing and Transaction Management
– User Interfaces to Databases and Information Systems
– Visual Data Analytics, Data Mining, and Knowledge Discovery
– WWW and Databases, Web Services
– Workflow Management and Databases
– XML and Semi-structured Data

**** SUBMISSION GUIDELINES ****
Authors are invited to electronically submit original research contributions or experience reports in English. DEXA will accept submissions of both short (up to 6 pages) and full papers (up to 15 pages including references and appendixes). DEXA reserves the right to accept submitted full papers only as short papers, in which papers describe interesting and innovative ideas which still require further technical development.
Any submission that significantly exceeds length limits or deviates from formatting requirements may be rejected without review.

*** SUBMISSION PROCEDURE ***
Papers submission will be managed using EquinOCS Springer Nature Conference Proceedings Submission System.
Authors should consult Springer’s authors’ instructions (https://www.springer.com/gp/computer-science/lncs/conference-proceedings…) and use the proceedings templates, either for LaTeX or for Word, for the preparation of their papers.
Once you click on the submission link (https://equinocs.springernature.com/service/DEXA2023), you will be guided to the EquinOCS Login page, which will be open in your browser. Click on the button “Submit now”. This will guide you directly to the paper submission process. If you already have an account at EquinOCS you will be asked to Login. After Login you will be guided to the start page where you can start with your submission. If you do not have an account at EquinOCS yet, please follow the registration process. Once your Account has been created, an email will be sent to the email you have stated in the registration process. Please follow the instructions in this email to activate your account and start your submission.
Please refer to EquinOCS user guide (https://support.springernature.com/en/support/solutions/articles/6000245…) for more information.

**** REVIEW PROCESS ****
Submitted papers will be carefully evaluated based on originality, significance, technical soundness, and clarity of exposition.
Duplicate submissions are not allowed and will be rejected immediately without further review.
Authors are expected to agree to the following terms: “I understand that the submission must not overlap substantially with any other paper that I am a co-author of or that is currently submitted elsewhere. Furthermore, previously published papers with any overlap are cited prominently in this submission.”
Questions about this policy or how it applies to a specific paper should be directed to the PC Co-chairs.

**** ACCEPTED PAPERS ****
All accepted conference papers will be published in a volume of “Lecture Notes in Computer Science” (LNCS) by Springer Verlag. Authors of all accepted papers must sign a Springer copyright release form. Papers are accepted with the understanding that at least one author will register for the conference to present the paper. Authors of selected papers presented at the conference will be invited to submit extended versions of their papers for publication in Knowledge and Information Systems (KAIS), Springer (IF = 3.161) and Transactions of Large Scale Data and Knowledge Centered Systems (TLDKS), Springer. The submitted extended versions will undergo a further review process.

**** Program Committee Chair ****
– Christine Strauss, University of Vienna, Austria
– Toshiyuki Amagasa, University of Tsukuba, Japan

Program Committees please refer to DEXA2023 website

For further inquiries, please contact dexa@iiwas.org

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

PhD position in Deep Neural Networks with Dempster Shafer Theory (Fully funded)

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LGI2A
Durée : 3 ans
Contact : david.mercier@univ-artois.fr
Date limite de publication : 2023-05-23

Contexte :
Developing deep evidential networks in more depth by exploiting methods developed at LGI2A allowing one to consider finer knowledge about the quality, the dependence of information or the ignorance in predictions.

Candidate before May 2023

Sujet :
Deep neural networks (DNNs) refer to predictive models that exploit multiple layers of artificial neurons to compute a prediction [1,4]. In the original version, the layers are sequential and each neuron in a layer is connected with neurons in the previous layer. Many other alternative architectures have been proposed to adapt DNNs to solve specific and complex problems.

On the other hand, a theory called Dempster-Shafer theory of belief functions, or theory of evidence [15], has emerged as a rich and flexible generalization of the Bayesian probability theory, able to deal with imperfect (uncertain, imprecise, …) information. It is notably used in a growing number of applications such as classification (e.g. [2]), clustering (e.g. [3,7]) or information fusion (e.g. [5,13]).

Recent works [6,16,17] have shown the interest of enriching a DNN with an additional distance-based Dempster Shafer layer [2] for predicting belief functions. These belief functions can be of great interest to represent a reality as faithfully as possible, for example to perform a partial classification [8], i.e. decisions in favor of a group of classes.

The main idea of this thesis is to develop such deep evidential networks in more depth by exploiting methods developed at LGI2A allowing one to consider finer knowledge about the quality [12, 14] and the dependence of information [11], or the ignorance in predictions [9,10].

Two applications are envisaged: Image analysis from drones and fish population analysis.

To apply, please send the following documents grouped in one pdf file: your CV, your grades for the current and past years, a motivation letter, and at most two recommendations (optional) to sebastien.ramel@univ-artois.fr, frederic.pichon@univ-artois.fr and david.mercier@univ-artois.fr

References

[1] C. M. Bishop. Pattern recognition and machine learning, 5th Edition. Information science and statistics. Springer, 2007.
[2] T. Denoeux. A neural network classifier based on dempster-shafer theory. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 30(2):131–150, 2000.
[3] T. Denœux. Calibrated model-based evidential clustering using bootstrapping. Information Science, 528:17–45, 2020.
[4] I. Goodfellow, Y. Bengio and A. Courville: Deep Learning (Adaptive Computation and Machine Learning), MIT Press, Cambridge (USA), 2016.
[5] L. Huang, T. Denoeux, P. Vera, and S. Ruan. Evidence fusion with contextual discounting for multi-modality medical image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 401–411. Springer, 2022.
[6] L. Huang, S. Ruan, P. Decazes, and T. Denoeux. Lymphoma segmentation from 3D PET-CT images using a deep evidential network. International Journal of Approximate Reasoning, Volume 149, pages 39-60, 2022.
[7] F. Li, S. Li, and T. Denœux. Combining clusterings in the belief function framework. Array, 6:100018, 2020.
[8] L. Ma and T. Denœux. Partial classification in the belief function framework. Knowledge-Based Systems, 214: article 106742, 2021.
[9] P. Minary, F. Pichon, D. Mercier, E. Lefèvre and B. Droit. Evidential joint calibration of binary SVM classifiers, Soft Computing, pp 4655-4671, Vol. 23, No. 13, 2019.
[10] S. Ramel, F. Pichon and F. Delmotte. A reliable version of choquistic regression based on evidence theory, Knowledge-Based Systems, KBS, pp 106252, Vol. 205, 2020.
[11] F. Pichon. Canonical decomposition of belief functions based on Teugels’ representation of the multivariate Bernoulli distribution. Information Sciences, 428:76-104, 2018.
[12] F. Pichon, D. Dubois, and T. Denœux. Relevance and truthfulness in information correction and fusion. International Journal Approximate Reasoning, 53(2):159–175, 2012.
[13] F. Pichon, D. Dubois, and T. Denoeux. Quality of information sources in information fusion. In Éloi Bossé and Galina L. Rogova, editors, Information Quality in Information Fusion and Decision Making, pages 31–49. Springer, 2019.
[14] F. Pichon, D. Mercier, E. Lefèvre, and F. Delmotte. Proposition and learning of some belief function contextual correction mechanisms. International Journal Approximate Reasoning, 72:4–42, 2016.
[15] G. Shafer. A mathematical theory of evidence, volume 42. Princeton university press, 1976.
[16] Z. Tong, P. Xu, and T. Denoeux. An evidential classifier based on dempster-shafer theory and deep learning. Neurocomputing, 450:275–293, 2021.
[17] Z. Tong, P. Xu, and T. Denœux. Fusion of evidential cnn classifiers for image classification. In International Conference on Belief Functions, pages 168–176. Springer, 2021.

Profil du candidat :
Master’s degree or equivalent in Computer Science or a related field

Formation et compétences requises :
Strong background in machine learning and deep learning

Experience with programming languages such as Python and TensorFlow / Keras

Excellent written and oral communication skills

Strong problem-solving and analytical skills

Adresse d’emploi :
LGI2A – Université d’Artois – Béthune – France – (https://www.lgi2a.univ-artois.fr).

Document attaché : 202303231217_Offre_These_2023_LGI2A_DLwithDST.pdf

IKUR Postdoctoral position- Explainability in time series classification models

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : University of the Basque Country, San Sebastian, S
Durée : 24 mois
Contact : simon.malinowski@irisa.fr
Date limite de publication : 2023-05-31

Contexte :
This project is led in collaboration between researchers of the Intelligent Systems Group (ISG) of
the University of the Basque Country (UPV/EHU) in San Sebastian, Spain and the researchers
from the Linkmedia group in the University of Rennes 1, IRISA. We are looking for a motivated
and experienced scientist to fill a two-year POST-DOCTORAL position in the scope of the IKUR
project: “Explainability in time series classification models”. The location for the position is San
Sebastian, Spain.
The main goal of the project is to advance in the area of explainability in the area of temporal data
mining, and more specifically for time series classification models.

Sujet :
The main task of the job is devoted to the development of methods and algorithms to explain the
outcomes and predictions of time series mining models, specifically time series classification
models.

Profil du candidat :

Experience in the field of machine learning, particularly analysis of temporal data and/or
explainability.

Formation et compétences requises :
PhD in Physics, Mathematics, Computer Science or related areas. Advanced programming skills in scientific computing.

Adresse d’emploi :
University of the Basque Country, San Sebastian, Spain

Document attaché : 202303230927_PostDocIKUR2023.pdf

Deep Learning for Time Series Classification

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIMAS (équipe MSD), Université Haute-Alsace
Durée : 3 ans
Contact : maxime.devanne@uha.fr
Date limite de publication : 2023-04-30

Contexte :
Similarly to various fields like imagery, the last few years have seen the explosion in the amount of temporal data. These time series correspond to ordered sequences of numerical values or discrete events that evolve over time. Data ordering is a crucial element that makes it possible to characterize time series in order to study the similarity between a set of sequences. This then allows, for example, to recognize time series (classification), to group them together by similarity (clustering) or to detect anomalies in the series. In order to analyze time series, a technique mainly used considers small temporal windows to detect patterns representative of the temporal evolution. For several years now, the community of researchers in the field has been interested in approaches based on deep learning through the development of neural networks dedicated to time series.

Sujet :
The objective of this thesis will thus be to study and develop new advanced deep learning methods for the analysis of time series and in particular for their classification. Initially, new deep architectures such as Transformers or diffusion models will be considered. Once a deep neural network is trained on a task from a dataset, its deployment and adaptation on different data (and potentially new tasks) is not easy. In a second step, we will therefore focus on transfer learning and knowledge distillation approaches in the context of time series analysis. Finally, one of the major challenges in deep learning concerns the interpretability and explainability of the decisions made by a neural network. In this thesis, we will finally study this problem and propose solutions to better understand the decisions made by deep models. This is particularly useful in a medical context, in the case of sequences of surgical acts analysis or rehabilitation movement analysis. Thus, the theoretical approaches developed during the thesis will also be evaluated in the context of application cases mentioned above.

This research topic is the heart of the work of the MSD team from IRIMAS Institute at Université de Haute-Alsace. The candidate will benefit from a suitable research environment, rich in experience and skills on time series analysis. This PhD will be supervised by Prof. Germain Forestier, Dr. Jonathan Weber and Dr. Maxime Devanne.

For applying, please send a curriculum, a cover letter and Master transcripts to germain.forestier@uha.fr, jonathan.weber@uha.fr and maxime.devanne@uha.fr
Application deadline: April 30th 2023

Profil du candidat :
Good skills in Python programming
Experience in Machine/Deep Learning

Formation et compétences requises :
Master in Computer Science (or equivalent)

Adresse d’emploi :
IRIMAS, Université de Haute-Alsace, Mulhouse France

Document attaché : 202303221640_PhD_DeepLearningTSC_2023.pdf

apprentissage par renforcement au test mécanique de matériaux

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LaMcube et CRIStAL
Durée : 6 mois
Contact : philippe.preux@univ-lille.fr
Date limite de publication : 2023-08-31

Contexte :
Dans le cadre d’une collaboration entre l’UMR CRIStAL et l’UMR LaMcube à l’Uiversité de Lille, nous recherchons un stagiaire de M2 ou 3è année ingénieur pour réaliser un stage sur l’utilisation de l’apprentissage par renforcement au test mécanique de matériaux.

Sujet :
voir document attaché.

Profil du candidat :
M2 (ou ingénieur) informatique ou M2 (ou ingénieur) mécanique avec de fortes compétences en informatique.

Formation et compétences requises :
M2/ingénieur informatique
M2/ingénieur en mécanique

Adresse d’emploi :
Bâtiment Esprit
Cité Scientifique
Villeneuve d’Ascq

Document attaché : 202303211425_RL_intern_CRIStAL_LAMCUBE.pdf

Recherche efficace de motifs spatio-temporels dans des grands cubes de données satellites

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA Vannes et CLS Lille
Durée : 36 mois
Contact : sebastien.lefevre@irisa.fr
Date limite de publication : 2023-04-30

Contexte :
Contexte industriel

Depuis 2011, le Copernicus Land Monitoring Service (CLMS https://land.copernicus.eu/) fournit des produits pour la surveillance de l’état, des changements et des caractéristiques de la couverture/utilisation des terres végétalisées, non végétalisées, des variables biophysiques, des conditions de l’eau et de la cryosphère. Cette cartographie à large échelle utilisent les données d’observation à haute résolution de la terre (10 m de résolution spatiale, une acquisition toutes les semaines) gratuites et libres d’accès telles que Sentinel (1 et 2), ainsi que des données commerciales à très haute résolution spatiale (1 m de résolution spatiale, tous les ans).
Dans ce contexte, il est important de développer des algorithmes, des méthodes et procédés semi- automatiques (voire automatiques) afin de limiter au strict nécessaire le recours à des traitements humains au regard des masses de données manipulées. Des interventions humaines, même de courte durée, répétées à l’échelle de l’Europe voire du globe ont un effet majeur sur la capacité à fournit les produits Copernicus en un temps raisonnable. De plus, il est nécessaire d’optimiser les traitements informatiques pour réduire leur coût financier et énergétique. Dans ce contexte, l’unité de R&D du pôle Terre et Eau du groupe CLS cherche à concevoir des solutions (semi-)automatiques efficaces pour analyser de grands volumes de données d’observation de la Terre.
La recherche d’automatisation a donné lieu à une collaboration entre CLS et OBELIX depuis plusieurs années, afin de concevoir et déployer des solutions efficientes de cartographie automatisée large-échelle.

Contexte scientifique

Ainsi, dans le cadre d’une demande de l’Agence Européenne de l’Environnement, CLS et OBELIX ont conçu et déployé une chaîne de production originale de la cartographie des trames vertes à l’échelle continentale pour le compte du programme Copernicus. Pour faire face au volume de données à traiter (38 000 images, soit 120 To), et à la diversité des scènes étudiées, la solution développée s’est appuyée sur des algorithmes efficaces de caractérisation multi-échelle des pixels (profils d’attributs) à l’aide des hiérarchies morphologiques, et de classification semi-supervisée par une approche ensembliste de forêts aléatoires. Elle a été implantée à l’aide de composants logiciels C++ diffusés sous licence libre : TRISKELE et Broceliande. Une attention particulière est portée à l’optimisation systématique de toutes les étapes du processus, y compris l’extraction des descripteurs. Cette étape, centrale dans le processus de cartographie automatique, est souvent mise en oeuvre à l’aide des profils d’attributs calculés efficacement à l’aide des hiérarchies morphologiques.
Dans un autre contexte, l’équipe OBELIX a collaboré avec le CNES dans le cadre d’une étude R&T pour développer une solution efficace de recherche automatique par l’exemple dans des bases d’images satellites. Pour cela, elle a exploité les hiérarchies morphologiques pour calculer des histogrammes de formes (ou Pattern Spectra) qui permettent de mettre en oeuvre des algorithmes efficaces de recherche par l’exemple. La solution ainsi développée rend possible la recherche de motifs spatiaux de taille variable (et non connue a priori) dans une base de très grandes images. Contrairement aux approches populaires en vision par ordinateur basées sur l’apprentissage automatique ou profond, elle ne s’appuie pas sur un entraînement préalable d’un modèle prédictif, et fonctionne sans recourir à des données annotées. Ce travail a abouti au démonstrateur Korrigan.
Au vu de la pertinence des hiérarchies morphologiques et des outils qui en découlent (profils d’attributs, histogrammes de formes) pour élaborer des solutions efficaces d’analyse semi-automatique d’images satellites, leur extension aux séries temporelles d’images satellites a également été étudiée, au travers d’une thèse de doctorat conduite conjointement par l’équipe OBELIX, le CNES, et CLS.

Sujet :
En dépit des progrès récents en intelligence artificielle appliquée à l’observation de la Terre, illustrés par des performances toujours accrues sur des jeux de données standardisés, son utilisation dans un contexte de cartographie opérationnelle reste confrontée à différents verrous, que la thèse cherchera à lever.
En premier lieu, les approches modernes d’analyse d’image requièrent, dans leur grande majorité, de disposer au préalable d’une grande quantité d’exemples afin d’entraîner les modèles prédictifs comme les réseaux de neurones profonds. Les solutions interactives, permettant à un utilisateur de fouiller ses données afin d’en extraire les informations recherchées et d’en découvrir de nouvelles, restent peu étudiées.
De plus, l’avènement de l’apprentissage profond a amené un besoin toujours plus important en ressources in- formatiques : capacité de calcul sur CPU ou GPU, mémoire vive. La sobriété numérique est devenue aujourd’hui une question sociétale majeure, au-delà des intérêts économiques qu’elle peut procurer.
Enfin, la majorité des développements récents portent sur l’identification de motifs soit purement spatiaux (segmentation sémantique, détection d’objets) soit purement temporels (classification de séries temporelles). Les séries temporelles d’images satellites, disponibles en masse avec l’avènement de missions telles que Landsat ou Sentinel, nécessitent de porter une attention conjointe aux dimensions spatiale et temporelle.
La prise en compte de ces différents verrous s’effectuera au travers d’une problématique scientifique originale : la recherche efficace de motifs spatio-temporels dans des grands cubes de données satellites. Cette recherche, conduite de façon interactive et itérative par un utilisateur, s’appuiera sur un nombre restreint d’exemples, sur la base desquels une fouille d’un cube de données spatio-temporelles sera effectuée afin d’en extraire les motifs les plus similaires.
Bien que le paradigme de la recherche par l’exemple ou par le contenu ait été largement étudié en analyse d’image, y compris en observation de la terre, son application à des exemples spatio-temporels reste originale. Elle permettrait pourtant d’offrir de nombreux cas d’utilisation, comme par exemple l’identification d’inondations, de feux de foret, de fauchages non conformes de prairie, etc.
Ce mécanisme de fouille interactive permettra également de constituer facilement des ensembles de données de référence, qui pourront être par la suite utilisés pour entraîner des modèles IA dont la pertinence reste avérée lorsque les phénomènes étudiés peuvent être observés en amont.
Afin de mettre en oeuvre un tel mécanisme, plusieurs paradigmes peuvent être explorés, et nous souhaitons comparer l’intérêt des approches stochastiques et déterministes dans un tel contexte. Alors que les premières sont généralement basées sur un apprentissage et font aujourd’hui office de référence dans des tâches usuelles de classification (réseaux de neurones profonds), les secondes présentent l’avantage de pouvoir être implantées à l’aide d’algorithmes particulièrement efficaces, comme les hiérarchies morphologiques par exemple. Dans tous les cas, une attention particulière sera portée à l’efficience, au passage à l’échelle, et à la robustesse de la méthode en présence de peu d’exemples.

Profil du candidat :
Le candidat devra être titulaire d’un Master ou d’un Diplôme d’Ingénieur prioritairement en Informatique, ou à défaut en Traitement du Signal et des Images, ou en Mathématiques Appliquées. Il devra être capable d’aborder les différents aspects du sujet, tels que la conception et l’optimisation d’algorithmes efficaces, la mise en oeuvre de réseaux de neurones profonds au travers de frameworks existants, l’implantation et l’expérimentation dans des environnements informatiques complexes, la maîtrise des fondements scientifiques des méthodes étudiées.

Formation et compétences requises :
Les compétences suivantes sont attendues :
— excellentes compétences en algorithmique et programmation (C++, Python)
— expérience du traitement d’image et/ou de l’apprentissage profond
— intérêt marqué pour les problématiques liées à l’observation de la terre (des connaissances en télédétection
seront appréciées)
— maîtrise de l’anglais à l’oral et à l’écrit
— curiosité et rigueur scientifiques
— esprit d’analyse et de synthèse
— communication et esprit d’équipe

Adresse d’emploi :
Les travaux se dérouleront majoritairement dans les locaux de CLS à Villeneuve d’Ascq à proximité de Lille (59) avec un accompagnement de l’équipe OBELIX (UMR 6074 IRISA) à Vannes (56). L’inscription académique s’effectuera au sein de l’Université Bretagne Sud (UBS) et de l’École Doctorale MathSTIC – Bretagne Océane.
La thèse sera dirigée par Sébastien Lefèvre (Professeur, UBS) et co-encadrée par François Merciol (Maître de Conférences, UBS) et Antoine Masse (Responsable Département R&D, CLS).

Document attaché : 202303181051_CIFRE-CLS-IRISA.pdf

Gestion, analyse et visualisation de graphes d’applications

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS/CAST Software Intelligence
Durée : 36
Contact : hamamache.kheddouci@univ-lyon1.fr
Date limite de publication : 2023-04-30

Contexte :
Cette proposition de thèse se place dans le cadre d’une collaboration entre la société CAST (Paris) et le laboratoire LIRIS (Université Lyon 1). La collaboration s’inscrit dans les domaines des Graphes et du Big Data.

Sujet :
Contexte scientifique
Les graphes des applications sont des structures de données extraites automatiquement à partir de l’analyse du code, des fichiers projets (comme les pom.xml dans l’environnement Java), et des structures de données (relationnelles, hiérarchiques ou simples fichiers). CAST Imaging dispose d’une grande base de connaissances de ces graphes qui couvre plus de 50 langages et technologies concernant des applications à la fois modernes exploitant les dernières nouveautés des fournisseurs Cloud comme AWS ou Azure, mais aussi des plus classiques faites autour de JEE, .NET, C, les bases de données relationnelles, etc. Ces applications sont représentées via une interface graphique dédiée par des graphes où les éléments du code (fonction, classes, procédure, tables, fichiers de données, etc.) sont représentés par des nœuds, et les dépendances (appel, héritage, composition, etc 😉 entre ces éléments sont représentées par des arêtes/arcs. Par conséquent, l’analyse et la compréhension de ces applications passent naturellement par l’analyse et la compréhension de leurs graphes respectifs.

Objectifs de la thèse
Les graphes des applications peuvent comporter plusieurs millions de nœuds et d’arêtes/arcs. Ils peuvent avoir des représentations lourdes notamment quand on souhaite prendre en compte un maximum d’informations sur les applications. Ils deviennent des multigraphes hétérogènes où les nœuds ne sont pas tous de même nature, les arêtes peuvent décrire plusieurs relations entre une même paire de nœuds, avec des ensembles d’attributs et de poids à la fois sur les nœuds et sur les arêtes. Ces graphes sont riches en informations, mais leur analyse et visualisation dans leurs structures réelles deviennent difficiles. Notre objectif dans cette thèse est donc de s’appuyer sur des modélisations avancées et des algorithmes avancés pour analyser les graphes d’applications et proposer des représentations simples de ces graphes facilement explorables d’un point de vue algorithmique et compréhensibles d’un point de vue visuel.

Dans un premier temps, nous nous focaliserons sur l’enrichissement des graphes d’applications actuels aux niveaux structurel et sémantique. D’un point de vue structurel, nous identifierons clairement les classes de nœuds (hétérogénéité) et les relations structurelles intra-classes et inter-classes (héritage, inclusion, appels de fonctions, etc.). D’un point de vue sémantique, nous capturerons un maximum d’informations sémantiques sous forme d’attributs, de poids ou de relations entre objets. Nous développerons par la suite des techniques de stockage et d’indexation de ces graphes qui permettraient le passage à l’échelle.

Dans un deuxième temps, nous mènerons une analyse algorithmique des graphes d’applications. Les structures macroscopiques des graphes d’applications sont quelconques, mais l’analyse de leurs sous-graphes, la recherche et la découverte de patterns et des propriétés structurelles permettent une meilleure compréhension du graphe. L’analyse des graphes d’applications s’appuyera à la fois sur des algorithmiques d’exploration de graphes et sur des algorithmes de machine learning (clustering, graph embedding, etc.). Cette analyse algorithmique des graphes d’applications servira d’une part à mieux comprendre ces graphes et d’autre part à concevoir des représentations simples de ces graphes qui faciliteront leur visualisation. Ces représentations seront des structures résumant le graphe d’application sous forme de structures hiérarchiques multi-niveaux, avec des regroupements et compressions de nœuds/sous-graphes, arêtes, etc. Pour ce faire, nous serons amenés à explorer la littérature des graphes liées aux techniques de décomposition, d’agrégation et de compression de graphes, pour proposer de telles représentations et de les adapter pour qu’elles prennent en compte les contraintes réelles des graphes d’applications (hétérogénéité des nœuds et arêtes, attributs, poids, etc.) et qui préservent au mieux les propriétés structurelles des graphes d’applications.

La visualisation des graphes d’applications est une partie centrale de la thèse. L’objectif est de proposer des méthodes de navigation dans le graphe d’application qui permettent de guider/orienter l’utilisateur dans la découverte et la compréhension du graphe sans le submerger immédiatement avec tout le détail dont nous disposons. D’où l’intérêt des représentations des graphes d’applications décrites dans le paragraphe précédent. Ces représentations simples donneront une visualisation claire qui permettra à l’utilisateur d’effectuer une meilleure analyse visuelle du graphe. Notre objectif dans cette partie visualisation est de développer des algorithmes qui donneront une meilleure performance en temps d’analyse (affichage, exploration etc.), et une visualisation compréhensible (représentations réduites et simplifiées). Pour ce faire, nous explorerons des techniques de visualisation progressive de sorte que l’utilisateur puisse découvrir, à la demande (d’une façon interactive), ou automatiquement, un graphe d’applications et ses représentations pas-à-pas, et de plus, afficher ces parties du graphe de différents angles avec différentes informations en utilisant par exemple des vues 3D des représentations des graphes d’applications.

Finalement, il est à noter que ces graphes d’applications sont dynamiques car les applications sont mises à jour régulièrement. Nous serons amenés à automatiser les mises à jour sur les graphes d’applications.

Profil du candidat :
Les candidat.e.s ayant obtenu un M2 recherche/ingénieur en informatique, intéressé.e.s, disposant de connaissances approfondies en algorithmique des graphes, machine learning, big data et programmation sont prié.e.s d’envoyer leur CV détaillé, une lettre de motivation pour le sujet et des relevés de notes (avec le classement si possible) aux emails suivants, avant le 30 avril 2023 :
• Hamamache Kheddouci : hamamache.kheddouci@liris.cnrs.fr,
• Olivier Bonsignour : o.bonsignour@castsoftware.com,
• Damien Charlemagne : d.charlemagne@castsoftware.com
• Salma Nagbi : s.nagbi@castsoftware.com

Formation et compétences requises :
Les candidat.e.s ayant obtenu un M2 recherche/ingénieur en informatique, intéressé.e.s, disposant de connaissances approfondies en algorithmique des graphes, machine learning, big data et programmation sont prié.e.s d’envoyer leur CV détaillé, une lettre de motivation pour le sujet et des relevés de notes (avec le classement si possible) aux emails suivants, avant le 30 avril 2023 :
• Hamamache Kheddouci : hamamache.kheddouci@liris.cnrs.fr,
• Olivier Bonsignour : o.bonsignour@castsoftware.com,
• Damien Charlemagne : d.charlemagne@castsoftware.com
• Salma Nagbi : s.nagbi@castsoftware.com

Adresse d’emploi :
Le/la doctorant.e effectuera sa recherche à la fois dans la société CAST SA et dans l’équipe GOAL du laboratoire LIRIS.

Document attaché : 202303170832_Sujet_Thèse_CAST-LIRIS.pdf