MaDICS

Étude mathématique de l’empreinte chromatographique du Skydrol

Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LMA Poitiers/ABC Essais
Durée : 3 ans
Contact : samuel.boissiere@univ-poitiers.fr
Date limite de publication : 2020-07-31

Contexte :
Il s’agit d’un projet de thèse CIFRE entre l’entreprise ABC Essais et le laboratoire de mathématiques et applications (UMR CNRS 7348).
Les objectifs de cette thèse sont de développer la méthode mathématique pour augmenter la précision des résultats et la vitesse de calcul, de programmer l’appareil dans un langage moderne, d’automatiser le procédé d’analyse et de le tester sur des bancs d’essais.
Plus de détails et candidature via le site de l’Ecole doctorale :
https://www.u-ldevinci.fr/sismi/2020/06/19/proposition-de-these-etude-mathematique-de-lempreinte-chromatographique-du-skydrol/

Sujet :
Le Skydrol est un fluide hydraulique à base d’ester phosphate couramment utilisé en aéronautique. Dans un procédé breveté en 2011, Daniel Pierre-Loti-Viaud, Jean-Paul Richard et Christian Richard ont développé une méthode d’analyse de l’empreinte chromatographique du Skydrol, en se basant sur une méthode mathématique mise au point avec la collaboration de Deheuvels en 1999. Ils ont également construit un appareil mettant en œuvre cette méthode. L’enjeu essentiel de ces travaux est de déterminer avec précision, mais aussi avec rapidité, l’état de dégradation de l’huile en vue de son recyclage, qui est une démarche coûteuse.
Lors de la réalisation de l’empreinte chromatographique du spectre, les pics principaux correspondent aux propriétés générales de l’huile mais ne donnent pas d’information fiable sur son état de dégradation. Pour cela, il faut s’intéresser au bruit du spectre, qui est souvent négligé, et en extraire des données sur l’état de dégradation de l’huile. La méthode proposée se base sur des méthodes d’analyse statistique fonctionnelle.

Profil du candidat :
Analyse des empreintes chromatographiques, statistiques
fonctionnelles, minimisation sous contraintes, programmation.

Candidature via
https://www.u-ldevinci.fr/sismi/2020/06/19/proposition-de-these-etude-mathematique-de-lempreinte-chromatographique-du-skydrol/

Formation et compétences requises :
Un master 2 en mathématiques fondamentales et appliquées est requis pour ce poste, avec de préférence de bonnes connaissances en statistiques fonctionnelles et en programmation en langage Python. Des connaissances en chimie et une maîtrise de l’anglais seront appréciées. La candidate ou le candidat devra également être à l’écoute des problématiques industrielles de cette thèse.

Adresse d’emploi :
Laboratoire de Mathématiques et Applications
UMR 7348 Université de Poitiers et CNRS
Campus Futuroscope-Chasseneuil
86 Poitiers
https://www.u-ldevinci.fr/sismi/2020/06/19/proposition-de-these-etude-mathematique-de-lempreinte-chromatographique-du-skydrol/

Categories: theses

Financement Thèse – Intelligence artificielle explicable et repositionnement de médicaments

Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Connaissance et Intelligence Artificielle Distribu
Durée : 3 ans
Contact : cnicolle@u-bourgogne.fr
Date limite de publication : 2020-07-31

Contexte :
Les réseaux biologiques sont des outils très efficaces pour modéliser, analyser et découvrir de nouvelles interactions biologiques dans des systèmes biologiques complexes. Ces dernières années, des modèles de réseau et des algorithmes ont été utilisés pour le développement de la médecine de précision pour de nombreuses maladies. La machinerie mathématique au cœur de ce domaine de recherche est basée sur la théorie des graphes, un domaine disciplinaire largement étudié. Ce domaine est aussi associé à l’apprentissage automatique sur des données structurées sous forme de graphes.
Un grand défi est de créer de meilleurs outils de modélisation pour intégrer l’expertise humaine et les techniques d’intelligence artificielle afin d’exploiter les méga données issues des soins de santé et, de formuler des hypothèses sur la façon dont les organismes humains agissent en matière de santé et de maladie. Pour relever ce défi, de nombreux travaux émergents proposent la conception d’IA explicables permettant la conception rapide de médicaments profilés. Ces IA explicables combinent des approches d’IA connexionnistes telles que l’apprentissage en profondeur, les réseaux de neurones, etc. et des IA causales basées sur la modélisation de graphes de connaissances dérivées des connaissances des experts métiers. Cette recherche abordera des questions telles que :
– Comment agréger des sources de données issues de bases de données médicales hétérogènes tout en conservant la cohérence des connaissances associées?
– Quelles sont les meilleures fonctions pour analyser des données brutes afin d’extraire des connaissances ?
– Comment développer la prédiction in silico de nouvelles cibles thérapeutiques qui seront ensuite testées in vitro et / ou in vivo?

Sujet :
Cette recherche est financée par le gouvernement français et la société OncoDesign (https://www.oncodesign.com/en/).
Cette société et le laboratoire CIAD ont initié une collaboration scientifique dans le domaine de la médecine spécialisée.
Cette collaboration concerne l’identification de nouvelles cibles thérapeutiques et l’accélération des phases de développement de la recherche et de la création de nouvelles molécules.

Profil du candidat :
Le candidat doit avoir une formation en informatique avec idéalement des compétences en apprentissage automatique et / ou en ingénierie des connaissances.
Des connaissances dans le domaine de la biologie seront appréciées.
Les candidats doivent fournir une preuve de bonne pratique écrite et orale de la langue anglaise. La maîtrise de la langue française sera appréciée.

Formation et compétences requises :
La contrainte principal pour candidater est d’être titulaire d’un diplôme de Master ou équivalent avec une solide formation universitaire dans un ou plusieurs des domaines suivants: informatique, mathématiques ou formation équivalente avec une moyenne vous situant dans le premier tiers de la promotion.

Critères de sélection préférés
– Expérience en intelligence artificielle et / ou exploration de données / DataScience.
– Un candidat ayant une certaine expérience industrielle dans les domaines susmentionnés aura la préférence.
– Une activité de publication dans les disciplines susmentionnées seront considérées comme un avantage.

Le doctorant sera rémunérés par l’entreprise sous la forme d’un CDI associé à une bourse CIFRE.
Le montant du salaire peut être négocié avec l’entreprise.
Le mandat est d’une durée de 3 ans et peut être prolongé au-delà de la soutenance de thèse.
La nomination à ce poste nécessite que vous soyez admis par l’école doctorale EDSPIM et que vous suiviez le plan individuel de formation de 100 heures proposé par cette école sur la durée de la thèse.

Adresse d’emploi :
Le poste sera localisé à Dijon, ville française gastronomique et touristique à 1h30 de Paris en train.
Le laboratoire CIAD et l’entreprise sont à 500 mètres de distance.

Categories: theses

Fully funded 40 PhD and 30 Postdoc positions in Artificial Intelligence and Machine learning in Toulouse

Jul 31 – Aug 1 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : ANITI – Institut 3iA porté par l’université de Toulouse
Durée : PhD: 3 years – PostDoc: up to 4 years
Contact : mohamed.kaaniche@laas.fr
Date limite de publication : 2020-07-31

Contexte :
The University of Toulouse seeks to hire outstanding PhD and Post Doc candidates in artificial intelligence and in particular in machine learning at its new Institute on Artificial and Natural Intelligence (ANITI).

The French government, in consultation with an international jury of experts, has selected ANITI to be one of four, highly visible interdisciplinary institutes spearheading AI research, education, and economic development in France. ANITI has targeted as strategic areas mobility and transportation, and robotics/cobotics for the industry of the future.
More specifically, ANITI will combine fundamental research on the foundations of machine learning and on integrating data driven and reasoning based systems towards the following goals.

– Acceptability, Fair representative data for AI
– Certifiable AI toward autonomous critical Systems
– Assistants for design, decision, and Industrial processes

Starting operations this autumn, ANITI will bring together more than 200 researchers from universities, engineering schools, scientific and technological research organizations, and about thirty companies. More than thirty research chairs will be funded in this context, of which at least ten will be chaired by researchers brought in from the exterior. The project will also promote international mobility and collaboration to attract outstanding students and researchers.

Eventually, we will fund upwards of 40 PhD and 30 Post Doc positions. Successful candidates will have a unique opportunity of contributing to the ambitious research agenda of ANITI, and will be given excellent conditions for the development of their research skills, in terms of working conditions and laboratory facilities. The working language at the institute is English, and salaries are internationally competitive.
PhD Positions: duration 36 months, net salary: 2096€ per month with some teaching (64 hours per year on average)
Post Doc Positions : from one to four years. Net salary: negotiable with a minimum of 2600€ per month with some teaching (64 hours per year on average).

Relevant pointers about ANITI are available at: http://aniti.univ-toulouse.fr
The list of Chairs offering open PhD and Post-Doc positions with their contact information is available at: https://www.univ-toulouse.fr/ANITI-CHAIRS-EN
For more information on ANITI integrated projects, see https://www.univ-toulouse.fr/ANITI-IPs-EN

Application procedure :

Formal applications should include detailed CV, a motivation letter and transcripts of bachelors’ degrees. Samples of published research by the candidate and reference letters will be a plus.

Applications should be sent by email to:
aniti-phd@univ-toulouse.fr (for PhD applications)
aniti-postdoc@univ-toulouse.fr (for Post-Doc applications)

Sujet :
ANITI will combine fundamental research on the foundations of machine learning and on integrating data driven and reasoning based systems towards the following goals.
– Acceptability, Fair representative data for AI
– Certifiable AI toward autonomous critical Systems
– Assistants for design, decision, and Industrial processes

Starting operations this autumn, ANITI will bring together more than 200 researchers from universities, engineering schools, scientific and technological research organizations, and about thirty companies. Currently 24 research chairs are funded in this context. The project will also promote international mobility and collaboration to attract outstanding students and researchers.

List of chairs:

IPA: Acceptability, Fair representative data for AI
———————-
J.F. Bonnefon. A detailed quantitative understanding of social expectations in two domains of moral AI: self-driving cars and algorithmic justice: address problems and ethical dilemmas that involve tradeoffs relevant to the design of autonomous vehicles inter alia.

C. Castets-Renard, Law, Accountability and Social Trust in AI: investigate a legal framework for making AI programs properly accountable. Legal issues like consumer protection, liability, and insurance need work before AI can gain full social trust

C. Hidalgo. Developing AI to Improve Global Governance: Advance the development of big data and AI tools to serve the general public and promote data driven decision making and AI ethics (public data enhanced with computer vision and NLP, digital twins).

B. Jullien AI and Competition. This research aims at fostering our theoretical and empirical understanding of the economics of information services using AI, with a special emphasis on the impact of AI on competition

J. M. Loubes, Fair & Robust Methods in Machine Learning: Analyse fair learning and bias using tools from statistics and optimal transport theory and contribute to explaining ML program behavior, anomaly detection and making ML methods more robust.

N. Dobigeon, Data-driven approximate Bayesian computation for fusion-based inference from heterogeneous remote sensing data: have applications to multi source multi-scale and multi temporal data

F. Gamboa, AI for physical models with geometric tools: will look at computer simulations for physical, chemical or biological phenomena, and seek to improve their analysis with application to various data driven deep learning models

IPB- Certifiable AI toward autonomous critical Systems
——————-
J. M. Loubes, Fair & Robust Methods in Machine Learning: Analyse fair learning and bias using tools from statistics and optimal transport theory and contribute to explaining ML program behavior, anomaly detection and making ML methods more robust.
S. Gratton. Efficient algorithms and Data Assimilation for computationally efficient constrained advanced learning, will design gradient based embeddable algorithms, that are provably convergent to 2nd order stationary points, and with a provable low complexity.
J. Marques-Silva. Deep Learner Explanation & Verification, will use the remarkable progress made by automated reasoners based on SAT, SMT, CP, ILP solvers (among others) to further explainable and robust data driven AI (Hybrid AI for proving robustness for neural networks).
J.B. Lasserre. Polynomial optimization for ML using sum of squares/Lasserre hierarchies and functions for data analysis will study approximation methods for non convex search spaces.
J. Bolte. Large scale optimization for AI, will study convergence properties/rates, global optimization and error bounds, design/optimization of underlying geometrical structure, optimization of adversarial models.
M. Teboulle. Pushing the frontier of nonconvex optimization to more general settings and understanding why it works, will classify the quality of local minima arising in highly nonconvex optimization problems with numerous local minima points, such as in neural networks, applying ideas from spin glasses or the protein folding problem to ML.
C. Pagetti. New certification approaches of critical AI based systems, e.g., integrating the notion of algorithm failure, non deterministic and unpredictable behavior.
J. Renault. Game Theory, Convergence for Generalized Adversarial Nets and other ML architectures: formal study of generalized adversarial networks and interactions of autonomous AI systems using stochastic.
D. Delahaye. AI for Air Traffic Management and Large Scale Urban Mobility: automation in air traffic management and UAV large scale trajectory planning.

IPC
—
T. Serre. Reverse-engineering the brain to build machines that can see and interpret the visual world as well as humans do: develop ML algorithms that can process visual data in ways that are closer to what humans do. Such systems will be robust and reliable though perhaps lacking performance of pure ML systems on certain tasks.

R. van Rullen. Deep learning with semantic, cognitive and biological constraints: brings experts from several disciplines in a multi-pronged approach to cognitive/bio-inspired models. It will study multimodal interactions in human brains as a source for more robust, less data demanding ML. AI algorithms from distributed intelligence will also be developed

F. Dehais. Neuro-adaptive Technology based Mixed-initiative to enhance Man-Machine Teams: study flexible mixed-initiative planning and execution paradigm involving humans interacting with artificial agents

R. Alami. Human Robot Interactions for cobot-industry applications, and highly adaptable service robots: integrate AI with a robotics for cognitive and interactive robot partners: autonomous teammate robots working with humans, cognitive and interactive assistants for frail people, highly adaptive service robots.

N. Mansard: Motion Generation for Complex Robots using Model-Based Optimization and Motion Learning: develop a unified yet tractable approach to motion generation for complex robots with arms and legs.

L. Travé-Massuyes. Synergistic transformations in model based and data based diagnosis: synergistically analyze transformations from model based diagnosis to exhibit fault indicators and data transformations from data based diagnosis methods
H. Fargier. Techniques for reducing complexity of algorithms for solving problems with uncertainty and preferences: investigate methods for compiling computations needed to solve combinatorial decision problems with preferences and uncertainty (typically above NP) transforming them into a simpler approximation

T. Schiex. AI for Computational Protein Design, will combine logical methods, automated reasoning and numerical methods to design proteins automatically, extending currently available automated reasoning technology to target problems beyond the NP-level

Profil du candidat :
Different profiles are relevant including:
-Artificial intelligence, machine learning, optimization, statistics, robotics, NLP, computer vision, Human-robot interaction, anomaly detection, etc.

Formation et compétences requises :
Masters/Engineer Diploma in the following areas
– Mathematics, Artificial intelligence, machine learning, optimization, statistics, robotics, NLP, computer vision, Human-robot interaction, anomaly detection, etc.

Adresse d’emploi :
Toulouse

Document attaché :

Categories: theses

Funded PhD position in machine learning applied to diatom ecology

Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIEC (Univ. Lorraine) / GeorgiaTechLorraine
Durée : 3
Contact : martin.laviale@univ-lorraine.fr
Date limite de publication : 2020-07-31

Contexte :
Automatic recognition of microalgae (diatoms) using a deep-learning approach for the ecological diagnosis of freshwaters.

Diatoms are ubiquist microalgae inhabiting all aquatic environments. They are widely used organisms in freshwater ecological assessment (biomonitoring). However, the most efficient diatom-based diversity indices require a high level of taxonomic knowledge, which involves time and expert training. Traditional taxonomic identification of these organisms is based on the observation of both shape and ornamentation of their frustule, a highly ornamented silica shell, using conventional optical methods. These morphological features/traits are not always easy to characterize, depending on the experience of the operator, the quality of the image and the continuous evolution of diatom classification. Thus, the estimation of diatom- based diversity indices is often prone to multiple biases, implying that the development of a genuine tool is needed for supporting decision-making based on diatom identification.

Sujet :
Automatic classification of diatoms has remained a challenge since the first attempts during the 90’s, but the recent development of deep learning approaches are promising for solving image-based diatom classification problems. In this context, we aim at developing algorithms for an automatic identification of diatoms using image information derived from handcrafted and/or unsupervised morphological features.
Our team has recently developed a first deep-learning pipeline for diatom detection and classification based on a synthetic dataset. These algorithms must now be adapted and applied to real images, representing the assemblages of species encountered in watercourses. This tool will then be applied to the calculation of the Biological Diatom Index (IBD), which has been used routinely in surveillance networks since 2000 in France within the implementation of the European Water Framework Directive (WFD). On the long term, this tool should help addressing more general ecological questions.

Financial support is available for 3 years (approx. 2000 EUR net/month, before taxes) from ANR, Région Grand-Est and Université de Lorraine. The position should start October 1st 2020. It will be located at the Laboratoire Interdisciplinaire des Environnements Continentaux (LIEC, UMR 7360 CNRS-Université de Lorraine), in strong collaboration with GeorgiaTechLorraine (GTL, UMI 2958 CNRS/GeorgiaTech), both situated in Metz, France.
The PhD candidate will be supervised by Dr Martin Laviale (diatoms, LIEC), Pr. Philippe Usseglio-Polatera (HDR; biomonitoring, LIEC) and Pr. Cédric Pradalier (machine vision, GTL). He/she will also collaborate with the CEREGE (Aix-Marseille, France, imagery) and benefit from the international network ARTIFACTZ dedicated to machine learning applications for aquatic organisms’ imaging (https://sites.google.com/view/artifacz/home).

Profil du candidat :
We are looking for a person willing to work at the interface between ecology and applied mathematics/computer sciences. Previous experience in machine learning/computer vision applied to biology is welcome but the applicant should demonstrate a strong interest for ecological applications. The ideal candidate will be self-motivated, scientifically curious and possess good communication skills in order to interact with experts from different disciplines.

Formation et compétences requises :
Keywords:
machine learning, CNN, computer vision, imagery, ecology, biomonitoring, diatom

Adresse d’emploi :
Université de Lorraine
Laboratoire LIEC – UMR CNRS 7360
Campus Bridoux, bât. IBISE
57070 Metz, France

Document attaché : 202006230746_PhD_IA_diatom_2020_Metz_France.pdf

Categories: theses

Semantic content negotiation for knowledge interchange among heterogeneous systems

Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire d’Informatique, de Modélisation et d
Durée : 36 mois
Contact : maxime.lefrancois@emse.fr
Date limite de publication : 2020-07-31

Contexte :
Content negotiation on the Web allows a data consumer (client) to tell a data provider (server) what it expects in terms of format, language, encoding, security [Fie14]. In return, the server provides data that meets these expectations when it can, or indicates an alternative, for example, that the same information resource is available in another format. However, even when the client’s request is satisfied, this does not mean that the client is able to interpret the data correctly. For example, for the same data format, several forms, structures or schemas may exist. The customer may wish to obtain data that conforms to conventional terminology and has certain logical and structural properties.

In particular, in applications that rely on Semantic Web technologies, such as RDF and OWL, an application could expect graph-based data that conform to a specific ontology [Obr03], or that fit a certain data shape, or that is compatible with a given entailment regime [Gli13], [Zim13]. In environments such as the Web of Things, strong constraints may impose requirements on the server or client side due to processing power, bandwidth, or memory limitations [IERC15].

Sujet :
The main challenge is to find out how clients and servers can agree on the expected (client-side) or provided (server-side) content automatically, so without the developer of the client application having to contact the server manager, or read natural language documentation. The objective of this thesis is to : (1) determine what properties the client and the server could agree on to negotiate content beyond its simple syntax; (2) define the mechanism (in terms of protocol and algorithm) allowing the client to announce its expectations and how the server reacts to these requirements; (3) consider making negotiation more flexible by introducing an external service in charge of mediation between client and server (data transformation, inference or validation system); (4) introduce a declarative formalism allowing the server to describe the logical and structural properties of its data (possibly relying on SPARQL 1.1 Service Description [Will13], Thing Description [Kab20], or various forms of content descriptions, e.g., [Thu18]).

Previous and ongoing work has been and are being conducted in extending content negotiation towards more flexibility such as [Hol98], [Sve19] or [Lef18].

[Fie14] R. Fielding, J. Reschke. Hypertext Transfer Protocol (HTTP/1.1): Semantics and Content (Section 5.3: Content Negotiation). RFC7231. https://tools.ietf.org/html/rfc7231. June 2014.
[Gli13] B. Glimm, C. Ogbuji. SPARQL 1.1 Entailment Regimes. W3C Recommendation 21 March 2013 http://www.w3.org/TR/sparql11-entailment/ 2013.
[Hol98] K. Holtman, A. Mutz. Transparent Content Negotiation in HTTP, IE4TD Request for Comments RFC2295, https://tools.ietf.org/html/rfc2295, 1998.
[Jac04] I. Jacobs, N. Walsh. Architecture of the World Wide Web, Volume One. W3C Recommendation 15 December 2004. https://www.w3.org/TR/webarch/, 2004.
[Kab20] S. Käbisch, T. Kamiya, M. McCool, V. Charpenay, M. Kovatsch. W3C. Web of Things (WoT) Thing Description. W3C Candidate Recommendation 6 November 2019. https://www.w3.org/TR/wot-thing-description/ 2019.
[Lef18] M. Lefrançois. RDF presentation and correct content conveyance for legacy services and the Web of Things. Proceedings of the 8th International Conference on the Internet of Things. 2018.
[Sve19] L. G. Svensson, R. Atkinson, N. J. Car, R. Verborgh. Content Negotiation by Profile, W3C Working Draft 26 November 2019. https://www.w3.org/TR/dx-prof-conneg/, 2019.
[Thu18] A. S. Thuluva, D. Anicic, S. Rudolph. IoT Semantic Interoperability with Device Description Shapes. In Proc. of ESWC 2018.
[Obr03] L. Obrst. Ontologies for semantically interoperable systems. In CIKM: 366-369, 2003.
[Wil13] G. T. Williams. SPARQL 1.1 Service Description. W3C Recommendation 21 March 2013 https://www.w3.org/TR/sparql11-service-description/ 2013.
[Zim14] A. Zimmermann. RDF 1.1: On Semantics of RDF Datasets. W3C Working Group Note 25 February 2014 https://www.w3.org/TR/rdf11-datasets/ 2014.
[IERC15] IoT European Research Cluster (IERC). IoT Semantic Interoperability: research challenges, best practices, recommendations and next steps. Technical Report, 2015.

Profil du candidat :
Master in computer Science with good theoretical and practical knowledge of Semantic Web Technologies. Programming skills.

Education: MSc (with distinction)
Specialties: Computer Science > Artificial Intelligence > { Linked Data, Semantic Web, Symbolic Artificial Intelligence }
Very good level in logic
Programming skills
Good interpersonal skills
Languages: English (French is a plus)
Good autonomy

Formation et compétences requises :
Applications should be submitted by e-mail to antoine.zimmermann@emse.fr and maxime.lefrancois@emse.fr with the reference: PhD_SemConneg_2020

Knowledge of Semantic Web Technologies is mandatory.

The position is available immediately and application evaluation will be continuous until the position is filled. Interested candidates should submit:

Curriculum Vitae
Motivation letter
University transcript
Recommendations from past supervisors or professors

Adresse d’emploi :
Employer: MINES Saint-Étienne, an IMT graduate school
Lab: Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes (LIMOS)
Location: Saint-Étienne, France
Advisors:
Antoine Zimmermann, Associate Professor, Mines Saint-Étienne IMT
Maxime Lefrançois, Associate Professor, Mines Saint-Étienne IMT
Mireille Batton-Hubert, Professor IMT, Mines Saint-Étienne IMT

Categories: theses

Semantic Interoperability in the Constrained Semantic Web of Things

Jul 31 – Aug 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Laboratoire d’Informatique, de Modélisation et d
Durée : 36 mois
Contact : maxime.lefrancois@emse.fr
Date limite de publication : 2020-07-31

Contexte :
The Internet of Things connects physical devices offering sensing or actuating with their vicinity. The ever-growing capabilities of devices allow to imagine new architectures including them as first class citizens. New added-value applications can then be envisioned in smart agriculture, smart buildings, smart cities, energy and water management, e-health and ageing well… The Web of Things (WoT) allows to describe the devices semantics, bridging the gap between the different domain and service descriptions. In today WoT architectures, physical devices can be located at distance from systems that perform reasoning. A centralised approach does not take advantage of the devices capabilities and induces suboptimal data transfers as well as server overload. Besides, many devices are now smart enough to discover each other, exchange data, and collectively make decisions.

The scientific context of this Ph.D. thesis is the French ANR project CoSWoT (Constrained Semantic Web of Things), whose objectives are to propose a distributed WoT-enabled software architecture embedded on constrained devices with two main characteristics: (1) it will use ontologies to specify declaratively the application logic of devices and the semantics of the exchanged messages; (2) it will add reasoning functionalities to devices, so as to distribute processing tasks among them. Doing so, the ambition of the CoSWoT project is to greatly simplify the development of applications including devices of the WoT, by enabling the development and execution of intelligent and decentralised smart WoT applications despite the heterogeneity of devices.

Sujet :
This Ph.D. focuses on the problem of semantic interoperability at the data level between heterogeneous and potentially constrained things and services.

Many data formats and data models exist and even compete with each other for adoption in IoT platforms. The semantic interoperability problem can be tackled by standardizing data formats and service APIs [ierc15]. One objective of this Ph.D. is to tackle semantic interoperability despite the heterogeneity of data formats and service API specifications, i.e., across platforms.

Furthermore, the use of Semantic Web technologies has been investigated to facilitate semantic interoperability among platforms. The second objective of the Ph.D. is to investigate how semantic interoperability can be obtained between devices directly, instead of between platforms.

Semantic interoperability between non-constrained systems can be solved by developing ontologies [Obr03]. However, when devices are constrained, already deployed, or follow one of the aforementioned specifications, additional adapted ontologies and technologies must be proposed for devices to understand the exchanged messages despite heterogeneity [Lef18]. One possible direction for this thesis is to compare existing approaches on some benchmarks consisting of ecosystems of heterogeneous synthetic services and devices. Starting points to achieve semantic flexibility are the W3C Thing Description, Content and Profile Negotiation [Fie14,Sve19], and the RDF Presentation conceptual framework [Lef18].

This thesis and the CoSWoT project aim to contribute to fostering the decoupling of the development of software and the development of hardware, so as to ease the emergence of a new economic sector in the digital industry around WoT applications development, disconnected from the development of the smart devices themselves.

[Fie14] R. Fielding, J. Reschke. Hypertext Transfer Protocol (HTTP/1.1): Semantics and Content (Section 5.3: Content Negotiation). RFC7231. https://tools.ietf.org/html/rfc7231. June 2014.
[For18] G. Fortino, C. Savaglio, C. E. Palau, J. S. de Puga, M. Ganzha, M. Paprzycki, M. Llop. Towards multi-layer interoperability of heterogeneous IoT platforms: the INTER-IoT approach. In Integration, Interconnection, and Interoperability of IoT Systems,2018
[Hol98] K. Holtman, A. Mutz. Transparent Content Negotiation in HTTP, IE4TD Request for Comments RFC2295, https://tools.ietf.org/html/rfc2295, 1998.
[Jac04] I. Jacobs, N. Walsh. Architecture of the World Wide Web, Volume One. W3C Recommendation 15 December 2004. https://www.w3.org/TR/webarch/, 2004.
[Kab20] S. Käbisch, T. Kamiya, M. McCool, V. Charpenay, M. Kovatsch. W3C. Web of Things (WoT) Thing Description. W3C Candidate Recommendation 6 November 2019. https://www.w3.org/TR/wot-thing-description/ 2019
[Lef18] M. Lefrançois. RDF presentation and correct content conveyance for legacy services and the Web of Things. Proceedings of the 8th International Conference on the Internet of Things. 2018.
[Sve19] L. G. Svensson, R. Atkinson, N. J. Car, R. Verborgh. Content Negotiation by Profile, W3C Working Draft 26 November 2019. https://www.w3.org/TR/dx-prof-conneg/, 2019
[Thu18] A. S. Thuluva, D. Anicic, S. Rudolph. IoT Semantic Interoperability with Device Description Shapes. In ESWC 2018
[Obr03] L. Obrst. Ontologies for semantically interoperable systems. In CIKM: 366-369, 2003.
[Vel01] K. H. Veltman. Syntactic and semantic interoperability: new approaches to knowledge and the semantic web. New Review of Information Networking 7.1 pp.159-183, 2001.
[IERC15] IoT European Research Cluster (IERC). IoT Semantic Interoperability: research challenges, best practices, recommendations and next steps. Technical Report, 2015.

Profil du candidat :
Master in computer Science with good theoretical and practical knowledge of Semantic Web Technologies. Programming skills.

Formation et compétences requises :
Applications should be submitted by e-mail to antoine.zimmermann@emse.fr and maxime.lefrancois@emse.fr with the reference: PhD_CoSWoT_2020

Knowledge of Semantic Web Technologies is mandatory.

The position is available immediately and application evaluation will be continuous until the position is filled. Interested candidates should submit a resume, cover letter, and master transcripts

Adresse d’emploi :
Employer: MINES Saint-Étienne, an IMT graduate school
Lab: Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes (LIMOS)
Location: Saint-Étienne, France
Advisors:
Flavien Balbo, IMT Professor, Mines Saint-Étienne IMT
Antoine Zimmermann, Associate Professor, Mines Saint-Étienne IMT
Maxime Lefrançois, Associate Professor, Mines Saint-Étienne IMT

Categories: theses

Sat

CIFRE (SAP-LIPN) :Modèles de prédiction interprétables pour processus non-stationnaires

Aug 15 – Aug 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIPN UMR CNRS 7030
Durée : 3 ans
Contact : mustapha.lebbah@univ-paris13.fr
Date limite de publication : 2020-08-15

Contexte :
SAP est l’un des plus grands éditeurs de logiciels de gestion de processus métier au monde, et offre des solutions qui permettent un traitement des données et des flux d’informations efficaces au sein des organisations. Fondée en 1972, elle a d’abord été baptisée Systemanalyse Programmentwicklung (développement de programmes d’analyse de système), pour devenir SAP par la suite. De petite
startup de cinq personnes, elle est passée à une entreprise multinationale de plus de 100 000 employés et plus de 440 000 clients dans 180 pays. Son siège social est basé à Walldorf en Allemagne. Avec ses premiers logiciels, SAP R/2 et SAP R/3, SAP a établi la norme en matière de logiciels
de planification des ressources de l’entreprise (ERP). Avec SAP S/4HANA, l’ERP passe au niveau supérieur en utilisant la puissance de la technologie In-memory pour traiter de grandes quantités de données et prendre en charge des technologies avancées telles que l’intelligence artificielle (IA) et le Machine Learning. Les applications intégrées de l’éditeur connectent toutes les composantes d’une entreprise en une suite intelligente sur une plateforme numérique. Aujourd’hui, SAP compte plus de 215 millions d’utilisateurs Cloud, plus de 100 solutions qui couvrent toutes les fonctions métier et le portefeuille d’offres Cloud le plus fourni.

Sujet :
Parmi les problèmes d’apprentissage traités par SAP, on distingue traditionnellement les tâches liées à l’apprentissage supervisé comme la classification/régression, bien adaptées à des processus stationnaires, et l’analyse et la prévision de séries temporelles, pour les processus non stationnaires. En classification/régression, la plupart des algorithmes classiques ne permettent pas d’extrapoler précisément la réponse à une variable au-delà du domaine rencontré en apprentissage. Le temps et les variables évoluant dans le temps sont donc généralement exclues du champ de la modélisation : une hypothèse classique est que le processus modélisé est suffisamment stationnaire pour que les données d’apprentissage soient représentatives du comportement à l’horizon temporel des prédictions souhaitées. En contrepartie, les algorithmes de classification/régression permettent une modélisation très fine des contributions de centaines de variables prédictives, incluant la prise en compte d’interactions complexes [LL17]. L’analyse des séries temporelles apparaît dans presque tous les domaines dont les variables dépendent fortement du facteur temps : anticipation d’utilisation de ressources, prévisions de ventes, de dépenses, ou d’abonnements, prévision de fréquentation de parcs d’attraction. La modélisation de l’évolution d’un signal en fonction du temps est au coeur de l’analyse de séries temporelles, avec deux difficultés principales : détecter les ruptures dans les tendances et identifier des prédicteurs parmi les variables dont il est possible d’anticiper les futures valeurs (à titre d’exemple des événements
récurrents comme les vacances scolaires). Les modèles de séries temporelles font en pratique intervenir peu de variables, avec des modèles additifs ou multiplicatifs simples, ignorant les interactions
entre les variables. Le sujet de recherche s’articule autour de deux aspects : (1) la construction d’un modèle robuste et sophistiqué pour le traitement de séries temporelles en présence de ruptures et (2) l’extension des modèles de classification/régression à l’extrapolation de tendances. Notre ambition est de briser la séparation traditionnelle entre classification/régression d’une part, et prévision de séries temporelles
d’autre part, en construisant un modèle prédictif unifié intégrant le temps, les facteurs évoluant lentement dans le temps, ainsi que toutes les variables connues au moment d’une prédiction. Ce modèle
doit :

—être assez complexe pour pouvoir apprendre les processus sous-jacents aux données.
— ne pas nécessiter une puissance de calcul exigeante.
— avoir des performances acceptables avec peu de données.
— être interprétable en un temps raisonnable.

Profil du candidat :
Le candidat(e) doit avoir de bonnes notions en mathématique, statistiques et algorithmiques/informatique.
Une expérience en traitement de données massives est souhaitable.

Formation et compétences requises :
Le dossier de candidature en PDF en un seul fichier comportera les éléments suivants :
— CV
— Relevés de notes, M1, M2 (Ing)
— Lettre de motivation
— Lettre(s) de recommandation et/ou des références

Adresse d’emploi :
Paris -ile de France

Document attaché : 202006251621_SAP_LIPN_court_recherche_candidat.pdf

Categories: theses

Thu

Intelligence Artificielle Explicable dans des séries temporelles hétérogènes : étude de l’impact des

Aug 20 – Aug 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : L@bISEN Yncréa Ouest, Equipes Vision-AD, LSL
Durée : 3 ans
Contact : maher.jridi@isen-ouest.yncrea.fr
Date limite de publication : 2020-08-20

Contexte :
Depuis de nombreuses années, comprendre l’impact des événements (phénomènes) environnementaux et sociaux sur la consommation énergétique devient un enjeu majeur et attire beaucoup l’attention dans les champs sociétaux, industriels et scientifiques. En effet, comprendre un événement et surtout connaître les relations de cause à effet (la causalité) permet d’assister les experts du domaine et les conforter dans leurs décisions. Prenons l’exemple de la prédiction d’un pic de consommation d’électricité : il est important de prédire au plus tôt ce phénomène dans une ville/région, de détecter ses causes directes environnementales et sociétales (éléments déclencheurs) et indirectes (signaux faibles). Ainsi, pour ce type de problème, les moyens technologiques mises en place ne cessent de se développer. A titre d’exemple, des études récentes [Palme et al, 2017] ont monté le lien entre les événements environnementaux, sociaux et la consommation énergétique. L’analyse de l’évolution des données environnementales (températures, humidité, pollution, vent, etc.) et sociaux (fêtes, rassemblements, vacances, événements imprévus/inédits) couplée avec les données de consommation énergétique, permet de détecter les corrélations cachées et de prédire les pics de cette dernière. Cette prédiction peut être utilisée par les experts afin d’anticiper, au moindre coût, la production énergétique en termes de quantité et de type (renouvelable, …). Ce qui rentre dans le cadre de ville intelligente.

Sujet :
** Projet **
De ce fait, et dès qu’il s’agit de modèles d’intelligence artificielle, la problématique de la collecte de données numériques fait surface. Les séries temporelles font partie des types de données largement collectées et étudiées. Leur succès revient principalement au développement du marché des capteurs. C’est ainsi que sont mis à disposition de la communauté scientifique des séries temporelles de relevé de température, d’humidité, de pression, de consommation énergétique, d’événements sociaux [data-ref][Owayedh et al, 2000,] [Grolinger et al, 2016], etc. Cependant, depuis plusieurs années, un nouveau phénomène lié aux données numériques émerge : des données de plus en plus volumineuses et hétérogènes, apparaissent. La diversité des points/méthodes de collecte (capteurs) fait émerger un nouveau défi : la fusion de ces sources de données hétérogènes. Par conséquent, la modélisation de ce type de données s’impose.
D’autre part, de nouvelles exigences sociétales apparaissent, il s’agit des demandes pressantes pour rendre le processus de modélisation transparent afin de fournir des explications claires aux experts du domaine d’application [Goodman et Flaxman, 2017].
** Problématiques **
Dans ce projet, nous nous focalisons sur un type particulier de données complexes : les séries temporelles et posons la question suivante : Comment faire des séries temporelles un outil pour l’aide à la prédiction et à la détection de l’émergence des phénomènes comme la consommation énergétique ? Quels modèles explicables aux experts faut-il mettre en place ? Pour répondre à cette question, nous proposons un système intelligent qui sera validé sur des données actuellement disponibles [data-ref] et par des experts du domaine. Dans ce projet, nous nous focalisons sur deux défis majeurs :
(I) La prédominance de nouveau type de données représenté par des séries temporelles complexes : En effet, la fusion ou l’agrégation des informations apportées par chaque série (environnement, social, énergie) devient une tâche complexe car avec le grand volume de données disponibles, la portée temporelle et l’impact d’une variable deviennent plus importants. Mais cet impact devient moins visible et moins facilement détectable surtout à cause de chevauchement de plusieurs phénomènes [Fahed et al, 2018]. Par conséquent, deux difficultés se présentent : (i) La détection de causalité : Souvent les méthodes proposées sont purement statistiques (comme la causalité au sens de Granger) [Saumard, 2017] et sont peu performantes face à la complexité des données et quand il s’agit de détection des liens sur le long terme entre plusieurs séries [Mavrotas et Kelly, 2001]. (ii) La détection de l’émergence au plus tôt et sur le long terme.
(II) Les exigences actuelles de la société pour rendre le processus de modélisation explicable et transparente : Parmi les méthodes existantes de prédiction dans des séries temporelles complexes, nous pouvons citer les méthodes de fouille de données telles les réseaux de neurones, méthodes ensemblistes, etc. Ces méthodes sont très performantes, mais elles restent des boîtes noires, à savoir le processus de modélisation est opaque et plusieurs questions se posent sur son explicabilité et la compréhension du résultat. En revanche, des méthodes de prédiction basées sur des modèles auto-régressifs, sont relativement moins performantes mais peuvent être considérées comme étant transparentes et explicables. Récemment, différentes méthodes d’explication [Došilović et al, 2018], indépendantes des modèles de prédiction, ont été proposées. Cependant, très rares sont les méthodes d’explicabilité qui s’intéressent à la causalité dans les séries.
** Approches méthodologique et technique envisagées **
Nous proposons un système qui représente un cycle complet : les données, qui sont à notre disposition, sont pré-traitées et analysées, puis une “modélisation prédictive explicable” à base de fouille de séries temporelles sera proposée. Par conséquent, nous pouvons définir deux tâches principales et inséparables :
(I) La modélisation prédictive : Nous trouvons qu’il est prometteur d’exploiter les méthodes statistiques existantes de détection de ruptures (abrupts) ou de pics dans des séries temporelles (comme les méthodes paramétriques, non-paramétriques ou semi-paramétrique. Notre objectif sera ensuite de proposer un nouveau modèle de prédiction qui aura pour originalité de tirer profit de la transparence des méthodes statistiques et de la performance des méthodes d’intelligence artificielle opaques. Afin d’étudier la causalité dans notre modèle, nous proposons d’exploiter et d’adapter les méthodes statistiques existantes de causalité au sein des méthodes de fouille de données. Notre objectif est de détecter une causalité temporelle distante en effectuant une modélisation temporelle pour détecter l’impact sur le long terme.
(II) La modélisation explicable : Parmi les questions qui se pose : à quel moment de la modélisation doit-on intégrer l’explicabilité ? Contrairement aux méthodes existantes qui fournissent des explications partielles, nous proposons un modèle complet dans lequel des explications sont fournies tout au long du processus de la fouille.

Profil du candidat :
La ou le candidat(e) doit avoir un diplôme de Master et/ou Ingénieur dans des domaines liés à l’informatique, mathématiques appliquées, statistique, science des données ou traitement de signal

Formation et compétences requises :
– Avoir une aptitude au développement de méthodes d’intelligence artificielle, machine learning, statistique, analyse des données.
– Avoir un vif intérêt pour la recherche scientifique et être familier au moins avec les outils informatiques/langages suivants : python (scikit-learn), R, …
– Avoir un bon niveau d’anglais écrit et oral

Adresse d’emploi :
20 Rue Cuirassé Bretagne, 29200 Brest

Document attaché : 202006110930_These cotutelle-rempli-SériesTemporelle-ENV-Energie-version-courte.pdf

Categories: theses

Thèse en cotutelle internationale : Les données fonctionnelles et le transport optimal. Application

Aug 20 – Aug 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : L@bISEN Yncréa Ouest, Equipe Vision-AD
Durée : 3 ans
Contact : maher.jridi@isen-ouest.yncrea.fr
Date limite de publication : 2020-08-20

Contexte :
** Projet **
Les données fonctionnelles sont un ensemble de méthodes pouvant traiter des applications de nature a priori très différentes comme l’écriture, le mouvement ou la parole.
Dans ce contexte où les données sont des éléments d’un espace de dimension infinie et où plusieurs populations sont à discriminer, une méthode consiste à calculer la distance entre des opérateurs de covariance pour analyser les variations entre ces populations, Pigoli et al. (2014).
Cette distance, appelée distance procustéenne, a permis d’étudier des applications intéressantes en imagerie médicale Zhou et al. (2016), en biologie Cabassi et al. (2017) ou encore en linguistique Pigoli et al. (2018).
** Problématiques **
– Compréhension des différences intrinsèques et découverte de motifs communs entre les différentes émotions à travers la parole
– Étude théorique des relations entre transport optimal et données fonctionnelles
– Développement de méthodes numériques
– Application concrète avec démonstrateur
** Approches méthodologique et technique envisagées **
– Données fonctionnelles : estimation de l’opérateur de covariance, mise en pratique numérique de la distance procustéenne
-Outils mathématiques de l’analyse fonctionnelle et du transport optimal
– Traitements du signal et de la parole
– Méthodes d’intelligence artificielle propres au traitement naturel du langage
– Apprentissage machine (approches basées sur l’extraction de descripteurs et classification, approche d’apprentissage profond ou deep learning).

Sujet :
Récemment, Masarotto et al. (2019) ont revu les propriétés mathématiques de cette distance dans le contexte du transport optimal capable de s’adapter aux données fonctionnelles. Ce point de vue permet d’utiliser les méthodes géométriques, analytiques et numériques propres à la théorie du transport optimal qui ont été développées au cours de la dernière décennie.
Nous proposons dans cette thèse de prolonger leurs travaux et de développer des applications liées à l’analyse de la parole. Un des buts de la thèse est de trouver des formes universelles des différentes émotions contenues dans le discours oral et de détecter les différences fondamentales entre les émotions par analyse de la voix. En effet, en plus du contenu linguistique, la parole représente l’un des miroirs de l’état émotionnel de la personne. On voudrait le détecter au cours de cette thèse en utilisant des techniques d’intelligence artificielle combinées aux données fonctionnelles.
Ce cadre applicatif constitue une continuité de travaux antérieurs menés dans le laboratoire COSIM dans le cadre d’un projet de recherche fédéré de lutte contre le terrorisme où l’une des composantes est la détection du comportement suspect par analyse de la voix.
Cette application supporte les travaux réalisés par l’équipe VISION-AD du laboratoire L@ISEN pour contrôler l’accès à des zones restreintes à partir de la reconnaissance faciale à travers le contrôle d’accès par reconnaissance vocale.

Profil du candidat :
– Avoir une aptitude au développement de méthodes mathématiques avec un focus spécifique sur leurs implantations.
– Avoir un vif intérêt pour la recherche scientifique et être familier au moins avec l’un des outils/langages suivants : R, et/ou Python, et/ou Matlab.

Formation et compétences requises :
La ou le candidat(e) doit avoir un diplôme de Master et/ou Ingénieur dans des domaines liés au Mathématiques appliquées (statistique, analyse numérique), télécommunications, technologies de l’information et de la communication, signaux et systèmes.

Adresse d’emploi :
20 Rue Cuirassé Bretagne, 29200 Brest

Document attaché : 202006110925_Thèse Cotutelle-Analyse émotion Audio.pdf

Categories: theses

Sun

Méthodes IA multimodales dans un contexte de surveillance maritime multi-capteurs hétérogènes

Aug 30 – Aug 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Lab-STICC, Chaire IA
Durée : 36 mois
Contact : dorian.cazau@ensta-bretagne.fr
Date limite de publication : 2020-08-30

Contexte :
De par sa dynamique spatio-temporelle complexe et sa nature multi-physique, l’océan est un objet complexe à étudier, nécessitant des programmes d’observation interdisciplinaires et multi-échelles pour être finement analysés. Au sein de tels programmes, de nombreux types de capteurs d’observation co-existent pour la surveillance d’un même site. Une particularité des Big Ocean Data qui en découlent est leur nature fortement multimodale (c.a.d différentes natures de signaux, par ex séries temporelles, images, etc) et hétérogène (c.a.d différentes résolutions et échelles temporelles et spatiales). Face à l’expansion de ces Big Ocean Data, rendues massivement accessibles au plus grand nombre, le développement de nouvelles méthodes de fusion et de reconnaissance de données multi-capteurs adaptées aux données volumineuses et hétérogènes est nécessaire afin de mieux structurer et exploiter la richesse des Big Ocean Data.

Sujet :
En s’inspirant de modèles du type réseaux de neurones profonds avec schémas d’apprentissage variationnel, cette thèse traitera de problématiques méthodologiques spécifiques aux approches multimodales (par ex, explicabilité de la décision multimodale, reconstruction d’observations manquantes/partielles) à travers deux cas d’application liées à l’observation océanographique (prédiction des conditions météocéanographiques de surface) et la surveillance des espaces maritimes (séparation et reconnaissance de sources acoustiques sous-marines spécifiques à certaines activités marines telles que bateaux et sous-marins). Cette thèse réalisée dans le cadre de la chaire IA OceaniX fait l’objet d’un partenariat industriel avec NavalGroup.

Profil du candidat :
Le candidat(e) doit avoir de bonnes notions en mathématiques, statistiques et algorithmiques. Une expérience avec les modèles à réseaux de neurones profonds est souhaitable.

Formation et compétences requises :
Machine Learning
Data Science
Remote Sensing
Signal and Image Processing
Oceanography

Adresse d’emploi :
IMT Atlantique Bretagne-Pays de la Loire, Campus de Brest Technopôle Brest-Iroise

Document attaché : 202004101800_phD_OceaniX_NG.pdf

Categories: theses

Open PhD position in deep learning for NLP at RCLN, LIPN, Université Sorbonne Paris Nord

Aug 30 – Aug 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique de Paris Nord (LIPN)
Durée : 3 years
Contact : tomeh@lipn.fr
Date limite de publication : 2020-08-30

Contexte :
The natural language and knowledge representation (RCLN, https://lipn.univ-paris13.fr/accueil/equipe/rcln/) team, a member of the computer science laboratory (LIPN) of the University Sorbonne Paris Nord (Paris 13), is offering a three-year PhD research position starting in September, 2020.

Sujet :
The selected candidate will work on joint modeling of linguistic structures and downstream applications using ideas from multitasking and latent structure prediction in deep neural networks.

Profil du candidat :
We are looking for students with a masters degree (Master 2 or equivalent) in computer science.

Formation et compétences requises :
Background in natural language processing and machine learning.

To apply, please send the following documents to Nadi Tomeh (tomeh@lipn.fr):
– CV
– Academic transcripts including grades
– Master thesis or report (if available)
– Motivation letter adapted to the context
– Recommendation letters

Adresse d’emploi :
LIPN, UMR CNRS 7030
Université Sorbonne Paris Nord
99, Avenue Jean-Baptiste Clément
93430, Villetaneuse

Document attaché : 202005130927_PhD-P13-2020-multitask-structure-prediction.pdf

Categories: theses

Simulation numérique augmentée par Machine Learning

Aug 30 – Aug 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRT System X / LIP6 / LIMSI
Durée : 36 mois
Contact : mathelin@limsi.fr
Date limite de publication : 2020-08-30

Contexte :
Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique de Paris-Saclay, le doctorant sera rattaché à l’axe scientifique « Sciences des données et Interaction ». Ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.
Le sujet de thèse a été défini par le consortium réuni dans le cadre du projet « Hybridation Simulation-Apprentissage » (HSA).

Sujet :
La simulation numérique représente aujourd’hui un outil indispensable dans la conception des systèmes physiques, grâce notamment au gain qu’elle permet de réaliser sur le coût global de conception. Ce sujet de thèse se situe au carrefour des méthodes de modélisation de la physique et de celle d’apprentissage automatique. L’objectif est de développer de nouvelles approches permettant l’hybridation des méthodes d’apprentissage statistique avec les méthodes classiques de calcul scientifique, afin de permettre une meilleure prédiction de la simulation tout en réduisant le coût de calcul nécessaire. On se placera dans le cas usuel où on dispose de deux types de données pour représenter un phénomène physique :
• des données qui proviennent d’un, ou de plusieurs, modèle de simulation. Ce modèle peut être peu fidèle à la réalité, mais peu coûteux « en temps de calcul » et donc disponible en nombre très important, ou au contraire coûteux mais relativement fidèle,
• des données qui proviennent des essais réels qui représentent plus « finement » la réalité, mais présentant un coût d’obtention très élevé rendant la taille de ce deuxième type de données très limitée.

Plus de détails dans le document PDF joint.

Profil du candidat :
Étudiant BAC +5 (Ingénieur et/ou Master), dans les domaines Mathématiques appliquées / Informatique / Apprentissage statistique

Formation et compétences requises :
Connaissances et savoir-faire essentiels :
Maîtrise des méthodes d’apprentissage statistique, d’optimisation et de calcul scientifique.
Bonne maîtrise de Python – la connaissance d’une librairie d’apprentissage profond sera un plus certain.
Le goût pour la programmation, les expérimentations numériques, et l’analyse détaillée et en profondeur des résultats de ses expériences est essentiel.

Adresse d’emploi :
La thèse sera inscrite à l’école doctorale STIC de Paris-Saclay. Le poste est basé à l’IRT SystemX – Gif sur Yvette.
La direction de la thèse sera assurée par Patrick Gallinari du Laboratoire d’Informatique de Paris 6 (LIP6) et Lionel Mathelin du Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur (LIMSI) à Saclay.

Document attaché : 202006042003_These_Gallinari_Mathelin.pdf

Categories: theses

Mon

Analyse d’images haute performance pour les données biomédicales acquises en imagerie synchrotron

Aug 31 – Sep 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CReSTIC / MEDyC
Durée : 36 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2020-08-31

Contexte :
Cf. PJ

Sujet :
Cf. PJ

Profil du candidat :
Cf. PJ

Formation et compétences requises :
Cf. PJ

Adresse d’emploi :
Cf. PJ

Document attaché : 202005281430_PhD_Reims_CReSTIC_MEDyC.pdf

Categories: theses

Bourse de thèse 80|Prime CNRS : Méthodes statistiques pour l’inversion de modèle et distribution spatiale des propriétés physico-chimiques du nuage moléculaire Orion B

Aug 31 – Sep 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CRIStAL – UMR 9189 – Lille
Durée : 36 mois
Contact : pierre.chainais@centralelille.fr
Date limite de publication : 2020-08-31

Contexte :
Projet 80|Prime OrionStat incluant le financement d’une thèse 2020-2023.

Début souhaité au 1er octobre 2020.

Sujet : Méthodes statistiques pour l’inversion de modèle et distribution spatiale des propriétés physico-chimiques du nuage moléculaire Orion B

Encadrants / contacts :

Pierre Chainais, professeur à Centrale Lille / CRIStAL UMR 9189 ; pierre.chainais@centralelille.fr

Franck Le Petit, astronome, Observatoire de Paris – PSL, LERMA UMR 8112 ; Franck.LePetit@obspm.fr

Résumé :

Les nouveaux détecteurs millimétriques en astrophysique fournissent des masses de données qu’il n’est plus possible d’analyser avec les méthodes classiques. De plus, les modèles numériques utilisés pour interpréter ces observations produisent eux-mêmes de grands volumes de données, hétérogènes et en grande dimension. L’interprétation des observations de régions de formation stellaire avec les modèles de référence ne peut se faire qu’en inventant de nouvelles méthodes de traitement statistique du signal et de machine learning. Ce projet vise à surmonter deux verrous : 1) pouvoir résoudre des problèmes inverses sur des millions de pixels et parfois peu contraints, 2) réussir à dé-mélanger dans les observations interstellaires et extragalactiques les composantes émettrices pour estimer les paramètres physiques individuels. Il s’appuie sur un Large Program du TGIR IRAM, Orion-B. Les méthodes seront publiques via l’un des services nationaux d’observations de l’INSU.

Mots-clés : images hyper-spectrales, machine learning, problèmes inverses, formation stellaire, masses de données, incertitudes, intervalles de confiance

Sujet :
Projet CNRS 80|Prime OrionStat incluant le financement d’une thèse 2020-2023.

Début souhaité au 1er octobre 2020.

Sujet : Méthodes statistiques pour l’inversion de modèle et distribution spatiale des propriétés physico-chimiques du nuage moléculaire Orion B

Encadrants / contacts :

Pierre Chainais, professeur à Centrale Lille / CRIStAL UMR 9189 ; pierre.chainais@centralelille.fr

Franck Le Petit, astronome, Observatoire de Paris – PSL, LERMA UMR 8112 ; Franck.LePetit@obspm.fr

Résumé :

Mots-clés : images hyper-spectrales, machine learning, problèmes inverses, formation stellaire, masses de données, incertitudes, intervalles de confiance

Sujet détaillé :

La formation des étoiles est un processus fondamental qui gouverne l’évolution des galaxies aux échelles de temps cosmiques. Tandis que ces dernières années ont apporté des avancées majeures pour la compréhension des mécanismes de formation des étoiles à l’échelle des galaxies et à l’intérieur des nuages moléculaires géants (GMC, giant molecular clouds), il reste néanmoins à mettre en cohérence les résultats obtenus dans la Voie Lactée avec ceux obtenus dans d’autres galaxies. La difficulté principale vient de l’extraordinaire gamme d’échelles spatiales à considérer. Les études à l’intérieur de notre galaxie résolvent les nuages interstellaires individuellement, ce qui permet la mise en relation entre propriétés physiques intrinsèques (densité volumique du gaz, nombre de Mach…) et l’activité de formation des étoiles à l’intérieur d’un nuage (e.g., Motte et al. 2018, Lee et al. 2016). Les observations extragalactiques n’accèdent pas à la structure des nuages individuels mais demeurent le meilleur moyen d’étudier le lien entre les propriétés des gaz, le taux de formation des étoiles, les paramètres globaux de la galaxie et l’environnement de la galaxie (e.g., Saintonge et al. 2017, Usero et al. 2015).

Les raies d’émission moléculaires et leursratiossont couramment utilisés pour déduire les propriétés des régions intra- et extra-galactiques de formation des étoiles. La nouvelle génération de capteurs sub-millimétriques large bande comme la caméra EMIR sur l’antenne 30m de l’IRAM permet d’accéder aux détails d’un grand nombre de raies spectrales. Ce projet a pour objectif de développer des méthodes avancées de traitement du signal et d’apprentissage statistique (machine learning) adossées à des modèles physico-chimiques avancés pour les appliquer aux observations issues d’Orion-B (Outstanding Radio-Imaging of OrioN-B : http://iram.fr/~pety/ORION-B/) afin d’en extraire des informations physiques aussi fines et précises que possible. Le télescope est situé dans la Sierra Nevada en Espagne où une équipe scientifique internationale menée par Jérôme Pety, astronome de

page1image576504096
l’Observatoire de Paris, en poste à l’IRAM, a obtenu les observations radio les plus complètes du nuage moléculaire géant (GMC) Orion B (Gratier et al. 2017, Leroy et al. 2017, Pety et al. 2017). Ces observations vont permettre de comprendre comment les parties internes les plus denses et les plus froides du nuage donnent naissance aux étoiles. Connu pour abriter les nébuleuses de la Tête de Cheval et de la Flamme, Orion B est un gigantesque réservoir de matière interstellaire, de gaz et de poussières, qui contient environ 70 000 fois la masse du soleil. Les endroits où les futures étoiles peuvent naître, dits cœurs denses, brillent uniquement aux longueurs d’onde radio millimétriques : ils sont invisibles aux télescopes optiques. L’instrumentation récente à l’IRAM 30m a permis d’obtenir des images 100 fois plus grandes qu’avant, et cela à de très nombreuses longueurs d’onde millimétriques en même temps, et avec une excellente résolution spatiale grâce à un balayage fin du champ angulaire couvert.

Les données du projet ORION-B éclairent une des questions clés de l’astrophysique moderne, à savoir pourquoi les nuages moléculaires forment-ils si peu d’étoiles ? Alors que les nuages devraient s’effondrer sous leur propre poids pour se transformer entièrement en cœur dense puis en étoile, seuls quelques pourcents du nuage se transforment en réalité en étoile. Le projet ORION-B délivre environ 160 000 images, ou encore 1h50 de film à 24 images par secondes. Il ne fait aucun doute que ce type d’observations radio va se généraliser dans un futur proche. Ainsi, les approches statistiques pionnières que nous proposerons dans le cadre de ce projet apporteront les outils et l’expérience nécessaires pour faire parler des jeux de données de plus en plus riches et de grande dimension.

Dans ce contexte où aucune vérité terrain n’est disponible, il s’agira d’imaginer des nouvelles stratégies efficaces pour estimer les paramètres physiques pertinents à partir d’images hyper- spectrales de très grande dimension (820 000 pixels, 240 000 canaux spectraux/pixel) tout en étant capable d’assortir ces estimations d’intervalles de confiance assortis de garanties théoriques. Les données sont des spectres acquis dans une zone de 5 degrés carrés (environ 60 années lumières de large) autour du nuage moléculaire Orion B avec une résolution angulaire de 26’’ (0.1 année lumière). ORION-B récolte les données autour d’au moins 30 raies spectrales moléculaires dans la gamme 72-116 GHz avec une résolution de 0,6 km.s-1 environ (rappelons ici qu’on utilise couramment une traduction des fréquences en vitesse). Cette gamme spectrale inclut des traceurs moléculaires galactiques et extragalactiques usuels tels que CO, HCO, HCN, CS. Le cube de données hyper-spectrales issu de ces mesures est unique au vu de la masse d’informations qu’il contient, laissant espérer pour la première fois une caractérisation de la structure physique, chimique et dynamique d’un nuage moléculaire géant (GMC) en lien avec l’activité de formation des étoiles.

Exploiter à plein la richesse d’un tel jeu de données nécessite d’imaginer de nouvelles méthodes en science des données, adaptées à un contexte extrême en termes de dimensions. L’ambition de ce projet est de reformuler les questions sur la formation des étoiles en termes de problèmes de traitement du signal et d’apprentissage statistique qui prennent en compte les limitations du système d’observation telles que la projection de structures tridimensionnelles sur le plan du ciel. Les méthodes qui cherchent à répondre à ce type de questions font l’objet de recherches actives actuellement (Pereyra 2017, Repetti et al. 2019, Vono, Dobigeon, Chainais 2019). L’objectif est d’extraire les informations cachées dans des volumes de données qui dépassent les capacités humaines d’exploration visuelle, aux limites mêmes de l’état de l’art en science des données. Il s’agit aussi de fournir de nouvelles références pour les simulations numériques de l’évolution des nuages moléculaires géants. La très grande gamme de valeurs des conditions physiques et le rapport signal-à- bruit de nos données combiné à leur très grand volume constituent un véritable défi. Nous disposons pour cela de modèles numériques qui encodent les propriétés physico-chimiques. Dans le projet Orion B ce travail est réalisé à l’Observatoire de Paris par F. Le Petit et E. Bron, qui développent le code Meudon PDR (Le Petit et al. 2006, Bron et al. 2014). Ce code, l’une des références largement utilisé par la communauté, simule de façon couplée le transfert de rayonnement, la chimie et les processus thermiques dans une tranche de gaz interstellaire afin d’estimer des intensités de raies d’émission théoriques en fonction des paramètres physiques du nuage.

Méthodes statistiques pour l’inversion de modèle et distribution spatiale des propriétés physico- chimiques du nuage moléculaire Orion B

L’extraction d’information utile à partir des données grand champ hyper-spectrales issues d’ORION- B, complexes, massives et bruitées, implique la relation à des modèles complets pour inférer la distribution spatiale des paramètres physiques (pression, température, rayonnement UV lointain,…) et chimiques (abondances, fraction ionisée, déplétions, …) du nuage. Les méthodes utilisées pour cette étape d’inférence basée sur les modèles doivent tenir compte des dégénérescences potentielles associées à un problème inverse mal posé qui pourraient amener à sur-interpréter les données. La variabilité du rapport signal-à-bruit rend la détermination d’estimateurs précis difficile. Disposer d’incertitudes quantifiées de façon fiable est essentiel à une interprétation physique robuste. Nous tirerons partie pour cela de la grande taille des données du projet ORION-B qui se transforme alors en avantage pour étudier et valider nos approches, en particulier pour assortir nos prédictions d’intervalles de confiance. Nous nous intéresserons surtout à des approches qui permettent de produire des intervalles de confiance ou de crédibilité accompagnés de garanties théoriques puisque nous ne disposons ici d’aucun oracle, aucune vérité terrain. Certains de nos travaux vont déjà dans cette direction (Vono, Dobigeon, Chainais 2019 ; Vono, Dobigeon, Chainais 2020)

Approches bayésiennes pour l’inférence des cartes de distribution des paramètres physico- chimiques avec intervalles de crédibilités garantis.

Le niveau de bruit étant parfois bas et le problème inverse étant mal posé, nous devons faire appel à des a priori pour définir l’espace dans lequel nous cherchons nos estimateurs. Les modèles astrophysiques dont nous disposons, tels que le code PDR de Meudon, sont souvent très coûteux en temps de calcul. Par conséquent, nous utiliserons des grilles de modèles pré-calculés. Ensuite nous utiliserons des méthodes de Monte Carlo à chaînes de Markov, en particulier de type ABC (Approximate Bayesian Computation) pour inclure la connaissance a priori de la physique du système dans notre méthode d’inférence. Les méthodes ABC sont conçues pour traiter les situations où la vraisemblance ne peut être explicitement calculée lors de la recherche de la solution au problème inverse (Wilkinson 2013) : la grille de modèles pré-calculée est alors utilisée comme une boîte noire pour explorer l’espace des paramètres et évaluer leur probabilité a posteriori. L’une des difficultés sera d’ailleurs l’exploitation optimale d’une interpolation efficace de cette grille. L’algorithme final devra 1) fournir les solutions les plus probables décrivant les cartes de paramètres physico-chimiques, 2) fournir des intervalles de confiance aux estimateurs, si possible assortis de garanties théoriques. L’approche proposée devra aussi permettre de résoudre les régions à faible SNR. Ces recherches s’inscriront naturellement dans le champ de nos travaux récents sur ces questions (Vono et al. 2019).

Pour les cartes du milieu interstellaire (ISM ou InterStellar Medium) nous pouvons de plus utiliser des a priori assez forts : les conditions physiques au sein d’un GMC sont spatialement régulières et ne devraient pas faire apparaître de variations erratiques d’un pixel à l’autre. Une régularisation spatiale bien choisie sera nécessaire. Ce type d’approche est commune en traitement d’image où l’on utilise habituellement des régularisations de type gradient ou Laplacien, ou encore TV (total variation) éventuellement généralisée. Nous explorerons aussi le potentiel de régularisations impliquant la parcimonie dans un espace de représentation telle que les ondelettes, adaptées au contrôle du poids de textures multi-échelles isotropes dans les images. Nous envisageons aussi de considérer les approches d’apprentissage profond bayésien. Nos approches seront testées aussi bien sur des cartes synthétiques que sur des observations réelles pour identifier les a priori les plus adaptés, tout en tenant compte de la complexité numérique qui devra passer à l’échelle de la masse de données à exploiter. Nous devrons aussi étudier l’influence d’une éventuelle mauvaise spécification du modèle puisqu’il aura servi à la fois d’a priori dans la formulation du problème inverse et de référence pour les tests de validation : l’erreur d’approximation due à une mauvaise spécification du modèle se traduit

nécessairement par une contribution à l’erreur d’estimation. Les cartes obtenues pour des paramètres tels que la densité, densité de colonne, illumination UV, fraction ionisée ou la température permettront de mieux comprendre et analyser les conditions physiques à l’intérieur du nuage Orion B.

Démélange des contributions moléculaires.

Un défi général posé par l’interprétation de ce type d’analyse naît du mélange des contributions de différents types de milieux interstellaires aux raies d’émission observées. Ce problème est critique pour l’étude des régions de formations stellaires dans d’autres galaxies, où en raison du manque de résolution spatiale, de nombreux milieux sont mélangés dans le lobe du télescope. Ce mélange superpose (de façon linéaire ou non-linéaire) les contributions de plusieurs milieux le long de la même ligne de visée dans les observations. L’interprétation de ces mesures intégrées spatialement le long de ligne de visée à partir d’un seul jeu de paramètres physiques peut mener à des conclusions erronées, ce que ne s’interdisent pas de faire certaines études qui négligent cet aspect. Nous comptons nous attaquer à ce verrou en exploitant la richesse et la haute résolution des données issues de la campagne ORION-B.

Il s’agira d’identifier les multiples composantes émettrices sur une ligne de visée, comme des PDRs, des chocs, du gaz sombre ou diffus. L’objectif est de déterminer les conditions physiques dans chacune des composantes. Sans démélange, on obtient un résultat erroné – souvent supposé correspondre à un résultat « moyen » dans la littérature. Le problème auquel on se confronte est hautement dégénéré, et deux types d’a priori seront proposés. D’abord, la connaissance des composantes physiques elles-mêmes et des spécificités de leur émission (grâce aux modèles astrophysiques) sera très importante. Les données Orion-B fournissent un exemple de GMC spatialement résolu qui servira de test. Elles serviront aussi à définir des a priori sur la forme des distributions de conditions physiques démélangées. Cette séparation des composantes répond à des questions astrophysiques cruciales : en schématisant, si dans une galaxie, on conclut que ce sont des chocs qui dominent, cela signifie que le milieu peut être turbulent et que s’y sont produites de nombreuses explosions de supernovae. Tandis qu’une forte contribution des PDRs fournit une information quantitative sur le taux de formation stellaire. Les méthodes développées seront aussi appliquées aux observations du programme PHANGS (Large Program MUSE et ALMA).

Rôle du doctorant.

Le doctorant recruté devra surtout apporter une expertise en traitement du signal et apprentissage statistique. Il devra aussi avoir l’esprit ouvert et une certaine curiosité pour l’astrophysique. Son rôle sera crucial puisqu’il devra d’une part appréhender le jeu de données ORION-B dans toutes sa complexité et sa richesse, en comprendre les enjeux en termes de physique du nuage moléculaire, et proposer des méthodes adaptées aux objectifs décrits plus haut. Il sera localisé au laboratoire CRIStAL à Lille et se rendra régulièrement à l’Observatoire de Paris, la communication est aisée entre ces deux villes.

Dans un premier temps, il devra poursuivre deux études bibliographiques en parallèle. La première consistera en un état de l’art sur les problèmes inverses en grande dimension, en particulier dans le cadre bayésien puisque nous cherchons des estimateurs assortis d’intervalles de confiance ; il devra aussi s’intéresser aux garanties théoriques associées. Une deuxième étude bibliographique portera sur la partie astrophysique, notamment en lien avec les observations, la physico-chimie et les modèles numériques des nuages moléculaires. Il est probable que l’acclimatation à un sujet interdisciplinaire tel que celui-ci nécessite un investissement important en début de thèse. Notre équipe dispose des compétences nécessaires et sera attentive à l’accompagnement du doctorant dans ce travail qui établira les fondations du projet de thèse. Le doctorant bénéficiera de l’expertise internationale disponible au sein du consortium ORION-B.

Ensuite, en fait dès que sa culture le permettra, le doctorant pourra se familiariser avec les algorithmes de l’état de l’art et leur adaptation à notre problématique. Il devra progressivement monter en puissance pour devenir force de proposition de nouvelles méthodes qui prennent en compte tous les attendus mais aussi toutes les contraintes de ce projet. Nous tâcherons d’identifier une première approche de reconstruction des cartes de paramètres physico-chimiques qui permette de mettre en valeur l’investissement du début de thèse d’ici la fin de la première année. Ce travail se concrétisera par l’écriture d’un premier article de journal. Il participera aussi à la production des grilles de modèles pour l’interprétation des observations. Participer à cette seconde tâche lui donnera une expertise sur la complexité de ces modèles et leur degré d’incertitude inhérent qu’il est parfois difficile de quantifier, mais qu’il faut avoir en tête lorsqu’on interprète les observations.

En deuxième année, le doctorant devrait pouvoir aborder des méthodes plus avancées, impliquant un bon compromis entre complexité numérique, précision des estimateurs, et intervalles de confiance garantis. En parallèle, il pourra s’attaquer au problème du démélange des lignes de visée qui semble poser plus de difficultés techniques.

En troisième année, l’expertise interdisciplinaire acquise par le doctorant devrait lui permettre de proposer une méthode avancée combinant les tâches de démélange et d’identification des cartes de paramètres physico-chimiques. Idéalement, un troisième article de revue devrait être soumis avant d’engager la rédaction du manuscrit.

Ce travail s’appuie sur le Large Program Orion B de l’IRAM, l’un des TGIR du ministère. L’un des objectifs de ce Large Program est de développer de nouvelles méthodes statistiques pour exploiter les masses de données que fournissent désormais les radio-télescopes. Un objectif important de cette thèse sera la diffusion des méthodes développées auprès de la communauté astrophysique. Nous mettrons à disposition l’ensemble des codes sources produits, dans l’esprit d’une science ouverte et reproductible.

Equipe d’encadrement.

Pierre Chainais est un expert en traitement statistique du signal et apprentissage statistique. Physicien de formation, il a l’habitude de travailler avec des astronomes et astrophysiciens depuis de nombreuses années. Il a précédemment travaillé avec l’Observatoire Royal de Belgique (SoHo, étude sur le Soleil calme), et collabore actuellement avec le consortium ORION-B ainsi qu’avec le Laboratoire AstroParticule et Cosmologie (APC, Paris) au sujet de l’analyse des ondes gravitationnelles. Pierre- Antoine Thouvenin est un jeune Maître de Conférences spécialisé dans les méthodes d’optimisation et de Monte Carlo pour la résolution de problèmes inverses. Il a fait un postdoc à Edimbourg dans une équipe spécialisée en imagerie astronomique (Institute of Sensors, Signals & Systems, Heriot Watt Univ.). Franck Le Petit est un Astronome confirmé, très impliqué dans le projet ORION-B. Il connaît parfaitement ces données ainsi que les codes de simulation physico-chimiques Meudon PDR. Emeric Bron est un astronome adjoint spécialiste de ces modèles physico-chimique ; il a récemment intégré le LERMA et fait partie du consortium ORION-B. Nous avons tous profité du PEPS AstroInfo 2018- 2019 pour initier cette collaboration et apprendre à nous parler entre disciplines différentes. Cette première exploration nous as permis de consolider les fondations de ce projet 80Prime.

Références

Gratier, P. et al. 2017, Astronomy & Astrophysics, 599, 100
Lee, E. et al. 2016, Astrophysical Journal, 833, 229L
Motte, F. et al. 2018, Nature Astronomy, 2, 478
Pereyra, M., 2017, SIAM Journal on Imaging Sciences, vol. 10, no. 1, 285–302. Pety J. et al. 2017, Astronomy & Astrophysics, 599, 98 Repetti, A., Pereyra, M., Y. Wiaux, 2020, SIAM Journal on Imaging Sciences, vol. 12, no. 1, pp. 87-118, 2019. Saintonge, A., et al. 2017, Astrophysical Journal Supplemental Series, 233, 22
Usero, A. et al 2015, Astrophysical Journal, 150, 115
Vono, M., Dobigeon N., Chainais P., 2019, IEEE Transactions on Signal Processing, 66, 17, 4541.Vono, M., Dobigeon N., Chainais P., 2020, preprint .
Wilkinson, R. (2013), Statistical applications in genetics and molecular biology, 12, 1–13

page6image675624464

Profil du candidat :
Le candidat devra avoir des bases solides en traitement statistique du signal et des images et/ou en machine learning, avec un attrait pour l’astrophysique. Un M2 dans l’une de ces disciplines est demandé. Des notions en résolution de problèmes inverses serait un plus. Des compétences de programmation (Python notamment) seront nécessaires.

Formation et compétences requises :
M2 en traitement statistique du signal et des images et/ou en machine learning et/ou mathématiques appliquées, avec un attrait pour l’astrophysique. Un M2 dans l’une de ces disciplines est demandé.

Adresse d’emploi :
UMR CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
59655 Villeneuve d’Ascq

Document attaché : PhD_80Prime_OrionStat.pdf

Categories: theses

Optimisation de détection de motifs d’activité sur des traces numériques éthiques et responsables

Aug 31 – Sep 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC / Kwanko
Durée : 36 mois (contrat CDI
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2020-08-31

Contexte :
Le monde du marketing digital au travers du Real Time Bidding (RTB) repose sur le suivi et l’analyse du comportement des utilisateurs sur le Web. Avec la trace des utilisateurs sur la toile via leurs interactions sur les navigateurs Web, les smartphones, les emails ou les publicités, le RTB cherche à maximiser la diffusion d’informations sur le Web. Ainsi, en suivant le parcours digital de l’utilisateur, le RTB adapte les campagnes publicitaires à leurs profils.
Avec l’arrivée du RGPD, la confidentialité des données devient un enjeu majeur pour les sociétés travaillant dans le e-commerce. Devoir gérer les profils utilisateurs et préserver leur vie privée ajoute une complexité allant à l’encontre du principe du tracking traditionnel des utilisateurs [1,2,3]. Il devient alors nécessaire de définir des profils utilisateurs adaptés aux nouvelles normes et produire ainsi un tracking éthique.
Par ailleurs, le trafic généré par le processus de RTB a un énorme impact sur la consommation de ressources, aussi bien sur le réseau, les serveurs de calcul, que dans l’environnement de l’utilisateur. Récemment, la thématique du marketing responsable ou d’écoconception des supports médias (Green Design) émerge [4,5], mais le domaine du RTB tarde encore à évoluer sur ces conceptions modulaires du processus de tracking et d’analyse. Ainsi, la possibilité de marier le RTB avec le Green Design devient alors un argument de poids dans une campagne publicitaire pour donner un tracking responsable.
La société Kwanko cherche à relever ces deux défis en adaptant leurs processus de RTB. Fondée en 2003, Kwanko est un acteur majeur de la publicité digitale à la performance sur Web, mobile et tablettes. Elle a pour but d’accompagner les annonceurs dans le cadre de la traçabilité et de la maximisation de l’impact de leurs campagnes de publicité. Kwanko facilite la connexion des marques avec leurs audiences sur le Web.
La problématique abordée dans ce sujet de recherche est multiple. Dans le cadre d’une maximisation d’impact d’une campagne de RTB, il faut à la fois préserver la possibilité de tracer des utilisateurs pour maximiser la « transformation » (tracking optimal), minimiser l’impact énergétique du processus d’analyse et de tracking (tracking responsable) et maximiser la protection de la vie privée de l’utilisateur au vu de la règlementation (tracking éthique). Cette problématique combine des dimensions opposées impliquant un problème de maximisation multicontraintes.

Sujet :
Vers des traces numériques responsables
Nous envisageons dans une première partie de redéfinir le processus de tracking et d’analyse en microcomposants modulaires [3]. L’idée est de dissocier les données personnelles de l’analyse en produisant un modèle de données adaptatif qui servira de modèle commun pour les étapes d’analyse. La séparation en microcomposants permet de quantifier l’impact énergétique de chaque composant et ainsi de l’optimiser pour en réduire le coût.
Tout d’abord, la complexité des traitements effectués dans chaque composant associé à la quantité de données à traiter (en fonction du profil utilisateur) donne le coût de chaque étape de l’analyse. La combinaison des microcomposants à base d’opérations unitaires produit une « expression algébrique de campagne » dont les opérations sont interchangeables en vue d’une optimisation. La complexité globale de l’expression algébrique donne ainsi l’impact énergétique de l’analyse RTB.
Un des avantages de cette décomposition de la chaîne d’analyse est double. D’une part, il permet de proposer un langage de haut niveau pour exprimer les besoins d’une campagne RTB intégrant les informations ciblées de l’utilisateur et les paramètres de campagne du client. D’autre part, l’ensemble des expressions algébriques de campagne peut être maximisé aussi bien sur leur impact, la protection de la vie privée et sur l’impact multicampagne.
Pour réduire l’impact énergétique, une heuristique initiale tentera d’allouer la tâche à l’emplacement optimal pour réduire l’impact global, soit en mutualisant les calculs multicampagnes, soit en mutualisant les profils utilisateurs. Le calcul de la pertinence d’une campagne avec le profil utilisateur pourra aussi bien se faire au niveau du navigateur que sur le serveur.
Vers des traces numériques éthiques
En seconde étape, nous reposerons sur le modèle de données commun qui servira dans le processus de tracking pour préserver le profil utilisateur. Le but étant de réduire la dépendance des modèles d’analyse classique sur les profils utilisateurs, amplifiée par la tendance au blocage de ces trackers [6]. Ainsi, nous serons à même de gérer le curseur entre la précision de l’analyse en fonction de l’adhérence des utilisateurs au profilage, tendant vers un tracking éthique.
À l’instar des techniques de tracking visuel [7], des stratégies de préservation de la vie privée reposent sur la définition de motifs d’activité pour la détection de profils spécifiques (Activity Pattern Detection). Il est envisageable d’orienter notre modèle de données sous forme d’Activity Pattern pour le RTB. Le profil sera ainsi analysé dans l’espace utilisateur pour générer des détections locales en fonction d’une campagne dédiée. Le résultat produit alors une recommandation pour cibler l’utilisateur avec la publicité pertinente en maximisant la protection de la vie privée.
Une autre piste envisagée est d’utiliser des techniques de définir un modèle multidimensionnel de ciblage pour les campagnes et de placer l’utilisateur dans celui-ci. Afin de garantir son anonymisation, nous nous orienterons vers des techniques de répartition aléatoire avec garantie probabiliste comme utilisée dans l’allocation sécurisée de requêtes préservant la vie privée [8]. Cette approche permettra ainsi de projeter le profil utilisateur sur des profils de campagne et de cibler l’utilisateur sans connaître celui-ci.
Vers un calcul de trace numérique optimal
Le modèle de coût basé sur l’impact énergétique reposera donc sur la complexité des composants, de leur combinaison pour l’analyse, du niveau de protection de vie privée, de la quantité de données disponibles, et du niveau de précision attendu en sortie. Une optimisation multicritère est donc nécessaire pour orienter le choix de la solution d’analyse adaptée à un ensemble de campagnes publicitaires.
L’idée pour Kwanko est de proposer un service adaptable à leur client en tentant de répondre à différentes dimensions de tracking difficilement compatible : éthique, responsable et optimal. Le client pourra ainsi accentuer une dimension en fonction de l’impact qu’il souhaite avoir dans sa campagne.

Profil du candidat :
Profil : titulaire d’un BAC+5 en informatique, avec des connaissances solides en distribution de données, pattern mining, secure data processing, mais également une forte expérience en développement est recommandée.

Cette thèse de doctorat sera financée par un contrat CIFRE avec Kwanko, en partenariat avec le laboratoire DVRC de l’Association Léonard de Vinci (Paris La Défense) au sein du groupe digital, encadrée par Nicolas Travers (HDR) et Cédric du Mouza (HDR).

La thèse se déroulera à mi-temps chez Kwanko à Bourg-la-Reine (92340) et au DVRC à la Défense (92916).

Formation et compétences requises :
BAC+5 Informatique – BDD / Systèmes distribués / Systèmes d’Information

Adresse d’emploi :
Kwanko 60 BD DU MARECHAL JOFFRE 92340 BOURG-LA-REINE
DVRC Pôle Universitaire Léonard de Vinci 92 916 Paris La Défense Cedex

Document attaché : 202005111429_Traces numériques éthiques et responsables.pdf

Categories: theses

Sep

Tue

Apprentissage pour l’analyse d’images en IRM dynamique

Sep 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IMT Atlantique
Durée : 36 mois
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 01/07/2020

Contexte :
La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

La thèse se déroulera au laboratoire LaTIM (INSERM U1101), sur le campus de Brest, sous la direction de François Rousseau et Douraied Ben Salem.

Sujet :
Les troubles musculo-squelettiques ont un impact important sur la qualité de vie ainsi que sur les coûts de santé. Un diagnostic clinique précis et un traitement spécifique au patient sont les domaines clés qui jouent un grand rôle dans la prise en charge des troubles musculo-squelettiques. Les personnes atteintes de troubles musculo-squelettiques présentent souvent des douleurs articulaires ou des douleurs et/ou des faiblesses pour des tâches ou des mouvements quotidiens simples. Bien que l’utilisation de telles tâches puisse être une bonne stratégie pour recueillir des données IRM dynamiques, une technique rapide et non répétitive pour acquérir des données dynamiques est très importante. La relation de cause à effet de nombreux troubles qui touchent presque toutes les articulations humaines n’a pas encore été entièrement comprise, et les efforts d’imagerie sont surtout axés sur le diagnostic statique et le suivi du traitement. Ainsi, l’évaluation par IRM dynamique des troubles musculo-squelettiques pourrait avoir un impact considérable non seulement sur la compréhension de la patho-mécanique articulaire, mais aussi sur l’orientation de la thérapie chirurgicale ou de réadaptation. Cette thèse en analyse d’images et apprentissage statistique s’insère pleinement dans les travaux du LaTIM sur la mobilité de l’appareil locomoteur humain à travers l’étude du système neuro-musculo-squelettique. Plus particulièrement, il s’agit ici de répondre à la vaste question de l’amélioration de la fonctionnalité par rééducation ou correction chirurgicale avec prédiction du résultat moteur, en adoptant le point de vue de l’analyse de données et de la modélisation numérique.

La question centrale de ce travail concernera le problème d’adaptation de domaines, et plus spécifiquement le transfert d’informations haute résolution issues de données « image » statiques vers une séquence temporelle basse résolution, afin d’extraire la complémentarité entre les jeux de données. Cette thèse de doctorat est axée sur l’élaboration d’un cadre d’analyse de la mécanique des articulations. Il bénéficiera du développement déjà réalisé sur l’articulation de la cheville chez l’enfant et se concentrera sur la résolution des problèmes rencontrés dans l’acquisition et le traitement des images. Les objectifs spécifiques suivants sont recherchés dans le cadre de ce projet :
l’apprentissage de modèles numériques anatomiquement réalistes (i.e. introduire des contraintes physiques dans les réseaux de neurones),
la transférabilité de modèles appris sur des petits jeux de données,
la reconstruction de données 3D+t haute résolution à partir de données statiques haute résolution et d’une séquence temporelle basse résolution.

Ces travaux s’inscrivent dans ce cadre afin de développer des méthodes d’analyse de données IRM facilitant le diagnostic médical et quantifiant l’évolution du suivi thérapeutique permettant un choix optimal de celui-ci. Elle sera réalisée en collaboration rapprochée avec le service de radiologie, par le biais notamment de la co-direction avec Douraied Ben Salem (PUPH) et les cliniciens du service de rééducation fonctionnelle du CHU de Brest.

Profil du candidat :
Maîtrise en traitement d’images et/ou mathématiques appliquées

Formation et compétences requises :
Compétences requises : apprentissage, traitement d’image, programmation (Python).

Adresse d’emploi :
IMT Atlantique, Technopole Brest Iroise, 29238 Brest.

Document attaché : 202005041550_2020-AI4Child-Sujet_These_IRM-Dyn_french.pdf

Categories: theses

Customized User-Sensitive Approaches to Inconsistency Management

Sep 1 – Sep 2 all-day

Offre en lien avec l’Action/le Réseau : RoD/– — –

Laboratoire/Entreprise : LaBRI – Laboratoire Bordelais de Recherche en Info
Durée : 3 ans
Contact : meghyn.bienvenu@labri.fr
Date limite de publication : 2020-09-01

Contexte :
Accessing the relevant information contained in real-world data to support informed decision making is difficult, time-consuming, and error-prone due to the need to integrate data across multiple heterogeneous sources. Moreover, even if this first hurdle is overcome, a perhaps even more daunting challenge arises: how to obtain reliable insights from imperfect data? It is widely acknowledged that real-world data is plagued with quality issues, such as incompleteness (missing information) and errors (false or outdated information).

The ontology-based data access (OBDA) paradigm addresses the first challenge by facilitating access to (potentially heterogeneous) data sources through the use of ontologies that specify a convenient user-friendly vocabulary for query formulation (which abstracts from the way the data is stored) and capture domain knowledge that can be exploited at query time, via automated reasoning, to obtain more complete query results.

While OBDA systems are growing in maturity, they too often fail to address the data quality issue, aside from issuing warnings when inconsistencies are discovered. To widen the applicability of the OBDA approach, it is essential to equip OBDA systems with appropriate mechanisms for handling imperfect data.

The PhD position is part of the INTENDED Chair on Artificial Intelligence, whose aim is to develop intelligent, knowledge-based methods for handling imperfect data.

Sujet :
The PhD position will focus on the development of a customized user-sensitive approach to data quality in the setting of ontology-based data access (OBDA). The aim is to allow users to give direction on how to address data quality issues.

Inconsistency management policies have been introduced for relational databases to give users control over how errors are resolved, based upon their knowledge, preferences, and intended use of the data. It is appealing to consider such policies for the OBDA setting, but existing definitions and results do not readily transfer.

The first step will be to define a suitable notion of policy and examine its basic properties. Afterwards, the PhD student will develop novel reasoning services and associated reasoning algorithms for managing such policies: How to determine if a policy is well defined, and if it is guaranteed to yield a unique result? How can we aid users in constructing such policies, e.g. by suggesting refinements?  

Profil du candidat :
At the start of the PhD, the candidate must hold a Master’s degree in computer science (or possibly mathematics, if accompanied by relevant computer science experience).

Formation et compétences requises :
As ontologies are expressed using logic-based formalisms, candidates should be familiar and comfortable with first-order logic.

Prior knowledge in one or more of the following areas would be a plus: knowledge representation and reasoning (especially description logics), database theory, Semantic Web (ontologies), theoretical computer science (in particular, computational complexity).

Strong English language skills (reading, writing, & speaking) are expected.

Adresse d’emploi :
The position will be based in Bordeaux in the LaBRI research lab, with regular funded stays in Paris to visit the co-supervisor (ENS Ulm).

Document attaché : 202006101515_phd1-intended.pdf

Categories: theses

Multi-omics transfer learning to extend proteomics coverage beyond mass spectrometry limits

Sep 1 – Sep 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEA de Grenoble / TimC-IMAG
Durée : 3 ans
Contact : thomas.burger@cea.fr
Date limite de publication : 2020-09-01

Contexte :
Distinct genes are expressed in different cell types and under different conditions, yielding different proteins from cell to cell. Precisely measuring the dynamics of proteins (the `atoms of life’) would provide an unrivaled characterization of biological states. However, methodological obstacles currently impede robust and accurate estimation of protein abundance. On the one hand, the core technology of proteomics (namely mass spectrometry) is hampered by a complex missing data problem [1], with peptides (i.e. protein fragments) being missed at random, while others are below the detection threshold. On the other hand, RNA-seq allows to robustly measure abundance of the whole transcriptome, with few missing data, but RNA abundance sometimes lacks correlation with protein abundance.

Sujet :
Considering, we propose to integrate RNA-seq and mass spectrometry based proteomics. More precisely, and knowing transcription levels do not always reflect protein concentrations, the goal of this project will be to assess how well transcriptomic can help imputing quantitative proteomics data when peptides fall below the detection limit of the instrument.

To achieve this goal, we propose the following roadmap:

1. Exploratory analysis of paired transcriptomic and proteomic samples. Preliminary analysis of datasets using standard pipelines and assessment of correlation levels [2] between the two sets of data. Discrepancies between RNA and protein abundances have different sources: (1) not all RNAs are translated into proteins; (2) proteins and RNA have different half-lives; (3) some proteins are transported from other cell-types.

2. Develop a novel method to estimate protein abundance using jointly transcriptomic and proteomic data. Leverage the high quality information provided by the transcriptomic data to build a new predictor of protein abundance through the transfer learning / domain adaptation framework [3].

3. Facilitate reproducible and open science by sharing the method in a high quality open-source package.

References:
[1] Lazar, Gatto, Ferro, Bruley, and Burger. Accounting for the multiple natures of missing values in label-free quantitative proteomics data sets to compare imputation strategies. Journal of proteome research, 15(4):1116{1125, 2016.
[2] Tiomoko and Couillet. Random matrix-improved estimation of the wasserstein distance between two centered gaussian distributions. In 2019 27th European Signal Processing Conference (EUSIPCO), pages 1-5. IEEE, 2019.
[3] Courty, Flamary, Tuia, and Rakotomamonjy. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine intelligence, 39(9):1853-1865, 2016.

Profil du candidat :
The profile sought is that of a graduate student (Master degree or equivalent) in Computer Science (Major in Artificial Intelligence, Data Science, or Bioinformatics) or in Applied Mathematics (Major in Signal Processing or Statistics) who has a strong interest in interdisciplinary work in biology. They must have programming skills (R or Python) and be fluent in either French or English.

Formation et compétences requises :
Applicants must send their CV
to:
* Nelle Varoquaux, CNRS researcher, TIMC-IMAG (https://www-timc.imag.fr/):
nelle.varoquaux@univ-grenoble-alpes.fr
https://nellev.github.io/
* Thomas Burger, CNRS researcher, EDyP-lab (http://www.edyp.fr/web/):
thomas.burger@cea.fr
https://sites.google.com/site/thomasburgerswebpage/

Adresse d’emploi :
Scientific environment:
* Within the Fundamental Research division of CEA Grenoble, the lab Exploring the Dynamics of Proteomes (EDyP – http://www.edyp.fr/web/) gathers multiple scientific areas of expertise (ranging from biology to applied mathematics) with the aim to develop analytical and computational methods that improve the proteome coverage of complex biological samples.
* The TIMC-IMAG (https://www-timc.imag.fr/en/) lab gathers scientists and clinicians towards the use of computer science and applied mathematics for understanding and controlling normal and pathological processes in biology and healthcare. Within the lab, the team BCM focuses on developing data-driven and modeling methods for biology, living systems, and to better support our healthcare system.
* This project will be financially supported by the artificial intelligence for high throughput biomedical investigations program of the Grenoble Multidisciplinary Institute for Artificial Intelligence (MIAI – https://miai.univ-grenoble-alpes.fr/), which fosters academic collaborations between Grenoble hospital, academic labs, and artificial intelligence industry.

Document attaché : 202006091028_phd_subject_proteo_transcriptomic-2020.pdf

Categories: theses

PhD position on Graph Neural Neworks

Sep 1 – Sep 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LITIS
Durée : 36 months
Contact : phd-gan_graphs@litislab.fr
Date limite de publication : 2020-09-01

Contexte :
## Position Details
* Location The research will be conducted at LITIS Laboratory (Rouen, France) in Normandy.
The LITIS (EA 4108) is affiliated to Normandie University, University of Rouen and INSA Rouen
Normandie, and founding member of the CNRS Research Federation NormaSTIC.
*Supervisors:
– Benoit Gaüzère, LITIS, INSA Rouen http://pagesperso.litislab.fr/∼bgauzere
– Paul Honeine, LITIS, University of Rouen http://honeine.fr/
* Start date September or October 2020 (or earlier)
* Duration 36 months

Sujet :
Graphs are a powerful and versatile data structure useful to encode
many real-world data, such as networks, molecules and
documents. However, their flexibility comes with some drawbacks
including the complexity associated to elementary operations. For
instance, deciding if two graphs are isomorphic (i.e., structurally
equivalent) or computing a distance between two graphs are NP-Complete
problems, and even hard to approximate. Considering this, several
strategies have been proposed to find some workarounds in order to be
able to process graphs and use them in the Machine Learning
pipeline. The simplest strategy is the explicit embedding of graphs to
an Euclidean space [1], at the cost of losing information. To
overcome this drawback, two major strategies have been recently
investigated. The first one is improving the embedding through kernels
defined on graphs [2,3]. The second and more recent strategy is the
definition of Graph Neural Networks (GNNs) operating directly on
graphs [4–8]. Using neural networks on graphs allows to learn a
proper embedding of graphs given a problem to solve, and then
alleviate the drawbacks of defining a priori an ad hoc embedding.
These embedding-based methods have been commonly investigated for
supervised learning tasks, essentially classification and
regression. However, their interpretability is one major
drawback. Moreover, they were not efficient in many unsupervised
learning tasks, such as estimating the data centroid in k-means or
more generally generating a graph prototype (one graph representative
of a set of graphs, e.g. a median graph). The main reason is the curse
of the preimage, since one needs to reconstruct the solution in the
graph-data space. The preimage problem has already been addressed in
various domains, mainly for kernel-based methods [9,10]. However,
solving this problem for structured data remains an open problem and
only very few attempts have been made on strings and some particular
class of graphs [11]. The purpose of this PhD thesis is to alleviate
the bottlenecks associated to the preimage problem on graphs, through
the use of Generative Adversarial Network (GAN) [12, 13]. GANs
consists of two parts. First, the encoder aims to embed graphs to an
Euclidean space of a predefined dimension. This can be implemented
using existing GNNs and kernel-based methods. Second, the decoder
part aims to reconstruct a graph given a vectorial representation. It
may be considered as the inverse function of the encoder part. The
purpose here is to define this decoder part to take Euclidean spaces
as input and graphs as output, i.e., structured data. By investigating
this approach, the PhD candidate will study particularly molecular
generation.

Profil du candidat :
Required skills
• Master in Applied Mathematics, Computer Science, Data Science, or equivalent
• Experience in Python programming
• Skills in graph theory, neural networks or graph-based methods constitute an advantage

Formation et compétences requises :
Required skills
• Master in Applied Mathematics, Computer Science, Data Science, or equivalent
• Experience in Python programming
• Skills in graph theory, neural networks or graph-based methods constitute an advantage

Adresse d’emploi :
LITIS,
avenue de l’université,
76800 St Etienne du Rouvray

Document attaché : 202004071235_offre.pdf

Categories: theses

Thèse en Intelligence Artificielle