MaDICS

Métriques pour la mesure de distance entre graphes pour la détection de comportement anormaux en cybersécurité

Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Laboratoire ICube – Université de Strasbourg
Durée : 36 mois
Contact : pierre.parrend@unistra.fr
Date limite de publication : 2020-04-30

Contexte :
Les comportements des systèmes, des services et des utilisateurs peuvent être
analysés par des modèles dits UEBA: User and Event Behaviour Analytics. Cette
approche permet de détecter pour chaque entité d’un ecosystème d’information les
variations brutales ou progressives de comportements révélatrices d’actions
malveillantes menées par un utilisateur ou un logiciel.

Sujet :
Les modèles de graphes de scénarios d’anomalie (ASG, Anomaly Scenario Graphs) sont particulièrment pertinents pour définir ces modèles UEBA. Ils permettent de représenter le comportement d’une instance (Concrete Anomaly Scenario Graphs) ou un comportement générique, abstrait (Abstract Anomaly Scenario Graphs). S’ils sont bien définis(1), ces modèles nécessitent d’être enrichis par des outils d’analyse permettant la détection de comportements anormaux.

Cette thèse proposera donc un ensemble de métriques de distance entre graphes, et évaluera leur impact sur la capacité de détection des ASGs. Elle se fondera sur une étude de la litérature théorique sur le sujet (Stream Graphs, Graph mining, etc.). Elle pourra exploiter les outils d’analyse tels que les réseaux de neurones à graphes (GNN, Graph Neural Networks), entre autres, comme support d’évaluation.

(1) Modelization and Identification of Multi-step Cyberattacks in Sets of Events, J. Navarro, PhD Thesis, 2019
(2) Stream Graphs and Link Streams for the Modeling of Interactions over Time, M. Latapy, T. Viard, C. Magnien

Profil du candidat :
Les compétences dans un des domaines suivants sont un critère de sélection important pour ce projet de thèse:
– Soit: théorie des graphes; statistiques
– Soit: cybersécurité.

Des connaissances théoriques ainsi qu’une première expérience pratique sont attendues.

Les compétences rédactionnelles en anglais (et pour les candidats dont c’est la langue maternelle en français) sont très importantes pour la réussite d’une thèse de doctorat en informatique.

Formation et compétences requises :
Bac+5 en informatique, majeure Sécurité ou Intelligence Artificielle/Science des données. Très bon classement attendu.

Adresse d’emploi :
Laboratoire ICube, équipe CSTB, 11, Rue Humann, 67000 Strasbourg.

Document attaché :

Categories: theses

Nouvelles stratégies pour la conception robuste de procédés : Sensibilité globale, apprentissage automatique et logique floue

Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : INP ENSIACET Toulouse (au LGC)
Durée : 3 ans
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2020-04-30

Contexte :
L’efficacité des systèmes industriels ainsi que leurs performances nécessite une conception
optimisée des procédés. L’étape de la conception est fondamentale et est en soi une tâche
complexe. La conception “classique” de procédés est souvent élaborée via des modèles
de simulation et d’évaluation technico-économique, en posant la question de la prise
en compte des imprécisions et des incertitudes des modèles. En même temps, un intérêt
particulier a été porté au cours de ces dernières années sur le développement des méthodes
de propagation d’incertitude pour une optimisation robuste des procédés [10].
Ces incertitudes sont prise en compte que ce soit sur (i) les données de base (production,
qualité des produits, …) qui correspondent à un choix opéré aux étapes de spécification
du projet ou sur (ii) les données technico-économiques (durée d’investissement, taux de
crédit, …).
Ces choix obèrent les capacités de l’installation à fonctionner sous d’autres régimes, que
ceux-ci soient souhaités (augmentation de production) ou subis (changement de cadres
financiers, lors de la réalisation du projet). Qui plus est, l’utilisation, dans l’étape de conception du procédé, d’un métamodèle (par exemple en utilisant une approche “surrogate
model”), qui est une démarche de plus en plus courante en génie des procédés, nécessite la
prise en compte des imprécisions déjà mentionnées, mais également celles des paramètres
de ces modèles simplifiés, souvent établis via des méthodes de type Monte-Carlo. Ceci
est actuellement effectué par des études de sensibilité locale ou le calcul d’indices de
flexibilité/robustesse/résilience [5, 11]
Les études de sensibilité locale ont pour objectif d’obtenir une conception d’unités plus
“robuste” en faisant varier les paramètres d’intérêt, un à la fois et les uns à la suite des
autres. Elles s’apparentent peu ou prou à la méthodologie HAZOP, qu’on peut rencontrer
en étude de sureté, ou à la réalisation de scénario (optimiste, pessimiste, neutre,…), qui
se retrouve dans les études prospectives. Largement employées, elles souffrent de deux
défauts majeurs : la non-prise en compte de l’interaction des paramètres, par le fait
même d’étudier les paramètres les uns indépendamment des autres et l’aspect “ local”
de l’indicateur, autour du “design nominal” déjà calculé. De ce fait il s’agit plus d’une
vérification de la flexibilité de la conception, effectuée a posteriori, qu’une méthode de
conception “robuste” prenant en compte les incertitudes/imprécisions et aboutissant à la
“meilleure” conception possible.
Le calcul d’indices, de flexibilité ou de résilience, a été largement utilisé depuis le milieu
des années 80 et l’article pionnier de Swaney et Grossmann [19]. Une récente recension
des travaux sur ce sujet [6] a permis de dénombrer au moins 5 indices différents : (i)
indices de flexibilité de Swaney et Grossmann [19], (ii) de Pitsikopoulos et Mazzuchi [12],
(iii) de Dimitradis et Pitsikopoulos [4], (iv) indice de résilience de Saboo et Morari [13],
(v) indice de flexibilité “volumétrique” de Lai et Hui [8].
Sans rentrer dans une discussion détaillée, ces divers indicateurs diffèrent par la prise
en compte des incertitudes/imprécisions (stochastique vs déterministe) et l’ensemble des
activités englobées (conception “simple” des unités, conception des unités et du système
de contrôle-commande,…). Ces démarches pèchent cependant toutes par la non différentiation des notions d’incertain et d’imprécis, de manque d’information et de variabilité.
Et leur approches, basées essentiellement sur des méthodes d’optimisation, nécessitent
une formulation complexe et des temps de calcul importants pour des résultats n’étant
garantis que “localement” optimaux…

Sujet :
Ces dernières années, de nouvelles méthodes d’analyse de sensibilité, dite “globale” [18]
(méthode de Sobol [16, 17, 7], polynômes de chaos [9, 3],. . . ) et leur implantation efficace
ont vu le jour, notamment sous l’impulsion de la Communauté Européenne (équipes des
Pr Andrea Saltelli et Stefano Tarantola, Joint Research Centre, European Commission,
Institute for the Protection and Security of the Citizen, Ispre (Italie), par exemple)[14],
permettant la modélisation et la propagation d’incertitudes dans tous les domaines de la
simulation numérique. De même, les méthodes d’apprentissage automatique (“machine
learning”) ont connu une expansion considérable, dans le traitement des problèmes de
partitionnement ou de discrimination, par exemple [5, 15, 1]. Enfin, l’utilisation conjointe, en modélisation, de données mal connues (via la théorie des possibilités) et de
données imprécises (connues par leur distribution de probabilité, par exemple) a été
rendue possible, par les travaux de Baudrit, Couso et Dubois [2].
Les étapes de la démarche proposée sont les suivantes :

(i) L’analyse les atouts et les faiblesses des méthodologies actuelles de conception robuste de procédés. Analyse des outils actuels d’analyse de sensibilité, “machine.
(ii) La formulation des problèmes de conception robuste, selon le type des données imprécises et incertaines, au travers d’exemples de la littérature ou du LGC (conception de réseaux d’échangeurs de chaleur, bio-raffinerie,…).
learning” et de théorie des possibilités.
(iii) L’hybridation des méthodes et comparaison des démarches proposées et plus anciennes, au crible de critères tels que la facilité de modélisation, la représentativité
de l’approche, le temps calcul, …
References
[1] Yun Bai, Zhenzhong Sun, Jun Deng, Lin Li, Jianyu Long, and Chuan Li. Manufacturing quality prediction using intelligent learning approaches: A comparative
study. Sustainability, 10(1):85, 2018.
[2] Cédric Baudrit, Inés Couso, and Didier Dubois. Joint propagation of probability
and possibility in risk analysis: Towards a formal framework. International Journal
of Approximate Reasoning, 45(1):82–105, 2007.
[3] Jean-Marc Bourinet. Form sensitivities to distribution parameters with the nataf
transformation. In Risk and Reliability Analysis: Theory and Applications, pages
277–302. Springer, 2017.
[4] Veniamin D Dimitriadis and Efstratios N Pistikopoulos. Flexibility analysis of dynamic systems. Industrial & Engineering Chemistry Research, 34(12):4451–4462,
1995.
[5] Pascal Floquet, Gilles Hétreux, Raphaele Hétreux, and Lucille Payet. Analysis of
operational heat exchanger network robustness via interval arithmetic. In Computer
Aided Chemical Engineering, volume 38, pages 1401–1406. Elsevier, 2016.
[6] Ignacio E Grossmann, Bruno A Calfa, and Pablo Garcia-Herreros. Evolution of
concepts and models for quantifying resiliency and flexibility of chemical processes.
Computers & Chemical Engineering, 70:22–34, 2014.
[7] S Kucherenko et al. A new derivative based importance criterion for groups of
variables and its link with the global sensitivity indices. Computer Physics Communications, 181(7):1212–1217, 2010.
[8] Sau M Lai and Chi-Wai Hui. Process flexibility for multivariable systems. Industrial
& Engineering Chemistry Research, 47(12):4170–4183, 2008.
[9] Andre Nataf. Determination des distribution don t les marges sont donnees. Comptes
Rendus de l Academie des Sciences, 225:42–43, 1962.
[10] Omid Nejadseyfi, Hubert Geijselaers, and Ton van den Boogaard. Robust optimization based on analytical evaluation of uncertainty propagation. Engineering
Optimization, 51(9):1581–1603, 2019.

[11] Lucille Payet, Raphaële Thery Hétreux, Gilles Hétreux, Florent Bourgeois, and Pascal Floquet. Flexibility assessment of heat exchanger networks: from a thorough
data extraction to robustness evaluation. Chemical Engineering Research and Design, 131:571–583, 2018.
[12] EN Pistikopoulos and TA Mazzuchi. A novel flexibility analysis approach for processes with stochastic parameters. Computers & Chemical Engineering, 14(9):991–
1000, 1990.
[13] Alok K Saboo, Manfred Morari, and Duncan C Woodcock. Design of resilient processing plants –viii. a resilience index for heat exchanger networks. Chemical Engineering Science, 40(8):1553–1565, 1985.
[14] Andrea Saltelli, Marco Ratto, Terry Andres, Francesca Campolongo, Jessica Cariboni, Debora Gatelli, Michaela Saisana, and Stefano Tarantola. Global sensitivity
analysis: the primer. John Wiley & Sons, 2008.
[15] Ahmed Shokry, Sergio Medina-González, and Antonio Espuña. Mixed-integer multiparametric approach based on machine learning techniques. In Computer Aided
Chemical Engineering, volume 40, pages 451–456. Elsevier, 2017.
[16] Ilya M Sobol. Sensitivity estimates for nonlinear mathematical models. Mathematical
modelling and computational experiments, 1(4):407–414, 1993.
[17] Ilya M Sobol. Global sensitivity indices for nonlinear mathematical models and their
monte carlo estimates. Mathematics and computers in simulation, 55(1-3):271–280,
2001.
[18] Bruno Sudret. Global sensitivity analysis using polynomial chaos expansions. Reliability engineering & system safety, 93(7):964–979, 2008.
[19] Ross Edward Swaney and Ignacio E Grossmann. An index for operational flexibility in chemical process design. part i: Formulation and theory. AIChE Journal,
31(4):621–630, 1985.

Profil du candidat :
Formation initiale :
De formation Bac +5 minimum, le(la) candidat(e) doit être diplômé(e) d’un Master ou
d’un diplôme d’Ingénieur à forte composante en automatique/traitement de signal ou en
mathématique appliquée et statistique.

Formation et compétences requises :
Une bonne maîtrise des méthodes “classiques” de l’apprentissage automatique est
indispensable.
• Une connaissance informatique en termes de programmation est nécessaire.
• Maîtriser les outils d’aide à la décision.
• Une première expérience dans un des domaines suivant :
– la segmentation floue (théorie des possibilités),
– l’analyse de la propagation des incertitudes,
– conception des procédés,
est un grand atout
• Connaissances en gestion industrielle appliquée aux procédés seraient un plus.
• La motivation et l’envie d’apprendre seront des atouts non négligeables.

Adresse d’emploi :
École Nationale Supérieure des Ingénieurs en Arts Chimiques et Technologiques (Toulouse INP-ENSIACET)

4 Allée Emile Monso, 31030 Toulouse

Document attaché : Sujet_these_ML_RobustDesign_En_FR_v1.pdf

Categories: theses

Optimisation du système de tarification de biens de l’économie circulaire par utilisation de méthodes d’intelligence artificielle. Application à l’entreprise Volpy

Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : Volpy et UMR SPE
Durée : 3 ans
Contact : bisgambiglia@univ-corse.fr
Date limite de publication : 2020-04-30

Contexte :
Proposer au client un prix personnalisé de collecte et de vente d’un produit reconditionné et le lui rendre compréhensible / acceptable.
Augmenter le pouvoir d’achat des utilisateurs, réduire l’obsolescence programmée, favoriser l’économie circulaire, informer. Analyser les impacts économiques, d’usages et de production.
Le dispositif des CIFRE permet de lier sur un projet concret pendant trois ans une problématique d’entreprise et un objet de recherche.
La problématique de l’entreprise est simple réussir à définir le bon prix de vente, pour cela nous pourrons utiliser des données collectées mais également des méthodes d’intelligence artificielle au cœur des thématiques actuelle de notre projet de recherche.

Sujet :
L’économie circulaire et fonctionnelle permettent de faire plus avec moins. 3% des emplois sont liés à l’économie circulaire en France et de nouveaux métiers voient le jour. Le lien social est renforcé par de nouvelles formes d’activités liées à l’économie sociale et solidaire.
Tout comme n’importe quel bien de consommation et d’équipement le smartphone peut être utilisé dans la réparation, le réemploi (revente ou le don), la refabrication (pièces détachées), le recyclage (matières premières) et le reconditionnement (réparation pour revente) [2].
En octobre 2018 l’Autorité de la concurrence italienne a sanctionné deux géants constructeurs de téléphones pour « pratiques commerciales malhonnêtes » [7] poussant leurs clients à changer d’appareil.
De nouveaux services apparaissent pour contrer l’obsolescence programmée : ateliers d’aide à la réparation, liste des produits les plus durables, vendeurs s’engageant à réparer, création d’indice de réparabilité, observatoire des pannes etc. [8][9][10][11].
Des initiatives civiles et gouvernementales : “Projet de loi anti-gaspillage” en France, “Projet de loi 197 sur l’obsolescence programmée” à Québec, nouvelle législation européenne du “droit à la réparation”, taxes écologiques en Suède, processus pour un “droit à réparer” aux Etats-Unis [12][13][14][15].
44% des Français disent limiter leurs achats de produits neufs par conviction [16] et 48% recyclent leurs anciens téléphones [17].
Le marché du reconditionné de smartphone progresse de plus de 13% par an au niveau mondial alors que celui du neuf baisse.

L’entreprise Volpy est positionnée dans ce domaine et se veut l’un des rouages de cette dynamique. Les enjeux sont importants et de nombreux challenges restent à relever comme la problématique soulevée par ce sujet de recherche.

Problématiques et enjeux
Durée de vie, réparabilité et prix du produit sont donc les 3 axes essentiels à l’économie circulaire.
Les problématiques associées et partagées par tous les acteurs du marché du reconditionné sont :
● de proposer le juste prix de collecte. Réussir à proposer un prix de reprise multifactorielle : tendance du marché et des consommateurs, obsolescence et durabilité du produit, capacité de revente, fidélité du client etc.
● de réussir à faire comprendre et accepter le prix de collecte au client. Les utilisateurs ont un lien fort avec certains de leurs produits a forte valeur ajoutée comme les smartphones et ils ne comprennent pas toujours les importantes dévaluations appliquées. L’enjeu est de pouvoir effectuer de la pédagogie afin de rendre les prix compréhensibles et acceptables.
● de proposer le juste prix de vente d’un produit reconditionné. Prendre en compte les informations internes et externes à l’entreprise afin de proposer le meilleur prix pour le client et l’entreprise.
● l’enjeu est de pouvoir faire comprendre pourquoi ce produit à ce tarif est une bonne affaire. Pouvoir discerner suivant le profil type client les meilleurs arguments et services lui permettant de passer à l’acte d’achat. Expliquer les termes de l’économie circulaire comme “reconditionné” qui n’est pas la même chose que “occasion”.
● définir l’obsolescence, la durabilité des produits, le degré de réparabilité des appareils

Les enjeux majeurs sont :
● d’augmenter le pouvoir d’achat des utilisateurs
● de réduire le vieillissement prématuré
● de changer le mode de consommation en favorisant l’économie circulaire
● d’informer et d’effectuer de la pédagogie auprès des utilisateurs pour promouvoir le bon réflexe citoyen

Innovation et intérêt scientifique
En matière d’innovation ce projet vise à proposer le bon prix, au bon moment et à la bonne personne. Proposer et expliquer au client le prix de collecte et de vente d’un produit reconditionné et de manière personnalisée, en temps réel en prenant en compte les données internes et externes de l’entreprise.
L’intérêt direct est de pouvoir analyser l’impact de cette nouvelle proposition de prix, tant au niveau du changement des usages dans cette nouvelle économie de marché, que dans l’évolution de la durabilité des produits et de la marge économique pouvant être réalisée.
Nous pouvons retrouver notre problématique présentée dans [20] : “Le projet d’entreprise renvoie à l’activité concrète de l’entrepreneur, celle qui consiste à prendre des décisions stratégiques en matière d’investissements, en vue de la production de biens ou de services, qui seront par la suite échangés sur un marché. Mais, tout entrepreneur qui souhaite entrer sur un marché, rencontrer des consommateurs, et s’engager dans un processus transactionnel afin de réaliser des ventes, doit avant tout « annoncer » un prix. Non seulement, ce prix doit permettre à l’entrepreneur de rentrer dans ses coûts, mais il doit aussi lui permettre, éventuellement, de faire des bénéfices. Il se devra aussi d’être en phase avec les prix des autres entrepreneurs, les concurrents, et avec les attentes des consommateurs. Plus fondamentalement, le prix reflètera la délicate recherche d’un compromis, d’un « équilibre » précaire entre les différentes « parties prenantes » (stakeholders) de l’entreprise [2] Dallery et Van Treeck [2008] pour une analyse au niveau… : l’entrepreneur lui-même, les salariés, les fournisseurs, les concurrents et les clients.
La maîtrise, par l’entrepreneur, de ses prix et de ses coûts, en fonction de son projet d’entreprise, est conditionnée par sa capacité à effectuer de « bons » pronostics, c’est-à-dire à anticiper les besoins, goûts, préférences, satisfactions de la demande au niveau agrégé. Cette capacité est soumise à l’incertitude radicale, au sens keynésien du terme, c’est-à-dire au fait que l’avenir est, par essence, inconnu. Les sanctions de la demande agrégée, qu’elles soient positives ou négatives, conduisent l’entrepreneur, dans un processus dynamique, à réviser ses stratégies en jouant sur les prix, les marges, les coûts. Ces opérations de révision concernent l’entrepreneur lui-même, mais aussi les rapports qu’il entretient avec les autres acteurs du marché : la concurrence (les pairs), les fournisseurs, les salariés, les clients.”
Au niveau méthodologique de nombreuses études portent sur cette problématique, elles se proposent d’appliquer différentes approches comme : la décision multicritères, l’optimisation multi-objectifs [19], l’apprentissage machine [21, 22] l’apprentissage par renforcement [23, 24].
Aujourd’hui les méthodes récentes d’intelligence artificielle et la masse de données à notre disposition doivent pouvoir nous guider afin de proposer des solutions en temps réelle.

Profil du candidat :
Master Informatique ou école d’ingénieur informatique

Formation et compétences requises :
Bon niveau en programmation, notion en IA, Big-Data, statistiques, Apprentissage Machine

Adresse d’emploi :
Corse (Bastia et Corte)

Document attaché : SPE_SISU_Bisgambiglia_PA3_20_21.pdf

Categories: theses

PhD grant AICAT : Artificial Intelligence for High-Throughput Catalysts Design

Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CRIStAL UMR 9189 – Lille
Durée : 36 months
Contact : pierre.chainais@centralelille.fr
Date limite de publication : 2020/04/30

Contexte :
This PhD project is at the interface between artificial intelligence and chemistry using robots. It will take place within a collaboration between 2 labs that are CRIStAL, UMR 9189, and UCCS, UMR 8181, a chemistry lab in Lille.

Supervisors are :
– Pierre Chainais, CRIStAL, UMR 9189, Centrale Lille ;
– Sébastien Paul, UCCS, UMR 8181, Centrale Lille
->prenom.nom AT centralelille.fr

In chemistry, the discovery of new reactions and processes often relies on a big amount of exploratory experiments inspired by a lot of expert knowledge. This experimental design is even more crucial when looking for new catalysts. Catalysts are material that tend to favor and accelerate certain chemical reactions, sometimes by a tremendous factor. Applications are omnipresent, with a strong impact on crucial domains such as environment, food, health, energy, to cite a few only.

The design of a new catalyst comprises the systematic exploration of sample libraries that must be synthesized, analysed and tested for a targeted reaction of interest. High-throughput catalytic screening uses robots to take advantage of the parallelization and automation of these operations.

This is precisely what the Equipex REALCAT (Advanced High-Throughput Technologies Platform for Biorefineries Catalysts Design, www.realcat.fr) permits to carry out. This platform, located at Centrale Lille, is managed by the University of Lille and coordinated by the Unit of Catalysis and Solid State Chemistry (UCCS UMR 8181, http://uccs.univ-lille1.fr) with a set of partners including CRIStAL laboratory (UMR 9189, https://www.cristal.univ-lille.fr) and the Charles Viollette Institute (ICV UMR INRA 1281, http://institutcharlesviollette.com).

The project will aim at exploiting the richness of existing data from previous and current experiments to optimize the future behaviour of REALCAT through an intelligent research system. The PhD student will be co-supervised by experienced researchers from UCCS and CRIStAL labs. During the course of the PhD a secondment will be done in Shanghai, China, in the E2P2 laboratory, which is a mixed unit between CNRS and the SOLVAY company.

This grant is supported by the European programme PEARL, see www.pearl-phd-lille.eu .

Net salary & lump costs : A net salary of about €1,600 + €530 per month to cover mobility, travel and family costs.

Sujet :
Supervisors

Pierre Chainais, CRIStAL, UMR 9189, Centrale Lille ;

Sébastien Paul, UCCS, UMR 8181, Centrale Lille

prenom.nom AT centralelille.fr

Project

This PhD project is at the interface between artificial intelligence and chemistry using robots. In chemistry, the discovery of new reactions and processes often relies on a big amount of exploratory experiments inspired by a lot of expert knowledge. This experimental design is even more crucial when looking for new catalysts. Catalysts are material that tend to favor and accelerate certain chemical reactions, sometimes by a tremendous factor. Applications are omnipresent, with a strong impact on crucial domains such as environment, food, health, energy, to cite a few only.

This platform is able to synthesize catalysts as well as to test their reaction performance and to characterize them at high-speed on a large set of robots. Any kind of catalyst (chemo- or bio-catalysts and even the novel concept of hybrid catalysts combining both types) can be considered on REALCAT. The development chain is gathered on the same site, which makes this platform unique in the world. The automated exploration generates a large amount of data that must then be formatted, analysed and exploited to optimize the quest for new catalysts and protocols.
The objective of the AICAT project is to develop a machine learning approach capable of establishing rapidly the correspondence between the input data of the system (i.e. synthesis conditions or physicochemical properties of the catalysts for example) and the output data (activity or yield into the molecules of interest for example). A better understanding of the input-output relation will be exploited to speed up the discovery of the optimal catalyst for a given reaction through the rational selection of the most efficient synthesis conditions, taking the best benefit from REALCAT power.

In this multidisciplinary context, the PhD student must be skilled in data treatment, artificial intelligence and machine learning, but also strongly interested in green chemistry and catalysis.

Net salary & lump costs : A net salary of about €1,600 + €530 per month to cover mobility, travel and family costs.

Application procedure (applicant should have spent less thant 12months in France since sept. 2017)

The application procedure is detailed on the European programme PEARL website www.pearl-phd-lille.eu. The funding is managed by the I-SITE ULNE foundation which is a partnership foundation between the University of Lille, Engineering schools, research organisms, the Institut Pasteur de Lille and the University hospital.

The application file will have to be submitted before April 15, 2020 (10h Paris Time) and emailed to the following address : international@isite-ulne.fr

Profil du candidat :
This grant is submitted to some restrictions. The applicant should not have spent more thant 12 months in France since Sept. 2017.

This interdisciplinary project necessitates good scientific skills in general. T

Formation et compétences requises :
A Master level in machine learning, signal processing, applied mathematics, or statistics is expected. Programming skills and an interest for experimental chemistry are welcome.

Adresse d’emploi :
Application procedure (applicant should have spent less thant 12months in France since sept. 2017)

The application file will have to be submitted before April 15, 2020 (10h Paris Time) and emailed to the following address : international@isite-ulne.fr

Document attaché : PhD_AICAT_2020.pdf

Categories: theses

Planification intelligente des soins personnalisés à domicile

Apr 30 – May 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LGI2A Bethune
Durée : 36 mois
Contact : francois.delmotte@univ-artois.fr
Date limite de publication : 2020-04-30

Contexte :
Ce projet s’inscrit d’un point de vue applicatif dans le domaine de l’ingénierie de la santé et d’un point de vue théorique dans celui de l’optimisation sous incertitudes et de l’intelligence artificielle.

De nombreux travaux utilisant des techniques issues du domaine de la recherche opérationnelle et de l’IA dans le domaine de la santé ont vu le jour très récemment et ont porté sur l’amélioration de l’efficacité des systèmes de prise de rendez-vous pour les patients; l’automatisation du traitement des communications cliniques entre les soins secondaires et primaires; la création des systèmes d’aide à la décision clinique plus précis; la mise en place d’un système de santé personnalisé à travers la création d’une plateforme qui vise à envoyer des messages personnalisés aux patients sur les mesures qu’ils pourraient prendre pour améliorer leur santé… (Buch et al. 2019 ; Yu et al. 2018 ; Gulshan et al. 2016). C’est dans ce contexte que se positionne notre sujet.

Les verrous méthodologiques de cette thèse consistent à mener une étude exploratoire et proposer une ou plusieurs nouvelles approches hybrides issues du domaine de l’optimisation robuste et basées sur l’IA et l’apprentissage à travers l’utilisation du « machine learning » (ML) pour améliorer le rendement et l’efficacité des systèmes de gestion des ressources d’une structure HAD. Le ML est un champ d’étude de l’IA qui présente un grand avantage. Cet avantage consiste à donner aux systèmes informatiques la capacité d’apprendre sans programmation. En outre, l’intégration de l’IA dans la gestion des systèmes de soins; et ce, à travers le déploiement de solutions concrètes d’aide à la décision, avec des actions et des résultats perceptibles à court et moyen termes avec les indicateurs de performance du service de soins (amélioration du niveau de service et amélioration du taux de satisfaction patient) et la prise en compte des différentes évolutions (ou encore changements) du système représente un certain défi puisque cela dépend du contexte opérationnel qui est en évolution continue (état de santé du patient et de son comportement, environnement, ..).

Sujet :
L’objectif de cette thèse est de développer une ou plusieurs approches hybride d’optimisation et d’IA pour la planification et le pilotage des services de soins d’une structure HAD, exposée opérationnellement à de multiples évolutions. En outre, l’objectif est de fournir une solution, ou encore une démarche structurée, couvrant les différentes phases de l’analyse des données (habitudes de vie) et de l’identification des évolutions (état de santé et environnement), jusqu’à la quantification des scénarios retenus et la mise en place de solutions permettant de répondre aux anomalies comportementales et/ou opérationnelles.

Profil du candidat :
Le candidat aura un master en statistiques ou informatique orienté vers l’apprentissage/ la classification, des notions d’optimisation sont bienvenues.

Formation et compétences requises :
apprentissage, classification, analyse de données…
des notions d’optimisation sont un plus

Adresse d’emploi :
Lgi2a, FSA, rue de l’université, bethune

Document attaché : descriptif_sujet_et_madics.pdf

Categories: theses

Processus 4.0 pour l’analyse des défaillances en production microélectronique

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Département Génie ma
Durée : 3 ans
Contact : batton@emse.fr
Date limite de publication : 2020-04-30

Contexte :
Cette thèse se développe dans le cadre du projet européen FA4.0, en collaboration avec les équipes de STMicroelectronics sur Grenoble (Grenoble Reliability & Analysis Laboratory). Plus précisément, le projet vise à déployer des solutions d’Intelligence Artificielle développée dans une perspective ‘Industrie du Futur’ pour transformer et améliorer les pratiques industrielles au sein d’un service particulier de l’entreprise : le laboratoire d’analyse des défaillances. Ce laboratoire est un maillon essentiel de la production industrielle, en charge d’analyser et de diagnostiquer les problèmes de qualité et de défaillance qui apparaissent dans les processus de production de wafers micro-électroniques (fabrication de micro-puces) et de produits complexes.

Sujet :
Il s’agit alors de développer des méthodes adaptées de diagnostic basées sur l’analyse des profils de décision et du flot de données, afin d’orienter la stratégie optimale (ou meilleures stratégies) pour sélectionner, progressivement, les étapes d’analyse de défaillance pertinentes dans un cas donné. Les décisions de choix d’étapes d’analyse permettent ainsi de construire progressivement l’ensemble du parcours d’analyse de défaillance. De plus, cela doit permettre de limiter les mauvais choix lors du passage d’une étape non-destructive à une étape destructive.

Profil du candidat :
Master français ou européen de recherche ou bien Ingénieur (Généraliste ou Sciences des données) avec possibilité d’équivalence Master recherche (première expérience de projet recherche).

Formation et compétences requises :
Nous recherchons à couvrir une ou bien plusieurs des compétences suivantes :
– Mathématiques appliquées, orientée vers l’analyse des données et l’aide à la décision
-Science des données, Machine learning, Process mining
-Recherche opérationnelle, Aide à la décision, Optimisation multicritères.
-Culture en génie industriel, Process industriel, Systèmes de production
Bien sûr un intérêt ou des expériences complémentaires en lien avec l’industrie de la microélectronique seront également appréciées.

Adresse d’emploi :
Ecole des Mines de Saint Etienne, Institut FAYOL
158 Cours Fauriel
CS 62362
42023 Saint Etienne cedex 2

Document attaché : 202004141940_2020_ Sujet Thèse_EMSE_FA40.pdf

Categories: theses

TURBULENT FLOW CONTROL BY MACHIINE LEARNIING

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut Pprime
Durée : 3 ans
Contact : Laurent.Cordier@univ-poitiers.fr
Date limite de publication : 2020-04-30

Contexte :
Framework and objectives.
In recent years, continuous progress has been made on the performance of both civilian and military aircraft and helicopters, particularly in terms of flight envelope, radiated noise, maneuverability, vibration, etc. However, further improvements can be achieved by using closed-loop fluid flow control around the machine. This strategy consists of using measurements from sensors placed on the system, to adapt, if possible in real time, the control command to impose. From a control point of view, the main interest of closed-loop is to improve the robustness of the control law. Unfortunately, closed-loop control is currently only usable in a fairly limited range of flow configuration. Indeed, a turbulent flow exhibits both a broad spectrum of spatial scales and a very rich temporal dynamics. High-frequency phenomena (of the order of kHz) therefore require sufficiently fast control, able to adapt to changes in the state of the system. The time required to estimate the state of the system and calculate the command is thus less than the millisecond. This observation explains the difficulties of closed-loop control. As both flow manipulation and open-loop control are commonplace, there is very little example of closed-loop control over sufficiently realistic configurations, especially three-dimensional and turbulent configurations.

This thesis will contribute to the development of realistic closed-loop control strategies for unsteady turbulent flows. Applications include the drag reduction around profiles (by attaching the boundary layer or delaying its separation), the reduction of radiated noise, the flow vectorization to improve the maneuverability or to remove some of the moving air spoilers, the decrease of vibrations induced by dynamic stall, etc.

Sujet :
Work program and means.
We propose to use a pure data-driven approach, rather than physical models, and to exploit newly developed Machine Learning methods. Genetic Programming Control (GPC), Reinforcement Learning (RL), Recurrent Neural Network (RNN), and Deep Reinforcement Learning (DRL) seem particularly well suited. We will focus our efforts on the intrinsic difficulties related to turbulent flow control: large-scale system, unknown and time-varying delays between actions and effects on the objective function, statistical non-stationarity, low observability, real-time constraint, etc. Our strategies will be developed and tested on model dynamical systems (Lorenz, Ginzburg-Landau) to facilitate developments and, subsequently, on a turbulent flow configuration, the wake of three staggered cylinders (Fluidic Pinball) individually controlled by unsteady rotation (see Figure). To do this, we will rely on our expertise in control theory, large-scale approximation methods, statistical learning, etc. and our first successes with Machine Learning strategies (Guéniat et al., 2016, Pivot et al., 2017, Mathelin et al., 2017, Bucci et al., 2019).

The funding is guaranteed for 3 years. This subject is part of the ASTRID project FLOWCON (2018-2020) coordinated by Lionel Mathelin (LIMSI). This topic is also at the heart of the CNRS Research Group “Flow Control Separations”, whose Director is Laurent Cordier (Pprime). For the submission step, the FLOWCON project was supported by Dassault Aviation via a letter of support

Profil du candidat :
Master in Fluid Mechanics / Applied Mathematics / Machine Learning. Appetite for interdisciplinary approaches and machine learning. Desire to go beyond the borders.

Formation et compétences requises :
Master in Fluid Mechanics / Applied Mathematics / Machine Learning. Appetite for interdisciplinary approaches and machine learning. Desire to go beyond the borders.

Adresse d’emploi :
Institut Pprime
SP2MI – Téléport 2 – Bâtiment H2
11 boulevard Marie et Pierre Curie
Futuroscope
France

Document attaché : 202003191614_Turbulent_Flow_Control_Machine_Learning_NAQ_EN-Cordier-Mathelin.pdf

Categories: theses

TURBULENT FLOW CONTROL BY MACHINE LEARNING: IMPOSITION OF SYMMETRY AND INVARIANCE CONDITIONS

Apr 30 – May 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut Pprime
Durée : 3 ans
Contact : Laurent.Cordier@univ-poitiers.fr
Date limite de publication : 2020-04-30

Contexte :
Framework.
In recent years, continuous progress has been made on the performance of both civilian and military aircraft and helicopters, particularly in terms of flight envelope, radiated noise, maneuverability, vibration, etc. However, further improvements can be achieved by using closed-loop fluid flow control around the machine. This strategy consists of using measurements from sensors placed on the system, to adapt, if possible in real time, the control command to impose. From a control point of view, the main interest of closed loop is to improve the robustness of the control law. In practice, the development of closed-loop control strategies is largely complicated by the highly non-linear and multi-scale nature of the turbulent flows encountered in the targeted configurations.

In order to develop efficient control strategies, various issues must be addressed. In the classical approach followed in flow control, it is indeed necessary:
1. to model the flow dynamics;
2. to estimate the state of the system from scattered and/or indirect measurements;
3. to place optimally actuators (used to introduce control) and sensors (used to reconstruct the state);
4. to determine optimally a control law.

Sujet :
Objectives.
This thesis will contribute to the development of realistic closed-loop control strategies for unsteady turbulent flows. Applications include the drag reduction around profiles (by attaching the boundary layer or delaying its separation), the reduction of radiated noise, the flow vectorization to improve the maneuverability or to remove some of the moving air spoilers, the decrease of vibrations induced by dynamic stall, etc.

Work program, methodologies and means.

We propose to develop a widely bio-inspired approach. In the living world, insects and birds develop very efficient flight control strategies by having at their disposal a minimum of sensors/actuators and without knowing a priori dynamical models. On the other hand, by interacting with their environment, they acquire information that is used as they evolve to optimize their performance. We will therefore develop an approach based solely on measurements (Data Driven), and not on a priori knowledge of physical models, and will exploit recently developed Machine Learning methods.
We will first focus our efforts on the dynamical modeling of turbulent flows based on data. For this purpose, we will make extensive use of neural networks, either deep (Deep Neural Network, DNN) or recurrent (Recurrent Neural Network, RNN). We are particularly interested in the properties of symmetry and invariance verified by the flow. A first approach will consist in imposing in the architecture of the neural models the properties of symmetry and invariance which are supposed to be verified by the system. A second approach will consist in studying the capacity of these neural models to autonomously derive these symmetry and invariance properties.
In a second step, we will revisit the data assimilation methods classically used in the literature (variational or stochastic approaches) under the prism of machine learning methods.
Finally, we will couple previously developed neural models to a Deep Reinforcement Learning (DRL) algorithm in order to determine a control strategy. Our strategies will be developed and tested on simple dynamical systems (Lorenz, Ginzburg-Landau, …) to facilitate the development and, subsequently, on a case of turbulent flow.

The funding is guaranteed for 3 years in the framework of the 80|Prime interdisciplinary project opened by the CNRS. This topic is at the heart of the CNRS Research Group “Flow Control Separations”, whose Director is Laurent Cordier (Pprime).

Profil du candidat :
Master in Fluid Mechanics / Applied Mathematics / Machine Learning. Appetite for interdisciplinary approaches and machine learning. Desire to go beyond the borders.

Adresse d’emploi :
Institut Pprime
SP2MI – Téléport 2 – Bâtiment H2
11 boulevard Marie et Pierre Curie
Futuroscope
France

Document attaché : 202003191617_Turbulent_Flow_Control_Machine_Learning_80Prime_EN-Cordier-Fablet.pdf

Categories: theses

Fri

Interactive collaborative constrained clustering for remote sensing time series analysis

May 1 – May 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ICUbe – Université de Strasbourg
Durée : 3 ans
Contact : gancarski@unistra.fr
Date limite de publication : 2020-04-31

Contexte :
Analyzing time series of remote sensing images using supervised methods requires that the classes sought be perfectly known and defined and that the expert be able to provide a learning data set that is sufficient in number and quality. Facing the difficulty of obtaining sufficient examples to efficient remote sensing time series analysis, we propose to develop an interactive method of collaborative clustering under constraints. The idea is to allow the expert to add “on the fly” constraints to guide the clustering process in order to produce clusters closer to the expert’s “intuitions” i.e. potential thematic classes. To do so, the expert will be helped by advice or proposals for new constraints issued by the method itself.

Sujet :
Nowadays, remote sensing images arrive massively and in almost continuous flow from the Sentinel constellation. This massive influx of temporal data should lead to major advances in various Earth and Environmental Science disciplines for the study and modelling of complex phenomena (agricultural or urban dynamics, deforestation, anthropogenic actions on biodiversity, etc.). Analyzing such time series using classical supervised methods requires that the thematic classes are perfectly known and defined. Unfortunately, in remote sensing domain, this assumption is not realistic. Indeed, the technological revolution of high-frequency image acquisition is still too recent for thematic knowledge to have adapted. Thus, there are currently no typologies (or nomenclatures) of changes that can really be used for this type of supervised analysis and therefore no associated quality learning data.
Faced with the difficulty of obtaining enough examples for the analysis of time series of remote sensing images, new clustering methods used constraints to guide the clustering process [1,3,4,5]. These unsupervised methods assume that this lack of knowledge can nevertheless be partially circumvented by using operable constraints (comparison, labelling or structural constraints). Such as constraints, which seem easier to define, can be used to guide the clustering process in order to produce clusters that are closer to the “intuitions” of the expert, i.e. potential thematic classes. In our team, we have developed SAMARAH an innovative method of collaborative interactive clustering under constraints [2] which allows the expert to add “on the fly” constraints.
Unfortunately, select new relevant constraints (object to be labelled, new constraint to apply…) that have positive impact on the current result, is often very difficult for the expert. Indeed, to define new constraints, the expert uses almost exclusively a visualization of the scene. Experiences have shown that, on the one hand, the expert focused on relatively large regions of the image and, on the other hand, he had no way of knowing whether the constraints he proposed were consistent with each other and relevant a priori. In fact, selecting new information is an important scientific lock, especially since it is essential to optimize the use of this new information from the expert. Indeed, if he does not see a rapid improvement of the solution following his help, he will quickly lose confidence in the system. But, paradoxically, the potential disruptions of the current solution should be limited in order not to disorient the expert. To this end, the expert must be assisted by advice or proposals for new constraints issued by the method in an active way [6,7].
The objective of this PhD is to study and implement mechanisms to propose potentially relevant constraints. This can be done, for example, by using differences in results due to the heterogeneity of methods in SAMARAH or by using a complexity measure, for example, based on trees of minimal weight to identify points at the boundaries between clusters and use them to define constraints.

Profil du candidat :

The positions are offered to both foreign and French students who hold a Master degree in computer science.

Formation et compétences requises :
The candidate must have good skills in data analysis and more particularly in supervised or unsupervised classification of time series. Skills in remote sensing image analysis is welcome.

Adresse d’emploi :
ICube
Pôle API – 300 bld Sébastien Brant
67400 Illkirch

Document attaché : Sujet_CNES_2020ENG.pdf

Categories: theses

Fri

Extraction de connaissances à partir de grands graphes spatio- temporels – application à hydroéco

May 15 – May 16 all-day

Offre en lien avec l’Action/le Réseau : AGEE/– — –

Laboratoire/Entreprise : ICube Strasbourg
Durée : 3 ans
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2020-05-15

Contexte :
Valoriser les grandes masses de données spatio-temporelles disponibles en Sciences de l’environnement est crucial. Ceci nécessite de concevoir et développer de nouvelles approches innovantes aptes à traiter conjointement les aspects spatiaux et les aspects temporels, ce qui n’est que peu le cas avec les méthodes actuelles. Si les graphes, outils puissants à la fois théoriquement et méthodologiquement, sont utilisés pour modéliser des phénomènes temporels ou spatiaux, les méthodes actuelles de fouille, d’analyse et d’extraction de connaissances n’exploitent, en général, qu’une seule dimension de l’information, spatiale versus temporelle. Cela implique souvent une perte de précision et possibilité d’interprétation des résultats. Notre équipe travaille depuis de nombreuses années en collaboration avec des hydro-écologistes sur l’évaluation de la qualité des hydro-écosystèmes. Ce travail a été l’objet de plusieurs projets, dont le projet ANR Fresqueau 2011-2015 (engees-fresqueau.unistra.fr). Nous travaillons également en étroite collaboration avec le SERTIT (Service Régional de Traitement d’Image et de Télédétection, sertit.u-strasbg.fr), dont le but est de produire de l’information géographique à partir des images satellites. Cette collaboration a également fait l’objet de plusieurs projets comme par exemple le projet R&T A2CNES (2017-2018) financé par le CNES. Au travers de ces différentes collaborations, nous avons pu manipuler et fouiller des données nombreuses et variées, tant en termes d’informations apportées de que formats de données. Afin d’extraire des connaissances pertinentes de ces données, en combinant à la fois les aspects spatiaux et temporels, nous nous intéressons maintenant au modèle des graphes spatio-temporels.

Sujet :
L’objectif général de la thèse est d’étudier et développer des techniques pour extraire des connaissances à partir de grands graphes spatio-temporels. Différentes questions devront être abordées de manière itérative.
• Simplification : les graphes étant de grande taille, il sera nécessaire de les simplifier (par exemple, regrouper des sommets dans un super-sommet représentant l’évolution globale de cet ensemble de sommets) ou de les segmenter, sur une base experte, pour réduire leur taille et les exploiter ou les visualiser plus facilement.
• Recherche de motifs : il s’agira de rechercher des motifs spatio-temporels définis par un expert (par exemple une évolution temporelle typique de l’urbanisation pour un ensemble de parcelle voisines) ou faire apparaître des répétitions fréquentes dans un ou plusieurs graphes. La recherche de motifs pourra se faire de manière inexacte, en s’appuyant sur des distances d’édition de graphes et/ou sur des méthodes de recherche récursives.
• Synthèse interprétable : il s’agira de coupler recherche de motifs et analyse sémantique afin de synthétiser un graphe spatio-temporel par un graphe de motifs étiquetés, représentatifs de phénomènes intéressant l’expert.
• Généralisation : dans le graphe initialement simplifié, chaque sous-graphe correspondant à un motif pourra être analysé par les méthodes développées pour finalement obtenir une hiérarchie de graphes-motifs permettant de visualiser de plus en plus finement les phénomènes ayant eu lieu.
En conclusion, le pipeline générique développé visera à répondre à des problématiques actuelles liées à la valorisation de grandes masses de données spatio-temporelles en télédétection et hydroécologie.

Profil du candidat :
Master 2 en Informatique ou diplôme d’ingénieur dans ce domaine

Formation et compétences requises :
Formation en logique, graphes et programmation
Curiosité, capacité à appréhender différents domaines et à interagir avec les experts de ces domaines

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex

Document attaché : 202003201005_Desc ED DIR – i – LeBer Leborgne Marc-Zwecker.pdf

Categories: theses

Mon

[PhD position] [Univ. Côte d’Azur] Artificial Intelligence-based cloud network control

May 25 – May 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CNRS / I3S
Durée : 3 ans
Contact : raparicio@i3s.unice.fr
Date limite de publication : 2020-05-25

Contexte :
This thesis is part of the ANR ARTIC project (ARTificial Intelligence-based Cloud network control, cf. http://www.i3s.unice.fr/~raparicio/project/artic/), of which Ramon APARICIO PARDO is the principal investigator. This project will provide the candidate with the funds and resources necessary for their activities (participation in scientific events, equipment, computer, access to computing platforms, etc.)

The thesis will take place in the I3S laboratory (http://www.i3s.unice.fr/), a joint public research laboratory resulting from the collaboration of the CNRS, Univ. Cote d´Azur and INRIA. The I3S laboratory is one of the most important research laboratories in information and communication sciences in the French Riviera and was one of the first to settle in the science and technology park of Sophia Antipolis. It brings together just under 300 people.

The student will work with experts in optimization, machine learning and telecommunications networks from the I3S and INRIA.

The recruitment procedure is likely to be impacted by government measures linked to the Covid-19 pandemic.

Sujet :
By 2021, cloud IP traffic will be the most part of an Internet traffic that complexifies with an increasing devices diversity and traffic dynamicity. A proposal framed at the cloud to face this situation is the Knowledge Defined Networking (KDN), where Machine Learning (ML) and Artificial Intelligence (AI) are combined with SDN/NFV and network monitoring to collect data, transform them into knowledge (e.g. models) via ML, and take decisions with this knowledge. Under this paradigm, we aim to design a unified AI-based framework able to learn new efficient cloud network control algorithms. This framework will integrate seamlessly data-driven control (based on ML tools) and model-driven control (based on optimization models), addressing scalability and optimality issues of the cloud control. To do that, we intend to apply two promising AI tools: Deep Learning (DL); and, Reinforcement Learning (RL). You can find more information on this thesis subject on the ARTIC project site: http://www.i3s.unice.fr/~raparicio/project/artic/.

Profil du candidat :
⁃ Master’s degree, engineer or equivalent (ISCED level 7 according to UNESCO) in computer science / mathematics / telecommunications

Formation et compétences requises :
⁃ Machine learning and data science (namely artificial neural networks)
⁃ Classical optimization theory (convex optimization, combinatorial optimization)
⁃ Computer network control plane (algorithms and protocols)

Adresse d’emploi :
2000, route des Lucioles, 06900 Sophia Antipolis (France)

Document attaché : 202005251740_PhD_position_ARTIC.pdf

Categories: theses

Fri

Correction des biais dans le cadre de la modélisation de l’impact d’actions

May 29 – May 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Orange Labs Lannion
Durée : 3 ans
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2020-05-29

Contexte :
*Contexte de travail de la thèse*

– Orange Labs Lannion (Orange Labs est la division recherche et
développement du groupe Orange)
Equipe d’accueil (industriel): PROF (Profiling & Datamining)
Vous serez dans l’équipe de traitement statistique de l’information d’Orange Labs Lannion. Cette équipe spécialisée en machine learning, data mining et profiling, comporte une vingtaine de permanents, sur des sujets allant de la recherche aux applications opérationnelles, ainsi que 5 doctorants et post-doc.

*Directeur de Thèse (industriel)* :
Nicolas Voisine – nicolas.voisine@orange.com

*Laboratoire Universitaire d’accueil et Directeur de Thèse universitaire :*
GREYC CNRS UMR 6072
Bruno Crémilleux – bruno.cremilleux@unicaen.fr

*Début de la Thèse :* 2ème semestre 2020

*Mots clés* :
Classification, fouille de données, adaptation de domaine, Uplift

Sujet :
*Contexte global de la thèse*

La modélisation de l’Uplift, également connue sous le nom de individual treatment effect (ITE), est une technique de modélisation prédictive qui modélise directement l’impact incrémental d’un traitement sur le comportement d’un individu. Les applications sont multiples : gestion de la relation client pour la modélisation d’action de marketing direct, médecine personnalisée, publicité, élections politiques. Les modèles d’Uplift aident à identifier les groupes de personnes étant susceptibles de répondre positivement à une sollicitation marketing ou à un traitement médical.

Plus généralement, un modèle d’Uplift est un moyen de prédire, avec un certain taux d’erreur, l’impact d’un traitement sur le comportement de quelqu’un. Par exemple connaître la probabilité de changement de comportement d’un groupe de personnes après un contact. On comprend aisément l’intérêt de tels modèles pour un opérateur tel qu’Orange. Ça lui permettrait de comprendre et d’améliorer sa relation avec ses clients.

L’Uplift est caractérisé par des éléments clefs :
– une population d’intérêt et sa description (par exemple des variables descriptives des individus et/ou de leurs comportements passés) ;
– un delta qui résulte d’une mesure entre le résultat obtenu entre la présence ou l’absence d’un contact (par exemple Orange contacte ou pas le client) ;
– une modélisation : prédire la différence de comportement entre contact ou pas.

Une des difficultés inhérente à l’Uplift réside dans le fait que les données ne sont “étiquetées” que partiellement. Ainsi, il est impossible de savoir si le traitement choisi est optimal pour un sujet donné parce que les réponses aux traitements alternatifs ne sont pas observées. Une autre difficulté, liée à la prédiction, réside dans le fait qu’en pratique les données sont biaisées :
– les données de traitement et non traitement de l’ensemble d’apprentissage peuvent être différents ;
– les données d’apprentissage du modèle sont différentes de celles où le modèle est appliqué.

*Etat de l’art et verrous*

Dans le domaine de l’optimisation des traitements on expérimente en respectant un plan d’expérience des traitements pour choisir au mieux celui qui maximise un critère de performance. On retrouve ces techniques d’optimisation dans de nombreux domaines pour faciliter la prise de décision : bancaire, marketing, médical, sociologie et e-business. Ces techniques permettent de choisir le traitement optimal pour la population testée avec une certaine garantie statistique. Ces techniques recherchent à comparer l’expérimentation à des résultats alternatifs, on parle alors d’étude contrefactuelle ([7]).

Dans la littérature plusieurs études ont permis de répondre aux défis de la modélisation de l’Uplift. L’Uplift a d’abord été modélisé dans le cas du bi-traitement ([1][2]) puis en multitraitement [4]. D’autres travaux ont étudié l’évaluation des modèles d’Uplift ([3]).

Cependant 2 aspects primordiaux pour répondre à des problèmes opérationnels n’ont pas été suffisamment étudiés et restent des verrous :
– le premier provient du fait que l’Uplift devrait être modélisé sur des données expérimentales, c’est-à-dire des données dont leur génération est maîtrisée et pour lesquelles il n’y a pas de biais entre les données issues de différents traitements. Or, en pratique, on constate que les données sont de nature observationnelles et qu’il y a un biais, ce qui rend inopérantes les méthodes de modélisation d’Uplift. Pour exemple, la non réponse à un appel commercial amène un biais par rapport à ceux qu’on n’appelle pas.
– le second aspect vient du biais entre les données d’apprentissage et les données de déploiement. L’hypothèse classique est qu’il n’y a pas de biais. Or en pratique, il y a toujours un biais entre ces données. Pour exemple, les données de juin pour l’apprentissage différent des données de septembre pour utiliser le modèle.

Différents travaux s’approchent de ces problématiques :
– un axe de recherche concerne le mode batch de la modélisation, il est fondé sur le champ de recherche de l’adaptation de domaine ([6]) et de l’approche causale ([7]) ;
– un autre axe concerne le champ de recherche de l’apprentissage par renforcement ([5]).

*Objectifs de la thèse et travail*

L’objectif général de cette thèse est de spécifier, réaliser, étudier et évaluer un algorithme d’apprentissage d’Uplift prenant en compte le biais des données d’apprentissage et de déploiement. Cet algorithme aura des capacités d’apprentissage automatiques sur de grandes bases de données tout en ayant de très bonnes performances sur de petits échantillons.

La thèse apportera des contributions sur la modélisation de l’Uplift suivant deux axes majeurs et peu étudiés à ce jour :
– construire un modèle d’Uplift en prenant en compte le biais de traitement
– le domaine source qui sert à l’apprentissage peut différer sensiblement du domaine cible ou l’on veut appliquer le modèle. Construire un modèle qui s’adaptera à la modification de domaine sera un apport fort pour l’application réelle des modèles d’Uplift.

D’autre part, le nombre de variables pour modéliser l’Uplift est potentiellement très grand (plusieurs dizaines de milliers). Il conviendra d’étudier les algorithmes qui pourront prendre un nombre important de variables.

Orange Labs a développé l’outil KUplift pour répondre à la modélisation de l’Uplift sans biais. Nous souhaitons étendre cet outil en y ajoutant la prise en compte des biais tout en gardant des capacités d’apprentissage automatiques sur de grandes bases de données.

Profil du candidat :
Le profil souhaité est BAC + 5, école d’ingénieur ou Master Recherche informatique et/ou statistiques et/ou mathématiques appliquées.

– le ou la doctorant(e) devra avoir une bonne connaissance des statistiques et des mathématiques.

– il ou elle devra posséder de bonnes capacités à réaliser un travail approfondi de bibliographie.

– une bonne expérience du développement est requise (python, c++ ou java).

– des connaissances en apprentissage statistique sont un réel plus.

Formation et compétences requises :
Cf. partie “Profil du candidat”

Adresse d’emploi :
*Financement* :
Thèse Ciffre Orange Labs. Lannion.

*Pour candidater* :

1- Déposer votre cabdidature à :
https://orange.jobs/jobs/offer.do?joid=90913&lang=FR

2- *ET* envoyer in dossier de candidature complet contenant :
– un CV détaillé,
– une lettre de motivation,
– un relevé de notes avec classement (Licence, M1 et M2),
– le rapport de stage de master ou de fin d’étude (à défaut un rapport de stage rédigé par le candidat),
– lettres de recommandation ou personnes de références.

Ce dossier de candidature complet doit êtreau format pdf et est à envoyer à :
Nicolas Voisine – nicolas.voisine@orange.com
Bruno Crémilleux – bruno.cremilleux@unicaen.fr

*Date limite de candidature* :
Les candidats sont invités à prendre contact le plus tôt possible.

Categories: theses

Espace multimodal pour la génération et la justification de liens sémantiques entre documents

May 29 – May 30 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA
Durée : 3 ans
Contact : guig@irisa.fr
Date limite de publication : 2020-05-29

Contexte :
La thèse s’inscrit au sein de l’équipe LINKMEDIA de l’IRISA dans le contexte du projet collaboratif « Compréhension automatique multimodale du langage pour de nouvelles interfaces intelligentes de médiation et de transmission des savoirs » (ANR ARCHIVAL) impliquant Orange Labs, la Fédération des Maisons des Sciences de l’Homme (FMSH) et le Laboratoire Informatique & Systèmes (Aix-Marseille Univ.). L’équipe LINKMEDIA regroupe des chercheurs en analyse automatique de contenus multimédias, en traitement automatique des langues, en apprentissage de représentations multimodales et en recherche d’information multimédia.

Sujet :
La thèse vise à proposer des techniques d’apprentissage d’espaces sémantiques multimodaux permettant d’établir des liens intra et inter-documents au sein de collections hétérogènes (textes, images et vidéos) à des fins de recherche et d’exploration d’archives. Elle s’attachera notamment à proposer des espaces permettant de fournir à un utilisateur une explication de la relation établie.

Dans un premier temps, on s’intéressera à l’apprentissage de représentations multimodales. On cherchera notamment à étendre l’approche proposée par Vukotić et al. (2018) en développant des techniques adaptées à la tâche d’exploration d’une collection hétérogène. Seront mises en œuvre des approches end-to-end permettant d’apprendre directement une mise en relation combinant plusieurs modalités (e.g., Nguyen et al., 2017). Ces approches combineront directement apprentissage des représentations des modalités, de la représentation multimodale et de la métrique dans ce dernier espace pour prédire l’existence d’un lien et sa pertinence, indépendamment des modalités mises en relation. Ces approches end-to-end permettront notamment l’adaptation du modèle, et donc des liens proposés pour explorer une collection, en fonction des intérêts de l’utilisateur mesurés à travers son parcours de navigation.

Dans un second temps, on s’attachera à favoriser l’explicabilité des liens créés. On cherchera donc à étendre les modèles end-to-end proposés pour comprendre la relation entre images, vidéos et textes, à l’instar des travaux récents en image captioning ou en visual query answering (e.g., Xu et al. 2015). On étudiera pour cela des mécanismes d’attention mettant en évidence les éléments qui justifient la mise en relation (Luong et al., 2015 ; Vaswani et al., 2017). Un verrou scientifique qu’il faudra lever pour cela est la combinaison de modèles de surface et de modèles syntaxiques dans une approche neuronale pour pouvoir focaliser l’attention sur le bon niveau du texte. On cherchera notamment à étendre les modèles d’attention classiques, applicables aux représentations de surface, de manière à intégrer des informations linguistiques à plusieurs niveaux (syntaxe, sémantique).

Profil du candidat :
La candidate ou le candidat devra posséder de solides connaissances dans le domaine de l’apprentissage profond et avoir une appétence pour le traitement automatique des langues.

Formation et compétences requises :
Références

Phuong Anh Nguyen et al. Vireo@ trecvid 2017: Video-to-text, ad-hoc video search and video hyperlinking. In Proc. TRECVID Workshop, 2017.

Vukotić, V., Raymond, C., Gravier, G., A Crossmodal Approach to Multimodal Fusion in Video Hyperlinking. IEEE Multimedia 25(2):11-23, 2018.

K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In Proc. Intl. Conf. on machine learning, 2015.

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need. In Proc. Advances in Neural Information Processing Systems, 2017.

T. Luong, H. Pham, and C. D. Manning. Effective approaches to attention-based neural machine translation. In Proc. Intl. Conf. on Empirical Methods in Natural Language Processing, 2015.

Adresse d’emploi :
IRISA
Campus de Beaulieu
Rennes
http://www.irisa.fr

Document attaché : 202003121516_PhD Archival.pdf

Categories: theses

Sat

Etude et conception d’algorithmes temps réel pour l’analyse d’un signal d’onde de Pouls pour la caractérisation de la Rigidité Artérielle

May 30 – May 31 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : Laboratoire LIASD (Univ. Paris 8) / Société AXELIFE
Durée : 3 ans
Contact : mehdi.ammi@univ-paris8.fr
Date limite de publication : 2020-05-30

Contexte :
Contexte administratif :
Thèse CIFRE entre la société AXELIFE et l’Université de Paris 8

Contact : mehdi.ammi@univ-paris8.fr

Contexte technique :

Insuffisamment diagnostiquée, traitée ou contrôlée, l’hypertension artérielle (HTA) est un facteur majeur de risque cardiovasculaire (RCV). Elle provoque aussi une rigidité artérielle (RA), un puissant indicateur de risque cardiovasculaire (RCV), indépendant des autres facteurs de risque.
Par ailleurs, la pression exercée sur les artères par l’HTA altère leur structure. Les artères deviennent ainsi rigides, plus épaisses et perdent leur capacité à se dilater. Ces transformations sont similaires à celles observées au cours du vieillissement. L’HTA conduit donc à un vieillissement prématuré des artères et à un manque d’oxygénation des organes, avec des complications comme l’infarctus du myocarde, l’accident vasculaire cérébral ou l’insuffisance rénale.
Ce vieillissement prématuré s’accentue lorsque d’autres facteurs de risque comme le tabagisme, le cholestérol élevé ou le diabète se combinent à l’HTA. Cependant, les personnes ont une sensibilité différente aux facteurs de risque, et seule l’étude de l’ensemble de ces facteurs, corrélés à l’âge, permet d’évaluer plus objectivement l’état de santé artérielle d’un individu. D’où l’importance de mesurer la rigidité artérielle, un paramètre évaluant directement l’état de santé artérielle et qui reflète en même temps l’état des organes et la présence de lésions comme des plaques d’athérome au niveau carotidien.
De nombreuses études montrent que la mesure de la RA a une valeur prédictive puissante de risque cardiovasculaire et de mortalité, et que cette valeur est indépendante des autres facteurs de risque classiques comme l’âge, le taux de cholestérol, le diabète, le tabagisme ou la pression artérielle moyenne. Autrement dit, la rigidité artérielle est peu influencée par les facteurs de risque classiques tandis que ces derniers peuvent affecter différemment les individus. Ainsi, la RA permet d’évaluer de façon fiable le RCV, notamment chez les patients considérés comme à risque faible ou moyen par les examens habituels.
La mesure de la rigidité artérielle se fait par le calcul de la vitesse de propagation de l’onde de pouls (VOP) qui évalue le temps de propagation de cette onde entre l’artère carotide et l’artère fémorale à l’aide de capteurs mécanographiques.
Cependant, jusqu’ici, la mesure de la RA nécessitait un matériel coûteux et du personnel formé. De plus, pour réaliser l’examen, le patient doit se déshabiller pour l’application de deux sondes sur les artères fémorales et carotides. Bien qu’il s’agisse de méthodes de référence, leur coût et mode d’emploi limite leur utilisation aux centres de recherche dans la majorité des cas.
Fruit de plusieurs années de recherches au sein de la société Axlife, iHeartWatch est un dispositif portable de type bracelet qui vise à proposer une mesure fiable, rapide et facile de la RA. La méthode est non invasive et peut se faire au cabinet des médecins de ville sans nécessité de déshabiller le patient. Le diagnostic peut ainsi être fait en quelques secondes d’une manière complètement automatique.

Sujet :
1. Objectif

Ce projet a pour objectif d’étudier et de développer des outils de traitement automatique exploitant une mesure d’onde de Pouls générée avec le bracelet connecté iHeartWatch développé par la société Axelife. L’enjeu est de pouvoir générer un diagnostic clinique fiable sur la rigidité artérielle du patient à partir de capteurs externes et non invasifs positionnés sur le bras du patient. Le projet implique à la fois l’étude et l’élaboration d’approches de traitement automatique innovantes et spécifiques au contexte du bracelet iHeartWatch (onde de Pouls, dispositif porté, etc.), mais également des expérimentations terrains afin d’étudier la qualité du diagnostic avec des patients dans la vie quotidienne.

2. Problématiques

Avoir accès, de manière non-invasive avec un bracelet connecté iHeartWatch, à l’onde de Pouls présente de nombreuses problématiques. L’enjeu est de pouvoir extraire de manière fiable, à partir de capteurs externes et non invasifs positionnés sur le bras du patient, un signal de qualité suffisant pour permettre un diagnostic clinique fiable. Comme les signaux cardiaques sont de nature non stationnaire, ils sont parfois transitoires et très sensibles aux bruits à cause des conditions d’auscultation, d’acquisition, de numérisation et de transmission.
L’analyse automatique de ce signal n’est pas simple du fait de la variabilité des enregistrements d’un patient à un autre et de leur variabilité interne, en fonction de l’état moteur du patient (au repos, en mouvement, etc.), de son état physiologique (pression artérielle, etc.), voire de son état psychologique (stress, dépression, etc.). Qui plus est, l’expertise médicale est souvent complétée par l’analyse de l’histoire clinique du patient.
Le canal de transmission peut également introduire des évanouissements de données (ou fading en Anglais). Ainsi, il est possible que quelques paquets de données soient perdus. Dans ce cas, il faut une méthode pour récupérer ces données perdues.
La complexité de calcul est une problématique importante dans ce projet. En effet, les limites des systèmes embarqués (calcul, mémoire) et le modèle économique de la société (ex. coût du calcul dans le cloud) nous poussera à étudier de nouvelles architectures et à élaborer des approches hybrides cloud-système embarqué.
Enfin, la qualité du diagnostic généré par le bracelet iHeartWatch doit être abordée sur terrain dans le cadre de la vie quotidienne des patients. L’objectif est d’évaluer la qualité du diagnostic (robustesse, précision, etc.) dans un environnement non contrôlé et en fonctions des nombreuses situations rencontrées par les patients.

3. Méthode

Le projet débutera par une étude détaillée de l’état de l’art des principales approches de traitement des signaux et d’apprentissage automatique utilisées pour analyser les signaux cardiaques. Nous nous intéresserons particulièrement à l’ECG dont les caractéristiques sont proches à l’onde de Pouls. Cette étape vise à exploser l’intérêt et les limites des méthodes classiques pour l’analyse des signaux cardiaques à travers une série d’expérimentations et d’études comparatives.
Nous nous intéresserons par la suite à l’étude, l’expérimentation et la mise en place de l’architecture de traitement pour la génération du diagnostic médical.
La première étape concernera l’étude des prétraitements à appliquer sur le signal d’onde de Pouls afin de le rendre exploitable pour la suite des opérations. Cette étape abordera aussi bien la réduction des bruits que la mise en forme du signal. Nous nous intéresserons aux outils de filtrage conventionnels [Yaghouby et al. 2010], mais également aux méthodes plus complexes comme des filtres qui s’adaptent au signal, la transformée en ondelettes ou encore les méthodes se fondant sur l’analyse de l’intervalle [Kohler et al. 2002] [Kara & Okandan 2007] [Blanco-Velasco et al. 2008] [Kim et al. 2009].
La deuxième étape du projet concernera l’exploitation des approches d’apprentissage automatique afin 1) d’identifier les signaux exploitables ; 2) d’extraire les paramètres relatifs à la rigidité artérielle (vitesse de Pouls, etc.) ; et 3) d’établir un diagnostic relatif à la santé cardiovasculaire du patient. Cette étape devra prendre en considération de nombreuses problématiques telles que la variabilité intra et inter-individuelle, l’activité motrice (marche, sommeil, etc.) et son contexte, l’influence d’autres paramètres physiologiques, les pertes de données, ou encore l’optimisation et la distribution des calculs (cloud-système embarqué). Nous aborderons différentes approches allant des méthodes de classification classiques nécessitant l’analyse des descripteurs [Rabee & Barhumi 2012], à des approches d’apprentissage profond exploitant les signaux bruts [Jambukia et al. 2015] permettant un apprentissage automatique de réprésentation adéquate à ce problème. Nous nous intéresserons également aux techniques d’apprentissage par renforcement afin d’élaborer des modèles qui s’adaptent au profil du patient voire à son état physiologique ou moteur à un moment donné [De Bois et al. 2018]. La prise en compte de l’activité motrice du patient nécessitera la mise en place d’un outil de reconnaissance d’activité contextualisée [Amroun & Ammi, 2018]. L’imperfection des données, notamment des signaux capteurs, sera étudiée en abordant différentes théories qui permettent la modélisation des imperfections (probabilité, croyance, etc.) [Bouguelid, 2017]. Nous nous intéresserons par ex. à la théorie de Dempster Shäfer que nous avons étudiée et expérimentée avec succès dans des domaines proches [Napoli & Barnes, 2016]. Enfin, l’optimisation de l’architecture de traitement sera un problème particulièrement étudié tout au long de cette étape. Nous aborderons à la fois des approches d’optimisation classiques, mais également les approches génétiques qui ont montré leurs intérêts dans la réduction des coûts de calcul tout en maintenant la qualité des modèles [Karpagachelvi, 2014].
La dernière étape du projet concernera l’étude et la validation terrain des outils développés. L’objectif de cette étape est double. Premièrement, confronter le modèle de traitement développé à un usage réel des patients et des médecins. En effet, les variabilités des comportements dans les différents contextes de la vie quotidienne permettra de tester la robustesse et la flexibilité des traitements. Ces études permettront de faire évoluer les outils pour tenir compte de nouvelles variables. Nous nous intéresserons également à la présentation de l’information aux médecins afin de proposer un outil de visualisation adapté et utile. Le deuxième objectif de cette étape sera d’étudier la qualité du diagnostic de l’outil final afin de présenter des résultats en vue d’un projet de certification du dispositif. Cette étude s’appuiera sur un benchmark visant à comparer notre outil aux méthodes conventionnelles.

Profil du candidat :
• Compétences théoriques et pratiques avancées en Machine Learning (développement d’architectures, optimisation, déploiement de solutions, TensorFlow, etc.)
• Maîtrise des environnements de développement en ML : tensorflow / scikit learn / keras
• Bonnes bases en traitement du signal (filtrages, analyses fréquentielles et temporelles, etc.)
• Maîtrise de la programmation (Python/C/C++/JAVA)

Formation et compétences requises :
Master en IA ou sciences des données
Master en Informatique avec modules en IA

Adresse d’emploi :
Univ. Paris 8
2 rue de la Liberté, Saint Denis

Document attaché : These_CIFRE.pdf

Categories: theses

Mon

Learning visual texture features for inverse procedural modeling and texture synthesis by example

Jun 1 – Jun 2 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : ICube UMR 7357, Université de Strasbourg, CNRS, France
Durée : 3 years
Contact : remi.allegre@unistra.fr
Date limite de publication : 2020-06-01

Contexte :
By-example texture synthesis aims at generating and editing visual textures similar to input texture samples, the former being larger than the latter, or of the same size depending on the applications. The two prominent approaches are procedural modeling and data-driven texture synthesis. Procedural approaches seek to represent textures by a mathematical model, whereas data-driven techniques rely on the matching of pixel neighborhoods or global image statistics on pixel intensities or filter responses. Inverse procedural modeling from arbitrary examples is a scientific bottleneck. It stems from a lack of image analysis tools tailored for the decomposition of the various visual texture features, especially structure and noise at multiple scales.

Sujet :
The goal of this thesis is to devise novel unsupervised or semi-supervised methods to learn visual texture features in the context of inverse procedural modeling and by-example texture synthesis. Particular attention will be paid to challenging heterogeneous textures exhibiting complex structures. The developed approach will be inspired by representation learning, with a focus on image factorization and attribute learning. Two fields of applications will be considered: texturing of virtual 3D environments and data augmentation for the training of models in histopathological slide image analysis.

Profil du candidat :
The position is offered to both foreign and French students who hold a Master degree in computer science.

Formation et compétences requises :
– Data science and/or computer graphics or image processing
– Basic skills in machine and deep learning
– Knowledge in texture synthesis is a plus

Adresse d’emploi :
ICube UMR 7357
300 bd Sébastien Brant
F-67412 Illkirch
France

Document attaché : Sujet_de_these_IA_Dischler_2020_EN.pdf

Categories: theses

ONERA PhD

Jun 1 – Jun 2 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : ONERA (DEMR)
Durée : 3 ans
Contact : guillaume.ginolhac@univ-smb.fr
Date limite de publication : 2020-06-01

Contexte :
Keywords: Interferometric SAR, Geoscience, statistical signal processing, robust signal processing, optimization.

Thanks to the Sentinel-1 satellite mission, the European Space Agency (ESA) is able to provide a new SAR image of Europe every 6 days. The availability of such image time-series (ITS) offers an unprecedented opportunity to monitor surface displacement through interferometric SAR (InSAR). On the other hand, developing new algorithms to efficiently process such a huge volume of data represents a current challenge. Among existing methods, statistical learning approaches have exhibited good performance, as they allow to measure displacements in the order of mm/year. Notably, the phase triangulation based on a maximum likelihood estimator (PTML) [1, 2], allows for obtaining an optimal displacement estimation while exploring all of the dimensions (spatial and temporal) in a SAR image stack. Thus, it provides an appealing mathematical framework that currently drives many recent research works. Indeed, the PTML approach still raises issues that are to be addressed. In this thesis, we aim to tackle two of the major ones:
• Robust formulation: The PTML relies on a statistical modeling of the data that has to accurately reflect the empirical distribution. Most studies assume that the observations are Gaussian. However, it is known in SAR imagery that the orbital and/or atmospheric residues, as well as the unmodeled deformation, impose a non-Gaussian noise in the data at high resolution. In this context, the framework of robust estimation [3, 4] is an appealing alternative, as it ensures good performance even in the case of mismodeling. We propose therefore to leverage this framework for developing robust counterparts of the PTML algorithms. This will require to develop optimization algorithms adapted to robust cost functions involving structured parameters (i.e., integrating the physical model of the data), e.g. by adopting the methodology of [5].
• On-line integration: The current formulation of the PTML does not allow near-real-time integration of new images acquired gradually over time. The process requires inherently to re-run the whole algorithm at each new incoming image. This is thus computationally expensive in practice and not fully suited to on-line monitoring. Recent works [6] addressed the issue through data compression from mini-batches. However, the current algorithm is neither robust to non-Gaussian observations nor to several temporal decorrelation mechanisms. To cope with these issues, we will also consider an on-line formulation of the robust algorithms that will be developed in this thesis.

Sujet :
In this Ph.D thesis, we propose to develop robust and on-line algorithms for InSAR time-series in the context of surface displacement monitoring. The work program is structured around 2 axes: i) development of robust algorithms; ii) on-line integration (cf. points above). The methods developed in this Ph.D thesis will be applied to SAR image time-series of the Merapi volcano in Java. This area was chosen as a specific target for the V0-2 Trial Case on volcanoes by ESA and monitored by Sentinel-1 every 12 days since April 2017. The comparisons between the proposed algorithms and those from the research group at ISTerre will serve as validation.

Profil du candidat :
The candidate must have good knowledge and solid skills in mathematics and statistics. Programming skills (python or matlab) are also necessary. Knowledge and experience in SAR imagery will be highly appreciated. The thesis is fully financed by ONERA, which requires a clearance only attributed to European candidates. Applicants must send via e-mail to frederic.brigui@onera.fr, guillaume.ginolhac@univ-smb.fr,yajing.yan@univsmb.fr a CV as well as a transcript of the last year study.

Formation et compétences requises :
Master in remote sensing, data sciences, signal / image processing, or applied mathematics.

Adresse d’emploi :
The thesis will be held at ONERA, DEMR, Palaiseau, France. Regular visits at Univ. Savoie Mt Blanc, Annecy, will also be planned.

Document attaché : PhD_proposal_InSAR.pdf

Categories: theses

Schema Profiling of Massive Nested Key-Value Data and its Application to Effective Machine Learning

Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAMSADE, Université Paris Dauphine
Durée : 36 mois
Contact : dario.colazzo@dauphine.fr
Date limite de publication : 01-06-2020

Contexte :
Nested Key-value data like JSON are very popular as they allow for overcoming the rigidity of relational databases by adopting flexible, schema-less models. This flexibility is a desirable property, especially when data is produced by uncontrolled sources, but it also complicates the processing and the analysis of data due to their variable structure. Major NoSQL systems like MongoDB [11], Couchbase [3], Apache Drill [1] and Spark [4] already adopt some schema extraction mechanism to reveal the structure of the data when it is loaded. However, the extracted schemas are purely structural and do not allow for expressing richer semantic constraints such as correlations or dependencies. At the same time, several machine learning framework [10, 5] support nested-value data formats for submitting training data.

In the literature, there has been some attempts for profiling relational data as witnessed by a recent survey [6]. In the context of JSON, data profiling is in its infancy and the only few approaches require to flatten the data before applying standard classification or clustering techniques devised for relational data [9] and [8]. Moreover, scalability is not addressed although JSON datasets are expected to be large and running classification or clustering algorithms may be prohibitive. Recently, Couchbase introduced a schema extraction module for classifying JSON documents based on their structure [3] using a kind of decision tree like in [9]. However, there is no clear understanding of the semantics of their classification approach since no formal documentation is available.

Sujet :
The first goal of this PhD project is to devise and study techniques for extracting constraints in a distributed fashion over large JSON datasets. A possible direction is to investigate the use of the distributed schema inference approach developed in [7] which allows for extracting statistical information about the structure of JSON datasets, by extending it in several directions, just to mention some of them : counting enumeration, constraints and statistics on simple values contained in records and arrays, tuple types and set operators like difference.

The second goal is to study means to exploit informative schemas for optimizing the data preparation phase of machine learning pipelines. This phase is acknowledged to raise a big challenge since extracting relavant features and transforming them in a way that is suitable for the target algorithm requires a good understanding of the underlying data. Without such an understanding, it is impossible to write complete extraction programs that account for all possible issues that can arise in the data like an incompatibility in the type or in the structure of data.
The third goal is to use of informative schemas for data exploration purposes. The idea is to guide users while formulating their queries for expressing meaningful feature extraction programs but also to inject some constraints expressed in the schema into the inference process itself.

Profil du candidat :
The current project lies in the intersection of three majors domains: data management, machine learning and type theory. Good proficiency in one these domains is sufficient but in general the candidate is expected to have good modeling and programming skills. The language of choice is usually one of: Java, Scala or Python. A good proficiency of database internals and systems in the Hadoop echo-system and in the Tensor Flow framework is desirable. The expected outcome of the thesis consists of both formal material and system development. Our goal is to apply the solutions of the problems described above in main- stream frameworks for shared-nothing parallelism and distribution like Apache Spark [4] or Apache Flink [2] but also for more specific systems like MongoDB [11] and Couchbase [3], when applicable. This entails that a study of recent approaches for optimizing JSON representation and storage in such frameworks to be carried on.

Formation et compétences requises :
Master Degree in Computer Science or equivalent degree.

Adresse d’emploi :
LAMSADE, Université Paris Dauphine
Contacts :
dario.colazzo@dauphine.fr
mohamed-amine.baazizi@lip6.fr

Document attaché : 202004271358_Thesis-PSL-2020.pdf

Categories: theses

Sat

Intention-based Configuration of Information and Communication Components for Industry 4.0 Applicati

Jun 6 – Jun 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CEDRIC, CNAM
Durée : 3 ans
Contact : stage.isid-mim@cnam.fr
Date limite de publication : 2020-06-06

Contexte :
Full Title: Intention-based Configuration of Information and Communication Components for Industry 4.0 Applications

This PhD thesis is a cross-fields research project between Information Systems (IS) architecture and Distributed Systems Computing applied to Industrial Industry 4.0 applications. It encompasses Computing, Storage and Networking for Internet of Everything like applications with a business delivery orientation. The aim of our proposal is to adapt dynamically the supporting infrastructure to evolving business requirements through the organizational IS architecture. The adaptation will be made using a situational approach [1] allowing to establish and maintain the link between ICT components and business strategy by introducing an intentional layer.

Sujet :
Nowadays, organizations experience the digital transformation. They are challenged by new Information and Communications Technologies (ICT) such as Industrial Internet-of-Things and Artificial intelligence Applications, Cyber-Physical Systems, Blockchain, 5G Networks, and so on [2]. Industry 4.0 (I4.0) commonly referred to as the fourth industrial revolution is about the current trends of automation and data exchange in manufacturing technologies [2]. Digitalization and Industry 4.0 are profoundly changing society, economy and the way businesses operate. To face these challenges, organizations design and implement new business and Information Technology models based on Distributed Systems to guarantee that the company will reach the objectives defined by new opportunities and limit any threat of an unfavorable environment.
Numerous research works are conducted to study the impact of these digital technologies on enterprise management, for instance, within the Business-IT Alignment [3] or Enterprise Architecture [4] fields. However, there is a lack of alignment of Industry 4.0 ICT to the business strategy and business goals. For instance, the most known framework dealing with it is the “Reference Architectural Model for Industrie 4.0” (RAMI 4.0), proposed by the Standardization Council Industry 4.0 (SCI4.0) [5] [6]. It defines a three-dimensional framework to structure and define Industry 4.0 components. Even if one of the axes of this model includes the business layer, it is reduced to organization and business processes. This lack of a powerful alignment metaphor is a weakness of RAMI 4.0.
The research problem we want to address in this PhD thesis proposal is related to this weakness. The existing literature still does not respond to this deep need. From our point of view, a completely new approach should encompass both business strategy and digital technologies deployed to support it through an intentional perspective. The notion of intention is essential for organizations as it allows requirements of internal and external users of ICT to be satisfied. The teleological (intention-oriented) perspective gains traction in various fields including various organizational aspects as it allows artifacts under consideration to be connected to business and other needs [7]. For example, Intent-Based Networking is an emerging approach allowing the configuration of the physical and virtual network infrastructure depending on business strategies requirements [8]. To do so, requirements are translated into intent policies. In general, the intention-based mediacy would provide means for a context-aware adoption and configuration of underlying digital technologies.
The research goal of this PhD project is to elaborate an intention-based approach to facilitate the integration of new ICT into organizations dynamically during all the Information System lifecycle. This should help organizations to adapt as quickly as possible to the environment changes. The work on this thesis will include:
* Preparation of a State-of-the-Art on intent based approaches in ICT and their adoption by organizations,
* Formalization of the concept of a reusable ICT component allowing its contextual configuration,
* Elaboration of the ontology of intentions adapted to the usage of ICT components,
* Elaboration of a framework allowing to relate ICT components to business strategy through the intentional layer,
* Proposal of an approach for the contextual selection and configuration of ICT components including the selection of the appropriate technique to bring this ability to adapt the architecture of the applications and the underlying technologies.

Bibliography:
1. Kornyshova, E.; Deneckere, R. and Rolland, C. Method Families Concept: Application to Decision-Making Methods. In Enterprise, Business-Process and Information Systems Modeling, pages 413-427, Springer, London, United Kingdom, Lecture Notes in Business Information Processing 81, 2011.
2. Lu Y., Industry 4.0: A survey on technologies, applications and open research issues. Journal of Industrial Information Integration 6 (2017) 1–10.
3. Issa A., Hatiboglu B., Bildstein A., Bauernhansl T., Industrie 4.0 roadmap: Framework for digital transformation based on the concepts of capability maturity and alignment, Procedia CIRP, Volume 72, 2018, Pages 973-978.
4. Aldea A., Iacob M-E., Wombacher A., Hiralal M., Franck T. Enterprise Architecture 4.0 – A vision, an approach and software tool support. IEEE 22nd International Enterprise Distributed Object Computing Conference. 2018.
5. The Reference Architectural Model RAMI 4.0 and the Industrie 4.0 Component. 2015. https://www.zvei.org/en/subjects/industrie-4-0/the-reference-architectural-model-rami-40-and-the-industrie-40-component/, Accessed on January 2020.
6. Adolphs P., Bedenbender H., Dirzus D., Ehlich M., Epple U., Hankel M., Heidel R., Hoffmeister M., Huhle H., Kärcher B., Koziolek H., Pichler R., Pollmeier S., Schewe F., Walter A., Waser B., Wollschlaeger M. Reference Architecture Model Industrie 4.0 (RAMI4.0). 2015.
7. Deneckere, R. and Kornyshova, E. Processus téléologique et variabilité : Utilisation de la sensibilité au contexte. In Revue des Sciences et Technologies de l’Information – Série ISI : Ingénierie des Systèmes d’Information, 16:1: 61-88, 2011.
8. Han Y., Li J., Hoang D., Yoo J.-H., Won-Ki Hong J., An intent-based network virtualization platform for SDN, 12th International Conference on Network and Service Management (CNSM), 2016, 353-358.

Profil du candidat :
Information System Engineering
Distributed Systems
Conceptual Modeling
High Motivation for Research

Formation et compétences requises :
Master degree

Adresse d’emploi :
Conservatoire National des Arts et Métiers, CEDRIC Lab, 2, rue Conté, Paris 75003, France

Document attaché : 202005091615_PhD_Proposal_IB_ICT_I4.0.pdf

Categories: theses

Sun

Statistical analysis of medical image textures with deep convolutional neural networks.

Jun 14 – Jun 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institute of Mathematics of Marseille, Aix-Marseil
Durée : 3 years
Contact : frederic.richard@univ-amu.fr
Date limite de publication : 2020-06-14

Contexte :
This thesis deals with Texture analysis, which is one of the classical problems of Image processing. This problem is currently experiencing a renewed interest with the advances made from 2012 [8] by deep convolutional neural networks in Computer vision [1, 5]. The main objective of the thesis is to develop statistical methodologies for the classification of textures using an approach based on these neural networks. Carried out in collaboration with the hospital of La Timone (Marseille), the thesis also includes a medical aim concerning the management of neurological brain diseases from molecular imaging by Positron Emission Tomography (PET).

Sujet :
In a series of works [14, 12, 10, 11, 13], we have developed texture analysis methods from image modeling by families of intrinsic Gaussian random fields [3, 4]. These methods essentially consist in characterizing the textures by estimating or testing statistically the properties of the fields. They can be interpreted in terms of convolutional neural networks.

This interpretation constitutes the starting point of the thesis. The connection between variographic analysis and neural networks allows the study of networks to be included in a statistical framework. The main objective will be to deploy networks inspired by variographic analysis for the classification of textures.

Part of the thesis will be devoted to the study of statistical distributions of the layers of developed networks. This study could shed statistical light on the choices of network construction and lead to the definition of a priori constraints aimed at reducing the effects of over-fitting.

This statistical approach will also be used for learning networks. We know that learning a deep network, which has many parameters, requires many examples. To allow us to deal with application domains where the databases are not large enough, we will deploy a learning strategy
based on realistic images randomly synthesized from random field simulation techniques [2].

Medical application. Molecular brain imaging by PET is now integrated into the management of neurological brain diseases. In particular, it quantifies the cerebral consumption of glucose and is used as a biomarker for Alzheimer’s disease. The analysis tools for these images are currently based on quantified analyzes of a PET signal obtained in units of images taken individually and acquired at equilibrium in a single time. Therefore, they do not take into account information on the spatial interactions between voxels at the origin of image texture. One of the challenges of the thesis is to integrate this information to improve the classification of diseases
[9, 6, 7].

Références (see the attached file).

Profil du candidat :
We are looking for a motivated and talented student who graduated from a master in applied mathematics and have
– a solid background in mathematics,
– some experiences in Image processing or Machine learning,
– programming skills (in Python, preferably),
– a good level of English (and if possible French) both oral and written.

Formation et compétences requises :
see above.

Adresse d’emploi :
Institute of mathematics of Marseille (https://www.i2m.univ-amu.fr/),
Aix Marseille university.

Document attaché : 202005080746_these-I2M-2020-eng.pdf

Categories: theses

Mon

Exploiting Sentinel image time series for a better understanding of fallows dynamics in West Africa