MaDICS

Machine learning and data mining with imperfect and incomplete relational data

May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Hubert Curien (LabHC UMR CNRS 5516), U
Durée : 3 years
Contact : baptiste.jeudy@univ-st-etienne.fr
Date limite de publication : 2022-05-31

Contexte :
In many applications, the data to be studied is relational, modeled in the form
of a network represented by graphs. This representation allows capturing not
only the information about entities (using attributes or properties) but also
the relationships between them.
While the ability to discover knowledge from such network data is gaining in
importance, the quality became a central issue in their exploitation.

Sujet :
The aim
of this PhD is first to study the impact of the lack of quality of relational
data on the data mining and machine learning algorithms and, second to design
robust methods to deal with imperfect and incomplete relational data and able
to provide explainable results.

Profil du candidat :
The candidate should have a master degree or equivalent in Computer Science.
The subject is at the intersection of several domains: graph theory,
statistics, data mining and machine learning. Thus the candidate should have
strong backgrounds in several of these topics.
Other required skills:
• Good abilities in algorithm design and programming.
• Good technical skills regarding data mining, machine learning and data
management
• A very good level (written and oral) in English.
• Good communication skills (oral and written).
• Ability to work in a team with colleagues,
• Autonomy and motivation for research.

Formation et compétences requises :
Applicants are invited to contact as soon as possible.
The application file should contain the following documents:
1. a curriculum vitæ (CV);
2. the official academic transcripts of all the candidate’s higher education
degrees (BSc, License, MSc, Master’s degree, Engineer degree, etc.). If the
candidate is currently finishing a Master’s degree, s/he must send the
transcript of the grades obtained so far, with the rank among her/his peers,
and the list of classes taken during the last year;
3. some recommendation letters (quality is more important than quantity,
there);
4. and a motivation letter written specifically for this position.
Send all of these documents by email to all the advisors:
• Baptiste Jeudy baptiste.jeudy@univ-st-etienne.fr
• Charlotte Laclau charlotte.laclau@univ-st-etienne.fr
• Christine Largeron christine.largeron@univ-st-etienne.fr
Interviews will be conducted as they arise and the position will be filled as
soon as possible.

Adresse d’emploi :
The PhD candidate will work at the Laboratoire Hubert Curien (UMR 5516) under
the supervision of Baptiste Jeudy, Charlotte Laclau and Christine Largeron,
(LabHC – Université Jean Monnet, Saint-Etienne, France).

Categories: theses

Modélisation de l’évolution physiologique d’un patient en réaction à un process de soins.

May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université de Nantes / LS2N – LE SiMU – CHU de Nan
Durée : 36 mois
Contact : christine.sinoquet@univ-nantes.fr
Date limite de publication : 2022-05-31

Contexte :
La simulation est un outil pédagogique moderne dédié à l’apprentissage et au maintien des compétences dans le domaine des sciences de la santé. Il permet aux apprenants de s’entraîner à la prise en charge de situations réalistes dans un environnement sécuritaire, sans risque pour le patient (‘‘jamais la première fois sur le patient’’). Le Laboratoire Expérimental de Simulation en Médecine Intensive (LE SiMU) de l’Université de Nantes permet ce type d’apprentissage dans sept spécialités médicales, dont l’anesthésie.
LE SiMU intervient sur simulateurs de patients haute-fidélité (mannequins), avec immersion des agents en formation dans une équipe médicale humaine pleine-échelle interprofessionnelle. Actuellement, les scénarios sont écrits à l’avance, et le formateur fait évoluer les paramètres physiologiques du mannequin “à la main”, en réponse aux actions de l’équipe médicale (y compris celles de l’apprenant immergé dans cette équipe). D’une part, il y a peu de variabilité dans les scénarios. D’autre part, un apprenant n’a accès qu’à un nombre limité de scénarios (environ 3 par demi-journée de formation).
Dans le but d’améliorer la sécurité et la qualité des soins peropératoires, les formateurs du SiMU souhaitent varier la diversité des scénarios à proposer aux internes en anesthésie et infirmiers anesthésistes, en formation initiale, ainsi qu’aux praticiens plus expérimentés, en formation continue. Pour varier les scénarios, il est envisagé à terme d’automatiser la génération de scénarios réalistes de simulation, en s’appuyant sur tout ou partie de la base de profils anesthésiques enregistrés par le CHU de Nantes depuis 2004 (500 000 profils anesthésiques). Dans cette modalité assistée par le numérique, la personne qui suit la formation (interne ou infirmier), fait partie de l’équipe médicale. Les autres membres de l’équipe médicale sont simulés très simplement (icônes réalisant des actions et émettant des informations, sur l’écran de l’ordinateur assigné à l’apprenant).

Sujet :
1 Sujet de thèse

1.1 Objectifs opérationnels

Le problème posé consiste à savoir faire évoluer les paramètres physiologiques d’un patient numérique en réponse à des actions médicales successives. Ce problème équivaut à prédire l’évolution d’une série temporelle, à court terme, jusqu’au déclenchement de la prochaine action médicale, par l’apprenant ou par le reste de l’équipe médicale (qui est virtuelle). Excepté si c’est l’apprenant qui déclenche la prochaine action, cette action doit également être prédite.

Nous devons définir un modèle capable de générer une série multivariée à d variables, et évoluant sous l’effet d’une séquence d’événements horodatés dans le temps continu.

Nous proposons d’apprendre ce modèle à partir des profils anesthésiques d’une cohorte de patients. Le profil anesthésique d’un patient est constitué d’une série temporelle multivariée et d’une trace d’événements. La série temporelle décrit l’évolution dynamique de d paramètres physiologiques (e.g., la fréquence cardiaque) enregistrés via des capteurs, à fréquence constante. La trace d’événements est la séquence horodatée des actions asynchrones de l’équipe médicale (e.g., administration d’un anesthésique).

La prise en charge de ce problème est inédite.

1.2 Limites de l’état de l’art et verrous à lever

Les méthodes statistiques classiques capturent efficacement les relations linéaires dans les séries temporelles, et obtiennent de bons résultats lorsque le jeu de données est de petite taille (e.g., modèle linéaire autorégressif, modèles MA (Moving Average) et ARMA (AutoRegressive Moving Average)). Cependant, ces approches statistiques sont peu efficaces lorsqu’elles sont appliquées à des séries temporelles non linéaires complexes à grande échelle [LZG21]. Dans le cas où la non-linéarité est liée à la présence de changements de régime dans l’évolution des systèmes dynamiques, des propositions majeures de la littérature ont été par exemple le modèle autorégressif à seuil (TAR, Threshold AutoRegressive model) [T90] et le modèle autorégressif à changement de régime Markovien (MSAR, Markov-Switching AutoRegressive model) [H90] pour les changements discrets, le modèle à changement de régime continu (STAR, Smooth Transition AutoRegressive model) [LT94].

Cependant, ces modèles sont inadaptés pour notre objectif, pour diverses raisons. Par exemple, dans le modèle TAR, les changements de régime sont déterminés par les seules variations de la série temporelle. Tous les modèles évoqués précédemment sont incapables de prendre en compte l’existence de dépendances à long terme entre événements, ainsi que la variabilité de la portée des dépendances entre événements.

1.3 Modélisation jointe d’une série temporelle et d’une trace d’événements

Des revues de l’état de l’art récentes consacrées à la prédiction du temps de survie ou du temps de récidive d’une pathologie discutent des diverses façons de représenter les dépendances entre un sous-modèle dédié à la trace d’événements et un sous-modèle dédié à la série temporelle, dans les cadres fréquentiste [HPJ16] et Bayésien [ASG20]. Cependant, ces modèles ne permettent pas la double prédiction nécessaire pour résoudre notre problème.

Dans le domaine de la prédiction de série temporelle multivariée, les approches les plus efficaces actuellement pour prendre en charge les aspects non linéaires et les corrélations entre variables reposent sur les architectures de réseaux de neurones profonds, éventuellement hybridées entre elles, ou encore hybridées avec un modèle classique [LZ20].

Par ailleurs, la littérature récente indique que les processus temporels ponctuels constituent une classe de modèles très utilisée pour la prédiction du prochain événement [Z22]. Les processus de Poisson constituent la classe des processus ponctuels les plus populaires et les plus simples, pour modéliser l’occurrence d’événements indépendants les uns des autres. La composition de processus ponctuels simples (e.g., [SJ10]), et des processus ponctuels plus complexes comme les processus de Cox [C55] et de Hawkes [H71], par exemple, permettent de prendre en compte des dépendances entre événements. Un récent état de l’art est consacré à ces processus [JO20].

Cependant, lorsqu’aucune information n’est disponible sur la distribution des temps d’occurrence des événements, des approches non paramétriques peuvent être utilisées pour apprendre des distributions sophistiquées à partir des données, grâce à des réseaux de neurones. Les réseaux neuronaux récurrents, et spécialement les LSTM (Long Short Term Memory) sont particulièrement utilisés pour apprendre des dépendances complexes (e.g., [TVR17]).

Hormis pour la prédiction du temps de survie ou de récidive évoquée précédemment, la modélisation jointe de trace d’événements et de série temporelle a été peu abordée, jusqu’à ce jour. Deux publications seulement ont été recensées, qui se situent dans la même veine que les travaux envisagés pour la thèse.

Choi et co-auteurs informent un processus de Hawkes au moyen d’une série temporelle, afin de prédire l’évolution de la pathologie d’un patient [CDC15]. Xiao et collaborateurs décrivent un modèle joint combinant deux réseaux de neurones récurrents profonds (des LSTM en l’occurrence), dans le but de réaliser la prédiction informée du prochain événement [XYF19]. Dans cette approche, l’un des LSTM capture les dépendances entre les événements, et l’autre modélise l’influence de la série temporelle sur l’occurrence des événements.

Le cadre de travail de la thèse se démarque des deux approches précédentes puisque notre objectif est de prédire, non seulement le prochain événement, mais aussi l’évolution de la série temporelle.

Pour répondre aux objectifs de la thèse, nous investiguerons donc dans un premier temps comment réaliser une double prédiction en intégrant un processus ponctuel ou une variante de processus ponctuel et une architecture de réseau de neurones profond dédiée à la modélisation de la série temporelle.

Nous examinerons ensuite comment modéliser un processus d’occurrences d’événements à l’aide d’un réseau de neurones profond et comment hybrider ce sous-modèle avec un réseau de neurones dédié à la modélisation de la série temporelle.

2 Plan de travail

Le planning prévu pour la thèse est le suivant :

1. Etude de l’état de l’art sur la prédiction de série temporelle multivariée par utilisation d’un réseau de neurones profond ; étude de l’état de l’art sur la prédiction d’événement via un processus temporel ponctuel d’une part, via un réseau de neurones profond d’une part ; étude de l’état de l’art sur la modélisation d’un processus temporel ponctuel à l’aide d’un réseau de neurones profond.

2. Appropriation du simulateur de profils anesthésiques développé dans le cadre du projet EXAN.

3. Choix de l’environnement de programmation (PyTorch, Keras, TensorFlow etc) pour l’apprentissage profond.

4. Mise au point d’un modèle combinant un modèle neuronal profond modélisant un processus temporel ponctuel pour la prédiction d’événement et un réseau de neurones pour la prédiction de série temporelle ; proposition éventuelle de plusieurs architectures ; développement des prototypes correspondants ; examen de la nécessité et des possibilités d’utiliser des modèles pré-entraînés, examen de la nécessité de recourir à l’augmentation de données.

5. Mise au point du protocole de validation de l’architecture ou des architectures proposées ; mise au point du protocole de validation de l’usage de ces architectures par les utilisateurs de la plateforme de simulation LE SiMU.

6. idem point 4, pour un modèle neuronal profond hybridant deux réseaux de neurones dédiés respectivement à la prédiction d’événement et à la prédiction de série

7. idem point 5, appliqué à l’architecture ou aux architectures proposées en point 6.

Références bibliographiques
[ASG20] M. Alsefri, M. Sudell, M. García-Fiñana and R. Kolamunnage-Dona (2020) Bayesian joint modelling of longitudinal and time to event data: a methodological review. BMC Medical Research Methodology 20, 94.

[C55] D.R. Cox (1955) Some statistical methods connected with series of events. Journal of the Royal Statistical Society 17(2), 129-164.

[CDC15] E. Choi, N. Du, R. Chen et al (2015) Constructing disease network and temporal progression model via context-sensitive Hawkes process. In: IEEE International Conference on Data Mining, pp 721-726.

[H71] A.G. Hawkes (1971) Spectra of some self-exciting and mutually exciting point processes. Biometrika 58, 83–90

[H90] J. D. Hamilton (1990) Analysis of time series subject to changes in regime. Journal of Econometrics, 45(1-2), 39-70.

[HPJ16] G. L. Hickey, P. Philipson, A. Jorgensen and R. Kolamunnage-Dona (2016) Joint modelling of time-to-event and multivariate longitudinal outcomes: recent developments and issues. BMC Medical Research Methodology, 16,117.

[JO20] J. Jang, and R. Oh (2021). A review on Poisson, Cox, Hawkes, shot-noise Poisson and dynamic contagion process and their compound processes. Annals of Actuarial Science,15(3), 623-644.

[LT94] C.-F. J. Lin and T. Teräsvirta (1994) Testing the constancy of regression parameters against continuous structural change. Journal of Econometrics, 62(2), 211-228.

[LZ20] B. Lim B, and S. Zohren S (2020) Time series forecasting with deep learning: a survey. https://arxiv.org/abs/2004.13408.

[LZG21] Z. Liu, Z. Zhu, J. Gao and C. Xu (2021) Forecast methods for time series data: a survey. IEEE Access, 9, 91896- 91912.

[SJ10] A. Simma and M.I. Jordan (2012) Modeling events with cascades of Poisson processes. In: International Conference on Uncertainty in Artificial Intelligence, pp. 546–555.

[T90] H. Tong (1990) Non-linear time series: a dynamical system approach. Oxford University Press.

[TVR17] N. Tax, I. Verenich, M. L. Rosa, M. Dumas. (2017) Predictive business process monitoring with LSTM neural networks. In : International Conference on Advanced Information Systems Engineering, CAiSE2017, Lecture Notes in Computer Science 10253, pp. 477–492.

[XYF19] S. Xiao, J. Yan, M. Farajtabar et al (2019) Learning time series associated event sequences with recurrent point process networks. IEEE Transactions on Neural Networks and Learning Systems, 30(10), 3124–3136.

[Z22] L. Zhao (2022) Event prediction in the big data era : a systematic survey. ACM Computing Surveys, 54(5),1–37.

Profil du candidat :
Master ou équivalent en Mathématiques ou Mathématiques / Informatique ou Informatique, avec spécialisation en science des données ou probabilités / statistique, ainsi qu’en apprentissage automatique (incluant deep learning de préférence)

Formation et compétences requises :
– Compétences théoriques et expérience requises en probabilités / statistiques, mathématiques appliquées, apprentissage automatique

– Si la personne candidate n’a pas d’expérience dans la modélisation par composition de modèles utilisant des réseaux de neurones profonds, qui est l’un des axes d’investigation de la thèse, elle devra en revanche montrer une forte motivation pour s’investir dans ce domaine

– Intérêt pour l’interdisciplinarité (santé)

– Expérience en programmation et bon niveau de programmation

– Bonnes capacités rédactionnelles

– Aptitude au travail en équipe, capacité à rendre compte de l’avancement de ses travaux

Calendrier de la sélection

Les dossiers de candidature seront de préférence envoyés avant le jeudi 21 avril 2022 12H00.
Date limite d’envoi des candidatures : mardi 26 avril 2022 12H00

Les personnes correspondant au profil demandé seront convoquées pour une audition par visio-conférence (au fil de l’eau).
Décision : mi-mai 2022

Pièces à fournir
– CV détaillé
– lettre de motivation
– relevé de notes de Master 1 (avec rang de classement et effectif de la promotion)
– notes de Master 2 hors stage (avec rang de classement et effectif de la promotion)
– résumé du stage en cours (entre 2 et 4 pages, références bibliographiques en sus)
– lettres de recommandation pour l’année en cours
– coordonnées de personnes référentes (prénom, nom, statut, institution (détailler les sigles le cas échéant), ville, adresse mail, numéro de téléphone)

Questions et envoi des dossiers de candidature (archive zip) à christine.sinoquet@univ-nantes.fr

Adresse d’emploi :
Université de Nantes

Document attaché : 202204091843_annon_aiby4_sinoquet_lejus-bourdeau_22_04_09_sat_17h00.pdf

Categories: theses

Wed

Apprentissage profond basé sur la conception de modèles efficaces : applications à la surveillance maritime

Jun 1 – Jun 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/Doctorants

Laboratoire/Entreprise : Laboratoire d’informatique et systèmes (LIS) UMR
Durée : 36 mois
Contact : tpnguyen@univ-tln.fr
Date limite de publication : 2022-06-01

Contexte :
Ces dernières années, les réseaux de neurones profonds (DNNs pour Deep Neural Networks) ont considérablement repoussé les limites de l’intelligence artificielle dans un large éventail de tâches, notamment la reconnaissance d’objets à partir d’images, la reconnaissance vocale, la traduction automatique, etc. Les réseaux de neurones profonds nécessitent beaucoup de calcul et de mémoire, ce qui les rend difficiles à déployer sur des équipements embarqués avec des ressources de calcul limitées. Ces réseaux profonds sont caractérisés par des millions voire des milliards de paramètres et sont presque exclusivement entraînés en utilisant une ou plusieurs cartes graphique (GPU) très rapides et gourmandes en énergie. Considérons un exemple avec le modèle de pointe VGG-16, il est constitué de 138,34 millions de paramètres, occupant plus de 500 Mo d’espace de stockage, 15,5 milliards d’opérations de cumul (MAC) et nécessite 30,94 milliards d’opérations en virgule flottante (FLOP) pour classer une seule image. Cela prend plusieurs minutes dans la phase d’inférence sur un appareil mobile ayant une capacité de calcul et des ressources de mémoire limitées.
Ces réseaux profonds nécessitent donc énormément de données, de calcul, de mémoire et d’énergie, ce qui les rend difficiles à utiliser et à déployer dans des applications réelles sur des équipements tels que smartphones, tablettes et systèmes embarqués. La compression des modèles de réseaux profonds et la réduction de la consommation d’énergie, tout en préservant les performances prédictives, revêt une importance cruciale pour le déploiement de réseaux profonds dans un tel contexte. C’est pour cela que les tendances récentes se concentrent sur le déploiement d’applications en temps réel telles que YOLO ou sur des ressources limitées (par exemple, MobileNet). Dans le cadre de cette thèse, nous nous concentrerons sur la compression des réseaux de neurones pour surmonter ce défi en réduisant les besoins en stockage, en consommation d’énergie, et la complexité de calcul dans la phase d’inférence des réseaux de neurones sans que cela n’affecte leur précision. Le but est de déployer les modèles compressés sur des équipements embarqués tels que les caméras intelligentes ou les drones (AUV, ROV, etc). Ces systèmes seront ensuite utilisés pour des tâches de vision par ordinateur telles que l’analyse de scènes dynamiques, ou la détection/reconnaissance d’objets dans des scènes maritimes ou sous-marines. Cela aura un lien avec d’autres projets portés par notre équipe, notamment le projet Rapid DGA UHV-MANTA et le projet ANR Astrid ROV-Chasseur.

Sujet :
Voir le sujet joint.

Profil du candidat :
Un candidat autonome et très motivé est sollicité avec un fort intérêt pour le domaine des méthodes mathématiques avancées appliquées au traitement du signal et l’apprentissage automatique.

Formation et compétences requises :
Une formation solide en traitement du signal, mathématiques appliqués, machine learning ou informatique.

Une bonne maîtrise des algorithmes d’apprentissage automatique, notamment les réseaux de neurones.

De bonnes compétences en programmation python sont requises. La connaissance des frameworks d’apprentissage (PyTorch, tensorflow, tensorly, etc.) est un plus souhaitable.

Le candidat doit avoir de bonnes capacités en communication orale et écrite.

Adresse d’emploi :
Laboratoire d’informatique et systèmes (LIS) UMR 7020
SeaTech – Bâtiment X – Avenue de l’Université 83130 LA GARDE

Document attaché : 202205021735_EDJ2022-2.pdf

Categories: theses

Fri

Assimilation de données géodésiques pour une gestion en temps réel des risques naturels

Jun 3 – Jun 4 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC/ISTerre
Durée : 3 ans
Contact : yajing.yan@univ-smb.fr
Date limite de publication : 2022-06-03

Contexte :
Cette thèse est proposée dans le contexte de la disponibilité croissante et régulière de la quantité de données de télédétection et pour répondre au besoin de la prédiction opérationnelle des risques naturels. Elle a pour objectif majeur d’améliorer l’intégration des observations géodésiques satellitaires et des modèles mécaniques dynamiques de transport de magma, ce qui répond à un enjeu crucial actuellement en volcanologie.

Sujet :
Dans une perspective de gestion du risque volcanique, il est essentiel de pouvoir savoir, à l’avance, si du magma qui a commencé à se propager depuis un réservoir va atteindre la surface, à quel endroit et à quel moment. La phase de propagation est généralement rapide de quelques heures à quelques mois, mais elle induit de la sismicité et des signaux de déformation. Ces signaux sont enregistrés par les capteurs continus (GNSS) et les données Interférométrie SAR (InSAR) dont la fréquence temporelle et le délai d’utilisation se sont fortement améliorés ces dernières années. Nous disposons, par ailleurs, de modèles dynamiques de propagation d’intrusions magmatiques permettant de calculer, en fonction des paramètres physiques de la croûte terrestre, des propriétés du magma et de l’état de contrainte local, la trajectoire suivie par le magma et sa vitesse de propagation (Pinel et al. 2017). L’assimilation de données, une méthode qui combine un modèle dynamique et les observations au présent et dans le passé en s’appuyant sur la statistique des erreurs et qui permet de prédire l’état futur du système observé, est donc un outil approprié qui répond au besoin de pouvoir prédire la position et le moment d’une éruption en volcanologie.
Parmi de nombreuses méthodes d’assimilation de données, le filtre de particules se distingue des autres par sa grande capacité à traiter des modèles non linéaires et des statistiques d’erreur non gaussiennes (van Leeuwen P.J, 2009, van Leeuwen PJ, 2010). Le filtre de particules est basé sur une représentation de la densité de probabilité du modèle dynamique par un ensemble discret d’états du modèle (nommé les particules) et repose sur le théorème de Bayes, donc sans se soucier de la distribution des erreurs de modèle (différente de la plupart des autres méthodes d’assimilation de données qui supposent une distribution gaussienne des erreurs). L’évolution de la densité de probabilité du modèle est réalisée par la propagation de toutes les particules (états du modèle) dans le temps suivant l’équation du modèle (la physique). Lorsque les observations du système sont disponibles, les contributions relatives des particules sont modifiées de sorte que l’information disponible dans les observations est intégrée dans l’essaim de particules. Le filtre de particules ne corrige pas directement les valeurs des particules, mais leurs contributions relatives, ceci est très important pour estimer les trajectoires de propagation des intrusions magmatiques. Le filtre de particules est donc l’outil approprié dans le contexte spécifique actuel d’estimation de la position d’une éruption volcanique
Dans cette thèse, nous développerons une stratégie efficace d’assimilation de données en utilisant le filtre de particule permettant d’utiliser en temps réel les données géodésiques de déformation pour prédire la localisation et le timing des bouches éruptives induites par la propagation d’intrusions magmatiques, avec une application au Piton de la Fournaise. Par ailleurs, des approches basées sur l’apprentissage automatique seront également étudiées, afin de prédire la localisation et le timing des bouches éruptives en s’appuyant uniquement sur les séries temporelles de mesures de déplacement. Les résultats seront comparés à ceux obtenus par le filtre de particule afin d’évaluer la capacité prédictive des méthodes basées uniquement sur les données. Enfin, on considère également à injecter l’information a priori apportée par les modèles physiques dans les approches d’apprentissage automatique pour améliorer la performance de ces dernières.
Cette thèse s’appuiera sur le travail de thèse de Mary Grace Bato qui avait, pour la première fois, appliqué avec succès les techniques de l’assimilation de données séquentielle (le filtre de Kalman d’ensemble) à la volcanologie en s’intéressant à la pressurisation et à la rupture des réservoirs magmatiques (Bato et al, 2017, Bato et al. 2018). Elle bénéficiera également des résultats obtenus dans le cadre de l’ANR franco-allemande MagmaPropagator (ANR-18-CE92-0037, 2019-2022). De plus, le projet CNES MagmaTrack (2022 – 2024) sera à disposition pour environner la thèse (financer des missions, conférences, etc.) .
Références :
• M. G. Bato, V. Pinel, Y. Yan, Assimilation of Deformation Data for Eruption Forecasting: Potentiality Assessment Based on Synthetic Cases, Front. Earth Sci.,doi:10.3389/feart.2017.00048, 2017.
• M. G. Bato, V. Pinel, Y. Yan, F. Jouanne, J. Vandemeulebrouck, Possible deep connection between volcanic systems evidenced by sequential assimilation of geodetic data, Scientific Reports, doi : 10.1038/s41598-018-29811-x, 2018.
• V. Pinel, A. Carrara, F. Maccaferri, E. Rivalta, F. Corbi, A two-step model for dynamical dyke propagation in two-dimensions: Application to the July 2001 Etna eruption, J. Geophys. Res. Solid Earth, 10.1002/2016JB013630, 2017.
• Gaddes, M. E., Hooper, A., Bagnardi, M. (2019), Using machine learning to automatically detect volcanic unrest in a time series of interferograms, Journal of Geophysical Research : Solid Earth , 124(11), 12304–12322.
• van Leeuwen P.J., Review Particle Filtering in Geophysical System, Mathematical Advances in Data Assimilation, 2009, pp. 4089-4114.
• van Leeuwen P.J. Nonlinear data assimilation in geosciences : an extremely efficient particle filter, 2010, Quarterly Journal of the Royal Meteorological Society, vol. 136, pp. 1991-1999.
• S. Arridge, P. Maass, O. Öktem and C.B. Schönlieb, (2019), Solving inverse problems using data-driven models, Acta Numerica, pp.1-174. DOI: https://doi.org/10.1017/S0962492919000059
• M. Titos, A. Bueno, L. Garcia, M.C. Benitez and J. Ibanez, (2019), Detection and classification of continuous volcano-seismic signals with recurrent neural networks, IEEE Transactions on Geosciences & Remote Sensing, 57(4), pp.1936-1948.
• Z. Zhang and Y. Lin, (2020), Data-driven seismic waveform inversion: a study on the robustness and generalization, IEEE Transactions on Geosciences & Remote Sensing, 58(10), pp.6900-6913.

Profil du candidat :
Le candidat doit avoir de bonne compétence en mathématique/statistique ou traitement du signal ou géophysique.

Formation et compétences requises :
mathématique/statistique ou traitement du signal ou géophysique.

Adresse d’emploi :
Annecy ou Chambéry

Categories: theses

Mon

Analyse de Nouvelles Formes de Protestation

Jun 6 – Jun 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LIP6 (CNRS et Sorbonne Université), Paris
Durée : 3 ans
Contact : Matthieu.Latapy@lip6.fr
Date limite de publication : 2022-06-06

Contexte :
Depuis quelques années, les militants et activistes à travers le monde inventent de nouvelles façons de faire entendre leurs voix, de protester, qui viennent en complément des manifestations classiques.

L’impact réel ou potentiel de tels mouvements est mal connu, et très peu étudié. Par exemple, la perturbation est-elle potentiellement forte ? Avec combien de participants, sous quelles hypothèses, et quelles cibles ? Est-elle comparable à celle d’une manifestation classique ?

Ces questions sont très liées à des problématiques classiques en informatique, comme par exemple la robustesse des graphes en cas de suppressions de sommets et/ou d’arêtes. Ici, le graphe représente le réseau de routes, et les activistes suppriment (temporairement) un sommet ou une arête du graphe. Ils peuvent être vus comme des agents ayant pour objectif de maximiser la perturbation tout en minimisant les risques, ou le nombre d’agents nécessaires. Des modélisations de dynamiques de graphes à base de flots de liens semblent alors particulièrement pertinentes.

Par ailleurs, les données nécessaires pour explorer ces questions sont aujourd’hui disponibles. En particulier, OpenStreetMap fournit librement des cartes extrêmement précises de réseaux de routes dans le monde entier. On dispose également de traces GPS de mobilité de nombreux individus.

Sujet :
L’objectif central de ce projet est d’étudier l’impact potentiel d’actions comme rebellion of one ou les convois de la liberté, avec un haut niveau de réalisme obtenu grâce aux données de terrain et à une modélisation appropriée.

En reposant sur OpenStreetMap, nous voulons tout d’abord modéliser la ville (ou plus largement le réseau de transports) comme un graphe de rues et de carrefours 8 9 . Nous verrons ensuite les activistes comme des agents susceptibles de supprimer ou surcharger, pour un temps (court) donné, des arêtes de ce graphe. L’objectif devient alors de mesurer l’impact (en termes de connexité, ou de durée des trajets, par exemple) d’une action. Cet impact dépend du placement et des déplacements des agents ; nous voulons donc étudier l’efficacité de plusieurs stratégies simples pour ces placements et déplacements.

En un second temps, nous souhaitons développer une modélisation adversariale : les agents activistes suppriment des arêtes ou des sommets, mais d’autres agents les rétablissent peu après, typiquement en supprimant (arrêtant) ou en dispersant des activistes. Les questions autour de la dynamique des agents des deux camps, ainsi que des questions de budget (combien d’agents dans chaque camp) deviennent
alors centrales.

Profil du candidat :
Le projet nécessite clairement une forte ouverture interdisciplinaire, entre informatique et mathématiques notamment, mais également avec la physique et les SHS. De façon similaire, une ouverture à une combinaison de travaux à la fois théoriques et pratiques est essentielle.

Formation et compétences requises :
En termes de compétences, une formation sur les réseaux complexes et/ou les processus stochastiques sera nécessaire (préliminaire ou à acquérir en début de thèse). De même, des compétences en programmation et en observation/analyse des résultats (statistiques) empiriques seront cruciales.

Adresse d’emploi :
LIP6, Sorbonne Université, Campus Pierre et Marie Curie, Paris

Document attaché : 202205100739_main.pdf

Categories: theses

Changements morpho-structurels cérébraux chez les enfants de 1 à 4 ans avec paralysie cérébrale après thérapie motrice HABIT-ILE.

Jun 6 – Jun 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LaTIM, CHRU Brest
Durée : 3 ans
Contact : beachild.contact@gmail.fr
Date limite de publication : 2022-06-06

Contexte :
La paralysie cérébrale (PC) est le handicap moteur le plus fréquent chez l’enfant, avec une prévalence de 2 à 3.6 cas pour 1000 naissances, concernant ainsi 125 000 personnes en France. Ce trouble non progressif lié à une lésion cérébrale intervenue pendant la vie foetale ou lors des 2 premières années de vie, entraîne notamment des mouvements et des postures anormaux. Alors qu’aucun traitement ne permette de “guérir” de la PC, des thérapies motrices innovantes existent pour favoriser la motricité de l’enfant avec PC. Des études cliniques ont démontré que des interventions intensives, basées sur l’activité et orientées vers une tâche précise, tel que le protocole d’intervention Hand and Arm Bimanual Intensive Therapy Including Lower Extremities (HABIT-ILE), améliorent efficacement la fonction motrice chez les enfants d’âge scolaire atteints de PC et auraient un impact positif sur la connectivité structurelle et fonctionnelle du cerveau. Etant donné que la majeure partie du développement cortical a lieu dans le décours temporel des 2 à 4 premières années de vie, le programme européen “early HABIT-ILE”, mené par l’équipe Brestoise, propose pour la première fois d’investiguer l’efficacité de la rééducation intensive et des mécanismes neurophysiologiques associés chez les enfants en âge préscolaire avec une PC uni et bilatérale.

Sujet :
Hypothèses et questions posées:
Les améliorations constatées sur le plan clinique suite à la thérapie HABIT-ILE chez l’enfant en âge scolaire pourraient être associées à des modifications de la connectivité structurelle et fonctionnelle du cerveau. Cependant, aucun lien fort n’a été clairement établi à ce jour par manque de données et l’utilisation de méthodologies d’imagerie différentes. Par ailleurs, la majeure partie de l’organisation corticale ayant lieu dans le décours temporel des 2 premières années de vie, la mise en place d’interventions précoces constitue l’un des objectifs critiques en réadaptation pédiatrique. Notre hypothèse est que l’amélioration des capacités fonctionnelles induite par HABIT-ILE avant l’âge de 4 ans pourrait être corrélée à des changements majeurs de la morphostructure cérébrale au niveau du cortex sensorimoteur et du CST. Dans le cadre de cette étude, le travail de thèse aura pour objectif d’évaluer les changements morpho- structurels du cerveau en fonction du type de thérapie reçu, et d’étudier une potentielle corrélation entre les variations morphologiques cérébrales et la fonction motrice des sujets avant et après stage HABIT-ILE.
Grandes étapes de la thèse:
Grâce aux données d’imagerie cérébrales préalablement collectées lors de l’étude “early HABIT- ILE”, le/la doctorant(e) étudiera dans un premier temps l’effet de la thérapie intensive sur la structure et l’organisation du cerveau. Les changements neuroplastiques seront évalués au niveau de la substance grise corticale, en utilisant des analyses morphométriques (e.g. épaisseur de la substance grise corticale, plissement du cortex, et profondeur des sillons) et des approches d’intelligence artificielle. La/le doctorant(e) étudiera dans un second temps la relation entre les changements neurologiques structurels mesurés et les données préalablement acquises liées au contrôle moteur des membres supérieurs et inférieurs mesurées par analyse biomécanique spécifique aux tâches fonctionnelles. Un certain nombre d’algorithmes analysant la morpho-structure cérébrale ont été développés pour étudier les corrélats entre paramètres cérébraux et paramètres moteurs. Ces logiciels, comme CAT 12, ont été développés pour l’adulte, et non chez l’enfant jeune. La/le doctorant(e) développera les algorithmes en lien avec CAT 12 et le pipeline de pre-processing pour adapter ces algorithmes à la population étudiée, afin de pouvoir analyser les corrélats entre motricité et changements morpho-structurels. La définition de corrélats entre structure cérébrale et fonction motrice apportera une démonstration unique de cause à effet permettant non seulement de mieux comprendre au niveau fondamental l’intérêt d’instaurer des thérapies intensives avant l’âge de 4 ans, mais aussi de proposer, en s’appuyant sur un argument rationnel, une amélioration des protocoles de prise en charge d’enfants présentant une PC.

Profil du candidat :
Titulaire d’un diplôme bac+5 (Master 2 ou diplôme d’ingénieur) en traitement du signal, neurosciences, bio-engineering ou sciences du vivant.

Formation et compétences requises :
Traitement du signal et des images, neurosciences, programmation Python/Matlab

Adresse d’emploi :
LaTIM, CHRU Brest, Hopital Morvan.

Document attaché : 202205100948_Thèse iCAP.pdf

Categories: theses

Wed

Ph.D. position/Offre de thèse – CYU – ETIS Lab

Jun 8 – Jun 9 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS
Durée : 3 ans
Contact : michele.linardi@cyu.fr
Date limite de publication : 2022-06-08

Contexte :
Explainable deep learning models for time series analytics.

Sujet :
We are looking for a Ph.D. student to join (the 1st of October 2022) the team MIDI (https://www.etis-lab.fr/midi/) of the Etis laboratory (CYU).

The candidate will pursue a Ph.D. degree in Computer Science in Deep Learning and Data Science areas, studying application to temporal data (time series).

The research activity will get coordinated by Professor Vassilis Christophides (https://www.etis-lab.fr/2022/01/13/vassilis-christophides/) and Associate Professor Michele Linardi (https://www.etis-lab.fr/2022/01/12/michele-linardi/). The Ph.D. project will also benefit from our current industrial collaborations.

The interested applicants can find attached to this mail all the details of the proposition and the information on how to apply.

Profil du candidat :
– Master’s degree in computer science or data science.
– Advanced programming skills in Python (C++/Java is a plus).
– Strong mathematical background, including Linear Algebra and Statistics.
– Research experience in Machine learning, Deep Learning and Data Mining.
– Fluency in written and spoken English is essential.

Formation et compétences requises :
–

Adresse d’emploi :
CY Cergy Paris Université

Document attaché : 202205231432_Expl_DL_TS_Thesis_Proposal_CYU_Chris_Lin.pdf

Categories: theses

Mon

Deep learning for wavefront sensing and control in view of exoplanet imaging

Jun 20 – Jun 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Observatoire de Paris (LESIA) / ONERA (DOTA)
Durée : 3 ans
Contact : johan.mazoyer@obspm.fr
Date limite de publication : 2022-06-20

Contexte :
Direct imaging of circumstellar environments is aspiring to detect and analyze faint exoplanets (planet orbiting another star). The flux ratio between an Earth-like planet and a sun-type star is typically 10 billion in the visible, at a fraction of arcsecond. The observation and spectral characterization of these objects therefore require a combination of high angular resolution and of high contrast imaging techniques, with instruments called coronagraphs.

Sujet :
State of the art coronagraph designs (space or ground-based) are currently limited by residual aberrations, due to the atmosphere or directly to the optics surface quality. These aberrations create stellar leakage (speckles) in the focal plane that masks the fainter planets or disks. The goal of active instrumentation for coronagraphy is to correct these aberrations to detect exoplanets. Recent improvements in deep neural network architectures, as well as increasing computational capabilities, offer new solutions to control these aberrations. We propose to combine previous model-based control techniques with machine learning to produce fast and efficient correction of optical aberrations.

Profil du candidat :
We are looking for a candidate with a dual set of interests both in physics / Astronomy and in Computer Science / Applied math. The candidate can be a specialist in only one of those fields but should be willing to quickly learn about the other.
The mentoring team is composed of experts in Machine Learning / Astronomie / Applied Math to help the candidate lear efficiently in those subjects.

Formation et compétences requises :
Master degree in Signal/Image processing or Applied Math, with an interest in astronomy / experimental physics
Master degree in Physics or Astronomy or with an strong interest for AI and experimental physics

Level of French required: None

Level of English required: Advanced: You can speak the language more complexly, spontaneously and on a variety of topics.

Adresse d’emploi :
Observatoire de Paris, site de Meudon
5 Pl. Jules Janssen, 92190 Meudon

Categories: theses

Fri

Partitionnement sous contrainte de similarité

Jun 24 – Jun 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIAS, ISAE-ENSMA
Durée : 3 ans
Contact : brice.chardin@ensma.fr
Date limite de publication : 2022-06-24

Contexte :
SRD est un gestionnaire de réseau de distribution d’électricité chargé de gérer, exploiter, entretenir et développer un réseau électrique couvrant 90% de la Vienne. Pour l’optimisation de son réseau et la planification d’investissements, SRD cherche à modéliser le comportement des consommateurs et producteurs qu’il dessert.
Bien que cette modélisation soit principalement basée sur les valeurs historiques de puissance transitant sur le réseau, SRD s’intéresse plus particulièrement à son pouvoir prédictif, c’est-à-dire sa capacité à capturer le comportement futur des éléments considérés.

Sujet :
L’objectif scientifique principal de cette thèse est d’élaborer des techniques de classification permettant d’identifier des groupes d’éléments avec une garantie de dissimilarité maximale entre deux éléments d’un même groupe, et de positionner ce type d’approche par rapport aux algorithmes de partitionnement existants.
Les techniques considérées ici sont basées sur un partitionnement sous contrainte, et plus spécifiquement sous contrainte de dissmilarité intra-cluster maximale. Ce type de partitionnement garantit une certaine proximité entre les membres d’un groupe et leur représentant.

Profil du candidat :
Le candidat devra posséder des connaissances en développement logiciel, systèmes d’information, statistiques et analyse de données.
Un bon niveau en français et en anglais est également nécessaire.

Formation et compétences requises :
Le candidat devra être titulaire d’un master en informatique ou d’un diplôme d’ingénieur.

Adresse d’emploi :
ISAE-ENSMA, 1 avenue Clément Ader, 86360 Chasseneuil-du-Poitou

Document attaché : 202206070936_these_labcom_alienor.pdf

Categories: theses

Thu

Cybersecurity for industrial networks

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : ICube / Technology & Strategy
Durée : 36 mois
Contact : fabrice.theoleyre@cnrs.fr
Date limite de publication : 2022-06-30

Contexte :
Industry 4.0 is the novel industrial revolution, where objects are connected to a global network infrastructure. Fieldbus (e.g., CAN, modbus) interconnect the different devices to controllers. These objects are constrained in memory and computational capacity and may endanger the network infrastructure if they are corrupted. They may even jeopardize the safety of industrial applications.

Sujet :
We need to deploy Intrusion Detection Systems able to detect attacks and to patch (a.k.a. reconfigure) the network to contain the attacker. Fortunately, industrial applications rely on pre-existing specific properties that may help us to detect abnormal behaviors. The PhD student will exploit real datasets, and a prototyping testbed @ Technology & Strategy.

The PhD student will rely on Artificial Intelligence algorithms to implement an efficient Intrusion Detection System (Network IDS) able to detect anomalies, that deviate from a normal behavior.

Profil du candidat :
Master in Computer Science (major in AI, data science)

Formation et compétences requises :
Applicants should have solid skills in:
– Excellent programming skills, particularly in embedded systems (C);
– Excellent knowledge of Machine Learning techniques (not only as a user);
– Excellent data science language skills (R, or Python);
– Excellent communication and writing skills. Note that knowledge of French is not
required for this position;

Knowledge of the following technologies is not mandatory but will be considered as a plus:
– Networking protocols and stacks;
– Fieldbus communications;
– Revision control systems.

Adresse d’emploi :
Université de Strasbourg / Technology & Strategy
Both located in Strasbourg

Applications should be submitted by email to tands-cifre@icube.unistra.fr.

They must include:
– A Curriculum Vitae;
– List of 2 or 3 references to contact (position, email address);
– Transcripts of undergraduate and graduate studies;
– Link to MSc thesis, and publications if applicable;
– Link to personal software repositories (e.g. GitHub)

Please prefix the filenames of your application with your lastname.

Categories: theses

Fouille de données sur des transformations électrochimiques : associer des conditions au rendement d

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Groupe de recherche en informatique, image, automa
Durée : 3 ans
Contact : bertrand.cuissart@unicaen.fr
Date limite de publication : 2022-06-30

Contexte :
Comme elle utilise un simple électron pour former ou rompre des liaisons au cours de processus complexes, l’électrosynthèse possède un très grand potentiel en termes de découverte de nouveaux processus et d’industrialisation à bas coût. Cependant, la maîtrise et l’optimisation de réactions électrocatalysées restent difficiles et l’apport des sciences du numérique à la résolution de problèmes chimiques représente une opportunité unique. Le projet AMPERE porté par les laboratoires LIMA (UMR 7042, INC), LBM (UMR 7203, INC), LHFA (UMR 5069, INC) et GREYC (UMR 6072, INS2I) s’inscrit dans cette dynamique et rassemble une communauté de chimistes et d’informaticiens souhaitant développer des processus d’aide à la décision facilitant la découverte et l’optimisation de transformations électrochimiques. AMPERE est financé dans le cadre du programme CNRS 80/PRIME, programme initié à l’occasion des 80 ans du CNRS, destiné à financer des projets interdisciplinaires originaux et en rupture (https://www.cnrs.fr/fr/cnrsinfo/80-nouveaux-projets-pour-le-programme-80prime). Au-delà de ce projet, ce dialogue interdisciplinaire entre intelligence artificielle et chimie enrichit chaque communauté en termes d’avancées fondamentales et appliquées.

Sujet :
Le travail de thèse proposé ici s’intègre entièrement au projet AMPERE, il s’agit donc d’un travail de recherche directement motivé par une application chimique. En s’appuyant sur un outil de criblage qui génère expérimentalement des données sur des réactions électrochimiques, il s’agit de concevoir et d’implémenter des méthodes informatiques de fouille de données. A partir des techniques actuelles utilisées dans les bases de données de réactions chimiques, nous commencerons par construire une base de données appropriée aux réactions électrochimiques. Cet outil jouant un rôle pivot dans le projet, il devra satisfaire les besoins de consultation des chimistes, et constituer une source pour les analyses informatiques. En conséquence, sa réalisation sera le fruit d’une discussion entre les experts des deux disciplines. En s’appuyant sur la base de données de réactions électrochimiques, la thèse comportera deux travaux de recherche informatique.

Premièrement, il s’agira de concevoir une méthode d’analyse adaptée aux données réactionnelles étudiées. En effet, le caractère dynamique et complexe des réactions nécessite de les représenter sous la forme de données structurées à partir desquelles seront extraits les descripteurs pertinents. L’analyse informatique associée à cette partie du travail calculera les associations statistiques remarquables entre conditions expérimentales et valeurs de rendements réactionnels. Pour une réaction donnée, le système pourra proposer des nouveaux paramètres afin d’augmenter le rendement, ainsi qu’une explication de ses choix, explication compréhensible par un chimiste.

Ensuite, un travail de recherche en fouille de données séquentielles est envisagé. Une réaction sera modélisée sous la forme d’une suite d’états, chaque état décrivant un point de la réaction. Les techniques de fouille de séquences adaptées à ce cas permettront d’extraire les enchaînements de parties d’états réactionnels “remarquables”. Par remarquable, on peut entendre “fréquent”, “unique” ou très associé à un caractère externe comme un niveau de rendement. Pour modéliser d’éventuelles incertitudes, il peut être possible de remplacer les séquences par des arbres orientés. Pour réaliser l’analyse subséquente, il faudra concevoir un processus de fouille original ; ce travail comporte un fort caractère innovant.

Profil du candidat :
Il s’agit d’un travail informatique en Sciences des Données, une discipline très actuelle de l’intelligence artificielle. Le doctorant aura l’opportunité de construire une expertise dans le cadre spécifique de la recherche des associations au sein des données structurées, les données étant ici représentées sous la forme de graphes ou de séquences. Le travail s’intégrant à un projet interdisciplinaire, le doctorant expérimentera concrètement le dialogue orientant les travaux de ce type de projets. De plus, il acquerra une compétence complémentaire dans le domaine de l’informatique appliquée à la chimie. L’innovation en analyse de données chimiques s’associant à des défis technologiques ou scientifiques, cette compétence offre l’opportunité de participer à des projets ambitieux, de nature variée et aux retombées importantes.

Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation ; le candidat peut aussi être titulaire d’un tel diplôme. Une expérience en informatique pour la Science des Données sera un plus (fouille de données, apprentissage automatique, … Le candidat doit avoir des capacités à rédiger des rapports scientifiques et à communiquer des résultats de recherche lors de conférences en anglais.

Adresse d’emploi :
La thèse débutera à l’automne 2022 — début septembre ou début octobre. Le travail se déroulera principalement au GREYC, laboratoire académique normand situé à Caen. Le projet impliquant plusieurs laboratoires français, la thèse inclut plusieurs semaines annuelles de travail dans les laboratoires partenaires.

Salaire brut mensuel : 2 135 €

Candidature Les candidatures doivent inclure les documents suivants au format électronique : une lettre de motivation, un CV détaillé décrivant vos études et votre expérience en recherche, les relevés de notes des diplômes obtenus, les coordonnées de personnes références préférentiellement issues du monde la recherche.
Veuillez envoyer votre dossier de candidature à bertrand.cuissart@unicaen.fr et jean-luc.lamotte@unicaen.fr.

Document attaché : 202204130729_ampere1.pdf

Categories: theses

Maximum de vraisemblance et apprentissage informé pour l’imagerie dynamique en réseau

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : ENS-ParisSaclay/SATIE
Durée : 36 mois
Contact : pascal.larzabal@universite-paris-saclay.fr
Date limite de publication : 2022-06-30

Contexte :
Le “Square Kilometer Array” (SKA) [1-2] est un projet de radiotélescope géant, de surface collectrice équivalente à un kilomètre carré. Il est constitué de plusieurs réseaux interférométriques dans les longueurs d’onde métriques et centimétriques. Il est prévu de déployer SKA sur deux sites, l’un en Afrique du Sud (SKA-mid pour les hautes fréquences) et l’autre en Australie (SKA-low pour les basses fréquences). Le déploiement se déroulera en deux phases séparées dans le temps: La phase 1 (SKA1) débute en 2021 par la construction prévue pour 2030 d’environ 200 antennes paraboliques (15 m de diamètre, bande passante 350MHz-13GHz) en Afrique du Sud et 130 000 antennes phasées (antenne log périodique à double polarisation bande passante (50MHz-350MHz) travaillant aux basses fréquences dans l’ouest australien. Ce radiotélescope géant sera évolutif mais une mise en service partielle aura lieu dès 2024. Dans cette configuration, SKA1 représentera un saut qualitatif immense par rapport aux instruments existants, et permettra des avancées décisives dans toutes les thématiques de l’astrophysique et de la physique modernes, comme la cosmologie, l’origine des champs magnétiques cosmiques, les ondes gravitationnelles, le milieu interstellaire, la formation des étoiles aux différentes époques de l’univers, les sursauts radio rapides … Depuis le début, SKA a été conçu pour accéder à un champ d’exploration exceptionnel au travers de la combinaison de caractéristiques (sensibilité, champ de vue, résolution, couverture en fréquence) qui seront d’un ordre de grandeur supérieur à celles des instruments radio à basses et moyennes fréquences existants. Une capacité; sans égale d’obtenir des images très nettes avec des temps de pose assez courts permettra à ce nouvel observatoire de balayer le ciel rapidement et en profondeur. La Phase 2 est envisagée pour les années 2030+. Dans cette configuration finale, SKA2 sera l’instrument ultime de la radioastronomie basse-fréquence du 21ème siècle. Dès la phase1 SKA1 sera l’une des plus formidables machines jamais déployées par l’homme, et de loin la plus impressionnante en termes de débit de données et de puissance de calcul engagée.

Sujet :
La problématique

L’imagerie radioastronomique du ciel est traditionnellement effectuée par des techniques d’interférométrie dont le pouvoir de résolution (finesse des détails de l’image) est directement lié à l’étendue du réseau d’antenne, c’est à dire la distance séparant ses antennes les plus éloignées [3-5]. Cela veut dire qu’avec les techniques d’imagerie actuelles l’amélioration ne peut passer que par des radiotélescopes de plus en plus ‘grands’. Ceci est d’autant plus contraignant que les fréquences analysées sont basses. C’est une course au gigantisme à laquelle se livre la communauté des radioastronomes. Concernant le contraste de l’image, il est intimement lié à la qualité de la déconvolution itérative utilisée et dont un représentant emblématique est l’algorithme CLEAN. Une telle déconvolution, si elle est mal maîtrisée, peut altérer de manière irréversible les images. La surface collectrice de SKA qui sera disponible, et par la même la sensibilité de l’instrument, est telle que pour envisager d’en exploiter pleinement la potentialité il est nécessaire de procéder à une rupture technologique dans les techniques d’imagerie employées. Il faut en proposer des plus performantes en changeant de paradigme.

Méthodologie et Solutions proposées

Il nous semble dès lors pertinent de développer des techniques d’imagerie par maximum de vraisemblance [6] car le pouvoir de résolution de ces dernières n’est pas limité par l’étendue du réseau mais uniquement par le nombre d’observations disponibles. Autrement dit, en ambiance stationnaire pour une configuration de réseau donnée, on peut améliorer le pouvoir de résolution en augmentant le nombre d’observations. Ceci n’est pas possible avec les techniques actuelles de radio interférométrie basées sur des transformées de Fourier bidimensionnelle. Les chercheurs en traitement du signal doivent accompagner la communauté des radioastronomes dans la mutation technologique qu’elle vit en passant des paraboles (limitées en dimension) aux réseaux phasés sur lesquels une formation de voies permet de synthétiser un radiotélescope numérique et très flexible [7]. Il faut dès lors changer aussi de paradigme dans les algorithmes d’imagerie pour exploiter pleinement les caractéristiques exceptionnelles de SKA. Les méthodes de maximum de vraisemblance ont déjà fait leur preuve dans plusieurs domaines, mais elles sont parfois délaissées à cause de leur prétendue grosses charges de calcul. Dans [8] nous avions montré sur le radiotélescope d’Arecibo (Porto Rico) comment une méthode de maximum de vraisemblance à faible cout calculatoire permettait de séparer les échos doppler provenant des hydrométéores, des échos provenant du vent en évitant d’utiliser 2 radars à des fréquences distinctes pour retrouver le profil du vent en altitude. Afin d’améliorer la résolution et le contraste des images, nous allons travailler ici sur des critères du maximum de vraisemblance paramétré ou non selon les a priori disponibles sur l’image à former [9]. Notons que de telles techniques n’ont a priori pas besoin de déconvolution. Une variante intéressante à étudier pourra être l’algorithme EM (Expectation-maximisation), car elle permet d’accélérer la convergence quand on ne peut pas traiter le Maximum de vraisemblance directement. Des extensions permettant de prendre en compte la polarisation des ondes, et même les 4 paramètres de Stokes seront développées. Ces différents critères sur lesquels sont basés nos algorithmes pourront éventuellement être régularisés par la norme 0 de la solution (l’image) afin d’exploiter la parcimonie de la solution recherchée [10]. En effet quand seules quelques sources sont présentes sur la carte du ciel, la quasi-totalité des pixels sont du bruit. Une telle optimisation est non convexe et non différentiable et sa résolution fera appel aux résultats d’optimisation les plus récents dans le domaine.

L’efficacité opérationnelle des algorithmes précédents repose cependant sur la validité et la précision du modèle exploité dans les algorithmes. Nous proposerons pour ces divers algorithmes une mise en œuvre sous forme d’’algorithm unrolling’[11]. En effet l’utilisation de ‘model based deep learning techniques’ permettra de donner des degrés de liberté au modèle de réception postulé. Le déroulement de l’algorithme itératif sur les couches successives du réseau de neurones bénéficiera de l’adjonction structurelle de paramètres supplémentaires liés aux connexions entre les neurones (par exemple les biais). Ces degrés de liberté supplémentaires pourront par exemple pallier la méconnaissance des paramètres de calibration (par exemple perturbations non maitrisées liées à la traversée de l’ionosphère). Il s’agit ici d’une alternative au deep neural network dont l’opacité de l’apprentissage statistique total peut s’avérer parfois déroutante. L’apprentissage évoluerait alors autour d’une boussole pointée et contrôlée par le modèle de l’observation. L’adaptation des paramètres supplémentaires serait seul sujet à un apprentissage statistique ‘aveugle’. Il sera alors intéressant de procéder à une comparaison des méthodes de traitement de problème inverse entièrement fondés sur le seul modèle de réception avec celles fondées sur le model based deep learning’ et aussi celles sur le total deep neural network. Une telle comparaison apportera sa pierre à l’édifice dans le débat qui a lieu à ce sujet entre les communautés traitement du signal d’une part et apprentissage statistique de l’autre.

Les retombées de ce travail sur l’imagerie à haute résolution par maximum de vraisemblance serviront les astrophysiciens dans leurs travaux de recherche mais ils pourront aussi intervenir dans la phase de définition et conception de l’après 2030 pour SKA. En effet rien n’est encore décidé sur l’emplacement des antennes qui resteront à installer.

Plan de travail
1 Bibliographie en radioastronomie et traitement d’antenne
2 Etude des limitations de l’interférométrie
3 Développement des méthodes du maximum de vraisemblance
4 Prise en compte de la parcimonie
5 Développement des méthodes dans un cadre de ‘model based deep learning’
6 Validation/Immersion dans un observatoire avec des radioastronomes

Références bibliographiques
[1] Chiara Ferrari Le Square Kilometre Array (SKA) : un radiotélescope géant pour étudier l’aube et l’évolution du cosmos Reflets phys. N°67 (2020) 10-14

[2] C. Ferrari et al., French SKA White Book – ”The French community towards the Square Kilometre” Array ”, Published by the SKA-France Coordination in collaboration with AS SKA-LOFAR, arXiv:1712.06950, 2017.

[3] E. Boyer, P. Forster et P. Larzabal, ‘Non Asymptotic Performance Analysis of Beamforming with Stochastic Signals’, IEEE Signal Processing letters.Volume 11, Number 1, pp. 23-25, Jan 2004.

[4] E. Boyer, P. Forster et P. Larzabal, ‘ Nonasymptotic Performance Analysis of Beamforming for Deterministic Signals’, IEEE Signal Processing letters.Volume 11, Number 1, pp. 20-22, Jan 2004 .

[5] S. J. Wijnholds and A.-J. van der Veen, “Fundamental imaging limits of radio telescope arrays” IEEE Journal of Selected Topics in Signal Processing, vol. 2, no. 5, pp. 613

Profil du candidat :
Candidat ayant effectué un master en mathématiques appliquées et/ou traitement du signal.

Formation et compétences requises :
mathématiques appliquées (statistique, optimisation, apprentissage)

Adresse d’emploi :
ENS-ParisSaclay : 660 Av. des Sciences Bâtiment, 91190 Gif-sur-Yvette

Categories: theses

Offre de thèse au LAMSADE

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LAMSADE et IRISSO
Durée : 3 ans
Contact : alexis.tsoukias@dauphine.fr
Date limite de publication : 2022-06-30

Contexte :
financement CNRS prime80

Sujet :
Fairness by explanation in algorithmic decision making

Profil du candidat :
H/F

Formation et compétences requises :
Master in Computer Science with opening/minor in the Social Sciences.

Adresse d’emploi :
LAMSADE, Université Paris Dauphine

Document attaché : 202204101414_call4phd01.pdf

Categories: theses

[Thèse CIFRE] Nettoyage automatisé de données avec des réseaux de neurones profonds

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire I3S / Entreprise Himydata
Durée : 36 mois
Contact : lionel.fillatre@i3s.unice.fr
Date limite de publication : 2022-06-30

Contexte :
L’industrie 4.0 s’appuie sur la récupération et l’analyse de données provenant de nombreux capteurs et machines. La détection automatique non-supervisée d’anomalies dans ces données, suivie d’un nettoyage adéquat, est essentiel pour garantir le développement de cette nouvelle industrie. Ce projet de thèse souhaite développer un réseau de neurones profond pour effectuer ces détections et le nettoyage associé. L’architecture de ce réseau doit permettre de comprendre pourquoi le réseau nettoie, et donc modifie, une donnée. De cette façon, ce nettoyage automatisé sera explicable pour les utilisateurs impliqués.

La thèse sera réalisée avec le laboratoire I3S rattaché à l’Université Côte d’Azur et au CNRS et l’entreprise Himydata.

Sujet :
Le passage d’une industrie dite 3.0 à une industrie 4.0 se fait par la récupération de données en masse concernant les machines à l’aide de capteurs (positionnés à chaque étape du processus de production) qui sont les éléments de base des systèmes de contrôle et d’acquisition de données en temps réel. Cette quatrième révolution industrielle se caractérise aussi par la connexion des objets (ou machines) entre eux. Le but est d’obtenir une nouvelle génération d’usines connectées, robotisées et intelligentes afin de pouvoir surveiller sa production et donc d’améliorer la qualité et le temps de création des produits ainsi que d’optimiser les procédés. Cela va permettre aussi de réduire les temps d’arrêt en étant averti au préalable de l’état des machines.

Le but de l’entreprise Himydata associée à cette thèse est de rendre toutes ces données accessibles, compréhensibles et analysables par le plus grand nombre. Ce sont des bases de données complexes avec des données provenant de sources hétérogènes, possédant de nombreux attributs. Les règles sur ces données sont inconnues ou, dans le meilleur cas, très peu connues. De plus, les données provenant du monde réel sont bruitées et souvent corrompues. Ces effets peuvent avoir un impact important sur la compréhension des données, leur modélisation et sur les prises de décisions qui en découlent [1,2]. Ainsi, l’étape cruciale dans l’utilisation des données est la détection et le nettoyage des erreurs dans les données. En effet, en identifiant et en nettoyant les données « sales », il est possible d’obtenir une plus grande compréhension des données, d’améliorer les modèles se servant de ces dernières ou encore de prendre de meilleures décisions.

Profil du candidat :
Le candidat devra être titulaire d’un M2 ou grade équivalent au moment du recrutement.
Il devra aimer l’intelligence artificielle et l’apprentissage automatique.

Formation et compétences requises :
Apprentissage automatique (machine learning), réseau de neurones, probabilités et statistiques, Python (ou langage équivalent), autonomie, curiosité, esprit de synthèse.

Adresse d’emploi :
Université Côte d’Azur
Laboratoire I3S
Euclide B, 2000 Rte des Lucioles
06900 Sophia Antipolis

Document attaché : 202205162026_Sujet_These_Cifre_I3S_Himyadata_2022.pdf

Categories: theses

[Urgent] Intelligence artificielle pour la prévision de la demande dans la supply chain

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : L@bISEN Yncréa Ouest, Equipe Vision-AD
Durée : 3 ans
Contact : ayoub.karine@yncrea.fr
Date limite de publication : 2022-06-30

Contexte :
Suite à un désistement de la dernière minute. Nous cherchons un candidat pour la thèse CIFRE suivante.

Ces dernières années, la complexité de plus en plus croissante du monde économique ne cesse d’attirer l’attention des chercheurs et des industriels qui se lancent dans la digitalisation de leur entreprise. Plus particulièrement, les chaines d’approvisionnement et les milieux industriels comme les entrepôts et les réseaux de transport ne sont plus gérés comme des réalités singulières mais comme la résultante d’un ensemble d’interactions entre entités générant et partageant des données et des intérêts communs. Pour améliorer l’efficacité de la chaîne d’approvisionnement, il est primordial de pouvoir améliorer la prévision de la demande. Ceci a un impact sur la production, la planification des stocks, l’équilibrage de la demande et de l’offre, l’optimisation des processus de livraison et la réduction de ses délais, la prédiction des heures de pointe dans les centres logistiques et la planification des ressources humaines. D’un autre côté, comme ces entités sont imbriqués, les performances du système global sont directement liées aux performances des entités élémentaires. Les études récentes dans le domaine du management de la supply chain ont mis l’accent sur l’intérêt de la gestion décentralisée de ces entités.

Sujet :
– Objectif de la thèse :
L’objectif de la thèse consiste à répondre à la question suivante : comment réaliser une prévision à court terme pour les chaînes d’approvisionnement variées et décentralisées ? Les méthodes traditionnelles de prévision, y compris les techniques de séries chronologiques et de régression, ont été largement utilisées dans la prévision de la demande. Naïve, moyenne mobile, tendance, régression linéaire multiple, Holt-Winters, lissage exponentiel, ARIMA et ses variantes, font partie de ces techniques traditionnelles. Les approches basées sur l’apprentissage automatique, par renforcement, la SVM (Support vector machine), LSTM (Long Short-Term Memory) et les réseaux de neurones en général, font office de challengers dans le domaine de la prévision de la demande. Elles ont montré leur supériorité lorsque le nombre de variables prédictives est très grand, et quand les sources de données sont multiples. C’est le cas en environnement très variable, par exemple pour les produits sensibles aux intempéries ou les produits saisonniers, ou lorsque des dizaines de facteurs motivant les comportements d’achat ou de nombreux types de données sont impliqués, rendant la planification de la demande trop complexe pour être effectuée avec succès avec des outils classiques.
– Approches méthodologiques et techniques envisagées :
• Etat de l’art sur la modélisation et le traitement des données des milieux logistique afin d’améliorer l’existant
• Conception d’un outil de prévision et d’aide à la décision répondant à la problématique énoncée
• Vérification et test de la performance du système proposé en la comparant avec d’autres approches pratiques et théoriques
• Perspectives : proposer une approche qui prend en compte les acteurs et milieux logistiques

Profil du candidat :
Pour cette thèse, nous recherchons un(e) jeune doctorant(e) fortement motivé(e) et ayant un goût prononcé pour l’innovation. Il/elle devra participer au développement de prototypes qui s’intégreront dans les solutions utilisées par Generix Group et L@bISEN Yncréa Ouest.

Formation et compétences requises :
Concernant les aspects liés à la recherche, le/la candidat(e) devra être titulaire d’un Master avec des compétences en Machine Learning, intelligence artificielle et/ou gestion des données massives. Il/elle est aussi nécessaire qu’il/elle ait une expérience réussie dans le développement informatique des techniques cités précédemment, avec le langage Python par exemple.

Un bon niveau en mathématiques appliquées semble naturellement nécessaire, en particulier dans le domaine des probabilités, des statistiques et des processus stochastiques. Des notions d’optimisation, recherche opérationnelle, programmation linéaire et méthodes de décomposition serait un plus pour ce poste.
Une ouverture d’esprit suffisante pour s’intégrer dans une nouvelle équipe est demandée.

Adresse d’emploi :
laboratoire de recherche L@bISEN Yncréa Ouest – Nantes / Generix Group

Document attaché : 202202081021_Offre Thèse CIFRE 2022.pdf

Categories: theses

Jul

Fri

Reconstruction et segmentation de données IRM cérébrales fœtales par apprentissage profond

Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Neuroscience de la Timone
Durée : 3 ans
Contact : francois.rousseau@imt-atlantique.fr
Date limite de publication : 2022-07-01

Contexte :
Lab

La thèse se déroulera à l’interface entre deux laboratoires reconnus et dynamiques.

L’Institut de Neurosciences de la Timone (INT) est l’un des meilleurs instituts français de recherche en neurosciences avec 150 membres réunis en 10 équipes interdisciplinaires examinant différents aspects de l’organisation cérébrale. Il est situé sur le campus médical d’Aix-Marseille Université. Le candidat retenu rejoindra l’équipe interdisciplinaire MeCA ( https://meca-brain.org/) au sein de l’INT et interagira avec des neuroscientifiques, des médecins ainsi que des spécialistes de l’acquisition et du traitement de données en neuroimagerie.

La recherche à l’IMT Atlantique concerne près de 800 personnes, dont 290 enseignants et chercheurs et 300 doctorants, et porte sur les technologies numériques, l’énergie et l’environnement. Il couvre toutes les disciplines (des sciences physiques aux sciences humaines et sociales en passant par celles de l’information et du savoir) et couvre tous les domaines des sciences et des technologies de l’information et de la communication.

Date de début : Octobre 2022
Financement : Agence Nationale de la Recherche

Sujet :
Description du sujet :
On est de plus en plus conscient de l’importance de la détection précoce des anomalies du développement neurologique et de leur impact majeur tout au long de la vie. Affectant environ 10% des enfants, il peut entraîner des handicaps neurologiques et les charges qui en découlent. Deux tiers des cas de développement neurologique anormal peuvent être détectés avant la naissance, mais à l’heure actuelle, les troubles neurocomportementaux et cognitifs qui en résultent ne sont, dans la majorité des cas, détectés que plus tard dans l’enfance, ce qui empêche une intervention précoce et augmente l’impact sur la vie ultérieure. L’objectif est donc de décrire le développement cortical anormal dans les premiers stades du fœtus, en développant des biomarqueurs non invasifs dérivés de l’IRM et des outils informatiques spécifiques au fœtus, afin de prédire les individus présentant un risque plus élevé de développement post-natal anormal.

L’analyse quantitative d’images du cerveau fœtal in vivo joue un rôle essentiel dans la prise de décision clinique et la recherche en neurosciences [1]. Les avantages de l’IRM in utero par rapport à l’échographie dans l’étude du développement du cerveau ont été démontrés, notamment grâce au développement de méthodes de traitement et d’analyse d’images dédiées.

L’utilisation de l’IRM fœtale étant limitée, plusieurs centres doivent collaborer pour rassembler suffisamment de sujets, notamment pour la pathologie, ce qui pose d’importants défis techniques d’harmonisation. Dans le cadre de ce travail, une approche multicentrique sera mise en place en développant des stratégies d’apprentissage fédérées pour appliquer des solutions d’IA tout en préservant la confidentialité des données privées des patients. Les approches dont l’IRM adulte bénéficie depuis longtemps seront adaptées pour la première fois par ce projet aux études d’IRM du cerveau fœtal.

Le retard de croissance intra-utérin (RCIU), qui touche 5 à 10 % des grossesses, et l’agénésie du corps calleux (ACC), qui touche 1 grossesse sur 4 000, sont les deux applications principales visées ici pour explorer le développement cortical fœtal et identifier les déviations grâce à une analyse conjointe d’un ensemble de données multicentriques d’une ampleur sans précédent (>950 sujets) avec des outils informatiques dédiés. Ce travail de thèse s’inscrit dans le cadre d’un projet européen dont le but sera de fournir à la communauté mondiale des outils standardisés et efficaces pour transformer le diagnostic prénatal des anomalies du développement neurologique.

Ce travail de thèse vise à développer une méthode de reconstruction et de segmentation conjointe de données IRM fœtales, permettant d’unifier les étapes B et C illustrées sur la figure 1. La première étape consistera à s’inspirer de la méthode [5] développée à l’IMT pour l’adaptation aux données d’IRM foetales acquises à l’Hôpital de la Timone à Marseille et prétraitées à l’INT. Plusieurs axes d’améliorations seront ensuite considérés pour augmenter les performances. Cette méthode permettra d’extraire l’ensemble des mesures quantitatives (ex: volume, forme des structures anatomiques) à partir de données de moindre qualité résultant d’acquisitions contraintes par le contexte clinique. Les dernières années ont vu un développement sans précédent des méthodes d’apprentissage en traitement d’images médicales, et plus particulièrement basées sur l’apprentissage profond. Les réseaux de neurones convolutifs ont montré d’énormes performances dans de nombreuses tâches telles que la reconstruction ou la segmentation d’images à haute résolution. Dans un tel cadre, l’utilisation de tâches auxiliaires permet d’améliorer les performances et aussi les propriétés de généralisation. Il s’agira de développer une méthode prenant en compte à la fois les problèmes de reconstruction et de segmentation des données du cerveau fœtal en utilisant une représentation démêlée (“disentangle learning”) dans le but de fournir des algorithmes robustes pour une utilisation multi-sites. L’objectif est de représenter les données IRM en séparant les principales composantes (pose, contraste IRM, caractéristiques, etc.) afin d’améliorer notre interprétation des réseaux neuronaux et de s’affranchir des biais liés aux différents systèmes d’acquisition de chaque site.

Ce travail de thèse sera réalisé sous la direction de F.Rousseau et G.Auzias, en collaboration avec leurs équipes (Latim, https://meca-brain.org/). Il s’inscrit dans le projet européen MULTI-FACT (https://www.neuron-eranet.eu/projects/MULTI-FACT/) rassemblant des équipes de 4 pays (France, Espagne, Suisse, Allemagne). Le candidat sera donc amené à collaborer directement avec ces équipes de renommée internationale.

Profil du candidat :
Les candidats doivent être titulaires d’un diplôme de master (ou ingénieur) en traitement des images ou en mathématiques.

Formation et compétences requises :
Les compétences requises pour mener à bien ce travail concernent l’apprentissage machine, le traitement d’images et les mathématiques appliquées. Des connaissances en informatique et en programmation (Python) seront également requises afin de développer les algorithmes associés.

Adresse d’emploi :
Contact
Guillaume Auzias
email : guillaume.auzias@univ-amu.fr

François Rousseau
email : francois.rousseau@imt-atlantique.fr

Document attaché : 202205021012_2022_These_EraNet.pdf

Categories: theses

Jul

Sun

Statistical learning for satellite SAR image based Earth deformation observation

Jul 3 – Jul 4 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : LISTIC (Université Savoie Mont-Blanc)
Durée : 3 years
Contact : guillaume.ginolhac@univ-smb.fr
Date limite de publication : 2022-07-03

Contexte :
The thesis will be funded by the ANR REPED-SARIX project and will be start from the 1st September 2022 (or possibly october 1st).

Keywords : SAR interferometry, robust statistics, recursive estimation, missing data imputation, time series.

Sujet :
The systematic acquisition of and free access to Sentinel-1 A/B Synthetic Aperture Radar (SAR) images covering Europe every 6 days (every 12 days elsewhere) provide scientists with both opportunities and challenges for operational monitoring of Earth deformation by SAR image time series. For displacement estimation from SAR image time series, numerous multi-temporal Interferometry SAR (InSAR) methods, such as Small BAseline Subset, Permanent Scatterer Interferometry, SqueeSAR, Phase Linking methods, Multi-link InSAR, CAESAR, Least-Square estimator and EMI, have been extensively developed and implemented. Thanks to these methods, the accuracy of the displacement velocity estimation has been revolutionized to millimeters per year. However, these methods are mainly retrospective analysis tools and do not allow efficient gradual integration of new SAR images that arrive over time and it is necessary to restart part of or
the whole displacement estimation processing chain, which would be prohibitively expensive in practice and does not answer the need for operational monitoring. Therefore, it is still necessary to develop more elaborated recursive multi-temporal InSAR methods allowing for efficient gradual integration of new arriving SAR images and considering non Gaussianity of data statistics.

In this Ph.D thesis, we aim to develop a novel robust and recursive multi-temporal InSAR approach for operational displacement estimation from SAR image time series. We consider the state-of-theart Phase Linking approach as the baseline approach in which the sample covariance matrix of SAR image time series is fully exploited. First, we propose a sequential or recursive estimation of the covariance matrix of SAR images, taking into account the structure of the covariance matrix that is
directly related to the decorrelation properties of the targets under observation. Second, we integrate temporal decorrelation models (with possible unknown parameters) providing prior information on the structure of the covariance matrix in the sequential or recursive estimation process in order to improve the efficiency. We then deploy the Expectation – Maximization (EM) algorithm to estimate jointly the unknown model parameters and the covariance matrix in an
iterative way. The displacement time series can be later obtained from the properly estimated covariance matrix. This displacement times series is finally used to estimate physical parameters of the deformation source in depth. However, missing data can exist in the displacement time series, mainly due to the coherence loss that results in unreliable displacement estimations. Data gaps can hinder the full understanding of the phenomenon under observation. Therefore, the third objective
of this Ph.D consists of imputing missing data in displacement time series, with the missing data mechanism taken into account by assuming statistical laws and estimating the parameters that describe these statistical laws.

We consider the ‘’Piton de la Fournaise’’ and Merapi volcano test sites as proving ground for the developed approach in this Ph.D thesis. Both descending and ascending Sentinel-1 A/B acquisitions are available. GPS measurements from permanent GNSS stations are also available for results comparison and validation.

Profil du candidat :
The Ph.D candidate should have good skills in mathematics/statistics and/or signal/image processing. Knowledge in Interferometry SAR is appreciated.

Formation et compétences requises :
Statistics, Optimisation, Python, Remote Sensing.

Adresse d’emploi :
LISTIC, Annecy, FRANCE.

Document attaché : 202203071519_sujet_these_InSAR_en2022.pdf

Categories: theses

Jul

Sun

Assimilation of geodetic data for natural hazards forecasting

Jul 10 – Jul 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 3 ans
Contact : yajing.yan@univ-smb.fr
Date limite de publication : 2022-07-10

Contexte :
This Ph.D thesis is proposed along with the increasing and regular availability of the amount of remote sensing data and the response to the requirement of operational prediction of natural hazards. The main objective is to improve the near-real-time integration of remote sensing data and dynamical geophysical models for the mitigation of natural hazards. This thesis is partly (50%) funded by the national action plan in Artificial Intelligence. The relevance of the methodology developed in this thesis 1) compared to the actually emmerging data-driven methods, lies in the incorporation of geophysical knowledge (which helps increase the interpretability and the accountability of the results for operational purpose) and its near-real-time implementation ; 2) compared to previous attemps to improve the near-real-time integration of InSAR data based on
the Kalman Filter, lies in the capability in taking non-Gaussian error statistics (which can represent better the reality) into account. First application will be in volcanology, using InSAR & GNSS data, but the methodology can be easily utilized for other natural hazards (e.g. landslides, slow slip, etc.), as well as for anthropogenic hazards like forest fire.

Sujet :
In a perspective of volcanic hazard assessment, it is fundamental to be able to know, in advance, if magma that has started to propagate from a reservoir will reach the surface, where and when. The propagation phase is generally rapid, lasting a few hours to a few months but it induces
seismicity and deformation signals. These signals are recorded by continuous sensors (GNSS) and InSAR data whose temporal sampling frequency as well as latency have been greatly improved in recent years. In addition, we have dynamic magmatic intrusion propagation models that can be used to calculate, depending on the physical parameters of the Earth’s crust, the properties of the magma and the state of local stress, the trajectory followed by the magma and its propagation velocity (Pinel et al. 2017). Data assimilation, a method that combines a dynamic model with observations at present and in the past based on error statistics and predicts the future state of the observed system, is therefore an appropriate tool to respond to the need to be able to predict
the position and timing of an eruption in volcanology.

Among numerous data assimilation methods, the particle filter is distinguished from others by its great ability to deal with non-linear models and non-Gaussian error statistics (van Leeuwen P.J 2009, van Leeuwen P.J, 2010). The particle filter is based on a representation of the probability density of the dynamic model by a discrete set of states of the model (namely particles) and relies on the Bayes theorem so without worrying about the distribution of model errors (different from most other data assimilation methods which assume a Gaussian distribution of the errors). The evolution of the probability density of the model is realized through the propagation of all the particles (states of the model) over time following the model equation (the physics). When
observations of the system are available, the relative contributions of the particles are modified so that the information available in the observations is integrated into the particles swarm. The particle filter does not directly correct the values of particles, but their relative contributions, this is very important for estimating magmatic intrusion propagation trajectories. The particle filter is therefore the appropriate tool in the present specific context of estimating the position of a volcanic eruption.

In this thesis, we will develop an efficient data assimilation strategy using the particle filter allowing to use timely available geodedic data to predict the location and timing of eruptive vents induced by magmatic intrusion propagation. This work will be based on the Ph.D thesis of Mary Grace Bato who, under our supervision and for the first time, successfully applied sequential data assimilation techniques (i.e. Ensemble Kalman Filter) to volcanological problems focussing on the pressurization and rupture of magmatic reservoirs (Bato et al, 2017, Bato et al., 2018). Moreover, this thesis will benefit from the results obtained in the TOSCA AssimSAR project (2018-2019). It will be part of the Franco-German ANR MagmaPropagator (ANR-18-CE92-0037, 2019-2022) with an application to Piton de la Fournaise volcano. It will also be the oppotunity to collaborate with Andy Hooper from the University of Leeds, who is developping new methods to automatically extract a physical signal from InSAR time series (Gaddes et al, 2019).

Selected references :
1) Bato M.-G., Pinel V., Yan Y., Jouanne F., Vandemeulebrouck J., “Possible deep connection between volcanic systems evidenced by sequential assimilation of geodetic d”, Scientific Reports, Nature Publishing Group, 2018, https://doi.org/10.1038/s41598-018-29811-x
2) Bato M.-G., Pinel V., Yan Y., “Assimilation of Deformation Data for Eruption Forecasting: Potentiality Assessment Based on Syntheti”, Frontiers in Earth Science, Frontiers Media, 2017, pp.doi: 10.3389/feart.2017.00048
3) Dalaison, M., Jolivet, R., A Kalman filter time series analysis method for InSAR, Journal of Geophysical Research : Solid Earth , 2020, e2019JB019150. e2019JB019150 2019JB019150.
4) Gaddes, M. E., Hooper, A., Bagnardi, M. (2019), Using machine learning to automatically detect volcanic unrest in a time series of interferograms, Journal of Geophysical Research : Solid Earth , 124(11), 12304–12322.
5) Pinel V., Carrara A., Maccaferri F., Rivalta E., Corbi F., A two-step model for dynamical dike propagation in two dimensions: Application to the July 2001 Etna eruption, 2017, Journal of Geophysical Research, vol. 122, doi:10.1002/2016JB013630.
6) van Leeuwen P.J., Review Particle Filtering in Geophysical System, Mathematical Advances in Data Assimilation, 2009, pp. 4089-4114.
7) van Leeuwen P.J. Nonlinear data assimilation in geosciences : an extremely efficient particle filter, 2010, Quarterly Journal of the Royal Meteorological Society, vol. 136, pp. 1991-1999.

Profil du candidat :
The Ph.D candidate should have good skills in signal/image processing,
mathematics/statistics or geophysics.

Formation et compétences requises :
mathematics/statistics, image processing, remote sensing

Adresse d’emploi :
Laboratoire d’Informatique, Systèmes, Traitement de l’Information et de la Connaissance, Université Savoie Mont-Blanc, Annecy, France

Document attaché : 202203081350_sujet_these_DA_volcan_en2022.pdf

Categories: theses

Comparaison et coopération d’approches en analyse de concepts formels pour les données relationnelles

Jul 10 – Jul 11 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : ICube Strasbourg et IRISA Rennes
Durée : 36 mois
Contact : florence.leber@engees.unistra.fr
Date limite de publication : 2022-07-10

Contexte :
Dans les données disponibles pour l’analyse, beaucoup ont un caractère relationnel : données spatiales, temporelles, ou décrivant des liens entre individus. Les méthodes traditionnelles ne sont pas adaptées à ce type de données, qui nécessitent des approches spécifiques, incluant des techniques d’agrégation. Parmi ces approches, l’analyse relationnelle de concepts et l’analyse conceptuelle de graphes sont dérivées de l’analyse de concepts formels (ACF) [1], qui est une méthode mathématique de classification, largement appliquée sur différents types de données et dans de nombreux domaines (par exemple [2,3]). Elle consiste, à partir d’une table (appelée contexte) décrivant des objets par des attributs, à construire un treillis de concepts, i.e. des couples (extension ; intension) d’ensembles fermés décrivant les objets et les attributs qui les définissent.
L’analyse relationnelle de concepts (ARC) [4] considère deux types de contextes, des contextes objets-attributs et des contextes objets-objets décrivant les relations entre objets. L’ARC étend les contextes objets-attributs par des attributs relationnels de la forme qrC, où q est un quantificateur, r une relation et C un concept issu du co-domaine de r. Le résultat de l’ARC est une famille de treillis (un par contexte objets-attributs) reliés entre eux par ces attributs relationnels : un concept d’un treillis représente un groupe d’objets caractérisé par des attributs simples et des attributs relationnels renvoyant à des concepts d’un autre treillis.
L’analyse conceptuelle de graphes (Graph-FCA) [5] a pour contextes des hypergraphes où les nœuds sont les objets et où les hyperarcs sont étiquetés par des attributs. Un hyper-arc unaire a(o) correspond à la description d’un objet par un attribut, comme dans l’ACF. Un hyper-arc binaire a(o1,o2) correspond à une relation ‘a’ de o1 vers o2, comme les attributs relationnels dans RCA. Les relations n-aires sont représentées par des hyperarcs n-aires a(o1,…,oN). Un concept de graphe représente un ensemble de tuples d’objets (extension) qui peuvent être vus comme les réponses exhaustives à une requête conjonctive (intension), par exemple (x,y) ← a1(x,z), a2(y,z), et où cette requête exprime tout ce que ces tuples ont en commun.

Sujet :
Cette thèse s’inscrit dans le cadre de l’ANR SmartFCA, qui regroupe 5 équipes françaises travaillant dans le domaine de l’ACF et dont l’objectif est de mettre à disposition une plateforme rassemblant les différentes variantes de cette méthode. Plusieurs ingénieurs seront affectés au développement de cette plateforme.

Objectifs de la thèse : Cette thèse a pour but de mener une comparaison théorique et expérimentale des deux approches ARC et Graph-FCA, de proposer des éléments pour faire coopérer les deux approches, et de définir un guide méthodologique d’usage (modélisation des données, valeurs des paramètres, choix des algorithmes, etc.). Les résultats, algorithmes et guide méthodologique, seront intégrés dans la plateforme développée dans le cadre du projet ANR SmartFCA.
Les liens entre les deux approches ont déjà été abordés [6,7,8] et la thèse doit approfondir ces travaux. II s’agira dans un premier temps d’étudier et de comparer les deux approches, à partir des outils existants, en les testant sur des jeux de données relationnels fournis par les partenaires du projet. On s’intéressera en particulier à proposer un modèle déclaratif de l’ARC qui est actuellement définie de manière itérative. On s’intéressera aussi à la coopération entre l’ARC et Graph-FCA par la définition des structures de données permettant de les rendre interopérables.
Le caractère explosif des approches fondées sur l’ACF conduit à utiliser des algorithmes ne calculant qu’une sous-partie des concepts ou des treillis : AOC-poset [9], approches exploratoires, calcul de voisinages, estimation des résultats à partir du choix des paramètres [10,11] … Ces variantes seront aussi étudiées et permettront de définir un cadre méthodologique d’utilisation de l’ARC et de Graph-FCA incluant ces différentes options ainsi que des éléments pour guider leur usage. Le travail sera mené en coopération avec un ingénieur chargé des développements dans la plateforme.

Apports attendus :
• Avancées théoriques sur les méthodes ACF
• Développements méthodologiques
• Expérimentations et validation sur des données réelles

Profil du candidat :
Informatique, science des données, formalisation
• Curiosité, capacité à appréhender différents domaines et à interagir avec les experts de ces domaines

Formation et compétences requises :

• Master 2 en Informatique ou équivalent
• Formation en logique, représentation de connaissances et programmation

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch Cedex –

Document attaché : 202205301313_these_RCA_GraphFCA.pdf

Categories: theses

Introduction de capacités de rejet et de modèles de langage externalisés dans des systèmes d’apprentissage profond pour la lecture de texte en conditions difficiles