Modelling partially observed dynamical systems with continuous-depth models

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISN/INRIA
Durée : 6 mois
Contact : thibault.monsel@universite-paris-saclay.fr
Date limite de publication : 2024-01-31

Contexte :
This internship is part of a larger project dedicated to building a bridge between Machine Learning and Dynamical Systems : inferring models more robust and less data hungry thanks to physics-based constraints, inspecting the behavior of the models, providing some online guarantees, and relating Physics and computational regularities to improve the model understanding and assessment. The connection between Physics and Machine Learning is nowadays considered in both directions and the scientific construction of this domain is underway. The internship will focus on developing new approachs of modelling dynamical systems as a whole. For the first part of the internship, the intern will get up to speed with continuous-depth models like href{https://arxiv.org/abs/1806.07366}{neural ODE} and href{https://arxiv.org/abs/1904.01681}{augmented Neural ODE}. For the second part of the internship, new research ideas will be explored like href{https://arxiv.org/pdf/2306.14545.pdf}{delayed differential equations}. The candidate is expected to be proactive and have a keen sense of critical thinking. The aim of the internship will be to publish the work in a conference/journal.

Sujet :
Modelling partially observed dynamical systems with continuous-depth models

Profil du candidat :
The candidate should have a solid background in statistics, machine learning and/or applied maths;
knowledge in Python language is required with frameworks like Pytorch/ Tensorflow/JAX. Some background in physics is appreciated too since the intern will train models on datasets from numerical simulations of physical systems. Any knowledge and experience in functional programming is a bonus.

Formation et compétences requises :
The candidate should have a solid background in statistics, machine learning and/or applied maths;

knowledge in Python language is required with frameworks like Pytorch/ Tensorflow/JAX. Some background in physics is appreciated too since the intern will train models on datasets from numerical simulations of physical systems. Any knowledge and experience in functional programming is a bonus.

Adresse d’emploi :
Campus Universitaire bâtiment 650, 1 rue Raimond Castaing, 91190 Gif-sur-Yvette

Document attaché : 202312041200_Offre_Stage_LISN_INRIA_M2.pdf

Data Integration and Querying through Scalable Neural Data Representations for Data Lakes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne Université
Durée : 6 mois
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2024-03-31

Contexte :
Data lakes are collections of massive heterogeneous datasets hosted in a variety of storage systems. In contrast to data warehouses where the data has been transformed to answer specific queries, data lakes store raw unformatted data ranging from structured data such as relational tables, semi-structured data such as JSON documents, and unstructured data such as textual documents with no predefined schema or data model. Integrating such heterogeneous data is a crucial steps towards providing a unified and coherent view of the information within a data lake; however, traditional integration approaches still have difficulties when dealing with disparate data and fail at uncovering hidden relations within.

Neural data representations for databases are a novel approach for revealing hidden, latent information within the data using deep learning approaches. Some applications for queries over neural representations of data include fact-checking, table metadata generation, and content prediction in relational tabular data, as well as the discovery of missing links in knowledge graphs. However, neural data representations approaches cannot yet be applied to data lakes since they lack expressiveness to perform complex query and they do not handle large volumes of data efficiently

Sujet :
In this project, we aim to investigate and develop new methods for integrating and querying heterogeneous data within data lakes using deep learning models. This raises the following technical challenges: how to encode the semantics of heterogeneous datasets into the embedding learning process, reconciling datasets with different schemas and with incomplete and noisy data.

Internship goals and tasks:
• Literature review: Conduct a comprehensive literature review to understand existing methods and frameworks starting by the three categories presented above: Neural Tabular Data Representations, Knowledge Graph Embeddings, and Scaling Up Neural Representations of Databases.
• Data collection: Collection of a diverse range of heterogeneous data sources, including structured (e.g., tables) and unstructured data. For structured data, there exists several datasets such as WikiTables-TURL, WDC Web Table Corpus and VizNet. These datasets are used for different tasks such as question answering, semantic parsing, table retrieval, table metadata prediction and table content population.
• Scalable Querying of Neural Data Lakes: executing queries that necessitate the combination of results from these diverse neural data representations. This approach aims to deliver more complete answers, surpassing what can be achieved by querying each model in isolation.
• Comparative evaluation: Design experiments and benchmarks to evaluate the effectiveness of the proposed approach in generating embeddings for querying data lakes. Note that existing benchmarks are specific to certain downstream tasks such as question answering and fact checking for tabular data, and link prediction for knowledge graph; so the challenge of this tasks on designing a benchmark to test the intrinsic capabilities of neural representations of data lakes.

Profil du candidat :
Computer Science

Formation et compétences requises :
The candidate should have excellent experience in algorithmic and programming in Python and advanced knowledge in machine learning and relational and non-relational databases.

Adresse d’emploi :
LIP6, Sorbonne Université. 4 Place Jussieu75005 Paris.

Document attaché : 202312041116_Stage_LIP6_2024.pdf

Caractérisation de traits histocytologiques complexes par Deep Learning

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2024-03-31

Contexte :
Ce stage s’inscrit dans le contexte du projet IRC Agropolis “Upland rice”. Pour les plantes cultivées en conditions d’immersion (riz), le fonctionnement des parties inondées requiert la présence d’aérenchymes pour la circulation des gaz. Cependant la présence d’aérenchymes réduit les capacités de transport de l’eau. Le motif anatomique final de la racine résulte d’un compromis qui varie avec les variétés et les environnements de culture. Afin de mieux comprendre les déterminants de ce compromis, plusieurs campagnes d’observation ont été menées sur des panels de plantes. Des milliers de coupes de racines ont été observées en microscopie à épi-fluorescence (exemple : image en en-tête).
Sur ces coupes, les aérenchymes se distinguent des cellules par une géométrie atypique, avec des parois irrégulières, et un allongement prononcé dans le sens radial. Des premières analyses de ces structures ont été menées à l’aide d’un outil d’analyse semi-automatique, qui réalise la segmentation des cellules et laisse l’identification des structures complexes à la charge des experts biologistes. Le temps de traitement est très long, ce qui empêche de mener à bien l’étude des données disponibles (plusieurs milliers images) et de construire des conclusions d’intérêt agronomique.

Sujet :
L’objectif du stage est de développer un pipeline d’analyse d’images automatique pour la segmentation des aérenchymes et l’estimation de traits complexes : ratio aérenchymes/cortex, ratio stele/cortex, identification des assises cellulaires et des rayons. Dans ce but, le stagiaire aura la responsabilité de réaliser des expérimentations avec des outils de l’état de l’art (modèles dédiés plante et modèles “fondation”), et de concevoir une solution technique open-source qui sera mise à disposition via un démonstrateur.

Profil du candidat :
Master 2 ou école d’ingénieur. Ce stage est une opportunité accessible à des étudiants(e)s provenant d’une école en informatique, en modélisation mathématique, en analyse d’images, formés en deep learning. Le goût pour le travail en équipe à l’interface entre plusieurs disciplines (maths-info, microscopie, agro) sera nécessaire. Un intérêt scientifique pour l’intelligence artificielle appliquée à l’analyse d’images serait un plus.

Formation et compétences requises :
Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue). Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée, ainsi qu’une expérience avec une bibliothèque de Deep Learning (PyTorch, Keras, TensorFlow, …) et de Machine learning (Scikit-learn).

Adresse d’emploi :
Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez. La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi.

Document attaché : 202312022235_Offre de stage M2 – Deep aerenchymes.pdf

Etude et spécification d’indicateurs de performance pour l’apprentissage de l’anatomie

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS Lyon
Durée : 5-6 mois
Contact : beatrice.fuchs@univ-lyon1.fr
Date limite de publication : 2024-03-31

Contexte :
Le travail mené dans le cadre de ce stage s’effectuera au sein du projet ANR MODELI+ et pourra se poursuivre en thèse de doctorat (financement acquis).
Le projet MODELI+ vise la conception pluridisciplinaire d’un outil 3D interactif innovant pour l’apprentissage de l’anatomie, adaptable aux apprenants et ancré dans les Learning Analytics et l’apprentissage instrumenté. Partant d’un constat d’échec important en première année de licence STAPS, MODELI+ vise à améliorer la réussite dans des filières en tension où l’on enseigne l’anatomie.
Il s’agit d’utiliser des outils numériques adaptés aux besoins des apprenants pour améliorer leur apprentissage. Une analyse pluridisciplinaire de leurs activités et de leurs caractéristiques à l’aide de traces sera menée pour comprendre les facteurs de réussite ou d’échec et ainsi assister les formateurs à concevoir des parcours adaptés.

Sujet :
Ce stage vise à étudier/spécifier un premier ensemble d’indicateurs de performance (domaine des Learning Analytics) et à concevoir le modèle de trace nécessaire à leur mise en œuvre et leur évaluation.
Tâches envisagées :
– Réaliser une revue de littérature dans le domaine des Learning Analytics/EDM, indicateurs de prédiction, explicabilité de la performance
– Étudier l’outil 3D interactif existant
– Spécifier un premier ensemble d’indicateurs
– Établir un premier modèle de trace (quels observations, événements à collecter) pour : a) avoir une première représentation de l’activité de l’apprenant ; b) calculer les indicateurs précédemment spécifiés.
– Mettre en œuvre une évaluation du modèle proposé.

Profil du candidat :
Des connaissances en science des données, apprentissage automatique et/ou EIAH seraient appréciées.

Formation et compétences requises :
Le candidat doit suivre actuellement une formation de niveau Master 2 ou ingénieur en informatique (ou équivalent, Bac+5).

Adresse d’emploi :
LIRIS UMR 5205 CNRS
Université Lyon 1

Document attaché : 202312011059_Stage M2R indicateurs de performance pour l’apprentissage de l’anatomie.pdf

Classification automatique des domaines de connaissance d’entrées lexicographiques

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ERIC (visites au LIRIS)
Durée : 4 à 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2024-03-31

Contexte :
Ce stage s’inscrit dans un projet interdisciplinaire dont l’objectif consiste à conduire des études exploratoires en traitement automatique de données lexicographiques extraites du Dictionnaire Universel François- Latin de Trévoux (DUFLT). Dans ce contexte, le travail de stage s’intéressera à l’expérimentation de méthodes d’apprentissage automatique pour l’entraînement de modèles de classification afin d’identifier automatiquement les domaines de connaissance dans les articles du DUFLT. De manière générale, nous souhaitons dresser une liste des domaines et sous-domaines de connaissances mentionnés dans chacune des éditions du corpus, afin de quantifier et de comparer la place qu’ils occupent. Cela permettra de mettre en évidence l’évolution qualitative et quantitative de ces domaines dans la série DUFLT entre 1704 et 1771. Dans le cadre du stage, l’expérimentation portera sur les éditions de 1743 et 1771 que nous avons au format numérique.

Sujet :
Le ou la stagiaire devra s’appuyer sur les récentes avancées en intelligence artificielle et en TAL pour proposer des solutions pour la classification des textes. Nous nous intéresserons en particulier aux approches neuronales pour la modélisation thématique et aux plongements de mots (ainsi que d’unités plus grandes : phrases, alinéas, articles) pour la modélisation et la spécialisation de modèles de langues. Le volume limité et la segmentation temporelle d’un corpus historique en ancien français rendra difficile l’utilisation pure et simple des modèles pré-entraînés sur des données modernes comme CamemBERT, FlauBERT, BARthez. Un premier objectif sera alors d’évaluer les performances de ces modèles de langues pour la tâche de classification supervisée et de comparer les résultats entre les deux éditions du corpus. Pour cette tâche, le ou la stagiaire pourra s’appuyer sur nos premiers résultats obtenus dans le cadre du projet GEODE sur l’Encyclopédie de Diderot et d’Alembert.

Profil du candidat :
Stage pour un niveau BAC+5 en Informatique (stage de fin de M2, PFE)

Formation et compétences requises :
Des compétences sont attendues en programmation et en science des données (Machine Learning et Deep Learning). Des connaissances en traitement automatique de la langue (TAL) seront appréciées.

Adresse d’emploi :
Laboratoire ERIC, Université Lyon 2, Bron (principalement), avec des visites au laboratoire LIRIS, INSA Lyon, Campus La Doua, Villeurbanne.

Document attaché : 202312010935_Sujet_stage_2024_ASLAN_PreEMADIT.pdf

Estimation probabiliste des indicateurs de santé de systèmes complexes

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRT SystemX / Ecole Polytechnique, Palaiseau
Durée : 36 mois
Contact : faicel.chamroukhi@irt-systemx.fr
Date limite de publication : 2024-03-31

Contexte :
Au sein de l’Institut de Recherche Technologique SystemX, situé au coeur du campus scientifique d’excellence mondiale
de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau
international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche
français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de
générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique
et de diffuser ses compétences dans tous les secteurs économiques.
Plus particulièrement au sein de l’IRT SystemX, le doctorant sera rattaché au domaine scientifique « Sciences des données
et Intelligence Artificielle ». Le sujet de thèse a été initié par le consortium réuni dans le cadre du projet « Jumeaux
Numériques pour la Maintenance Prédictive et Indicateurs de Santé (JNI3) » du programme « Jumeaux Numériques pour
la résilience et la durabilité des systèmes Industriels » (JNI) de l’IRT SystemX. Ce projet vise à développer et mettre en
oeuvre des Jumeaux Numériques (JNI) pour le suivi de l’évolution de l’état de santé des systèmes industriels. Il se focalise
sur la définition de jumeaux numériques capables d’acquérir des données en temps réel, et de les exploiter pour fournir
une estimation de l’état de santé du système industriel.
La direction de la thèse sera assurée par Jesse Read du laboratoire d’informatique de l’École Polytechnique (LIX), UMR
7161 et la thèse sera inscrite à l’école doctorale IP Paris (#626). Le doctorant bénéficiera également d’un encadrement
scientifique à l’IRT par Rim Kaddah. De plus, il pourra interagir avec des industriels qui proposent des cas d’usage concrets.
Le poste est basé sur le site de l’IRT SystemX à Paris-Saclay, avec des déplacements réguliers au LIX. Hormis les
déplacements en conférences internationales, un séjour de longue durée dans un laboratoire à l’étranger est envisagé.
La date souhaitée de démarrage de la thèse est le 01/01/2024. La rémunération de la thèse est de 2784€ brut mensuel sur
3 ans.

Sujet :
CONTEXTE SCIENTIFIQUE
Cette thèse porte sur l’estimation de l’état de santé de systèmes industriels complexes à partir de données de capteurs
récoltées au cours du temps pour le suivi de tels systèmes, tout en prenant en compte la physique régissant leur
fonctionnement. Elle se focalise sur l’estimation probabiliste pour l’apprentissage d’indicateurs de santé pouvant
permettre d’avoir une estimation continue, idéalement en temps réel, de l’état de santé du système, passant d’un état
fonctionnel vers un état possiblement dégradé, tout en pouvant intégrer un ensemble d’états intermédiaires.
La prise en compte de la physique régissant le système étudié permet de combiner des caractéristiques invariantes avec
des informations apprises à partir de données mesurées/observées. L’objectif de cette hybridation est de quantifier et
limiter l’incertitude liée à l’estimation des indicateurs de santé au cours du cycle de vie du système réel. La construction
de tels indicateurs de santé du système via la modélisation proposée devra pouvoir mettre en évidence, via de propriétés
statistiques quant à la capacité de détection de variables ou de co-variables pertinentes à la prédiction, la pertinence de
considérer séparément des indicateurs préconstruits ou via une « combinaison » et ou une « sélection » de sousensembles
de ceux-ci, selon la pertinence finale sur l’indication de l’état de santé du système étudié.
RESULTATS ATTENDUS ET APPROCHE SCIENTIFIQUE DE LA THESE
Les travaux attendus de cette thèse ont pour objectif de développer des méthodes d’apprentissage automatique dotées
de constructions probabilistes pour l’estimation d’indicateurs de santé d’un système industriel physique (eg. Moteur
aéronautique générique, Centrale d’hydrogène) capables de :
– Exploiter des données acquises à partir du système industriel physique (moteur , centrale d’hydrogène), et fournir
une estimation probabiliste de l’ état de santé de celui-ci en fonction de différents indicateurs de santé
préalablement identifiés par le secteur métier ou sélectionnés par la méthodologie développée;
– Prendre en compte la physique régissant les systèmes étudiés à partir des lois sous-jacentes au système (e.g., lois
d’émission d’hydrogène en milieu fermé en vue de la détection de fuite) ou à partir des données simulées de
celui-ci (eg. moteur générique d’avion), pour enrichir le modèle d’apprentissage à partir de données observées
– Sélectionner et/ou construire les indicateurs de santé les plus pertinents à l’élaboration du modèle de santé à
partir des flux de données collectées sur le système industriel, en tenant compte non seulement de la prédictivité
du modèle mais également de son interprétabilité (au sens de la cohérence avec la physique).
– Implémenter une méthode d’estimation de RUL (Remaining Useful Life, durée de vie restante) détectant les signes
précurseurs de dégradation du système en vue d’optimiser sa durée de vie.
Les directions de recherches qui seront explorées dans cette thèse sont :
– Recours à des approches d’apprentissage statistique permettant de caractériser de façon continue l’évolution
incertaine du système étudié à partir de séries temporelles de mesures. Parmi les pistes à explorer durant la phase
d’étude bibliographique, l’inférence bayésienne et l’apprentissage par renforcement (éventuellement profond)
sont envisagés.
– Sélection / fusion de variables permettant de mettre en évidence les indicateurs (variables) les plus pertinent.es
à la prédiction ; Typiquement la prédiction à l’instant t devrait être optimisée pour les différentes variables
d’entrée (corrélation, redondance et fusion d’indicateurs éventuellement … etc), par exemple en optimisant
l’espace d’entrée (sélection de variables) et ou l’espace latent et ce par régularisation par exemple ; …
– Prise en compte de l’aspect temporel des observations et de la prédiction : Il ne s’agit pas seulement d’estimer
l’état du système à l’instant t , mais de prédire l’évolution continue de cet état jusqu’à l’instant t+h avec h>1..
Cela implique nécessairement d’implémenter une méthode de quantification d’incertitude à chaque instant, dans
une optique de certifiabilité et d’interprétabilité. L’aspect physique du système peut être représenté par les
paramètres simulées à partir d’une version générique du système réel (eg. pour le cas de moteur générique) ou
par les paramètres des lois simulés ou estimées pour le cas d’application de propagation d’hydrogène dans un
milieu fermé.
Cas d’usage : Les cas d’usage qui seront étudiés dans cette thèse sont :
– Pour l’estimation de l’état de santé des moteurs aéronautiques (Safran) : La surveillance des moteurs est un sujet
bien connu et largement étudié, qui s’avère essentiel pour l’industrie aéronautique. Une approche populaire
consiste à construire des indicateurs liés à la physique (par exemple, rendement et débit d’air des modules)
reflétant les états de santé des systèmes en exploitant les mesures opérationnelles (c’est-à-dire les données des
capteurs pendant les vols comme la température de sortie de gaz, débit du carburant, etc.). Cette approche relève
de la catégorie des problèmes inverses, appliquée ici à un modèle du moteur. Estimer l’évolution de ces
indicateurs de santé et exploiter/interpréter cette estimation est crucial pour concevoir des stratégies de
maintenance prédictive des moteurs aéronautiques. Deux des défis principaux sont d’une part la rareté des
données (y compris les limitations dans le choix des capteurs ainsi que le manque d’étiquettes de vérité terrain),
et d’autre part la complexité du système (impliquant souvent un grand nombre d’équations thermodynamiques,
et des non-linéarités).
– Pour l’estimation en vue de détection de fuites d’hydrogène : Données prélevées à partir de sondes IoT sur banc
d’essais
CALENDRIER PREVISIONNEL DE LA THESE
Le calendrier prévisionnel de la thèse est le suivant :
– Les 6 premiers mois de la thèse seront consacrés à une étude bibliographique portant sur les principaux axes
mentionnés dans le sujet, visant à préciser les premières directions des travaux ;
– De premières expérimentations de compréhension du contexte et de prise en main des questions appliquées et
industrielles sur des données provenant des cas d’usages identifiés par le projet JNI3 seront aussi effectuées en
cette période de début de thèse ;
– Ensuite, les directions envisagées à la suite de l’étude bibliographique seront approfondies, développées,
implémentées et appliquées aux données du projet JNI3 ainsi que sur les données de la communauté ;
– Les travaux effectués seront diffusés sous la forme de publications scientifiques dans les grandes conférences et
revues du domaine des sciences de données et de l’IA, mais aussi sous la forme d’outils et de démonstrateurs
logiciels dans le contexte du projet JNI3.
QUELQUES REFERENCES BIBLIOGRAPHIQUES
– Blanchard, Serge & Cottrell, Marie & Lacaille, Jérôme. (2009). Health monitoring des moteurs d’avions. Lire en
ligne
– Chao, MA, Lilley, DS, Mathé, P, & Schloßhauer, V. “Calibration and Uncertainty Quantification of Gas Turbine
Performance Models.” Proceedings of the ASME Turbo Expo 2015: Turbine Technical Conference and
Exposition. Volume 7A: Structures and Dynamics. Montreal, Quebec, Canada. June 15–19, (2015). Lire en ligne
– Tsirizo Rabenoro. Outils statistiques de traitement d’indicateurs pour le diagnostic et le pronostic des moteurs
d’avions. Thèse de doctorant de l’Université Paris 1 Panthéon Sorbonne, 2015. Lire en ligne
– Bardet, Jean-Marc & Faure, Cynthia & Lacaille, Jérôme & Olteanu, Madalina. (2017). Design Aircraft Engine
Bivariate Data Phases using Change-Point Detection Method and Self-Organizing Maps. Lire en ligne
– Greciet, F. (2020). Régression polynomiale par morceaux pour la propagation de fissures (Doctoral dissertation,
Université de Lorraine). Lire en ligne
– Langhendries, R., & Lacaille, J. (2022). Turbofan Exhaust Gas Temperature Forecasting and Performance
Monitoring with a Neural Network Model. In European Conference on Safety and Reliability (ESREL). Lire en ligne
– Tian, Y., Chao, M., Kulkarni, C., Goebel, K., & Fink, O. (2022). Real-time model calibration with deep reinforcement
learning. Mechanical Systems and Signal Processing,. Lire en Ligne

Profil du candidat :
De formation bac +5 (Master Recherche ou Ingénieur avec un intérêt avéré pour la recherche) en Informatique,
Mathématiques appliquées, Science des données, Apprentissage Automatique, ou équivalent.
Connaissances et savoir-faire essentiels :
• Maîtrise des concepts, méthodes et algorithmes de Machine Learning ; données sensorielles, flux de données,
séries temporelles, traitement de signaux, inférence probabiliste ;
• Maîtrise des environnements logiciels pour le Machine Learning, et de Python et ses librairies scientifiques par
exemple, numpy, pandas, pytorch (ou similaires);
Qualités professionnelles :
• Capacité d’analyse, autonomie, esprit d’équipe ;
• Aptitude à communiquer à l’oral et à l’écrit en français et en anglais ;
• Intérêt avéré pour la recherche partenariale et appliquée

Formation et compétences requises :
De formation bac +5 (Master Recherche ou Ingénieur avec un intérêt avéré pour la recherche) en Informatique,
Mathématiques appliquées, Science des données, Apprentissage Automatique, ou équivalent.
Connaissances et savoir-faire essentiels :
• Maîtrise des concepts, méthodes et algorithmes de Machine Learning ; données sensorielles, flux de données,
séries temporelles, traitement de signaux, inférence probabiliste ;
• Maîtrise des environnements logiciels pour le Machine Learning, et de Python et ses librairies scientifiques par
exemple, numpy, pandas, pytorch (ou similaires);
Qualités professionnelles :
• Capacité d’analyse, autonomie, esprit d’équipe ;
• Aptitude à communiquer à l’oral et à l’écrit en français et en anglais ;
• Intérêt avéré pour la recherche partenariale et appliquée

Adresse d’emploi :
Palaiseau

Document attaché : 202312010829_DIT-2023-05-JNI3-signee.pdf

Optimal Transport for Anomaly Detection and Localization

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab (Rouen)
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2024-03-31

Contexte :
Optimal transport (OT) [1] is a powerful framework to define and compute distances between distributions (a.k.a. Wasserstein or earth mover’s distance), with a tractable computation thanks to the Sinkhorn algorithm, of which an online version has recently been proposed [2]. Beyond, OT allows to exhibit the transport map between the distributions.

In this internship, we envision leveraging the OT theory to design algorithms dealing with out-of-distribution detection in a non-parametric setting that operates over sliding windows on time series. Specifically, we will target in an online manner the localization of abnormal samples.

Sujet :
Even at low rates, detecting and localizing efficiently abnormal situations can be paramount.
The goal of this internship is to spot the abnormal samples from distributions. While computing the discrepancy between distributions with OT may only assess how close these distributions are, a detailed assignment information resides in the transport (coupling) map. The intern will study how the assignment resulting from partial OT, which transports only a given fraction α of the total probability mass [3], can be used in the out-of-distribution and outliers scenarios. Specifically, abnormal samples can be located from the map by relying on the position of the non-transported mass. Thereon, the intern will design statistical tests allowing to estimate the proportion of α of out-of-distribution samples. For that, she/he will investigate randomization for varying values of α. The randomization will be achieved by a bootstrap procedure on the samples of compared sliding windows.

The objectives of the intern are the following:
1- Familiarize with the investigated OT framework
2- Explore OT for anomaly detection on toy data
2- Devise deep-learning framework for real data from well-known benchmarks
3- Evaluate the developed methods on real data from an industrial partner

This internship may lead to a PhD thesis.

Research Environment: This intern will conduct her/his research within the Machine Learning group in the LITIS Lab, under the supervision of Dr. Maxime Berar, Prof. Gilles Gasso, Dr. Fannia Pacheco and Prof. Paul Honeine. This internship will be conducted within a research project gathering 9 permanent researchers of the LITIS Lab and the intern will also interact with several PhD students and interns also working on deep anomaly detection for time series.

References

[1] G. Peyré, M. Cuturi, et al., “Computational optimal transport: With application to data science,” Foundations and Trends® in Machine Learning, 2019.
[2] A. Mensch and G. Peyré, “Online sinkhorn: Optimal transport distances from sample streams,” in NeurIPS 2020.
[3] L. Chapel, M. Z. Alaya, and G. Gasso, “Partial Optimal Transport with Applications on Positive-Unlabeled Learning,” in NeurIPS, 2020.

Profil du candidat :
Student in final year of Master or Engineering School, in applied mathematics, data science, artificial intelligence, or related fields.

Formation et compétences requises :
– Strong skills in advanced statistics and Machine Learning
– Good programming skills in Python

Adresse d’emploi :
Location: LITIS Lab, Université de Rouen Normandie, Saint Etienne du Rouvray (Rouen, France).

Terms: 5 to 6 months, starting in February or March 2024.

Application: Applicants are invited to send their CV and grade transcripts by email to:
maxime.berar@univ-rouen.fr, gilles.gasso@insa-rouen.fr, fannia.pacheco@univ-rouen.fr, paul.honeine@univ-rouen.fr.

Document attaché : 202311301903_Internship – Optimal Transport for Anomaly Detection and Localization.pdf

Graphical Models for Learning Temporal Dependencies in Event Streams

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 5 à 6 mois
Contact : julien.blanchard@univ-nantes.fr
Date limite de publication : 2024-04-20

Contexte :
With the digital transformation of our societies, more and more domains are interested in the analysis of series of symbolic events, such as Web user behavior analysis, healthcare and patient monitoring or fraud detection in financial transactions. Grasping the dynamics of these data streams requires revealing hidden structures behind them. To this end, Gunawardana and Meek have proposed a novel approach called Graphical Event Models (GEMs), probabilistic models capable of explicitly describing the temporal dependencies between events [1,2,3]. The PILGRIM software library developped by the DUKe reasearch team at the LS2N laboratory provides an original implementation of GEMs and of algorithms for learning them from logs – see [4,5,6] for examples of DUKe’s works on GEMs.

Sujet :
The goal of this internship is to study GEMs more deeply from both a theoretical and practical point of view, and to develop new methods for learning and using them. Several directions are possible:
– design and implement sampling and inference algorithms ;
– compare GEMs with process mining (log analysis approach [7]) : founding principles, model properties, experiments on data ;
– adapt explainable AI techniques to GEMs.

Possibility of extending into a PhD thesis if the internship is satisfactory.

[1] Asela Gunawardana and Chris Meek. Universal models of multivariate temporal point processes. In Proceedings of the 19th International Conference on Artificial Intelligence and Statistics, volume 51 of Proceedings of Machine Learning Research, pages 556–563, 09–11 May 2016. PMLR.

[2] Christopher Meek. Toward learning graphical and causal process models. In Proceedings of the UAI 2014 Conference on Causal Inference: Learning and Prediction – Volume 1274, CI’14, pages 43–48, 2014. CEUR-WS.org.

[3] Asela Gunawardana, Christopher Meek, and Puyang Xu. A model for temporal dependencies in event streams. In Proceedings of the 24th International Conference on Neural Information Processing Systems, NIPS’11, pages 1962–1970, 2011. Curran Associates Inc.

[4] Mathilde Monvoisin and Philippe Leray. Multi-task transfer learning for timescale graphical event models. In 15th European Conference on Symbolic and Quantitative Approaches to Reasoning with Uncertainty (ECSQARU 2019), 2019.

[5] Dimitri Antakly, Benoit Delahaye, and Philippe Leray. Graphical event model learning and verification for security assessment. In 32th International Conference on Industrial, Engineering, Other Applications of Applied Intelligent Systems (IEA/AIE 2019), Advances and Trends in Artificial Intelligence, pages 245–252, 2019.

[6] SPARS project : Sequential pattern analysis in robotic surgery. https://project.inria.fr/spars/

[7] Wil M. P. van der Aalst. Process Mining: Data Science in Action. Springer, Heidelberg,2 edition, 2016.

Profil du candidat :
– Autonomy, rigor, initiative, analytical and synthesis skills, sense of commitment, communication and interpersonal skills
– C++ programming

Send CV, motivation letter and academic results in PDF format to julien.blanchard@univ-nantes.fr

Formation et compétences requises :
Master’s degree with specialization in Data Science or Machine Learning
Master 2 ou dernière année d’école d’ingénieur

Adresse d’emploi :
Polytech Nantes, rue Christian Pauc, 44306 Nantes, France

Document attaché : 202311301055_Internship_GEM_2024.pdf

Post-doc position

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERC Consolidator Grant PECUNIA
Durée : 24 months
Contact : maria-victoria.eyharabide@sorbonne-universite.fr
Date limite de publication : 2024-04-20

Contexte :
Information about the internship

• Supervisors:
– Anne-Valerie PONT-BOULAY, associate professor in Roman History, UMR 8167 Centre Antiquité Classique et Tardive, Sorbonne Université
– Victoria EYHARABIDE, associate professor in computer science, STIH Laboratory, Sorbonne Université
• Location: Maison de la Recherche, Sorbonne Université – 28 rue Serpente, 75006 Paris.
• Duration: 24 months (possibility to be extended up to 5 years).
• Keywords: Digital humanities, knowledge representation and reasoning, knowledge graphs, Roman
history.
• Project: ERC Consolidator Grant PECUNIA – Private interests in public functions: Framing a new paradigm of power in the cities of the Roman empire (70 BC-284 AD) (Grant number: 101088477).
• Environment: The PECUNIA project also benefits from the infrastructure of the Sorbonne Center for Artificial Intelligence (SCAI).
• Remuneration: €2905 or more depending on experience.
• Start date: The position is available from February 1st, 2024.

Sujet :
Job description

The candidate’s main objective will be to develop and implement computational solutions for creating a domain-specific knowledge graph gathering historical data. The candidate will build the knowledge base by adapting the Patrimonium editor designed at Ausonius (Bordeaux) and create a knowledge graph to depict and explore the relations that underlie the distribution of the financial and material resources available through institutional positions in the cities of the Roman Empire. The candidate will work in close collaboration with researchers in history and epigraphy to find the best solutions to implement the database of the project and curate data. Finally, the candidate will design innovative user interfaces for displaying and querying the knowledge base. The candidate will be under the supervision of PECUNIA’s project PI, Anne-Valérie Pont, and Victoria Eyharabide, a specialist in Computer Sciences; the candidate will also have the opportunity to benefit from the scientific context of the Sorbonne Center for Artificial Intelligence (SCAI) and regular interactions with its researchers. The ambition of SCAI is to contribute significantly to the excellence of interdisciplinary research and education in artificial intelligence by promoting exchanges between researchers, students, and industry.

Profil du candidat :
Applicants are required to have:

• A Ph.D. in Computer Science or Digital Humanities. Doctoral students about to graduate (before the end of 2023) are invited to apply!
• Advanced skills in Python programming are mandatory.
• Strong background in two areas of artificial intelligence: semantic web technologies (ontologies, reasoning models, linked data, SPARQL) and automatic learning of graphs and vector representations.
• Fluency in written and spoken English is essential.
• Excellent communication skills to discuss with researchers from different backgrounds (mainly historians and epigraphers).

Formation et compétences requises :
Ideally, we are also searching for candidates with the following desired qualifications:

• Documented experience in the implementation of machine learning methods for the analysis of knowledge graphs.
• Expertise in technical aspects related to data sharing, database systems, linked data/RDF, knowledge graphs, data semantics, and inference engines is desired.
• Experience in knowledge open-source tools for knowledge graphs such as Neo4J RDF Semantic Toolkit, RDF4J, and GraphDB.
• Communication skills in French are a plus but not required.

The position is open immediately. Review of applications will begin as soon as applications are received and continue until the position is filled.

Adresse d’emploi :
Maison de la Recherche, Sorbonne Université – 28 rue Serpente, 75006 Paris

Document attaché : 202311301017_ERC PECUNIA post-doc semantic graphs.pdf

PhD on Deep Learning and Oceanography

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 36 months
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2024-01-31

Contexte :
Through the integration of cutting-edge capacities in ocean observation, data infrastructures as well as modelling and forecasting using innovative technologies, the European digital twin of the ocean will build a digital representation of marine and coastal environments. It will provide an innovative set of user-driven, interactive, and decision-making tools, backed by the best science and data. To reach this objective, a growing consensus envisions the critical contribution of AI technologies and data-driven paradigms to develop hybrid digital twins of the ocean.

Sujet :
This PhD position starting on fall 2024 is opened in the frame of a collaboration between OceaniX AI chair (Prof. Ronan Fablet), Mercator Ocean Intl (Dr. Charles-Emmanuel Testut) and MIT (Prof. Pierre Lermusiaux). It will explore research avenues at the crossroads of deep learning, data assimilation, uncertainty quantification and generative modeling.

More information here: https://www.imt-atlantique.fr/sites/default/files/recherche/doctorat/seed/research-topics/12-ocean-forecasting.html

Contact: Ronan Fablet, ronan.fablet@imt-atlantique.fr

Profil du candidat :
MSc. and/or engineer degree in Applied Math., AI and/or geoscience.

Formation et compétences requises :
Depending of the academic background previous experience in deep learning and/or geoscience would be a plus.

Adresse d’emploi :
hosting insitutions: IMT Atlantique, Brest; Mercator Ocean Intl, Toulouse, France