
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Inria Nancy & LIA
Durée : 36 mois
Contact : emmanuel.vincent@inria.fr
Date limite de publication : 2024-01-06
Contexte :
Sujet :
https://jobs.inria.fr/public/classic/fr/offres/2024-07586
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Centre Inria de l’Université de Lorraine
615 rue du Jardin Botanique
54600 Villers-lès-Nancy
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : DAVID Lab – UVSQ – Versailles
Durée : 36
Contact : mustapha.lebbah@uvsq.fr
Date limite de publication : 2024-01-31
Contexte :
An electric arc is a high-current disruptive discharge capable of self-sustaining at low voltage. Its study belongs to the field of plasma physics.
While legacy networks have learned to live with the non-zero probability of this fault occurring, since the causes and consequences are known, the same cannot be said for networks dedicated to propulsion, whether all-electric or hybrid. The criticality of the damage is often equated with the energy deployed by the fault compared with the susceptibility to damage of the materials in direct or indirect contact with the arc. We can therefore imagine the impact that a high-power arc could have in such a network (KV/MW) if its duration were to exceed a few milliseconds! Given the increase in voltage and the DC waveform, the risk and consequences of arc faults are increased. This observation, combined with a constrained environment (confined areas, high-risk zones such as FFLZ, severe environment zones, etc.), prompted the EWIS engineers to carry out high-power electric arc tests, leading to the following conclusions:
When an electric arc is generated whose power exceeds several hundred kW and whose lifetime is not controllable, it is no longer possible to control it.
When an electric arc is generated, the power of which exceeds several hundred kW and the lifetime of which cannot be controlled, it is no longer possible to mitigate the consequences solely by choosing ‘arc-resistant’ materials and design guides in the confined environment and safety constraints inherent in civil aeronautics.
This is why the detection and elimination of this fault is inevitable. Arc detection systems, which were not mandatory on legacy networks, will certainly be required on the propulsion networks envisaged.
Arc detection is important for electrical safety, because arcs can cause fires, damage electrical equipment and pose a risk to people. To detect arcs, several technologies and methods are used, including: monitoring by current sensors, light sensors, electrical signal analysis, thermal cameras, etc.
Sujet :
Objectives
The aim of the proposed thesis will be to couple AI and physics for the modeling and early detection of electric arcs. The AI tools targeted are Physics-Informed Neural Networks (PINNs). Experimental data will be available to feed these models. In addition, the physical equations to describe the evolution of arcs to be taken into account are well-known (Maxwell, Faraday, Navier-Stokes, etc).
The major challenges of the thesis will be as follows:
• Modeling electric arcs: Developing PINNs models to describe electric arcs accurately, taking into account the physical equations that govern them. As a check on the calculations (or as a learning tool), physical simulations called MHD (Magneto-Hydro-Dynamics) could be carried out for all the geometries envisaged in the SafranTech E&E team.
• Network training: Train neural networks to predict the presence of electric arcs using observation data and the relevant physical equations.
• Early detection: Develop techniques for the early detection of electric arcs based on PINNs models.
• Experimental validation: Test PINN models and detection methods on real experimental data from Safran electrical systems. This data will be available for several “typical” geometries and will enable the PINNs models to be tested on reproducible and controllable cases.
Profil du candidat :
● End of engineering degree / Master’s degree in a relevant field (e.g., computer science, ML/AI, Statistics …)
● Excellent understanding of machine learning and physics basics. Familiar with recent Artificial Intelligence: transformers, diffusion
model, auto-encoder…etc.
● Excellent programming skills, especially with Python, Pytorch,
● Autonomous and able to quickly adapt to recent scientific literature / technologies.
This PhD topic is participating to the Université Paris-Saclay EU COFUND DeMythif.AI program : https://www.dataia.eu/actualites/cofund-demythifai-appel-sujets-de-these. It is reserved to international students who have spent less than 12 months in France in the last 3 years. The candidates will be evaluated by a jury that will select 15 PhD to start in fall 2024. The successful candidates will be fully funded for 3 years, have access to specific scientific and non-scientific training, and be fully part of the Université Paris-Saclay AI community. The aim of this Ph.D. research is to strengthen collaboration with Safran group. The thesis is accompanied by a collaborative contract with Safran, ensuring the environment, interaction with experts, and data availability.
Formation et compétences requises :
● End of engineering degree / Master’s degree in a relevant field (e.g., computer science, ML/AI, Statistics …)
● Excellent understanding of machine learning and physics basics. Familiar with recent Artificial Intelligence: transformers, diffusion
model, auto-encoder…etc.
● Excellent programming skills, especially with Python, Pytorch,
● Autonomous and able to quickly adapt to recent scientific literature / technologies.
This PhD topic is participating to the Université Paris-Saclay EU COFUND DeMythif.AI program : https://www.dataia.eu/actualites/cofund-demythifai-appel-sujets-de-these. It is reserved to international students who have spent less than 12 months in France in the last 3 years. The candidates will be evaluated by a jury that will select 15 PhD to start in fall 2024. The successful candidates will be fully funded for 3 years, have access to specific scientific and non-scientific training, and be fully part of the Université Paris-Saclay AI community. The aim of this Ph.D. research is to strengthen collaboration with Safran group. The thesis is accompanied by a collaborative contract with Safran, ensuring the environment, interaction with experts, and data availability.
How to apply
https://adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=51640&langue=en
Adresse d’emploi :
David Lab /UVSQ Versailles
Document attaché : 202312150810_Proposal-PHD.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIAS (Poitiers) & TRIMANE (Paris)
Durée : 36 mois
Contact : allel.hadjali@ensma.fr
Date limite de publication : 2024-01-31
Contexte :
Voir document en attaché
Sujet :
Voir document en attaché
Profil du candidat :
Étudiants en Master 2 d’Informatique ou élèves-ingénieurs en dernière année (BAC+5) intéressés par la gestion des données massives et disposant de bonnes compétences en bases des données, développement Web et JEE et d’une initiation à la recherche (relecture et synthèse d’articles scientifiques). La connaissance du domaine de la santé serait un plus.
Formation et compétences requises :
Étudiants en Master 2 d’Informatique ou élèves-ingénieurs en dernière année (BAC+5) intéressés par la gestion des données massives et disposant de bonnes compétences en bases des données, développement Web et JEE et d’une initiation à la recherche (relecture et synthèse d’articles scientifiques). La connaissance du domaine de la santé serait un plus.
Adresse d’emploi :
Voir document en attaché
Document attaché : 202309070807_Sujet_Thèse_Version2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 36 months
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2024-01-31
Contexte :
Through the integration of cutting-edge capacities in ocean observation, data infrastructures as well as modelling and forecasting using innovative technologies, the European digital twin of the ocean will build a digital representation of marine and coastal environments. It will provide an innovative set of user-driven, interactive, and decision-making tools, backed by the best science and data. To reach this objective, a growing consensus envisions the critical contribution of AI technologies and data-driven paradigms to develop hybrid digital twins of the ocean.
Sujet :
This PhD position starting on fall 2024 is opened in the frame of a collaboration between OceaniX AI chair (Prof. Ronan Fablet), Mercator Ocean Intl (Dr. Charles-Emmanuel Testut) and MIT (Prof. Pierre Lermusiaux). It will explore research avenues at the crossroads of deep learning, data assimilation, uncertainty quantification and generative modeling.
More information here: https://www.imt-atlantique.fr/sites/default/files/recherche/doctorat/seed/research-topics/12-ocean-forecasting.html
Contact: Ronan Fablet, ronan.fablet@imt-atlantique.fr
Profil du candidat :
MSc. and/or engineer degree in Applied Math., AI and/or geoscience.
Formation et compétences requises :
Depending of the academic background previous experience in deep learning and/or geoscience would be a plus.
Adresse d’emploi :
hosting insitutions: IMT Atlantique, Brest; Mercator Ocean Intl, Toulouse, France
Offre en lien avec l’Action/le Réseau : DFAe/– — –
Laboratoire/Entreprise : Meteo France, Toulouse
Durée : 36 mois
Contact : josiane.mothe@irit.fr
Date limite de publication : 2024-02-16
Contexte :
INTELLIGENCE ARTIFICIELLE POUR LE SUIVI ET LA PRÉVISION DES RISQUES DE FEUX ET DE LEUR IMPACT ÉCOLOGIQUE
Dans un contexte de réchauffement global et accéléré, les événements extrêmes se multiplient. L’évolution des conditions de températures et de sécheresse favorise le développement des feux de forêt et de végétation autour du Bassin Méditerranéen et plus largement en France. Les modèles actuels du danger météorologique de feux ne prennent pas en compte l’aléa humain et les facteurs explicatifs des feux de végétation ne sont actuellement modélisés que de manière empirique. L’objectif de cette thèse est d’introduire de nouvelles méthodes de prévision plus précises, faisant intervenir l’observation de la Terre et les techniques d’apprentissage automatique. On évaluera l’apport de l’apprentissage automatique et sa complémentarité avec les approches de modélisation classiques. On évaluera quelles sont les observations les plus pertinentes pour améliorer le suivi et la prévision du risque, pour divers types de paysages (forêts, cultures, zones naturelles protégées). Appliquées à l’Occitanie et à la France métropolitaine, les méthodes seront également validées à l’échelle mondiale. Dans un premier temps, les données jugées nécessaires (in situ, satellitaires, atmosphériques, …) seront rassemblées et prétraitées. Des modèles seront construits afin de répondre aux questions de recherche de la thèse. Ils seront spatialisés et validés sur l’Occitanie, la France métropolitaine, et l’échelle mondiale. Le travail de thèse impliquera l’analyse de données d’observations (in situ et satellitaires) et de sorties de modèles. Une bonne connaissance est requise des techniques de traitement et analyse de données, d’apprentissage automatique, et de codage informatique (Python, Fortran), ainsi qu’une connaissance de la modélisation des surfaces terrestres. Des compétences en communication écrite et orale sont également indispensables.
Sujet :
# Objectifs #
Météo-France apporte, dans le cadre de sa mission de sécurité des personnes et des biens, un soutien opérationnel aux acteurs de la lutte contre les feux et à la direction générale de la sécurité civile et de la gestion des crises. Ces actions font l’objet d’améliorations continues sur les diagnostics et modélisations utilisées sur le danger météorologique de feux de végétation. Ce projet va favoriser le développement d’un volet recherche associé à ce service, en introduisant de nouvelles méthodes de prévision du risque de feux de végétation ainsi qu’une précision géographique renforcée. Outre l’Occitanie et la France métropolitaine, le projet comportera un volet mondial, afin de valider les méthodes dans des situations climatiques et géographiques contrastées.
# Méthode #
De nombreuses données externes peuvent être intégrées dans des modèles de suivi du risque de feux, comme des données d’observation de la Terre. Les approches d’apprentissage profond permettent un traitement plus efficace de ces données. Aujourd’hui, ces approches reposant sur des données satellitaires restent déconnectées des autres modèles utilisant les prévisions météorologiques. Ces deux types d’approches ont aussi pour inconvénient de ne prendre aucune donnée provenant de modèles numériques des surfaces continentales. Or plusieurs variables fournies par ces modèles (contenu en eau du sol à diverses profondeurs, biomasse sèche en surface, …) ont un lien direct avec les facteurs explicatifs des feux de végétation, qui ne sont actuellement modélisés que de manière empirique. Ces données de surface modélisées forment un ensemble riche à exploiter dans un tel contexte. Leur association avec des données d’observation de la Terre pourrait améliorer les modèles de suivi du risque de feux. Météo-France développe un modèle des surfaces terrestres, ISBA (Interactions Sol, Biosphère, Atmosphère), utilisé dans diverses applications (conditions de surface pour la prévision numérique du temps et la modélisation du climat futur, simulation des ressources en eau en France). Un système d’assimilation de données satellitaires, LDAS-Monde (Land Data Assimilation System pouvant être utilisé sur toute région du monde), permet de corriger les simulations du modèle ISBA en intégrant des données satellitaires liées aux variables simulées par ISBA (par exemple le LAI, Leaf Area Index). Des études ont montré l’intérêt de l’approche LDAS pour le suivi de la végétation, des sécheresses, et de leur prévision. Voir par exemple Albergel et al. 2019 pour le cas de la vague de chaleur de 2018. Des travaux ont montré que l’IA rend possible la construction d’opérateurs d’observation pour l’assimilation de nouvelles données satellitaires dans le modèle ISBA (Corchia et al. 2023). Le système LDAS contribue à une meilleure connaissance de l’évolution des conditions de surfaces, déterminantes pour les risques non seulement des feux de forêts mais aussi des feux de végétation agricole. Ce système et les sorties modèles associées ne sont, pour le moment, pas exploitées dans de tels contextes.
# Résultats attendus #
– Démonstrateur de système de suivi et de prévision du risque de feu de végétation sur l’Occitanie en priorité, la France métropolitaine dans un second temps.
– Développement de l’utilisation de l’IA : opérateurs d’observation dans un système d’assimilation de données, fonction de transfert entre les données et les produits utilisables dans un contexte opérationnel de suivi et de prévision du risque de feux.
– Un inventaire des sources de données pertinentes pour la prévision du risque de feu ainsi qu’un nouveau jeu de données annotées.
– Validation de la méthodologie à grande échelle et mesure de l’apport de données satellitaires.
Profil du candidat :
Titulaire d’un Master
différentes filières peuvent correspondre, cf Formation et compétences souhaitées
candidatures: https://emploi.cnrs.fr/Offres/Doctorant/UMR3589-JEACAL-003/Default.aspx
Formation et compétences requises :
Compétences Techniques et Scientifiques
– Expertise en Apprentissage Automatique et Intelligence Artificielle : Maîtrise des techniques d’apprentissage profond et des algorithmes d’IA pour le traitement et l’analyse de données massives et complexes.
– Traitement et Analyse de Données : Capacité à collecter, prétraiter, analyser et interpréter des données issues de diverses sources, notamment in situ et satellitaires.
– Codage Informatique : Compétences avancées en programmation, particulièrement en Python entre autres, pour le développement de modèles et l’analyse de données.
– Connaissance des Systèmes d’Observation de la Terre : Compréhension approfondie de l’utilisation de données satellitaires et de leur application dans le suivi environnemental.
– Modélisation des Surfaces Terrestres : Familiarité avec les modèles numériques des surfaces continentales et leur rôle dans l’analyse des risques de feux.
Compétences Complémentaires
– Analyse Spatiale : Capacité à réaliser des analyses spatialisées pour évaluer les risques à différentes échelles (locale, nationale, mondiale).
– Assimilation de Données : Expérience avec les systèmes d’assimilation de données, pour l’intégration de données satellitaires dans des modèles de surfaces terrestres.
– Gestion de Projet de Recherche : Aptitude à mener un projet de recherche, y compris la collecte de données, le développement et la validation de modèles, et la communication des résultats.
Compétences en Communication
– Communication Écrite et Orale : Capacité à présenter clairement les résultats de recherche à un public varié, à rédiger des rapports scientifiques et des articles pour des publications spécialisées, en anglais (et en français).
Adresse d’emploi :
La thèse sera réalisée dans l’équipe VEGEO du Groupe de Météorologie de Moyenne Echelle du CNRM, à Toulouse, en collaboration avec IRIT (Toulouse).
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LAMSADE – Université Paris-Dauphine
Durée : 3 ans
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2024-03-01
Contexte :
Financement : Ce sujet est prioritaire pour une demande de bourse de thèse du ministère.
Sujet :
Sujet : L’objectif principal de cette thèse est d’étudier la diversité des systèmes de recommandation, leurs points communs et différences (d’un point de vue algorithmique mais aussi applicatif) dans un contexte de grande masse de données en constante évolution, ainsi que de comprendre de tels systèmes dans leur contexte. Il s’agira ensuite de tendre vers un modèle de système générique de recommandation capable d’expliquer à l’utilisateur les recommandations retournées.
Profil du candidat :
Candidatures : Les candidats intéressés sont invités à envoyer une lettre de motivation, un CV, leurs relevés de notes (Licence + Master) avec classements (Master 2 également, éventuellement partiel), et une ou plusieurs lettres de recommandation, le plus tôt possible, avant le 27 mars 2024. Une seconde sélection sera ensuite faite par l’école doctorale et le laboratoire sur la base d’une audition en mai 2024.
Formation et compétences requises :
M2/Ingénieur informatique/Mathématiques
Adresse d’emploi :
Université Paris-Dauphine,
place du Maréchal de Lattre de Tassigny,
75016 Paris
Document attaché : 202402280948_PhD-Dauphine-Reco.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Université Bretagne Sud / IRISA
Durée : 3 ans
Contact : charlotte.pelletier@univ-ubs.fr
Date limite de publication : 2024-03-10
Contexte :
During the last decades, the number and characteristics of the imaging sensors on board the satellites have constantly increased and evolved allowing access (often free of charge) to a large amount of Earth observation data. Recent constellations frequently revisit the same regions at a high spatial resolution. For example, the two Sentinel-2 satellites capture all land surfaces every five days at the equator at a 10-meter spatial resolution at best. The data cubes acquired by these
sensors, commonly referred to as satellite image time series (SITS) [8], combine high spectral, spatial, and temporal resolutions, facilitating precise monitoring of landscape dynamics. [1].
The automatic transformation of these data cubes into meaningful information (e.g., deforestation maps or land cover land use maps) usually relies on supervised learning techniques. Recent advances in this field have been marked by a shift towards deep learning methods, owing to their state-of-the-art results across various domains, including computer vision and natural language processing. The ability of temporal neural networks to handle sequential data (e.g., text or audio) and to detect time-invariant characteristics results in various achievements for time series classification in several domains [2], including remote sensing [6].
However, models are often trained statically. In other words, either a model is fine-tuned, leading to forgetting the knowledge gained previously, or a new model is trained for each new dataset
neglecting the opportunity to leverage insights from prior training instances. For example, the French scientific panel on land cover mapping (CES OSO) produces annual land cover maps by
retraining a model every year, overlooking the potential utility of previously trained models. This approach is not only computationally intensive and time-consuming but also suboptimal given the
rapid availability of satellite imagery for model updates. A compelling alternative lies in dynamic learning paradigms, wherein models are updated from a data stream, enabling the accumulation of knowledge over time while mitigating the risk of catastrophic forgetting. In the deep learning era, this strategy is known as continual learning [4]. Traditional scenarios view each observation sequentially and process them independently [10], which is an issue for SITS whose temporal structure (e.g., crop growth rate) is crucial to model landscape dynamics.
Sujet :
While the formal definition of continual learning is much debated in machine learning and computer vision communities, it is non-existent for SITS. The PhD aims at developing for the first time continual learning techniques adapted to the specificities of SITS data by leveraging both continual learning and SITS analysis research. It will consist of two main objectives: (1) devising and evaluating new robust continual learning paradigms for SITS, and (2) refining the continual learning strategy to discover new classes over time. We aim to demonstrate the potential of continual learning applied to SITS for forest monitoring, especially to help monitor Amazon deforestation and degradation on a large scale.
1. Developing new continual learning algorithm for sequences of satellite images. In this regard, we aim to evaluate existing state-of-the-art techniques and their ability to recall dynamics in SITS (e.g., vegetation growth). Among several ideas, we first plan to study continual learning strategies on temporal neural networks (e.g., Transformers with regularized attention weights) when subtime-series are inputted. This scenario requires studying how catastrophic forgetting will impact temporal neural architectures and potentially how its effect can be
mitigated. It also requires to determine the optimal number of past observations to find a trade-off between the precision of the method and memory used to store the data.
2. Discovering new classes over time without forgetting previous class [3]. The inability of continual learning approaches to discover new classes limits considerably their application in real-world remote sensing settings where land cover changes over time and labels cannot be easily collected. A possible idea is to represent each existing class through prototypes, that can be extracted for SITS [9], and maintain them over time. New classes could be identified when embedding of newly acquired observations are dissimilar from existing prototypes.
Profil du candidat :
We are looking for a candidate
• with a computer science, (geo)data science, or statistics master degree (or equivalent),
• with strong data analysis, machine learning, and computer vision knowledge,
• who is familiar with deep learning techniques,
• with excellent programming skills in at least one language (C/C++, Python, etc.),
• with good communication skills (at least in English) are required,
• with interest in Earth observation applications.
• Knowledge of time series analysis and remote sensing techniques will be appreciated
Formation et compétences requises :
Computer science, (geo)data science, or statistics master degree (or equivalent).
Adresse d’emploi :
Université Bretagne Sud
Laboratoire IRISA
Campus de Tohannic
56000 Vannes
Document attaché : 202402091126_PhD_DECOL__CL4SITS.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIAS/SAE-ENSMA
Durée : 36 mois
Contact : amin.mesmoudi@univ-poitiers.fr
Date limite de publication : 2024-03-11
Contexte :
La détection automatique d’anomalies joue un rôle critique dans une variété de domaines, notamment la cybersécurité, la maintenance prédictive et la surveillance de systèmes complexes. Les progrès récents dans le domaine de l’apprentissage automatique ont ouvert de nouvelles perspectives pour le développement de méthodes prometteuses de détection d’anomalies, en particulier lorsqu’il s’agit de données complexes telles que les graphes [1,5,6,7,8] et les séries temporelles [2,3,4].
Dans ce contexte, la gestion efficace de gros volumes de données est devenue cruciale pour la détection d’anomalies à grande échelle. Les systèmes modernes génèrent une quantité massive de données en temps réel [6], ce qui rend impératif d’adapter les méthodes de détection d’anomalies pour traiter ces flux de données de manière efficace. Cela nécessite non seulement une préparation de données efficace pour nettoyer, intégrer et étiqueter les données, mais aussi une parallélisation habile de l’exécution des algorithmes de détection d’anomalies. En tirant parti de la puissance du calcul distribué et des infrastructures de traitement de données à grande échelle, nous pourrons améliorer la réactivité et l’évolutivité de nos approches de détection d’anomalies, ce qui est essentiel pour répondre aux besoins des applications modernes. Par conséquent, la conception des algorithmes de détection d’anomalie devrait, en plus de la prise en compte des questions liées à la qualité de la détection, se pencher sur des questions telles que : comment stocker, organiser et indexer les données complexes ? Comment combiner l’indexation et la gestion de la mémoire pour des jeux de données extrêmement volumineuses, distribuées et multidimensionnelles ?
Sujet :
Les techniques de détection d’anomalies doivent évoluer pour prendre en considération les environnements modernes de déploiement et ainsi faire face aux nouveaux défis engendrés par les données massives. Dans cette thèse, les contributions scientifiques attendues sont principalement liées à :
1) l’identification des goulots d’étranglement entravant les techniques de détection d’anomalies actuelles pour leur permettre de passer à l’échelle, et
2) le développement de nouvelles techniques de détection des anomalies qui prennent en charge la parallélisation massive des traitements sur de vastes volumes de données.
Profil du candidat :
Le candidat recherché devrait :
1. Être titulaire d’un diplôme de niveau Bac +5 en informatique ou en mathématiques appliquées, avec un intérêt pour la recherche.
2. Posséder une expertise en Machine Learning et en gestion de données à large échelle.
3. Avoir des compétences analytiques avancées et une capacité à résoudre des problèmes complexes.
4. Posséder une aptitude à communiquer à l’oral et à l’écrit en français et en anglais.
Formation et compétences requises :
Le candidat recherché devrait :
1. Être titulaire d’un diplôme de niveau Bac +5 en informatique ou en mathématiques appliquées, avec un intérêt pour la recherche.
2. Posséder une expertise en Machine Learning et en gestion de données à large échelle.
3. Avoir des compétences analytiques avancées et une capacité à résoudre des problèmes complexes.
4. Posséder une aptitude à communiquer à l’oral et à l’écrit en français et en anglais.
Adresse d’emploi :
Laboratoire LIAS – ISAE-ENSMA
Téléport 2 – 1 avenue Clément Ader
BP 40109
86961 Chasseneuil
France
Document attaché : 202402031347_2024_lias_idd_managing_performance_quality_anomaly_detection_en_fr(1).pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LS2N
Durée : 36 mois
Contact : claudia.marinica@univ-nantes.fr
Date limite de publication : 2024-03-31
Contexte :
One fully funded PhD position (3 years) is available on the topic of Analyzing Semantic Indoor Trajectories for understanding Museum visitors’ movement at the Laboratory of Digital Sciences of Nantes (LS2N) in Nantes University, France.
This PhD subject is built on an international collaboration between DUKe research team of LS2N lab, Nantes, France, and the Museology Research Laboratory of the Department of Archives, Library Science and Museology at the Ionian University in Corfu, Greece, together with museums in Corfu, Greece, including the Corfu Museum of Asian Art, the Mon Repos Museum in Corfu, and the Corfu art Gallery.
Sujet :
Co-supervisors:
Assistant Professor Claudia Marinica, Assistant Professor Fabien Picarougne, Full Professor Fabrice Guillet from LS2N/Nantes University, France
Context and scope:
Museums have been studying their visitors for decades to understand why visitors go to museums, what they do there, how they learn, and what their engagement and satisfaction may be. The main objective of this PhD subject is to develop new techniques for visitors’ movement analysis, by building for each visitor its trajectory inside the museum. The originality of this work comes from enhancing visitors’ trajectories with (1) indoor space constraints restraining the visitor’s movement (e.g. position of doors, corridors, etc.), and (2) contextual and/or semantic information related to the museum or the visitor. Thus, in this PhD, we propose to work towards 3 challenges: (1) express new movement collected data under an existing formalism, called SITM (Semantic Indoor Trajectory Model), (2) develop trajectory data mining techniques applied over SITM trajectory data to extract trajectory patterns describing the visitors’ movement, (3) while the previous challenge aims to help museums to enhance visitors’ experience, this third challenge aims to encourage the museums to take managerial decisions (such as deriving improved evacuation routes) by providing movement predictions. To this end, we propose to formalize SITM trajectories as trajectory time series and to work towards developing trajectory time series classification algorithms. Visitors’ data already collected from partner Museums and to be collected through LBS or systems comprise datasets to be analyzed.
Detailed description of the subject is available here:
https://uncloud.univ-nantes.fr/index.php/s/SZcteLRe7TDZY4N
*****
Expected start: September/October, 2024
Application deadline: April 1st, 2024
We offer. The PhD will take place in the DUKe research team of LS2N lab, Nantes, France. The most of the DUKe team members work in the Polytech Nantes Engineering School of the Nantes University, thus the PhD Student will have an office there. We are a dynamic research team composed of 20 permanent researchers and around 10 PhD students and postdocs.
Given the context of the international collaboration of the PhD subject, the PhD student will maybe have to make some research stays in the Museology Research Laboratory at the Ionian University in Corfu, Greece and also visit some of the Museums providing the data.
How to apply. Interested candidates can submit their applications by sending:
– Curriculum vitae
– Letter of Motivation specific to this PhD position
– Abstract of master thesis
– At least two recommendation letters
– Degree certificates for the recent years
– List of publications (if any)
Contact: Assistant Professor Claudia Marinica (Claudia.Marinica@univ-nantes.fr)
Profil du candidat :
Your profile. We expect to welcome a candidate fulfilling the following requirements:
– Completion of an excellent master or diploma in Computer Science
– Strong programming skills and experience
– Background knowledge in the following areas are highly appreciated: data mining, deep learning, time series classification
– Ability to develop methods and concept
– Willingness to contribute in interdisciplinary projects
– Organizational and analytical skills
– Ability to work in a team, problem-solving skills, and creative thinking
– Excellent spoken and written communication skills in English
Formation et compétences requises :
Your profile. We expect to welcome a candidate fulfilling the following requirements:
– Completion of an excellent master or diploma in Computer Science
– Strong programming skills and experience
– Background knowledge in the following areas are highly appreciated: data mining, deep learning, time series classification
– Ability to develop methods and concept
– Willingness to contribute in interdisciplinary projects
– Organizational and analytical skills
– Ability to work in a team, problem-solving skills, and creative thinking
– Excellent spoken and written communication skills in English
Adresse d’emploi :
Polytech Nantes, Rue Christian Pauc, 44300 Nantes
Document attaché : 202403010840_A-SITM PhD subject.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRT SystemX / Ecole Polytechnique, Palaiseau
Durée : 36 mois
Contact : faicel.chamroukhi@irt-systemx.fr
Date limite de publication : 2024-03-31
Contexte :
Au sein de l’Institut de Recherche Technologique SystemX, situé au coeur du campus scientifique d’excellence mondiale
de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau
international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche
français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de
générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique
et de diffuser ses compétences dans tous les secteurs économiques.
Plus particulièrement au sein de l’IRT SystemX, le doctorant sera rattaché au domaine scientifique « Sciences des données
et Intelligence Artificielle ». Le sujet de thèse a été initié par le consortium réuni dans le cadre du projet « Jumeaux
Numériques pour la Maintenance Prédictive et Indicateurs de Santé (JNI3) » du programme « Jumeaux Numériques pour
la résilience et la durabilité des systèmes Industriels » (JNI) de l’IRT SystemX. Ce projet vise à développer et mettre en
oeuvre des Jumeaux Numériques (JNI) pour le suivi de l’évolution de l’état de santé des systèmes industriels. Il se focalise
sur la définition de jumeaux numériques capables d’acquérir des données en temps réel, et de les exploiter pour fournir
une estimation de l’état de santé du système industriel.
La direction de la thèse sera assurée par Jesse Read du laboratoire d’informatique de l’École Polytechnique (LIX), UMR
7161 et la thèse sera inscrite à l’école doctorale IP Paris (#626). Le doctorant bénéficiera également d’un encadrement
scientifique à l’IRT par Rim Kaddah. De plus, il pourra interagir avec des industriels qui proposent des cas d’usage concrets.
Le poste est basé sur le site de l’IRT SystemX à Paris-Saclay, avec des déplacements réguliers au LIX. Hormis les
déplacements en conférences internationales, un séjour de longue durée dans un laboratoire à l’étranger est envisagé.
La date souhaitée de démarrage de la thèse est le 01/01/2024. La rémunération de la thèse est de 2784€ brut mensuel sur
3 ans.
Sujet :
CONTEXTE SCIENTIFIQUE
Cette thèse porte sur l’estimation de l’état de santé de systèmes industriels complexes à partir de données de capteurs
récoltées au cours du temps pour le suivi de tels systèmes, tout en prenant en compte la physique régissant leur
fonctionnement. Elle se focalise sur l’estimation probabiliste pour l’apprentissage d’indicateurs de santé pouvant
permettre d’avoir une estimation continue, idéalement en temps réel, de l’état de santé du système, passant d’un état
fonctionnel vers un état possiblement dégradé, tout en pouvant intégrer un ensemble d’états intermédiaires.
La prise en compte de la physique régissant le système étudié permet de combiner des caractéristiques invariantes avec
des informations apprises à partir de données mesurées/observées. L’objectif de cette hybridation est de quantifier et
limiter l’incertitude liée à l’estimation des indicateurs de santé au cours du cycle de vie du système réel. La construction
de tels indicateurs de santé du système via la modélisation proposée devra pouvoir mettre en évidence, via de propriétés
statistiques quant à la capacité de détection de variables ou de co-variables pertinentes à la prédiction, la pertinence de
considérer séparément des indicateurs préconstruits ou via une « combinaison » et ou une « sélection » de sousensembles
de ceux-ci, selon la pertinence finale sur l’indication de l’état de santé du système étudié.
RESULTATS ATTENDUS ET APPROCHE SCIENTIFIQUE DE LA THESE
Les travaux attendus de cette thèse ont pour objectif de développer des méthodes d’apprentissage automatique dotées
de constructions probabilistes pour l’estimation d’indicateurs de santé d’un système industriel physique (eg. Moteur
aéronautique générique, Centrale d’hydrogène) capables de :
– Exploiter des données acquises à partir du système industriel physique (moteur , centrale d’hydrogène), et fournir
une estimation probabiliste de l’ état de santé de celui-ci en fonction de différents indicateurs de santé
préalablement identifiés par le secteur métier ou sélectionnés par la méthodologie développée;
– Prendre en compte la physique régissant les systèmes étudiés à partir des lois sous-jacentes au système (e.g., lois
d’émission d’hydrogène en milieu fermé en vue de la détection de fuite) ou à partir des données simulées de
celui-ci (eg. moteur générique d’avion), pour enrichir le modèle d’apprentissage à partir de données observées
– Sélectionner et/ou construire les indicateurs de santé les plus pertinents à l’élaboration du modèle de santé à
partir des flux de données collectées sur le système industriel, en tenant compte non seulement de la prédictivité
du modèle mais également de son interprétabilité (au sens de la cohérence avec la physique).
– Implémenter une méthode d’estimation de RUL (Remaining Useful Life, durée de vie restante) détectant les signes
précurseurs de dégradation du système en vue d’optimiser sa durée de vie.
Les directions de recherches qui seront explorées dans cette thèse sont :
– Recours à des approches d’apprentissage statistique permettant de caractériser de façon continue l’évolution
incertaine du système étudié à partir de séries temporelles de mesures. Parmi les pistes à explorer durant la phase
d’étude bibliographique, l’inférence bayésienne et l’apprentissage par renforcement (éventuellement profond)
sont envisagés.
– Sélection / fusion de variables permettant de mettre en évidence les indicateurs (variables) les plus pertinent.es
à la prédiction ; Typiquement la prédiction à l’instant t devrait être optimisée pour les différentes variables
d’entrée (corrélation, redondance et fusion d’indicateurs éventuellement … etc), par exemple en optimisant
l’espace d’entrée (sélection de variables) et ou l’espace latent et ce par régularisation par exemple ; …
– Prise en compte de l’aspect temporel des observations et de la prédiction : Il ne s’agit pas seulement d’estimer
l’état du système à l’instant t , mais de prédire l’évolution continue de cet état jusqu’à l’instant t+h avec h>1..
Cela implique nécessairement d’implémenter une méthode de quantification d’incertitude à chaque instant, dans
une optique de certifiabilité et d’interprétabilité. L’aspect physique du système peut être représenté par les
paramètres simulées à partir d’une version générique du système réel (eg. pour le cas de moteur générique) ou
par les paramètres des lois simulés ou estimées pour le cas d’application de propagation d’hydrogène dans un
milieu fermé.
Cas d’usage : Les cas d’usage qui seront étudiés dans cette thèse sont :
– Pour l’estimation de l’état de santé des moteurs aéronautiques (Safran) : La surveillance des moteurs est un sujet
bien connu et largement étudié, qui s’avère essentiel pour l’industrie aéronautique. Une approche populaire
consiste à construire des indicateurs liés à la physique (par exemple, rendement et débit d’air des modules)
reflétant les états de santé des systèmes en exploitant les mesures opérationnelles (c’est-à-dire les données des
capteurs pendant les vols comme la température de sortie de gaz, débit du carburant, etc.). Cette approche relève
de la catégorie des problèmes inverses, appliquée ici à un modèle du moteur. Estimer l’évolution de ces
indicateurs de santé et exploiter/interpréter cette estimation est crucial pour concevoir des stratégies de
maintenance prédictive des moteurs aéronautiques. Deux des défis principaux sont d’une part la rareté des
données (y compris les limitations dans le choix des capteurs ainsi que le manque d’étiquettes de vérité terrain),
et d’autre part la complexité du système (impliquant souvent un grand nombre d’équations thermodynamiques,
et des non-linéarités).
– Pour l’estimation en vue de détection de fuites d’hydrogène : Données prélevées à partir de sondes IoT sur banc
d’essais
CALENDRIER PREVISIONNEL DE LA THESE
Le calendrier prévisionnel de la thèse est le suivant :
– Les 6 premiers mois de la thèse seront consacrés à une étude bibliographique portant sur les principaux axes
mentionnés dans le sujet, visant à préciser les premières directions des travaux ;
– De premières expérimentations de compréhension du contexte et de prise en main des questions appliquées et
industrielles sur des données provenant des cas d’usages identifiés par le projet JNI3 seront aussi effectuées en
cette période de début de thèse ;
– Ensuite, les directions envisagées à la suite de l’étude bibliographique seront approfondies, développées,
implémentées et appliquées aux données du projet JNI3 ainsi que sur les données de la communauté ;
– Les travaux effectués seront diffusés sous la forme de publications scientifiques dans les grandes conférences et
revues du domaine des sciences de données et de l’IA, mais aussi sous la forme d’outils et de démonstrateurs
logiciels dans le contexte du projet JNI3.
QUELQUES REFERENCES BIBLIOGRAPHIQUES
– Blanchard, Serge & Cottrell, Marie & Lacaille, Jérôme. (2009). Health monitoring des moteurs d’avions. Lire en
ligne
– Chao, MA, Lilley, DS, Mathé, P, & Schloßhauer, V. “Calibration and Uncertainty Quantification of Gas Turbine
Performance Models.” Proceedings of the ASME Turbo Expo 2015: Turbine Technical Conference and
Exposition. Volume 7A: Structures and Dynamics. Montreal, Quebec, Canada. June 15–19, (2015). Lire en ligne
– Tsirizo Rabenoro. Outils statistiques de traitement d’indicateurs pour le diagnostic et le pronostic des moteurs
d’avions. Thèse de doctorant de l’Université Paris 1 Panthéon Sorbonne, 2015. Lire en ligne
– Bardet, Jean-Marc & Faure, Cynthia & Lacaille, Jérôme & Olteanu, Madalina. (2017). Design Aircraft Engine
Bivariate Data Phases using Change-Point Detection Method and Self-Organizing Maps. Lire en ligne
– Greciet, F. (2020). Régression polynomiale par morceaux pour la propagation de fissures (Doctoral dissertation,
Université de Lorraine). Lire en ligne
– Langhendries, R., & Lacaille, J. (2022). Turbofan Exhaust Gas Temperature Forecasting and Performance
Monitoring with a Neural Network Model. In European Conference on Safety and Reliability (ESREL). Lire en ligne
– Tian, Y., Chao, M., Kulkarni, C., Goebel, K., & Fink, O. (2022). Real-time model calibration with deep reinforcement
learning. Mechanical Systems and Signal Processing,. Lire en Ligne
Profil du candidat :
De formation bac +5 (Master Recherche ou Ingénieur avec un intérêt avéré pour la recherche) en Informatique,
Mathématiques appliquées, Science des données, Apprentissage Automatique, ou équivalent.
Connaissances et savoir-faire essentiels :
• Maîtrise des concepts, méthodes et algorithmes de Machine Learning ; données sensorielles, flux de données,
séries temporelles, traitement de signaux, inférence probabiliste ;
• Maîtrise des environnements logiciels pour le Machine Learning, et de Python et ses librairies scientifiques par
exemple, numpy, pandas, pytorch (ou similaires);
Qualités professionnelles :
• Capacité d’analyse, autonomie, esprit d’équipe ;
• Aptitude à communiquer à l’oral et à l’écrit en français et en anglais ;
• Intérêt avéré pour la recherche partenariale et appliquée
Formation et compétences requises :
De formation bac +5 (Master Recherche ou Ingénieur avec un intérêt avéré pour la recherche) en Informatique,
Mathématiques appliquées, Science des données, Apprentissage Automatique, ou équivalent.
Connaissances et savoir-faire essentiels :
• Maîtrise des concepts, méthodes et algorithmes de Machine Learning ; données sensorielles, flux de données,
séries temporelles, traitement de signaux, inférence probabiliste ;
• Maîtrise des environnements logiciels pour le Machine Learning, et de Python et ses librairies scientifiques par
exemple, numpy, pandas, pytorch (ou similaires);
Qualités professionnelles :
• Capacité d’analyse, autonomie, esprit d’équipe ;
• Aptitude à communiquer à l’oral et à l’écrit en français et en anglais ;
• Intérêt avéré pour la recherche partenariale et appliquée
Adresse d’emploi :
Palaiseau
Document attaché : 202312010829_DIT-2023-05-JNI3-signee.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : UBS-IRISA/CNES
Durée : 36 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2024-03-31
Contexte :
Remote sensing imagery for Earth observation (EO) has emerged as a dynamic research area, enabling precise identification, characterization, and interpretation of objects and materials on the Earth’s surface. The ongoing progress in satellite technology has led to the availability of numerous very-high-resolution (VHR) optical satellites, facilitating daily acquisitions. This enables the creation of highly detailed maps with sub-meter spatial resolution, benefiting various essential EO applications such as urban planning, swift disaster mapping, natural resource management, and wildlife monitoring.
In recent years, deep learning (DL) has found success in various machine learning and computer vision domains, including remote sensing (RS). Despite this, applying DL to real-world scenarios using VHR satellite images for operational purposes faces numerous challenges. The foremost challenge involves the difficulty of annotating domain-specific data, particularly in EO applications that demand expert knowledge. Generating precise and comprehensive labeled datasets for training deep models is a time-consuming and expensive endeavor. For instance, in rapid disaster mapping, acquiring accurate labels is nearly unfeasible due to the infrequent and unique nature of catastrophic events.
Another challenge comes from the significant domain shifts inherent in RS data, arising from diverse sensor characteristics (i.e., spatial resolution and spectral bands) and varied acquisition conditions. Lastly, the exploding size of deep models, with millions (or even billions) of parameters, raises concerns. Not only do they demand substantial computational and storage resources, but they also cause negative environmental issues.
Therefore, designing efficient models while maintaining high accuracy becomes essential in every EO application to reduce energy cost and more importantly, to minimize the environmental impact. These models are expected to be reusable or transferred with low resources. Recent studies have showed that self-supervised pretraining with unlabeled RS images outperforms popular ImageNet-pretrained models in EO downstream tasks, especially when labels are scarce. By leveraging self-supervised learning (SSL) on the abundance of multi-source unlabeled data, foundational models (FMs) have started their era by providing high performance on a wide range of downstream tasks. However, current trends of FMs in EO only focus on creating large vision FMs using substantial multi-source images (RingMo Billion-scale ViT), or large vision-language FMs (RemoteCLIP ). These models demand significant computational resources for training and deployment. Therefore, developing resource-efficient foundation models in the context of EO is imperative to mitigate environmental concerns in the future.
Sujet :
This PhD topic aims to develop efficient foundation models with a focus on EO applications using VHR satellite imagery. The main objectives are the three-folds (please see the details in the attached file).
Profil du candidat :
– MSc or Engineering degree with excellent academic track and proven research experience in one of the following fields: computer science, applied maths, signal and image processing;
Formation et compétences requises :
– Experience with machine learning, in particular deep learning;
– Interests for environment and earth observation applications;
– Skills and interest in programming (Python and frameworks such as Pytorch/Tensorflow will be appreciated);
– Excellent communication skills (spoken/written English) is required ;
Adresse d’emploi :
UBS (Université Bretagne Sud)/IRISA (UMR 6074), campus in Vannes 56000, France.
Document attaché : 202402061131_2024_PhD_IRISA_CNES_Temo.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISTIC
Durée : 3 ans
Contact : nicolas.meger@univ-smb.fr
Date limite de publication : 2024-04-01
Contexte :
Ces travaux de thèse s’inscrivent au sein du projet ANR C2R-IA et feront l’objet d’une
collaboration avancée entre le laboratoire LISTIC et le laboratoire ISTerre.
Les chutes de blocs rocheux sont des phénomènes rares aux conséquences catastrophiques :
victimes humaines, destruction d’infrastructures, perte permanente ou temporaire d’accès à
des zones socio-économiques stratégiques et aux services publics (urgences, écoles, etc.).
Actuellement, la gestion du risque d’éboulement fait face à deux difficultés principales. D’une
part, la connaissance préalable du lieu et du volume probable des futurs éboulements, ce qui
peut permettre le dimensionnement d’ouvrages de protection adaptés. En revanche, de tels
ouvrages peuvent représenter un coût disproportionné par rapport aux ressources financières
des municipalités et des opérateurs privés. D’autre part, la gestion du risque d’éboulement
nécessite également l’estimation du risque d’occurrence d’éboulement dans le temps, c’est à dire l’évolution de la probabilité d’occurrence en fonction des conditions climatiques du
moment, ce qui permettrait aux gestionnaires d’infrastructures de mettre en œuvre des
systèmes d’atténuation des risques (restriction d’accès, surveillance, mobilisation de kits
d’urgence, maintenance prédictive). Une telle gestion dynamique des risques est
potentiellement associée à des coûts socio-économiques élevés et sa mise en œuvre nécessite
une procédure de prise de décision justifiée.
Les deux aspects sont souvent abordés « à dire d’expert » ce qui pose un problème
méthodologique de biais induit par l’expérience et la connaissance de l’expert et se limite
souvent à des relations qualitatives entre les chutes de blocs rocheux et le forçage climatique.
Une description quantitative (nombre de chutes, volume rocheux) de l’augmentation du risque
serait plus pertinente mais reste à ce jour difficile à produire.
Sujet :
L’objectif de cette thèse est de surmonter la nécessité de construire une procédure de prise de
décision basée sur l’expertise. En effet, nous pensons que les méthodes d’Intelligence Artificielle
(IA) peuvent améliorer la compréhension du comportement des falaises sous l’effet du forçage
climatique et produire des modèles prédictifs efficaces. Afin d’être exploitable du point de vue
de la décision publique, il est nécessaire de pouvoir expliquer les décisions issues des méthodes
d’IA
Planning des travaux :
1) Prise en main des données et des outils mis à disposition.
2) Mise en œuvre de modèles d’IA standard de l’état de l’art (random forests, SVM, etc.) afin de
constituer une référence à partir des données disponibles pour la falaise du Saint Eynard.
3) Proposition d’un modèle d’IA (deep learning, motifs) permettant de dépasser l’état de l’art et
dont les résultats sont explicables. Ce dernier point est crucial car il s’agit de définir des règles
de gestion des risques opérationnels et de persuader les autorités publiques de mettre en place
des barrages routiers ou de procéder à des évacuations lorsque nécessaire.
Profil du candidat :
Master M2 ou équivalent
Formation et compétences requises :
Connaissances en traitement du signal, réseaux de neurones et fouille de données.
Compétences rédactionnelles et en informatique (C/C++, Python, Linux).
Autonomie et esprit d’initiative.
Adresse d’emploi :
Annecy-le-Vieux, France
Document attaché : 202311210948_2023_sujet_these_XAI_AFuTé_VERSION_FINALE.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IRISA/ATERMES
Durée : 3 ans
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2024-04-01
Contexte :
For more information: http://www-obelix.irisa.fr/files/2023/11/PHD_Object-Detection-from-Few-Multispectral-Examples_2024.pdf
Sujet :
The project aims at providing deep learning-based methods to detect objects in outdoor environments using multispectral data in a low supervision context, e.g., learning from few examples to detect scarcely-observed objects. The data consist of RGB and IR (Infra-red) images which are frames from calibrated and aligned multispectral videos.
Profil du candidat :
– MSc or Engineering degree with excellent academic track and proven research experience in the following fields: computer science, applied maths, signal processing and computer vision;
Formation et compétences requises :
– Experience with machine learning, in particular deep learning;
– Skills and proved experience in programming (Python is mandatory and knowledge about frameworks such as Pytorch is a real plus);
– Excellent communication skills (spoken/written English) is required ;
– Ambition to publish at the best level in the computer vision community (CVPR, ICCV, TPAMI, …) during the thesis.
Adresse d’emploi :
The PhD candidate will be in IRISA Vannes (80%) and in the Atermes company (20%). To be discussed.
Document attaché : 202311211332_PHD_Object Detection from Few Multispectral Examples_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : Laboratoire Informatique, Image et Interaction (L3
Durée : 36 mois
Contact : alain.bouju@univ-lr.fr
Date limite de publication : 2024-04-10
Contexte :
La réduction du rejet de carbone dans l’atmosphère est une préoccupation mondiale. En effet, l’émissions de gaz à
effet de serre dans l’atmosphère est à l’origine du réchauffement climatique ce qui présente une menace pour notre
terre. L’impact carbone du transport est l’un des plus important, par exemple en France, le transport est l’activité qui
contribue le plus aux émissions de gaz à effet de serre (durable, 2021).
Dans ce contexte, différentes mesures peuvent être appliqué dont dans le domaine des transports. Notamment la
conduite autonome et les services de transport à la demande de véhicules électriques. En effet, la conduite autonome
apporte de nombreux avantages aux individus et à la société, notamment une sécurité routière accrue, une réduction
des embouteillages et une empreinte écologique améliorée.
C’est dans ce cadre que le projet YéloDETA intervient. L’objectif du projet YéloDETA est de fournir un service de
transport à la demande automatisé dans les zones à faible densité (périurbaines et rurales) dans 8 communes de
l’agglomération rochelaise. Cependant, pour parvenir à une diffusion réussie de ces véhicules autonomes et exploiter
ainsi leur potentiel environnemental, il faut favoriser une large acceptation de ce concept de mobilité. L’acceptabilité
et l’acceptation sont donc un point bloquant important (Bel., 2019). Ici, l’acceptabilité concerne les intentions des
utilisateurs à utiliser ou non la technologie, et l’acceptation de son usage effectif.
Sujet :
La thèse s’inscrit dans les domaines de l’IHM et des véhicules autonomes, elle vise à fournir un modèle pour
l’évaluation de l’acceptabilité, de l’acceptation et de la confiance des utilisateurs finaux des navettes autonomes dans
un environnement péri-urbaines et rurales. Ces résultats permettront d’améliorer et d’accélérer le processus de
conception des IHM utilisateur-navette autonome à intégrer dans ce type de véhicule afin de garantir une bonne
expérience utilisateur et un déploiement rapide. L’objectif de la thèse est donc double : mesurer l’acceptabilité et
l’acceptation des usagers des navettes autonomes, et proposer les lignes directives pour la conception de l’IHM
usager-Navette qui garantit son acceptabilité.
Profil du candidat :
Formation et compétences requises :
Master en Informatique avec des bases en Modélisation
Adresse d’emploi :
Laboratoire L3i
Institut LUDI
Bâtiment Pascal
Avenue Michel Crépeau
17042 La Rochelle Cedex 1 – France
Document attaché : 202403221104_sujet-these-YeloDeta.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : CRIL
Durée : 3
Contact : wissem.inoubli@univ-artois.fr
Date limite de publication : 2024-04-25
Contexte :
Machine learning involves leveraging data to extract mathematical models capable
of generalizing or describing this data according to predefined objectives. This data
comes in various forms, ranging from well-defined structures like images and
matrices to semi-structured formats such as text and graphs. However, dealing with
entirely unstructured data, such as non-uniform 3D objects, poses a challenge for
traditional methods that primarily focus on geometric analysis.
The development of artificial intelligence, particularly deep learning, has greatly
improved performance compared to conventional learning methods, especially when
it comes to textual data, images, graphs, sequences, and more. However, learning on
non-uniform 3D objects remains a significant challenge. This field is garnering
increasing interest in various applications such as predicting molecular properties
based on their 3D structures rather than textual features [2].
In the field of bioinformatics, protein annotation based on their 3D interactions is an
example [1], as is the use of 3D structures in physics to simulate objects [3] or body
parts to analyze their behavior. These applications demonstrate the utility of
analyzing or learning on non-uniform 3D objects, thus sparking considerable interest
within the scientific community.
Sujet :
This thesis focuses on deep learning, with an emphasis on learning graph
representations. Graphs are widely used in many applications, providing a versatile
representation for non-regular objects, including 3D meshes, as an alternative to
traditional methods such as CNNs or image segmentation models like U-net. This
thesis explores graph neural networks (GNNs) for modeling non-regular 3D objects,
such as 3D meshes. Unlike CNNs, GNNs are designed to handle graph-type data,
making them more suitable for representing 3D meshes. They have demonstrated
superior performance in modeling such data, offering a promising alternative to
existing methods. However, despite their effectiveness, GNNs face scalability
challenges, especially with complex meshes. This thesis proposes solutions to
overcome these challenges by exploring mesh-specific pooling methods and other
strategies to simplify learning. It also considers approaches for constructing graphs
from 3D meshes to enhance learning efficiency. In addition to the static aspect of
data, this thesis addresses the application of GNNs to data with temporal patterns or features. It explores their uses in domains such as fluid simulation, weather
modeling, and 3D medical imaging, as well as in physical simulation of 3D meshes.
This highlights the temporal evolution of meshes in both space and time.
References
[1] Laveglia, V., Giachetti, A., Sala, D., Andreini, C., & Rosato, A. (2022). Learning to Identify
Physiological and Adventitious Metal-Binding Sites in the Three-Dimensional Structures of
Proteins by Following the Hints of a Deep Neural Network. Journal of Chemical Information
and Modeling, 62(12), 2951-2960.
[2] Yang, Y., Yao, K., Repasky, M. P., Leswing, K., Abel, R., Shoichet, B. K., & Jerome, S. V.
(2021). Efficient exploration of chemical space with docking and deep learning. Journal of
Chemical Theory and Computation, 17(11), 7106-7119.
[3] Atz, K., Grisoni, F., & Schneider, G. (2021). Geometric deep learning on molecular
representations. Nature Machine Intelligence, 3(12), 1023-1032.
[4] Cao, Y., Chai, M., Li, M., & Jiang, C. (2023, July). Efficient learning of mesh-based physical
simulation with bi-stride multi-scale graph neural network. In International Conference on
Machine Learning (pp. 3541-3558). PMLR.
[5] Fahim, G., Amin, K., & Zarif, S. (2022). Enhancing single-view 3D mesh reconstruction with
the aid of implicit surface learning. Image and Vision Computing, 119, 104377.
Profil du candidat :
Ideally, the recruited person will hold a Master’s degree in computer science and
have theoretical and practical knowledge in deep learning. Experience of machine
learning on graphs is also desirable but not essential The candidate must
demonstrate:
● Programming skills, such as proficiency in Python, for example
● Experience in Deep Learning, data mining
● Synthesis and writing skills allowing for clear and effective reporting of work
done
Formation et compétences requises :
Adresse d’emploi :
Computer science Research Institute of Lens (CRIL), Lens, France
Document attaché : 202404091446_Deep Graph Representation Learning on non-uniform 3D objects.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : PRISME / BRGM
Durée : 36 months
Contact : yves.lucas@univ-orleans.fr
Date limite de publication : 2025-06-05
Contexte :
The aim of this thesis is to evaluate the contribution of artificial intelligence to better assess the vulnerability of assets facing natural hazards, by unfolding impact scenarios in a multi-risk and multi-scale perspective. The highly multimodal and heterogeneous character of remote sensing data (visible, IR, hyperspectral, lidar, radar, topography, spectral libraries of materials ….) to characterize a territory, brings out a new methodological challenge: to develop network architectures adapted for the classification and semantic segmentation of these massive and complex data. This thesis work is also in synergy with the actions carried out at BRGM (H2020 COCLICO, VIGIRISKS, ANR RICOCHET projects) and the ANR-IA where joint work has been initiated between PRISME and BRGM
Sujet :
Complete description is available in the attached file.
Profil du candidat :
The candidate should have obtained a Master’s degree in computer science. Autonomy, scientific rigor and a strong motivation for the proposed subject will be undeniable assets to successfully complete the thesis.
Candidates must send the following documents in a single pdf file :
CV + cover letter + Master grades – optional letters of recommendation.
Contacts:
yves.lucas@univ-orleans.fr
a.hohmann@brgm.fr
c.negulescu@brgm.fr
Formation et compétences requises :
The candidate should have a broad knowledge of image processing, including deep learning techniques and their implementation in software and hardware. Fundamental notions in remote sensing are also required. Fluency in English is essential.
Adresse d’emploi :
Polytech Orléans · 12, rue de Blois, BP 6744 · 45067 cedex 2 Orléans , France
BRGM 3 avenue Claude-Guillemin, BP 36009 45060 Orléans Cedex 02 France
Document attaché : 202205091216_these_BRGM_PRISME_annonce_MADICS.pdf
Offre en lien avec l’Action/le Réseau : SaD-HN/– — –
Laboratoire/Entreprise : CLERSÉ/CRIStAL
Durée : 36 mois
Contact : Maxime.Morge@univ-lille.fr
Date limite de publication : 2024-05-01
Contexte :
La thèse s’inscrit dans le projet RORES-CL qui bénéficie du soutien financier du CNRS à travers les programmes interdisciplinaires de la MITI. Elle s’appuie sur la complémentarité des expertises du CLERSÉ (Centre Lillois d’Études et de Recherches Sociologiques et Économiques) et du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille) à l’Université de Lille.
Sujet :
Cette thèse s’inscrit dans le projet RORES-CL qui consiste à élaborer un modèle multi-agents explicatif des phénomènes sociaux qui se déploient sur les plateformes numériques publiques de questions-réponses telles que Stack Overflow. Adoptant une approche interdisciplinaire mêlant sociologie et informatique, ce projet cherche à appréhender les dynamiques sociales qui résultent de l’observation empirique des comportements individuels dans les communautés en ligne. Les travaux du ou de la doctorant·e qui sera recruté·e sur le projet se focaliseront sur les communautés de data analysts qui partagent un intérêt pour les outils informatiques d’analyse statistique sur la plateforme Stack Overflow (e.g. R ou Pandas). Le programme privilégie l’exploration et la démarche inductive en vue de poser les bases de la théorisation et de la modélisation centrée « individus ».
Dans la mesure où la plateforme Stack Overflow est une organisation qui crée de l’action collective, elle peut être modélisée à travers le concept classique de rôle social (Linton, 1936 ; Merton, 1949). Comme les interactions génèrent à la fois les rôles sociaux et le statut social à travers la reconnaissance de l’expertise individuelle et le développement du score de réputation, l’analyse des interdépendances relationnelles à l’aide d’un modèle multi-agents (Gilbert, 1994) est un enjeu fort de cette recherche doctorale pour dépasser le caractère désincarné des données numériques. Elle requiert une solide démarche empirique de construction des hypothèses à partir de l’observation quantitative des comportements sur la plateforme, préalable à tout parti pris théorique ou méthodologique (analyse de réseaux, simulations, système multi-agents). Dans le cadre d’une démarche sociologique ouverte, l’enrichissement des données disponibles dans le cadre du projet est donc une possibilité laissée à la libre appréciation du/de la doctorant·e (entretiens, observations, accès à d’autres archives).
Des travaux préliminaires et exploratoires ont abouti à un entrepôt de données massives qui donne à voir à la fois les comportements des individus à l’échelle micro et les dynamiques collectives à l’échelle macro, tandis que l’approche en termes de réseaux permet de repérer, à l’échelle méso, différents phénomènes complexes au sein de chaque communauté (Delarre et al, 2023). Le doctorant aura pour mission :
1. d’enrichir le jeu de données aux autres actions de régulation associées aux rôles de modération comme les votes, les commentaires, à d’autres communautés/langages et d’un point de vue diachronique ;
2. d’étendre les analyses descriptives et de réseau à ces jeux de données à partir des concepts et hypothèses issues des études bibliographiques menées en parallèle ;
3. de calibrer le modèle à partir de l’observation des résultats empiriques des analyses.
Références bibliographiques
• Ralph Linton. 1936. « The Study Of Man: An Introduction » D. Appleton-Century Company, New York.
• Robert K. Merton. 1949. « Social Theory and Social Structure ». Free Press.
• Nigel Gilbert, éd. « Simulating societies : the computer simulation of social phenomena ». UCL Press, 1994.
• Sébastien Delarre, Fabien Eloire, Antoine Nongaillard, Maxime Morge. 2023. « Modèle explicatif de la sécession des experts dans les communautés de pratiques ». 31èmes journées francophones sur les systèmes multi-agents (JFSMA), Strasbourg, France. pp.65-74.
Profil du candidat :
Le poste nécessite une solide formation en théorie sociologique et en analyse de données, de bonnes aptitudes de communication orale et écrite — en français (C1) et en anglais (B2) — pour présenter aux congrès et rédiger des articles dans des revues scientifiques. Nous recherchons un·e jeune chercheur·se qui saura s’impliquer dans son projet, curieux·se, ayant une certaine autonomie et une forte motivation pour développer une triple compétence en sociologie des réseaux et en simulation multi-agents et en science des données. De plus, le candidat devra être apte à travailler en équipe dans un projet interdisciplinaire.
Formation et compétences requises :
Le candidat devra être titulaire d’un master en Sociologie ou d’un diplôme d’ingénieur en Informatique.
Adresse d’emploi :
https://emploi.cnrs.fr/Offres/Doctorant/UMR8019-FABELO-001/Default.aspx?lang=FR
Les candidatures devront inclure :
• une lettre de motivation (une page minimum). Les lettres de motivation génériques seront ignorées ;
• un curriculum vitae (CV) ;
• des lettres de recommandation de deux personnes de référence ;
• le relevé de notes du master ou d’école d’ingénieur.
Document attaché : 202404102249_ficheDePosteRORESBilingue.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFO Université d’Orléans
Durée : 3 ans
Contact : anais.halftermeyer@univ-orleans.fr
Date limite de publication : 2024-05-04
Contexte :
The recruited person will work at LIFO, University of Orléans (Campus de la Source, Orléans). They will be integrated into the Contraintes et Apprentissage team of LIFO(https://www.univ-orleans.fr/lifo/equipes/CA/).
The thesis will start in October 2024, and funding will last for three years.
Supervisors:
Anaïs Lefeuvre-Halftermeyer (anais.halftermeyer@univ-orleans.fr) LIFO, U. Orléans
Thi Bich Hanh Dao (thi-bich-hanh.dao@univ-orleans.fr) LIFO, U. Orléans
Remuneration:
Remuneration follows current legislation (2100 euros for gross salary), see https://www.enseignementsup-recherche.gouv.fr/fr/le-financement-doctoral-46472
Sujet :
We propose to work within the framework of temporal information extraction, which associates a synthetic representation of the events described in natural language text. A classical representation of such data is a graph of temporal relations between the events described and/or between temporal expressions [1].
Recent advances in deep learning in terms of language skills lead us to question human mastery over natural language processing tasks. These models have increasingly complex architectures and are increasingly demanding in terms of computing power and training data. However, they remain insufficient since general knowledge about temporal relations is not exploited to better guide and explain the results. In the context of this thesis topic, we propose to explore the integration of knowledge into a deep learning system, based on a language model, to solve temporal reasoning tasks.
A preliminary system [3] proposed to construct a temporal graph from medical texts by leveraging BERT, using rules in probabilistic logic during the model learning phase, as well as during the global inference phase. This hybrid work opened research avenues on the considerable contribution that temporal knowledge could represent through rule-based work. In order to make the systems more efficient, another study [4] proposed to successfully utilize syntactic analysis of inputs. In line with [2], we propose to leverage temporal knowledge representation to enhance system performance and explainability.
We are interested in integrating knowledge into these models to best solve temporal reasoning tasks, and this via constraint expression to:
• Leverage the best of both worlds, constraints, and language models acquired by deep learning
• Propose partly explainable hybrid models
• Base our systems on controlled computing power combined with a reproducible methodology of knowledge injection
Concretely, given a deep learning system based on a language model trained to translate text into a temporal graph representing the events narrated in the input text, injecting knowledge via constraint expression will modify the system’s outputs. We aim to incrementally inject knowledge to guide our system while controlling:
• The size of our model
• The size of our training data
• The complexity of our constraints
References
[1] T. Knez and S. Žitnik. Event-centric temporal knowledge graph construction: A survey. Mathematics, 11(23), 2023.
[2] B. Zhang and L. Li. Piper: A logic-driven deep contrastive optimization pipeline for event temporal reasoning. Neural Networks, 164:186–202, 2023.
[3] Y. Zhou, Y. Yan, R. Han, J. H. Caufield, K.-W. Chang, Y. Sun, P. Ping, and W. Wang. Clinical temporal relation extraction with probabilistic soft logic regularization and global inference. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 14647–14655, 2021.
[4] L. Zhuang, H. Fei, and P. Hu. Syntax-based dynamic latent graph for event relation extraction. Information Processing Management, 60(5):103469, 2023
Profil du candidat :
Ideally, the recruited person will hold a Master’s degree in computer science and have theoretical and practical knowledge in deep learning. An interest in language and its automatic processing would be appreciated but is not a prerequisite for recruitment.
Formation et compétences requises :
The candidate must demonstrate:
• Programming skills, such as proficiency in Python, for example
• Experience in Machine Learning, data mining, or applied mathematics
• Synthesis and writing skills allowing for clear and effective reporting of work done
• Ability to communicate in French or English, both orally and in writing
An audition will take place before the MIPTIS doctoral school jury on June 12 to finalize the selection process.
Adresse d’emploi :
LIFO – Bâtiment IIIA
Rue Léonard de Vinci
B.P. 6759
F-45067 ORLEANS Cedex 2
Document attaché : 202404080944_Sujet_these_FR_EN.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : LISTIC
Durée : 3 ans
Contact : Khadija.arfaoui@univ-smb.fr
Date limite de publication : 2024-05-04
Contexte :
Sujet :
La Recherche d’Architecture de Neurones (Neural Architecture Search ou NAS) a révolutionné l’apprentissage automatique en automatisant la conception des architectures neuronales, dépassant les méthodes d’apprentissage classiques sur des tâches telles que la classification d’images, la détection d’objets et la segmentation sémantique. En se situant dans le domaine de l’AutoML, le NAS présente un chevauchement avec l’optimisation des hyper-paramètres et l’apprentissage méta. Classées selon trois dimensions, les méthodes de NAS nécessitent une définition efficace de l’espace de recherche, des algorithmes de recherche avancés et des techniques d’évaluation appropriées. Les architectures de réseaux de neurones, en particulier les CNN, émergent comme prédominantes, mais leur performance est étroitement liée à la configuration de leurs paramètres, nécessitant une exploration systématique de l’espace paramétrique. Cependant, des défis matériels tels que la complexité computationnelle, la taille des modèles, l’hétérogénéité matérielle et la consommation d’énergie persistent. Dans ce contexte, les approches d’optimisation multi-objectifs des architectures de réseaux de neurones, visant à améliorer les performances tout en réduisant la consommation d’énergie, deviennent cruciales. Ce projet de thèse envisage d’explorer ces aspects en utilisant des approches évolutives pour évaluer l’impact des différentes configurations de paramètres et en se concentrant sur les architectures compactes pour réduire la consommation d’énergie des CNNs. La validation de ces travaux à travers des cas d’utilisation concrets avec des ensembles de données réels permettra de démontrer la pertinence et l’applicabilité des avancées dans le domaine de l’optimisation des architectures des réseaux de neurones pour les CNNs.
Profil du candidat :
Le candidat idéal pour ce sujet de thèse devrait posséder des connaissances approfondies en apprentissage automatique et en optimisation, avec une maîtrise des techniques telles que les algorithmes évolutionnaires et l’apprentissage par renforcement. Une solide expérience en programmation, en particulier avec des langages comme Python et des bibliothèques telles que TensorFlow ou PyTorch, est essentielle pour la mise en œuvre pratique des méthodes proposées. De plus, une compréhension approfondie des architectures de réseau de neurones, en particulier des CNN, ainsi que des hyper-paramètres associés et de leur impact sur les performances des modèles, est nécessaire. La capacité à travailler avec des ensembles de données réels et à analyser les résultats de manière statistiquement significative est également importante. Enfin, une connaissance des défis matériels et de l’efficacité énergétique dans le contexte de l’implémentation des architectures de réseau de neurones serait un avantage.
Formation et compétences requises :
Adresse d’emploi :
LISTIC (Laboratoire d’Informatique, Systèmes, Traitement de l’Information et de la Connaissance), 5 Chem. de Bellevue, 74940 Annecy
Document attaché : 202404080618_sujet de thèse.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Mines Saint-Étienne / LIMOS
Durée : 3 ans
Contact : victor.charpenay@emse.fr
Date limite de publication : 2024-05-05
Contexte :
Large Language Models (LLMs), characterized by a large number of parameters and/or a large number of symbols in their training corpus, have become a reference in the development of AI systems. Yet, their use implies a significant energy consumption , both during training and inference, and a lack of transparency about decisions made by the system. The goal of the thesis will be to show that Knowledge Graphs (KGs), such as DBpedia, BabelNet or ConceptNet can be a solution to both problems.
Sujet :
The thesis will consist in characterizing the relationship between performances of a KG embedding model and its computational cost—empirical laws do exist for LLMs—and in analyzing the correspondance between its geometric properties and the semantic properties of the KG.
Profil du candidat :
Applicants should have prior experience with Semantic Web technologies and/or logic programming. General knowledge about machine learning techniques is also recommended.
Formation et compétences requises :
Master’s degree in computer science, data science or any related topic.
Adresse d’emploi :
Saint-Étienne
Document attaché : 202401231512_lkm-en.pdf
