
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : HELP/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique et Société Numérique
Durée : 36 mois
Contact : malika.kharouf@utt.fr
Date limite de publication : 2024-05-15
Contexte :
Sujet :
L’optimisation de la maintenance des systèmes de production industrielle est une préoccupation majeure des responsables de la maintenance qui souhaitent implanter les politiques les plus pertinentes aux plans techniques et économiques. Des politiques de maintenance préventive basée sur l’âge existant d’ores et déjà sur le marché commencent à ne plus répondre au besoin personnalisé et éco-responsable en exploitant au plus juste les ressources. Dans ce contexte, l’évolution de la maintenance classique à une maintenance « intelligente » est devenue un sujet important. La maintenance prévisionnelle s’impose comme une solution efficace car elle permet non seulement d’anticiper des pannes à l’avance grâce à la surveillance du fonctionnement du système et à la prédiction de son état de santé, mais aussi d’optimiser des ressources humaines et matérielles pour diminuer le coût de la maintenance et la gravité des conséquences d’une panne.
Avec la diffusion d’aujourd’hui des nouvelles technologies numériques utilisant des objets connectés, l’internet des objets, le big data, l’intelligence artificielle et plus généralement la science des données, la maintenance prévisionnelle est de plus en plus adoptée et adaptée et fait émerger dans des actions stratégiques majeures au sein des entreprises. À titre d’exemple, Air France – KLM a exploité les historiques de vol des A-380 et des atterrissages à Paris pour établir un programme Big Data permettant de détecter une panne possible en moins d’une heure et d’établir son diagnostic en cinq minutes. Un projet Big Data de SNCF Transiliens vise à automatiser le diagnostic des pannes à partir de données issues des rames connectées en temps réel, offrant ainsi une vision plus précise et complète de l’état du matériel.
Malgré ses attentes prometteuses, la mise en œuvre de la maintenance prévisionnelle reste encore un grand défi par manque de connaissance en temps réel sur l’état de santé du système. La construction en ligne des indicateurs de dégradation d’un système à partir des données de surveillance est donc une question centrale de la maintenance prévisionnelle. Il s’agit de prendre en compte des données de plus en plus abondantes et de types différents (Big Data) issues de réseaux de capteurs dans la construction de l’indicateur. Cet indicateur doit être simple à dimension réduite et ayant pour but d’estimer le temps de vie résiduel du système. Cette approche nécessite souvent de se munir d’un grand nombre de capteurs, ce qui peut être coûteux. Ainsi, l’élaboration d’un indicateur de dégradation équilibrant qualité et économie est un enjeu majeur.
D’un point de vue scientifique, cet enjeu implique trois problématiques principales.
1. Développer une méthode de réduction de la dimension des données adaptée à la fois aux contextes supervisé et non supervisé.
2. Spécifier, parmi les capteurs prévus, l’emplacement des capteurs permettant des données significatives pour la construction des indicateurs de dégradation.
3. Élaborer des indicateurs de dégradation à partir des données retenues et les valider.
L’objectif de cette thèse est de développer un nouvel outil pour résoudre les trois problématiques ci-dessus.
Profil du candidat :
Master 2 recherche, compétences en Probabilité et Statistique, machine learning, Python ou R.
Formation et compétences requises :
Adresse d’emploi :
Université de technologie de Troyes
12 rue Marie Curie
10300, Troyes
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : Laboratoire GREYC
Durée : 36 mois
Contact : jean-luc.lamotte@unicaen.fr
Date limite de publication : 2024-05-15
Contexte :
Sujet :
Les laboratoires de recherche GREYC(informatique) et CERMN (pharmacologie) travaillent depuis de nombreuses années au sein d’un groupe commun pour développer des méthodes informatiques innovantes afin de traiter des données liées aux médicaments et notamment d’essayer de prédire et de comprendre le mode d’action d’une nouvelle molécule à partir de connaissances extraites sur un ensemble de molécules.
Les molécules pouvant être modélisées par des graphes, il est possible d’apprendre à un GNN (Graph neural network) à classifier ou prédire l’action de molécules, mais actuellement, aucune explication sur la prise de décision du réseau n’est donnée. L’explicabilité des réseaux est fondamentale dans la prédiction des propriétés thérapeutiques de molécules. En effet, celle-ci permet~:
– de valider les prédictions avant d’engager des efforts et des moyens sur les synthèses d’une série moléculaire
– d’obtenir une intuition sur les propriétés physico-chimiques clés que doit posséder une molécule pour avoir une action biologique ciblée.
L’objectif de cette thèse est de proposer des solutions pour expliquer les décisions que prend un réseau de neurones opérant sur des graphes en vue de l’appliquer sur des données des molécules chimiques. Aucune connaissance en chimie thérapeutique n’est requise.
Profil du candidat :
La personne candidate doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur, ou être titulaire d’un tel diplôme, dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation. Une expérience en informatique pour la Science des Données, l’apprentissage profond, … sera un plus. La personne doit avoir des capacités à rédiger des rapports scientifiques et à communiquer des résultats de recherche lors de conférences en anglais.
Formation et compétences requises :
Adresse d’emploi :
Equipe CODAG, laboratoire GREYC, Université de Caen Normandie
Document attaché : 202404161409_theseExplicabilite.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IMT Toulouse et IPAL/ASTAR SIngapour
Durée : 3 ans
Contact : caroline.chaux@cnrs.fr
Date limite de publication : 2024-05-15
Contexte :
Nous proposons un sujet de thèse France – Singapour pour lequel la moitié de la thèse aura lieu en France (ITM Toulouse) et l’autre moitié à SIngapour (IPAL IRL CNRS 2955).
Sujet :
The goal of this PhD thesis is to deploy the 3D PAT scanner designed by
Jérôme Gateau at the Laboratoire d’Imagerie Biomédicale (LIB) for a routine use in biomedical studies.
This will be achieved by designing fast reconstruction methods that provide high-quality results. Depending on the candidate interests, the following axes would be considered:
• Designing implementations of the forward and adjoint models (modeled by matrix-vector products) that are fast and that incorporate the SVIR of the detector. During their preliminary works, the
partners have identified a promising approximation method of A together with the actual reconstruction algorithms. The method based on the Fourier Integral Operator form of the wave propagation equation, should be able to scale high-quality reconstructions to real data. Other types of approximation
could also be considered such as Hierarchical matrices or tensor-train decomposition.
• Designing reconstruction algorithms based on deep neural networks: such as Plug-and-Play methods or algorithm unrolling.
• Implementing an optimized high-parallel (GPU) version of the algorithms to meet with the time requirements of routine use.
• Designing automatic fine-tuning methods of the hyper-parameters involved in these reconstruction algorithms and the calibration of the parameters of A.
One outcome of this PhD project is a photoacoustic scanner that simultaneously combine, compared to standard reconstruction methods, (i) shorter acquisition times, (ii) a reconstructed image of higher resolution and contrast, and (iii) shorter computation times. This could have a great impact on the PAT community which in turn will benefit the clinical and biological communities. The candidate will be trained and could develop skills in optimization, image processing, machine learning, high performance computing and approximation theory. These competences are actively being in demand in the industry and the academic research.
Profil du candidat :
Master of computer science or applied mathematics with strong skills in signal/image processing, optimization, machine learning and numerical computations. Languages: Python/Matlab, C++/ CUDA.
Formation et compétences requises :
Master of computer science or applied mathematics with strong skills in signal/image processing, optimization, machine learning and numerical computations. Languages: Python/Matlab, C++/ CUDA.
Adresse d’emploi :
IMT Toulouse
IPAL Singapour
Document attaché : 202404260923_2024_PhD_offer_IPAL.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IRISA/ATERMES
Durée : 36 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2024-05-15
Contexte :
Please find the full PhD topic here: http://www-obelix.irisa.fr/files/2024/04/PhD_Cifre2024_IRISA_ATERMES.pdf
ATERMES is an international mid-sized company, based in Montigny-le-Bretonneux with a strong expertise in high technology and system integration from the upstream design to the long-life maintenance cycle. It specializes in offering system solution for border surveillance. Its flagship product BARIER™ (“Beacon Autonomous Reconnaissance Identification and Evaluation Response”) provides ready application for temporary strategic site protection or ill-defined border regions in mountainous or remote terrain where fixed surveillance modes are impracticable or overly expensive to deploy. As another example, SURICATE is the first of its class optronic ground “RADAR” that covers very efficiently wide field with automatic classification of intruders thanks to multi-spectral deep learning detection.
Sujet :
The project aims at providing deep learning-based methods to detect objects in outdoor environments using multispectral data in a low supervision context, e.g., learning from few examples to detect scarcely-observed objects. The data consist of RGB and IR (Infra-red) images which are frames from calibrated and aligned multispectral videos.
Few-shot learning [1][2], semi-supervised learning [3][4] and continual learning [5][6] are among the most widely-used frameworks to tackle this task. For the first approach based on few-shot object detection (FSOD), the recent trend has relied on using meta learning or transfer learning approaches [1:1]. Yet, realistic settings including scarce objects may exist a domain shift that makes the task more challenging. The second approach based on semi-supervised learning considers a large amount of unlabeled data in the training process to foster the representation capacity of deep models, improving the peformance of object detection from a small amount of labeled samples. As the third approach, continual learning [5:1] aims to maintain the performance of the deep models on old categories and avoid the “catastrophic forgetting” phenomenon when learning new object categories. It has been also integrated into a FSOD task [7] to ensure that few-shot object detectors could learn new object concepts without forgetting previous object categories that still exist in prediction phase. Last but not least, with the dramastically rapid evolution of research in AI, another challenge to tackle is the investigation of modern AI models, and more specifically foundation models which involves multimodal transformers [8][9]. Indeed, these large machine learning models trained on a vast quantity of data at scale have been designed to be adapted to a wide range of downstream tasks (including object detection, see for instance UniDetector [10]) or CLIP2 [11]. These models leading to zero-shot object detection could very well be the ultimate answer for the task of having a true scene understanding.
Profil du candidat :
MSc or Engineering degree with excellent academic track and proven research experience in the following fields: computer science, applied maths, signal processing and computer vision;
European nationality required
Formation et compétences requises :
Experience with machine learning, in particular deep learning;
Skills and proved experience in programming (Python is mandatory and knowledge about frameworks such as Pytorch is a real plus);
Excellent communication skills (spoken/written English) is required ;
Ambition to publish at the best level in the computer vision community (CVPR, ICCV, TPAMI, …) during the thesis.
Adresse d’emploi :
IRISA, Université Bretagne Sud, 56000 Vannes
Document attaché : 202404161424_PhD_Cifre2024_IRISA_ATERMES.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : Institut de Recherche en Horticulture et Semences
Durée : 36 moths
Contact : julie.bourbeillon@institut-agro.fr
Date limite de publication : 2024-05-17
Contexte :
The Institute for Horticulture and Seed Research – IRHS (UMR1345) is seeking a Ph. D. student within the frame of a research project on ontology-based multiscaled modelling of tomato, financed by Institut Agro Rennes-Angers (1.10.2024 – 30.9.2027) and starting on October 2024.
Context and background
In the context of challenges such as climate change, scarcity of workforce, pressure from new pests and diseases, regulations concerning the use of pesticides, production of horticultural crops has become a difficult endeavour. There is a real need to develop new production systems, that overcome these problems. At the same time, enormous progress has been made recently at the frontiers of information science, artificial intelligence and sensor technology. 3D plant models representing plant architectural and physiological development in space and over time at different resolutions (scales) are now available, putting the creation of a horticultural digital twin within reach. Such a digital twin (i.e. a multi-scaled model able to update its parameters automatically) would be a powerful tool enabling us to rapidly optimize existing, and to propose novel, production systems in silico.
A digital twin consists in multiscale models with a multitude of parameters. The mater is how best to interconnect these models, and to reason simplifications at the scale of the digital twin. We therefore need to automatize the exploration of these different scales. This can be achieved thanks to a formal representation of the multi-dimensional landscape of scales and parameters through an ontology. The aim of this thesis is to navigate the ontology to determine what is relevant by comparing simulated with real data. The challenge is to carry out such a comparison by developing a method for automatically moving from one scale to another, without losing essential information.
Sujet :
What you will do
• Characterizing the multidimensional landscape of scales and parameters: Inventory of photosynthesis and biomass production models (especially for tomato), characterize the key parameters to create an ontology describing the parameter landscape of each model.
• Building the integration system: Define how to transfer data between ecophysiological models and scales, and represent them in the ontology for the tomato crop case. Exploit the information to describe how to use the output of one model in another.
• Greenhouse trials: Define how to measure the environment and the plants at the desired level of detail for the model(s) under consideration, based on the results of the system (output from point 2).
• Refining the integration system: Compare the experimental results with the integration system to improve the representation. A second set of experimental data may be used to validate the corrections made. Data analysis, parameterization, calibration and validation of the model
Generally, you will conduct a bibliographical comparison and an analysis of the code of various models, then propose a (re)coding of the models (Functional-Structural Plant Model, Process-Based Model, or 3D model of the greenhouse) based on an ontology to be created. This work will be followed by a sensitivity analysis, optimization studies, simulation of scenarios and validation using the platforms GroIMP and R. Validation will be provided by experiments planned on a greenhouse located on the campus.
Profil du candidat :
Your profile
You should have sound skills in at least two of the following domains: bioinformatics, data sciences, computer science or plant sciences. You must be at ease with programming (knowledge of the JAVA language would be a plus) and should have a strong interest in agronomy (or plant science) and be ready to carry out experiments in interaction with agronomists. Applications with both data science and plant sciences degree will be appreciated. Your ability to communicate in English both orally and in writing is essential. (Basic) knowledge of the French language (resp., willingness to learn it) will be a strong asset, as you will have to communicate with technical staff.
Formation et compétences requises :
Adresse d’emploi :
IRHS, 42 Rue Georges Morel, 49070 Beaucouzé
Document attaché : 202404040828_DoctoralPositionAngers.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ICube laboratory
Durée : 3 ans
Contact : lafabregue@unistra.fr
Date limite de publication : 2024-05-23
Contexte :
This thesis is part of the field of unsupervised or weakly supervised learning applied to temporal data. Clustering, which consists in partitioning the set of analyzed objects into groups or clusters, is one of the most widely used approaches and relies on a similarity measure between objects. In particular, sequence clustering raises problems related to measuring similarity between two individuals. For example, in river monitoring, certain phenomena occur at an annual frequency linked to the natural water cycle, but may be shifted in time due to geographical distance and local meteorology. Similarity measures must be able to take these potential shifts or slight distortions in time into account. Numerous methods have been proposed in the literature to take these specificities into account, such as Dynamic Time Warping, Longest Common SubSequence or, more recently, representations using shapelets or neural networks.
Sujet :
The main objective of this thesis is to develop new approaches for measuring similarity between two multivariate time series, taking into account missing values distributed heterogeneously in time and between variables. The aim is to define solutions for integrating temporal information (spacing between two time steps, temporal frequencies of measurements, etc.) into the calculation of similarity. We will also look at how to integrate the expert’s knowledge via annotations, also known as constraints (e.g. proximity/remoteness between two individuals based on external information), concerning both temporal and spatial links between different individuals, in order to improve the correspondence between the clustering obtained and the expert’s expectations. These approaches will be experimented on river monitoring data that raise various problems, due to their number, their diversity, and their spatial and temporal heterogeneity.
Work will focus on the following questions:
– clustering vector sequences, where vectors contain parameters that can be measured at different time steps
– taking into account temporal (seasons) and geographical (hydrographic regions) constraints
– coupling physico-chemical and biological or hydrological data (different measurement frequencies)
– exploring the limits of the proposed methods in terms of number and size of sequences
Profil du candidat :
– Master 2 in Computer Science
– Training in data science, data mining, machine learning
Formation et compétences requises :
– Excellent knowledge of machine learning and knowledge modeling
– Excellent programming skills in Python or R
– Excellent communication and writing skills in English (French not mandatory)
– An interest in the application’s subject
Adresse d’emploi :
The thesis will be carried out at the ICube laboratory in Illkirch (near Strasbourg).
Document attaché : 202403191713_sujet_these_hydro.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS)
Durée : 3 ans
Contact : paul.chauchat@lis-lab.fr
Date limite de publication : 2024-05-24
Contexte :
Sujet :
The complete offer is available here:
https://www.lis-lab.fr/wp-content/uploads/2024/03/Sujet_these_homeostasie-2.pdf
Context and Positioning
Homeostasis is the process by which living organisms maintain a stable internal balance necessary for their survival and optimal functioning. This process typically involves feedback mechanisms that detect deviations from a target state and activate responses to correct these deviations and return the system to a stable level. The homeostasis capabilities of an individual are used to support medical decision making, such as patients’ peri-operative risk stratification in lung cancer surgery.
The homeostatic abilities of an individual can be assessed through exercise testing, which is the traditional clinical method for evaluating patients’ health status and overall systemic dynamics. A series of tests is designed to measure features representative of the individual’s homeostatic capabilities, with one significant metric being the maximal oxygen uptake (VO2max). These measurements are obtained through routine functional tests and maximal exercise sessions, aimed at challenging the entire organism to evaluate physiological adaptive responses. When exercise performance or maximal aerobic capacity is limited for a given patient, the medical doctor has to identify the failing physiological function and to provide a coherent system failure mechanics analyzing the monitored data. However, medical doctors still analyze the collected physiological data in a univariate approach as historically developed. Currently, in the research community, the human body is considered as a dynamic physiological complex system. Recently, the framework of network physiology was proposed, giving a central role to homeostasis.
To broaden theoretical knowledge and to fill the gap between current research and medical practice, the Exercise Test Laboratory of Hôpitaux Universitaires de Marseille built its own activity database composed of 2500 exercise tests.
Objectives
This thesis aims at exploiting this dataset in order to provide a global understanding and interpretation framework of the multivariate data generated during maximal exercise testing to improve patients’ homeostasis phenotyping through their homeostatic capabilities.
We aim to develop a medically and statistically consistent approach to identifying and quantifying determinants of overall performance as well as aerobic performance from monitored variables. This would provide physicians with improved analytical tools to achieve a more relevant and precise patient exercise phenotyping.
The thesis project aims to go further and provide physicians with a quantitative decision support indicator. It will be developed by focusing on the dynamic interactions between the recorded variables. Here, we consider in particular adapting the framework of physiological networks to the mesoscopic and macroscopic case of exercise tests. This would provide crucial information to the physician about patients’ homeostatic capacities.
Work environment
The recruited candidate will work at LIS-lab and C2VN, in Marseille. They will have access to the computing cluster of LIS.
In addition to the supervising team, the PhD candidate will work in close collaboration with a junior hospital doctor.
Profil du candidat :
We are looking for a candidate with both an appeal to work on precise and effective medical problems, and a strong theoretical background in one of the following:
• System and control theory
• Signal/Image/Graph processing
• Computer science
• Machine learning/Artificial intelligence
Good coding skills are also required, preferably in Python.
The candidate should be able to work autonomously, and interact efficiently with the team. Critical thinking, especially when interpreting results, is crucial.
Candidate selection is a two-stage process. First the supervision team will shortlist three candidates, who will then be auditioned by Laennec Institute scientific board.
The application must include a CV, a motivation letter, and the master’s degree grade transcript (first year, and at least the first semester of the second year if it is ongoing).
Formation et compétences requises :
Adresse d’emploi :
Laboratoire d’Informatique et des Systèmes
LIS UMR 7020 CNRS / AMU / UTLN
Aix Marseille Université – Campus de Saint Jérôme – Bat. Polytech
52 Av. Escadrille Normandie Niemen
13397 Marseille Cedex 20
Document attaché : 202403261024_Sujet_thèse_homéostasie.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ImViA – Dijon
Durée : 36 mois
Contact : franck.marzani@u-bourgogne.fr
Date limite de publication : 2024-05-31
Contexte :
Image and Vision Computing (ImViA) is a university of Burgundy laboratory, France (https://imvia.u-bourgogne.fr/): its thematic is Imaging and Artificial Vision. The lab is structured into two teams with complementary activities. The thesis will be carried out within the CoReS (COmputer vision for REal time Systems) team in Dijon. This group is composed of researchers working in the field of vision, embedded electronics, signal and image processing for the joint development of imaging systems and associated methods. Particular emphasis is put on the design of unconventional and multimodal vision systems, on the consideration of strong constraints on processing times and on the use of machine learning techniques in specific contexts (e.g. embedded targets, little data or explainable AI).
The application domains are numerous, such as heritage, health or quality control, and include quality control of manufactured products, biomedical engineering and human monitoring.
Sujet :
This PhD thesis focuses on spectral imaging (color, multi- and hyper-spectral). We are interested in the study of the texture of this type of image and its link with human perception [Cha19]. At present, texture processing and analysis is mainly carried out in grayscale. We want to work jointly on texture combined to spectral dimension.
Texture feature extraction is divided into four main categories. The transform features are based on the Fourier transform and its derivatives [Cog85]. The structural features rely on textons (the pattern that defines the texture). It is the family of the Local Binary Pattern ([Oja94]). The model-based features assume a model for the texture such as fractals [Pen84] or Markov random fields [Cro83]. The last category is based on statistical features with the analysis of probabilistic characteristics linked to texture [Har73].
The aim of this thesis is to propose a distance measure between multivalued textures. To achieve this, spectral texture features will have to be developed that combine both image’s spectral and spatial dimensions [Chu21]. We will consider the spectral texture as a joint probability between the spectral and the spatial distributions of the spectra responses. To measure the distance between features, we need to consider the nature of the data. Depending on which category of features you are in, one should not use any distance measure. The Minkowski distance should be used for orthogonal data, while finite state distance (Hamming distance) is adapted to finite state data (usually binary). When dealing with statistical features, the use of probabilistic measured is needed [Ric16]. Nowadays, metric learning is used a lot [Kay19]. Several measures of distance between texture features will be proposed. A validation process will have to be defined. These measures will need to be validated according to the application.
In particular, this work will be applied to endoscopy images in order to offer physicians a richer perception of mucosal structure [Kre19]. The research team has an extensive background in medical endoscopy image analysis. Thanks to its collaborations, it has access to spectral videos, particularly in relation to inflammatory diseases of the digestive system. The inflammatory process induces various tissue modifications that can be investigated by several existing techniques during digestive endoscopy. Dye-free digital chromoendoscopy, or virtual chromoendoscopy, is based on the illumination of the mucosa with a specific light to recognize changes in mucosal structure. The very recent emergence on the market of endoscopic systems for highlighting textural features demonstrates the interest of such features in addition to spectral and shape one [Sat21], [Sug22]. In the context of the PhD, we will work on the interpretability of multivalued textures to characterize inflammatory lesions in relation to the physician’s perception.
As well as texture features, a key element we would like to develop is the uncertainty associated to feature extraction. Indeed, the uncertainties due to acquisition are not the focus of this work. Yet, those coming from the computation side can be extracted and must be calculated to add value to the result presented to the physician. To estimate them, the model error will be measured such as a distance between the approached probability and the true one.
Profil du candidat :
Master in imaging, computer vision or mathematics
Formation et compétences requises :
– Image
– Python, C++, MATLAB
– Enthusiasm for research
– Fluency in English (written, spoken)
– Teamwork and autonomy
Adresse d’emploi :
Laboratoire ImViA
Université de Bourgogne
Dijon
Document attaché : 202405061450_Sujet_These Marzani Chatoux 2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Data Science Institute at Hasselt University, Belg
Durée : 4 years
Contact : jan.vandenbussche@uhasselt.be
Date limite de publication : 2024-05-31
Contexte :
Sujet :
The Data Science Institute at Hasselt University, Belgium has three 4-year positions for doing a PhD in Computer Science. The research is funded by the Flanders AI Research Programme and is related to data management for AI. Topics include automated data wrangling (advised by Frank Neven); neuro-symbolic AI (advised by Stijn Vansummeren); and reasoning about machine-learning models (advised by Jan Van den Bussche).
Within these positions you will have the opportunity to work in a leading research group in the foundational aspects of data management at an international level; you will also be involved in practical use cases where research ideas are applied to real-life problems.
Emails: frank.neven@uhasselt.be; stijn.vansummeren@uhasselt.be; jan.vandenbussche@uhasselt.be .
Profil du candidat :
Candidates with a strong computer science background and an interest in the interplay between systems and theory are encouraged to contact one of the advisors! Include a brief cv.
Formation et compétences requises :
Adresse d’emploi :
Hasselt University, Belgium
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LAMSADE – Université Paris-Dauphine
Durée : 3 ans
Contact : elsa.negre@dauphine.fr
Date limite de publication : 2024-06-02
Contexte :
Sujet :
Appel à projet pour un contrat doctoral – Université Paris-Dauphine
Thèse pluridisciplinaire : Droit et Informatique
Localisation : Université Paris-Dauphine, France
Encadrantes / Contacts : Elsa Negre, MCF HdR, LAMSADE (elsa.negre@lamsade.dauphine.fr) et Olivia Tambou, MCF HdR, Cr2D (olivia.tambou@dauphine.psl.eu)
Mots-clés : IA, Systèmes décisionnels, Droit.
Problématique : Peut-on imaginer un système décisionnel comme support à l’accès au Droit ? Illustration autour du règlement européen sur l’IA
L’objet de ce projet de recherche doctorale serait d’imaginer un système décisionnel (aide à la décision) en s’appuyant sur l’analyse de la manière dont un texte juridique a été adopté puis interprété. Le point de départ serait donc d’accéder, de traiter et d’analyser/interpréter une grande masse de données juridiques comportant l’ensemble des travaux préparatoires à l’élaboration d’un texte juridique.
Un système décisionnel tout comme le droit repose sur différentes étapes pouvant aider les parties prenantes à trouver, entre autres, de l’information pertinente pour améliorer leur prise de décision. Il s’agit donc d’une aide automatisée à la prise de décision qui, elle, reste à la charge de la partie prenante.
Un tel projet part du paradigme qu’un système décisionnel, tout comme l’analyse juridique, suppose d’extraire d’une masse de données, des informations, et de créer de la connaissance. Il s’agira donc de voir dans quelle mesure un système décisionnel pourrait venir en support des analyses de droit.
Candidatures : Les candidat(e)s intéressé(e)s sont invité(e)s à envoyer :
– un projet de 2 pages maximum selon leur compréhension de la problématique,
– un CV,
– leurs relevés de notes (Master 1 et 2) avec classements (Master 2 également, éventuellement partiel), et
– plusieurs lettres de recommandation;
le plus tôt possible, avant le 02 juin 2024.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Université Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75016 Paris
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LaBRI, Université de Bordeaux
Durée : 3 ans
Contact : thebault@labri.fr
Date limite de publication : 2024-06-03
Contexte :
Ce projet de thèse interdisciplinaire vise à proposer de nouvelles approches informatiques pour analyser et améliorer les connaissances actuelles sur les cancers digestifs, maladies souvent diagnostiquées tardivement et aux solutions thérapeutiques limitées. Une stratification efficace des patients nécessite la compréhension la plus exhaustive possible des mécanismes biologiques impliquant des données biologiques hétérogènes (génomique, transcriptomique, protéomique, communication intercellulaire, épigénomique …), étroitement interconnectées de façon hiérarchique, et des connaissances provenant de bases de données spécialisées. La modélisation et intégration de ces données hautement complémentaires et à forte combinatoire dans un système complexe est cruciale pour approcher la réalité biologique et améliorer la précision des connaissances sur les mécanismes mis en jeu.
Dans ce contexte, les objectifs de ce projets sont de (1) modéliser les données biologiques à partir d’un multiplex (graphe multi-couches) hétérogène mixte avec le double avantage de représenter par niveau chaque type de données biologiques avec leurs interactions tout en prenant en compte les relations entre chaque niveau en fonction des différentes classes de pathologies, (2) proposer de nouvelles méthodes d’identification des voies de signalisation dérégulées basées par exemple sur la combinaison d’algorithmes de propagation de l’information et de détection de communautés dans chaque couche et entre elles afin d’utiliser au mieux toutes les topologies spécifiques à chaque type de données tout en permettant de les relier et (3) définir et implémenter des approches de visualisation pour faciliter l’interprétation interactive des résultats en plaçant le/la biologiste ou bioinformaticien·ne au centre du processus d’analyse des données. Ces développements informatiques seront appliqués à des données hétérogènes (exome, protéomique, transcriptomique..) produites par le BRIC à partir d’une cohorte de patients atteints de cancers digestifs (pancréas, foie et rectum).
Sujet :
Un des grands défis dans le domaine de la santé numérique est d’accompagner l’exploitation de grands jeux de données et de connaissances hétérogènes pour le développement de la médecine de précision. Cette médecine, dite personnalisée, permet notamment d’identifier les sous-groupes de patients présentant des caractéristiques biologiques ou génétiques similaires en tenant compte des caractéristiques individuelles des patients, ce qui facilite le développement de traitements plus ciblés et efficaces. Elle repose sur l’acquisition de données multi-omiques (génomique, transcriptomique…) couplées aux informations cliniques et biologiques des patients, générant ainsi un important volume et une grande diversité de données.
Face à cette grande hétérogénéité de données biologiques portant des informations différentes et complémentaires, de nombreux outils d’intégration de données multi-omiques ont été proposés ces dernières années. Cinq grandes familles de méthodes sont proposées: l’intégration précoce, mixte, intermédiaire, tardive et hiérarchique [1]. Nous nous intéressons particulièrement aux méthodes d’intégration mixte (transformation indépendante de chaque jeu de données en une représentation simple) et hiérarchique (inclusion des connaissances préalables des relations régulatoires entre les différents types de données). En effet, chaque type de données peut être représenté naturellement sous forme de graphes ce qui permet de simplifier et débruiter ces données à grandes dimensions, ensuite l’utilisation de multiplex permet de connecter ces graphes tout en gardant l’aspect hiérarchique des relations entre les différentes molécules suivant le dogme central de la biologie moléculaire. La grande flexibilité et la variété des graphes nous permettent aussi de pouvoir modéliser et rendre accessible l’abondance de connaissances bio-médicales présentent dans les nombreuses bases de données. HetioNet [2], par exemple, propose un graphe de connaissance multiplex hétérogène (11 types de nœuds et 24 types d’arêtes) récapitulant 29 bases de données. Plus récemment, BioCypher [3] propose une architecture modulaire, réutilisable et extensible permettant la construction et l’exploration de méta-graphes en utilisant des graphes de connaissance pré-construits à partir de chaque base de données (57 bases de données et 11 ontologies) ainsi que l’ajout de nouveaux modules.
A notre connaissance, il n’existe pas de méthode permettant de combiner les informations provenant des expériences omiques, chacune d’elle avec leurs propres propriétés et les relations non aléatoires entre elle et la mine d’information provenant des graphes de connaissance qui permettrait d’interpréter les perturbations observées dans les échantillons. De plus, le parcours de ces multiplex hétérogènes afin d’identifier les informations biologiques importantes provenant de chaque couche (topologie spécifique aux type de données) et permettant une combinaison cohérente entre elles (hiérarchie et expertise biologique) est une question qui reste difficile. De nombreuses approches de type marche aléatoire [4] ou marche aléatoire dirigée [5] ont été proposées, nous pensons cependant que le parcours des données issues des expériences pondèrent précisément les liens entre les molécules et devraient être utilisées dans cette tâche.
L’intégration de données reste donc une problématique majeure et l’utilisation de multiplex hétérogènes pour cette tâche semble une alternative naturelle, adaptative et tendance aux méthodes classiques de machine learning et d’apprentissage profond.
Nous allons nous intéresser en particulier aux cancers digestifs comme cas d’étude. Les cancers digestifs demeurent des pathologies de mauvais pronostic dont le diagnostic est souvent réalisé à un stade avancé et pour lequel les moyens thérapeutiques sont restreints.
Dans le but de développer des thérapies efficaces, il est nécessaire de mieux comprendre la pathogenèse de ces cancers et d’identifier des sous-groupes de patients. En effet, la stratification des patients en catégories plus homogènes dans leurs étiologies, le profil moléculaire de leur cancer et leur devenir permettront ensuite des prises en charge spécifiques diminuant le risque de complications tels que la résistance au traitement et de mortalité précoce.
1. Picard M, Scott-Boyer M-P, Bodein A, Périn O, Droit A. Integration strategies of multi-omics data for machine learning analysis. Computational and Structural Biotechnology Journal. 2021;19:3735–46.
2. Himmelstein DS, Baranzini SE. Heterogeneous Network Edge Prediction: A Data Integration Approach to Prioritize Disease-Associated Genes. Tang H, editor. PLoS Comput Biol. 2015;11:e1004259.
3. Lobentanzer S, Aloy P, Baumbach J, Bohar B, Carey VJ, Charoentong P, et al. Democratizing knowledge representation with BioCypher. Nat Biotechnol. 2023;41:1056–9.
4. Pio-Lopez L, Valdeolivas A, Tichit L, Remy É, Baudot A. MultiVERSE: a multiplex and multiplex-heterogeneous network embedding approach. Sci Rep. 2021;11:8794.
5. Liu W, Li C, Xu Y, Yang H, Yao Q, Han J, et al. Topologically inferring risk-active pathways toward precise cancer classification by directed random walk. Bioinformatics. 2013;29:2169–77.
6. Feng S, Heath E, Jefferson B, Joslyn C, Kvinge H, Mitchell HD, et al. Hypergraph models of biological networks to identify genes critical to pathogenic viral response. BMC Bioinformatics. 2021;22:287.
7. Wilkinson MD, Dumontier M, Aalbersberg IjJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data. 2016;3:160018.
8. Lin D, Crabtree J, Dillo I, Downs RR, Edmunds R, Giaretta D, et al. The TRUST Principles for digital repositories. Sci Data. 2020;7:144.
Profil du candidat :
Etudiant(e) titulaire d’un master 2 de bioinformatique ou assimilé (ou informatique mais avec une forte inclination pour la biologie), disposant des compétences suivantes :
Connaissances en bioinformatique, (bio)statistique et biologie Maîtrise de l’environnement linux/unix
Maîtrise du langage R et d’un langage de programmation (python, C, …) Motivation pour évoluer dans un environnement pluridisciplinaire Rigueur et esprit de synthèse, ainsi que capacité à travailler en équipe.
Formation et compétences requises :
Adresse d’emploi :
LaBRI – Laboratoire Bordelais de Recherche en Informatique
Université de Bordeaux
351, cours de la Libération F-33405 Talence cedex.
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : Laboratoire ICube, Strasbourg
Durée : 36 mois
Contact : seo@unistra.fr
Date limite de publication : 2024-06-12
Contexte :
Spatiotemporal data provides a comprehensive view of the evolution of phenomena or organic structures over time and space, with a wide range of applications in various domains, such as environmental monitoring and climate analysis, transportation and traffic management, and longitudinal analysis of disease progression. The Transformer architecture, initially conceived and demonstrated as a powerful model for natural language processing tasks, has been adapted to become a formidable tool for spatiotemporal analysis, demonstrating superior parallelization and scaling capabilities to RNNs, in part due to its attention mechanism. Graph neural networks (GNNs), used in some studies to extract spatial information, further enhance spatiotemporal analyses by exploiting their adaptability to irregularly distributed data and their flexibility in integrating various sources of information.
Sujet :
In this study, we aim to develop a novel model specifically tailored for generating spatiotemporal data. Our strategy involves leveraging diffusion probabilistic models for denoising (DDPM) while exploring other innovative theories with the aim of comprehensively incorporating spatiotemporal conditions, possibly from different modalities. DDPM has demonstrated remarkable generative capability in the text-image generation task, and possesses inherent advantages for dealing with the many-to-many distribution fitting problem, making it a superior candidate for spatiotemporal data generation. However, diffusion models typically rely on U-Net, which is not explicitly crafted for sequential data but excels in feature extraction. Although some researchers have attempted to incorporate Transformers into diffusion models, there remains a notable absence of tailor-made adaptations to meet the demands of spatiotemporal data.
Recognizing the limitations of existing model architectures, we intend to transition to a new model capable of exploiting spatial information while exploring temporal relationships in depth. At the same time, we aim to establish a reliable latent space for the representation of spatiotemporal data, with potential benefits for several downstream tasks such as anomaly detection or longitudinal analysis. Our specific aims are as follows:
1. Generative model for the generation of spatiotemporal data with spatiotemporal conditioning. The advantages of probabilistic diffusion models for denoising (DDPM) will be deployed, with advanced spatiotemporal encoding capabilities. The underlying spatiotemporal constraints will be modeled, such as time-varying tasks or stimuli given to the subject at the time of biometric data acquisition.
2. Extension to multimodality. Taking inspiration from the multi-model diffusion model, we will design a joint denoising process so as to efficiently generate multimodal data consistent across modalities. Going beyond existing works that deal with at most two modalities, we will tackle the challenging cases involving more than three modalities, where relying on paired modeling can be suboptimal.
The project will encompass several applications, including but not limited to, boat surveillance and research on neurodegenerative diseases.
Profil du candidat :
− Master student in Computer Science, Electronic & Electrical Engineering, or in Applied Mathematics
Formation et compétences requises :
− Solid programming skills: Python/Pytorch/C++
− Proficiency in Deep Learning techniques
− Good communication skills
Adresse d’emploi :
Université de Strasbourg
4 Rue Blaise Pascal
67081 Strasbourg
Document attaché : 202405120934_Generative model for spatio-temporal data.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : ONERA Palaiseau / SATIE
Durée : 36 mois
Contact : sidonie.lefebvre@onera.fr
Date limite de publication : 2024-06-20
Contexte :
Le développement de capteurs qui permettent d’acquérir de façon simultanée des images dans plusieurs bandes spectrales du visible à l’infrarouge lointain et leur exploitation automatique, rendue possible grâce à l’essor des méthodes de machine learning, ont permis de réaliser ces 20 dernières années de grands progrès en détection, reconnaissance et identification (DRI). Cependant, il demeure difficile de détecter des objets de petite taille (entre 1 et 50 pixels de surface), notamment quand ils présentent un faible contraste par rapport au fond ou quand on cherche à les détecter sur un fond texturé comme un ciel nuageux.
Malgré les progrès récents et impressionnants réalisés par les méthodes d’apprentissage profond dans les tâches de détection d’objets, les réseaux neuronaux (NN) traditionnels pour la détection d’objets ont du mal à trouver un équilibre entre un taux de détection élevé et un faible taux de fausses alarmes, ce qui se traduit par une dégradation de performances lorsqu’il s’agit de détecter des petites cibles. Cela s’explique par la complexité de l’apprentissage : les détecteurs doivent apprendre à extraire les caractéristiques de la cible à partir de peu de données, où le nombre de pixels de la classe objet est très faible par rapport à celui de la classe d’arrière-plan.
Sujet :
Pour résoudre ce problème, nous avons proposé, dans le cadre de la thèse d’A. Ciocarlan (2021-2024), un nouveau paradigme d’apprentissage basé sur un raisonnement a contrario, qui s’inspire de la théorie de la perception, en particulier de la théorie de la Gestalt. Les méthodes a contrario nous permettent de dériver automatiquement un critère de décision en modélisant le fond à l’aide d’un modèle naïf et en détectant les objets comme étant trop structurés pour apparaître “par hasard” selon le modèle naïf. Concrètement, notre méthode [Ciocarlan2023] consiste à guider l’apprentissage du NN en incluant un critère a contrario dans la boucle d’apprentissage. Le module NFA (pour Number of False Alarms) associé améliore considérablement les performances de ces algorithmes et a montré une robustesse impressionnante envers le contexte frugal dans le cas de données monospectrales infrarouge.
L’objectif de la thèse portera en premier lieu sur l’adaptation de cette méthodologie pour des données temporelles et multispectrales. Cette extension soulève à la fois la question de l’évolution de l’architecture des réseaux mais aussi, du fait de la difficulté à disposer de grandes bases de données annotées, de l’apport des méthodes de pré-entrainement d’une partie du réseau sur des données non labélisées via une tâche prétexte (SSL – self supervised learning). L’enjeu sera de définir une tâche prétexte pertinente pour la détection de petits objets sur fonds texturés, en s’appuyant notamment sur les travaux à base de masked autoencoder [He2021] ou d’apprentissage contrastif intra-image [Zhao2021]. Pour l’aspect temporel, on pourra par exemple s’inspirer des méthodes qui proposent de coupler le réseau de détection avec des méthodes de pistage rapides comme celles à base de noyaux (kernelized correlation filter – KCF) [Fan2023].
Enfin, il est important lorsqu’on utilise des NN de contrôler l’incertitude associée à leur usage et d’être en mesure d’interpréter leurs prédictions. Le deuxième enjeu de la thèse portera donc à la fois sur l’explicabilité des prédictions de détection et sur la quantification des incertitudes (UQ) associées. On envisagera notamment des approches ensemblistes et/ ou conformes pour l’aspect UQ [deGrancey2022][Andéol2023] et des approches à base d’indices de sensibilité pour l’explicabilité [Novello2022], qu’il faudra adapter à la problématique de la détection de cibles de petite taille en multispectral. Ces travaux se feront dans le cadre du Groupement d’Intérêt Scientifique LARTISSTE (https://uq-at-paris-saclay.github.io/).
Profil du candidat :
Master 2 ou école d’ingénieur spécialité IA ou statistiques, UQ
Formation et compétences requises :
Compétences en statistiques, deep learning, pytorch
Adresse d’emploi :
ONERA Palaiseau
6 chemin de la Vauve aux Granges
91120 Palaiseau
Document attaché : 202312201546_DOTA-2024_thèse_SSL.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 3 ans
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-06-30
Contexte :
Sujet :
https://pro.orieux.fr/assets/thesis-dnn-orieux-l2s.pdf
Contexte
========
Le traitement de mesures instrumentales nécessite souvent d’utiliser le modèle de données, ou modèle direct , dans la méthode. Par exemple les mesures sont affectées d’un bruit, d’un flou, ou vivent dans un autre espace que celui des inconnues (des coefficients de Fourier *versus* une image pour le cas de l’IRM ou de l’interférométrique).
Autant le modèle direct est stable et bien posé (à partir des paramètres on peut générer des données), autant le problème inverse est le plus souvent instable et mal-posé.
Le projet s’inscrit dans le cadre du projet international SKA, *Square Kilometer Array*. SKA est un observatoire pour la radioastronomie qui produira un volume de données considérable pour produire des images à une résolution spatiale et spectrale inégalées. Les antennes sont réparties en australie et en afrique du Sud, ce qui en fera le plus grand interféromètre radio à ce jour. L’équipe est impliquée dans le projet par le biais de l’ANR Dark-Era et du LabCom ECLAT (ATOS, IETR, INRIA, …). Le travail se fera *en collaboration avec N. Gac du SATIE*, porteur de l’ANR Dark-Era, et qui apportera en outre son expertise sur l’adéquation algorithme-architecture pour les problèmes inverses.
Sujet
=====
Les techniques de résolution de problèmes inverses ont fortement évolué ces dernières années avec les nouvelles techniques d’apprentissage machine. On peut mentionner le déroulage d’algorithmes itératif (*unrolling*), les approches *plug-and-play*, le RED (*regularization by denoising*), ou encore les *a priori* basés donnés.
Le travail se déroulera en plusieurs temps.
– Tout d’abord, le doctorant devra faire un état de l’art sur les méthodes basées données et apprentissage statistique pour la résolution de problèmes inverses et se concentrer sur une nouvelle méthode d’apprentissage, l’*Implicit Deep Learning*.
– Ensuite il faudra, à partir de cette revue bibliographique, comprendre et mettre en œuvre les approches utilisant les réseaux génératifs comme les VAE ou encore les réseaux inversibles. Il s’agit d’une approche reposant sur la minimisation d’un critère mixte $$J(x) = | y – H x|_2^2 + R(x)$$ où le terme d’attache aux données utilise le modèle d’observation connu $H$ (flou, inpainting, debruitage…) et le terme de régularisation $R(x)$ est appris à partir de données. La solution est alors définie comme $$hat x = argmin_{xb} J(x) y.$$
– Il faudra identifier les apports et les limites de cette approche pour les problèmes inverses et proposer des résolutions possibles aux verroux rencontrés. On regardera notamment d’autres algorithme de point fixe que l’algorithme classique de descente de gradient.
– Nous nous attacherons à mettre en œuvre cette nouvelle méthode et les résultats devront être comparés aux résultats obtenus avec les approches classiques : filtre de Wiener, parcimonie…pour lesquels des codes sont à disposition.
– L’application sera sur un problème de synthèse de Fourier pour la radioastronomie dans le cadre de SKA.
– Le travail se fera sur un poste équipé d’une carte GPU Nvidia 3080 ou 4090 avec Linux, TensorFlow et Python ou le cluster de calcul Ruche de l’Université Paris-Saclay.
Ce travail propose des innovations sur deux plans, à la fois méthodologique sur l’utilisation de l’apprentissage pour les problèmes inverses, mais également sur la proposition de nouveaux algorithmes plus performants pour la synthèse de Fourier en radioastronomie. La perspective d’avoir des algorithmes plus rapides grâce à l’*unrolling* pour le traitement de données massives issues de SKA est un enjeu important.
Profil — compétences acquises
==============================
Le candidat devra avoir une formation type ingénieur ou Master 2 en traitement du signal ou d’images, *data science* ou *machine learning*. Il devra posséder des connaissances en mathématiques appliquées ou en programmation. Des compétences en estimation et statistiques sera apprécié.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Laboratoire des Signaux et Systèmes
3 rue Joliot-Curie
91190 Gif-sur-Yvette
Document attaché : 202404041508_thesis-dnn-orieux-l2s.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRISA – Rennes
Durée : CD 3 ans
Contact : nathalie.girard@irisa.fr
Date limite de publication : 2024-06-30
Contexte :
L’équipe de recherche Shadoc (anciennement IntuiDoc) (https://www-shadoc.irisa.fr/) de l’IRISA travaille sur l’analyse et la reconnaissance de tracés et de gestes manuscrits réalisés sur surfaces 2D : tablettes et écrans tactiles. Nous nous intéressons notamment à la conception de moteur de reconnaissance de formes et aux nouveaux usages autour de l’interaction gestuelle sur des surfaces tactiles.
L’équipe travaille sur le développement d’environnements numériques innovants sur tablette stylet pour l’éducation, avec le pilotage de plusieurs travaux récents sur l’apprentissage de l’écriture manuscrite pour les classes de primaire et de maternelle, ou sur la production de schémas de géométrie pour les classes de collège.
Sujet :
Ce sujet de thèse s’inscrit dans la thématique des enjeux sociétaux autour de l’IA pour l’éducation. Il fait suite aux travaux de recherche effectués sur la conception de Systèmes Tutoriels Intelligents (STI) pour l’aide à l’apprentissage par le dessin. Nos précédents travaux ont notamment porté sur les thématiques pédagogiques de l’aide à l’apprentissage de la géométrie au collège et sur les schémas d’anatomie dans les formations de Santé. Ces travaux reposent sur des études qui ont démontré que l’introduction d’activités de dessin scientifique dans des cours permettait d’améliorer les performances d’apprentissage des étudiants. Les systèmes tutoriels intelligents permettent de développer des stratégies d’apprentissage personnalisées très efficaces en produisant automatiquement des feedbacks correctifs ou de guidage qui sont adaptés.
Les systèmes tutoriels intelligents [7, 8, 9] sont nés du couplage de deux domaines : l’intelligence artificielle et l’e-éducation. Pour les concevoir, le principe est de modéliser la connaissance experte qui permettra au système d’analyser ensuite automatiquement les actions de l’apprenant. L’analyse porte à la fois sur la reconnaissance des tracés manuscrits semi-structurés, et sur l’analyse de la validité de l’action relativement aux contraintes du problème (protocole de résolution de problème, étapes de dessin).
Dans ce travail de recherche, nous explorerons un nouveau challenge qui consiste à travailler sur un module de génération automatisée de règles expertes (mode auteur) pour appréhender la modélisation structurelle (et compositionnelle) semi-supervisée de schémas. L’ambition est de pouvoir prendre en entrée de l’apprentissage du STI pour générer les règles, aussi bien des schémas structurés (comme pour la géométrie) que des schémas semi-structurés, tel que les schémas d’anatomie.
En facilitant par l’apprentissage semi-supervisé la création des modèles de connaissances adossés aux STI, on permettra d’étendre leurs champs applicatifs à d’autres disciplines pour appréhender par exemple des schémas décrivant des processus ou encore des schémas scientifiques (chimie, biologie, physique…).
Contacts : eric.anquetil@irisa.fr; nathalie.girard@irisa.fr
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
laboratoire IRISA, équipe Shadoc, Rennes, France
Document attaché : 202404201028_sujetTèse_EA_Shadoc_2024 V2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : CEA Grenoble
Durée : 3 ans
Contact : marielle.malfante@gmail.com
Date limite de publication : 2024-06-30
Contexte :
More and more urban planning and development projects are taking biodiversity into account, and this is becoming a standard feature of urban planning. Indeed, monitoring biodiversity in urban environments is a crucial issue for species conservation, sustainable urban management and even the well-being of residents.
Passive acoustics is a promising solution for biodiversity monitoring. Analysis of the soundscape can yield valuable insights regarding the urban environment, including information about the wildlife present, along with their distribution and phenological patterns. This data can also help assess both the positive and negative effects of human activity on local biodiversity (Sordello et al., 2020; Darras et al., 2019). Moreover, examination of overall soundscape characteristics can provide important indications related to public health concerns and contribute to evaluating the comfort level experienced by city dwellers (Thompson, 2022).
Moreover, acoustic recording and analysis technologies are increasingly powerful and affordable, making passive acoustics accessible to a wide range of users. For example, Artificial intelligence (AI) is increasingly being used to analyze acoustic recordings due to its ability to handle large datasets, extract complex patterns and transient signals and make accurate inferences. It is already used to automatically detect, classify and quantify animal calls (Chalmers et al. 2021).
However, the deployment of passive listening systems in urban environments raises ethical and legal issues relating to the privacy of citizens. It is therefore essential to develop embedded systems capable of removing human voices from recordings while preserving sounds relevant to biodiversity detection.
Sujet :
Objectives
The aim of this thesis project is to develop and evaluate an on-board passive listening system for monitoring biodiversity in urban environments. The system will have to meet the following requirements:
Be capable of recording and analyzing ambient sounds.
Remove or blur human voices from recordings, while preserving sounds relevant to biodiversity detection.
Respect the privacy of citizens by guaranteeing the confidentiality of the data collected.
This project is part of a rapidly expanding scientific and technological context. It will enable the development of methodological and technological innovations for monitoring biodiversity in urban environments, and contribute to the protection of biodiversity and the sustainable management of cities.
Expected tasks
Bibliographic synthesis covering computational bioacoustics, privacy issues in audio recordings containing speech and embedded audio systems
Adaptation of existing model to meet the requirement of this thesis project
Implementation of real time processing on portable edge devices.
Field work and associated analyses to validate the methods
Scientific valorisation of the research: patents, research paper, participation in scientific conferences, PhD manuscript redaction and defense.
Profil du candidat :
We are looking for a candidate with the following profile:
– Machine Learning, Signal Processing, Speech processing
– Embedded Systems, edge computing, hardware integration
– Experience in Python language will be a plus
– An interest in bioacoustics and ecology
– An interest in field work.
If in doubt regarding your profile, please contact us for further discussion. The proposed PhD project is multidisciplinary but does not necessarily require experience in all the branches.
Formation et compétences requises :
Adresse d’emploi :
This PhD project is a CIFRE project between BioPhonia & CEA Grenoble.
Time will be shared between CEA Grenoble and Biophonia in Lyon/Saint-Etienne. Home office is partially allowed.
Field work in different geographic areas is also planned during the PhD to validate the different developed methods.
Document attaché : 202404091450_Thèse.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique de Bourgogne (LIB)
Durée : 3 ans
Contact : eric.leclercq@u-bourgogne.fr
Date limite de publication : 2024-06-30
Contexte :
Sujet :
L’analyse des données vise à extraire de la valeur des données. Toutefois, c’est un processus complexe, qui peut faire appel à des données provenant de différentes sources, ayant différentes caractéristiques, étant stockées dans différents systèmes utilisant différents modèles, etc. De plus, le type d’analyse à effectuer peut imposer des contraintes qui limitent les algorithmes utilisables. Cette thèse s’inscrit dans le projet interdisciplinaire Beelzebot (ANR-23-CE38-0002-01), dont le but est de détecter des armées de robots sur Twitter, tout en fournissant des résultats interprétables par les analystes métier et ainsi produire des alertes lors de campagnes de désinformation. Dans ce contexte, l’utilisation des algorithmes supervisés est difficile. Les comportements des robots changent rapidement pour s’adapter aux méthodes de détection, nécessitant de produire régulièrement de nouveaux jeux d’entraînement pour les algorithmes, alors que l’on constate que les experts ont de plus en plus de mal à distinguer un robot du compte d’un humain. Les informations extraites des interactions et des activités des utilisateurs sur les réseaux sociaux sont de plus en plus utilisées pour détecter les activités des robots en tant que phénomènes de diffusion plutôt qu’en se basant uniquement sur des informations concernant un compte individuel.
Les tenseurs sont des objets mathématiques multi-dimensionnels~cite{Kolda2009}, capables d’intégrer les données provenant de différents modèles de données, tels que le modèle relationnel, les graphes ou les séries temporelles. Grâce à cette flexibilité, les tenseurs peuvent jouer le rôle de modèle pivot pour traiter des ensembles de données hétérogènes. Cela facilite leur utilisation dans de nombreux cas d’usage.
Les tenseurs sont munis d’opérateurs de décompositions tensorielles, comme Tucker ou CANDECOMP/PARAFAC, qui permettent de conduire des analyses exploratoires sur des données, notamment pour détecter des communautés ou des singularités. Ces décompositions ont l’avantage de nécessiter peu de paramètres (en général, uniquement un rang est nécessaire). Le résultat d’une décomposition peut s’utiliser de multiple façons, de manière supervisée ou non.
Parmi ces décompositions, les décompositions couplées s’exécutent sur plusieurs tenseurs ayant au moins une dimension en commun. Les tenseurs couplés présentent un fort intérêt puisqu’ils permettent de représenter conjointement des données à différents niveaux d’abstraction ou à différents points de vue – par exemple, des données concernant les profils des utilisateurs dans un tenseur, et des données concernant les publications faites par ces utilisateurs dans un autre tenseur, ou encore en ayant un tenseur représentant des connaissances vis à vis de certains hashtags des publications. Dans cette configuration, le résultat des décompositions peut donc être affiné en considérant simultanément ces différents aspects.
Cette thèse consiste à explorer les décompositions tensorielles couplées, à la fois selon leurs capacités de modélisation et leurs capacités d’analyse. Pour ce faire, en plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter lors de projets précédents sont à disposition, comme par exemple les discussions autour des élections présidentielles françaises de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’UBFC, constituant un environnement adapté à l’expérimentation des propositions sur des données massives. Les travaux de thèse couvriront l’étude des techniques d’analyse de détection de robots dans les réseaux sociaux, la proposition d’une méthode basée sur les décompositions tensorielles couplées permettant de détecter les phénomènes de diffusion, le développement d’un prototype de cette proposition accompagné de sa validation expérimentale, ainsi que l’aide à l’interprétation des résultats en collaboration avec les chercheurs en sciences du langage et de la communication participant au projet de recherche.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Laboratoire d’Informatique de Bourgogne (LIB – EA 7534), Université de Bourgogne, Campus de Dijon, 9, Avenue Alain Savary, 21078 Dijon.
Document attaché : 202406141247_Beelzebot_SujetThese.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : PRISME Lab Universiy of Orléans / BRGM Orléans
Durée : 36 months
Contact : yves.lucas@univ-orleans.fr
Date limite de publication : 2024-06-30
Contexte :
Scientific Background
In remote sensing, the intensive production of multi-sensor satellite and airborne data of ever-increasing spatial resolution (visible, IR, hyperspectral, lidar, radar, topography, spectral material libraries, etc.) enables very detailed observation of the earth. In particular, ENMAP satellite has opened up to the scientific community a considerable field of investigation for earth observation with a spatial resolution of 30m. This potential remains under-utilized, however, as conventional methods are unable to absorb such a mass of data, especially hyperspectral imagery, which extends over hundreds of bands.
Artificial intelligence techniques, which have revolutionized the field of Computer Vision, are opening up a new avenue in remote sensing for semantic segmentation, with the automatic extraction of characteristics of features exposed to natural hazards. With climate change, natural disasters are on the increase, demonstrating the urgent need to establish up-to-date risk scenarios.
The aim of this thesis is to evaluate the contribution of artificial intelligence to better assess vulnerability in the face of natural hazards, by unfolding impact scenarios from a multi-risk, multi-scale perspective.
The highly multimodal and heterogeneous nature of the data collected by remote sensing to characterize a territory has given rise to a new methodological challenge: developing suitable network architectures for the classification and semantic segmentation of this massive and complex data. What’s more, the lack of remote sensing training databases is driving work towards semi-supervised approaches with partially annotated data. It is through the pooling of heterogeneous data proposed in this thesis that ground truth will be substantially enriched. Network models will also have to adapt to degraded situations abroad, where some data are unavailable.
This work is closely linked to the Région Centre Val de Loire CERES project – Mapping and characterizing exposed elements in the CVL region from satellite images – with application prospects for the region’s economic operators, concerned by the growing risks associated with flooding and building cracking. CERES is in charge of access to paid data and intensive online computing on the deep learning models developed during the thesis. This work is also in synergy with actions carried out at BRGM (H2020 COCLICO, VIGIRISKS, ANR RESIFLEX) and the ANR-IA, where joint work is underway between PRISME and BRGM.
Funding
Region Centre – Val de Loire thesis grant (36 months) co-financed with BRGM Orléans.
The Region CERES project launched in oct. 2023 also provides a substantial budget for experimentation, with access to paid-for satellite data and online computing.
Sujet :
Work Schedule
The first year of the thesis will begin with a state-of-the-art review of deep learning algorithms applied to remote sensing. This will be followed by an inventory of exploitable data sources, the implementation of a data collection and processing platform, and experimentation with the extraction of a few relevant features from deep learning models derived from the state of the art in semantic segmentation. For the characterization of exposed elements, the aim is to identify the spatial, geometric, spectral and documentary characteristics of interest, which can be exploited in the various data sources and are relevant to the prevention of natural hazards.
We already have a database of images acquired in the Loiret region during the AGEOTHYP program, covering a wide range of terrain (crops, forests, urban areas, rivers, etc.), as well as satellite and documentary data on study sites abroad. The PhD student will have to familiarize himself/herself with the risk theme by consulting BRGM risk experts in order to list the criteria to be analyzed in order to build up a multi-risk issues database. The proximity of the study site will facilitate on-site surveys to enrich the ground truth. The cost of access to certain satellite data sources will be covered by the CERES regional project.
For data processing, the aim is to evaluate the performance of various online or local computing solutions, and to experiment with a few advanced state-of-the-art deep learning models for extracting the characteristics of elements exposed to climatic hazards. The power of the CaSciModot supercomputing infrastructure integrated into the DataCentre Régional Centre Val de Loire on the Grand Campus Orléans, including BRGM and the university, will be used to run the deep learning algorithms. The Region CERES project will also enable the models to be tested using pay-per-use online computing solutions.
During the second year, a ground truth database will be set up to train the algorithms. Network architectures adapted to heterogeneous modalities will be proposed. The possibility of multi-scale processing (building or urban aggregation) will be studied. Experimental validation will be carried out in the Loiret pilot area, where a large number of image modalities with good spatial resolution are available. Other experiments may be carried out on foreign sites, where the absence or scarcity of certain data will lead to a degraded mode.
The third year will be devoted to applying the results of semantic segmentation to one or more risk scenarios (floods, earthquakes, landslides, etc.), and to finalizing the analysis and evaluation of the contribution of deep learning methods to the mapping of issues. The CERES project’s economic partners will enhance the applicative vocation of the work, with a focus on the Blois conurbation and taking into account the concerns of the insurance sector.
The work will be promoted through participation in national and international conferences on general or specialized image processing (artificial intelligence approaches, remote sensing, etc.) and the publication of a journal article.
PRISME – BRGM Collaboration
Computer Vision – AI at PRISME
He has acquired expertise in Deep Learning image processing and hyperspectral imaging:
Deep learning approaches have been used for the semantic segmentation of images, with spectacular results compared with conventional methods, first in the medical field and then in public image databases (e.g. CityScapes: urban scenes or common objects: SBD). Parallel work in this area has also been applied to precision agriculture, animal video surveillance (sheepfolds, zoos, etc.) and heritage (monuments, paintings, etc.).
The hyperspectral imaging modality, which is highly discriminating but generates huge volumes of data, was first tested in the medical field (visualization of tissue spectra in the operating room), then in remote sensing (image segmentation using active contours on a graph), in particular with aerial images acquired by BRGM Orléans during the AGEOTHYP program (detection of clay soils at risk).
Risks and Prevention Division – BRGM
The team makes available heterogeneous data acquired in the field or collected in its databases, and has the expertise to exploit them in multi-risk scenarios:
BRGM has a hyperspectral dataset. The images are centered on a study area west of Orléans covering some 300 km², i.e. 170 images of 408 spectral bands (400 – 2500 nm) with a spatial resolution of 1 to 2 m. A geospatial database is also available to serve as ground truth (laboratory and in situ spectral libraries, spatialized geotechnical data and mineralogical analyses). Another foreign study site will be selected to work in degraded mode. Other Open Source data will be collected on the Loiret study site, depending on availability and quality: thermal infrared emissivity, LIDAR topography, SAR subsurface, IGN database.
BRGM’s risk specialists have the expertise to assess the vulnerability to natural hazards. As part of the RISQNAT research program “Building impact scenarios for the prevention of natural hazards”, they are looking into cost-effective solutions for the production of spatialized information over vast study areas, and the development of platforms integrating predictive models from a multi-risk, multi-scale perspective.
References
Le Cozannet, G., Kervyn, M., Russo, S., Ifejika Speranza, C., Ferrier, P., Foumelis, M., Lopez, T., Modaressi, H., 2020. Space-Based Earth Observations for Disaster Risk Management. Surv. Geophys. 41, 1209–1235. https://doi.org/10.1007/s10712-020-09586-5
Z. Ma, G. Mei, Deep learning for geological hazards analysis: Data, models, applications, and opportunities, Earth-Science Reviews, Volume 223, 2021,103858,ISSN 0012-8252
J. Jakubik, M. Muszynski, M. Vössing, N. Kühl and T. Brunschwiler, Toward Foundation Models for Earth Monitoring: Generalizable Deep Learning Models for Natural Hazard Segmentation, 2023, arXiv 2301.09318
Jia, J.; Ye, W. Deep Learning for Earthquake Disaster Assessment: Objects, Data, Models, Stages, Challenges, and Opportunities. Remote Sens. 2023, 15, 4098. https://doi.org/10.3390/rs15164098
A. Lacoste, N. Lehmann, P. Rodriguez, E. D. Sherwin, H. Kerner , B. Lutjens, J. A. Irvin, D. Dao, H. Alemohammad, A. Drouin, M. Gunturkun, G. Huang, D. Vazquez, D. Newman, Y. Bengio, S. Ermon and X. X. Zhu GEO-Bench: Toward Foundation Models for Earth Monitoring, 37th Conf. on Neural Information Processing Systems Datasets and Benchmarks, 2023
Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos Image Segmentation Using Deep Learning: A Survey Shervin Minaee, arXiv:2001.05566v4 [cs.CV] 10 Apr 2020
Prakash, N., Manconi, A., Loew, S., 2020. Mapping Landslides on EO Data: Performance of Deep Learning Models vs. Traditional Machine Learning Models. Remote Sens. 12, 346. https://doi.org/10.3390/rs12030346
Yang, H., Yu, B., Luo, J., Chen, F., 2019. Semantic segmentation of high spatial resolution images with deep neural networks. GIScience Remote Sens. 56, 749–768. https://doi.org/10.1080/15481603.2018.1564499
Jia Song Shaohua Gao, Yunqiang Zhu & Chenyan Ma A survey of remote sensing image classification based on CNNs Big Earth Data, Vol.3, N°3, 232-254, 2019|
X.X. Zhu, D.Tuia, L.Mou, G-S. Xia,L. Zhang, F.Xu, F.Fraundorfer, Deep Learning in Remote Sensing, IEEE Geoscience and Remote Sensing magazine, dec. 2017
L. Ma, Y. Liu, X. Zhang, Y. Ye, G. Yin, B.A. Johnson, Deep learning in remote sensing applications : a meta-analysis and review, ISPRS Journal of Phtogrammetry and Remote Sensing, 1552 (2019) 166-177
E. Colin Koeniguer, G. Le Besnerais, A. Chan Hon,Tong, B. Le Saux, A. Bouich, P. Trouvé, R. Caye Daudt, N. Audebert, G. Brigo, P. Godet, B. Le Teurnier, M. Varvalho, J. Castillo-Navaro, Recent examples of deep learning contributions for earth observation issues , AeroscpaceLab journal, issue 15, sept. 2020
D. Hong, L. Gao, N.Yokoya, J.Yao, J. Chanussot, Q. Du, B. Zhang, More diverse means better : multimodal deep learning meets remote sensing imagery classification, IEEE transactions on geoscience and remote sensing, vol.59, n°5, may 2021
Vali, A., Comai, S., Matteucci, M., 2020. Deep Learning for Land Use and Land Cover Classification Based on Hyperspectral and Multispectral Earth Observation Data: A Review. Remote Sens. 12, 2495. https://doi.org/10.3390/rs12152495
Signoroni, A., Savardi, M., Baronio, A., Benini, S., 2019. Deep Learning Meets Hyperspectral Image Analysis: A Multidisciplinary Review. J. Imaging 5, 52. https://doi.org/10.3390/jimaging5050052
Paoletti, M.E., Haut, J.M., Plaza, J., Plaza, A., 2019. Deep learning classifiers for hyperspectral imaging: A review. ISPRS J. Photogramm. Remote Sens. 158, 279–317. https://doi.org/10.1016/j.isprsjprs.2019.09.006
K. Tabia, X. Desquesnes, , S. Treuillet « A multiphase level set method on graphs for hyperspectral image segmentation” Lecture Notes in Computer Science LNCS 10016, Springer, p, 559-569
K.Tabia, X.Desquesnes, Y.Lucas, S.Treuillet, Influence of spectral metrics on the graph-based segmentation of hyperspectral images, 9th Workshop on Hyperspectral Image and Signal Processing: Evolution in Remote Sensing, WHISPERS 2018, 23-26 sept 2018, Amsterdam, Hollande.
Etienne Ducasse, Karine Adeline, Xavier Briottet, Audrey Hohmann, Anne Bourguignon, et al.. Montmorillonite Estimation in Clay-Quartz-Calcite Samples from Laboratory SWIR Imaging Spectroscopy: A Comparative Study of Spectral Preprocessings and Unmixing Methods. Remote Sensing, MDPI, 2020, ⟨10.3390/rs12111723⟩.
D. Nouri, Y. Lucas, S. Treuillet «Hyperspectral interventional imaging for enhanced tissue visualization and discrimination combining band selection methods» Int. Journal of computer assisted radiology and surgery, Springer Verlag, ISSN 1861-6410, Vol. 11, n°12 p. 2185–2197, déc 2016
D. Nouri, Y. Lucas, S. Treuillet «Efficient tissue discrimination during surgical interventions using hyperspectral imaging » Int. Confrence on Information Processing in Computer –Assisted Interventions (IPCAI) Fukuoka, Japan, 28 june 2014
R. Niri, H. Douzi,Y. Lucas and S. Treuillet, Fully convolutional networks for diabetic foot ulcers diagnosis, Int. conf. on Medical Diagnostic Imaging and Radiology (ICMDIR 2020), Barcelona, Spain 05-06 march 2020
R. Niri, Y. Lucas, S. Treuillet and H. Douzi, Deep Learning for Multispectral Tissue Analysis applied to Diabetic Foot Ulcer Monitoring, The European Conference on Controversies in Diabetic Foot Management, Vienna, Austria, May 02 – 03, 2019
R. Niri, E. Guttierez, H. Douzi, Y. Lucas, S. Treuillet, B. Castaneda, I. Hernandez, Multi-View Data Augmentation to Improve Wound Segmentation on 3D Surface Model by Deep Learning, IEEE Access, vol.9, pp. 157628-157638, 2021, doi: 10.1109/ACCESS.2021.3130784.
O. Zenteno, T. V. Pham, S. Treuillet, Y. Lucas, Markerless tracking of micro-endoscope for optical biopsy in stomach, EMBC July 23-27, 2019, Berlin, Germany
T.V. Pham, Y. Lucas, S. Treuillet, L. Debraux, Object contour refinement using instance segmentation in dental images, Int. conf. on Advanced concepts for intelligent vision systems ACIVS 2020, 10-14 Feb 2020, Auckland, New-Zealand,
T.V. Pham, Y. Lucas, S. Treuillet, L. Debraux, Improvement in design and training of feature pyramid network for contour refinement, Pattern Recognition Letters, vol. 155, march 2022, p1-8
M Dian Bah, Eric Dericquebourg, Adel Hafiane, Raphael Canals, Deep Learning based Classification System for Identifying Weeds using High-Resolution UAV Imagery, Chapter in Volume 857 of the Advances in Intelligent Systems and Computing, Jan 2019
M. Kerkech, A. Hafiane, R. Canals, Deep leaning approach with colorimetric spaces and vegetation indices for vine diseases detection in UAV images, Computers and Electronics in Agriculture 155, pp. 237–243, Oct 2018
Hohmann, A., Dufréchou, G., Grandjean, G., Bourguignon, A., 2013. Mapping of swelling and shrinking clays from airborne hyperspectral data: Presentation of a coming comparison of two approaches, in: NIR2013 proceedings. La Grande Motte, France, p. ?
Graff, K., Lissak, C., Thiery, Y., Maquaire, O., Costa, S., Medjkane, M., Laignel, B., 2019. Characterization of elements at risk in the multirisk coastal context and at different spatial scales: Multi-database integration (normandy, France). Appl. Geogr. 111, 102076. https://doi.org/10.1016/j.apgeog.2019.102076
Profil du candidat :
Profile required
Candidates with a research Master’s degree in computer science.
Formation et compétences requises :
Candidates should have extensive knowledge of image processing, including deep learning techniques and their implementation in software and hardware. Fundamental notions of remote sensing are also welcome. Fluency in English is essential. Autonomy, scientific rigor and great motivation for the proposed subject will be undeniable assets for the successful completion of the thesis.
Adresse d’emploi :
Orleans University – Polytech Orleans
12 Rue de Blois, 45100 Orléans
BRGM
3 Av. Claude Guillemin, 45100 Orléans
Candidates must submit the following documents in a single pdf file:
CV + cover letter + Master’s grades – optional letters of recommendation.
Contact us :
yves.lucas@univ-orleans.fr c.gracianne@brgm.fr c.negulescu@brgm.fr
Document attaché : 202404211103_PhD_PRISME_BRGM_IASIS_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS Lab, Rouen
Durée : 3 years
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2024-06-30
Contexte :
Keywords: Deep learning, generative (probabilistic) models, diffusion probabilistic models, normalizing flows, anomaly detection, time series
Sujet :
The broad interest in deep neural networks has driven recent advances in anomaly detection, also called out-of-distribution or novelty detection. Deep anomaly detection methods fall within three major categories: Deep one-class, variational autoencoders and generative adversarial networks [1, 2]. While these methods do not allow an exact evaluation of the probability density of new samples, they also suffer from notorious training instability (mode collapse, posterior collapse, vanishing gradients and non-convergence), as corroborated by many research studies [3]. For these reasons, we aim to go beyond the weaknesses of these methods, by investigating novel classes of generative models with deep learning to address anomaly detection.
The goal of this PhD thesis is to explore novel generative models, such as diffusion probabilistic models (DPM) and normalizing flows (NF). These classes consist of models that can generate, through a deep latent space, a probability distribution for a given dataset from which we can then sample. With solid theoretical foundations and often interconnections with Optimal Transport, several variants of generative models have been proposed based on different definitions of their main components, namely the forward and backward processes and the sampling procedure. Of particular interest are NF and DPM. NF are generative models where both sampling and density evaluation are efficient and exact, and where the latent representation is learned through an invertible transformation, thus providing explainable models [4, 5]. DPM rely on diffusion processes, inspired from nonequilibrium thermodynamics, with their flagship being denoising diffusion probabilistic models [6]. Diffusion models have been demonstrating record-breaking performance in many applications in computer vision, mainly for image synthesis [7, 8] and medical imaging [9].
The proposed PhD research program aims to investigate these recent advances in generative models with deep learning for anomaly detection. Recent studies have explored generative probabilistic models for anomaly detection, mainly in images [10-12] with some attempts in signal processing [13, 14], demonstrating preliminary results on their relevance in anomaly detection and bringing out new research questions [15]. The PhD candidate will investigate such generative probabilistic models in a more in-depth research study, in order to take full advantage of their underlying theory. Moreover, the PhD candidate will go beyond image processing, with a focus on anomaly detection in time series, by considering the specificities of time series. The proposed framework and devised methods will be assessed in a variety of scenarios and real-world time series datasets.
Research Environment
The PhD candidate will conduct her/his research within the Machine Learning group in the LITIS Lab, under the supervision of Prof. Paul Honeine, Dr. Fannia Pacheco and Dr. Maxime Berar. This PhD thesis is within a research project gathering 9 permanent researchers of the LITIS Lab and the PhD candidate will also interact with several PhD students and interns also working on deep anomaly detection with a focus on time series.
Application
Applicants are invited to send their CV and grade transcripts by email to:
paul.honeine@univ-rouen.fr, fannia.pacheco@univ-rouen.fr, maxime.berar@univ-rouen.fr.
References
[1] L. Ruff et al., “A unifying review of deep and shallow anomaly detection,” Proceedings of the IEEE, 2021.
[2] G. Pang et al., “Deep learning for anomaly detection: A review,” ACM Computing Surveys, 2021.
[3] D. Saxena and J. Cao, “Generative adversarial networks (GANs) challenges, solutions, and future directions,” ACM Computing Surveys, 2021.
[4] I. Kobyzev et al., “Normalizing flows: An introduction and review of Current Methods,” IEEE T PAMI, 2021.
[5] G. Papamakarios et al., “Normalizing flows for probabilistic modeling and inference,” JMLR, 2021.
[6] J. Ho et al., “Denoising diffusion probabilistic models,” NeurIPS, 2020.
[7] L. Yang et al., “Diffusion models: A comprehensive survey of methods and applications,” ACM Computing Surveys, 2023.
[8] F.-A. Croitoru et al., “Diffusion models in vision: A survey,” IEEE T PAMI, 2023.
[9] A. Kazerouni et al., “Diffusion models in medical imaging: A comprehensive survey,” Medical Image Analysis, 2023.
[10] J. Wolleb et al., “Diffusion models for medical anomaly detection.” MICCAI, 2022.
[11] W.H. Pinaya et al., “Fast unsupervised brain anomaly detection and segmentation with diffusion models,” MICCAI, 2022.
[12] A. Kascenas et al., “The role of noise in denoising models for anomaly detection in medical images.” Medical Image Analysis, 2023.
[13] Y. Chen et al., “ImDiffusion: Imputed Diffusion Models for Multivariate Time Series Anomaly Detection,” in Proc. of the VLDB Endowment, 2023.
[14] R. Hu et al., “Unsupervised Anomaly Detection for Multivariate Time Series Using Diffusion Model,” IEEE ICASSP, 2024.
[15] P. Kirichenko et al., “Why normalizing flows fail to detect out-of-distribution data,” NeurIPS, 2020.
Profil du candidat :
– Master or Engineering degree, in data science, AI, applied mathematics, or related fields.
– Strong skills in advanced statistics and Machine Learning, including Deep Learning
– Good programming experience in Python
Formation et compétences requises :
Adresse d’emploi :
LITIS Lab, Rouen
Document attaché : 202405242231_PhD – Deep learning with Generative Models for Anomaly Detection.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : TETIS – Montpellier
Durée : 3 ans
Contact : maguelonne.teisseire@teledetection.fr
Date limite de publication : 2024-06-30
Contexte :
Dans le contexte des systèmes de veille et de détection précoce des crises alimentaires et sanitaires, l’extraction et la représentation des caractéristiques spatio-temporelles associées aux informations textuelles sont indispensables à l’identification et à la modélisation des événements et de leurs impacts. La prise en compte de la complexité de l’information spatiale, incluant des éléments comme les relations de hiérarchie et de proximité, représente un défi actuel pour lequel il existe peu de solutions satisfaisantes.
Sujet :
L’objectif de cette thèse est de développer une méthodologie qui intègre des graphes de connaissances spatiaux dans les modèles issus de l’Intelligence Artificielle, en tenant expressément compte de l’information spatiale et temporelle.
Sujet détaillé et procédure de candidature :
https://nubes.teledetection.fr/index.php/s/mL98yCJakigZiMM
Profil du candidat :
Profil de la/du candidat.e :
La ou le candidat.e devra avoir une expérience en traitement de données textuelles et apprentissage automatique. Une connaissance générale sur les enjeux d’entraînement et application de modèles de langues et des graphes de connaissance est recommandée, ainsi qu’une appétence pour les applications thématiques.
Formation et compétences requises :
Formation et compétences requises :
Master en informatique, science des données, traitement du langage naturel, ou tout autre sujet connexe.
Adresse d’emploi :
https://nubes.teledetection.fr/index.php/s/mL98yCJakigZiMM
