MaDICS

Information Rating and Analysis of Knowledge Dynamics. Application to the Temporal Monitoring of the Reliability of Bibliographic Information on Insects as Vectors of Plant Pathogens.

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MaIAGE – INRAE et AgroParisTech Saclay
Durée : 36 months
Contact : claire.nedellec@inrae.fr
Date limite de publication : 2024-06-30

Contexte :
We are looking for candidates who have proven knowledge of NLP and Machine Learning. Deadline is June 30th.
You will be affiliated with the Computer Science Graduate School at Paris-Saclay University. You will be employed by INRAE.
We offer a motivating research environment with many opportunities for in-house, national and international collaborations and access to computing GPU resources and state-of-the-art research equipment. The gross salary per month for the three-year contract is 2 100 (in 2024) to 2300 (in 2026) including the social security package (healthcare, pensions, unemployment benefits).

Sujet :
## Research subject
within the framework of the research project on NLP for insect monitoring in plant health. The central aim of the PhD project is to develop original approaches for the reliability of textual information, by integrating linguistic dimensions and knowledge graphs (NLP, language models), and dynamic dimensions (time series). The quality and relevance of the extracted information will be derived from the collected documents along time and from the existing knowledge base.
For plant health and risk management, the biological interaction between insect vectors, pathogens, and host plants is of primary interest for anticipating contamination and reducing pesticide use.

You will be affiliated with the Computer Science Graduate School at Paris-Saclay University. You will be employed by INRAE.

Profil du candidat :
## Requirements
A successful candidate will have an MSc or equivalent in Artificial Intelligence.
Proven experience with applying natural language processing.
Interest in learning about biology or bioinformatics.
High level of academic English or French, both written and spoken;
Good programming skills in Python or Java (and preferably experience with deep learning tools)
Capacity to work as part of a team in a multidisciplinary framework.
Experiences of applied research to Life Science is an asset.

Formation et compétences requises :

Adresse d’emploi :
Location: Paris-Saclay University campus, mainly at the MaIAGE lab [1] and MIA-Paris-Saclay [2], you will visit PHIM [3] at the INRAE research center in Montpellier (South of France).
## Application
The closing date is June 30th 2024
Interested candidates should send their application files to Claire Nédellec (claire.nedellec@inrae.fr), Vincent Guigue, Nicolas Sauvion (Nicolas.sauvion@inrae.fr), and Robert Bossy (Robert.bossy@inrae.fr ).
It should comprise:
a CV (max 5 pages) with transcripts (Master), diplomas, internships
a cover letter
the names and contact of two referees for reference letters
[1] https://maiage.inrae.fr/en/bibliome
[2] https://vguigue.github.io/
[3] https://umr-phim.cirad.fr/en/recherche/comprendre-les-epidemies-dans-les-champs-prism/equipe-forisk

Document attaché : 202404041723_ADUM INRAE 2024-english version.pdf

Categories: theses

PhD Position – A multi-modal language model for Earth observation [INRIA – Team EVERGREEN, Montpellier, France]

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : INRIA – EVERGREEN
Durée : 3 ans
Contact : diego.marcos@inria.fr
Date limite de publication : 2024-06-30

Contexte :
This PhD offer is funded by the GEO-ReSeT ANR project, representing a collaboration between Inria (team EVERGREEN, Montpellier) and Université de Paris Cité (team LIPADE, Paris).

Leveraging the large amounts of available geo-spatial data from different sources, the GEO-ReSeT (Generalized Earth Observation with Remote Sensing and Text) project has the objective to learn a rich representation of any geo-spatial location and convey a semantic representation of the information, by improving on existing models and providing a better experience to the end users. By using location on the Earth’s surface as the common link between different modalities, a geo-spatial foundation model would be able to incorporate a variety of data sources, including remote sensing imagery, textual descriptions of places, and other generic features.

Such a foundation model has the potential to open a set of all new possibilities in terms of Earth observation applications, by allowing for few or zero-shot solutions to classical problems such as land-cover and land-use mapping, target detection, and visual question answering. It will also be useful for a wide range of applications with a geo-spatial component, including environmental monitoring, urban planning and agriculture.
By leveraging several data modalities, this foundation model could provide a comprehensive and accurate understanding of the Earth’s surface, enabling informed decisions and actions. This will be particularly valuable for new potential users in sectors such as journalism, social sciences or environmental monitoring, who may not have the resources or expertise to collect their own training datasets and develop their own methods, thus moving beyond open Earth observation data and democratizing the access to Earth observation information.

Sujet :
The work to be conducted during the proposed PhD thesis will contribute to the ambition of the GEO-ReSeT ANR project by linking textual descriptions of places (e.g., collected from heterogeneous online sources, such as news articles or search engine results), to their approximate geo-location, a task known as geoparsing.

This text-location link will then be used in combination with other geospatial data modalities, with a focus on remote sensing data from sensors such as Sentinel-1 and -2, in order to train multi-modal models that are aware about the way in which people describe locations.

This will be done by first combining information stemming from different databases containing geographic named entities, such as Open Street Map, Wikipedia and gazetteers, such that geographic points or polygons can be linked to each named entity.

In a second step, a Natural Language Processing (NLP) pipeline will be developed to obtain the most likely geographic named entities that are referred to in any piece of text that describes a place.

With respect to existing Named Entity Recognition (NER) methodologies, in order to avoid restricting us to cases where entities’ names appear exactly as in the databases or gazetteers, we will leverage pre-trained Large Language Models (LLM) to resolve ambiguities and gather evidence towards the most likely entities that are being described in the text. Such an approach will be trained and validated by using the cases that do match the names in the gazetteer.

We will then move on, in collaboration with the rest of the GEO-ReSeT consortium, to train a multi-modal large language model (MMLLM) that will serve as a foundation model for Earth observation tasks.

This model will finally be evaluated on several agro-environmental tasks.

Application must be sent through the following link : https://recrutement.inria.fr/public/classic/en/offres/2024-07756

Profil du candidat :
Main activities
Description of the state-of-the-art in unstructured text geoparsing, with a focus on approaches leveraging LLMs.
Collection of a database of geographic named entities linked to their geographic footprint (e.g. point or polygon). Collection of a database of unstructured online text that is likely to contain a reference to a geographic location.
Development of an NLP pipeline to link each piece of geographic text to its likely geographic footprint.
Participate in the design and training of a multi-modal large language model (MMLLM) using remote sensing and geoparsed text.
Evaluation of the final model on two of the following case studies at a national or continental scale: ecosystem type mapping, crop type mapping or land-use mapping.

Formation et compétences requises :
Skills
Python programming.
Deep Learning with Python (preferably with Pytorch).
Experience with NLP.
Experience with GIS would be a plus.

Adresse d’emploi :
Montpellier, France

Categories: theses

Vers des Modèles Graphiques d’Événements soutenables et explicables pour apprendre et raisonner à partir de séquences d’événements

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 3 ans
Contact : julien.blanchard@univ-nantes.fr
Date limite de publication : 2024-06-30

Contexte :
Avec la transformation numérique de nos sociétés, de nombreux domaines ont recours à la modélisation et l’analyse de séquences temporelles d’événements, comme en marketing (analyse comportementale des utilisateurs en ligne), en santé (monitoring patient, pharmacovigilance) ou dans la finance (détection de fraudes). Saisir la dynamique de ces flux de données nécessite de découvrir les structures cachées qui les régissent. C’est l’objet de différentes techniques d’IA, par exemple les réseaux de neurones récurrents et les modèles transformers pour lesquels l’intérêt s’est accru rapidement ces dernières années. Mais les modèles d’apprentissage profond ont une empreinte environnementale conséquente de par la puissance de calcul qu’ils requièrent pour leur entraînement. Du fait de leur nombre gigantesque de paramètres, ils ont aussi l’inconvénient de ne pas être directement interprétables. Cette thèse, au contraire, s’inscrit dans l’effort de recherche pour une IA soutenable et interprétable puisque nous proposons d’utiliser des modèles graphiques d’événements (Graphical Event Models ou GEM) pour modéliser les séquences d’événements.

Sujet :
De manière générale, les modèles graphiques probabilistes [KF09] sont des outils de représentation de connaissances en présence d’incertitude. Introduits par Meek dans [M14], les modèles graphiques d’événements sont capables de décrire explicitement les dépendances temporelles entre événements, tant dans leurs relations structurelles que dans leurs propriétés dynamiques. Dans [GM16], Gunawardana et Meek définissent une classe particulière de GEM, nommée Recursive Timescale GEM (RTGEM), qui peut approximer tout processus ponctuel temporel multivarié satisfaisant des contraintes de régularité faibles. Surtout, ils proposent un algorithme pour l’apprentissage de ces modèles à partir de données de séquences d’événements. Les RTGEM ont déjà fait l’objet de travaux dans l’équipe DUKe : application dans le domaine de la sécurité [ADL19], apprentissage multi-tâches [ML19]. Ils sont actuellement mis en œuvre dans le cadre du projet CominLabs SPARS pour l’assistance à la modélisation de processus chirurgicaux.

Nous proposons de poursuivre ces travaux dans deux directions indépendantes : (1) l’inférence probabiliste, i.e. l’interrogation du modèle pour estimer la probabilité de variables non observées sachant celles observées, et (2) l’apprentissage à partir de données.

1. Inférence probabiliste soutenable et explicable
Les articles comme [GMX11] traitant de modèles précurseurs des RTGEM proposent d’utiliser un algorithme d’inférence approchée à base d’échantillonnage, en reprenant l’algorithme d’échantillonnage de [RGH05] ou un algorithme plus intéressant d’Importance Sampling adapté aux distributions de Poisson. Ces algorithmes n’ont pas encore été adaptés pour les modèles plus récents comme les RTGEM.
Une fois la réponse à la question posée au modèle obtenue par inférence probabiliste, il est possible de construire, comme pour tout modèle utilisé en IA, qu’il soit « boîte noire » ou pas, des indicateurs pour expliquer cette réponse. Les valeurs de Shapley sont des indicateurs de ce type [M23] qui ont été adaptés à des modèles graphiques probabilistes simples comme les réseaux bayésiens [HSB20], mais pas à des modèles plus complexes comme les RTGEM.
Dans cette thèse, nous nous proposons donc :
o de décrire de manière rigoureuse les types de questions l’on peut poser à un modèle graphique d’événements de type RTGEM, en nous inspirant par exemple de formalismes logiques [UM18] ;
o d’étudier l’adaptation des méthodes de type Importance Sampling pour répondre à ces types de questions de manière soutenable ;
o d’étudier l’adaptation de mesures comme les Shapley values pour que les sorties du modèle soient explicables.

2. Apprentissage soutenable
L’apprentissage de la structure et des paramètres d’un RTGEM nécessite de dénombrer les occurrences de suites d’événements dans les données. Il s’agit de déterminer par exemple combien de fois les événements A et B sont apparus ensemble dans les intervalles de 30 secondes qui précèdent un événement C. Comme de nombreuses combinaisons d’événements doivent être envisagées, l’apprentissage de la structure d’un RTGEM s’apparente pour partie à une tâche d’extraction d’épisodes, une classe particulière de motifs fréquents découvrables dans des séquences (voir [ONF23] pour un état de l’art). Nous proposons de tirer profit des algorithmes de ce domaine pour limiter la complexité de la procédure d’apprentissage de structure et la rendre plus soutenable. Parmi les approches récentes, on peut citer l’algorithme NONEPI qui extrait des occurrences d’épisodes disjointes [ONF21], et l’algorithme ONCE+ qui s’appuie sur une structure de données ad hoc pour accélérer la détection des occurrences [LPL19]. Les méthodes d’extraction de chroniques pourraient aussi s’avérer utiles pour notre problème [GBS20].
Dans cette thèse, nous nous proposons donc :
o d’étudier comment tirer au mieux parti des approches utilisées en fouille de données pour concevoir des algorithmes d’apprentissage de RTGEM plus soutenables que l’algorithme existant.

Les méthodes et algorithmes proposés durant la thèse seront implémentés dans la librairie C++ PILGRIM Evential. Cette librairie, dédiée aux modèles graphiques d’événements, fait partie de la librairie PILGRIM dédiée plus généralement aux modèles graphiques probabilistes (réseaux bayésiens, réseaux bayésiens dynamiques, modèles relationnels probabilistes). Les algorithmes implémentés seront validés expérimentalement avec différents benchmarks générés aléatoirement, ou issus de la littérature, et de datasets classiquement utilisés en Process Mining.

Références : voir le pdf en pj.

Profil du candidat :
Le sujet est à l’intersection de la Statistique et du Machine Learning. Le candidat doit donc avoir une solide expérience dans au moins l’un de ces domaines.
Autres compétences requises :
– bonnes capacités en conception d’algorithmes et en programmation C++
– très bon niveau (écrit et oral) en anglais
– capacité de synthèse et aptitudes à la communication (orale et écrite)
– capacité à travailler en équipe
– autonomie, rigueur et motivation pour la recherche.

Formation et compétences requises :
Le candidat doit être titulaire d’un master ou d’un diplôme équivalent en informatique.

Instructions de candidature : voir le pdf en pj.

Adresse d’emploi :
Polytech Nantes, rue Christian Pauc, 44306 Nantes, France

Document attaché : 202403041034_Sujet de thèse GEM 2024.pdf

Categories: theses

Jul

Mon

Exploration de la dynamique des nanoparticules dans les environnements terrestres et extraterrestres à l’aide de la spectrométrie spICP-ToF-MS : avancées et défis méthodologiques

Jul 1 – Jul 2 all-day

Offre en lien avec l’Action/le Réseau : DSChem/Doctorants

Laboratoire/Entreprise : Institut de physique du globe de Paris
Durée : 3 ans
Contact : chaussidon@ipgp.fr
Date limite de publication : 2024-07-01

Contexte :
Les nanoparticules (NPs) jouent un rôle crucial dans les systèmes naturels, que ce soit la lithosphère, l’hydrosphère, l’atmosphère et les environnements extraterrestres. La compréhension de leur comportement, de leur composition et de leur distribution est essentielle pour divers domaines, notamment la nano géochimie et la cosmochimie. Cependant, les techniques analytiques existantes ont du mal à caractériser avec précision les NPs, ce qui empêche d’avoir une vision globale de leur rôle dans les processus naturels terrestres et extraterrestres.

L’émergence de la spectrométrie de masse à plasma inductif et temps de vol de particules élémentaires (spICP-ToF-MS) a révolutionné la caractérisation des NPs en permettant des investigations inégalées. Cependant, des défis analytiques et méthodologiques persistent, nécessitant des approches avancées axées sur les données afin de maximiser les informations fournies par les analyses.

Environnement de travail

Le projet proposé sera réalisé à l’Institut de physique du globe de Paris en collaboration étroite avec le Prof Leonard Seydoux (équipe de sismologie). L’IPGP héberge une plateforme de géochimie de premier plan (PARI), équipée d’un instrument spICP-ToF-MS opérationnel. Nous disposons d’un vaste ensemble de données de mesures spICP-ToF-MS pour des NPs artificielles et naturelles, ainsi que pour des NPs de verres silicatés standards. Cet ensemble de données servira de base au développement et au test d’algorithmes. De plus, grâce à diverses collaborations en France (LiPADE, Université Gustave Eiffel) et à l’étranger (Université de Graz, Colorado School of Mines…), nous pouvons simuler des séries temporelles de spICP-ToF-MS pour l’entraînement et la validation de la méthodologie développée.

Sujet :
Défis du sujet

1. Amélioration de la sensibilité : améliorer la sensibilité de la méthode spICP-ToF-MS pour la détection précise des nanoparticules.
2. Réduction du bruit : s’attaquer au bruit de fond pour révéler des signaux clairs de nanoparticules.
3. Recherche des sources des NPs : développer des méthodologies polyvalentes pour caractériser les nanoparticules provenant de différentes sources et identifier leur composition minéralogique.
4. Exploitation des données : Explorer plus profondément le comportement des nanoparticules à l’aide de techniques d’analyse de données avancées.

Objectifs de recherche proposée

Les progrès des techniques d’analyse sont essentiels pour élucider les processus complexes dans les systèmes extraterrestres et terrestres. À l’heure actuelle, l’une des principales difficultés est de pouvoir décrire la chimie et la minéralogie (et dans certains cas la composition isotopique) de milliers de nanoparticules provenant d’un échantillon donné.

La détection et la caractérisation précises des nanoparticules dans le bruit instrumental constituent un défi majeur pour la caractérisation des nanoparticules par spICP-ToF-MS. En procédant à une analyse complète et à l’optimisation des paramètres d’acquisition des données spICP-ToF-MS et des réglages de l’instrument, nous proposons d’améliorer la précision et la sensibilité de la détection et de la caractérisation des nanoparticules. Grâce à un étalonnage et à un réglage méticuleux, nous minimiserons le bruit de fond et maximiserons la netteté du signal, améliorant ainsi notre capacité à reconstruire les distributions en composition et taille des nanoparticules dans un échantillon donné.

Les méthodologies ainsi développées seront utilisées pour analyser les nanoparticules extraites de divers échantillons. Quelques études de cas seront sélectionnées pour (i) comprendre la dynamique des nanoparticules dans les systèmes environnementaux et fournir des informations sur des processus tels que le transport des éléments, l’altération et la dispersion des polluants, contribuant ainsi aux efforts de surveillance et d’assainissement de l’environnement, et (ii) obtenir une caractérisation statistiquement significative des phases sub-micrométriques dans la matrice des météorites chondritiques primitives afin de contraindre l’origine et la dynamique de la poussière dans le disque d’accrétion au cours de l’évolution précoce du système solaire.

Méthodologie et contributions attendues

1. Recherche en chimie analytique : analyse complète et optimisation des paramètres d’acquisition des données spICP-ToF-MS et des réglages de l’instrument afin d’améliorer la précision et la sensibilité de la détection et de la caractérisation des NPs.
2. Approches avancées basées sur les données : développer de nouvelles méthodologies intégrant l’inférence bayésienne, les réseaux neuronaux et les algorithmes de regroupement pour une modélisation robuste du bruit, la détection du signal et la caractérisation des NPs dans les données spICP-ToF-MS.
3. Caractérisation complète des NP : appliquer les méthodologies développées pour analyser les NPs extraites de diverses sources, en fournissant des informations sur leur composition, leur distribution de taille et leur distribution spatiale.
4. Cadre analytique amélioré : faire progresser les cadres statistiques et d’apprentissage automatique conçus pour faciliter une meilleure compréhension du comportement des NPs et de leurs interactions dans les différents systèmes.
5. Perspectives géochimiques et cosmochimiques : explorer la composition, la distribution des tailles et la distribution spatiale des NPs dans les matériaux terrestres et météoritiques, contribuant ainsi à notre compréhension de la formation et de l’évolution du système solaire et de la Terre.

Profil du candidat :
Pour réussir, le candidat doit avoir une formation de chimie analytique avec des connaissances en science des données et en géochimie. Il/elle doit démontrer sa capacité à travailler en équipe et avoir de bonnes compétences de communication en anglais (écrites et orales).

Formation et compétences requises :

Adresse d’emploi :
Institut de physique du globe de Paris
1, rue Jussieu, 75005 Paris.

Document attaché : 202405161414_ED_STEP_UP_2024_PropositionTE_F_Chaussidon.pdf

Categories: theses

Jul

Mon

Offre de Contrat Doctoral – Informatique (LIG) / SHS (ESO) – Collecte d’histoires de vie – 80 PRIME

Jul 15 – Jul 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LIG
Durée : 36 MOIS
Contact : marlene.villanova-oliver@univ-grenoble-alpes.fr
Date limite de publication : 2024-07-15

Contexte :
Une offre de contrat doctoral en Informatique financée dans le cadre du programme 80 PRIME CNRS est proposée par le Laboratoire d’Informatique de Grenoble (LIG, Equipe Steamer) et le laboratoire Espaces et Sociétés (ESO-Rennes), en collaboration avec l’Ined.

La direction de la thèse sera assurée par Marlène Villanova (Pr. en Informatique, Université Grenoble Alpes/LIG) et Pascal Sebille (MCF en Sociologie/Démographie, Université Rennes 2/ESO). Le doctorant ou la doctorante sera amené à collaborer avec les membres du consortium pluridisciplinaire (LIG, ESO, Ined) à l’origine du projet dans lequel s’inscrit cette thèse.

Poste à pourvoir au 1er octobre 2024
Date limite de dépôt de candidature : 16 juillet 2024 (A noter : étude des dossiers au fil de l’eau, poste susceptible d’être pourvu avant cette date)

Sujet :
En SHS, le recours à des enquêtes de type biographique recueillant les histoires de vie s’est généralisé dans le but d’expliquer les dynamiques sociales et territoriales. La collecte des données biographiques au moyen d’une fiche papier au format spécifique Ageven (pour Age-Évènement) a fait ses preuves, mais le processus d’obtention de ces données rétrospectives reste laborieux et coûteux. À ce jour, il manque un outil numérique capable de rivaliser avec ce mode de collecte papier.

La thèse a pour objectif d’apporter une contribution au champ des enquêtes biographiques par des solutions innovantes et opérationnelles de recueil de données structurées comme des trajectoires sémantiques. Ces dernières permettent de gérer conjointement plusieurs dimensions de la vie d’un individu (dimensions familiale, résidentielle, professionnelle, etc.), chacune composée d’épisodes et d’événements décrits par un ensemble d’attributs thématiques, spatiaux et temporels. Un des défis à relever sera de définir et d’implémenter des composants (de saisie et de rendu visuel) supportant la complexité de l’objet “histoire de vie” et facilitant chez l’enquêté le processus de remémoration de son passé.

Profil du candidat :
Master en Informatique avec fort intérêt pour les SHS

Formation et compétences requises :
Compétences Techniques
– Analyse des besoins, modélisation, conception
– Structuration /exploitation des données (Bases de Données, Knowledge Graphs, web sémantique)
– Langages de programmation et framework orientés web (incluant Python, HTML, CSS, Javascript, bibliothèques graphiques, etc.)
– Développement client/serveur et sur dispositifs mobiles
– Gestion de projet, développement/intégration continu(e), tests
– Ergonomie IHM, UX Design
– Culture en Sciences de l’Information Geographique (webmapping)

Autres Compétences attendues :
– Expérience avérée dans la conception et le développement d’application dans un contexte pluridisciplinaire
– Autonomie et force de proposition
– Capacité à travailler en équipe
– Qualités rédactionnelles en Français

Adresse d’emploi :
portail emploi du CNRS : https://emploi.cnrs.fr/Offres/Doctorant/UMR5217-MARVIL-006/Default.aspx

Adum : https://adum.fr/as/ed/voirproposition.pl?site=adumR&matricule_prop=57483

Categories: theses

Jul

Fri

Iot et Sciences des Données pour l’étude de la pénibilité au travail

Jul 26 – Jul 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIT – Institut de recherche en Informatique de To
Durée : 3 ans
Contact : Remi.Bastide@irit.fr
Date limite de publication : 2024-07-26

Contexte :
Dans le cadre d’un projet cofinancé par la Région Occitanie, l’école d’ingénieurs ISIS de Castres propose une bourse de doctorat en Informatique.

Le projet porte sur l’étude de la pénibilité au travail, plus particulièrement dans les métiers de la Santé. L’objectif est d’identifier les principaux déterminants de la pénibilité au travail, en s’appuyant sur l’Internet des Objets (IoT), la fouille de données et l’Intelligence Artificielle.

Sujet :
Plusieurs dimensions de la pénibilité sont à prendre en compte :
• La pénibilité ambiante : On collectera en temps réel, via des capteurs adaptés, des signaux contribuant à la pénibilité, tels que la température, l’humidité, le bruit, la qualité de l’air…
• La pénibilité de la tâche : On collectera via des dispositifs de santé connectés du commerce (montres, bracelets, etc.) des indicateurs physiologiques d’activité (nombre de pas, dépense calorique, rythme cardiaque, saturation en oxygène…). Les activités caractéristiques du métier (changements de posture, mouvements répétitifs susceptibles de provoquer des troubles musculo-squelettiques) seront identifiées par l’intermédiaire de données inertielles fournies par la montre connectée.
• La pénibilité subjective, recueillie par des questionnaires, représente la perception de la pénibilité par les personnels concernés.

Les données recueillies automatiquement par les dispositifs IoT constitue
une base de séries temporelles multivariées qui serviront de base à l’analyse de données, afin d’identifier les principaux facteurs de pénibilité dans la situation de travail étudiée.
Les productions attendues dans le cadre de ce doctorat sont les suivantes :
• Concevoir et mettre en œuvre une architecture IoT permettant la capture et la mise à disposition des données nécessaires à l’analyse.
• Développer et valider des algorithmes d’IA destinés à identifier de manière automatique des gestes métiers spécifiques à la situation de travail étudiée, à partir de données inertielles. La mise à disposition de ces algorithmes contribuera aux travaux scientifiques sur la reconnaissance des Activités de la Vie Quotidienne (Activities of Daily Life, ADL).
• Développer des modèles d’analyse de données qui, à partir de
l’ensemble du jeu de données collecté, permettront d’identifier quels sont les principaux facteurs qui contribuent à la pénibilité perçue par les personnels concernés.
• Mettre en œuvre les outils et techniques développés dans des
situations de travail réelles issues du domaine médical, avec la contribution des partenaires médicaux du projet.
• Développer un cadre méthodologique destiné à faciliter l’utilisation des outils développés pour l’analyse d’autres situations de travail.

Profil du candidat :
Les candidats doivent faire état d’une solide compétence dans les domaines de l’Internet des Objets, de l’apprentissage machine (Machine Learning) et de l’analyse de données massives, en plus d’une bonne maîtrise de la langue anglaise.

Formation et compétences requises :
Master 2 en Informatique ou formation équivalente.

Adresse d’emploi :
La thèse sera conduite à l’école d’ingénieurs ISIS, 81100 Castres. ISIS est une école d’ingénieurs spécialisée dans la e-Santé, et des partenaires médicaux d’ISIS (Centre Hospitalier, EHPAD) contribueront au projet en accueillant les expérimentations dans leurs locaux.

Document attaché : 202407061530_PEMESA – Appel à candidature.pdf

Categories: theses

Aug

Sat

Fusion d’entités dans des graphes de connaissances

Aug 31 – Sep 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : laboratoire CEDRIC du CNAM
Durée : 3 ans
Contact : cedric.du_mouza@cnam.fr
Date limite de publication : 2024-08-31

Contexte :

Sujet :
L’objectif de cette thèse est de développer des méthodes innovantes pour améliorer l’étape cruciale du liage d’entités dans les graphes de connaissances et de proposer des stratégies efficaces pour détecter et fusionner les entités redondantes ou séparées à tort par le biais d’un post-traitement avancé. Ce travail se concentrera sur l’exploitation combinée d’algorithmes de graphes et de techniques d’apprentissage automatique pour relever ces défis.

Profil du candidat :
Bac+5 informatique

Formation et compétences requises :
Idéalement des connaissances à la fois en gestion et interrogation de larges graphes ainsi qu’en apprentissage.

Adresse d’emploi :
Laboratoire CEDRIC, CNAM Paris. Collaborations pendant la thèse avec le LIP6 (Sorbonne Université, Paris VI) et LAMOP (Université Panthéon-Sorbonne, Paris I).

Document attaché : 202405131317_sujetThese2024_CdM.pdf

Categories: theses

Thèse – Caractérisation d’anomalie d’apparence de surfaces manufacturées et sa corrélation à la perception visuelle humaine par des méthodes XAI à partir de données multimodales RTI.

Aug 31 – Sep 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : ImViA (https://imvia.u-bourgogne.fr), équipe CoReS
Durée : 36 mois
Contact : alamin.mansouri@u-bourgogne.fr
Date limite de publication : 2024-08-31

Contexte :
Financement : Projet ANR23 PRCE intitulé RTI 4.0 (CES 10 : Usine du futur)
Partenaires : Laboratoire l’IRDL (UBS), entreprise Altimet, Laboratoire LAMIH (UPHF), Stellantis Excelcar
Encadrement : Alamin Mansouri, David Fofi et Gaëtan Le Goïc
La présente thèse s’inscrit dans la continuité de plusieurs projets prestigieux dans l’équipe (Horizon Europe23 Research & Innovation Action intitulé Cheminova, H2020 MSCA ITN intitulé CHANGE, ANR17 JCJC intitulé NAPS, ANR18 PRC intitulé SUMUM, Défi Imag’In Fiat-Lux, etc.) qui ont permis des avancées significatives en termes de recherche ainsi qu’en en termes de systèmes innovants d’imagerie (matériels et logiciels).

Sujet :
L’imagerie RTI est aussi considérée comme une technique de photo-stéréométrie qui permet de faire le lien entre des attributs surfaciques étudiés et la fonction d’apparence mesurée mais aussi d’extraire des descripteurs locaux en lien avec la géométrie de la surface tels que ceux liés aux pentes et aux courbures. Ces derniers ont par ailleurs une forte influence sur les comportements/fonctionnalités mécaniques. Les développements de la technique du RTI offrent des perspectives prometteuses mais soulève de réels challenges :
• Comment numériser l’information d’apparence à l’échelle des états de surfaces de façon robuste ?
• Comment modéliser et caractériser l’information pour permettre l’extraction de descripteurs objectifs corrélés avec la perception visuelle ?
• Comment corréler la fonction d’apparence avec les propriétés de géométrie que l’on souhaite maîtriser ?
• Comment automatiser la maîtrise des états de surface à l’aide des outils liés à l’intelligence artificielle ?
Le travail de recherche dans le cadre de cette thèse portera principalement sur le 4ème point, c’est-à-dire, sur le couplage des méthodes par apprentissage automatique avec la technique du RTI afin d’automatiser ses différentes étapes (numérisation, modélisation et analyse) et par conséquent d’en augmenter la robustesse et l’efficacité.
En effet, les méthodes d’apprentissage automatique et notamment celles à base de réseaux de neurones ont révolutionné les domaines d’application de l’imagerie numérique, y compris dans le domaine de l’imagerie non conventionnelle et ont montré leur pertinence pour différentes tâches (segmentation, détection, localisation/suivi, etc.) dans différents domaines d’application (médecine, télédétection, contrôle qualité́, bio-mécanique, etc.), en substituant des modèles analytiques exhaustifs parfois couplés, par un modèle implicite construit à partir de données expérimentales qualifiées. Ces méthodes sont souvent privilégiées lorsque les données d’entrainement sont accessibles (maîtrise du processus d’acquisition) et même nécessaires lorsque les phénomènes sous-jacents aux processus sont complexes (forte non-linéarité et/ou absence de modèle analytique exhaustif). C’est très souvent le cas pour les applications de caractérisation fonctionnelles liées à la perception de l’apparence (processus cognitifs complexes et multiphysiques). Ainsi, l’objectif du travail de recherche de cette thèse sera de développer des méthodologies à base d’apprentissage automatique/profond adaptées aux données RTI (multimodales, multi-échelles et multi-temporelles) à des fins de caractérisation et de suivi d’état de surface (analyse 4D du changement de la surface selon la dimension du temps, de la température, de la pression ou tout autre variable linéaire ou non). Il sera également question de pouvoir interpréter le processus d’apprentissage profond dans le cadre de framework eXplainable Artificial Intelligence (XAI) et de le corréler aux évaluations et qualifications opérés par des experts. L’Institut américain des normes et de la technologie (NIST) définit quatre principes de l’intelligence artificielle explicable [15] :
• Le système doit fournir des preuves, un fondement ou un raisonnement pour chaque résultat.
• Le système doit fournir des explications que ses utilisateurs peuvent comprendre.
• Une explication doit refléter avec précision le processus utilisé par le système d’intelligence artificielle pour parvenir au résultat.
• Le système doit fonctionner uniquement dans les conditions pour lesquelles il a été conçu et ne pas fournir de résultats dont la fiabilité lui paraît insuffisante.
Enfin, un outil d’aide à la décision pourra aussi être développé, et saura s’adapter automatiquement selon les besoins des utilisateurs finaux, pour aider les contrôleurs qualité humain dans leurs taches d’analyses sensorielle (formations et assistance au contrôle qualité).

Les actions scientifiques structurant le travail de recherche :
Bases de données pour l’apprentissage
▷ les échantillons qui peuvent être utilisés pour l’apprentissage et pour les tests des méthodes à développer seront définis par les utilisateurs finaux en fonction de la finalité (détection d’anomalie, classification, qualification, etc.). Il y aura différents types d’échantillons d’entraînement, en fonction de la disponibilité́ des données des capteurs. Calibrage et fusion de données.
▷ Le calibrage est nécessaire en raison des limitations des conditions d’acquisition (non-uniformités spatiales et spectrales de l’éclairage, objets non-planaires, matériaux hétérogènes, variation de la sensibilité́ des capteurs, etc.). À cette fin, des modèles d’illumination généralises aidés parfois par des cibles de référence seront utilisés.
▷ Mise en cohérence géométrique (alignement et mosaïquage) et fusion en vue de l’étape d’apprentissage
Développement d’architecture et de méthodologie d’apprentissage profond
▷ Annotation par les experts des données images acquises des échantillons identifiés
▷ propagation des annotations aux structures multimodales obtenues à l’issue de la fusion. Les annotations vont être intégrées en tant que couche supplémentaire aux structures.
▷ Définition des stratégies de partitionnement des données d’apprentissage et de test en fonction des données et de degré́ de confiance.
▷Développement du RN et de stratégies d’apprentissage profond capable de caractériser et prédire les anomalies locales et globales à partir des données RTI-multimodales.

Test et interprétation
▷ les modules de classification développés seront évalués sur la base des échantillons annotés sélectionnés précédemment. Dans ce processus, les modules seront affinés sur la base des problèmes identifiés au cours des expériences sensorielles menées pour l’évaluation.
▷ corrélation aux modèles d’IA explicables (XAI) pour la compréhension et la modélisation du processus de perception visuelle des anomalies d’apparence par les experts.

Profil du candidat :
Pour candidater, il faut être titulaire (ou en cours de validation) d’un Master2 ou équivalent dans l’un des domaines suivants ou un domaine proche : vision par ordinateur, traitement du signal et de l’image, Machine learning et/ou intelligence artificielle appliqué en Image et vision.
Envoyer le dossier de candidature par email à alamin.mansouri@u-bourgogne.fr
Le dossier doit comporter :
– CV
– Lettre de motivation
– Relevé des notes de trois dernières années
– Exemples de travaux réalisés dans le cadre des études (publications, mémoires, projet de développement, etc.)

Date limite de candidature : les candidatures doivent parvenir au plus tard le 30 mai 2024

Formation et compétences requises :

Adresse d’emploi :
Laboratoire IMVIA – Dijon

Équipements et matériel à disposition : Le candidat ou la candidate retenu.e aura à sa disposition plusieurs systèmes d’acquisition RTI multimodale de pointe (RTI, couleur/multispectal, Variation de Focus) ainsi que plusieurs logiciels de d’acquisition, traitement et visualisation : deux systèmes d’acquisition opérationnels, l’un à base d’un dôme et le deuxième à base d’un bras robotisé.

Document attaché : 202405131220_Sujet_Thèse_ANR_RTI40.pdf

Categories: theses

Privacy-Enhancing Tools for Content Sanitization Using Large Language Models — Application to School Bullying and Harassment —

Sep 1 – Sep 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Inria Saclay
Durée : 3 ans
Contact : cedric.eichler@insa-cvl.fr
Date limite de publication : 2024-09-01

Contexte :
This PhD thesis project is part of the French Priority Research Program and Equipment
(PEPR) on Cybersecurity, interdisciplinary Project on Privacy (iPoP) project involving several French
research teams working on data protection, from Inria, universities, engineering schools and the CNIL
(French National Commission on Information Technology and Civil Liberties). The PhD is proposed by
Petrus project-team at Inria Saclay and the PETSCRAFT project-team joint between Inria Saclay and
INSA CVL, which tightly collaborate in this large initiative on modeling privacy protection concepts and
on the design and deployment of explicable and efficient Privacy-Enhancing Technologies (PETs).

Sujet :
Objectives of the thesis.
The advanced inference capabilities of Large Language Models (LLMs) pose a significant threat to the privacy of individuals by enabling third parties to accurately infer certain personal attributes from their writings [1, 2]. Paradoxically, LLMs can also be used to protect individuals by helping them to modify their textual output from certain unwanted inferences [3, 4], opening the way to new tools. The ultimate objective of this thesis is to work towards an interactive chatbot-like tool for the sanitisation of text, to address applications including two which are especially investigated by our team: production of testimonies in the context of school bullying and work harassment, and participants feedback in participatory platforms. Through a preliminary investigation, we identified guidelines and main difficulties the successful PhD candidate will have to address for the sound development of such a
tool:
•A realistic adversary should be used to assess (residual) privacy risks. This poses two main challenges. Firstly, a realistic attacker cannot be generic but must take into account the vast auxiliary knowledge an attacker may possess (e.g. through fine-tuning or with the help of a dedicated ontology). Secondly, LLMs tend to always propose a guess which could be as likely as a random guess. Therefore, there is a need for a mechanism to estimate the likelihood of inferences.
•Designing and implementing a metric assessing the utility of a text (or the loss of utility due to sanitisation) is no trivial task. Design-wise, a proper metric should evaluate the amount of information
conveyed by a text relevant to its purpose (e.g. wrt testimonies, whether the victim/perpetrator are identifiable, etc). With regard to implementation, the assessment must be done automatically
without human intervention (e.g. through a LLM).
•Finally, an LLM-based sanitisation process must be proposed, limiting the capacity of the attacker to make inferences while maintaining the utility of the text. In a chatbot-like application, this
process can be iterative and interactive.

Initial roadmap.
The PhD project will start by the installation of open source LLMs such as Mistral or Arctic, and the implementation of the guidelines above, before focusing on the specialisation of the anonymisation solution to adapt it to different use cases and datasets.

Potential use-cases.
We will focus on two use cases: (1) the anonymous declaration or anonymisation of certain concepts in the context of school, university and work in general. This first use cases will be built with Inria’s partners in the context of the services responsible for investigating harassment cases that deal with anonymous witness statements and/or in the context of the labour market and job searches. (2) a second use-case is user feedback in participative platforms aimed at wellbeing, nutrition and health. This use case is still emerging and will be detailed during the PhD project.

References
[1] Kandpal, N., Pillutla, K., Oprea, A., Kairouz, P., Choquette-Choo, C., Xu, Z.: User inference attacks
on llms. In: Socially Responsible Language Modelling Research (2023)
[2] Staab, R., Vero, M., Balunovi ́c, M., Vechev, M.: Beyond memorization: Violating privacy via inference
with large language models. arXiv preprint arXiv:2310.07298 (2023)
[3] Staab, R., Vero, M., Balunovi ́c, M., Vechev, M.: Large language models are advanced anonymizers.
arXiv preprint arXiv:2402.13846 (2024)
[4] Tannier, X., Wajsb ̈urt, P., Calliger, A., Dura, B., Mouchet, A., Hilka, M., Bey, R.: Development and
validation of a natural language processing algorithm to pseudonymize documents in the context of
a clinical data warehouse. Methods of Information in Medicine (2024)

Profil du candidat :
Candidates must hold a master (or equivalent) in Computer Science.
The following skills are appreciated:
•Basic knowledge in LLMs/ML.
•Basic knowledge in privacy & anonimization.
•Proficiency in programming.

Candidates must be proficient in either french or english.

Formation et compétences requises :
Candidates must hold a master (or equivalent) in Computer Science.
The following skills are appreciated:
•Basic knowledge in LLMs/ML.
•Basic knowledge in privacy & anonimization.
•Proficiency in programming.

Candidates must be proficient in either french or english.

Adresse d’emploi :
Inria Saclay centre at Universit ́e Paris-Saclay, Turing building in Palaiseau (near Paris), France

Document attaché : 202406060959_PhD_position_LLM_Privacy.pdf

Categories: theses

Thu

Complex Event Processing in an AI System for Healthcare

Sep 12 – Sep 13 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 36 mois
Contact : guillaume.raschia@univ-nantes.fr
Date limite de publication : 2024-09-12

Contexte :
The PhD will take place in the European THCS “Transforming Health and Care Systems” project RENEW which means “Reshaping data-driven smart healthcare to optimize resources and personalize care for hypertensive patients through AI and digital twin models”. The RENEW project has started in June 2024 for 3 years long. It involves 9 partners from Romania, Suede, Switzerland, Poland, Italy, Slovenia and France. The LS2N partner leads the work package about the smart data processing, the personal profiles and digital twin design.

Sujet :
Health and well-being at home require to monitor in near-real time a bunch of measures and raw events at a large scale and a high frequency, coming both from the individuals and their environment. Focusing on hypertensive patients only, it is well-known that lifestyle (diet, physical activity, tobacco, alcohol, overweight) plays a crucial role in risk assessment.
Thus, the PhD aims at building, maintaining and analyzing digital twins for healthcare. As part of the RENEW project, the ultimate goal is to give feedback to individuals on their practices and lifestyle based on IA models and stream processing. Also, health institutions should be able to conduct real-time analyzes and gain insights from personal models of a large cohort of patients. All in all, it is then necessary to develop an online architecture capable of continuously collecting, preparing and analyzing health and care data from multiple sources.

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
LS2N – site de Polytech Nantes
Rue Christian Pauc
44300 NANTES

Document attaché : 202409111132_Sujet-PhD-Renew.pdf

Categories: theses

Exploration de méthodes d’assemblage de modèles pour la prédiction en spectroscopie proche infrarouge

Sep 15 – Sep 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP Institut
Durée : 36 mois
Contact : denis.cornet@cirad.fr
Date limite de publication : 2024-09-15

Contexte :
La spectroscopie proche infrarouge (NIRS) est une technique d’analyse rapide, non destructive et à faible coût, très largement utilisée dans de nombreux domaines tels que la santé, la chimie, l’agro-alimentaire et notamment l’agronomie. Elle permet de déterminer la composition chimique et les propriétés fonctionnelles d’échantillons de produits tels que les grains, fourrages, aliments, et tissus. Les données spectrales générées par NIRS sont riches en informations mais nécessitent des traitements statistiques avancés pour des prédictions
précises. Des méthodes comme la régression PLS ont été historiquement utilisées, mais les avancées en apprentissage machine (réseaux de neurones, SVM, random forest, etc.) et l’accès à d’importantes bases de données NIRS ont permis l’adoption croissante de ces méthodes d’intelligence artificielle, qui démontrent souvent de meilleures performances prédictives.
La démocratisation des spectromètres et l’augmentation croissante d’utilisateurs non spécialistes, au Nord comme au Sud, renforce la nécessité de développer une approche générique et performantes de la calibration de modèles NIRS. Le stacking, méthode qui combine les prédictions de multiples modèles, a démontré son potentiel pour exploiter les forces complémentaires de différents algorithmes et améliorer les performances de prédiction.
Cependant, les stratégies de stacking restent sous-explorées pour l’analyse des données NIRS. Dans ce contexte, le package Python Pinard (a Pipeline for Nirs Analysis ReloadeD, https://pypi.org/project/pinard/) développé par l’équipe encadrante fournit une base idéale pour l’implémentation et le test des approches de prédiction à base de stacking.

Sujet :
L’objectif principal de cette thèse est de développer et optimiser des stratégies de stacking adaptées à la prédiction à partir de spectres NIRS en s’appuyant sur le package Pinard. Pinard
fournit déjà des outils pour le traitement et l’analyse des données NIRS, y compris des modèles prédictifs individuels, mais ne propose pas actuellement de méthodologies d’assemblage de modèles. Cette recherche vise à combler cette lacune en intégrant des techniques avancées de stacking, permettant une amélioration significative des performances
prédictives.
En particulier, le travail de thèse s’articulera autour des axes suivants (qui peuvent évoluer en cours de doctorat et qui sont d’importances variés) :
• Axe 1 : étudier et concevoir des méthodes de standardisation des données pour nourrir les différentes classes de modèles de la stack ; en particulier en ce qui concerne les contraintes des modèles de machine learning ou des sources différentes. Ce travail inclura également une prise en main et une analyse poussée des jeux de données à disposition.
• Axe 2 : sélectionner, intégrer et hyperparamétrer des modèles de prédictions (existants ou nouveaux) au sein d’une stack « traditionnelle » et étudier l’impact de chacun sur la précision
globale en fonction des jeux de données et des méthodes d’assemblage (sélection aléatoire, sélection basée sur la performance, sur la diversité des algorithmes, sur la dissemblance des prédictions, etc.).
• Axe 3 : Concevoir et explorer des stratégies efficaces afin d’améliorer les stratégies de stacking de modèles en termes de précision, d’efficacité et de sobriété :
– Heuristiques issues de l’intelligence artificielle distribuée (systèmes multi-agents) ou de l’optimisation (méthodes évolutionnistes),
– Calcul temps réel de la contribution et/ou de l’explicabilité des modèles,
– Organisation et sélection dynamique des prétraitements de données,
– Hyperparamétrisation partielle temps réel,
– Etc.
L’axe 3 est au cœur de la problématique de cette thèse et devrait légitimement représenter une grande partie du travail du doctorant.
• Axe 4 : Travailler sur la diffusion des résultats obtenus que ce soit en facilitant la réutilisation de la stack ou l’accès aux outils et méthodes :
– Transfert de modèles à de nouveaux analytes / jeux de données / machines,
– Etude de l’explicabilité sous-jacente des modèles de la stack et identification des composants du signal,
– Intégration des développements dans le package Pinard.
Ce travail fournira des approches innovantes et performantes pour exploiter la richesse des données NIRS. Ainsi, il permettra d’améliorer la précision et la robustesse des analyses NIRS
pour des problématiques telles que l’identification rapide de variétés adaptées aux défis climatiques, la détection et quantification de contaminants biotiques et abiotiques dans les
récoltes, l’optimisation de la qualité et la valeur nutritive des aliments transformés, etc. contribuant de fait à des thématiques chères au CIRAD telles que la sécurité alimentaire, la
gestion durable des ressources et l’amélioration de la santé dans les pays du Sud.

Profil du candidat :
Master en informatique, bioinformatique, mathématiques appliquées, statistiques, ou sciences agronomiques avec une spécialité data science.

Formation et compétences requises :
– Développement en Python
– Data science et/ou statistiques
– Anglais (lu, écrit, parlé)
– Connaissances en R (optionnel)
– Traitement du signal (optionnel)
– Appétence pour la pluridisciplinarité

Adresse d’emploi :
Avenue Agropolis – 34398 Montpellier Cedex 5

Document attaché : 202407031350_[FR] Offre de thèse nirs 2024.pdf

Categories: theses

Thèse de doctorat (H/F) : approche bayésienne et problèmes inverses pour l’estimation des propriétés de galaxies

Sep 15 – Sep 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CRIStAL UMR 9189 – Lille
Durée : 36 mois
Contact : pierre.chainais@centralelille.fr
Date limite de publication : 2024-09-15

Contexte :
Ce projet de thèse interdisciplinaire entre science des données et cosmologie s’inscrit dans le cadre d’une collaboration entre l’équipe SigMA du laboratoire CRIStAL (Lille) et l’équipe GEPI de l’observatoire de Paris. Il est financé par une thèse 80|Prime de la MITI du CNRS.

L’équipe encadrante est constituée de Pierre Chainais (http://pierrechainais.ec-lille.fr/) et Jenny Sorce (https://jennygsorce.appspot.com/) (CRIStAL/ SigMA) d’une part, et de Mathieu Puech (https://mathieu-puech.jimdosite.com/) et Hector Flores (Obs. de Paris / GEPI) d’autre part.

La thèse sera hébergée au laboratoire CRIStAL (Lille) dans l’équipe SigMA (https://www.cristal.univ-lille.fr/equipes/sigma/). L’équipe SigMA est reconnue pour son expertise en problèmes inverses et leurs applications en astrophysique au sens large. La présence, au sein de l’équipe SigMA, de Jenny Sorce, cosmologiste, assure un environnement interdisciplinaire quotidien. Des séjours à l’observatoire de Paris sont prévus.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l’autorité compétente du MESR.

Sujet :
URL publique de l’offre : /Offres/Doctorant/UMR9189-JENSOR-001/Default.aspx

Référence : UMR9189-JENSOR-001

Type de contrat : CDD Doctorant/Contrat doctoral CNRS – acquis (thèse 80|Prime de la MITI)
Lieu de travail : CRIStAL, Villeneuve d’Ascq
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2024 (date négociable)
La rémunération est d’un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l’information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues

Nom du responsable scientifique : Pierre Chainais, Jenny Sorce (CRIStAL) et Mathieu Puech (GEPI)

Description du sujet de thèse

Résumé en français (voir sujet détaillé ci-dessous) :

Le modèle cosmologique standard postule que matière noire et énergie sombre constituent ~95 % de l’Univers. Des analyses de relevés de galaxies révèlent des contradictions entre observations et modèle. L’inférence des paramètres cosmologiques à partir des propriétés de galaxies résulte d’une chaîne de traitement complexe impliquant observations et théories astrophysiques, sciences du numérique et des données. Le débat consiste à déterminer si ces tensions proviennent d’une nouvelle physique ou d’approximations entraînant des biais systématiques. Ce projet vise à perfectionner la chaîne d’inférence en utilisant les simulations CLONES, fournies par CRIStAL, comme vérité-terrain, les images multi-longueurs d’onde et les spectres de galaxies de l’équipe GEPI, et les dernières avancées en termes d’inférence Bayésienne et d’apprentissage automatique de l’équipe CRIStAL/SigMA. En inférant sans biais, grâce aux sondages de l’univers, son taux d’expansion, ce projet pourrait résoudre le paradoxe apparent du décalage entre valeurs théorique et inférée de ce taux.

Mots clefs : Problèmes inverses – Inférence Bayésienne – Apprentissage automatique – Galaxies – Cosmologie

Sujet détaillé :
Selon le modèle cosmologique standard, la matière noire et l’énergie sombre constituent environ 95% de l’Univers. Les récentes analyses de grands relevés de galaxies révèlent des tensions avec ce modèle. Par exemple, la mesure locale du taux d’expansion et l’estimation de l’homogénéité de l’Univers diffèrent de plus de trois écarts-types de celles déduites de la première lumière de l’Univers. Le débat consiste à déterminer si ces tensions sont synonymes de nouvelles physiques ou d’effets systématiques dus à la longue chaîne de traitement des observations.

L’inférence de paramètres cosmologiques, comme le taux d’expansion, à partir des propriétés d’objets astronomiques tels que des galaxies et les amas de galaxies, appelés sondes, est un processus complexe. Elle nécessite de multiples domaines d’expertise : observation astronomique, théorie astrophysique, sciences du numérique et des données. Cependant, les différentes communautés n’interagissent que rarement. Ces découplages Rss/ EmploiCNERmS)ploiCNRS) communautaires peuvent entraîner des biais systématiques dans la chaîne de traitement des observations, et, par conséquent, dans l’estimation finale des paramètres cosmologiques.

Par exemple, une partie de cette chaîne s’appuie sur des simulations cosmologiques utilisées comme vérité-terrain, manquante en cosmologie. Ces données synthétiques issues de la simulation de modèles astrophysiques encodent notre compréhension physique des phénomènes. Cette compréhension, et donc les simulations, sont en général la clef de toute procédure d’inférence. Pour garantir la prise en compte de tous les aspects, ces simulations s’enrichissent et deviennent de plus en plus complexes et volumineuses. L’objectif est ensuite de tirer parti de ces données de façon optimale en exploitant les dernières avancées en matière d’inférence Bayésienne et d’apprentissage automatique. Cependant, les simulations cosmologiques standard ne reproduisent que statistiquement la toile cosmique.

Un nouveau type de simulations, qualifiées de contraintes, a fait son apparition. Les champs de vitesse et de densité initiaux de telles simulations sont contraints par les observations de l’Univers local (~200 Mpc de rayon). Ainsi, les simulations contraintes obtenues ressemblent à l’Univers local observé non seulement statistiquement, mais aussi dans le détail des objets-sondes qui le constituent (galaxies et amas de galaxies). Les CLONES, jumeaux numériques ou ‘digital twins’ de l’Univers local, fournies par la porteuse du projet constituent de telles simulations. Jouant le rôle de vérité- terrain manquante, ces simulations permettent de quantifier et de minimiser certaines sources de biais : particularités de l’environnement local en tant que lieu d’observation et zone observée, limites des modèles astrophysiques et des méthodes calibrées pour dériver les propriétés des galaxies et amas de galaxies, spécificités des relevés et sondages, etc.

Ce projet vise à améliorer l’exactitude et l’efficacité de la chaîne de traitement des observations. Il s’agit de franchir un cap décisif quant à l’estimation des paramètres cosmologiques, en tirant parti des simulations CLONES de la porteuse du projet de CRIStAL/SigMA (INS2I), de la multitude de données multi-longueurs d’onde et des spectres de galaxies disponibles, notamment via les missions d’observation dans lesquelles est impliquée l’équipe partenaire GEPI (INSU), et des récentes avancées en matière de traitement du signal et de résolution de problèmes inverses de l’équipe CRIStAL/SigMA (INS2I).

Côté science des données, les enjeux seront de résoudre le problème inverse qui relie les propriétés des galaxies aux observations qui en sont faites, puis celui qui lie le taux d’expansion de l’Univers à l’ensemble des propriétés des galaxies. La difficulté sera d’inclure les particularités individuelles des galaxies (biais d’environnement et redshift) et globales des relevés (biais de sélection), mais aussi de prendre en compte l’incertitude des observations (bruits instrumentaux) et des observables (erreur de mesure et limite des modèles théoriques). Pour que les estimations obtenues permettent, le cas échéant, de lever définitivement le paradoxe cosmologique, les propriétés inférées devront être accompagnées d’une quantification des incertitudes, de la mesure à l’inférence elle-même.

Il s’agira de développer des algorithmes d’inférence pour résoudre des problèmes inverses sur de grands jeux de données multimodales (spectres et images, observables et propriétés), avec de multiples sources d’incertitude (par exemple, variance intrinsèque, bruits de mesures, erreur de mesure) et de biais (environnement, redshift) à prendre en compte, en passant par la case compression optimale, et en fournissant des intervalles de crédibilité.

Côté astrophysique, les enjeux seront de déterminer avec précision et exactitude les propriétés des galaxies-sondes à partir de leurs observations multiples (images multi-longueurs d’onde et spectres), puis d’en inférer le taux d’expansion de l’Univers associé pour lever le paradoxe fondamental du décalage entre observations astronomiques et modèle standard cosmologique.

Profil du candidat :
Diplôme d’ingénieur ou M2 en science des données, traitement du signal, mathématiques appliquées ou équivalent, avec un intérêt pour l’astrophysique et la cosmologie.

Formation et compétences requises :
Bonne compréhension de la modélisation mathématique des systèmes physiques.

Bonne culture mixte entre théorie et pratique, des connaissances et compétences en problèmes inverses et/ou apprentissage profond seraient un plus.

Anglais bon niveau requis.

Adresse d’emploi :
UMR CRIStAL
Université de Lille – Campus scientifique
Bâtiment ESPRIT
Avenue Henri Poincaré
59655 Villeneuve d’Ascq

Categories: theses

PROLONGATION Offre de thèse : Exploration de méthodes d’assemblage de modèles pour la prédiction en spectroscopie proche infrarouge

Sep 22 – Sep 23 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD UMR Agap Institut
Durée : 36 mois
Contact : denis.cornet@cirad.fr
Date limite de publication : 2024-09-22

Profil du candidat :
Master en informatique, bioinformatique, mathématiques appliquées, statistiques, ou sciences agronomiques avec une spécialité data science.

Adresse d’emploi :
Avenue Agropolis – 34398 Montpellier Cedex 5

Document attaché : 202407241258_[EN] PhD offer nirs 2024.pdf

Categories: theses

Oct

Tue

Contributions au diagnostic et au pronostic des Hyperparathyroïdies basées sur la fusion des connaissances des experts et l’intelligence artificielle

Oct 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : Femto-st
Durée : 3 ans
Contact : moncef.soualhi@univ-fcomte.fr
Date limite de publication : 2025-10-01

Contexte :
Médecine nucléaire

Sujet :
Dans le cadre de cette thèse, nous proposons une aide au diagnostic des pathologies des parathyroïdes pour lesquelles il n’existe pas de processus automatique de localisation, de visualisation et de détection. Les praticiens ont recours à l’imagerie nucléaire grâce à l’usage de deux radios traceurs avec différentes opérations de reconstruction 3D puis de soustraction avec mise en évidence des parathyroïdes après un recalage des niveaux de gris. Le traitement laborieux demande encore aujourd’hui un réglage manuel des paramètres utilisés avec à l’issu un résultat qui dépend du manipulateur avant l’interprétation des images. Il s’agit alors de recourir à des techniques de machine learning pour identifier le bon paramétrage, différent à chaque acquisition pour automatiser le processus. Ainsi, grâce à la connaissance des nombreux cas cliniques connus (plusieurs centaines) au CHRU de Besançon dans le service de médecine nucléaire du pôle cœur poumon, il sera possible
d’entraîner un modèle issu de l’intelligence artificielle pour faire ce travail d’aide au diagnostic, sous le contrôle des praticiens du service.

Profil du candidat :
Le candidat titulaire d’un master en informatique, en science des données, en application mathématique, en automatisation doit avoir une connaissance étendue du traitement des images, notamment des techniques d’apprentissage profond et de leur mise en œuvre dans les logiciels et le matériel. Des notions fondamentales en exploration des données sont également requises. La maîtrise de l’anglais est essentielle. L’autonomie, la rigueur scientifique et une forte motivation pour le sujet proposé seront des atouts indéniables pour mener à bien la thèse. Le langage de programmation Matlab, Python, C++.

Formation et compétences requises :
Science des données
Sciences de l’ingénierie
Informatique
Mathématiques appliquées
Apprentissage profond
Apprentissage automatique
Traitement de l’image
Traitement du signal

Adresse d’emploi :
26 Rue de l’Épitaphe, 25000, Besançon

Document attaché : 202205090913_Thesis_PHM_Nucleaar_Imaging.pdf

Categories: theses

Graph-Based Machine Learning for Brain Analysis

Oct 1 – Oct 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS – Rouen
Durée : 3 ans
Contact : benoit.gauzere@insa-rouen.fr
Date limite de publication : 2024-10-01

Contexte :
Unlocking the Mysteries of the Brain with Graph-Based Machine Learning

In the fascinating world of neuroscience, understanding the brain’s intricate structure is key to unlocking the secrets of psychiatric and neurological disorders. Imagine if we could map the brain’s folds and curves to reveal patterns that indicate health or disease. This is precisely what our cutting-edge PhD project aims to achieve, leveraging the power of graph-based machine learning (GML) and Graph Neural Networks (GNN).

Project Overview

Our research focuses on enhancing the representation and analysis of neuroimaging data, particularly from MRI scans, using innovative GML techniques. By developing advanced models, we aim to identify individual traits such as gender and pathology with. What’s more, we are embedding principles of fairness into our models to ensure they are robust against variations in data acquisition and the natural diversity of brain structures.

Sujet :
Key Research Questions

– Hierarchical Information Analysis in Brain Graphs: How can we design GML models that effectively capture and utilize hierarchical information in brain graphs for better analysis of cortical folding patterns?
– Robustness to MRI Variations: Can a GML model trained on data from one MRI acquisition center generalize well to data from other centers, demonstrating robustness and enhancing the reproducibility of neuroimaging studies?
– Local Variation and Cognitive Functions: How can GML approaches help us identify and analyze local variations in brain anatomy, and what can these variations tell us about cognitive functions and neurological conditions?

Methodology and Resources

Our PhD candidate will have access to premier datasets, including:
– Human Connectome Project: Featuring top-quality MRI data from 1200 individuals.
– UK Biobank: Offering multimodal MRI data from over 10,000 individuals.

Supervisors and Research Environment

The project will be hosted at INSA Rouen, within the LITIS laboratory, and will be co-supervised by experts in the field:

Benoit Gaüzère
Guillaume Auzias
Sylvain Takerkart
Paul Honeine

Our multidisciplinary team brings together expertise in machine learning, computational anatomy, and neuroscience. The candidate will benefit from collaborations with leading research teams across multiple institutions.
How to Apply

Ready to embark on this exciting journey? Send your resume, academic results, and links to code or scientific papers to the following contacts. Please include “[FAMOUS]” in the subject line of your email:

Benoit Gaüzère: benoit.gauzere@insa-rouen.fr
Paul Honeine: paul.honeine@univ-rouen.fr
Guillaume Auzias: guillaume.auzias@univ-amu.fr
Sylvain Takerkart: sylvain.takerkart@univ-amu.fr

full offer is available here.

Profil du candidat :
Candidate Profile

We are seeking a passionate and dedicated PhD candidate with:

A Master’s degree in data science, computer engineering, or a related field.
Proficiency in Python programming.
Strong knowledge or experience in machine learning and data science.
Experience with graph structures is a plus.
High motivation and an interest in neuroscience.
Excellent reading, writing, and communication skills in English.

Formation et compétences requises :
Candidate Profile

We are seeking a passionate and dedicated PhD candidate with:

Adresse d’emploi :
LITIS INSA Rouen Normandie

Document attaché : 202406051242_PhD_project_Gauzere_Auzias.pdf

Categories: theses

Oct

Thu

XAI to satisfy safety requirements of B5G V2X infrastructure

Oct 31 – Nov 1 all-day

Offre en lien avec l’Action/le Réseau : HELP/Doctorants

Laboratoire/Entreprise : CERI SN
Durée : 36 mois
Contact : jerry.lonlac@imt-nord-europe.fr
Date limite de publication : 2024-10-31

Contexte :
Public establishment belonging to IMT (Institut Mines-Télécom), placed under the supervision of the Ministry of Industry, IMT Nord Europe has three main objectives: providing our students with ethically responsible engineering practice enabling them to solve 21st century issues, carrying out our R&D activities leading to
outstanding innovations and supporting territorial development through innovation and entrepreneurship.
Ideally positioned at the heart of Europe, 1 hour away from Paris, 30 min from Brussels and 1h30 from London, IMT Nord Europe has strong ambitions to become a main actor of the current industrial transitions, digital and environmental, by combining education and research on engineering and digital technologies. Located on two main campuses dedicated to research and education in Douai and Lille, IMT Nord Europe offers research facilities of almost 20,000m² in the following areas:
– Digital science,
– Processes for industry and services,
– Energy and Environment,
– Materials and Processes.
For more details, visit the School’s website: www.imt-nord-europe.fr

The position is vacant within the Centre for Education, Research and Innovation (CERI) Digital Systems. It covers a wide disciplinary field linked to constrained systems (the Internet of Objects, robotics), Humans (and in particular their interactions with the digital world) or even complex systems through the prism of Artificial Intelligence and Automation. The 34 lecturer-researchers and 6 engineers at CERI are able to cover all teaching fields in the field of digital sciences and technologies (Data, Artificial Intelligence, Telecoms, Networks, Systems, Applications, Cybersecurity, etc.). It is structured around 3 research groups: ARTS (Autonomous Resilient Systems), HIDE (Human, Interaction, DEcision) and McLEOD (Modelling and Control of Complex
systems in Large Environments requiring Optimized Decision).

Sujet :
The thesis will be carried out within the framework of the ANR “TRAVEL” project, which aims to propose an eXplainable Artificial Intelligence (XAI) framework to explain the logic behind the black-box model behaviors trained on data related to vehicular communications (V2X) and allowing to improve the communication
network infrastructure at various levels (PHY, SDN, and NFV), thus ensuring a safe and efficient deployment. The ICT infrastructure is becoming increasingly complex and interdependent due to rapid virtualization, softwarization, data massification, and cloudification. With the widespread deployment of wireless networks, intelligent and automated network operation is becoming increasingly essential, deserving tremendous research effort. AI holds significant potential for application in the network field (AI for IT operations), promising improvements in operational efficiency, Quality of Service (QoS), and Quality of Experience (QoE), along with reductions in operational costs and complexity [1]. Achieving network self-maintenance and self-healing capabilities is also a major concern. This entails effectively integrating cross-layer anomaly detection, root cause analysis, explainability, and response into a closed-control loop, guided by the output of root cause analysis and predefined policies to restore system performance. This necessity for intelligent network operation coincides with the ongoing evolution of cellular technologies, notably the progression from 5G to what is anticipated as 6G.

Despite the excellent performance of AI models on enormous tasks in V2X Infrastructure, when their decisions cannot be well-interpreted, it is difficult to trust them. In recent years, the proliferation of AI applications in network communications and cybersecurity with the requirements of the European Commission for algorithms to provide explanations to users has reinforced the necessity of employing XAI in this field. Indeed, the advent of 5G specifically carries the ambition of a very wide coverage, including outside cities. Combined with paradigms such as Software Defined Networking (SDN) and Network Function Virtualization (NFV), 5G is
expected to enable faster access and high scalability of both devices, services, applications and data, and thus eventually establish itself as the mobile communication system for all applications in the smart city, including V2X communications [2]. The thesis‘s works will be applied on the 5G Core Network (5G-CN) and its interfaces with the 5G-RAN. It aims to develop XAI approaches to network slicing automation at the interface between
the 5G-CN and the 5G-RAN [3] to allow a deployment of AI-assisted sliced networks in V2X infrastructure in a way that satisfies safety constraints. Indeed, V2X infrastructure is a critical domain which involves human lives, and in which any flaw may have dramatic consequences. Therefore, any malfunction must be anticipated, and anyhow completely auditable [4]. To achieve this goal, this thesis will develop XAI methods that rely on the theory in the domain of V2X infrastructure for providing better explanations. That will be made both during data collection and feature engineering phases. In fact, a scientific theory represents a well-founded and widely accepted statement, hypothesis, or explanation that has withstood rigorous testing and scrutiny [5].
We will also explore local interpretability techniques to explain local inference of AI models regarding V2X infrastructure safety requirement parameters by providing alternative or counterfactual scenarios for the explained scenarios. Those techniques will help us for each scenario to explain, find its most similar scenario measured by a chosen distance metric, but that has an opposite AI inference.

Profil du candidat :
The objectives of this thesis are:
● Explore the current state-of-the-art XAI approaches in the field of V2X infrastructure.
● Develop XAI schemes based on existing theory in the field of V2X infrastructure
● Integrate V2X infrastructure and application safety requirements into the XAI architecture.

Formation et compétences requises :
● M.Sc. degree (or equivalent) in Computer science or related discipline,
● Strong background in Artificial Intelligence/Machine Learning with, if possible, experience in eXplainable Artificial Intelligence
● Experience in the field of communication networks would be an undeniable advantage
● Good programming skills (Python, Java, C++),
● Good written and communication skills in English.
● Ability to organize and manage priorities in order to meet deadlines

Adresse d’emploi :
Cité scientifique
Rue Guglielmo Marconi,
59650 Villeneuve-d’Ascq
Lille, France

Document attaché : 202409160950_These_ANR_Travel_XAI for satisfy safety requirements-Final.pdf

Categories: theses

Nov

Thu

PhD Position in Explainable Artificial Intelligence for Predictive Maintenance

Nov 21 – Nov 22 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : ETIS
Durée : 3 ans
Contact : aikaterini.tzompanaki@cyu.fr
Date limite de publication : 2024-11-21

Contexte :
We are excited to announce an opening for a highly motivated PhD student to join our dynamic research team DATA&AI (ex MIDI team) at the ETIS laboratory of the CY Cergy Paris University and the ENSEA school of engineering. The successful candidate will focus on developing explainable AI methods for predictive maintenance within digital twin systems and smart spaces.
The PhD position is funded by the prestigious EU Horizon PANDORA project, A Comprehensive Framework enabling the Delivery of Trustworthy Datasets for Efficient AIoT Operation, gathering 20 academic and industrial partners and thus providing a unique opportunity to contribute to cutting-edge research with significant real-world impact.

Online description: https://perso.etis-lab.fr/tzompanaki/proposal.html

Sujet :
Predictive maintenance in industrial settings spans from identifying anomalies and categorizing failures in already observed data, to prognostically predicting the Remaining Useful Life (RUL) and the Failure Time (FT) of machines, appliances, etc, in the future (Pashami, Sepideh, et al. “Explainable predictive maintenance.” arXiv preprint arXiv:2306.05120 (2023)). Typically such predictive tasks are based on Artificial Intelligence and/or statistical analysis techniques, which may be complex to interpret.
In this project we aim to aid the different stakeholders make more insightful decisions about the forecasted failures by providing context-aware explanations for the RUL and FT prognostic tasks. In this way, we will enhance the reliability and transparency of predictive maintenance models in industrial scenarios by leveraging continuous data streams, state-of-the-art AI techniques and innovative causal and actionable explainability methods.

How to Apply
Please submit your application as a single pdf to aikaterini.tzompanaki@cyu.fr and Vassilis.Christophides@ensea.fr with the subject line “PhD Application: Explainable AI for Predictive Maintenance in Digital Twins.”

Profil du candidat :
A Master’s degree (or equivalent) in Computer Science, or Applied Mathematics.
Strong background in at least one of the following fields: machine learning, data management, statistics.
Proficiency in programming languages such as Python, and/or R.
Excellent analytical skills with a focus on problem-solving.
Strong communication skills and the ability to work collaboratively in a team environment.
Ability to work autonomously and proactively.
Proficiency in English, both written and spoken.

Formation et compétences requises :
A Master’s degree (or equivalent) in Computer Science, or Applied Mathematics.
Strong background in at least one of the following fields: machine learning, data management, statistics.
Proficiency in programming languages such as Python, and/or R.

Adresse d’emploi :
CY Cergy Paris University – ENSEA – ETIS laboratory
33 boulevard du Port
95011 Cergy-Pontoise cedex

Document attaché : 202409210100_Pandora_thesis_announcement.pdf

Categories: theses

Dec

Wed

CIFRE – Apprentissage faiblement supervisé à grande échelle pour le diagnostic différentiel basé sur la parole

Dec 4 – Dec 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ECHO & Inria Nancy
Durée : 36 mois
Contact : emmanuel.vincent@inria.fr
Date limite de publication : 2024-12-04

Contexte :

Sujet :
Détails et formulaire de candidature: https://jobs.inria.fr/public/classic/fr/offres/2024-08317

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Paris & Nancy

Categories: theses

Synthèse de la parole multilingue appliquée aux langues régionales

Dec 4 – Dec 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Inria Nancy & LiLPa
Durée : 36 mois
Contact : emmanuel.vincent@inria.fr
Date limite de publication : 2024-12-04

Contexte :

Sujet :
Détails et formulaire de candidature: https://jobs.inria.fr/public/classic/fr/offres/2024-08319

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Nancy

Categories: theses

Dec

Mon

Foundation Models for Physics-Aware Deep Learning