Deep representation of the Brain Image for the Analysis of Neurodegenerative diseases

Offre en lien avec l’Action/le Réseau : TIDS/– — –

Laboratoire/Entreprise : Laboratoire ICube, Strasbourg
Durée : 6
Contact : seo@unistra.fr
Date limite de publication : 2025-03-31

Contexte :
Dementia with Lewy Bodies (DLB) and Alzheimer’s Disease (AD) are two common neurodegenerative diseases among elderly people. Both associated with abnormal deposits of proteins in the brain, the diagnosis of these diseases can be challenging, particularly in distinguishing between them, as they exhibit similar symptoms in their early stages. Brain MRI provides detailed images of brain structures, allowing for the identification of structural changes associated with neurodegenerative diseases. Deep learning has shown great promise in analysing these images, enabling accurate predictions and interpretations. At the center of it are the recent emerging large-scale pre-trained vision-language models (VLMs), which have demonstrated remarkable performance thanks to their generalizable visual and textual representations.

Sujet :
We will deploy a VLM to improve the accuracy and efficiency of brain image analysis, with a specific focus on classification and associated reasoning presented in text form. Our specific focus will be on the analysis and understanding of neurodegenerative diseases, Dementia with Lewy Bodies (DLB), Alzheimer’s Disease (AD), and/or Parkinson disease. We will base our study on our recent work, where the model we developed learns and refines visual, textual, and numerical representations of patient gait videos using a large-scale pre-trained Vision-Language Model (VLM) for several classification tasks.

Profil du candidat :
− Solid programming skills: Python/C++
− Experience in Deep Learning (Transformer, CLIP, etc.)
− Good communication skills

Formation et compétences requises :

Adresse d’emploi :
2 Rue Marie Hamm
67000 Strasbourg

Document attaché : 202411071344_Stage-DeBIAN.pdf

CFP Atelier EGC 2025 – IA centrée sur les données

Date : 2025-01-28
Lieu : Strasbourg

L’Intelligence Artificielle centrée sur les données (Data Centric AI, ou DCAI) est une approche prometteuse qui place les données au cœur du processus d’apprentissage automatique, contrairement aux approches traditionnelles centrées sur les algorithmes et les architectures de modèles. Cette approche est axée sur la qualité, la quantité et la représentativité des données qui sont des facteurs clés de la fiabilité et de la robustesse des systèmes d’IA. La DCAI met aussi l’accent sur l’automatisation de tout le pipeline de la science des données incluant la préparation des données, leur nettoyage, leur annotation et leur représentation. Ce paradigme permet le développement de méthodes qui soient plus interprétables et équitables tout en ayant une interaction continue avec l’humain. L’objectif de l’atelier est de présenter les travaux des équipes francophones concernant l’IA centrée sur les données (data centric AI), et de fédérer les chercheurs travaillant sur cette thématique.

— Dates Importantes —

Date de soumissions : 26/11/2024, 23 :59 heure de Paris

Notification aux auteurs : 13/12/2024

Date de l’atelier : 28/01/2025

— Thèmes (liste non exhaustive) —

Automatisation des pipelines de science des données
Labellisation, augmentation, nettoyage, sélection, agrégation, représentation …
Méthodes centrées sur les données pour l’apprentissage automatique et la fouille de données
Interprétabilité, confiance, éthique, biais, …
Génération de jeux de données ou de Benchmarks
Génération assistée par des modèles, framework d’évaluation, … …
Outils pour l’IA centrée sur les données
Applications de méthodes centrées sur les données

-Conférencier Invité –

Conférence Invitée de Pierre Colomb (Vice-président de la technologie à Braincube)

— Soumission –

Les articles pourront porter sur des travaux originaux ou correspondre à des travaux déjà acceptés dans des conférences internationales. Ils pourront aussi décrire des solutions mises en place par des entreprises.

Deux types de soumissions :

Articles courts : 2 à 4 pages
Articles longs : 8 à 12 pages

Les soumissions devront être au format PDF exclusivement et devront utiliser le format RNTI latex : https://www.editions-rnti.fr/files/RNTI-202208.zip. Chaque article soumis sera évalué en double aveugle.

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

IA Explicable et qualité des données/modèles

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC CNRS UMR 6072 – Université de Caen Normandie
Durée : 5 à 6 mois
Contact : bruno.cremilleux@unicaen.fr
Date limite de publication : 2025-01-31

Contexte :
Contexte scientifique

Ce stage de master s’inscrit dans le cadre du projet Pandora financé par l’ANR (Agence Nationale de la Recherche), projet qui démarrera en février 2025. Pandora se situe dans le contexte de l’intelligence artificielle explicable (XAI), en particulier dans le domaine des réseaux de neurones sur graphes (GNN). En se focalisant sur le fonctionnement interne des GNNs, les objectifs du projet sont les suivants :
— caractériser, comprendre et expliquer de manière claire le fonctionnement interne des GNN en utilisant des techniques d’extraction de motifs ;
— découvrir des motifs d’activation neuronale statistiquement significatifs, appelés « règles d’activation », pour déterminer comment les réseaux encodent les concepts [7, 8] ;
— traduire ces règles d’activation en motifs de graphes interprétables par un utilisateur ;
— utiliser ces connaissances pour améliorer les GNN en identifiant les biais d’apprentissage, en générant des données supplémentaires et en construisant des systèmes d’explication.

Ce stage de recherche porte sur le dernier point. Plus précisément, nous souhaitons développer de nouvelles méthodes permettant d’améliorer l’apprentissage des modèles sur graphes en s’appuyant sur l’analyse du fonctionnement interne de ces modèles via, par exemple, des règles d’activation exprimées dans l’espace latent. Il s’agira ainsi d’analyser
les frontières de décisions, de caractériser les erreurs du modèle étudié dans l’espace des données ou dans leurs représentations latentes afin de proposer des solutions correctives.

Sujet :
Cf. la description détaillée (document pdf).

Profil du candidat :
Cf. la description détaillée (document pdf).

Formation et compétences requises :
Cf. la description détaillée (document pdf).

Adresse d’emploi :
Laboratoire GREYC, CNRS UMR 6072, Université de Caen Normandie, 14000, Caen, France

Document attaché : 202411050931_StageIAexplicable_Pandora_FR.pdf

Étude de controverses dans le domaine de l’agriculture à partir de commentaires en français issus de Youtube

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS / UMR STL
Durée : 6 mois
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2025-01-31

Contexte :
Avec la liberté d’expression et la pluralité d’opinions, la société moderne voit apparaître de nombreuses controverses, comme par exemple les questions liées à la vaccination, au végétarianisme ou au réchauffement climatique. De manière générale, on considère qu’une controverse apparaît lorsqu’il existe des points de vue, des croyances ou des avis différents, ce qui peut se transformer en désaccord plus ou moins manifeste entre les acteurs. Une situation de controverse se manifeste typiquement par l’emploi de l’argumentation et une charge émotive des énoncés. Leur étude permet de comprendre les enjeux et les positions qui peuvent exister autour d’une question donnée.

Dans le cadre du projet CNRS MITI STAY (Savoirs Techniques pour l’Auto-suffisance, sur Youtube), nous nous intéressons aux controverses en lien avec l’agriculture alternative. Les données de travail proviennent essentiellement des vidéos Youtube transcrites et les commentaires correspondants. Il est rare que les vidéos comportent des controverses. En revanche, les commentaires, qui se construisent en interaction entre les intervenants, peuvent contenir des opinions ou réactions controversées. Pour s’attaquer à un tel problème, nous pouvons nous intéresser aux structures des discussions et/ou au contenu des commentaires.

Sujet :
Ce stage s’intéressera plus spécifiquement à analyser les contenus textuels source de controverse. Pour mener de telles études, les données à exploiter sont souvent rares et leur collecte et annotation sont longues et complexes. Pour aider la constitution d’un corpus conséquent contenant des commentaires controversés en volume nécessaire pour être ensuite traité par des modèles de langue, il est souvent proposé d’augmenter ces données avec des méthodes spécifiques. Cette tâche constitue le coeur de ce stage. Plus particulièrement, il s’agit de travailler avec un premier ensemble de commentaires déjà annotés et d’augmenter de manière automatique ces données.

De manière concrète, le travail de stage se déroulera en trois phases successives :
– Dans un premier temps, le ou la stagiaire réalisera un état de l’art sur les approches à mobiliser en lien avec le travail de stage, à savoir l’identification automatique des controverses sur la base du contenu textuel et l’augmentation de données textuelles.
– Dans un deuxième temps, le travail proposé consistera à identifier les controverses en lien avec les thématiques sur lesquelles elles portent. Pour cela, le ou la stagiaire utilisera (1) les données en français annotées du projet STAY, (2) un lexique thématique produit par les chercheuses et chercheurs du projet.
– Enfin, des méthodes d’augmentation de données seront proposées, mises en place et évaluées sur la base des analyses réalisées précédemment.

Profil du candidat :
Profil des candidat.e.s : TAL, science des données avec une sensibilité au travail avec des données textuelles dans un cadre pluridisciplinaire

Candidature :
Envoyer un CV + relevés de notes des deux dernières années aux encadrant.e.s

Date limite : 04 décembre 2024

Formation et compétences requises :

Adresse d’emploi :
Encadrant.e.s :
– Mathieu Roche (mathieu.roche@cirad.fr) UMR TETIS, CIRAD, Montpellier
– Natalia Grabar (natalia.grabar@univ-lille.fr) UMR STL, CNRS, Lille

Lieu du stage : Montpellier ou Lille

ATER en informatique

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Informatique, Image et Interaction (L3
Durée : 1 an
Contact : cyrille.suire@univ-lr.fr
Date limite de publication : 2025-01-31

Contexte :
L’IUT de La Rochelle recrute un ATER en informatique (section 27), intégration en recherche au laboratoire L3i de La Rochelle Université et enseignement majoritairement en BUT Informatique à l’IUT de La Rochelle

Sujet :
L’IUT Informatique de La Rochelle recrute un ATER à temps complet en 27e section à compter du 1er de janvier
2025. Le (la) candidat(e) recruté(e) devra intervenir sur plusieurs enseignements du programme national du BUT
Informatique, parmi :
– Gestion des données : relationnelles et non structurées
– Génie logiciel et développement d’applications
– Architecture des systèmes et réseaux

Le(la) candidat(e) devra avoir une activité de recherche avérée permettant de s’intégrer dans l’une des trois équipes
de recherche du Laboratoire Informatique, Image, Interaction (L3i), laboratoire de recherche du domaine des
sciences du numérique de La Rochelle Université.

Se référer au profil détaillé

Profil du candidat :

Formation et compétences requises :

Adresse d’emploi :
Département informatique, IUT de La Rochelle.
Laboratoire L3i, La Rochelle Université

Document attaché : 202411040924_PROFIL-POSTE-ATER-INFORMATIQUE-1.pdf

CFP 7th International Workshop on Big Mobility Data Analytics – BMDA@EDBT/ICDT’25

Date : 2025-03-25
Lieu : Barcelone

————————————-
BMDA 2025 Call for papers
————————————-

7th International Workshop on Big Mobility Data Analytics (BMDA)
co-located with EDBT/ICDT Conference, March 25-28, 2025 Barcelona

https://www.datastories.org/bmda25/
https://edbticdt2025.upc.edu/?contents=workshops.html

** Selected accepted papers will be considered for a special issue at Springer’s Geoinformatica journal **

Workshop Description
=================
From spatial to spatio-temporal and, then, to mobility data. So, what’s next? It is the rise of mobility-aware integrated Big Data analytics. The Big Mobility Data Analytics (BMDA) workshop series (https://www.datastories.org/bmda/), initiated in 2018 with EDBT Conference, aims at bringing together experts in the field from academia, industry and research labs to discuss the lessons they have learned over the years, to demonstrate what they have achieved so far, and to plan for the future of “mobility”.
In its 7th edition, BMDA workshop will foster the exchange of new ideas on multidisciplinary real-world problems, discuss proposals about innovative solutions, and identify emerging opportunities for further research in the area of big mobility data analytics, such as deep learning on mobility data, edge computing, visual analytics, etc. The workshop intends to bridge the gap between researchers and big mobility data stakeholders, including experts from critical domains, such as urban / maritime / aviation transportation, human complex networks, etc. Multiple fields of data analytics relate to the objectives of this workshop, including, but not limited to:
– Fundamentals of mobility data analytics
– Big data platforms for mobility data analytics
– Parallel / streaming / edge data processing for mobility analytics
– Predictive analytics using mobility data
– Deep learning models for mobility data
– Generative models for mobility data
– Complex event detection for moving objects
– Visual analytics on big mobility data
– Mobility-as-a-Service
– Interactive traffic analysis with GPS data
– Urban / maritime / aviation traffic flow forecasting, travel time prediction
– Integration / interlinking of mobility with societal data
– Geosocial networks
– Social computing / spatial epidemiology and COVID-19 contact tracing
– Philosophical / ethical / privacy issues on mobility data analytics

Paper Submission Procedure, Workshop Proceedings, Journal special section
============================================================
We invite papers discussing novel research and ideas without substantial overlap with papers that have been published or submitted to a journal or a conference with proceedings. Submitted papers can be of two types:
– Regular Research Papers: these papers should report original research results or significant case studies. They should be 5000-8000 words (at most 8 pages) long.
– Demo Papers: these papers should showcase cutting-edge mobility data analytics software. They should be 2500-4000 words (at most 4 pages) long.

Submissions should be formatted using the EDBT/ICDT 2025 camera-ready template (see the instructions at https://edbticdt2025.upc.edu/?contents=EDBT_cameraready.html) and submitted through the workshop submission system at EasyChair [https://easychair.org/conferences/?conf=bmda2025].

Following the tradition of recent EDBT/ICDT workshops, all workshop papers will be published online under the Creative Commons license CC-by-nc-nd 4.0 by [OpenProceedings.org].
All submitted papers will be peer reviewed by at least three reviewers. If accepted, at least one of the authors must attend the workshop to present the work.

As with the previous BMDA editions, selected accepted papers will be considered for a special issue of Geoinformatica [https://link.springer.com/journal/10707] .

Important dates
============
– Abstract submission: January 5, 2025 (11:59PM PDT)
– Paper Submission: January 12, 2025 (11:59PM PDT)
– Notification of Acceptance: January 31, 2025
– Camera Ready Paper Due: February 28, 2025
– Workshop date: March 25, 2025

Organization and Support
====================
Workshop organizers:
– Mirco Nanni, Institute of Information Science and Technologies, National Research Council of Italy (mirco.nanni@isti.cnr.it)
– Nikos Pelekis, University of Piraeus, Greece (npelekis@unipi.gr)
– Panagiotis Tampakis, University of Southern Denmark, Denmark (ptampakis@imada.sdu.dk)
– Karine Zeitouni, UVSQ – Université Paris-Saclay, France (karine.zeitouni@uvsq.fr)

Supported by:
– SoBigData++ (European Integrated Infrastructure for Social Mining and Big Data Analytics, EU H2020 Programme, 2020-24)
– MobiSpaces (New Data Spaces for Green Mobility, EU Horizon Programme, 2022-25)
– EMERALDS (Extreme-scale Urban Mobility Data Analytics as a Service, EU Horizon Programme, 2023-25)
– Green.Dat.AI (Energy-efficient AI-ready Data Spaces, EU Horizon Programme, 2023-25)

Lien direct


Notre site web : www.madics.fr
Suivez-nous sur Tweeter : @GDR_MADICS
Pour vous désabonner de la liste, suivre ce lien.

Human-in-the-Loop Audio Source Separation for Aircraft Cockpit Recordings

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 36 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2025-02-01

Contexte :
This Ph.D. thesis is funded within the “BLeRIOT” ANR ASTRID project (Jan. 2025 – Dec. 2027). The BLeRIOT consortium is a balanced group of research laboratories—located in Toulouse (IRIT) and Longuenesse (LISIC)—and of French authorities in charge of aircraft accident or incident (BEA, RESEDA, both being located near Paris).

Sujet :
Public and state transportation aircraft are fitted with two crash-survival flight recorders—also known as “black boxes”—i.e., the Cockpit Voice Recorder (CVR) and the Flight Data Recorder. Both need to be retrieved and analyzed by air accident authorities in case of incident or accident. The audio service of BEA (Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile) and RESEDA are the French authorities in charge of CVR investigations, for civil and State aircrafts, respectively. CVR contents are “manually” transcribed by specialized investigators (a.k.a. audio analysts) for the benefits of the safety investigation.

In a CVR recording, the causes of speech intelligibility degradation are numerous. In particular, the CVR design itself generates a significant amount of superimposed—a.k.a. mixed—speech signals over the audio channels which are simultaneously recorded. Moreover, in case of an aircraft accident or incident, superimposed speech signals are more likely to occur—since voice and cockpit sound activities become denser—which may yield to the loss of crucial information for the safety investigators. In our recent work [1], we reverse-engineered the CVR audio mixing model and we found that state-of-the-art blind source separation (BSS) algorithms could be applied. BSS is a generic problem which aims to estimate unknown source signals from observed ones while the propagation channels from the sources to the sensors are also unknown [2]. We noticed that classical BSS algorithms1 could help the
audio analyst to transcribe a CVR recording. In particular, allowing the audio analyst to listen the outputs of different methods significantly helped him in his tasks. However, there remained some cases where these classical techniques were not helpful.
The objective of this Ph.D. thesis is two-fold.
1. First, we aim to develop BSS methods which are providing a sufficient performance while not requiring too much energy to that end [5]. For that purpose, we will propose Human-in-the-Loop BSS methods which will be based on the audio-analyst—BSS interactions. In particular, the goal is to first let the analyst use simple yet efficient BSS algorithms, and then to complexify the BSS method (and allow it more computational time) if the obtained BSS output is unsatisfactory. The latter will be measured by both objective and subjective criteria. Adding information in BSS will be the first way to improve the BSS method, as it was found to be useful for other applications [6–8].

2. The second objective of the Ph.D. thesis is to be able to jointly process all the CVR channels. Indeed, one microphone named Cockpit Area Microphone (CAM) was not investigated in [1], mainly because it is sampled at 12 kHz while the other CVR signals are sampled at 7 kHz. However, the CAM channel provides additional information (e.g., mechanical noise)—mixed with the other sounds in the cockpit—which is usually not recorded in the other channels while being crucial to analyze. While jointly processing data with different resolutions is quite classical for other applications—e.g., hyperspectral imaging [9]—it has been much less investigated for audio signals.

References:
[1] Matthieu Puigt, Benjamin Bigot, and Hélène Devulder. Introducing the “cockpit party problem”: Blind source separation enhances aircraft cockpit speech transcription. Journal of the Audio Engineering Society, to appear.
[2] Pierre Comon and Christian Jutten, editors. Handbook of Blind Source Separation: Independent Component Analysis and Applications. Elsevier, 2010.
[3] DeLiang Wang and Jitong Chen. Supervised speech separation based on deep learning: An overview. IEEE/ACM Trans. Audio, Speech, Language Process., 26(10):1702–1726, Oct. 2018.
[4] Hendrik Purwins, Bo Li, Tuomas Virtanen, Jan Schlüter, Shuo-Yiin Chang, and Tara Sainath. Deep learning for audio signal processing. IEEE J. Sel. Topics Signal Process., 13(2):206–219, May 2019.
[5] Romain Couillet, Denis Trystram, and Thierry Ménissier. The submerged part of the AI-ceberg. IEEE Signal Process. Mag., 39(5):10–17, 2022.
[6] Clément Dorffer, Matthieu Puigt, Gilles Delmaire, and Gilles Roussel. Informed nonnegative matrix factorization methods for mobile sensor network calibration. IEEE Trans. Signal Inf. Process. Netw., 4(4):667–682, 2018.
[7] Gilles Delmaire, Mahmoud Omidvar, Matthieu Puigt, Frédéric Ledoux, Abdelhakim Limem, Gilles Roussel, and Dominique Courcot. Informed weighted non-negative matrix factorization using αβ-divergence applied to source apportionment. Entropy, 21(3):253, 2019.
[8] Sarah Roual, Claude Sensiau, and Gilles Chardon. Informed source separation for turbofan broadband noise using non-negative matrix factorization. In Forum Acousticum 2023, 2023.
[9] Laetitia Loncan, Luis B De Almeida, José M Bioucas-Dias, Xavier Briottet, Jocelyn Chanussot, Nicolas Dobigeon, Sophie Fabre, Wenzhi Liao, Giorgio A Licciardi, Miguel Simoes, et al. Hyperspectral pansharpening: A review. IEEE Geosci. Remote Sens. Mag., 3(3):27–46, 2015.

Profil du candidat :
Recently or nearly graduated in the field of data sciences (signal and image processing, computer science with a focus in artificial intelligence / machine learning, applied mathematics), you are curious and are very comfortable in programming (Matlab, Python). You read and speak fluent English with ease. You also own communication skills so that you can explain your work to non-experts of your field, e.g., during project meetings. Although not compulsory, speaking French as well as a first experience in low-rank approximation—e.g., matrix or tensor
decomposition, blind source separation, dictionary learning—will be appreciated.

Applicants must be French or citizens of Member State of the European Union, or of a State forming part of the European Economic Area, or of the Swiss Confederation.

To apply, please send an e-mail to {gilles.delmaire, matthieu.puigt} [at] univ-littoral.fr while attaching the documents that can support your application:
• your resume;
• a cover letter;
• your transcripts from the last year of B.Sc to the last year of M.Sc. (if the latter is already available);
• two reference letters or the names and means of contact of two academic advisers.

Applications will be reviewed on a rolling basis until the position is filled.

Formation et compétences requises :

Adresse d’emploi :
Laboratoire d’Informatique, SIgnal, Image de la Côte d’Opale (LISIC)
Université du Littoral Côte d’Opale
EILCO – Campus de la Malassise
62228 Longuenesse

Document attaché : 202411011651_These_ANR_BLeRIOT_2025.pdf

Tensor Approaches for Causal Discovery

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : CRAN-Université de LOrraine
Durée : 36
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2025-02-01

Contexte :
Causality and more generally eXplainable AI (XAI) is one of the hot current topics of the AI scientific community, with many applications in medicine, material sciences, environment, marketing…
.
We invite for applications for a PhD thesis position within the CAUSALI-T-AI project of PEPR IA project funded by the ANR (2023-2029) about tensorial approaches for causal discovery (more details below). The thesis will take place in the Simul Research Group of Centre de Recherche en Automatique de Nancy. International scientific collaborations with Canada, Japan and Germany can also be planned. We have strong connections with Elina Robeva’s research group in British Columbia (Canada) , Joscha Diehl’s research group in Greifswald University (Germany) and N. Siugara group in JAMSTEC (Japan)

Sujet :
Causal discovery is a problem of finding causal (directional) relationships between random variables, and is a challenging problem. A particular difficulty is the presence of latent (unobserved) variables. The methods we consider in this topic, use the higher-order statistics (for example, cumulants or moments) to perform these tasks. Many of those methods rely on the non-Gaussianity assumption.

Some potential tracks for this research project:
1) Methods based on cumulants for models with multidirected edges ( algorithm for a particular case: [Liu, Robeva, Wang, 2020] , theoretical foundation: [Robeva, Seby, 2020])
2) Structural equation models with latent variables viewed as mixtures of independent component analysis models [Shimizu, 2007], and also [Liu et al., 2021] for linear dependencies.
3) Advanced topic: methods based on the signature tensors for causal discovery in time series [Chevyrev, Kormilitzin, 2016].

Profil du candidat :
Master student in Machine Learning/Data Science/applied Math

Formation et compétences requises :

Adresse d’emploi :
Simul Research Group @CRAN

Faculté des Sciences et Technologies

Campus, Boulevard des Aiguillettes

54506 Vandœuvre-lès-Nancy

Website : https://cran-simul.github.io/

Document attaché : 202411011609_TensorCausalDiscovery.pdf

Offre de stage/thèse GENAI for causality

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : CRAN-Université de Lorraine
Durée : 36 mois
Contact : marianne.clausel@univ-lorraine.fr
Date limite de publication : 2025-02-01

Contexte :
Causality and more generally eXplainable AI (XAI) is one of the hot current topics of the AI scientific community, with many applications in medicine, material sciences, environment, marketing…
.
We invite for applications for a PhD thesis position within the CAUSALI-T-AI project of PEPR IA project funded by the ANR (2023-2029) about generative AI for causality (more details below). The thesis will take place in the Simul Research Group of Centre de Recherche en Automatique de Nancy. International scientific collaborations with US can also be planned. We have strong connections with T. Adali’s research group who is the scientific leader of the Machine Learning for Signal Processing Laboratory in the University of Maryland (Baltimore, USA)

Sujet :
In machine learning, generative models allow one to model the probabilistic behavior of a wide range of physical systems, including applications in finance, medical imaging, climate science, among others. They allow one to perform tasks, including generating new data, but also the inference of latent (unobserved) quantities (e.g., the presence or not of a disease) and to solve other tasks such as time-series forecasting.
Recent advances in generative models have been strongly supported by advances in the field of deep neural networks, leading to great experimental performance. However, they also suffer from one of the main shortcomings of deep learning methods, namely, the theoretical understanding of their behavior which is still an open question (e.g., uniqueness of representations, approximation capability, generalization, etc.).
Such theoretical guarantees are very important for generative models when they are used for inference tasks: in applications such as in medicine, it is crucial to know that a representation learned by the model is unique or stable. Moreover, on the one hand, models that are unique such as (nonlinear) structural equation models (SEMs) can reveal the causal mechanisms of the underlying physical system. On the other hand, such results also guarantee that statistical inference or forecasting results will not suffer significant changes (which could change the result of a diagnostic) due to, e.g., different choices of initializations in an optimization algorithm, or small changes in selected hyperparameters. Discovering a unique generative model in the presence of unobserved latent factors of variation is also a cornerstone of other aspects of causal reasoning, as it is useful in the computation of counterfactuals.
The general goal of this project is to solve practical statistical inference tasks using generative models while:
1) from a modeling perspective, addressing some nonidealities in the data, such as nonstationariety, or differences between statistical distributions or acquisition conditions of different measurements (e.g., precipitation data acquired over different geographical locations, medical data from different groups of subjects, etc.),
2) from an algorithmic perspective, developing solutions that take those nonidealities into account and can provide better results when such conditions are met in practice, and 3) studying the theoretical properties of the models in a general context, including, for instance, uniqueness, stability and approximation capabilty, investigating different hypothesis that can support such results and also some choices related to the algorithm (e.g., what properties weight matrices in rank neural networks need to satisfy, what do we need to assume about the distribution of the data, etc.)

Profil du candidat :
Master Student in Computer Science/Machine Learning or Applied Math

Formation et compétences requises :
machine learning-data science

Adresse d’emploi :
Simul Research Group @ CRAN

Faculté des Sciences et Technologies

Campus, Boulevard des Aiguillettes

54506 Vandœuvre-lès-Nancy

Website : https://cran-simul.github.io/

Document attaché : 202411011605_GenAI-Causality.pdf

Aide à la correction d’anomalies dans des données multidimensionnelles et multirelationnelles sur l’agroécologie en santé animale et végétale

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique, Robotique et Microélec
Durée : 6 mois
Contact : alexandre.bazin@lirmm.fr
Date limite de publication : 2025-02-01

Contexte :

Sujet :
Pour réussir la transition agroécologique, les producteurs ont besoin de disposer de connaissances sur des alternatives aux techniques agricoles classiques. Cependant, en préalable à l’utilisation d’une base de connaissances (BC) par des producteurs et des experts scientifiques, celle-ci doit être corrigée de ses anomalies. Le contexte de ce stage est la BC Knomana [Silvie et al., 2021], qui rassemble 48000 descriptions d’utilisation de plantes à effet pesticide et antibiotique, et vise à proposer des préparations à base de plantes en remplacement des produits chimiques de synthèse. Des dictionnaires permettent déjà de corriger les valeurs pour ses 31 types de données. Par contre, la vérification de la correction et de la cohérence des données est trop complexe pour être réalisée manuellement. Par exemple, une incohérence entre la plante pesticide, le système protégé (e.g. culture de maïs), le bioagresseur (e.g. insecte) et la localisation géographique suffit pour induire en erreur un producteur. La technique appelée Exploration d’Attributs (EA), développée par l’Analyse de Concepts Formels, permet de détecter et de corriger ces anomalies [Saab et al., 2022] en exprimant chaque connaissance sous forme d’une règle d’implication. Les règles sont présentées aux experts qui les valident ou les invalident afin de mettre la BC dans un état cohérent.
L’objectif du stage est de développer un prototype logiciel de détection et de correction des anomalies pour des données multidimensionnelles et multirelationnelles. Ce prototype permettra de manipuler les données et les types de données, puis d’interagir avec
la libraire FCA4J, pour le calcul des règles, et le logiciel RCAvizIR, développé avec le soutien de #Digitag (stages de Master en 2022 et 2023) pour les présenter dans un ordre facilitant le travail de correction par les experts.

* Pierre Accorsi, Mickaël Fabrègue, Arnaud Sallaberry, Flavie Cernesson, Nathalie Lalande, Agnès Braud, Sandra Bringay, Florence Le Ber, Pascal Poncelet, Maguelonne Teisseire. HydroQual: Visual Analysis of River Water Quality. Proceedings of the IEEE Symposium on Visual Analytics Science and Technology (VAST), pp. 123-132, 2014.
* Daniel A. Keim, Gennady L. Andrienko, Jean-Daniel Fekete, Carsten Görg, Jörn Kohlhammer, Guy Melançon. Visual Analytics : Definition, Process, and Challenges. Information Visualization – Human-Centered Issues and Perspectives. LNCS 4950, Springer 2008, p. 154-175. * Tamara Munzner. Visualization Analysis & Design. CRC Press, A K Perters Books, 2014. * Roberto Tamassia, Handbook on Graph Drawing and Visualization. Chapman et Hall / CRC, 2013.
* Michael Sedlmair, Miriah D. Meyer et Tamara Munzner. Design Study Methodology: Reflections from the Trenches and the Stacks. IEEE TVCG 18(12): 2431-2440, 2012.

Profil du candidat :
Compétences recherchées :
Intelligence artificielle, Fouille de données, Javascript

Formation et compétences requises :
Discipline principale du projet :
Informatique, Extraction de connaissances, Visualisation

Discipline secondaire du projet :
Sciences de la Vie et de l’Environnement

Adresse d’emploi :
Université de Montpellier

Document attaché : 202411011120_Sujet de stage Digitag 2024-1.pdf