Réseaux de neurones bayésiens pour la quantification de l’incertitude

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut FEMTO-ST
Durée : 6 mois.
Contact : zeina.almasry@femto-st.fr
Date limite de publication : 2024-05-05

Contexte :
Les réseaux de neurones (RN) sont largement utilisés dans plusieurs domaines. Toutefois, les résultats fournis par un algorithme basé sur les RN intègrent des incertitudes liées aux données et au modèle. Il est important de quantifier ces incertitudes, pour fournir une information supplémentaire afin d’assister la décision finale. Par exemple, en industrie lorsqu’une anomalie est détectée avec un faible niveau de confiance, une vérification supplémentaire à l’aide d’une autre source d’information est ajoutée (image, intervention humaine…) avant de planifier des actions de réparation. Un autre exemple en médical, la mesure de l’incertitude permet aux praticiens de prendre des décisions adaptées pour la prise en charge des patientes comme par exemple explorer d’autres tests. Plus généralement, une quantification fiable de l’incertitude de la prédiction permet de faire confiance ou non aux prévisions pour des entrées interpolant/extrapolant les situations vues dans l’ensemble d’entraînement. Plusieurs approches sont proposées pour la quantification d’incertitude, certaines sont dédiées aux RN.
Les réseaux de neurones bayésiens (RNB) fournissent un outil mathématique pour mesurer l’incertitude du modèle. L’idée est de remplacer les valeurs déterministes des paramètres du RN (poids et biais) par des distributions de probabilité avec un a priori gaussien, pour ensuite apprendre les paramètres de ces distributions. Une fois entraîné, les sorties du RN peuvent être évaluées plusieurs fois pour obtenir une distribution empirique des prédictions. Plusieurs méthodes ont été proposées pour les RNB basées, par exemple, sur l’approximation de Laplace ou des méthodes de Monte Carlo Hamiltonien. Dans le cadre de ce projet, l’objectif est de développer une méthode de quantification basée sur les RNB. La méthode sera appliquée pour un problème de classification et régression sur des données synthétiques.

Sujet :
Objectifs du stage :
— Etat de l’art sur les RNB.
— Développer un algorithme basé sur les RNB.
— Optimisation de l’architecture du réseau ainsi que les différents hyperparamètres.
— Appliquer l’algorithme pour la quantification l’incertitude pour la régression et la
classification et évaluation les performances.
— Comparer l’approche proposée avec d’autres techniques de la littérature dropout, ensemble learning.

Profil du candidat :
Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :
mathématiques-appliquées, apprentissage profond, programmation Python.

Adresse d’emploi :
26 Rue de l’Épitaphe, 25000 Besançon.

Document attaché : 202401221232_sujet_stage.pdf

Grammatical Graph Neural Network

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS
Durée : 5/6 mois
Contact : Sebastien.Adam@univ-rouen.fr
Date limite de publication : 2024-05-05

Contexte :
Les réseaux de neurones sur graphe (GNN) sont un champs d’étude en plein essor ces dernières années. Les Message Passing Neural Network (MPNN) tels que Graph Convolutional Network (GCN) et Graph Isomorphism Network (GIN) sont les plus utilisés des GNNs du fait de leur complexité linéaire. Cependant, il a été démontré que l’expressivité de ces modèles était limitée. En effet, en terme de séparabilité, ils sont moins expressifs que le test de Wesfeiler-Lemahn et en terme de comptage de sous-structures, il ne peuvent pas compter les triangles dans un graphe

Sujet :
Durant ce stage, vous explorerez une nouvelle approche, décrite dans cite{piquenot2023iclr}, basée sur les Context Free Grammar (CFG). Les CFG sont composées de règles que l’on peut sélectionner pour construire des couches de GNN. Un exemple de couche de GNN produite à partir d’une grammaire basée sur la séparabilité est visible sur la Figure ref{fig:gram}. Ce stage s’inscrit dans une démarche de recherche de performance d’un GNN. Nous chercherons dans un premier temps à développer un code permettant de produire une couche de GNN à partir de règles dans une CFG que l’on pourra choisir. Ce code permettra à l’utilisateur de tester pour une tâche donnée la pertinence des règles de la CFG. Dans un second temps, le stagiaire pourra mesurer les performances de GNNs produits à partir de différents ensembles de règles sur des datasets usuels de la littérature.

Profil du candidat :
Etudiant en dernière année de Master ou d’école d’ingénieur, en mathématiques appliquées, science des données ou intelligence artificielle.

Formation et compétences requises :
Bonnes connaissances du Machine Learning
Bonnes compétences en Python et Pytorch

Adresse d’emploi :
Laboratoire LITIS, UFR Sciences et Techniques, Avenue de l’Université, 76800 Saint Etienne du Rouvray

Document attaché : 202401191526_stage_M2_G2N2.pdf

Optimal transport for novelty and out-of-distribution detection

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA / LITIS
Durée : 5 mois
Contact : laetitia.chapel@irisa.fr
Date limite de publication : 2024-03-01

Contexte :
For a decision-making system trained on data to be reliable, it must possess the ability to adjust its decisions based on di erences between the distribution ptrain(Xtrain; Ytrain) of training samples and that of test samples ptest(Xtest; Ytest). In case of distribution shift, deep-based-approaches may be overcon dent and tend to treat the given inputs as one of the previously seen situations leading to mislabelling. This underscores the challenges in detecting out-of-distribution (OOD) samples, where the test point x0 is marginally sampled from ptest(x0) = ptrain(x0), or recognizing that point x0 belongs to an unseen class (involving a new type of object in the scenes for instance). Additionally, given the multimodal nature of inputs and variations in sensor availability, samples may not be embedded into the
same space, posing further challenges related to incomparable spaces. Our approach envisions employing optimal transport theory to develop algorithms addressing out-of-distribution detection, aiming for a
robust optimal transport framework. Optimal transport (OT) has become a potent tool for computing distances (a.k.a. Wasserstein or
earth mover’s distances) between data distributions, facilitated by new computational schemes that make transport computations tractable.

Sujet :
The primary goal of the internship is to investigate the behavior of optimal transport (OT) in scenarios where distributions are tainted by outliers or out-of-distribution (OOD) samples and to formulate a robust OT framework. Existing studies have utilized OT in such contexts, employing a straightforward rule that identifies points significantly distant from the other distribution as outliers. While approaches
like the regularization path or OT profiles have been effective in selecting optimal regularization parameters, particularly using techniques like the elbow rule, they may fall short when dealing with points
that are OOD but situated “between” the two distributions.
Conversely, Monge-Kantorovich (MK) quantiles and ranks present an alternative. This method replaces the traditional “left-to-right” ordering of samples with a “center-outward” approach applicable in Rd.

The internship’s specific objectives include: i) examining how the placement of outliers influences the OT solution, ii) developing a robust OT formulation with statistical guarantees, leveraging MK quantiles,
and iii) implementing the solution in the POT toolbox.
Furthermore, the internship will explore the integration of partial-OT-based loss in deep learning approaches as a means to evaluate the proposed methods. Ensuring scalability will be a crucial aspect
of the method’s development. Additionally, investigations into adapting the approach for incomparable spaces will be undertaken.

Profil du candidat :
Master student

Formation et compétences requises :
Applicants are expected to be graduated in applied mathematics/statistics and/or
machine learning and show an excellent academic profile. Beyond, good programming skills are expected.

Adresse d’emploi :
Depending on the candidate:
– LITIS in Rouen
– IRISA in Rennes

Document attaché : 202401180908_OT for OOD – madics.pdf

Imputation of missing data in a domain adaptation context

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA
Durée : 5 mois
Contact : laetitia.chapel@irisa.fr
Date limite de publication : 2024-03-01

Contexte :
AI methodologies typically depend on extensive datasets that may be tainted by noise, missing values, or can be collected in heterogeneous yet related environments. Data with missing values are ubiquitous in many applications; they can be due to equipment failure, incomplete information collection (e.g. clouds in the remote sensing case) or inadequate data entry for instance. Nevertheless, conventional
learning algorithms often assume that the data are complete and independent and identically distributed, that is to say they have been drawn randomly from a single distribution.
Data imputation aim at substituting missing data by plausible values, e.g. by filling them by the value of the nearest sample or by imputing with some relevant statistics. The imputation can have a high
impact on performances of the learning task at hand, leading to biased results or degraded performances. Most of the imputation methods rely on some (completely) missing at random assumption and with no pattern between the missingness of the data and any values. More challenging scenario deal with random block missing or blackout missing, in which blocks of information are missing and where the
structure of block-wise missing data should be further taken into consideration.

In practice, the data are often collected on different yet related domains, offering the potential to enhance the generalization capability of the learning algorithm. For instance, in Earth observation, and especially for land cover mapping applications, the differences in weather, soil conditions or farmer practices between study sites are known to induce temporal shifts that can be corrected to enhance task performance. For predicting crop yield, the variability under changing climates and severe weather events have to be taken into account when considering data from the past to predict the evolution of the yield.
Domain adaptation [6, 7] aims to transfer knowledge from one domain to another and has demonstrated significant enhancements in classification or clustering tasks when domain shifts are carefully managed.

Sujet :
The aim of the internship is to study the potential of data imputation method within the context of domain adaptation. Existing approaches mostly tackle missing values within an inferential framework, wherein they are replaced with values derived from dataset statistics, relying on robust parametric assumptions. However, when a shift exists between the datasets, this strategy becomes inadequate. Instead, we propose to address imputation and learning tasks concurrently, introducing the additional complexity that the data may originate from different domains.
The research directions will explore optimal transport-based solutions, known for their success in
imputing missing values and aligning distributions in a domain adaptation context, especially
when dealing with temporal data.

Profil du candidat :
Master student
== peut éventuellement être poursuivi par une thèse ==

Formation et compétences requises :
Applicants are expected to be graduated in mathematics/statistics and in computer science and/or machine learning and/or signal & image processing, and show an excellent academic profile.
Beyond, good programming skills are mandatory.

Adresse d’emploi :
Laboratoire IRISA, Rennes

Document attaché : 202401180900_Missing_data_and_DA___internship-2.pdf

Explicabilité pour l’analyse d’opinions dans les médias sociaux

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ETIS UMR 8051
Durée : 6 mois
Contact : maria.malek@cyu.fr
Date limite de publication : 2024-03-01

Contexte :
Nous avons exploré dans des travaux récents portant sur l’analyse des médias sociaux, la combinaison des méthodes classiques d’exploration d’opinion avec celles de l’analyse des réseaux sociaux ainsi que leur impact sur la formation et la propagation d’opinion. Afin d’étudier l’impact des utilisateurs influents (nœuds influents), plusieurs facteurs d’influence extraits du réseau (graphe) ont été intégré dans le processus d’exploration d’opinions. Ces facteurs sont généralement calculés en utilisant différentes mesures de centralité comme le degré, la proximité, l’intermédiarité, la centralité PageRank, etc.

En intégrant une méthode d’explicabilité adéquate, nous souhaitons rendre plus compréhensible également les résultats concernant la polarité de l’opinion trouvée au niveau des utilisateurs et au niveau des groupes (communautés). De même, le modèle doit être capable d’expliquer les changements d’opinion détectés en prenant en compte les informations extraites du réseau de propagation et les séquences d’actions entreprises (par exemple : tweets, retweets, réponses) menant à ce changement.

Un modèle transparent basé sur l’apprentissage automatique pour la détection de la modification d’opinions au sein des réseaux égocentriques autour des influenceurs, a été proposé. Ainsi, des caractéristiques (attributs) de différentes natures (textuelle, contextuelle et topologique) qui expliquent la modification de l’opinion, ont pu être identifiées. Nous souhaitons généraliser cette approche afin de pouvoir proposer un cadre général de l’explicabilité pour l’analyse des opinions dans les médias sociaux.

Sujet :
Le but de stage est de proposer et d’intégrer une (ou plusieurs) méthode(s) d’explicabilité dans les algorithmes d’analyse d’opinions afin de produire des explications émergeantes qui combinent des informations nodales (comme le profil d’utilisateur et les données textuelles) et topologiques extraites de la structure du graphe de propagation des opinions.

L’objectif est d’étudier et de compare deux principales approches de l’explicabilité dans les réseaux complexes à travers l’exemple de l’étude de l’analyse d’opinions : la première consiste à l’utilisation des méthodes XAI lors de l’application des méthodes d’apprentissage automatique pour l’analyse des réseaux, comme par exemple, les méthodes de network embedding ainsi que les réseaux de neurones en graphes (Graph Neural networks), la deuxième approche consiste à définir des méthodes d’explicabilité propres au domaine de l’analyse des réseaux. Ces méthodes seront par nature spécifiques et en lien étroit avec les algorithmes d’analyse du graphe du terrain social utilisés lors de l’analyse d’opinions.

Profil du candidat :
Dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine en lien avec l’informatique ou les mathématiques appliquées.

Formation et compétences requises :
Connaissances en apprentissage automatique et compétences en Python. Une compétence en analyse des réseaux complexes sera appréciée.

Adresse d’emploi :
ETIS UMR8051, CY Université, ENSEA, CNRS
Site Saint Martin 1
2, avenue Adolphe Chauvin
95302 CERGY PONTOISE

Document attaché : 202401171405_Proposition_M2_ETIS_Explicabilité_AnalyseOpinions.pdf

Identification de communautés sur les réseaux sociaux

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LORIA
Durée : 6 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2024-04-15

Contexte :
L’identification de communautés sur les réseaux sociaux est généralement effectuée selon deux types d’approches. La première consiste en l’exploitation de la similarité entre les individus du réseau social considéré en fonction de leurs caractéristiques (âge, sexe, activité sur un service donné, appréciations musicales, etc.). La seconde consiste en l’exploitation du graphe des liens sociaux explicites entre les individus (amis sur Facebook, suivis/suiveurs sur Deezer, etc.) afin d’en extraire des cliques ou des quasi-cliques.

L’une des problématiques de ce domaine de recherche est l’évaluation de la pertinence des communautés extraites. Une solution répandue consiste à vérifier d’une part que les individus au sein de chaque groupe sont fortement similaires (haute similarité intra-cluster), et d’autre part que la similarité entre les individus de groupes différents est faible (faible similarité inter-cluster). Le problème de cette solution est qu’un score élevé calculé selon ce type de critères ne correspond pas forcément à des communautés pertinentes, et que des communautés extraites très différentes peuvent avoir des scores très proches.

Une manière possible d’amoindrir ce problème serait de croiser deux points de vue différents, chacun correspondant à l’un des deux types d’approches de clustering mentionnées ci-dessus. En effet, ces deux types d’approches utilisant des informations très différentes en entrée, leurs sorties sont souvent très différentes elles aussi. Or, la meilleure version de chacune de ces approches devrait en principe produire des communautés aussi proches des communautés réelles du réseau social considéré que possible, et leurs sorties respectives devraient elles aussi être aussi similaires que possible. La pertinence d’un algorithme correspondant à l’un de ces deux types d’approches pourrait ainsi être évaluée en fonction de la distance entre sa sortie et celle d’un algorithme de l’autre type. L’idée est donc de rechercher une stratégie de dialogue qui, étant donnés deux algorithmes des deux types (similarité et liens sociaux), permette à ces algorithmes de converger vers des sorties aussi similaires que possible.

Sujet :
Objectifs
Les objectifs de ce stage porteront ainsi sur la détermination de stratégies de dialogue entre les deux types d’algorithmes et sur la possibilité d’obtenir une convergence. Un bon point de départ est l’article de Forestier et al. (2010) sur la résolution itérative de conflits entre clusterings.

Nous fournirons au stagiaire une base de données issue du site senscritique, qui permet à ses utilisateurs de rédiger des critiques de films, de livres, de musique, etc., d’attribuer des notes et de suivre d’autres utilisateurs.

Dans un premier temps, le stagiaire devra se familiariser avec d’une part les algorithmes classiques de clustering (K-means, DBscan, etc.) et d’autre part les algorithmes d’extraction de quasi-cliques (Quick, alpha-bêta-cliques, etc.). Des bibliothèques implémentant ces algorithmes seront exploitées dans un second temps pour observer les différences entre les communautés produites en fonction du type d’algorithme et des paramètres choisis (nombre de clusters, densité des clusters, connectivité minimale du voisinage, etc.). Enfin, des stratégies itératives permettant de faire dialoguer les deux types d’approches seront proposées, implémentées et expérimentées.

https://homepages.loria.fr/gbonnin/internships/detection-of-communities-fr.html

Profil du candidat :
Master, école d’ingénieur

Formation et compétences requises :
Compétence en Informatique, Science de donnée, Machine Learning,

Adresse d’emploi :
LORIA Nancy

Document attaché : 202401161044_Nancy_MasterThesis_Description___Identification_de_communautés__Copy_.pdf

AI-driven Innovations in Breast Cancer Screening: Postdoctoral Fellowship Openings

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Internationa Laboratory on Learning Systems (IRL –
Durée : 18 months
Contact : pablo.piantanida@centralesupelec.fr
Date limite de publication : 2024-04-15

Contexte :
We are excited to share an interesting opportunity for two postdoctoral fellows, each with an 18- month tenure, to actively contribute to groundbreaking research in the field of AI for breast cancer screening.

Sujet :
Our project, funded by FRQS and Health Data Hub, titled “AI Foundation Models for Breast Cancer Screening: Advancing Early Detection through AI,” is calling for skilled individuals to become part of our international team between the International Laboratory on Learning Systems (ILLS) together with the Quebec AI Institute, located in Montreal (QC, Canada), and MICS located in CentraleSupelec within Paris-Saclay University (France). This role offers a key position in shaping the development and progress of AI-driven solutions for early breast cancer detection.

For further details check: https://sites.google.com/mila.quebec/pablo-piantanida/openings? authuser=0#h.kyzvdsd2q45m

Profil du candidat :
= Position Qualifications =
+ PhD program in Computer Science, Machine Learning, Computer Engineering, Mathematics, or related field (e.g. applied mathematics/statistics).
+ Very good understanding of Machine Learning theory and techniques, as well as of computer vision.
+ Strong publication track in recognized venues of computer vision (CVPR, ECCV, ICCV), machine learning (NeurIPS, ICLR, ICML) and/or medical image computing (MedIA, IEEE TMI, MICCAI).
+ Good programming skills in Python (PyTorch).
+ Applications/ domain-knowledge in medical image processing is a plus.
+ Good communication skills in written and spoken English.
+ Creativity and ability to formulate problems and solve them independently.

Formation et compétences requises :
= How to apply =
If you are interested, please send us the following elements as soon as possible and not later than January 31th:
+ Detailed CV.
+ Letter of motivation.
+ Elements of bibliography or personal achievements related to a research activity.
+ 2 references or recommendation letters.
If you are interested and meet the qualifications, please submit your application letter and CV by email.

Adresse d’emploi :
ETS Montreal (1100 Notre-Dame St W, Montreal, Quebec H3C 1K3) and CentraleSupelec (3 Rue Joliot Curie, 91190 Gif-sur-Yvette)

Document attaché : 202401152037_Projet_de_postdocs_MICS___ILLS-2.pdf

GreenDays 2024

Annonce en lien avec l’Action/le Réseau :

Thème :

Sobriété numérique – Green IT

Présentation :

Après les dix dernières éditions fructueuses des journées GreenDays, nous organisons les GreenDays 2023 @ Toulouse les 27 et 28 Mars 2024.

En 2024, la problématique d’un numérique plus sobre recouvre différentes facettes et de nombreux scientifiques adressent ces sujets dans leurs communautés respectives. Il est temps de se rencontrer et de mettre en commun nos forces de recherche pour amplifier les impacts des travaux et réduire les impacts énergétiques et environnementaux du numérique.

C’est la question que les académiques et industriels réunis lors des Greendays@Toulouse2024 aborderont par l’intermédiaire d’exposés invités et de propositions soumises.

Du : 2024-03-27

Au : 2024-03-28

Lieu : IRIT, Toulouse

Site Web : https://perso.ens-lyon.fr/laurent.lefevre/greendaystoulouse2024/

JFMS 2024: Journées Francophones de la Modélisation et de la Simulation

Annonce en lien avec l’Action/le Réseau :

Thème :

Simulation, Optimisation, Modélisation, Systèmes Multi-Agents

Présentation :

Les Journées Francophones de la Modélisation et de la Simulation (JFMS) et le workshop du réseau DEVS seront organisées du 4 au 8 novembre 2024 à l’IES de Cargèse.
Les JFMS sont placées sous le signe de l’échange et de la convivialité, pour discuter et partager des concepts, des méthodes et des outils propres à la Modélisation et à la Simulation (M&S).
Pour cette nouvelle édition, notre évènement est organisé conjointement avec les JFSMA et Sébastien Picault responsable du comité de programme.

Du : 2024-11-04

Au : 2024-11-08

Lieu : IES de Cargèse (Corse)

Site Web : https://devs-network.org/jfms-2024/

Reasoning and Provenance on Neural Networks

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIG, Université Grenoble Alpes & Inria
Durée : 6 mois
Contact : silviu.maniu@univ-grenoble-alpes.fr
Date limite de publication : 2024-02-11

Contexte :
Artificial intelligence and neural networks in particular have brought unprecedented progress in recent years in important areas such as language, vision and control, among others. However, two important challenges remain. First, some of the simplest fundamental traits of human intelligence such as generalization and basic logical reasoning, remain difficult to realize and integrate, as neural architectures do not allow adding logic rules to their optimizations. Secondly, there is no sound and generic way to integrate explanations into their architecture or to track from where and how the outputs were computed.

This lack of understanding, reasoning, and traceability translates into a fundamental weakness of AI in terms of explainability and accountability. As a result, AI-based methods are commonly used as “black boxes” where it is difficult to to evaluate or identify why a particular network or part of a network works well or poorly to accomplish a particular task: the knowledge processed (relations, concepts) is not explicitly shown. **Neuro-symbolic AI** is an area of research that has become particularly active in bridging this gap, studying methods for **combining symbolic knowledge representation and reasoning with deep learning**. An important challenge is the combination of two completely different worlds: Euclidean spaces for learning, and symbolic logic for reasoning. This implies moving from the world of symbolic logic with Boolean interpretation to fuzzy or probabilistic interpretations, by integrating probabilities into the logic.

Going further, neural architectures (neuro-symbolic or otherwise) would benefit greatly from the ability to explain the results of their reasoning. This can be achieved by **annotating the parts of the neural computation graph**. In this manner one can track what has been used in the answer to the query or how the data was transformed; this is known as **provenance** or **lineage**.

Sujet :
The proposed internship aims at covering at least one of the following two objectives:

1. To investigate theoretical and practical methods for querying data structures built from noisy and incomplete data, i.e. to develop approaches with high tolerance to noise and missing data, while enabling reasoning capabilities that are beyond the reach of current sub-symbolic systems (neural networks).

2. To extend the probabilistic annotations used in neuro-symbolic computing with provenance annotations, in order to also provide explanation for the output and the reasoning. This can be achieved by extending previous work on graph queries and provenance.

Profil du candidat :
We are interested in students able to obtain _working implementations_, possibly directly in popular frameworks such as PyTorch or Tensorflow, and evaluation over _real-world_ datasets.

The offer is in a laboratory belonging to a ZRR, hence special access permissions are required. The internship can take place only if these permissions are given.

Formation et compétences requises :
Master student in Compute Science, data-related, M1 or M2.

Programming skills (Python, etc.) required.

Adresse d’emploi :
Laboratoire d’Informatique de Grenoble, UMR 5217
Bâtiment IMAG – 150 place du Torrent
Domaine universitaire de Saint-Martin-d’Hères