Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Apr
1
Mon
2024
Deep Learning architectures for generating rehabilitation human motion
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRIMAS, équipe MSD. Université de Haute Alsace
Durée : 6 months
Contact : maxime.devanne@uha.fr
Date limite de publication : 2024-04-01

Contexte :
Human motion analysis is crucial for studying people and understanding how they behave, communicate and interact with real world environments. Due to the complex nature of body movements as well as the high cost of motion capture systems, acquisition of human motion is not straightforward and thus constraints data production. Hopefully, recent approaches estimating human poses from videos offer new opportunities to analyze skeleton-based human motion. While skeleton-based human motion analysis has been extensively studied for behavior understanding like action recognition, some efforts are yet to be done for the task of human motion generation. Particularly, the automatic generation of motion sequences is beneficial for rapidly increasing the amount of data and improving Deep Learning-based analysis algorithms. In particular, this is crucial in a medical context like in physical rehabilitation where acquiring data is challenging. Rehabilitation human motions are corresponding to rehabilitation exercises proposed by physiotherapists.
Unlike classification tasks, the targeted task in human rehabilitation assessment is often a regression problem, where given a motion sequence, the goal is to predict the associated performance score given by physiotherapists.
Since several years, human motion generation paradigms have been possible thanks to the appearance of Generative Adversarial Networks (GAN), Variational AutoEncoder (VAE) or Diffusion models. While most of these works have considered motion capture (mocap) data, we consider noisy skeleton data estimated from videos as it is easily applicable in real-world scenarios for the general public.

Sujet :
The goal of this internship is to investigate deep generative models for skeleton-based human motion sequences with a particular focus on rehabilitation data. Inspiring from recent effective Deep Learning-based approaches, the aim is to generate full skeleton-based rehabilitation motion sequences. It is therefore crucial to investigate how deep generative models can handle such noisy and possibly incomplete data in order to generate novel rehabilitation motion sequences as natural and variable as possible.

In particular, the candidate will work on the following tasks:
-Deep generative models adapted to rehabilitation data: based on studies from existing works, the goal is to build generative models for rehabilitation sequences. Therefore, the candidate will investigate different generative models, like GAN, VAE and Diffusion models, in order to propose and develop a complete Deep Learning model for generating skeleton-based human motions. These models will be trained using publicly available datasets such as the Kimore dataset.
-Evaluation of deep generative models: in order to validate the proposed model, experimental evaluation is crucial. In comparison to motion recognition where classification accuracy is a natural way to assess an approach, evaluating the task of motion generation is not as straightforward. Dedicated metrics evaluating both naturalness and diversity of generated sequences as well as the impact of new generated sequences in a classification task will be considered.
-Text to rehabilitation motion: The generated models will be then adapted to take as input text sequences corresponding to rehabilitation exercises’ descriptions. This will be particularly useful to create new rehabilitation exercises.

Profil du candidat :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated

Formation et compétences requises :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated

Adresse d’emploi :
ENSISA, Université de Haute Alsace
12 rue des frères Lumière
68093 Mulhouse, France

Document attaché : 202310050750_internship_position_delegation_2024.pdf

Deep learning with Normalizing Flows for anomaly detection on time series
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab, Rouen
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2024-04-01

Contexte :
Safe and trustworthy Artificial Intelligence (AI) is central in the deployment of any AI system in major application areas, such as medicine and autonomous vehicles. Its major keystone requirements in Machine Learning (ML) have been recently investigated by researchers of the ML group in the LITIS Lab, including robustness, explainability and fairness. The current internship aims to address anomaly detection with explainable models/results, which is a major ingredient of robust ML for Safe and trustworthy AI.

Sujet :
The broad interest in deep neural networks has driven recent advances in anomaly detection, also called out-of-distribution or novelty detection. Deep anomaly detection methods fall within three major categories: Deep one-class, variational autoencoders (VAEs) and generative adversarial networks (GANs) [1, 2]. While VAEs and GANs do not allow an exact evaluation of the probability density of new samples, they also suffer from notorious training instability (mode collapse, posterior collapse, vanishing gradients and non-convergence), as corroborated by many research studies [3]. For these reasons, we will investigate Normalizing Flows (NF), an emerging class of generative models where both sampling and density evaluation are efficient and exact, and where the latent representation is learned through an invertible transformation [4]. NF provide explainable models, are interconnected with Optimal Transport and have solid foundations for probabilistic modeling and statistical inference [5].

The goal of this internship is to explore Normalizing Flows for anomaly detection on time series. While NF have been previously explored with success for anomaly detection in images, they were seldom investigated for time series. The tasks to be carried out by the intern are as follows: The intern will first study relevant work on NF for anomaly detection, and then revisit them in the light of time series. She/he will explore two contexts: detection from a batch of time series data, and online detection on streaming data. For the latter, a particular attention will be paid to sequential detection. The intern will implement the different NF-based models and conduct experiments on real time series.

This internship may lead to a PhD thesis.

Research Environment: The intern will conduct her/his research within the Machine Learning group in the LITIS Lab, under the supervision of Prof. Paul Honeine. This internship is within a research project gathering 9 permanent researchers of the LITIS Lab and the intern will also interact with several PhD students and interns also working on deep anomaly detection for time series.

References

[1] L. Ruff, J. R. Kauffmann, R. A. Vandermeulen, G. Montavon, W. Samek, M. Kloft, T. G. Dietterich, and K.-R. Müller, “A Unifying Review of Deep and Shallow Anomaly Detection,” Proceedings of the IEEE, vol. 109, no. 5, pp. 756–795, 2021.
[2] G. Pang, C. Shen, L. Cao, and A. V. D. Hengel, “Deep learning for anomaly detection: A review,” ACM Computing Surveys, vol. 54, no. 2, pp. 1–38, 2021.
[3] D. Saxena and J. Cao, “Generative adversarial networks (GANs) challenges, solutions, and future directions,” ACM Computing Surveys, vol. 54, no. 3, pp. 1–42, 2021.
[4] I. Kobyzev, S. J. Prince, and M. A. Brubaker, “Normalizing Flows: An Introduction and Review of Current Methods,” IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 43, no. 11, pp. 3964–3979, 2021.
[5] G. Papamakarios, E. Nalisnick, D. J. Rezende, S. Mohamed, and B. Lakshminarayanan, “Normalizing Flows for Probabilistic Modeling and Inference,” Journal of Machine Learning Research, vol. 22, no. 57, pp. 1–64, 2021.

Profil du candidat :
– Student in final year of Master or Engineering School, in data science, artificial intelligence, applied mathematics, or related fields.

Formation et compétences requises :
– Strong skills in advanced statistics and Machine Learning, including Deep Learning
– Good programming experience in Python

Adresse d’emploi :
LITIS Lab, University of Rouen Normandy, Saint Etienne du Rouvray (Rouen, France).

Applicants are invited to send their CV and grade transcripts by email to paul.honeine@univ-rouen.fr.

Développement de modèles d’apprentissage pour le système de détection de la Sonde Atomique Tomographique
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Groupe de Physique des Matériaux (GPM), en collab
Durée : 6 mois
Contact : christian.bacchi1@univ-rouen.fr
Date limite de publication : 2024-04-01

Contexte :
Le Groupe de Physique des Matériaux est une Unité Mixte de Recherche entre l’Université deRouen Normandie, l’INSA de Rouen Normandie et le CNRS. Nos activités scientifiques sont centrées sur l’étude des matériaux, et en particulier sur les relations entre leurs propriétés physiques et structurales. Grâce à une plateforme instrumentale de premier rang mondial, les analyses sont réalisées à toutes les échelles, jusqu’à la résolution atomique. Nous bénéficions par ailleurs d’une reconnaissance internationale pour notre expertise en instrumentation scientifique dédiée aux techniques d’analyse innovantes. Le GPM a de nombreux partenaires industriels et académiques, y compris à l’international.

Sujet :
La SAT est un outil d’analyse qui permet de déterminer la structure et la composition locale de matériaux à l’échelle atomique. L’utilisation de cet outil d’analyse ne cesse de se démocratiser, depuis sa première commercialisation dans les années 1990, et a permis de contribuer à la résolution d’un grand nombre de problèmes en science des matériaux. Néanmoins, la technologie actuelle des systèmes de détection de SAT, associée à ses algorithmes de traitement de données, ne permet pas de réaliser des analyses quantitatives et/ou qualitatives dans toutes les situations (erreurs de localisation, pertes sélectives, rendement de détection insuffisant…). À ce jour, aucune métrique ne permet de contrôler et/ou résoudre l’ensemble de ces biais pour le large spectre de matériaux à analyser sur cet instrument.

L’utilisation d’algorithmes de Machine Learning, en apprentissage supervisé ou non-supervisé, permet aujourd’hui de réduire des incertitudes liées à l’utilisation de certains dispositifs scientifiques avec très peu de connaissances sur les lois physiques sous-jacentes [1, 2]. En prenant exemple sur ces algorithmes existants, il pourrait être envisageable d’améliorer la qualité des analyses en SAT et d’obtenir des critères de performances qui assureront la voie vers une démocratisation à plus grande échelle de cet instrument. Pour aborder ces problématiques, ce sujet de stage a pour objectif, dans un premier temps, de développer un ou plusieurs modèles d’apprentissage qui serviront à prédire la position et la nature chimique des atomes détectés en SAT. Dans une première partie, ce/ces premiers modèles devront être généré à partir de données simulées de SAT, puis pourront être testés sur des données expérimentales provenant d’une SAT réelle.

[1] Wei, Ye, et al. “Machine-learning-enhanced time-of-flight mass spectrometry analysis.” Patterns 2.2 (2021).
[2] Broderick, Scott R., et al. “Data mining for isotope discrimination in atom probe tomography.” Ultramicroscopy 132 (2013): 121-128.

Profil du candidat :
Le candidat recherché doit préparer un diplôme de niveau BAC+5 (Master 2 ou École d’ingénieur) dans le domaine des sciences des données (data science), de la physique numérique ou des mathématiques appliquées. Des connaissances en sciences des matériaux seraient appréciés.

Vous êtes passionné par la recherche scientifique et technologique. Vous êtes organisé et êtes reconnu pour votre rigueur et votre capacité à travailler en équipe. Vous possédez des compétences et un goût pour la programmation (Python, C/C++, Matlab). Vous avez des connaissances en statistiques, en physique et idéalement en machine learning.

Formation et compétences requises :

Adresse d’emploi :
Lieu : Groupe de Physique des Matériaux (GPM), Avenue de l’Université, 76800 Saint-Étienne-du-Rouvray

Poursuite possible en thèse : Oui (Financement prévu pour octobre 2024)
Démarrage : Février 2024

Document attaché : 202311151648_Stage M2 – GPM.pdf

Ecological Habitat Mapping via Semantic Segmentation from airborne imagery
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : dino.ienco@inrae.fr
Date limite de publication : 2024-04-01

Contexte :

In the frame of a collaboration between the engineering consultancy firm ECO-MED (https://ecomed.fr/) and the Joint Research lab TETIS (https://umr-tetis.fr), we are looking for a master intern with the aim of assessing the potential of deep learning methods from the field of computer vision and AI to support ecological habitat mapping from very high resolution (airborne) imagery.
To this end, the engineering consultancy firm ECO-MED has constituted a large dataset containing both airborne imagery and manual expert annotation of ecological habitat mapping following the hierarchical nomenclature proposed in the EUNIS standard https://inpn.mnhn.fr/habitat/cd_typo/7.
This rich and extensively annotated dataset will be shared with the researchers from the Joint Research Unit TETIS, enabling them to conduct,in conjunction with the master intern, several studies to assess and quantify the capabilities of neural network-based semantic segmentation methods to detect fine-grained habitat mapping on the available very high resolution (airborne) imagery.

https://nextcloud.inrae.fr/s/iNfEiNrwTSzpnZ5

Sujet :
The research internship will have the following objectives:
– Conduct a literature review on Semantic Segmentation methodologies for habitat mapping from very high spatial resolution imagery;
– Explore and perform analytics on the ECO-MED dataset;
– Perform initial Semantic Segmentation tests on the data provided by ECO-MED with state of the art approaches (CNN / ViT);
– Adapt and customize state of the art Semantic Segmentation approaches to deal with the ECO-MED dataset. Possible research paths that will be explored are: i) hierarchical semantic segmentation or ii) semantic segmentation with sparse data;
– Quantitative and qualitative evaluation of the proposed method compared to state-of-the-art competitors;
– Preparation of the internship report.

Profil du candidat :
Computer Science
Computer Vision
Deep Learning

Formation et compétences requises :
Computer Science
Computer Vision
Deep Learning

Adresse d’emploi :
500, rue Jean François Breton
34090 Montpellier
France

Document attaché : 202311151041_Short_internship_proposal (1).pdf

Élaboration d’un protocole d’annotation et extraction d’information à partir de données textuelles : application au suivi de la sécurité alimentaire
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : SimpleText/– — –

Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : maguelonne.teisseire@inrae.fr
Date limite de publication : 2024-04-01

Contexte :
Le stage s’inscrit dans le cadre d’activités interdisciplinaires de l’UMR TETIS concernant l’anticipation et le suivi des risques liés à la sécurité alimentaire. Les activités de recherche de l’UMR sur cette
thématique sont centrées sur le cas de l’Afrique de l’Ouest, où les risques agricoles sont d’autant plus aigus que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens
techniques et financiers.

Sujet :
Une offre de stage pour contribuer à une approche novatrice visant à anticiper et suivre les crises alimentaires en Afrique de l’Ouest en utilisant des techniques avancées d’apprentissage automatique. Vous serez chargé de créer un corpus annoté spécialisé et de proposer des méthodes visant à identifier les éléments déclencheurs de crises alimentaires et leurs aspects spatio-temporels à partir de données textuelles journalistiques. En collaborant sur ce projet interdisciplinaire, vous contribuerez de manière significative à l’apport de l’intelligence artificielle au suivi de la sécurité alimentaire.
Le stage se déroulera sur une période de 6 mois, à compter de février 2024 au sein de l’UMR TETIS, à la Maison de la Télédétection (Montpellier).

Profil du candidat :
Le/la stagiaire aura un profil en informatique avec des connaissances en traitement automatique de la langue et/ou apprentissage automatique, avec un intérêt pour le travail interdisciplinaire. Une expérience dans le langage de programmation Python est un plus.

Formation et compétences requises :
M2 Sciences des données, TALN, Info

Adresse d’emploi :
https://nubes.teledetection.fr/index.php/s/HtXiDfBWzEEFsfp

Document attaché : 202310050829_stage_digitag_2024.pdf

Offre de Stage Master / Bac+5 – Segmentation d’IRM cérébrales 3D
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT – Université de Tours
Durée : 5/6 mois
Contact : jyramel@univ-tours.fr
Date limite de publication : 2024-04-01

Contexte :
Titre du stage : SILA-3D : Segmentation Incrémentale, Locale, Anatomique d’images cérébrales 3D

Organismes d’accueil
• Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours
• Equipe Neuroéthologie et cognition sociale (NECOS), INRAE Centre Val de Loire, Nouzilly

Encadrement
● Jean-Yves Ramel, Mostafa Darwiche – LIFAT Université de Tours
● Antoine Bourlier – LIFAT / INRAE NECOS
● Elodie Chaillou – INRAE NECOS
● Barthélémy Serres – ILIAD3

Plus d’infos : https://lifat.univ-tours.fr/medias/fichier/stagesila3d_1700035984157-pdf

Sujet :
L’essor de méthodes d’imagerie cérébrale génère une masse considérable de données morphologiques et fonctionnelles mais leur exploration puis leur comparaison au cours du temps pour un individu (développement et vieillissement), entre individus (variabilité au sein de l’espèce), et plus encore entre espèces différentes restent pour l’instant très partielles et limitées. Cette limite provient du fait que l’analyse et la comparaison de cerveaux nécessitent une segmentation des images 3D en structures anatomiques sous jacentes qui reste, pour l’instant, une étape très chronophage lorsqu’elle est réalisée manuellement.
Pour pallier à ce problème notre consortium pluridisciplinaire réunissant des chercheurs informatique (LIFAT, ILIAD3), en neuroanatomie (INSERM) et en biologie animale (INRAE) travaille depuis plusieurs années sur SILA3D, une plateforme logicielle, en accès libre permettant de réaliser une segmentation sémantique incrémentale, locale, anatomique des images en assistant l’utilisateur grâce à une approche interactive et à des algorithmes de machine learning.

Dans ce contexte, le stage proposé vise à poursuivre le développement de cette plateforme . Il s’agira donc de :
– Prendre en main l’existant (technologies, librairies : ITK, docker, …) assez conséquent
– Améliorer les interfaces du client SILA3D basé sur 3D-SLICER
– Améliorer les algorithmes de segmentation exploités par SILA3D coté serveur en intégrant des techniques de deep learning (en python)
– Evaluer les performances des algorithmes de segmentation et la qualité des interfaces au travers d’expérimentations et de discussions menées en collaboration avec les experts du domaine

Profil du candidat :
Stage Niveau Bac + 5 en informatique (Master ou ingénieurs)

Formation et compétences requises :
Profil du candidat :
• Le candidat souhaité est un étudiant en Master ou dernières années d’une formation d’ingénieur en Informatique

• Compétences souhaitées : Analyse d’images médicales et/ou 3D, programmation C++, Des connaissances en Docker, Python et Deep Learning seront un plus.

Adresse d’emploi :
Quand ? Où ? Combien ? Comment ?
Le stage se déroulera entre février et septembre 2024. Le stage sera rétribué à hauteur de l’indemnité légale des stages (environ 580€/mois). La durée du stage est limitée à 5 mois
Le stage aura lieu au Laboratoire d’Informatique Fondamentale et Appliquees de Tours (LIFAT, http://lifat.univ-tours.fr )

Veuillez soumettre votre CV en format pdf à JY Ramel (LIFAT): ramel@univ-tours.fr

Representation of physical quantities on the Semantic Web
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIMOS at Institut Henri Fayol, Mines Saint-Étienne
Durée : 5 to 6 months
Contact : antoine.zimmermann@emse.fr
Date limite de publication : 2024-04-01

Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.

Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.

Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.

Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.

The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.

This study should lead to the publication of a scientific paper in a high impact scientific journal.

References
1. Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
2. Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.

Complete description available at https://www.emse.fr/~zimmermann/Teaching/SemWeb/Internship/

Profil du candidat :
Interested in the definition of specifications and their implementation.
Interested in research activities.

Formation et compétences requises :
Master 2 in computer science
Knowledge of Semantic Web technologies
Java programming
Preferably good writing skills

Adresse d’emploi :
École des mines de Saint-Étienne, bâtiment espace Fauriel, 29 rue Ponchardier, Saint-Étienne. https://www.openstreetmap.org/node/2794933485

Self-supervised learning for anomaly detection on time series
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab (Rouen)
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2024-04-01

Contexte :
Safe and trustworthy Artificial Intelligence (AI) is central in the deployment of any AI system in major application areas, such as medicine and autonomous vehicles. Its major keystone requirements in Machine Learning (ML) have been recently investigated by researchers of the ML group in the LITIS Lab, including robustness, explainability and fairness. The current internship aims to address anomaly detection, which is a major ingredient of robust ML for Safe and trustworthy AI.

Sujet :
Self-supervised learning has recently emerged as a novel paradigm in Machine Learning, aiming to learn deep representations from unlabeled data. Its main driving force is contrastive self-supervised learning. A main ingredient in contrastive learning is a training scheme that contrasts each sample with augmented versions of itself, where augmentation strategies in imagery include color jittering, image rotation, image flipping and affine geometric transformations. Contrastive learning has been largely investigated for classification tasks, often demonstrating its relevance on well-known image classification benchmarks. However, such classification tasks with labelled training data do not get the most out of the self-supervised learning paradigm.

The goal of this internship is to explore contrastive learning for out-of-distribution detection in time series data. This would allow to take full advantage of the self-supervised learning paradigm for out-of-distribution detection (also called anomaly or novelty detection). The tasks to be carried out by the intern are as follows: The intern will implement different contrastive learning models. She/he will study augmentation methods that are relevant for time series, either by revisiting image transformations in the light of time series or by using distribution-shifting augmentations. The intern will conduct experiments on real time series by considering two contexts: detection from a batch of time series data, and online detection, namely in the context of streaming data.

This internship may lead to a PhD thesis.

Research Environment: This intern will conduct her/his research within the Machine Learning group in the LITIS Lab, under the supervision of Prof. Paul Honeine. This internship will be conducted within a research project gathering 9 permanent researchers of the LITIS Lab and the intern will also interact with several PhD students and interns also working on deep anomaly detection for time series.

References

– Hendrycks, Dan, Mantas Mazeika, Saurav Kadavath, and Dawn Song. “Using self-supervised learning can improve model robustness and uncertainty.” Advances in neural information processing systems 32 (2019).
– Li, Chun-Liang, Kihyuk Sohn, Jinsung Yoon, and Tomas Pfister. “Cutpaste: Self-supervised learning for anomaly detection and localization.” In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 9664-9674. 2021.
– Liu, Xiao, Fanjin Zhang, Zhenyu Hou, Li Mian, Zhaoyu Wang, Jing Zhang, and Jie Tang. “Self-supervised learning: Generative or contrastive.” IEEE transactions on knowledge and data engineering 35, no. 1 (2021): 857-876.
– Tack, Jihoon, Sangwoo Mo, Jongheon Jeong, and Jinwoo Shin. “CSI: Novelty detection via contrastive learning on distributionally shifted instances.” Advances in neural information processing systems 33 (2020): 11839-11852.

Profil du candidat :
Student in final year of Master or Engineering School, in data science, artificial intelligence, applied mathematics, or related fields.

Formation et compétences requises :
– Strong skills in advanced statistics and Machine Learning, including Deep Learning
– Good programming experience in Python

Adresse d’emploi :
LITIS Lab, University of Rouen Normandy, Saint Etienne du Rouvray (Rouen, France).

Application: Applicants are invited to send their CV and grade transcripts by email to paul.honeine@univ-rouen.fr.

Stage M2 – Active learning and object detection in multimodal aerial images
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA/UBS
Durée : 6 mois
Contact : chloe.friguet@irisa.fr
Date limite de publication : 2024-04-01

Contexte :
Detailed topic at: http://www-obelix.irisa.fr/files/2023/11/2024_IRISA-UBS_internship_Active-learning-and-object-detection.pdf

The context of this internship is motivated by issues raised in studies
with data collected by airborne imagery. The automation of the processing of this data, by
object detection methods and supervised learning, requires annotated databases. The annotation
step is therefore a task of great interest, both in machine learning (ML) and computer vision
(CV). Carrying it out manually is tedious and costly in terms of time and human resources.
Furthermore, in the case of multimodal images (i.e. acquired by several sensors), annotation
must be performed for each modality.
Active Learning (AL) is related to semi-supervised Machine Learning in which a learning
algorithm can interact at each iteration with the user to get some information about labels of
new data during the training step. It is motivated by situations in which it is easy to collect
unlabeled data but costly (time, money, tedious task) to (manually) obtain their labels. It stems
from the idea that we should only acquire labels that actually improve the ability of the model
to make accurate predictions. Instances that are more useful than others according to some
performance measures have to be identified to create an optimal training dataset: well chosen,
fewer representative instances are needed to achieve similar performance as if we label and use
all available data. This selection process has been investigated as selective sampling [9]. The
importance of an instance is related to a high level of both the information and uncertainty
relative to the trained model, considering therefore a trade-off between informativeness (ability
to reduce the uncertainty of a statistical model) and representativeness (ability to represent the
whole input data space) of the selection process [6].
In remote sensing, AL has therefore become an important approach to collect informative
data for object detection and supervised classification tasks, and to assist the annotation process.
The effectiveness of object detection models is intricately tied to the quantity of annotated data
at their disposal. To overcome this challenge, AL attempts to formulate a strategy for cherrypicking pertinent data that an annotator should annotate, as elucidated by Choi et al. [5]. This
typically involves employing a scoring mechanism that is related to the model’s uncertainties
about the data. Computationally, ascertaining these uncertainties usually necessitates a multimodel approach. However, it’s noteworthy that these ensemble techniques are resource-intensive.
Hence, the overarching objective of AL lies in the formulation of a classification function that
faithfully mirrors the data’s contribution to the learning process.

Sujet :
In the paper by Brust et al. [3], a novel approach to object detection using
deep learning is introduced. Their approach incorporates AL strategies to explore unlabeled
data. The authors proposed and compared various learning metrics that are suitable for most
object detectors, taking into account class imbalance.
To start this project, the first step involves evaluating the performance of a multimodal
object detector (like YOLOrs [10], SuperYOLO [13], YOLOFusion [7] …) with respect to these
1
metrics by applying them to a single modality (RGB for example). This evaluation will be
carried out under different settings, including various sizes of the initial dataset and different
adjustments of algorithm parameters. Then, the aim is to extend the AL strategy to the case
of multimodal images. Indeed, for each object all modalities do not contribute equally to the
classification/localization tasks, one can be more informative than the other.
Finally, metrics proposed by Brust et al. [3], focus on classification uncertainty, however,
the aspect of localization is overlooked. To get the uncertainty of localization, we can use a
strategy like the one of the Gaussian YOLO approach [4, 5] that provides both classification
and localization uncertainties which we can then use with Brust et al. metrics.

Profil du candidat :
Student in computer science and/or machine learning and/or signal & image processing and/or applied statistics

Formation et compétences requises :
good programming skills in Python (Pytorch knowledge appreciated), knowledge of deep-learning for image analysis, and high interest to investigate machine learning methods.

Adresse d’emploi :
IRISA, UBS, Campus de Tohannic, 56000 Vannes

Document attaché : 202311201649_2024_IRISA-UBS_internship_Active learning and object detection.pdf

Stage M2 – Robust Multi-Task Learning from Multiple Remote Sensing Datasets
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRISA/UBS
Durée : 6 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2024-04-01

Contexte :
Detailed topic at: http://www-obelix.irisa.fr/files/2023/11/2023_master_topic_MTL.pdf

In recent years, deep neural networks have been successfully adopted in almost every application
domains of computer vision, including remote sensing for earth observation. The vast number
of remote sensing images captured from frequent satellite passes or aerial acquisition, however,
are not readily usable to train deep networks developed for generic vision problems due to the
lack of task-specific annotations and possible domain gaps.
On the other hand, the individual development efforts of various research groups for their
particular problems result in cluttered annotations and modalities: each dataset is typically
annotated for a few tasks while many tasks may be related to one another and could be jointly
learned to leverage complementary information and improve their performance. Coupling solving
different but related tasks, or well-known in the ML community as multi-task learning, has also
gained increasing attention in the remote sensing community. As multi-task learning aims to
predict different targets from the same inputs, it typically requires annotations of all the target
tasks for each input example to learn the interrelationship at the shared encoder by optimizing
all tasks at the same time.
Obtaining extra annotations to maintain multi-task datasets, however, add extra burden
to the development process. Recently, it has been shown in the vision community that that
multi-task learning could be beneficial even when the tasks are partially annotated [2]. Training
a network for multiple task while the training examples are annotated for a single task can
improve the performance of both tasks. Such discovery could be of interest to explore for the
benefit of remote sensing community.

Sujet :
This project is aimed to research the combination of different datasets annotated for different
tasks which may follow different statistical distributions to benefit and improve performance of
one another. To that end, we will focus on the object detection, i.e. bounding boxes prediction,
and semantic segmentation tasks, which are closely related yet not trivial to combine due to differences in spatial structure and information granularity: object detection predicts bounding-box
coordinates at object instance level while semantic segmentation provides per-pixel predictions
of category including amorphous regions. A general scheme is shown in Figure 1. Another
challenge of the project is to bridge possible domain gaps between the participating datasets
with possible approaches including generative models (GANs, diffusion models, etc.)

Profil du candidat :
Student in computer science and/or machine learning and/or signal & image processing;

Formation et compétences requises :
Python programming and familiarity with deep learning framework (Pytorch/Tensorflow);

Adresse d’emploi :
IRISA (UMR 6074) is located in the UBS (Université Bretagne Sud), campus de Tohannic, Vannes 56000, France.

Document attaché : 202311201646_2023_master_topic_MTL.pdf

Traitements de données hétérogènes pour la prédiction de conditions de précipitation favorables aux déclenchements d’avalanches: application aux massifs alpins savoyards
Apr 1 – Apr 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4-5 mois
Contact : faiza.loukil@univ-smb.fr
Date limite de publication : 2024-04-01

Contexte :
Depuis plusieurs années, des travaux sont menés au LISTIC expérimentant des méthodes d’analyse de données et proposant des outils (applications mobiles) dans l’objectif d’estimer le risque d’avalanche lors de sorties en ski alpinisme. Une sous partie de ces travaux concerne l’analyse de données météorologiques
précipitations, vent) avec pour objectif l’identification et l’étude de corrélations entre des phénomènes météorologiques, la situation géographique du lieu (massif montagneux) et le déclenchement d’avalanches.

Sujet :
Objectif du stage :
L’objectif du stage est de poursuivre ces travaux en utilisant des méthodes d’analyse de données et d’IA. En partant des données de précipitation de certaines stations météo dans les massifs alpins savoyards, des données temporelles (jour, heure) et de l’historique des avalanches disponibles, peut-on déterminer (prédire) les conditions (météo) qu’il va y avoir sur d’autres stations dans un certain périmètre géographique ?
Dans un second temps, le travail portera sur la détermination d’un seuil pluviométrique à partir duquel les avalanches sont davantage susceptibles de se produire ; actuellement, le seuil est déterminé par l’expert qui s’en remet à son expérience.
L’étude porte sur des données issues de différentes sources (stations météo, sites Web fournissant des données météo et données sur les avalanches).
Le travail consiste :
– à identifier et compléter les différentes sources de données qu’il est possible d’utiliser
– à mettre en place un processus systématique d’analyse de données (allant de la préparation des données à leur analyse)
– à sélectionner les méthodes d’analyse qui sont pertinentes et permettraient de “prédire” l’apparition de conditions météo (pluviométriques) favorables à de potentiels déclenchements
d’avalanches
– à proposer une chaîne automatisée de traitements, générique
et reproductible.

Profil du candidat :
Etudiant-e- en M2 ou 5ᵉ année École Ingénieur en Informatique.

Formation et compétences requises :
Compétences requises :
Méthodes d’analyse de données et IA, Apprentissage Machine,
Programmation Python. Un intérêt pour les activités de montage est attendu chez le/la candidat-e.

Adresse d’emploi :
LISTIC – POLYTECH Annecy-Chambéry
5 chemin de Bellevue – Annecy-le-Vieux, France.

Apr
15
Mon
2024
Exploitation de données multidimensionnelles longitudinales pour le monitoring avancé de bioprocédé
Apr 15 – Apr 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : StatSC Oniris VetAgroBio Nantes
Durée : 6 mois
Contact : veronique.cariou@oniris-nantes.fr
Date limite de publication : 2024-04-15

Contexte :
La digestion anaérobie, ou méthanisation, est un bioprocédé permettant de convertir la matière organique en biogaz, riche en
méthane. Ce bioprocédé est utilisé de plus en plus largement à l’échelle industrielle pour la valorisation des déchets organiques
en énergie renouvelable. Il repose sur l’activité d’une communauté microbienne complexe, dynamique, et sensible aux
variations des conditions opératoires. Cette sensibilité peut avoir pour conséquence une instabilité du procédé, et des
répercussions importantes pour les opérateurs. Afin d’optimiser la digestion anaérobie, une compréhension approfondie du
fonctionnement des communautés microbiennes, en particulier face à des stress, est essentielle. Les méthodologies haut-débit
omiques s’avèrent des outils particulièrement pertinents pour cela. La métagénomique, la métatranscriptomique, la
métabolomique et la métataxonomique permettent en effet de caractériser une communauté microbienne à différents
niveaux de son fonctionnement. Ces approches sont particulièrement intéressantes lorsqu’elles sont utilisées dans un contexte
longitudinal, c’est-à-dire en analysant une suite temporelle d’échantillons plutôt que des échantillons uniques. Ainsi, il est
possible de mieux saisir la dynamique de l’écosystème microbien suite à un changement de paramètre opératoire ou à un
stress, et de proposer des solutions pour limiter les répercussions sur le procédé.
Cependant la plupart des méthodes statistiques utilisées pour analyser les données omiques ne tiennent pas compte
explicitement de la temporalité, et traitent les différents points de temps comme des échantillons indépendants. Pour exploiter
pleinement le potentiel des données longitudinales et prendre en compte le lien temporel entre les échantillons, la création
de pipelines analytiques spécifiques est requise. Ces pipelines permettraient d’identifier les marqueurs biologiques associés à
l’évolution des conditions opératoires et à l’évolution des performances des procédés. On pourrait chercher des liens entre les
dynamiques temporelles des microorganismes et faire des hypothèses biologiques. On pourrait également envisager de
déconvoluer l’effet des différents facteurs sur les dynamiques microbiennes et par exemple distinguer la dynamique naturelle
de l’écosystème de l’effet spécifique d’un paramètre donné.

Sujet :
Dans ce contexte, l’objectif du stage sera de mettre en place un pipeline analytique spécifique pour la valorisation des données
omiques longitudinales issues de bioprocédés. Différents défis statistiques seront à résoudre (Kodikara et al. 2022). Des jeux
de données omiques (metataxonomique, métagénomique, métabolomique) issues d’échantillons prélevés dans des
bioréacteurs de laboratoire sont disponibles. Elles proviennent d’expériences réalisées dans l’unité PROSE pour évaluer les
conséquences de différents stress salins sur les performances de la digestion anaérobie. On pourra s’appuyer sur des travaux
préliminaires précédents (Bodein et al. 2019, Chapleur et al. 2021).
Bodein, A., Chapleur, O., Droit, A. and Lê Cao, K.-A. (2019) A Generic Multivariate Framework for the Integration of Microbiome Longitudinal Studies With
Other Data Types. Frontiers in Genetics 10(963).
Chapleur, O., Poirier, S., Guenne, A. and Lê Cao, K.-A. (2021) Time-course analysis of metabolomic and microbial responses in anaerobic digesters exposed to
ammonia. Chemosphere 283, 131309.
Kodikara, S., Ellul, S. and Lê Cao, K.-A. (2022) Statistical challenges in longitudinal microbiome data analysis. Briefings in Bioinformatics 23(4).

Profil du candidat :
– Connaissances solides en statistiques et en particulier en analyse de données,
– Aptitude à développer des scripts de traitement de données sous R,
– Capacités rédactionnelles et lecture d’articles scientifiques en anglais,
– Aptitudes au travail en équipe et à la communication.

Formation et compétences requises :
Master 2 en statistique / biostatistique

Adresse d’emploi :
Oniris VetAgroBio
Campus des Sciences de l’Ingénieur
44300 Nantes

Document attaché : 202403151506_DOMULO_Stage_M2_StatSC_PROSE_2024.pdf

Identification de communautés sur les réseaux sociaux
Apr 15 – Apr 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LORIA
Durée : 6 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2024-04-15

Contexte :
L’identification de communautés sur les réseaux sociaux est généralement effectuée selon deux types d’approches. La première consiste en l’exploitation de la similarité entre les individus du réseau social considéré en fonction de leurs caractéristiques (âge, sexe, activité sur un service donné, appréciations musicales, etc.). La seconde consiste en l’exploitation du graphe des liens sociaux explicites entre les individus (amis sur Facebook, suivis/suiveurs sur Deezer, etc.) afin d’en extraire des cliques ou des quasi-cliques.

L’une des problématiques de ce domaine de recherche est l’évaluation de la pertinence des communautés extraites. Une solution répandue consiste à vérifier d’une part que les individus au sein de chaque groupe sont fortement similaires (haute similarité intra-cluster), et d’autre part que la similarité entre les individus de groupes différents est faible (faible similarité inter-cluster). Le problème de cette solution est qu’un score élevé calculé selon ce type de critères ne correspond pas forcément à des communautés pertinentes, et que des communautés extraites très différentes peuvent avoir des scores très proches.

Une manière possible d’amoindrir ce problème serait de croiser deux points de vue différents, chacun correspondant à l’un des deux types d’approches de clustering mentionnées ci-dessus. En effet, ces deux types d’approches utilisant des informations très différentes en entrée, leurs sorties sont souvent très différentes elles aussi. Or, la meilleure version de chacune de ces approches devrait en principe produire des communautés aussi proches des communautés réelles du réseau social considéré que possible, et leurs sorties respectives devraient elles aussi être aussi similaires que possible. La pertinence d’un algorithme correspondant à l’un de ces deux types d’approches pourrait ainsi être évaluée en fonction de la distance entre sa sortie et celle d’un algorithme de l’autre type. L’idée est donc de rechercher une stratégie de dialogue qui, étant donnés deux algorithmes des deux types (similarité et liens sociaux), permette à ces algorithmes de converger vers des sorties aussi similaires que possible.

Sujet :
Objectifs
Les objectifs de ce stage porteront ainsi sur la détermination de stratégies de dialogue entre les deux types d’algorithmes et sur la possibilité d’obtenir une convergence. Un bon point de départ est l’article de Forestier et al. (2010) sur la résolution itérative de conflits entre clusterings.

Nous fournirons au stagiaire une base de données issue du site senscritique, qui permet à ses utilisateurs de rédiger des critiques de films, de livres, de musique, etc., d’attribuer des notes et de suivre d’autres utilisateurs.

Dans un premier temps, le stagiaire devra se familiariser avec d’une part les algorithmes classiques de clustering (K-means, DBscan, etc.) et d’autre part les algorithmes d’extraction de quasi-cliques (Quick, alpha-bêta-cliques, etc.). Des bibliothèques implémentant ces algorithmes seront exploitées dans un second temps pour observer les différences entre les communautés produites en fonction du type d’algorithme et des paramètres choisis (nombre de clusters, densité des clusters, connectivité minimale du voisinage, etc.). Enfin, des stratégies itératives permettant de faire dialoguer les deux types d’approches seront proposées, implémentées et expérimentées.

https://homepages.loria.fr/gbonnin/internships/detection-of-communities-fr.html

Profil du candidat :
Master, école d’ingénieur

Formation et compétences requises :
Compétence en Informatique, Science de donnée, Machine Learning,

Adresse d’emploi :
LORIA Nancy

Document attaché : 202401161044_Nancy_MasterThesis_Description___Identification_de_communautés__Copy_.pdf

Apr
16
Tue
2024
Stage M2 – Non-stationary and robust Reinforcement Learning methodologies for drones detection
Apr 16 – Apr 17 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire des signaux et syst`emes (L2S)
Durée : between 4 and 6 mont
Contact : stefano.fortunati@centralesupelec.fr
Date limite de publication : 2024-04-16

Contexte :
Reinforcement Learning (RL) methodologies are currently adopted in different context requiring sequential decision-making tasks under uncertainty. The RL paradigm is based on the perception-action cycle, characterized by the presence of an agent that senses and explores the unknown environment, tracks the evolution of the system state and intelligently adapts its behavior in order to fulfill a specific mission. This is accomplished through a sequence of actions aiming at optimizing a pre-assigned performance metric (reward). Despite of their wide applicability, classical RL algorithms are based on a cumbersome assumption: the stationarity of the environment, i.e. the statistical and physical characterization of the scenario, is assumed to be time-invariant. This assumption is clearly violated in surveillance application, where the position and the number of targets, along with the statistical characterization of the disturbance may change over time. To overcome this limitation and include the non-stationarity in the RL framework, both theoretical and application-oriented non-stationary approaches have been proposed recently in the RL literature. The application of these non-stationary-based line of research to robust radar detection problems has been recently investigated.

Sujet :
The aim of this internship is then to support and complete the ongoing research activity by testing and validating the non-stationary RL algorithms on several realistic scenarios where the radar acts as an agent that continuously senses the unknown environment (i.e., targets and disturbance) and consequently optimizes transmitted waveforms in order to maximize the probability of detection (PD) by focusing the energy in specific range-angle cells. Due to their crucial strategical interest, particular attention will be devoted to scenarios containing drones.

Profil du candidat :
Master 2 or equivalent in machine learning / applied mathematics / statistical signal processing or any related field.

Formation et compétences requises :
machine learning / applied mathematics / statistical signal processing / Matlab/ Python

Adresse d’emploi :
Laboratoire des signaux et systèmes (L2S), Bât IBM, Rue Alfred Kastler, 91400 Orsay.

Document attaché : 202311161045_Internship_proposal_IPSA.pdf

Apr
20
Sat
2024
Graphical Models for Learning Temporal Dependencies in Event Streams
Apr 20 – Apr 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N
Durée : 5 à 6 mois
Contact : julien.blanchard@univ-nantes.fr
Date limite de publication : 2024-04-20

Contexte :
With the digital transformation of our societies, more and more domains are interested in the analysis of series of symbolic events, such as Web user behavior analysis, healthcare and patient monitoring or fraud detection in financial transactions. Grasping the dynamics of these data streams requires revealing hidden structures behind them. To this end, Gunawardana and Meek have proposed a novel approach called Graphical Event Models (GEMs), probabilistic models capable of explicitly describing the temporal dependencies between events [1,2,3]. The PILGRIM software library developped by the DUKe reasearch team at the LS2N laboratory provides an original implementation of GEMs and of algorithms for learning them from logs – see [4,5,6] for examples of DUKe’s works on GEMs.

Sujet :
The goal of this internship is to study GEMs more deeply from both a theoretical and practical point of view, and to develop new methods for learning and using them. Several directions are possible:
– design and implement sampling and inference algorithms ;
– compare GEMs with process mining (log analysis approach [7]) : founding principles, model properties, experiments on data ;
– adapt explainable AI techniques to GEMs.

Possibility of extending into a PhD thesis if the internship is satisfactory.

[1] Asela Gunawardana and Chris Meek. Universal models of multivariate temporal point processes. In Proceedings of the 19th International Conference on Artificial Intelligence and Statistics, volume 51 of Proceedings of Machine Learning Research, pages 556–563, 09–11 May 2016. PMLR.

[2] Christopher Meek. Toward learning graphical and causal process models. In Proceedings of the UAI 2014 Conference on Causal Inference: Learning and Prediction – Volume 1274, CI’14, pages 43–48, 2014. CEUR-WS.org.

[3] Asela Gunawardana, Christopher Meek, and Puyang Xu. A model for temporal dependencies in event streams. In Proceedings of the 24th International Conference on Neural Information Processing Systems, NIPS’11, pages 1962–1970, 2011. Curran Associates Inc.

[4] Mathilde Monvoisin and Philippe Leray. Multi-task transfer learning for timescale graphical event models. In 15th European Conference on Symbolic and Quantitative Approaches to Reasoning with Uncertainty (ECSQARU 2019), 2019.

[5] Dimitri Antakly, Benoit Delahaye, and Philippe Leray. Graphical event model learning and verification for security assessment. In 32th International Conference on Industrial, Engineering, Other Applications of Applied Intelligent Systems (IEA/AIE 2019), Advances and Trends in Artificial Intelligence, pages 245–252, 2019.

[6] SPARS project : Sequential pattern analysis in robotic surgery. https://project.inria.fr/spars/

[7] Wil M. P. van der Aalst. Process Mining: Data Science in Action. Springer, Heidelberg,2 edition, 2016.

Profil du candidat :
– Autonomy, rigor, initiative, analytical and synthesis skills, sense of commitment, communication and interpersonal skills
– C++ programming

Send CV, motivation letter and academic results in PDF format to julien.blanchard@univ-nantes.fr

Formation et compétences requises :
Master’s degree with specialization in Data Science or Machine Learning
Master 2 ou dernière année d’école d’ingénieur

Adresse d’emploi :
Polytech Nantes, rue Christian Pauc, 44306 Nantes, France

Document attaché : 202311301055_Internship_GEM_2024.pdf

Apr
24
Wed
2024
Apprentissage profond pour l’accélération d’IRM
Apr 24 – Apr 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Insitut Fresnel
Durée : 5 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2024-04-24

Contexte :
L’IRM est l’une des principales modalités d’imagerie utilisées dans la pratique clinique aujourd’hui. L’une de ses particularités est de fournir un contraste des tissus mous. De plus, contrairement aux autres modalités d’imagerie, l’IRM permet d’obtenir des informations sur les processus pathologiques de manière non invasive. Cependant, le temps d’acquisition de l’IRM constitue un obstacle majeur dans de nombreuses applications. Un long temps d’acquisition conduit, par exemple, à l’inconfort du patient, à l’apparition d’artefacts de mouvement sur l’image et à l’augmentation du coût de l’examen.

Sujet :
Une manière d’accélérer les examens IRM est de réduire le nombre de points dans l’espace d’acquisition. Deux stratégies peuvent alors être employées pour restaurer la qualité des images : L’imagerie parallèle [1] et le « Compressed Sensing » (CS) [2]. L’imagerie parallèle utilise la diversité de l’information fournie par un système multi-capteurs. Le CS, quant à lui, est basé sur l’apriori que les images sont parcimonieuses dans certains domaines de transformation. Le CS fait alors appel à des algorithmes itératifs permettant de prendre en compte cette contrainte de parcimonie.
Récemment les méthodes d’apprentissage profond ont montré leur efficacité pour la reconstruction d’IRM [3]. Parmi ces approches, certaines ont été proposés pour imiter les algorithmes de compressed sensing [4]. Le but de ce stage est de recenser et de faire une étude comparative de ces méthodes.

[1] Griswold MA, Jakob PM, Heidemann RM, Nittka M, Jellus V, Wang J, Kiefer B, Haase A. Generalized autocalibrating partially parallel acquisitions (GRAPPA). Magn Reson Med. 2002.

[2] M. Lustig, David Donoho, J. M. Pauly, Sparse MRI: The application of compressed sensing for rapid MR imaging, Magn Reson Med. 2007.

[3] F. Knoll et al., Deep-Learning Methods for Parallel Magnetic Resonance Imaging Reconstruction: A Survey of the Current Approaches, Trends, and Issues, in IEEE Signal Processing Magazine, vol. 37, no. 1, pp. 128-140, Jan. 2020.

[4] Zeng, G., Guo, Y., Zhan, J. et al. A review on deep learning MRI reconstruction without fully sampled k-space. BMC Med Imaging 21,2021

Profil du candidat :
Etudiant en dernière année d’école d’ingénieur ou Master 2 en Traitement signal/image, sciences des données ou mathématiques appliqués.

Formation et compétences requises :
Le candidat devra obligatoirement être à l’aise avec le langage python et les bibliothèques numpy et pytorch. Cela signifie qu’une première expérience en apprentissage profond est nécessaire. Un goût pour la physique et les applications biomédicales est souhaité.

Adresse d’emploi :
Insitut Fresnel, 52 Av. Escadrille Normandie Niemen, 13013 Marseille

May
5
Sun
2024
Explicabilité des réseaux sur Graphes pour l’action thérapeutique de molécules
May 5 – May 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : GREYC ou LITIS
Durée : 6 mois
Contact : luc.brun@ensicaen.fr
Date limite de publication : 2024-05-05

Contexte :
L’apprentissage profond a révolutionné de nombreux domaines tels que l’analyse d’images ou le traitement automatique des langues. Pourtant, l’incapacité de ces systèmes à justifier leurs décisions est très vite apparue comme une limite forte.
Ce problème est d’autant plus saillant dans la prédiction de l’action thérapeutique d’une molécule où il n’est pas viable d’engager des moyens et du temps pour la synthèse / le test de molécules sur la simple base d’une prédiction par un réseau. Plus précisément, la capacité d’un réseau (en l’occurence sur graphe) à expliquer sa décision permet:

* de valider les prédictions avant d’engager des efforts et des moyens sur les synthèses d’une série moléculaire
* d’obtenir une intuition sur les propriétés physico-chimiques clés que doit posséder une molécule pour avoir une action biologique ciblée.

Le second point est également très intéressant car il ouvre des perspectives vers la conception de nouvelles molécules thérapeutiques.

Sujet :
Notre étude commencera par une étude des réseaux sur graphes (GNN) permettant de prédire les propriétés de nos jeu de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir de plusieurs représentations de graphes moléculaires.

Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,…. Nous espérons identifier à partir de cette étude des sous structures pertinentes pour les propriétés à prédire.

Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires “brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.

Ce sujet peut être considéré comme un formation pour une thèse de doctorat qui pourrait commencer à l’issue du stage.

Profil du candidat :
Nous recherchons des candidats de niveau Bac+5 avec de bonnes bases en apprentissage machine. Une capacité à travailler en équipe combinée à une curriosité pour les problèmes scientifiques et une certaine autonomies seraient des plus.

Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.

Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes ainsi que pytorch sera un plus.

Adresse d’emploi :
Le stage pourra se dérouler à Caen (au laboratoire GREYC) ou à Rouen (laboratoire LITIS).

Document attaché : 202401231248_theseCODAG.pdf

Grammatical Graph Neural Network
May 5 – May 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS
Durée : 5/6 mois
Contact : Sebastien.Adam@univ-rouen.fr
Date limite de publication : 2024-05-05

Contexte :
Les réseaux de neurones sur graphe (GNN) sont un champs d’étude en plein essor ces dernières années. Les Message Passing Neural Network (MPNN) tels que Graph Convolutional Network (GCN) et Graph Isomorphism Network (GIN) sont les plus utilisés des GNNs du fait de leur complexité linéaire. Cependant, il a été démontré que l’expressivité de ces modèles était limitée. En effet, en terme de séparabilité, ils sont moins expressifs que le test de Wesfeiler-Lemahn et en terme de comptage de sous-structures, il ne peuvent pas compter les triangles dans un graphe

Sujet :
Durant ce stage, vous explorerez une nouvelle approche, décrite dans cite{piquenot2023iclr}, basée sur les Context Free Grammar (CFG). Les CFG sont composées de règles que l’on peut sélectionner pour construire des couches de GNN. Un exemple de couche de GNN produite à partir d’une grammaire basée sur la séparabilité est visible sur la Figure ref{fig:gram}. Ce stage s’inscrit dans une démarche de recherche de performance d’un GNN. Nous chercherons dans un premier temps à développer un code permettant de produire une couche de GNN à partir de règles dans une CFG que l’on pourra choisir. Ce code permettra à l’utilisateur de tester pour une tâche donnée la pertinence des règles de la CFG. Dans un second temps, le stagiaire pourra mesurer les performances de GNNs produits à partir de différents ensembles de règles sur des datasets usuels de la littérature.

Profil du candidat :
Etudiant en dernière année de Master ou d’école d’ingénieur, en mathématiques appliquées, science des données ou intelligence artificielle.

Formation et compétences requises :
Bonnes connaissances du Machine Learning
Bonnes compétences en Python et Pytorch

Adresse d’emploi :
Laboratoire LITIS, UFR Sciences et Techniques, Avenue de l’Université, 76800 Saint Etienne du Rouvray

Document attaché : 202401191526_stage_M2_G2N2.pdf

Réseaux de neurones bayésiens pour la quantification de l’incertitude
May 5 – May 6 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut FEMTO-ST
Durée : 6 mois.
Contact : zeina.almasry@femto-st.fr
Date limite de publication : 2024-05-05

Contexte :
Les réseaux de neurones (RN) sont largement utilisés dans plusieurs domaines. Toutefois, les résultats fournis par un algorithme basé sur les RN intègrent des incertitudes liées aux données et au modèle. Il est important de quantifier ces incertitudes, pour fournir une information supplémentaire afin d’assister la décision finale. Par exemple, en industrie lorsqu’une anomalie est détectée avec un faible niveau de confiance, une vérification supplémentaire à l’aide d’une autre source d’information est ajoutée (image, intervention humaine…) avant de planifier des actions de réparation. Un autre exemple en médical, la mesure de l’incertitude permet aux praticiens de prendre des décisions adaptées pour la prise en charge des patientes comme par exemple explorer d’autres tests. Plus généralement, une quantification fiable de l’incertitude de la prédiction permet de faire confiance ou non aux prévisions pour des entrées interpolant/extrapolant les situations vues dans l’ensemble d’entraînement. Plusieurs approches sont proposées pour la quantification d’incertitude, certaines sont dédiées aux RN.
Les réseaux de neurones bayésiens (RNB) fournissent un outil mathématique pour mesurer l’incertitude du modèle. L’idée est de remplacer les valeurs déterministes des paramètres du RN (poids et biais) par des distributions de probabilité avec un a priori gaussien, pour ensuite apprendre les paramètres de ces distributions. Une fois entraîné, les sorties du RN peuvent être évaluées plusieurs fois pour obtenir une distribution empirique des prédictions. Plusieurs méthodes ont été proposées pour les RNB basées, par exemple, sur l’approximation de Laplace ou des méthodes de Monte Carlo Hamiltonien. Dans le cadre de ce projet, l’objectif est de développer une méthode de quantification basée sur les RNB. La méthode sera appliquée pour un problème de classification et régression sur des données synthétiques.

Sujet :
Objectifs du stage :
— Etat de l’art sur les RNB.
— Développer un algorithme basé sur les RNB.
— Optimisation de l’architecture du réseau ainsi que les différents hyperparamètres.
— Appliquer l’algorithme pour la quantification l’incertitude pour la régression et la
classification et évaluation les performances.
— Comparer l’approche proposée avec d’autres techniques de la littérature dropout, ensemble learning.

Profil du candidat :
Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :
mathématiques-appliquées, apprentissage profond, programmation Python.

Adresse d’emploi :
26 Rue de l’Épitaphe, 25000 Besançon.

Document attaché : 202401221232_sujet_stage.pdf

May
31
Fri
2024
Stage M2 – Robust joint detection-estimation methodologies for massive radio telescopes
May 31 – Jun 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire des signaux et syst`emes (L2S)
Durée : between 4 and 6 mont
Contact : stefano.fortunati@centralesupelec.fr
Date limite de publication : 2024-05-31

Contexte :
One of the key features characterizing the new generation of radio telescopes is the large number of their antenna elements. Built in 2010, the Low-Frequency Array (LOFAR) is currently the largest radio telescope in operation with 100000 antenna dipoles distributed across several European countries. Furthermore, the upcoming Square-Kilometer Array (SKA) will be made up of more than 130000 antennas. Such a large number of antennas will make it possible to acquire increasingly accurate and detailed images of the celestial vault. Such images will form the basis for promising developments in astrophysics and cosmology in the coming years.
However, as in any other remote sensing system, the signal collected by a radio telescope is affected by different sources of disturbance that will degrade the quality of the collected image. Consequently, to take full advantage of the potential of the new radio telescopes, one must first take the disturbance into account. In general, this disturbance is characterized as a zero-mean Gaussian random process with possibly unknown correlation structure.
Then, the crucial question is: is it possible to derive robust imaging algorithms, without any assumption on the specific form of the noise distribution, and that still remain accurate? If yes, which is the price to pay?

Sujet :
This internship is part of the“SIDEREAL” project. The objectives
of the internship are the following:
1. Building upon the existing works, we will adapt the array signal model to the context of radio telescopes. Particular attention will be devoted to the disturbance model to be used in astronomical data analysis and on its statistical description.
2. After these preliminary investigations, the project will focus on the development of original image reconstruction algorithms for radio astronomy by exploiting the massive number of antenna elements available in modern radio telescopes. Their performance and statistical properties will be assessed by means of simulated data.

Profil du candidat :
Master 2 or equivalent in machine learning / statistical signal processing or any related field

Formation et compétences requises :
Statistical signal processing, estimation theory, programming skills in Matlab or Python.

Adresse d’emploi :
Laboratoire des signaux et systèmes (L2S), Bât. IBM, Rue Alfred Kastler, 91400 Orsay.

Document attaché : 202311021052_Internship_proposal_SF_LB.pdf