Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Mar
1
Fri
2024
Imputation of missing data in a domain adaptation context
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA
Durée : 5 mois
Contact : laetitia.chapel@irisa.fr
Date limite de publication : 2024-03-01

Contexte :
AI methodologies typically depend on extensive datasets that may be tainted by noise, missing values, or can be collected in heterogeneous yet related environments. Data with missing values are ubiquitous in many applications; they can be due to equipment failure, incomplete information collection (e.g. clouds in the remote sensing case) or inadequate data entry for instance. Nevertheless, conventional
learning algorithms often assume that the data are complete and independent and identically distributed, that is to say they have been drawn randomly from a single distribution.
Data imputation aim at substituting missing data by plausible values, e.g. by filling them by the value of the nearest sample or by imputing with some relevant statistics. The imputation can have a high
impact on performances of the learning task at hand, leading to biased results or degraded performances. Most of the imputation methods rely on some (completely) missing at random assumption and with no pattern between the missingness of the data and any values. More challenging scenario deal with random block missing or blackout missing, in which blocks of information are missing and where the
structure of block-wise missing data should be further taken into consideration.

In practice, the data are often collected on different yet related domains, offering the potential to enhance the generalization capability of the learning algorithm. For instance, in Earth observation, and especially for land cover mapping applications, the differences in weather, soil conditions or farmer practices between study sites are known to induce temporal shifts that can be corrected to enhance task performance. For predicting crop yield, the variability under changing climates and severe weather events have to be taken into account when considering data from the past to predict the evolution of the yield.
Domain adaptation [6, 7] aims to transfer knowledge from one domain to another and has demonstrated significant enhancements in classification or clustering tasks when domain shifts are carefully managed.

Sujet :
The aim of the internship is to study the potential of data imputation method within the context of domain adaptation. Existing approaches mostly tackle missing values within an inferential framework, wherein they are replaced with values derived from dataset statistics, relying on robust parametric assumptions. However, when a shift exists between the datasets, this strategy becomes inadequate. Instead, we propose to address imputation and learning tasks concurrently, introducing the additional complexity that the data may originate from different domains.
The research directions will explore optimal transport-based solutions, known for their success in
imputing missing values and aligning distributions in a domain adaptation context, especially
when dealing with temporal data.

Profil du candidat :
Master student
== peut éventuellement être poursuivi par une thèse ==

Formation et compétences requises :
Applicants are expected to be graduated in mathematics/statistics and in computer science and/or machine learning and/or signal & image processing, and show an excellent academic profile.
Beyond, good programming skills are mandatory.

Adresse d’emploi :
Laboratoire IRISA, Rennes

Document attaché : 202401180900_Missing_data_and_DA___internship-2.pdf

Knowledge graph completion leveraging pre-trained language models and GNNs
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ISID and Vertigo teams at Centre d’études et de re
Durée : 6 mois
Contact : nada.mimouni@cnam.fr
Date limite de publication : 2024-03-01

Contexte :
In the field of cultural heritage, and painting in particular, the management of large collections has become increasingly complex over the years. Heritage data, including aspects such as names, creators, representations and images, have posed significant challenges for curators and researchers alike.
Semantic knowledge graphs have emerged as a promising approach to representing cultural heritage datasets. They provide a structured framework for integrating heterogeneous data sources, enabling comprehensive exploration and reasoning about cultural artworks and
their relationships. However, existing knowledge graphs are far from complete in this domain, and creating and populating semantic models for heritage data is a resourceintensive undertaking, requiring substantial human expertise. Knowledge graph completion (KGC) approaches have been proposed to enhance knowledge graphs by completing their missing connections. In this work, we aim to extend knowledge-graph completion techniques to this specific data domain, by leveraging both pre-trained language models and Graph Neural Networks (GNNs) to facilitate the efficient creation and extension of
knowledge graphs.

Sujet :
The work will be organized as follows:
– Related work: analysis of existing approaches on the use of pre-trained language models and GNNs to improve knowledge graph completion (KGC).
– Data: collection and creation of benchmarks to evaluate the models.
– Methodology: definition of a methodology for data preparation and knowledge graph enrichment.
– Interpretation and evaluation: carry out a quantitative assessment of the proposed methods for KGC, based on the created benchmarks, in order to establish their effectiveness in this context. An effort towards explaining these results should be made.

Profil du candidat :
A master degree in one or more of the following areas: machine learning, natural language processing, symbolic AI, semantic web.

Formation et compétences requises :
As a minimum requirement, the successful candidate should have:
• A master degree in one or more of the following areas: machine learning, natural language processing, symbolic AI, semantic web.
• Excellent programming skills (Java or Python)
• Excellent command of English
• Experience with machine learning and graphs

Adresse d’emploi :
Conservatoire National des Arts et Métiers Paris, 2 rue Conté, 75003

Document attaché : 202402231005_Internship_KGC_CNAM-list.pdf

Optimal transport for novelty and out-of-distribution detection
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA / LITIS
Durée : 5 mois
Contact : laetitia.chapel@irisa.fr
Date limite de publication : 2024-03-01

Contexte :
For a decision-making system trained on data to be reliable, it must possess the ability to adjust its decisions based on di erences between the distribution ptrain(Xtrain; Ytrain) of training samples and that of test samples ptest(Xtest; Ytest). In case of distribution shift, deep-based-approaches may be overcon dent and tend to treat the given inputs as one of the previously seen situations leading to mislabelling. This underscores the challenges in detecting out-of-distribution (OOD) samples, where the test point x0 is marginally sampled from ptest(x0) = ptrain(x0), or recognizing that point x0 belongs to an unseen class (involving a new type of object in the scenes for instance). Additionally, given the multimodal nature of inputs and variations in sensor availability, samples may not be embedded into the
same space, posing further challenges related to incomparable spaces. Our approach envisions employing optimal transport theory to develop algorithms addressing out-of-distribution detection, aiming for a
robust optimal transport framework. Optimal transport (OT) has become a potent tool for computing distances (a.k.a. Wasserstein or
earth mover’s distances) between data distributions, facilitated by new computational schemes that make transport computations tractable.

Sujet :
The primary goal of the internship is to investigate the behavior of optimal transport (OT) in scenarios where distributions are tainted by outliers or out-of-distribution (OOD) samples and to formulate a robust OT framework. Existing studies have utilized OT in such contexts, employing a straightforward rule that identifies points significantly distant from the other distribution as outliers. While approaches
like the regularization path or OT profiles have been effective in selecting optimal regularization parameters, particularly using techniques like the elbow rule, they may fall short when dealing with points
that are OOD but situated “between” the two distributions.
Conversely, Monge-Kantorovich (MK) quantiles and ranks present an alternative. This method replaces the traditional “left-to-right” ordering of samples with a “center-outward” approach applicable in Rd.

The internship’s specific objectives include: i) examining how the placement of outliers influences the OT solution, ii) developing a robust OT formulation with statistical guarantees, leveraging MK quantiles,
and iii) implementing the solution in the POT toolbox.
Furthermore, the internship will explore the integration of partial-OT-based loss in deep learning approaches as a means to evaluate the proposed methods. Ensuring scalability will be a crucial aspect
of the method’s development. Additionally, investigations into adapting the approach for incomparable spaces will be undertaken.

Profil du candidat :
Master student

Formation et compétences requises :
Applicants are expected to be graduated in applied mathematics/statistics and/or
machine learning and show an excellent academic profile. Beyond, good programming skills are expected.

Adresse d’emploi :
Depending on the candidate:
– LITIS in Rouen
– IRISA in Rennes

Document attaché : 202401180908_OT for OOD – madics.pdf

Seismic Waves to Marine Pulses: A Cura6on Pipeline for Building an Earth Sciences and Biodiversity Data Lake in the Portuguese Carabela Jellyfish and Seismology Studies
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIRIS et ERIC
Durée : 4-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2024-03-01

Contexte :
Projet international LETITIA (Lac de donnéEs, expérimenTation, vIe, Terre, curatIon, explorAtion)

HOME

Sujet :
The project focuses on designing and creating a data lake for gathering and integrating (meta)data on data-driven experiments in life and earth sciences.

The integration and fusion of data and metadata in the fields of life and earth sciences calls for
the proposal of data and knowledge representations to structure the diverse information
collected and produced for/within an experimental framework. Data lakes appear to be a
relevant solution for managing and making available this diversity of data. Metadata models
need to be devised to connect the data, and appropriate organisation and exploration
mechanisms need to be devised that are relevant in the context of life and earth sciences.
The extraction of value through data-driven experiments in the life and earth sciences is
determined by two main elements. (1) First, the maintenance of metadata collecting the
conditions under which experiments are performed (quantitative perspective) to preserve the
memory of the experimental process of knowledge production and to enable understanding
and reproducibility. (2) Secondly, an open science perspective that can go beyond the sharing
of data and must consider the sharing of know-how, decision-making, elements of expertise,
project management and the people within projects who define the context in which
experiments are carried out (qualitative perspective).

Profil du candidat :
MSc in Computer/Data Science

Formation et compétences requises :
databases (data models, querying, distributed databases –
preferable), data processing techniques (preferable), good programming skills

Adresse d’emploi :
Genoveva Vargas-Solar, CNRS, LIRIS
genoveva.vargas-solar@cnrs.fr
Jérôme Darmont, U. Lumière Lyon 2, ERIC
jerome.darmont@univ-lyon2.fr

Document attaché : 202402221539_letitia-internship-position.pdf

Mar
4
Mon
2024
Génération de dashboards interactifs pour les motifs impactant la survie
Mar 4 – Mar 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Equipe BdTln du LIFAT
Durée : 4 à 6 mois
Contact : youssef.oubelmouh@etu.univ-tours.fr
Date limite de publication : 2024-03-04

Contexte :
L’attrition des employés est un problème croissant dans les entreprises technologiques à l’échelle mondiale, et plus particulièrement au sein des entreprises informatiques/cabinets de conseil. La compréhension des tendances liées à l’attrition des employés est cruciale pour le développement de stratégies efficaces de gestion des ressources humaines. Cependant, les travaux récents dans le domaine de l’analyse de données ne prennent pas en compte la notion du temps et des durées dans l’étude de l’attrition des employés [1]. Pour mieux saisir l’aspect temporel de l’attrition, une méthode a été développée pour combiner les techniques d’exploration de motifs séquentiels dans les séquences d’événements avec l’analyse de survie [2]. Cette approche permet d’extraire les motifs qui modifient la courbe de survie par rapport à un contexte donné. Par exemple, le motif a une survie très différente de , indiquant ainsi que est un motif ayant un impact sur la survie de . Afin d’exploiter les motifs extraits caractérisant la survie, les utilisateurs RH ont besoin d’un outil pour visualiser et explorer cette collection de motifs. Cet outil devrait permettre de projeter l’impact des motifs en s’appuyant sur des indicateurs clés de performance pour faciliter la prise de décision.

Sujet :
L’objectif de ce stage est donc de développer des dashboards interactifs permettant une visualisation approfondie des motifs impactant la survie, facilitant ainsi la prise de décision en matière de rétention des employés pour les professionnels des ressources humaines.

Profil du candidat :
Cursus en informatique et science des données avec un goût pour la visualisation.

Formation et compétences requises :
Compétences requises : Bonnes connaissances en JavaScript, CSS, HTML. Connaissances en traitement de données, expérience souhaité avec des outils de visualisation de données, compétences en programmation (Python) appréciées.
Connaissance souhaitées : React, Chart.JS et/ou D3.JS

Adresse d’emploi :
3 place Jean Jaurès, 41000 blois

Document attaché : 202402011025_stage_Master2_dashboards_retention_employés.pdf

Machine learning for time series prediction in environmental sciences
Mar 4 – Mar 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT EA 6300, Université de Tours
Durée : 4 to 6 months
Contact : nicolas.ragot@univ-tours.fr
Date limite de publication : 2024-03-04

Contexte :
This internship takes place in the JUNON Project (directed by the BRGM) which goal is to elaborate digital services through large scale digital twins in order to improve the monitoring, understanding and prediction of environmental resources evolution and phenomena, for a better management of natural resources.

Sujet :
The goal of this internship will be to analize data and to build prediction models about pollutants and greenhouse gases using meteorological data as well as measurements of pollutants observed in the past (other factors could also be included).

see: http://www.rfai.lifat.univ-tours.fr/internship-position-master-2-in-artificial-intelligence-machine-learning-data-analysis-for-time-series/

Profil du candidat :
Academic level equivalent to a Master 2 in progress or Engineer in its 5th year, in computer science

Formation et compétences requises :
– a good experience in data analysis and machine learning (in python) is required
– some knowledge and experiences in deep learning and associated tools will be highly considered
– some knowledge in time series analysis and forecasting will be highly considered
– curiosity and ability to communicate and share your progress and to make written reports
– ability to propose solutions
– autonomy and good organization skills

Adresse d’emploi :
LIFAT, 64 Avenue Jean Portalis, 37200 TOURS

Document attaché : 202402011448_Fiche de poste stage Junon.pdf

Vers une prédiction des régimes d’écoulements gaz-liquide par l’intelligence artificielle
Mar 4 – Mar 5 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : Laboratoire de Génie Chimique
Durée : 6
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2024-03-04

Contexte :
La distribution des fluides est un enjeu majeur des réacteurs gaz-liquide, notamment pour les
réacteurs de structures fines et de type monolithe. En effet, dans ces réacteurs, composés de
canaux millimétriques parallèles, aucune redistribution au cœur du réacteur ne peut
contrebalancer les défauts d’injection pouvant impacter la conversion et la sélectivité des
réactions en présence. Pour faire face à ce problème, des distributeurs innovants, obtenus par
impression 3D, ont été brevetés au Laboratoire de Génie Chimique, mais leur validation
nécessite de pouvoir caractériser les écoulements dans un grand nombre de canaux
simultanément. Un capteur résistif innovant a été mis au point au LGC pour caractériser en
temps réel, sans visualisation, des écoulements gaz-liquide dans un grand nombre de canaux
millimétriques parallèles. Un traitement de signal spécifique a été développé, mais il nécessite de
connaître a priori le régime d’écoulement dans chaque canal interrogé, ce qui s’avère complexe
avec les méthodes de traitement du signal classique. Par ailleurs, les signaux de tension délivrés
par le capteur regorgent d’informations non encore exploitées, comme l’amplitude du signal ou
des variations périodiques secondaires du signal, qui, mises en perspective, peuvent permettre
d’identifier le régime d’écoulement. La caractérisation des régimes d’écoulement peut être
abordée par les modèles d’apprentissage automatique (machine learning) en mettant en œuvre les
méthodes de classification. Ces modèles, de plus en plus utilisés dans la littérature de spécialité, visent à identifier qualitativement les régimes d’écoulement et/ou quantitativement les débits ou
les taux de vide, à partir de données caractéristiques de l’écoulement [1] ou de données indirectes
issues des capteurs [2], et ce dans différents types de réacteurs gaz-liquide (voir la revue de Yann
et al. 2018 [3]). Face à ces possibilités, ce stage s’inscrit dans le cadre de l’utilisation des outils
de l’intelligence artificielle pour la caractérisation des écoulements confinés à bulles

Sujet :
Ce stage vise à développer des modèles utilisant l’intelligence artificielle pour compléter et
améliorer le traitement des informations issues d’un capteur résistif développé au LGC, afin
d’étendre sa gamme d’application et d’ainsi caractériser au mieux les écoulements et la
maldistribution dans des réacteurs structurés. Le stage s’inscrit dans le volet de modélisation par
les modèles d’apprentissage automatique et visera à identifier les critères d’entrée
(caractéristiques du signal à exploiter) et à évaluer les performances de différents modèles sur les
données recueillies. Ce stage vise à :
● identifier les paramètres d’entrée pertinents (caractéristiques du signal à extraire, ou
signal temporel complet) pour alimenter les modèle de l’apprentissage statistique. Ceci
nécessite de :
○ collaborer avec un autre stage relatif au volet collecte des données ;
○ tester les outils statistiques classiques permettant de hiérarchiser les variables
d’entrée selon leur importance.
● mettre en œuvre les modèle d’apprentissage pour la classification des régimes
d’écoulement.
● Prédire les régimes d’écoulement, le taux de vide et/ou la vitesse de bulles

ÉTAPES DU TRAVAIL ATTENDU
1. Synthèse bibliographique des publications abordant l’identification et la caractérisation
des régimes d’écoulement,
2. Élaboration d’une stratégie d’analyse innovante des données issues des capteurs pour
les ’écoulements gaz-liquide
3. Mise en œuvre des modèles de données (apprentissage statistique, …)
4. Rédaction d’un rapport récapitulatif

Profil du candidat :
Niveau master 1 ou 2 (2ᵉ année ou 3ᵉ année en cycle d’ingénieur)
● Connaissances approfondies en apprentissage automatique (Réseaux de Neurones, …)
avec une bonne maîtrise de la programmation (i.e. Python, R et/ou Matlab),
● Bases en science physique sont très appréciées.
● Maîtrise de l’anglais, motivation, persévérance, curiosité.

Formation et compétences requises :
Statistique appliquée,
Informatique
Traitement du signal

Adresse d’emploi :
Le stage se déroulera au Laboratoire de Génie Chimique (LGC) situé à TOULOUSE (31)
(https://lgc.cnrs.fr), pendant 6 mois, et sur un rythme hebdomadaire de 35h/semaine. La
gratification est de 4,35€ par heure de présence active. Le travail de stage sera directement
encadré par le LGC de Toulouse, et fera l’objet de réunions d’avancement hebdomadaires.

Document attaché : 202402011131_Offre_stage_projet_ETI_2024_vf.pdf

Mar
6
Wed
2024
Réalisation d’un benchmark des méthodes de détection d’armées de robots dans les réseaux sociaux
Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique de Bourgogne (LIB)
Durée : 5-6 mois
Contact : eric.leclercq@u-bourgogne.fr
Date limite de publication : 2024-03-06

Contexte :
Dans les réseaux sociaux, la manipulation de l’information est une problématique pouvant avoir des conséquences néfastes importantes. Les stratégies de diffusion d’informations manipulées sont complexes, et peuvent avoir recours à la mise en oeuvre d’armées de robots ayant différents rôles dans le réseau. Par exemple, un groupe de robots peut avoir pour tâche de spammer certains messages ou mots clés afin de manipuler les tendances et de gagner une visibilité importante en peu de temps, d’autres robots peuvent avoir un profil évolué ainsi qu’une activité quotidienne, leur permettant de passer pour des utilisateurs légitimes et de donner plus de poids aux messages qu’ils pourraient diffuser dans certaines communautés. Toutefois, la détection de ces armées de robots est complexe, et l’évolution rapide de leur comportement et de leur organisation restreint les types d’algorithmes utilisables.

Le projet ANR Beelzebot est un projet interdisciplinaire regroupant des chercheur en informatique, en sciences de la communication et du langage. Il a pour objectif de définir des mécanismes pour détecter les armées de robots sur Twitter en se basant sur des méthodes non-supervisées, ainsi qu’à caractériser les activités de ces armées.

Sujet :
L’objectif du stage, dans le cadre du projet ANR Beelzebot, est de réaliser un textit{benchmark} des techniques de détection de robots existantes, afin d’en révéler les limites et de voir leur capacité à prendre en compte à différents jeux de données.

En plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter sont à disposition, comme par exemple les discussions autour des élections présidentielles françaises de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’UBFC.

Plus précisément, le stage consiste à réaliser un état de l’art pour identifier les méthodes de détection de robots exploitables (par exemple lorsque le code est déjà disponible), puis à établir un protocole expérimental permettant de comparer ces méthodes entre elles et enfin à réaliser les expériences correspondantes et mesurer les critères définis dans le protocole. Une attention particulière sera portée sur la reproductibilité de l’implémentation du protocole qui devra permettre de prendre en compte rapidement de nouvelles méthodes de détection ou de nouveaux jeux de données.

Ce travail constitue un travail préparatoire, qui pourra être poursuivi au cours d’une thèse financée par la projet ANR.

Profil du candidat :
étudiant en Master 2 avec spécialité informatique

Formation et compétences requises :
Formation Scientifique avec une solide base en informatique
Curiosité et rigueur scientifique
Compétences en gestion de données et programmation

Adresse d’emploi :
Université de Bourgogne
Laboratoire d’Informatique de Bourgogne
UFR Sciences et Techniques
9, Avenue Alain Savary
21078 Dijon

Document attaché : 202401300744_SujetStageBeelzebot.pdf

STAGE M2 : Gestion de données de l’électromobilité
Mar 6 – Mar 7 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UHA – IRIMAS
Durée : 6 mois
Contact : laurent.moalic@uha.fr
Date limite de publication : 2024-03-06

Contexte :
Le développement de la mobilité électrique est plus que jamais au cœur des orientations stratégiques à travers le monde. Cette rupture avec les mobilités thermiques, pour être efficace et avoir un impact significatif sur l’environnement notamment, doit s’accompagner de la mise en place d’infrastructures de recharge à grande échelle. Il est donc primordial que l’implantation des bornes de recharge soit pertinente, en termes de positionnement des infrastructures et de dimensionnement.

Sujet :
L’objet de ce stage est de fournir une première étape vers un déploiement de bornes de recharge optimal.
Trois thèmes feront l’objet de ce stage :
• Il s’agira dans un premier temps d’identifier l’ensemble des données géographiques et socio-économiques susceptibles d’impacter le fonctionnement d’un réseau de bornes de recharge.
• Dans un deuxième temps, ce stage fera ressortir les corrélations existant entre les données caractérisant le territoire et le fonctionnement réel d’un réseau de recharge.
• Finalement, la mise en œuvre d’un algorithme d’apprentissage automatique visera à prédire le fonctionnement d’une borne de recharge d’après son implantation.

Profil du candidat :
• Le candidat doit être en master M2 ou cycle ingénieur en informatique ou en mathématiques appliquées.
• Des compétences en Systèmes d’Information Géographique (SIG) ou dans le domaine de la mobilité serait un plus.

Formation et compétences requises :
M2 ou cycle Ingénieur

Adresse d’emploi :
Mulhouse

Document attaché : 202401311007_SujetStageMaster1.pdf

Mar
31
Sun
2024
Automatic classification of plasmodium parasite species and stages of development from stained thin blood smears using machine learning
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre d’épidémiologie et de santé publique des a
Durée : 4-6 mois
Contact : muriel.visani@univ-lr.fr
Date limite de publication : 2024-03-31

Contexte :
Voir le fichier ci-joint

Sujet :
Voir le fichier ci-joint

Profil du candidat :
Voir le fichier ci-joint

Formation et compétences requises :
Voir le fichier ci-joint

Adresse d’emploi :
Centre d’épidémiologie et de santé publique des armées (CESPA), Marseille.

Document attaché : 202312131521_InternshipBloodSmear-CESPA-final_compressed.pdf

Caractérisation de traits histocytologiques complexes par Deep Learning
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2024-03-31

Contexte :
Ce stage s’inscrit dans le contexte du projet IRC Agropolis “Upland rice”. Pour les plantes cultivées en conditions d’immersion (riz), le fonctionnement des parties inondées requiert la présence d’aérenchymes pour la circulation des gaz. Cependant la présence d’aérenchymes réduit les capacités de transport de l’eau. Le motif anatomique final de la racine résulte d’un compromis qui varie avec les variétés et les environnements de culture. Afin de mieux comprendre les déterminants de ce compromis, plusieurs campagnes d’observation ont été menées sur des panels de plantes. Des milliers de coupes de racines ont été observées en microscopie à épi-fluorescence (exemple : image en en-tête).
Sur ces coupes, les aérenchymes se distinguent des cellules par une géométrie atypique, avec des parois irrégulières, et un allongement prononcé dans le sens radial. Des premières analyses de ces structures ont été menées à l’aide d’un outil d’analyse semi-automatique, qui réalise la segmentation des cellules et laisse l’identification des structures complexes à la charge des experts biologistes. Le temps de traitement est très long, ce qui empêche de mener à bien l’étude des données disponibles (plusieurs milliers images) et de construire des conclusions d’intérêt agronomique.

Sujet :
L’objectif du stage est de développer un pipeline d’analyse d’images automatique pour la segmentation des aérenchymes et l’estimation de traits complexes : ratio aérenchymes/cortex, ratio stele/cortex, identification des assises cellulaires et des rayons. Dans ce but, le stagiaire aura la responsabilité de réaliser des expérimentations avec des outils de l’état de l’art (modèles dédiés plante et modèles “fondation”), et de concevoir une solution technique open-source qui sera mise à disposition via un démonstrateur.

Profil du candidat :
Master 2 ou école d’ingénieur. Ce stage est une opportunité accessible à des étudiants(e)s provenant d’une école en informatique, en modélisation mathématique, en analyse d’images, formés en deep learning. Le goût pour le travail en équipe à l’interface entre plusieurs disciplines (maths-info, microscopie, agro) sera nécessaire. Un intérêt scientifique pour l’intelligence artificielle appliquée à l’analyse d’images serait un plus.

Formation et compétences requises :
Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue). Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée, ainsi qu’une expérience avec une bibliothèque de Deep Learning (PyTorch, Keras, TensorFlow, …) et de Machine learning (Scikit-learn).

Adresse d’emploi :
Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez. La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi.

Document attaché : 202312022235_Offre de stage M2 – Deep aerenchymes.pdf

Classification automatique des domaines de connaissance d’entrées lexicographiques
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ERIC (visites au LIRIS)
Durée : 4 à 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2024-03-31

Contexte :
Ce stage s’inscrit dans un projet interdisciplinaire dont l’objectif consiste à conduire des études exploratoires en traitement automatique de données lexicographiques extraites du Dictionnaire Universel François- Latin de Trévoux (DUFLT). Dans ce contexte, le travail de stage s’intéressera à l’expérimentation de méthodes d’apprentissage automatique pour l’entraînement de modèles de classification afin d’identifier automatiquement les domaines de connaissance dans les articles du DUFLT. De manière générale, nous souhaitons dresser une liste des domaines et sous-domaines de connaissances mentionnés dans chacune des éditions du corpus, afin de quantifier et de comparer la place qu’ils occupent. Cela permettra de mettre en évidence l’évolution qualitative et quantitative de ces domaines dans la série DUFLT entre 1704 et 1771. Dans le cadre du stage, l’expérimentation portera sur les éditions de 1743 et 1771 que nous avons au format numérique.

Sujet :
Le ou la stagiaire devra s’appuyer sur les récentes avancées en intelligence artificielle et en TAL pour proposer des solutions pour la classification des textes. Nous nous intéresserons en particulier aux approches neuronales pour la modélisation thématique et aux plongements de mots (ainsi que d’unités plus grandes : phrases, alinéas, articles) pour la modélisation et la spécialisation de modèles de langues. Le volume limité et la segmentation temporelle d’un corpus historique en ancien français rendra difficile l’utilisation pure et simple des modèles pré-entraînés sur des données modernes comme CamemBERT, FlauBERT, BARthez. Un premier objectif sera alors d’évaluer les performances de ces modèles de langues pour la tâche de classification supervisée et de comparer les résultats entre les deux éditions du corpus. Pour cette tâche, le ou la stagiaire pourra s’appuyer sur nos premiers résultats obtenus dans le cadre du projet GEODE sur l’Encyclopédie de Diderot et d’Alembert.

Profil du candidat :
Stage pour un niveau BAC+5 en Informatique (stage de fin de M2, PFE)

Formation et compétences requises :
Des compétences sont attendues en programmation et en science des données (Machine Learning et Deep Learning). Des connaissances en traitement automatique de la langue (TAL) seront appréciées.

Adresse d’emploi :
Laboratoire ERIC, Université Lyon 2, Bron (principalement), avec des visites au laboratoire LIRIS, INSA Lyon, Campus La Doua, Villeurbanne.

Document attaché : 202312010935_Sujet_stage_2024_ASLAN_PreEMADIT.pdf

Data Integration and Querying through Scalable Neural Data Representations for Data Lakes
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6, Sorbonne Université
Durée : 6 mois
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2024-03-31

Contexte :
Data lakes are collections of massive heterogeneous datasets hosted in a variety of storage systems. In contrast to data warehouses where the data has been transformed to answer specific queries, data lakes store raw unformatted data ranging from structured data such as relational tables, semi-structured data such as JSON documents, and unstructured data such as textual documents with no predefined schema or data model. Integrating such heterogeneous data is a crucial steps towards providing a unified and coherent view of the information within a data lake; however, traditional integration approaches still have difficulties when dealing with disparate data and fail at uncovering hidden relations within.

Neural data representations for databases are a novel approach for revealing hidden, latent information within the data using deep learning approaches. Some applications for queries over neural representations of data include fact-checking, table metadata generation, and content prediction in relational tabular data, as well as the discovery of missing links in knowledge graphs. However, neural data representations approaches cannot yet be applied to data lakes since they lack expressiveness to perform complex query and they do not handle large volumes of data efficiently

Sujet :
In this project, we aim to investigate and develop new methods for integrating and querying heterogeneous data within data lakes using deep learning models. This raises the following technical challenges: how to encode the semantics of heterogeneous datasets into the embedding learning process, reconciling datasets with different schemas and with incomplete and noisy data.

Internship goals and tasks:
• Literature review: Conduct a comprehensive literature review to understand existing methods and frameworks starting by the three categories presented above: Neural Tabular Data Representations, Knowledge Graph Embeddings, and Scaling Up Neural Representations of Databases.
• Data collection: Collection of a diverse range of heterogeneous data sources, including structured (e.g., tables) and unstructured data. For structured data, there exists several datasets such as WikiTables-TURL, WDC Web Table Corpus and VizNet. These datasets are used for different tasks such as question answering, semantic parsing, table retrieval, table metadata prediction and table content population.
• Scalable Querying of Neural Data Lakes: executing queries that necessitate the combination of results from these diverse neural data representations. This approach aims to deliver more complete answers, surpassing what can be achieved by querying each model in isolation.
• Comparative evaluation: Design experiments and benchmarks to evaluate the effectiveness of the proposed approach in generating embeddings for querying data lakes. Note that existing benchmarks are specific to certain downstream tasks such as question answering and fact checking for tabular data, and link prediction for knowledge graph; so the challenge of this tasks on designing a benchmark to test the intrinsic capabilities of neural representations of data lakes.

Profil du candidat :
Computer Science

Formation et compétences requises :
The candidate should have excellent experience in algorithmic and programming in Python and advanced knowledge in machine learning and relational and non-relational databases.

Adresse d’emploi :
LIP6, Sorbonne Université. 4 Place Jussieu75005 Paris.

Document attaché : 202312041116_Stage_LIP6_2024.pdf

Etude et spécification d’indicateurs de performance pour l’apprentissage de l’anatomie
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS Lyon
Durée : 5-6 mois
Contact : beatrice.fuchs@univ-lyon1.fr
Date limite de publication : 2024-03-31

Contexte :
Le travail mené dans le cadre de ce stage s’effectuera au sein du projet ANR MODELI+ et pourra se poursuivre en thèse de doctorat (financement acquis).
Le projet MODELI+ vise la conception pluridisciplinaire d’un outil 3D interactif innovant pour l’apprentissage de l’anatomie, adaptable aux apprenants et ancré dans les Learning Analytics et l’apprentissage instrumenté. Partant d’un constat d’échec important en première année de licence STAPS, MODELI+ vise à améliorer la réussite dans des filières en tension où l’on enseigne l’anatomie.
Il s’agit d’utiliser des outils numériques adaptés aux besoins des apprenants pour améliorer leur apprentissage. Une analyse pluridisciplinaire de leurs activités et de leurs caractéristiques à l’aide de traces sera menée pour comprendre les facteurs de réussite ou d’échec et ainsi assister les formateurs à concevoir des parcours adaptés.

Sujet :
Ce stage vise à étudier/spécifier un premier ensemble d’indicateurs de performance (domaine des Learning Analytics) et à concevoir le modèle de trace nécessaire à leur mise en œuvre et leur évaluation.
Tâches envisagées :
– Réaliser une revue de littérature dans le domaine des Learning Analytics/EDM, indicateurs de prédiction, explicabilité de la performance
– Étudier l’outil 3D interactif existant
– Spécifier un premier ensemble d’indicateurs
– Établir un premier modèle de trace (quels observations, événements à collecter) pour : a) avoir une première représentation de l’activité de l’apprenant ; b) calculer les indicateurs précédemment spécifiés.
– Mettre en œuvre une évaluation du modèle proposé.

Profil du candidat :
Des connaissances en science des données, apprentissage automatique et/ou EIAH seraient appréciées.

Formation et compétences requises :
Le candidat doit suivre actuellement une formation de niveau Master 2 ou ingénieur en informatique (ou équivalent, Bac+5).

Adresse d’emploi :
LIRIS UMR 5205 CNRS
Université Lyon 1

Document attaché : 202312011059_Stage M2R indicateurs de performance pour l’apprentissage de l’anatomie.pdf

Experimenting Embeddings with Graph Neural Networks for Knowledge Graphs using RDF Reification
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université de Nantes
Durée : 5 à 6 mois
Contact : Patricia.Serrano-Alvarado@univ-nantes.fr
Date limite de publication : 2024-03-31

Contexte :
The context of this work is the CLARA project [CLARABench]1. In this internship, we are interested in analyzing knowledge graphs using deep learning methods. Since their introduction, deep learning models have been at the center of attention. The latest examples are the Large Language Models (LLMs) and in particular the transformer model [Transformer] used by ChatGPT. These models are built for tasks such as chatbots, conversational AIs, or sentiment analysis of texts. However, deep learning models have proven to be very efficient for other tasks, like the Convolutional Neural Networks (CNNs) for image recognition. This efficiency has also been proven for analyzing knowledge graphs with Graph Neural Networks (GNN) [SurveyGNN]. GNN models are particularly efficient for tasks such as link prediction, entity classification, or k-nearest neighbours.
Knowledge graphs represent statements as triples (head, relation, tail). Each triple is a fact stating a relation between two entities. Statements about statements, also called statement-level annotations, are increasingly used. They allow specifying that a statement is true under a particular context. Context can concern temporal aspects, provenance, trust values, scores, weights, etc. RDF reification allows expressing statement-based annotations in a generic way. We believe that current GNN models are not suited for processing annotations. GNN models do not support RDF reification because it may introduce noise that would reduce the quality of the results.

Sujet :
The goal of this internship is to show the limits of existing GNN models in the presence of RDF reification and to propose a new model that efficiently integrates RDF annotations.

You will participate in research work alongside a PhD student in the following tasks:
● Defining and running an experimental protocol. You will conceptualize and run an experimental protocol to put into light the impact of reification on GNN models. This will require the understanding of (a) several models (e.g., R-GCN [RGCN], HypE [HypE], RDF2vec [RDF2vec]), (b) the different reification approaches and their impact on GNN models (standard reification [Standard], n-ary relations [N-ary],

RDF-star [RDF-star]), and (c) how the impact of RDF reification on the GNN models can be measured. The obtained results will be the baseline for the next task.
● Creating a new GNN model. You will help in contributing a GNN model that better integrates RDF reification. The model will be inspired by the message-passing algorithm used in GNNs such as R-GCN and it should be able to adapt to RDF reification. The result of this approach should be compared to the baseline previously obtained.

Profil du candidat :

Knowledge of Machine Learning and Deep Learning.

Good programming skills, in particular in Python.

Formation et compétences requises :
Master or Engineer Student.

Adresse d’emploi :
Université de Nantes

Document attaché : 202312141033_2023-2024 Stage Master 2.pdf

Exploitation de l’imagerie aérospatiale pour la cartographie sémantique en prévention des risques naturels
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PRISME (UO) et BRGM Orléans
Durée : 6 mois
Contact : yves.lucas@univ-orleans.fr
Date limite de publication : 2024-03-31

Contexte :
Contexte et Objectifs du stage :

En télédétection, la production intensive de données satellitaires et aériennes multicapteurs et de résolution spatiale croissante (visible, IR, hyperspectral, lidar, radar,topographie, librairies spectrales de matériaux …) donne accès à une observation très fine de la terre qui pourrait notamment être exploitée dans le cadre de la gestion et la
prévention des catastrophes naturelles. En particulier, ces données sont particulièrement intéressantes pour la cartographie sémantique des éléments exposés, qui correspondent aux éléments d’un territoire qui peuvent être affectés par une catastrophe naturelle. Connaître leurs caractéristiques, comme leur géométrie, leur localisation, leur âge etc. est un prérequis indispensable à toute étude d’analyse de risques. Dans un contexte de changement climatique, où les catastrophes naturelles se multiplient, ces données représentent donc un enjeu majeur pour l’actualisation des scénarios de risques utilisés pour protéger un territoire.
Pour autant, l’exploitation des données satellitaires et aériennes représente un véritable challenge à cause de leur volumétrie et de leur forte hétérogénéité. Les techniques de machine learning, qui ont déjà révolutionné le domaine de la Computer Vision, semblent prometteuses pour lever ces contraintes, mais doivent encore être adaptées à la problématique spécifique de l’estimation de la vulnérabilité d’un territoire. Dans ce contexte, l’objectif de ce stage est de préparer l’extraction automatique des caractéristiques des éléments exposés à partir des images aérospatiales. Il s’agira plus précisément de répertorier les sources de données exploitables, de mettre en place un pipeline de collecte et de traitement de ces données gérant de façon automatique le flot entrant de nouvelles données, puis d’expérimenter l’extraction de
quelques caractéristiques pertinentes à partir de modèles d’apprentissage profond issus de l’état de l’art en segmentation sémantique.
Ces travaux, proposés par le laboratoire PRISME de l’Université d’Orléans et le BRGM, s’inscrivent dans le cadre du projet Région Centre Val de Loire CERES – Cartographie et caractérisation des éléments exposés de la région CVL à partir d’images satellites – qui vise à développer la connaissance des éléments exposés de la Région Centre Val de Loire pour la mettre à disposition de l’ensemble des acteurs socioéconomiques régionaux impliqués dans la gestion des risques induits par les catastrophes naturelles.

Sujet :
Programme de travail :

– Sources de données : répertorier les sources de données et d’images disponibles pour la cartographie et leurs modalités d’accès et mettre en place les fonctionnalités nécessaires à l’intégration automatique de nouvelles données dès leur parution.

– Caractérisation des éléments exposés : identifier les caractéristiques spatiales, géométriques, spectrales, documentaires … d’intérêt, exploitables dans les différentes sources de données et pertinentes pour la prévention des risques naturels.

– Traitement des données : évaluer les performances de différentes solutions de calcul en ligne ou locales et expérimenter quelques modèles deep learning avancés de l’état de l’art pour l’extraction de caractéristiques des éléments exposés aux aléas climatiques.

– Rédaction du mémoire de Master 2

Profil du candidat :
étudiant(e) en Master 2 Recherche à dominante informatique

Formation et compétences requises :
Compétences indispensables :

– traitement des images (librairie OpenCV) et analyse de données

– ingénierie informatique pour le déploiement applicatif des modèles deep learning (librairies Python Pytorch, Keras, TensorFlow…)

– intérêt pour le domaine de l’imagerie satellitaire apprécié

– bonne pratique de l’anglais scientifique indispensable

– autonomie, rigueur scientifique et forte motivation pour le sujet

Adresse d’emploi :
Modalités pratiques

Durée du stage : 6 mois max (avril-sept 2024)
Gratification de stage M2
Lieu du stage : BRGM – 3 avenue Claude Guillemin, 45100 Orléans – Bureau et poste de travail informatique.

NB : plusieurs résidences universitaires du campus de la Source à proximité du BRGM. Accès au restaurant BRGM.

Contacts

Yves LUCAS – Axe Images Vision – Laboratoire PRISME Université d’Orléans
yves.lucas@univ-orleans.fr

Cécile GRACIANNE – Département Risques Naturels et Prévention – BRGM Orléans
c.gracianne@brgm.fr

Document attaché : 202401251302_Sujet_Master2_CERES_2024.pdf

Measuring event impact and propagation in the internet
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6
Durée : 4 to 6 months
Contact : lionel.tabourier@lip6.fr
Date limite de publication : 2024-03-31

Contexte :
Understanding the impact of internet anomalous events at internet scale, such as performance degradation, outages, or attacks, is a challenging problem. If techniques and systems have been designed to detect outages at some particular internet facilities, or detect congestion between interdomain links, there exists no internet scale system to monitor events across all autonomous systems (ASes), and thus, we have no clear understanding on the impact of an event on the internet.

The BGP protocol allows ASes to interconnect, so that each AS can reach the prefixes containing the IP addresses of another AS via the routes received with BGP. As most internet events rarely last more than tens of minutes, to capture them, we need to run traceroutes towards each BGP prefix announced by all the ASes very frequently. And in addition to these background measurements, we need to be able to run even more targeted measurements during an event, in order to have a precise understanding of the behavior of the internet paths before and after this event.

Unfortunately, public measurement systems, such as RIPE Atlas and CAIDA Ark do not offer such measurements or the possiblity to run them. They either perform meshed traceroutes between hundreds of sources and destinations at short intervals (15 minutes), or perform traceroutes to one destination per BGP prefix from a hundred of vantage points every day. This is neither sufficient to have an internet scale coverage nor to cover most internet events.

Sujet :
We propose to design this missing measurement system, that will run background traceroutes at high speed every 15 minutes from a few vantage points to one destination in each BGP prefix announced by any AS. When an event is detected, we will run targeted measurements using
propagation algorithms to understand how this event spreads on the internet.

Profil du candidat :
This internship is directed at Master students (preferably Master 2 students) with a background in computer science. Good coding skills are requested for the internship, knowledge of a widely-used language in learning, such as python, is preferable but not mandatory.

Formation et compétences requises :
Background in computer networking, system building, and graph theory are at the heart of the internship, so a background in those areas is an asset, but not mandatory.

Adresse d’emploi :
LIP6, Sorbonne University (4 place Jussieu, 75005, Paris)

Document attaché : 202312201034_Measuring_Event_Impact.pdf

Méthodes de dé-mélange pour la correction d’atténuation en tomographie optique diffuse de fluorescence
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Insitut Fresnel
Durée : 5 mois (Mars à Juill
Contact : andre@fresnel.fr
Date limite de publication : 2024-03-31

Contexte :

Les technologies d’imagerie capables de détecter les processus biologiques précoces in vivo de manière non invasive pour des études longitudinales, avec une haute résolution, représentent un défi pour la recherche biomédicale. Le concept de notre système d’imagerie repose sur un nouveau d’imagerie optique diffuse de fluorescence multicolore pour l’imagerie in vivo du petit animal en trois dimensions (3D) dans la fenêtre NIR-II (1000-2000 nm). La tomographie optique diffuse de fluorescence consiste à injecter au sujet (ici une souris) des substances chimiques qui se fixent sur différents organes. Ces substances chimiques, appelées fluorophores, sont alors excitées par une source lumineuse puis réémettent de la lumière lors de leur relaxation, à plus faible énergie (plus longue longueur d’onde). L’objectif est de reconstruire des images à partir de ce signal de fluorescence. Le signal de fluorescence ainsi que la source d’excitation peuvent être atténués à la fois par l’absorption et la diffusion des différents milieux traversés, ce qui entraîne une distorsion des spectres mesurés. Les méthodes conventionnelles de dé-mélange linéaire permettent de séparer les spectres sans tenir compte de ces effets.

Sujet :
Les algorithmes de dé-mélange multilinéaire [1] ont montré leur efficacité pour la séparation de signaux multidimensionnels issus de la spectroscopie de fluorescence [2]. Ils permettent d’estimer les spectres d’excitation, les spectres d’émission de fluorescence ainsi que les concentrations relatives de plusieurs fluorophores présents dans plusieurs solutions chimiques.
Le but de ce stage est de mettre en œuvre des méthodes de décomposition multilinéaire pour corriger des images tomographiques hyper-spectrales de l’atténuation [3].

[1] T. G. Kolda and B. W. Bader, “Tensor decompositions and applications,” SIAM Review, vol. 51, no. 3, pp. 455–500, 2009.

[2] R. Bro, “Parafac, tutorial and applications,” Chemom. Intel. Lab. Syst., vol. 38, pp. 149–171, 1997.

[3] Hayato Ikoma, Barmak Heshmat, Gordon Wetzstein, and Ramesh Raskar, “Attenuation-corrected fluorescence spectra unmixing for spectroscopy and microscopy,” Opt. Express 22, 19469-19483 (2014)

Profil du candidat :
Le candidat devra être particulièrement à l’aise en programmation (python/Matlab) et avoir une réelle appétence pour les interactions entre l’informatique et la physique.

Formation et compétences requises :
Le candidat recruté devra être en dernière année d’école d’ingénieurs ou en Master 2 dans le domaine des mathématiques appliquées, le traitement du signal/images ou dans une formation équivalente. Il devra être particulièrement à l’aise en programmation (python/Matlab) et avoir une réelle appétence pour les interactions entre l’informatique et la physique.

Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille

Optimal Transport for Anomaly Detection and Localization
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LITIS Lab (Rouen)
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2024-03-31

Contexte :
Optimal transport (OT) [1] is a powerful framework to define and compute distances between distributions (a.k.a. Wasserstein or earth mover’s distance), with a tractable computation thanks to the Sinkhorn algorithm, of which an online version has recently been proposed [2]. Beyond, OT allows to exhibit the transport map between the distributions.

In this internship, we envision leveraging the OT theory to design algorithms dealing with out-of-distribution detection in a non-parametric setting that operates over sliding windows on time series. Specifically, we will target in an online manner the localization of abnormal samples.

Sujet :
Even at low rates, detecting and localizing efficiently abnormal situations can be paramount.
The goal of this internship is to spot the abnormal samples from distributions. While computing the discrepancy between distributions with OT may only assess how close these distributions are, a detailed assignment information resides in the transport (coupling) map. The intern will study how the assignment resulting from partial OT, which transports only a given fraction α of the total probability mass [3], can be used in the out-of-distribution and outliers scenarios. Specifically, abnormal samples can be located from the map by relying on the position of the non-transported mass. Thereon, the intern will design statistical tests allowing to estimate the proportion of α of out-of-distribution samples. For that, she/he will investigate randomization for varying values of α. The randomization will be achieved by a bootstrap procedure on the samples of compared sliding windows.

The objectives of the intern are the following:
1- Familiarize with the investigated OT framework
2- Explore OT for anomaly detection on toy data
2- Devise deep-learning framework for real data from well-known benchmarks
3- Evaluate the developed methods on real data from an industrial partner

This internship may lead to a PhD thesis.

Research Environment: This intern will conduct her/his research within the Machine Learning group in the LITIS Lab, under the supervision of Dr. Maxime Berar, Prof. Gilles Gasso, Dr. Fannia Pacheco and Prof. Paul Honeine. This internship will be conducted within a research project gathering 9 permanent researchers of the LITIS Lab and the intern will also interact with several PhD students and interns also working on deep anomaly detection for time series.

References

[1] G. Peyré, M. Cuturi, et al., “Computational optimal transport: With application to data science,” Foundations and Trends® in Machine Learning, 2019.
[2] A. Mensch and G. Peyré, “Online sinkhorn: Optimal transport distances from sample streams,” in NeurIPS 2020.
[3] L. Chapel, M. Z. Alaya, and G. Gasso, “Partial Optimal Transport with Applications on Positive-Unlabeled Learning,” in NeurIPS, 2020.

Profil du candidat :
Student in final year of Master or Engineering School, in applied mathematics, data science, artificial intelligence, or related fields.

Formation et compétences requises :
– Strong skills in advanced statistics and Machine Learning
– Good programming skills in Python

Adresse d’emploi :
Location: LITIS Lab, Université de Rouen Normandie, Saint Etienne du Rouvray (Rouen, France).

Terms: 5 to 6 months, starting in February or March 2024.

Application: Applicants are invited to send their CV and grade transcripts by email to:
maxime.berar@univ-rouen.fr, gilles.gasso@insa-rouen.fr, fannia.pacheco@univ-rouen.fr, paul.honeine@univ-rouen.fr.

Document attaché : 202311301903_Internship – Optimal Transport for Anomaly Detection and Localization.pdf

Stage M2 : Deep learning faiblement supervisé pour l’aide au diagnostic du lymphome
Mar 31 – Apr 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : GREYC UMR CNRS 6072
Durée : 5/6 mois
Contact : olivier.lezoray@unicaen.fr
Date limite de publication : 2024-03-31

Contexte :
Le lymphome est une pathologie cancéreuse caractérisée par la prolifération de cellules du système lymphatique. Il s’agit en réalité plus « des lymphomes » que « du lymphome » de par la variété des différentes cellules qui peuvent proliférer et des variétés de la gravité des différents lymphomes. Le diagnostic se fait en anatomie et cytologie pathologiques à partir de prélèvements dans le ganglion. A partir de ces prélèvements, on réalise – entre autres – une lame de cytologie par apposition : les cellules du ganglion sont déposées sur une lame de verre et colorées pour en observer les caractéristiques. Or, en dehors de certaines situations évidentes, les cellules de la plupart des différents types de lymphomes ont des caractéristiques morphologiques difficiles à discriminer avec l’œil humain. Il serait donc intéressant d’entrainer un programme d’intelligence artificielle à identifier (ou non) ces caractéristiques à partir d’une banque de lames de cytologie d’empreintes ganglionnaires lymphatiques, dont le diagnostic de lymphome (et de son type) est établi.

Sujet :
La pathologie computationnelle est un domaine en plein essor qui s’avère très prometteur pour amé- liorer l’accès aux soins de santé. En particulier, l’aide au diagnostic a fortement évolué ces dernières années avec l’utilisation d’approches de deep learning. Si ces méthodes permettent d’extraire des caractéristiques plus discriminantes à des fin de diagnostic, elles sont très couteuses en volume de données nécessaire. En effet, cela demande aux pathologistes de réaliser des annotations au niveau pixel de scans de grande taille de lames (au niveau du gigapixel) afin que les modèles puissent effectuer leur apprentissage supervisé. Pour surmonter cette limitation en pathologie digitale, des approches faiblement supervisées sont apparues. Cette fois la lame scannée reçoit une unique annotation avec des caractéristiques provenant des tuiles de la lame scannée. Pour l’apprentissage, les tuiles peuvent toutes hériter du label de la lame ou bien des sacs de tuiles héritent du label (apprentissage à instances multiples). La prédiction médicale se fait alors au niveau de la lame entière : une lame est positive si elle contient au moins une tuile tumorale. Ces approches sont très prometteuses [1] et nous souhaitons les explorer pour l’aide au diagnostic de lames d’empreintes ganglionnaires lymphatiques dans un contexte de suspicion de lymphome.

Profil du candidat :
— Etudiant.e en Master 2 Recherche ou en dernière année d’école d’ingénieur, spécialisé en informatique, image et/ou intelligence artificielle.

Formation et compétences requises :
— Une formation en machine et deep learning est indispensable.
— Des connaissances et expériences en apprentissage profond et programmation (Python, Tensor-
Flow/PyTorch) sont nécessaires.
— Autonomie et curiosité pour la recherche scientifique.

Adresse d’emploi :
Laboratoires : Laboratoire GREYC (UMR CNRS 6072), CHU de Normandie
Encadrants : Marie-Laure Quintyn-Ranty (Praticien Hospitalier CHU Caen Normandie), Olivier Lézoray (PR UNICAEN), Alexis Lechervy (MC UNICAEN).
Stage : Durée de 5-6 mois, à Caen, au Campus 2, ENSICAEN, Bâtiment F.

Document attaché : 202312220817_sujetMasterCHU2024.pdf