MaDICS

Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

Soumission de posters : au plus tard le 23 mars 2026
Retour : 9 avril 2026

Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Feb

Thu

2024

Explicabilité des modèles d’IA multimodaux

Tickets

Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : EDF R&D
Durée : 6 mois
Contact : laurent.bozzi@edf.fr
Date limite de publication : 2024-02-15

Contexte :
Le département SEQUOIA (Services, Economie, Questions hUmaines, Outils innovants et IA) de la R&D, intervient en appui à de la direction Marketing de la Branche Commerce d’EDF.
Afin de mieux connaitre ses clients et maintenir leur niveau de satisfaction, EDF Commerce réalise des actions marketing à destination de ses clients particuliers, nécessitant un appui de data scientists pour le scoring, l’aide au ciblage de clients. Ce stage s’inscrit dans le cadre du projet « IA, Algos, DATA pour Commerce BtoC» de la R&D, qui intervient notamment auprès de Commerce en appui méthodologique, data et IA afin de rendre les méthodes plus robustes et explicables et améliorer la connaissance client.
Aujourd’hui les données recueillies à EDF sont de nature multiple :
• Tabulaire : données numériques, catégorielles (binaires, nominales, ordonnées) : par exemple
infos logement client…
• Textuelles : champs textuels d’enquêtes…
• Images : photos d’équipements électriques…
Des méthodes statistiques différentes fonctionnent en général indépendamment sur chaque type de données. Depuis fin 2021, la R&D travaille sur la modélisation en simultané sur ces types de données, en particulier tabulaires et textuelles. On parle alors de données multimodales : structurées (tabulaires) et non structurées (textuelles). Des travaux de recherche ont également été menés sur l’explicabilité pour ce type de modèles : comment expliquer conjointement les influences issues de chaque modalité ?
En effet, l’explicabilité est devenue incontournable lorsque l’on développe un modèle d’IA. Les exigences réglementaires (RGPD) concernant l’utilisation des données imposent une transparence et une compréhension des algorithmes (confiance, auditabilité). L’arrivée prévue en 2026 de l’AI Act vient également renforcer les besoins d’anticipation autour de l’explicabilité.
Ce champ de recherche étant en constante évolution, il s’agira d’approfondir les travaux passés en testant et imaginant de nouvelles méthodes : comment bien prendre en compte les spécificités de chaque type de données dans l’explicabilité ?
Ce sujet est un stage préparatoire à une thèse qui se lancera à l’automne 2024 dans la continuité.

Sujet :
Le stage comportera plusieurs phases :
• Montée en compétence sur l’existant :
o Les méthodologies employées : Deep Learning sur données multimodales, explicabilité
sur données structurées, explicabilité sur données textuelles
o Travaux passés sur le multimodal XAI : prise en main des codes Python (framework Deep
Learning Pytorch; packages d’explicabilité SHAP et Captum ; packages relatifs aux modèles de langue BERT).
o Jeux de données open source adaptés à la problématique : prise en main de l’existant (airbnb, kickstarter) et recherche de jeux de données complémentaires.
• Benchmark de méthodes :
o Revue de littérature des méthodes, notamment les fondements du Multimodal :
https://arxiv.org/pdf/2209.03430.pdf
o Identification de nouveaux packages d’explicabilité pouvant s’appliquer ou s’adapter aux données multimodales
o Testetévaluationdeméthodes
o Recommandationd’utilisationetd’adaptationdeméthodes
• Participation aux travaux d’alimentation et de rédaction collégiale d’un guide interne sur l’explicabilité, sous forme d’un wiki
• Conception d’une méthode hybride d’explicabilité sur données multimodales : o ConceptiondelaméthodeetcréationducodePythonassocié
o Tests sur un cas d’application
• Rédaction d’une note recensant les travaux effectués :
o Revue de littérature commentée avec les résultats de l’évaluation o Descriptiondétailléedelaméthodehybrideconçue
o Guided’utilisationdescodes

Profil du candidat :
Informatique / Statistiques

Formation et compétences requises :
La R&D propose ce stage de fin d’étude, à des étudiants d’écoles d’ingénieurs en parcours Data science ou Master 2 en statistiques (Machine Learning / Deep Learning) & IA.

Adresse d’emploi :
EDF – Recherches et Développement, 7 Bd Gaspard Monge, 91120 Palaiseau
Possibilité de télétravail occasionnel après période d’intégration.

Document attaché : 202310181338_EDF-R&D_Stage_Multimodal_XAI_2024.pdf

Categories: Stages

Localisation des fissures volcaniques dans les données de télédétection par apprentissage automatique

Tickets

Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC
Durée : 4-6 mois
Contact : christophe.lin-kwong-chon@univ-smb.fr
Date limite de publication : 2024-02-15

Contexte :
L’interférométrie SAR (InSAR) fournit des mesures de déplacement précises sur de grandes étendues pour la surveillance des activités volcaniques. Les positions des fissures volcaniques sur les interférogrammes constituent une information importante dans la modélisation des volcans. De nos jours, la localisation de ces fissures est principalement effectuée manuellement par des experts. Avec l’augmentation sans cesse des données SAR, cette tâche nécessite des méthodes avancées permettant une détection automatique de manière
efficace. Pour cela, nous tirons profit de l’avènement récent de l’apprentissage automatique, dont l’intérêt a été prouvé dans de nombreuses études de différents domaines.

Sujet :
Dans ce stage, nous envisageons de proposer des méthodes d’apprentissage automatique pour détecter et localiser les fissures volcaniques sur des interférogrammes mesurant les déformations du Piton de la Fournaise entre 1998 et 2020. Ces méthodes proposées devront prendre en compte la spécificité des données InSAR (données complexes) et la quantité limitée des données d’apprentissage. Nous commencerons par des méthodes de classifications classiques pour la détection des fissures (e.g. random forest, SVM, etc.) et progresserons graduellement vers l’étude des méthodes d’apprentissage profond, notamment des méthodes d’auto-apprentissage.

Profil du candidat :
Le candidat/la candidate M2 devra disposer de connaissances et compétences en apprentissage automatique et en programmation (Python, C, etc.). Des connaissances en télédétection radar seront les bienvenues.

Formation et compétences requises :
apprentissage automatique, programmation

Adresse d’emploi :
LISTIC, Anney, France

Document attaché : 202310181338_2023_sujet_stage_teledetection_ML.pdf

Categories: Stages

Feb

Fri

2024

Quantum Chemistry meets Deep Learning

Tickets

Feb 16 – Feb 17 all-day

Offre en lien avec l’Action/le Réseau : DSChem/Doctorants

Laboratoire/Entreprise : Laboratoire d’Informatique et des Systèmes (LIS,
Durée : 6 mois
Contact : thierry.artieres@lis-lab.fr
Date limite de publication : 2024-02-16

Contexte :
This internship is part of a collaboration between the CT/ICR and QARMA teams at LIS that aims to promote artificial intelligence (AI) solutions in chemical research at Aix Marseille Université (AMU), a field that is still largely unexplored by the local chemical community. The simplified context of the study is as follows. The object of study for this project is the prediction of quantities of interest for a given molecule. The molecule corresponds to an assembly of atoms interacting via bonds, which possesses a certain energy E as a function of the geometry of the molecule (relative positions of the various atoms), and which is subjected to a force F. The aim is to predict not only the energy E but also the forces F as a function of G. Two features are important in devising a model for predicting the quantities E and F. Firstly, F is equal to the gradient of the energy E. Secondly, there are several energy surfaces of E as a function of G. These surfaces are continuous. During the evolution of a molecule, its geometry can evolve, and there can be a jump from one surface to another e,n a geometry G, all the more likely as the two curves are close for this geometry.

Sujet :
From a Machine Learning point of view, the problem may be viewed as a prediction task where one wants to predict an energy function from the geometric characteristics of a molecule, but also to predict the gradient of this energy finely, for which one also has supervision. Finally, it is a problem that can be modelled as multi-task learning, since it involves predicting several energy surfaces simultaneously.

The aim of the internship is, starting from recent approaches proposed in the field [Batalia et al., 2022, Batzner et al., 2022, Gilmer et al., 2017, Satoki et al., 2024, Thölke et al., 2022], to test and compare them experimentally and then to propose an innovative approach that will enable us to overcome their limitations. We will be able to draw on recent ideas such as multitask learning [Crawshaw, 2020] and gradient learning [Wu et al., 2010], approaches that have not received much attention in the literature.

On the one hand, multitask learning is a paradigm in which several tasks are learned simultaneously to improve the generalisation performance of a learning task using other related tasks. While the typical protocol is to train a model independently to predict energy, gradient it may be beneficial to exploit multitask extensions, which have not been employed to date in this type of domain.

On the other hand, gradient learning is a little-known but potentially valuable framework in which the objective is to learn the gradient of a classification or regression function, with or without supervision. In addition to conventional energy learning using gradient information, we will explore strategies based on explicit learning of the gradient function, starting with neural networks in a multi-output, multi-task framework and extending to other designs.

Références

[Batatia et al., 2022] Ilyes Batatia, Dávid Péter Kovács, Gregor N. C. Simm, Christoph Ortner, Gábor Csányi: MACE: Higher Order Equivariant Message Passing Neural Networks for Fast and Accurate Force Fields. NeurIPS 2022
[Batzner et al., 2022] Batzner, S., Musaelian, A., Sun, L. et al. E(3)-equivariant graph neural networks for data-efficient and accurate interatomic potentials. Nat Commun 13, 2453 (2022). https://doi.org/10.1038/s41467-022-29939-5
[Crawshaw, 2020] Crawshaw, M. arXiv 2020.Multi-Task Learning with Deep Neural Networks: A Survey, https://doi.org/10.48550/ARXIV.2009.09796
[Gilmer et al., 2017] Justin Gilmer, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, George E. Dahl: Neural Message Passing for Quantum Chemistry. ICML 2017: 1263-1272
[Satoki et al., 2024] Satoki Ishiai, Ikki Yasuda, Katsuhiro Endo, and Kenji Yasuoka, Graph-Neural-Network-Based Unsupervised Learning of the Temporal Similarity of Structural Features Observed in Molecular Dynamics Simulations, Journal of Chemical Theory and Computation 2024 20 (2), 819-831
[Thölke et al., 2022] Philipp Thölke, Gianni De Fabritiis, Equivariant Transformers for Neural Network based Molecular Potentials. ICLR 2022
[Wu et al., 2010] Qiang Wu, Justin Guinney, Mauro Maggioni, Sayan Mukherjee: Learning Gradients: Predictive Models that Infer Geometry and Statistical Dependence. J. Mach. Learn. Res. 11: 2175-2198 (2010)

Profil du candidat :
Computer science or data science master 2
Last year engineering school

Formation et compétences requises :
Programning : python and deep Learning platform (pytorch or tensorflow)
Machine Learning and deep learning basics

Adresse d’emploi :
Pole scientifique de Chateau Gombert
Marseille

Categories: Stages

Feb

Wed

2024

Apprentissage profond et décomposition tensorielle pour l’analyse de patterns en signal et en imagerie multimodale. Application aux neuropathies

Tickets

Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISSI/IBISC
Durée : 6 mois
Contact : aurelien.hazan@u-pec.fr
Date limite de publication : 2024-02-28

Contexte :
Le développement exponentiel de l’IA et des réseaux de neurones renouvelle l’étude des séries temporelles d’un point de vue aussi bien fondamental qu’appliqué. En particulier pour les signaux multivariés, le tenseur peut être une représentation plus adéquate que la matrice, car il évite la perte de la structure des données, et donc la perte d’information.
L’apprentissage automatique sur données tensorielles est classiquement réalisé par décomposition tensorielle linéaire, par exemple CPD/PARAFAC ou Tucker [Sid17]. Récemment des représentations tensorielles ont été intégrées aux réseaux de neurones et ont permis des développements significatifs de l’apprentissage profond notamment dans le domaine de l’image en réduisant le nombre de paramètres à estimer.
Pour accroître l’identifiabilité et l’interprétabilité des modèles neuronaux profonds, des contraintes sont ajoutées, par exemple la non négativité, classique dans une cadre d’apprentissage matriciel et
tensoriel [Kol08]. En apprentissage profond, les auto-encodeurs variationnels ont été interprétés dans un cadre de factorisation matricielle non-négative, mais aussi comme une factorisation
tensorielle CPD, et même Tucker non-négative [Mar22]. Les autoencodeurs appartiennent à la famille des modèles génératifs. Ils permettent de découvrir des espaces latents en apprenant un
automorphisme x=f(x). Leur espace latent peut est structuré sous forme tensorielle, ce qui amène de très bonnes performances [Pan21]. Il a été montré que ceci permet un compromis en termes de
performances et d’interprétabilité, entre un auto-encodeur simple sans contrainte et un modèle de Tucker non-négatif, pour différentes taches (segmentation, détection de pattern). Toutefois ces travaux préliminaires laissent une marge importante de progrès, et les propriétés de ce type de modèle hybride sont encore mal connues.

Sujet :
Tout d’abord on établira un benchmark des différentes approches. Ensuite on modifiera les contraintes qui structurent la décomposition tensorielle dans un modèle de type auto-encodeur/décomposition de Tucker. On évaluera et on comparera les caractéristiques de
plusieurs architectures pour l’auto-encodeur. Les algorithmes proposés seront testés sur des données de plusieurs champs applicatifs actuellement examinés dans nos laboratoires respectifs : puissances
transmises sur un réseau de transport d’électricité ; calibration de capteurs de polluants ; prédiction de performances sportives, segmentation de tumeurs cérébrales. Ce travail pourra se poursuivre en
thèse (1) en comparant les performances de la représentation dans les domaines temporel, temps-fréquence, temps-échelle (2) en appliquant ces décompositions tensorielles sur les machines de
Boltzmann (DB networks et modèle de diffusion) (3) en étudiant l’influence de la structure en réseau du phénomène sous-jacent sur la représentation du signal. Des collaborations industrielles
sont envisageables.

Références
[Kol08] Kolda, Bader, « Tensor decompositions and applications », in: SIAM review 51.3 (2009), pp. 455–500.
[Sid17] Sidiropoulos et al. « Tensor Decomposition for Signal Processing and Machine Learning » IEEE Transactions on Signal Processing, 2017.
[Pan21] Panagakis et al. « Tensor Methods in Computer Vision and Deep Learning » Proceedings of the IEEE, https://doi.org/10.1109/JPROC.2021.3074329
[Mar22] Marmoret, « Unsupervised Machine Learning Paradigms for the Representation of Music Similarity and Structure », thèse IMT Atlantique, 2022.

Profil du candidat :
Connaissance du machine learning.

Formation et compétences requises :
M2 informatique, data science, statistiques

Adresse d’emploi :
Ce stage sera encadré par deux enseignants chercheurs rattachés aux laboratoires:

LISSI, http://lissi.fr, Equipe Synapse: 36-37 rue Georges Charpak, 77 567 Lieusaint.

IBISC, https://ibisc.univ-evry.fr/, Equipe SIAM: 36, Rue du Pelvoux, CE1455 Courcouronnes 91020 Evry Cédex

Categories: Stages

Explicabilité des décisions d’un GNN, application à la chémoinformatique

Tickets

Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : Groupe de recherche en informatique, image, automa
Durée : 6 mois
Contact : jean-luc.lamotte@unicaen.fr
Date limite de publication : 2024-02-28

Contexte :
Ce stage prend place dans une collaboration de longue date entre trois laboratoires :
1. Le GREYC (UMR 6072, Caen), a développé au cours des années une expertise forte en fouille de données et apprentissage appliqué à la Chemoinformatique,
2. Le CERMN (UR 4258, Caen) est le centre d’études et de recherche sur le médicament de Normandie et entretient depuis de nombreuses années une collaboration avec le GREYC sur l’analyse informatique de molécules pour créer de nouveaux médicaments,
3. Le LITIS (UR 4108, Rouen), a acquis une solide expérience en apprentissage machine qu’il applique notamment sur des bases de graphes.
Le GREYC et le LITIS collaborent activement au sein de la fédération NormaSTIC.

Des membres des trois laboratoires participeront à l’encadrement du stage en y apportant leurs compétences respectives.

Ce stage peut être considéré comme une étape préparatoire à une thèse de doctorat sur le même sujet.

Sujet :
Le stage commencera par une étude des méthodes GNN permettant de prédire les propriétés de nos jeux de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir des structures des molécules. A
cette occasion, des méthodes basées GCN, au sens large, et GCN+pooling seront étudiées.

Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,. . .. Nous espérons identifier à partir de cette étude des sous structures pharmacophoriques pertinentes pour les propriétés à prédire.

Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires ”brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.

Profil du candidat :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation. Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes, sera un plus.

Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.

Adresse d’emploi :
Le stage sera effectué au GREYC (Caen) ou au LITIS (Rouen) en fonction du lieu de recrutement de l’étudiant. Il débutera en février ou mars 2024 pour une durée de 6 mois et bénéficiera d’une gratification au tarif minimum réglementaire pour les stages.

Document attaché : 202312181731_stageMasterGNN-chemo.pdf

Categories: Stages

Financial Forecasting With Deep Learning

Tickets

Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR/Télécom SudParis
Durée : 6 mois
Contact : romerojulien34@gmail.com
Date limite de publication : 2024-02-28

Contexte :
In this internship, we propose to study the problem of financial forecasting, i.e., predicting the future
variation of the price of a financial instrument, using deep learning. The student will work on a new
data source with a finer granularity than existing datasets. Because of the difficulty of obtaining
data, previous works focused on price prediction at the scale of a day, a week, or a month. Our
new dataset contains intraday information. Therefore, we can predict the price within a day and
use multi-scale analysis. Besides, our new dataset contains different kinds of financial instruments
(FOREX, crypto, options, futures) and additional information about the companies (description,
financial reports, dividends).

Sujet :
In this internship, we propose to study the problem of financial forecasting, i.e., predicting the future
variation of the price of a financial instrument, using deep learning. The student will work on a new
data source with a finer granularity than existing datasets. Because of the difficulty of obtaining
data, previous works focused on price prediction at the scale of a day, a week, or a month. Our
new dataset contains intraday information. Therefore, we can predict the price within a day and
use multi-scale analysis. Besides, our new dataset contains different kinds of financial instruments
(FOREX, crypto, options, futures) and additional information about the companies (description,
financial reports, dividends).

Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning,
deep learning, and data processing. A good understanding of Python and the standard libraries used
in data science (scikit-learn, PyTorch, pandas) is also expected. A previous experience with finance
is appreciated but not required for this internship.

Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning,
deep learning, and data processing. A good understanding of Python and the standard libraries used
in data science (scikit-learn, PyTorch, pandas) is also expected. A previous experience with finance
is appreciated but not required for this internship.

Adresse d’emploi :
Télécom SudParis, Palaiseau

Document attaché : 202312181259_stage_finance.pdf

Categories: Stages

Gaussian Process Prior Variational Autoencoders for Earth Data Time Series Anlaysis

Tickets

Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : RoCED/– — –

Laboratoire/Entreprise : INRAE Toulouse
Durée : 6 mois
Contact : mathieu.fauvel@inrae.fr
Date limite de publication : 2024-02-28

Contexte :
Over the last ten years, Earth Observation (EO) has made enormous advances in terms of spatial and temporal resolutions, data
availability and open policies for end-users. The increasing availability of complementary imaging sensors allows land ecosystems
state variables and processes to be observed at different spatio-temporal scales. Big EO data can thus enable the design of new
land monitoring systems providing critical information in order to guide climate change monitoring, mitigation and adaptation.
Conventional machine learning methods are not well adapted to the complexity of multi-modal, multi-resolution satellite image
time series (SITS) with irregular sampling. Therefore they are not suitable for extracting and processing all the relevant infor-
mation. On the other hand, methods based on deep neural networks have shown to be very effective to learn low-dimensional
representations of complex data for several tasks and come with high potential for EO data. However, they often emerge from the
computer vision (CV) and natural language processing (NLP) communities and need to be extended and properly instantiated to
handle the very specificities of Earth Observation data.
Previous works at the CESBIO-lab have shown that generative encoder-decoder architectures such as the Variational Auto-
Encoder (VAE) or the U-NET models perform very well for a variety of EO tasks : estimation of biophysical parameters or
Sentinel-1 to Sentinel-2 translations, to cite a few.
However, such approaches appear to be inadequate to handle data coming from more than 2 sources and acquired at different
time and spatial resolutions, as prioritized in the RELEO chair within ANITI. In particular, the generative capability of these
models may generalize poorly to unseen regions or temporal periods. Processing such streams of data requires to jointly encode
all sources into a structured latent space where each complementary information carried by each source can be embedded while
ensuring long-term encoding of newly acquired data (from possibly new sensors).

Sujet :
The objective of this internship is to investigate Gaussian process (GP) prior for Variational Auto-Encoders (VAEs). Usually,
VAEs assume independence between samples. This assumption is generally made for sake of simplicity and computational ef-
ficiency of the training and inference steps. However, assuming independence of samples amount to ignoring the correlation
between adjacent pixels in the temporal domains. Furthermore, because of the very deterministic nature of such neural networks
architectures, they do not properly encode uncertainty related to missing/noisy data.
Adopting this GP prior is expected to model correlations between times. However, due to the irregular and unaligned nature of
SITS and their massive volume, approximation are required to maintain fast training and inference.
The work-plan of this Master internship is as follows :
1. Define GP prior VAEs for pixel satellite time series with different approximations,
2. Implement the models in PyTorch,
3. Perform experiments on massive SITS and compare with others VAEs on downstream tasks.

Profil du candidat :
Master or Engineering school students with major in applied mathematics, computer science or electrical engineering.

Formation et compétences requises :
The knowledge needed for this work includes a strong background in machine learning or data science, signal & image
processing or remote sensing data processing. Good scientific programming skills (e.g., Python) and good communication skills
in English, both written and oral are also expected. Interests in Earth observation will be appreciated.

Adresse d’emploi :
Centre d’Etudes Spatiales de la Biosph`ere (CESBIO) & INRAE

Document attaché : 202312190628_proposal_MSc_2024_ANITI.pdf

Categories: Stages

Job Recommendation From A Heterogeneous Graph

Tickets

Feb 28 – Feb 29 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR/Télécom SudParis
Durée : 6 mois
Contact : romerojulien34@gmail.com
Date limite de publication : 2024-02-28

Contexte :
Job recommendation is the task of associating candidates with
jobs. This can be useful for candidates who would like to find to best possible
jobs, for companies that want to find the rarest talents in the vast pool of
candidates, but also for independent recruiters who need to be as precise as
possible when they send a resume to a company.
In this internship, you will work on a new dataset for job recommendations.
Its particularity is that it contains much additional information about candi-
dates and jobs we can represent as a graph. Besides, it is very sensitive to the
cold start problem: We have many new candidates and new jobs, and it restricts
a lot of the algorithms we can use.
If we consider video recommendations on Youtube, an average viewer watches
many videos, and each video is viewed many times. Therefore, when recom-
mending new videos to a specific user, we can look at what other similar view-
ers watched and recommend the most relevant video. This is the principle of
collaborative filtering. In our case, our users are likely to get a job and never
come back. Likewise, jobs are associated with one person, and then, we are
done with it. Therefore, we need to exploit extra information to make the
recommendation.
For our dataset, we can represent our pool of candidates and jobs with a
heterogeneous graph, connecting candidates and jobs, but also additional node
types like skills, cities, or employment types. Because we have this expressive
representation, we must adapt the existing algorithms. During the internship,
we will see how graph neural networks can be used to make recommendations,
and we will propose a new architecture to solve our specific problem.
The goal of this internship will be to publish a paper at an international
conference. The intern will work together with a Ph.D. student.

Sujet :
Job recommendation is the task of associating candidates with
jobs. This can be useful for candidates who would like to find to best possible
jobs, for companies that want to find the rarest talents in the vast pool of
candidates, but also for independent recruiters who need to be as precise as
possible when they send a resume to a company.
In this internship, you will work on a new dataset for job recommendations.
Its particularity is that it contains much additional information about candi-
dates and jobs we can represent as a graph. Besides, it is very sensitive to the
cold start problem: We have many new candidates and new jobs, and it restricts
a lot of the algorithms we can use.
If we consider video recommendations on Youtube, an average viewer watches
many videos, and each video is viewed many times. Therefore, when recom-
mending new videos to a specific user, we can look at what other similar view-
ers watched and recommend the most relevant video. This is the principle of
collaborative filtering. In our case, our users are likely to get a job and never
come back. Likewise, jobs are associated with one person, and then, we are
done with it. Therefore, we need to exploit extra information to make the
recommendation.
For our dataset, we can represent our pool of candidates and jobs with a
heterogeneous graph, connecting candidates and jobs, but also additional node
types like skills, cities, or employment types. Because we have this expressive
representation, we must adapt the existing algorithms. During the internship,
we will see how graph neural networks can be used to make recommendations,
and we will propose a new architecture to solve our specific problem.
The goal of this internship will be to publish a paper at an international
conference. The intern will work together with a Ph.D. student.

Profil du candidat :
The intern should be involved in a master’s program and have
a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries
used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.

Formation et compétences requises :
The intern should be involved in a master’s program and have
a good knowledge of machine learning, deep learning, natural language processing, and graphs. A good understanding of Python and the standard libraries
used in data science (scikit-learn, PyTorch, pandas, transformers) is also expected. In addition, a previous experience with graph neural networks would be appreciated.

Adresse d’emploi :
Télécom Sudparis, Palaiseau

Document attaché : 202312181300_internship_job_recommandation-2.pdf

Categories: Stages

Feb

Thu

2024

Amélioration de systèmes d’extraction de relations temporelles à partir de textes en langue naturelle : étude de l’injection de connaissances en vue de l’hybridation de systèmes par apprentissage profond

Tickets

Feb 29 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 6 mois
Contact : anais.halftermeyer@univ-orleans.fr
Date limite de publication : 2024-02-29

Contexte :
Nous proposons, dans le cadre de ce sujet de stage financé, d’explorer l’intégration de connaissances dans un système par apprentissage profond, reposant sur un modèle de langue, à résoudre des tâches de raisonnement temporel. Nous proposons de travailler dans le cadre de l’extraction d’informations temporelles qui associe à un texte en langue naturelle une représentation synthétique des évènements qui y sont relatés. Une représentation classique de ce type de données est un graphe de relations temporelles entre les évènements relatés et/ou entre expressions temporelles [1].
Les récentes avancées du deep learning en matière de compétences langagières nous amène à nous interroger sur la maîtrise de l’humain sur les processus de résolution de tâche reposant sur la langue naturelle. Ces modèles ont des architectures de plus en plus complexes et sont de plus en plus gourmands en puissance de calcul et en données d’entraînement. Cependant ils restent insuffisants puisque les connaissances générales sur des relations temporelles ne sont pas exploitées pour mieux orienter les résultats, ainsi que pour expliquer ces résultats.

Un premier système [3] a proposé de construire un graphe temporel à partir de textes médicaux en s’appuyant de BERT, de la mise à profit de règles en logique probabiliste dans la phase d’apprentissage du modèle, ainsi qu’à la phase d’’inférence globale. Ce travail hybride a ouvert des pistes de recherche sur l’apport considérable que pouvait représenter la connaissance propre à la temporalité via le travail sur les règles. Afin de rendre plus performant les systèmes, [4] a proposé de tirer partie de l’analyse syntaxique des entrées avec succès. Dans la même lignée de [2], nous proposons de tirer partie de la représentation de la connaissance temporelle comme levier de performance et d’explicabilité du système dans sa totalité.

Sujet :
Nous nous intéressons à intégrer de la connaissance dans ces modèles afin de résoudre au mieux les tâches de raisonnement temporel, et ce via l’expression de contraintes afin de :
• tirer profit du meilleur des deux mondes que sont les contraintes et les modèles de langues acquis par deep learning
• proposer des modèles hybrides en partie explicables
• faire reposer nos systèmes sur une puissance de calcul maîtrisée combinée à une méthodologie reproductible d’injection de connaissances

Concrètement, étant donné un système d’apprentissage profond reposant sur un modèle de langue entraîné à traduire un texte en un graphe temporel représentant les évènements narrés dans le texte en entrée, l’injection de connaissances via l’expression de contraintes modifiera les sorties du système.
Nous cherchons à figer une méthodologie permettant d’injecter des connaissances de manière incrémentale afin de guider notre système tout en maîtrisant :
• la taille de notre modèle
• la taille de nos données d’entraînement
• la complexité de nos contraintes

Profil du candidat :
Idéalement, la personne recrutée terminera des études de niveau Master (Master 2) et disposera de connaissances théoriques et pratiques sur les techniques par apprentissage profond. Un intérêt pour la langue et son traitement automatique serait apprécié, sans être un pré-requis à recrutement.

Formation et compétences requises :
niveau Master (Master 2)

Adresse d’emploi :
LIFO Orléans campus de la Source

Document attaché : 202402081058_Sujet_Stage.pdf

Categories: Stages

Challenges of Mixed Data Clustering

Tickets

Feb 29 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : SimpleText/– — –

Laboratoire/Entreprise : DVRC
Durée : 4 mois
Contact : sonia.djebali@devinci.fr
Date limite de publication : 2024-02-29

Contexte :
Industrial context

The energy sector is in the midst of significant transformation, prompted by the need to increase the use of renewable energy sources and improve energy efficiency, becoming a Smart Grid. This cutting-edge technology allows for the analysis, management, and coordination of energy production, consumption, and distribution, all with the goal of promoting more sustainable practices. A challenge arises from the fact that the data is mixed, containing both numerical and categorical information, often in the form of a data stream. Analyzing this kind of data requires adapted methods. As a result, traditional methods that are designed for numerical data are not well-suited to this type of data.
Advanced tools for analyzing complex systems that can handle rich and heterogeneous data are crucial for Trusted Third Parties for Energy Measurement and Performance to provide independent energy performance analysis and recommendations for clients. It is important that these tools are also easily interpretable by energy experts to facilitate classification and recommendation.
Creating clusters of similar buildings is an effective way to handle complex energy data. Hierarchical clustering of mixed data is a crucial approach that allows energy experts to easily associate clusters with recommendations. It is an essential tool for not only the energy sector but also has diverse applications in fields such as biology, medicine, marketing, and economics.

Sujet :
Scientific context

Although mixed data is widespread, clustering tools specifically designed for it are limited. Some of the bottlenecks have already been defined in a previous scientific paper. Here is a non-exhaustive list of bottlenecks one can encounter when handling mixed data in a pipeline:

Data preprocessing: Data preprocessing is a critical step in mixed data clustering like handling missing data, encoding categorical data, and scaling numerical data.
Feature selection: Mixed data clustering requires feature selection to be performed before clustering. However, selecting relevant features can be a challenging and time-consuming task.
Metric selection: Choosing the right distance metric to measure the similarity between different data types.
Evaluation: There is a lack of standard evaluation criteria for mixed data clustering, which makes it hard to compare different methods.
Computational complexity: Mixed data clustering involves dealing with different types of data and distance metrics, which can result in high computational complexity.
Visualization: It is difficult to create visualizations that effectively communicate the relationships between different data types.
Interpretation: Understanding the relationships between different data types can be challenging, especially if the clusters are not well-separated or the data are altered before using any methods.

Profil du candidat :
Etudiant(e) de niveau M1 ou M2 en informatique (Master ou école d’ingénieurs).

Formation et compétences requises :
Connaissance en Machine Learning, Clustring, Python et expérience dans l’utilisation de bibliothèques de ML,
Forte appétence pour la recherche académique
Capacité à effectuer des recherches bibliographiques
Rigueur, synthèse, autonomie, capacité à travailler en équipe

Adresse d’emploi :
Pole Léonard de Vinci
92 916 Paris La Défense Cedex

Document attaché : 202312221037_2024_Stage_MixedData.pdf

Categories: Stages

Développement d’un Système de Deep Learning pour l’Estimation de l’Âge Biologique des enfants

Tickets

Feb 29 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sesstim, Aix Marseille Université
Durée : 6 Mois
Contact : raquel.urena@univ-amu.fr
Date limite de publication : 2024-02-29

Contexte :
Estimer l’âge d’un enfant est crucial pour comprendre son développement général. L’âge chronologique est la donnée la plus communément utilisée puisque les dates de naissance des patients sont connues dans la majorité des cas. Cependant, cet âge chronologique ne reflète pas entièrement la maturité physiologique d’un individu et n’est donc pas un facteur fiable [1]. Par conséquent, la croissance d’un enfant peut être estimée en évaluant un âge biologique.
L’estimation de l’âge biologique (EAB) s’applique dans divers domaines, notamment en odontologie pédiatrique et en orthodontie, où elle constitue un outil fondamental pour le diagnostic et la planification des traitements [2]. Cette estimation se pratique également couramment dans le domaine judiciaire, en contexte d’évaluation de responsabilité pénale, d’établissement d’un profil biologique ou d’identification de migrants mineurs isolés [3].
La précision de l’EAB chez les enfants revêt une importance cruciale en odontologie pédiatrique, avec des implications dans les domaines de la clinique, du médico-légal et de l’orthodontie. L’estimation de l’âge biologique (EAB) est une clé pour évaluer la croissance et le développement du patient, facilitant la planification des traitements et soutenant la vérification de l’âge dans des contextes médico-légaux.

Sujet :
L’objectif est de mettre en place un système de deep learning capable d’estimer à la fois un âge dentaire à partir de radiographies panoramiques dentaires et un âge osseux à partir de téléradiographies de profil. Le stagiaire travaillera sur l’implémentation et l’évaluation de méthodes de Machine Learning et Deep Learning en utilisant des données réelles (radiographies dentaires et téléradiographies de profil). Les missions incluent le nettoyage et l’analyse des données, la recherche de méthodes d’IA applicables, l’implémentation, l’entraînement des modèles et la documentation des développements réalisés.

Profil du candidat :
Bonne connaissance en deep learning et traitement d’images. Maîtrise de l’environnement Python, Pytorch, Keras et Tensorflow. Capacité d’analyse et de synthèse, autonomie, esprit d’initiative, connaissances du secteur de la santé appréciées, aptitude à travailler en mode projet avec une communication efficace (Français et/ou Anglais).

Formation et compétences requises :
M2 en Informatique, Statistique ou Mathématiques

Adresse d’emploi :
Faculté des sciences médicales et paramédicales – 27 Bd Jean Moulin 13385 Marseille Cedex 5 FRANCE

Document attaché : 202401110930_Proposition-Stage-Dentaire.pdf

Categories: Stages

Stage M2 : Validation de données de pollution mesurées par micro-capteur

Tickets

Feb 29 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIRIS, Lyon
Durée : 5-6
Contact : stefan.duffner@insa-lyon.fr
Date limite de publication : 2024-02-29

Contexte :
–

Sujet :
–

Profil du candidat :
–

Formation et compétences requises :
–

Adresse d’emploi :
–

Document attaché : 202401111242_Sujet_PFE_Atmo_Liris_Validation_micro-capteurs__1_.pdf

Categories: Stages

Mar

Fri

2024

Explicabilité pour l’analyse d’opinions dans les médias sociaux

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ETIS UMR 8051
Durée : 6 mois
Contact : maria.malek@cyu.fr
Date limite de publication : 2024-03-01

Contexte :
Nous avons exploré dans des travaux récents portant sur l’analyse des médias sociaux, la combinaison des méthodes classiques d’exploration d’opinion avec celles de l’analyse des réseaux sociaux ainsi que leur impact sur la formation et la propagation d’opinion. Afin d’étudier l’impact des utilisateurs influents (nœuds influents), plusieurs facteurs d’influence extraits du réseau (graphe) ont été intégré dans le processus d’exploration d’opinions. Ces facteurs sont généralement calculés en utilisant différentes mesures de centralité comme le degré, la proximité, l’intermédiarité, la centralité PageRank, etc.

En intégrant une méthode d’explicabilité adéquate, nous souhaitons rendre plus compréhensible également les résultats concernant la polarité de l’opinion trouvée au niveau des utilisateurs et au niveau des groupes (communautés). De même, le modèle doit être capable d’expliquer les changements d’opinion détectés en prenant en compte les informations extraites du réseau de propagation et les séquences d’actions entreprises (par exemple : tweets, retweets, réponses) menant à ce changement.

Un modèle transparent basé sur l’apprentissage automatique pour la détection de la modification d’opinions au sein des réseaux égocentriques autour des influenceurs, a été proposé. Ainsi, des caractéristiques (attributs) de différentes natures (textuelle, contextuelle et topologique) qui expliquent la modification de l’opinion, ont pu être identifiées. Nous souhaitons généraliser cette approche afin de pouvoir proposer un cadre général de l’explicabilité pour l’analyse des opinions dans les médias sociaux.

Sujet :
Le but de stage est de proposer et d’intégrer une (ou plusieurs) méthode(s) d’explicabilité dans les algorithmes d’analyse d’opinions afin de produire des explications émergeantes qui combinent des informations nodales (comme le profil d’utilisateur et les données textuelles) et topologiques extraites de la structure du graphe de propagation des opinions.

L’objectif est d’étudier et de compare deux principales approches de l’explicabilité dans les réseaux complexes à travers l’exemple de l’étude de l’analyse d’opinions : la première consiste à l’utilisation des méthodes XAI lors de l’application des méthodes d’apprentissage automatique pour l’analyse des réseaux, comme par exemple, les méthodes de network embedding ainsi que les réseaux de neurones en graphes (Graph Neural networks), la deuxième approche consiste à définir des méthodes d’explicabilité propres au domaine de l’analyse des réseaux. Ces méthodes seront par nature spécifiques et en lien étroit avec les algorithmes d’analyse du graphe du terrain social utilisés lors de l’analyse d’opinions.

Profil du candidat :
Dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine en lien avec l’informatique ou les mathématiques appliquées.

Formation et compétences requises :
Connaissances en apprentissage automatique et compétences en Python. Une compétence en analyse des réseaux complexes sera appréciée.

Adresse d’emploi :
ETIS UMR8051, CY Université, ENSEA, CNRS
Site Saint Martin 1
2, avenue Adolphe Chauvin
95302 CERGY PONTOISE

Document attaché : 202401171405_Proposition_M2_ETIS_Explicabilité_AnalyseOpinions.pdf

Categories: Stages

Imputation of missing data in a domain adaptation context

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA
Durée : 5 mois
Contact : laetitia.chapel@irisa.fr
Date limite de publication : 2024-03-01

Contexte :
AI methodologies typically depend on extensive datasets that may be tainted by noise, missing values, or can be collected in heterogeneous yet related environments. Data with missing values are ubiquitous in many applications; they can be due to equipment failure, incomplete information collection (e.g. clouds in the remote sensing case) or inadequate data entry for instance. Nevertheless, conventional
learning algorithms often assume that the data are complete and independent and identically distributed, that is to say they have been drawn randomly from a single distribution.
Data imputation aim at substituting missing data by plausible values, e.g. by filling them by the value of the nearest sample or by imputing with some relevant statistics. The imputation can have a high
impact on performances of the learning task at hand, leading to biased results or degraded performances. Most of the imputation methods rely on some (completely) missing at random assumption and with no pattern between the missingness of the data and any values. More challenging scenario deal with random block missing or blackout missing, in which blocks of information are missing and where the
structure of block-wise missing data should be further taken into consideration.

In practice, the data are often collected on different yet related domains, offering the potential to enhance the generalization capability of the learning algorithm. For instance, in Earth observation, and especially for land cover mapping applications, the differences in weather, soil conditions or farmer practices between study sites are known to induce temporal shifts that can be corrected to enhance task performance. For predicting crop yield, the variability under changing climates and severe weather events have to be taken into account when considering data from the past to predict the evolution of the yield.
Domain adaptation [6, 7] aims to transfer knowledge from one domain to another and has demonstrated significant enhancements in classification or clustering tasks when domain shifts are carefully managed.

Sujet :
The aim of the internship is to study the potential of data imputation method within the context of domain adaptation. Existing approaches mostly tackle missing values within an inferential framework, wherein they are replaced with values derived from dataset statistics, relying on robust parametric assumptions. However, when a shift exists between the datasets, this strategy becomes inadequate. Instead, we propose to address imputation and learning tasks concurrently, introducing the additional complexity that the data may originate from different domains.
The research directions will explore optimal transport-based solutions, known for their success in
imputing missing values and aligning distributions in a domain adaptation context, especially
when dealing with temporal data.

Profil du candidat :
Master student
== peut éventuellement être poursuivi par une thèse ==

Formation et compétences requises :
Applicants are expected to be graduated in mathematics/statistics and in computer science and/or machine learning and/or signal & image processing, and show an excellent academic profile.
Beyond, good programming skills are mandatory.

Adresse d’emploi :
Laboratoire IRISA, Rennes

Document attaché : 202401180900_Missing_data_and_DA___internship-2.pdf

Categories: Stages

Knowledge graph completion leveraging pre-trained language models and GNNs

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ISID and Vertigo teams at Centre d’études et de re
Durée : 6 mois
Contact : nada.mimouni@cnam.fr
Date limite de publication : 2024-03-01

Contexte :
In the field of cultural heritage, and painting in particular, the management of large collections has become increasingly complex over the years. Heritage data, including aspects such as names, creators, representations and images, have posed significant challenges for curators and researchers alike.
Semantic knowledge graphs have emerged as a promising approach to representing cultural heritage datasets. They provide a structured framework for integrating heterogeneous data sources, enabling comprehensive exploration and reasoning about cultural artworks and
their relationships. However, existing knowledge graphs are far from complete in this domain, and creating and populating semantic models for heritage data is a resourceintensive undertaking, requiring substantial human expertise. Knowledge graph completion (KGC) approaches have been proposed to enhance knowledge graphs by completing their missing connections. In this work, we aim to extend knowledge-graph completion techniques to this specific data domain, by leveraging both pre-trained language models and Graph Neural Networks (GNNs) to facilitate the efficient creation and extension of
knowledge graphs.

Sujet :
The work will be organized as follows:
– Related work: analysis of existing approaches on the use of pre-trained language models and GNNs to improve knowledge graph completion (KGC).
– Data: collection and creation of benchmarks to evaluate the models.
– Methodology: definition of a methodology for data preparation and knowledge graph enrichment.
– Interpretation and evaluation: carry out a quantitative assessment of the proposed methods for KGC, based on the created benchmarks, in order to establish their effectiveness in this context. An effort towards explaining these results should be made.

Profil du candidat :
A master degree in one or more of the following areas: machine learning, natural language processing, symbolic AI, semantic web.

Formation et compétences requises :
As a minimum requirement, the successful candidate should have:
• A master degree in one or more of the following areas: machine learning, natural language processing, symbolic AI, semantic web.
• Excellent programming skills (Java or Python)
• Excellent command of English
• Experience with machine learning and graphs

Adresse d’emploi :
Conservatoire National des Arts et Métiers Paris, 2 rue Conté, 75003

Document attaché : 202402231005_Internship_KGC_CNAM-list.pdf

Categories: Stages

Optimal transport for novelty and out-of-distribution detection

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IRISA / LITIS
Durée : 5 mois
Contact : laetitia.chapel@irisa.fr
Date limite de publication : 2024-03-01

Contexte :
For a decision-making system trained on data to be reliable, it must possess the ability to adjust its decisions based on di erences between the distribution ptrain(Xtrain; Ytrain) of training samples and that of test samples ptest(Xtest; Ytest). In case of distribution shift, deep-based-approaches may be overcon dent and tend to treat the given inputs as one of the previously seen situations leading to mislabelling. This underscores the challenges in detecting out-of-distribution (OOD) samples, where the test point x0 is marginally sampled from ptest(x0) = ptrain(x0), or recognizing that point x0 belongs to an unseen class (involving a new type of object in the scenes for instance). Additionally, given the multimodal nature of inputs and variations in sensor availability, samples may not be embedded into the
same space, posing further challenges related to incomparable spaces. Our approach envisions employing optimal transport theory to develop algorithms addressing out-of-distribution detection, aiming for a
robust optimal transport framework. Optimal transport (OT) has become a potent tool for computing distances (a.k.a. Wasserstein or
earth mover’s distances) between data distributions, facilitated by new computational schemes that make transport computations tractable.

Sujet :
The primary goal of the internship is to investigate the behavior of optimal transport (OT) in scenarios where distributions are tainted by outliers or out-of-distribution (OOD) samples and to formulate a robust OT framework. Existing studies have utilized OT in such contexts, employing a straightforward rule that identifies points significantly distant from the other distribution as outliers. While approaches
like the regularization path or OT profiles have been effective in selecting optimal regularization parameters, particularly using techniques like the elbow rule, they may fall short when dealing with points
that are OOD but situated “between” the two distributions.
Conversely, Monge-Kantorovich (MK) quantiles and ranks present an alternative. This method replaces the traditional “left-to-right” ordering of samples with a “center-outward” approach applicable in Rd.

The internship’s specific objectives include: i) examining how the placement of outliers influences the OT solution, ii) developing a robust OT formulation with statistical guarantees, leveraging MK quantiles,
and iii) implementing the solution in the POT toolbox.
Furthermore, the internship will explore the integration of partial-OT-based loss in deep learning approaches as a means to evaluate the proposed methods. Ensuring scalability will be a crucial aspect
of the method’s development. Additionally, investigations into adapting the approach for incomparable spaces will be undertaken.

Profil du candidat :
Master student

Formation et compétences requises :
Applicants are expected to be graduated in applied mathematics/statistics and/or
machine learning and show an excellent academic profile. Beyond, good programming skills are expected.

Adresse d’emploi :
Depending on the candidate:
– LITIS in Rouen
– IRISA in Rennes

Document attaché : 202401180908_OT for OOD – madics.pdf

Categories: Stages

Seismic Waves to Marine Pulses: A Cura6on Pipeline for Building an Earth Sciences and Biodiversity Data Lake in the Portuguese Carabela Jellyﬁsh and Seismology Studies

Tickets

Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIRIS et ERIC
Durée : 4-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2024-03-01

Contexte :
Projet international LETITIA (Lac de donnéEs, expérimenTation, vIe, Terre, curatIon, explorAtion)

HOME

Sujet :
The project focuses on designing and creating a data lake for gathering and integrating (meta)data on data-driven experiments in life and earth sciences.

The integration and fusion of data and metadata in the ﬁelds of life and earth sciences calls for
the proposal of data and knowledge representations to structure the diverse information
collected and produced for/within an experimental framework. Data lakes appear to be a
relevant solution for managing and making available this diversity of data. Metadata models
need to be devised to connect the data, and appropriate organisation and exploration
mechanisms need to be devised that are relevant in the context of life and earth sciences.
The extraction of value through data-driven experiments in the life and earth sciences is
determined by two main elements. (1) First, the maintenance of metadata collecting the
conditions under which experiments are performed (quantitative perspective) to preserve the
memory of the experimental process of knowledge production and to enable understanding
and reproducibility. (2) Secondly, an open science perspective that can go beyond the sharing
of data and must consider the sharing of know-how, decision-making, elements of expertise,
project management and the people within projects who deﬁne the context in which
experiments are carried out (qualitative perspective).

Profil du candidat :
MSc in Computer/Data Science

Formation et compétences requises :
databases (data models, querying, distributed databases –
preferable), data processing techniques (preferable), good programming skills

Adresse d’emploi :
Genoveva Vargas-Solar, CNRS, LIRIS
genoveva.vargas-solar@cnrs.fr
Jérôme Darmont, U. Lumière Lyon 2, ERIC
jerome.darmont@univ-lyon2.fr

Document attaché : 202402221539_letitia-internship-position.pdf

Categories: Stages

Mar

Mon

2024

Génération de dashboards interactifs pour les motifs impactant la survie

Tickets

Mar 4 – Mar 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Equipe BdTln du LIFAT
Durée : 4 à 6 mois
Contact : youssef.oubelmouh@etu.univ-tours.fr
Date limite de publication : 2024-03-04

Contexte :
L’attrition des employés est un problème croissant dans les entreprises technologiques à l’échelle mondiale, et plus particulièrement au sein des entreprises informatiques/cabinets de conseil. La compréhension des tendances liées à l’attrition des employés est cruciale pour le développement de stratégies efficaces de gestion des ressources humaines. Cependant, les travaux récents dans le domaine de l’analyse de données ne prennent pas en compte la notion du temps et des durées dans l’étude de l’attrition des employés [1]. Pour mieux saisir l’aspect temporel de l’attrition, une méthode a été développée pour combiner les techniques d’exploration de motifs séquentiels dans les séquences d’événements avec l’analyse de survie [2]. Cette approche permet d’extraire les motifs qui modifient la courbe de survie par rapport à un contexte donné. Par exemple, le motif a une survie très différente de , indiquant ainsi que est un motif ayant un impact sur la survie de . Afin d’exploiter les motifs extraits caractérisant la survie, les utilisateurs RH ont besoin d’un outil pour visualiser et explorer cette collection de motifs. Cet outil devrait permettre de projeter l’impact des motifs en s’appuyant sur des indicateurs clés de performance pour faciliter la prise de décision.

Sujet :
L’objectif de ce stage est donc de développer des dashboards interactifs permettant une visualisation approfondie des motifs impactant la survie, facilitant ainsi la prise de décision en matière de rétention des employés pour les professionnels des ressources humaines.

Profil du candidat :
Cursus en informatique et science des données avec un goût pour la visualisation.

Formation et compétences requises :
Compétences requises : Bonnes connaissances en JavaScript, CSS, HTML. Connaissances en traitement de données, expérience souhaité avec des outils de visualisation de données, compétences en programmation (Python) appréciées.
Connaissance souhaitées : React, Chart.JS et/ou D3.JS

Adresse d’emploi :
3 place Jean Jaurès, 41000 blois

Document attaché : 202402011025_stage_Master2_dashboards_retention_employés.pdf

Categories: Stages

Machine learning for time series prediction in environmental sciences

Tickets

Mar 4 – Mar 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT EA 6300, Université de Tours
Durée : 4 to 6 months
Contact : nicolas.ragot@univ-tours.fr
Date limite de publication : 2024-03-04

Contexte :
This internship takes place in the JUNON Project (directed by the BRGM) which goal is to elaborate digital services through large scale digital twins in order to improve the monitoring, understanding and prediction of environmental resources evolution and phenomena, for a better management of natural resources.

Sujet :
The goal of this internship will be to analize data and to build prediction models about pollutants and greenhouse gases using meteorological data as well as measurements of pollutants observed in the past (other factors could also be included).

see: http://www.rfai.lifat.univ-tours.fr/internship-position-master-2-in-artificial-intelligence-machine-learning-data-analysis-for-time-series/

Profil du candidat :
Academic level equivalent to a Master 2 in progress or Engineer in its 5th year, in computer science

Formation et compétences requises :
– a good experience in data analysis and machine learning (in python) is required
– some knowledge and experiences in deep learning and associated tools will be highly considered
– some knowledge in time series analysis and forecasting will be highly considered
– curiosity and ability to communicate and share your progress and to make written reports
– ability to propose solutions
– autonomy and good organization skills

Adresse d’emploi :
LIFAT, 64 Avenue Jean Portalis, 37200 TOURS

Document attaché : 202402011448_Fiche de poste stage Junon.pdf

Categories: Stages

Vers une prédiction des régimes d’écoulements gaz-liquide par l’intelligence artificielle

Tickets

Mar 4 – Mar 5 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : Laboratoire de Génie Chimique
Durée : 6
Contact : rachid.ouaret@toulouse-inp.fr
Date limite de publication : 2024-03-04

Contexte :
La distribution des fluides est un enjeu majeur des réacteurs gaz-liquide, notamment pour les
réacteurs de structures fines et de type monolithe. En effet, dans ces réacteurs, composés de
canaux millimétriques parallèles, aucune redistribution au cœur du réacteur ne peut
contrebalancer les défauts d’injection pouvant impacter la conversion et la sélectivité des
réactions en présence. Pour faire face à ce problème, des distributeurs innovants, obtenus par
impression 3D, ont été brevetés au Laboratoire de Génie Chimique, mais leur validation
nécessite de pouvoir caractériser les écoulements dans un grand nombre de canaux
simultanément. Un capteur résistif innovant a été mis au point au LGC pour caractériser en
temps réel, sans visualisation, des écoulements gaz-liquide dans un grand nombre de canaux
millimétriques parallèles. Un traitement de signal spécifique a été développé, mais il nécessite de
connaître a priori le régime d’écoulement dans chaque canal interrogé, ce qui s’avère complexe
avec les méthodes de traitement du signal classique. Par ailleurs, les signaux de tension délivrés
par le capteur regorgent d’informations non encore exploitées, comme l’amplitude du signal ou
des variations périodiques secondaires du signal, qui, mises en perspective, peuvent permettre
d’identifier le régime d’écoulement. La caractérisation des régimes d’écoulement peut être
abordée par les modèles d’apprentissage automatique (machine learning) en mettant en œuvre les
méthodes de classification. Ces modèles, de plus en plus utilisés dans la littérature de spécialité, visent à identifier qualitativement les régimes d’écoulement et/ou quantitativement les débits ou
les taux de vide, à partir de données caractéristiques de l’écoulement [1] ou de données indirectes
issues des capteurs [2], et ce dans différents types de réacteurs gaz-liquide (voir la revue de Yann
et al. 2018 [3]). Face à ces possibilités, ce stage s’inscrit dans le cadre de l’utilisation des outils
de l’intelligence artificielle pour la caractérisation des écoulements confinés à bulles

Sujet :
Ce stage vise à développer des modèles utilisant l’intelligence artificielle pour compléter et
améliorer le traitement des informations issues d’un capteur résistif développé au LGC, afin
d’étendre sa gamme d’application et d’ainsi caractériser au mieux les écoulements et la
maldistribution dans des réacteurs structurés. Le stage s’inscrit dans le volet de modélisation par
les modèles d’apprentissage automatique et visera à identifier les critères d’entrée
(caractéristiques du signal à exploiter) et à évaluer les performances de différents modèles sur les
données recueillies. Ce stage vise à :
● identifier les paramètres d’entrée pertinents (caractéristiques du signal à extraire, ou
signal temporel complet) pour alimenter les modèle de l’apprentissage statistique. Ceci
nécessite de :
○ collaborer avec un autre stage relatif au volet collecte des données ;
○ tester les outils statistiques classiques permettant de hiérarchiser les variables
d’entrée selon leur importance.
● mettre en œuvre les modèle d’apprentissage pour la classification des régimes
d’écoulement.
● Prédire les régimes d’écoulement, le taux de vide et/ou la vitesse de bulles

ÉTAPES DU TRAVAIL ATTENDU
1. Synthèse bibliographique des publications abordant l’identification et la caractérisation
des régimes d’écoulement,
2. Élaboration d’une stratégie d’analyse innovante des données issues des capteurs pour
les ’écoulements gaz-liquide
3. Mise en œuvre des modèles de données (apprentissage statistique, …)
4. Rédaction d’un rapport récapitulatif

Profil du candidat :
Niveau master 1 ou 2 (2ᵉ année ou 3ᵉ année en cycle d’ingénieur)
● Connaissances approfondies en apprentissage automatique (Réseaux de Neurones, …)
avec une bonne maîtrise de la programmation (i.e. Python, R et/ou Matlab),
● Bases en science physique sont très appréciées.
● Maîtrise de l’anglais, motivation, persévérance, curiosité.

Formation et compétences requises :
Statistique appliquée,
Informatique
Traitement du signal

Adresse d’emploi :
Le stage se déroulera au Laboratoire de Génie Chimique (LGC) situé à TOULOUSE (31)
(https://lgc.cnrs.fr), pendant 6 mois, et sur un rythme hebdomadaire de 35h/semaine. La
gratification est de 4,35€ par heure de présence active. Le travail de stage sera directement
encadré par le LGC de Toulouse, et fera l’objet de réunions d’avancement hebdomadaires.

Document attaché : 202402011131_Offre_stage_projet_ETI_2024_vf.pdf

Categories: Stages

February – March 2024 Feb – Mar 2024

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :