
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS Lab (Rouen)
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2024-04-01
Contexte :
Safe and trustworthy Artificial Intelligence (AI) is central in the deployment of any AI system in major application areas, such as medicine and autonomous vehicles. Its major keystone requirements in Machine Learning (ML) have been recently investigated by researchers of the ML group in the LITIS Lab, including robustness, explainability and fairness. The current internship aims to address anomaly detection, which is a major ingredient of robust ML for Safe and trustworthy AI.
Sujet :
Self-supervised learning has recently emerged as a novel paradigm in Machine Learning, aiming to learn deep representations from unlabeled data. Its main driving force is contrastive self-supervised learning. A main ingredient in contrastive learning is a training scheme that contrasts each sample with augmented versions of itself, where augmentation strategies in imagery include color jittering, image rotation, image flipping and affine geometric transformations. Contrastive learning has been largely investigated for classification tasks, often demonstrating its relevance on well-known image classification benchmarks. However, such classification tasks with labelled training data do not get the most out of the self-supervised learning paradigm.
The goal of this internship is to explore contrastive learning for out-of-distribution detection in time series data. This would allow to take full advantage of the self-supervised learning paradigm for out-of-distribution detection (also called anomaly or novelty detection). The tasks to be carried out by the intern are as follows: The intern will implement different contrastive learning models. She/he will study augmentation methods that are relevant for time series, either by revisiting image transformations in the light of time series or by using distribution-shifting augmentations. The intern will conduct experiments on real time series by considering two contexts: detection from a batch of time series data, and online detection, namely in the context of streaming data.
This internship may lead to a PhD thesis.
Research Environment: This intern will conduct her/his research within the Machine Learning group in the LITIS Lab, under the supervision of Prof. Paul Honeine. This internship will be conducted within a research project gathering 9 permanent researchers of the LITIS Lab and the intern will also interact with several PhD students and interns also working on deep anomaly detection for time series.
References
– Hendrycks, Dan, Mantas Mazeika, Saurav Kadavath, and Dawn Song. “Using self-supervised learning can improve model robustness and uncertainty.” Advances in neural information processing systems 32 (2019).
– Li, Chun-Liang, Kihyuk Sohn, Jinsung Yoon, and Tomas Pfister. “Cutpaste: Self-supervised learning for anomaly detection and localization.” In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 9664-9674. 2021.
– Liu, Xiao, Fanjin Zhang, Zhenyu Hou, Li Mian, Zhaoyu Wang, Jing Zhang, and Jie Tang. “Self-supervised learning: Generative or contrastive.” IEEE transactions on knowledge and data engineering 35, no. 1 (2021): 857-876.
– Tack, Jihoon, Sangwoo Mo, Jongheon Jeong, and Jinwoo Shin. “CSI: Novelty detection via contrastive learning on distributionally shifted instances.” Advances in neural information processing systems 33 (2020): 11839-11852.
Profil du candidat :
Student in final year of Master or Engineering School, in data science, artificial intelligence, applied mathematics, or related fields.
Formation et compétences requises :
– Strong skills in advanced statistics and Machine Learning, including Deep Learning
– Good programming experience in Python
Adresse d’emploi :
LITIS Lab, University of Rouen Normandy, Saint Etienne du Rouvray (Rouen, France).
Application: Applicants are invited to send their CV and grade transcripts by email to paul.honeine@univ-rouen.fr.
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IRISA/UBS
Durée : 6 mois
Contact : chloe.friguet@irisa.fr
Date limite de publication : 2024-04-01
Contexte :
Detailed topic at: http://www-obelix.irisa.fr/files/2023/11/2024_IRISA-UBS_internship_Active-learning-and-object-detection.pdf
The context of this internship is motivated by issues raised in studies
with data collected by airborne imagery. The automation of the processing of this data, by
object detection methods and supervised learning, requires annotated databases. The annotation
step is therefore a task of great interest, both in machine learning (ML) and computer vision
(CV). Carrying it out manually is tedious and costly in terms of time and human resources.
Furthermore, in the case of multimodal images (i.e. acquired by several sensors), annotation
must be performed for each modality.
Active Learning (AL) is related to semi-supervised Machine Learning in which a learning
algorithm can interact at each iteration with the user to get some information about labels of
new data during the training step. It is motivated by situations in which it is easy to collect
unlabeled data but costly (time, money, tedious task) to (manually) obtain their labels. It stems
from the idea that we should only acquire labels that actually improve the ability of the model
to make accurate predictions. Instances that are more useful than others according to some
performance measures have to be identified to create an optimal training dataset: well chosen,
fewer representative instances are needed to achieve similar performance as if we label and use
all available data. This selection process has been investigated as selective sampling [9]. The
importance of an instance is related to a high level of both the information and uncertainty
relative to the trained model, considering therefore a trade-off between informativeness (ability
to reduce the uncertainty of a statistical model) and representativeness (ability to represent the
whole input data space) of the selection process [6].
In remote sensing, AL has therefore become an important approach to collect informative
data for object detection and supervised classification tasks, and to assist the annotation process.
The effectiveness of object detection models is intricately tied to the quantity of annotated data
at their disposal. To overcome this challenge, AL attempts to formulate a strategy for cherrypicking pertinent data that an annotator should annotate, as elucidated by Choi et al. [5]. This
typically involves employing a scoring mechanism that is related to the model’s uncertainties
about the data. Computationally, ascertaining these uncertainties usually necessitates a multimodel approach. However, it’s noteworthy that these ensemble techniques are resource-intensive.
Hence, the overarching objective of AL lies in the formulation of a classification function that
faithfully mirrors the data’s contribution to the learning process.
Sujet :
In the paper by Brust et al. [3], a novel approach to object detection using
deep learning is introduced. Their approach incorporates AL strategies to explore unlabeled
data. The authors proposed and compared various learning metrics that are suitable for most
object detectors, taking into account class imbalance.
To start this project, the first step involves evaluating the performance of a multimodal
object detector (like YOLOrs [10], SuperYOLO [13], YOLOFusion [7] …) with respect to these
1
metrics by applying them to a single modality (RGB for example). This evaluation will be
carried out under different settings, including various sizes of the initial dataset and different
adjustments of algorithm parameters. Then, the aim is to extend the AL strategy to the case
of multimodal images. Indeed, for each object all modalities do not contribute equally to the
classification/localization tasks, one can be more informative than the other.
Finally, metrics proposed by Brust et al. [3], focus on classification uncertainty, however,
the aspect of localization is overlooked. To get the uncertainty of localization, we can use a
strategy like the one of the Gaussian YOLO approach [4, 5] that provides both classification
and localization uncertainties which we can then use with Brust et al. metrics.
Profil du candidat :
Student in computer science and/or machine learning and/or signal & image processing and/or applied statistics
Formation et compétences requises :
good programming skills in Python (Pytorch knowledge appreciated), knowledge of deep-learning for image analysis, and high interest to investigate machine learning methods.
Adresse d’emploi :
IRISA, UBS, Campus de Tohannic, 56000 Vannes
Document attaché : 202311201649_2024_IRISA-UBS_internship_Active learning and object detection.pdf
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : IRISA/UBS
Durée : 6 mois
Contact : minh-tan.pham@irisa.fr
Date limite de publication : 2024-04-01
Contexte :
Detailed topic at: http://www-obelix.irisa.fr/files/2023/11/2023_master_topic_MTL.pdf
In recent years, deep neural networks have been successfully adopted in almost every application
domains of computer vision, including remote sensing for earth observation. The vast number
of remote sensing images captured from frequent satellite passes or aerial acquisition, however,
are not readily usable to train deep networks developed for generic vision problems due to the
lack of task-specific annotations and possible domain gaps.
On the other hand, the individual development efforts of various research groups for their
particular problems result in cluttered annotations and modalities: each dataset is typically
annotated for a few tasks while many tasks may be related to one another and could be jointly
learned to leverage complementary information and improve their performance. Coupling solving
different but related tasks, or well-known in the ML community as multi-task learning, has also
gained increasing attention in the remote sensing community. As multi-task learning aims to
predict different targets from the same inputs, it typically requires annotations of all the target
tasks for each input example to learn the interrelationship at the shared encoder by optimizing
all tasks at the same time.
Obtaining extra annotations to maintain multi-task datasets, however, add extra burden
to the development process. Recently, it has been shown in the vision community that that
multi-task learning could be beneficial even when the tasks are partially annotated [2]. Training
a network for multiple task while the training examples are annotated for a single task can
improve the performance of both tasks. Such discovery could be of interest to explore for the
benefit of remote sensing community.
Sujet :
This project is aimed to research the combination of different datasets annotated for different
tasks which may follow different statistical distributions to benefit and improve performance of
one another. To that end, we will focus on the object detection, i.e. bounding boxes prediction,
and semantic segmentation tasks, which are closely related yet not trivial to combine due to differences in spatial structure and information granularity: object detection predicts bounding-box
coordinates at object instance level while semantic segmentation provides per-pixel predictions
of category including amorphous regions. A general scheme is shown in Figure 1. Another
challenge of the project is to bridge possible domain gaps between the participating datasets
with possible approaches including generative models (GANs, diffusion models, etc.)
Profil du candidat :
Student in computer science and/or machine learning and/or signal & image processing;
Formation et compétences requises :
Python programming and familiarity with deep learning framework (Pytorch/Tensorflow);
Adresse d’emploi :
IRISA (UMR 6074) is located in the UBS (Université Bretagne Sud), campus de Tohannic, Vannes 56000, France.
Document attaché : 202311201646_2023_master_topic_MTL.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4-5 mois
Contact : faiza.loukil@univ-smb.fr
Date limite de publication : 2024-04-01
Contexte :
Depuis plusieurs années, des travaux sont menés au LISTIC expérimentant des méthodes d’analyse de données et proposant des outils (applications mobiles) dans l’objectif d’estimer le risque d’avalanche lors de sorties en ski alpinisme. Une sous partie de ces travaux concerne l’analyse de données météorologiques
précipitations, vent) avec pour objectif l’identification et l’étude de corrélations entre des phénomènes météorologiques, la situation géographique du lieu (massif montagneux) et le déclenchement d’avalanches.
Sujet :
Objectif du stage :
L’objectif du stage est de poursuivre ces travaux en utilisant des méthodes d’analyse de données et d’IA. En partant des données de précipitation de certaines stations météo dans les massifs alpins savoyards, des données temporelles (jour, heure) et de l’historique des avalanches disponibles, peut-on déterminer (prédire) les conditions (météo) qu’il va y avoir sur d’autres stations dans un certain périmètre géographique ?
Dans un second temps, le travail portera sur la détermination d’un seuil pluviométrique à partir duquel les avalanches sont davantage susceptibles de se produire ; actuellement, le seuil est déterminé par l’expert qui s’en remet à son expérience.
L’étude porte sur des données issues de différentes sources (stations météo, sites Web fournissant des données météo et données sur les avalanches).
Le travail consiste :
– à identifier et compléter les différentes sources de données qu’il est possible d’utiliser
– à mettre en place un processus systématique d’analyse de données (allant de la préparation des données à leur analyse)
– à sélectionner les méthodes d’analyse qui sont pertinentes et permettraient de “prédire” l’apparition de conditions météo (pluviométriques) favorables à de potentiels déclenchements
d’avalanches
– à proposer une chaîne automatisée de traitements, générique
et reproductible.
Profil du candidat :
Etudiant-e- en M2 ou 5ᵉ année École Ingénieur en Informatique.
Formation et compétences requises :
Compétences requises :
Méthodes d’analyse de données et IA, Apprentissage Machine,
Programmation Python. Un intérêt pour les activités de montage est attendu chez le/la candidat-e.
Adresse d’emploi :
LISTIC – POLYTECH Annecy-Chambéry
5 chemin de Bellevue – Annecy-le-Vieux, France.
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : StatSC Oniris VetAgroBio Nantes
Durée : 6 mois
Contact : veronique.cariou@oniris-nantes.fr
Date limite de publication : 2024-04-15
Contexte :
La digestion anaérobie, ou méthanisation, est un bioprocédé permettant de convertir la matière organique en biogaz, riche en
méthane. Ce bioprocédé est utilisé de plus en plus largement à l’échelle industrielle pour la valorisation des déchets organiques
en énergie renouvelable. Il repose sur l’activité d’une communauté microbienne complexe, dynamique, et sensible aux
variations des conditions opératoires. Cette sensibilité peut avoir pour conséquence une instabilité du procédé, et des
répercussions importantes pour les opérateurs. Afin d’optimiser la digestion anaérobie, une compréhension approfondie du
fonctionnement des communautés microbiennes, en particulier face à des stress, est essentielle. Les méthodologies haut-débit
omiques s’avèrent des outils particulièrement pertinents pour cela. La métagénomique, la métatranscriptomique, la
métabolomique et la métataxonomique permettent en effet de caractériser une communauté microbienne à différents
niveaux de son fonctionnement. Ces approches sont particulièrement intéressantes lorsqu’elles sont utilisées dans un contexte
longitudinal, c’est-à-dire en analysant une suite temporelle d’échantillons plutôt que des échantillons uniques. Ainsi, il est
possible de mieux saisir la dynamique de l’écosystème microbien suite à un changement de paramètre opératoire ou à un
stress, et de proposer des solutions pour limiter les répercussions sur le procédé.
Cependant la plupart des méthodes statistiques utilisées pour analyser les données omiques ne tiennent pas compte
explicitement de la temporalité, et traitent les différents points de temps comme des échantillons indépendants. Pour exploiter
pleinement le potentiel des données longitudinales et prendre en compte le lien temporel entre les échantillons, la création
de pipelines analytiques spécifiques est requise. Ces pipelines permettraient d’identifier les marqueurs biologiques associés à
l’évolution des conditions opératoires et à l’évolution des performances des procédés. On pourrait chercher des liens entre les
dynamiques temporelles des microorganismes et faire des hypothèses biologiques. On pourrait également envisager de
déconvoluer l’effet des différents facteurs sur les dynamiques microbiennes et par exemple distinguer la dynamique naturelle
de l’écosystème de l’effet spécifique d’un paramètre donné.
Sujet :
Dans ce contexte, l’objectif du stage sera de mettre en place un pipeline analytique spécifique pour la valorisation des données
omiques longitudinales issues de bioprocédés. Différents défis statistiques seront à résoudre (Kodikara et al. 2022). Des jeux
de données omiques (metataxonomique, métagénomique, métabolomique) issues d’échantillons prélevés dans des
bioréacteurs de laboratoire sont disponibles. Elles proviennent d’expériences réalisées dans l’unité PROSE pour évaluer les
conséquences de différents stress salins sur les performances de la digestion anaérobie. On pourra s’appuyer sur des travaux
préliminaires précédents (Bodein et al. 2019, Chapleur et al. 2021).
Bodein, A., Chapleur, O., Droit, A. and Lê Cao, K.-A. (2019) A Generic Multivariate Framework for the Integration of Microbiome Longitudinal Studies With
Other Data Types. Frontiers in Genetics 10(963).
Chapleur, O., Poirier, S., Guenne, A. and Lê Cao, K.-A. (2021) Time-course analysis of metabolomic and microbial responses in anaerobic digesters exposed to
ammonia. Chemosphere 283, 131309.
Kodikara, S., Ellul, S. and Lê Cao, K.-A. (2022) Statistical challenges in longitudinal microbiome data analysis. Briefings in Bioinformatics 23(4).
Profil du candidat :
– Connaissances solides en statistiques et en particulier en analyse de données,
– Aptitude à développer des scripts de traitement de données sous R,
– Capacités rédactionnelles et lecture d’articles scientifiques en anglais,
– Aptitudes au travail en équipe et à la communication.
Formation et compétences requises :
Master 2 en statistique / biostatistique
Adresse d’emploi :
Oniris VetAgroBio
Campus des Sciences de l’Ingénieur
44300 Nantes
Document attaché : 202403151506_DOMULO_Stage_M2_StatSC_PROSE_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LORIA
Durée : 6 mois
Contact : lydia.boudjeloud-assala@univ-lorraine.fr
Date limite de publication : 2024-04-15
Contexte :
L’identification de communautés sur les réseaux sociaux est généralement effectuée selon deux types d’approches. La première consiste en l’exploitation de la similarité entre les individus du réseau social considéré en fonction de leurs caractéristiques (âge, sexe, activité sur un service donné, appréciations musicales, etc.). La seconde consiste en l’exploitation du graphe des liens sociaux explicites entre les individus (amis sur Facebook, suivis/suiveurs sur Deezer, etc.) afin d’en extraire des cliques ou des quasi-cliques.
L’une des problématiques de ce domaine de recherche est l’évaluation de la pertinence des communautés extraites. Une solution répandue consiste à vérifier d’une part que les individus au sein de chaque groupe sont fortement similaires (haute similarité intra-cluster), et d’autre part que la similarité entre les individus de groupes différents est faible (faible similarité inter-cluster). Le problème de cette solution est qu’un score élevé calculé selon ce type de critères ne correspond pas forcément à des communautés pertinentes, et que des communautés extraites très différentes peuvent avoir des scores très proches.
Une manière possible d’amoindrir ce problème serait de croiser deux points de vue différents, chacun correspondant à l’un des deux types d’approches de clustering mentionnées ci-dessus. En effet, ces deux types d’approches utilisant des informations très différentes en entrée, leurs sorties sont souvent très différentes elles aussi. Or, la meilleure version de chacune de ces approches devrait en principe produire des communautés aussi proches des communautés réelles du réseau social considéré que possible, et leurs sorties respectives devraient elles aussi être aussi similaires que possible. La pertinence d’un algorithme correspondant à l’un de ces deux types d’approches pourrait ainsi être évaluée en fonction de la distance entre sa sortie et celle d’un algorithme de l’autre type. L’idée est donc de rechercher une stratégie de dialogue qui, étant donnés deux algorithmes des deux types (similarité et liens sociaux), permette à ces algorithmes de converger vers des sorties aussi similaires que possible.
Sujet :
Objectifs
Les objectifs de ce stage porteront ainsi sur la détermination de stratégies de dialogue entre les deux types d’algorithmes et sur la possibilité d’obtenir une convergence. Un bon point de départ est l’article de Forestier et al. (2010) sur la résolution itérative de conflits entre clusterings.
Nous fournirons au stagiaire une base de données issue du site senscritique, qui permet à ses utilisateurs de rédiger des critiques de films, de livres, de musique, etc., d’attribuer des notes et de suivre d’autres utilisateurs.
Dans un premier temps, le stagiaire devra se familiariser avec d’une part les algorithmes classiques de clustering (K-means, DBscan, etc.) et d’autre part les algorithmes d’extraction de quasi-cliques (Quick, alpha-bêta-cliques, etc.). Des bibliothèques implémentant ces algorithmes seront exploitées dans un second temps pour observer les différences entre les communautés produites en fonction du type d’algorithme et des paramètres choisis (nombre de clusters, densité des clusters, connectivité minimale du voisinage, etc.). Enfin, des stratégies itératives permettant de faire dialoguer les deux types d’approches seront proposées, implémentées et expérimentées.
https://homepages.loria.fr/gbonnin/internships/detection-of-communities-fr.html
Profil du candidat :
Master, école d’ingénieur
Formation et compétences requises :
Compétence en Informatique, Science de donnée, Machine Learning,
Adresse d’emploi :
LORIA Nancy
Document attaché : 202401161044_Nancy_MasterThesis_Description___Identification_de_communautés__Copy_.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire des signaux et syst`emes (L2S)
Durée : between 4 and 6 mont
Contact : stefano.fortunati@centralesupelec.fr
Date limite de publication : 2024-04-16
Contexte :
Reinforcement Learning (RL) methodologies are currently adopted in different context requiring sequential decision-making tasks under uncertainty. The RL paradigm is based on the perception-action cycle, characterized by the presence of an agent that senses and explores the unknown environment, tracks the evolution of the system state and intelligently adapts its behavior in order to fulfill a specific mission. This is accomplished through a sequence of actions aiming at optimizing a pre-assigned performance metric (reward). Despite of their wide applicability, classical RL algorithms are based on a cumbersome assumption: the stationarity of the environment, i.e. the statistical and physical characterization of the scenario, is assumed to be time-invariant. This assumption is clearly violated in surveillance application, where the position and the number of targets, along with the statistical characterization of the disturbance may change over time. To overcome this limitation and include the non-stationarity in the RL framework, both theoretical and application-oriented non-stationary approaches have been proposed recently in the RL literature. The application of these non-stationary-based line of research to robust radar detection problems has been recently investigated.
Sujet :
The aim of this internship is then to support and complete the ongoing research activity by testing and validating the non-stationary RL algorithms on several realistic scenarios where the radar acts as an agent that continuously senses the unknown environment (i.e., targets and disturbance) and consequently optimizes transmitted waveforms in order to maximize the probability of detection (PD) by focusing the energy in specific range-angle cells. Due to their crucial strategical interest, particular attention will be devoted to scenarios containing drones.
Profil du candidat :
Master 2 or equivalent in machine learning / applied mathematics / statistical signal processing or any related field.
Formation et compétences requises :
machine learning / applied mathematics / statistical signal processing / Matlab/ Python
Adresse d’emploi :
Laboratoire des signaux et systèmes (L2S), Bât IBM, Rue Alfred Kastler, 91400 Orsay.
Document attaché : 202311161045_Internship_proposal_IPSA.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LS2N
Durée : 5 à 6 mois
Contact : julien.blanchard@univ-nantes.fr
Date limite de publication : 2024-04-20
Contexte :
With the digital transformation of our societies, more and more domains are interested in the analysis of series of symbolic events, such as Web user behavior analysis, healthcare and patient monitoring or fraud detection in financial transactions. Grasping the dynamics of these data streams requires revealing hidden structures behind them. To this end, Gunawardana and Meek have proposed a novel approach called Graphical Event Models (GEMs), probabilistic models capable of explicitly describing the temporal dependencies between events [1,2,3]. The PILGRIM software library developped by the DUKe reasearch team at the LS2N laboratory provides an original implementation of GEMs and of algorithms for learning them from logs – see [4,5,6] for examples of DUKe’s works on GEMs.
Sujet :
The goal of this internship is to study GEMs more deeply from both a theoretical and practical point of view, and to develop new methods for learning and using them. Several directions are possible:
– design and implement sampling and inference algorithms ;
– compare GEMs with process mining (log analysis approach [7]) : founding principles, model properties, experiments on data ;
– adapt explainable AI techniques to GEMs.
Possibility of extending into a PhD thesis if the internship is satisfactory.
[1] Asela Gunawardana and Chris Meek. Universal models of multivariate temporal point processes. In Proceedings of the 19th International Conference on Artificial Intelligence and Statistics, volume 51 of Proceedings of Machine Learning Research, pages 556–563, 09–11 May 2016. PMLR.
[2] Christopher Meek. Toward learning graphical and causal process models. In Proceedings of the UAI 2014 Conference on Causal Inference: Learning and Prediction – Volume 1274, CI’14, pages 43–48, 2014. CEUR-WS.org.
[3] Asela Gunawardana, Christopher Meek, and Puyang Xu. A model for temporal dependencies in event streams. In Proceedings of the 24th International Conference on Neural Information Processing Systems, NIPS’11, pages 1962–1970, 2011. Curran Associates Inc.
[4] Mathilde Monvoisin and Philippe Leray. Multi-task transfer learning for timescale graphical event models. In 15th European Conference on Symbolic and Quantitative Approaches to Reasoning with Uncertainty (ECSQARU 2019), 2019.
[5] Dimitri Antakly, Benoit Delahaye, and Philippe Leray. Graphical event model learning and verification for security assessment. In 32th International Conference on Industrial, Engineering, Other Applications of Applied Intelligent Systems (IEA/AIE 2019), Advances and Trends in Artificial Intelligence, pages 245–252, 2019.
[6] SPARS project : Sequential pattern analysis in robotic surgery. https://project.inria.fr/spars/
[7] Wil M. P. van der Aalst. Process Mining: Data Science in Action. Springer, Heidelberg,2 edition, 2016.
Profil du candidat :
– Autonomy, rigor, initiative, analytical and synthesis skills, sense of commitment, communication and interpersonal skills
– C++ programming
Send CV, motivation letter and academic results in PDF format to julien.blanchard@univ-nantes.fr
Formation et compétences requises :
Master’s degree with specialization in Data Science or Machine Learning
Master 2 ou dernière année d’école d’ingénieur
Adresse d’emploi :
Polytech Nantes, rue Christian Pauc, 44306 Nantes, France
Document attaché : 202311301055_Internship_GEM_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Insitut Fresnel
Durée : 5 à 6 mois
Contact : andre@fresnel.fr
Date limite de publication : 2024-04-24
Contexte :
L’IRM est l’une des principales modalités d’imagerie utilisées dans la pratique clinique aujourd’hui. L’une de ses particularités est de fournir un contraste des tissus mous. De plus, contrairement aux autres modalités d’imagerie, l’IRM permet d’obtenir des informations sur les processus pathologiques de manière non invasive. Cependant, le temps d’acquisition de l’IRM constitue un obstacle majeur dans de nombreuses applications. Un long temps d’acquisition conduit, par exemple, à l’inconfort du patient, à l’apparition d’artefacts de mouvement sur l’image et à l’augmentation du coût de l’examen.
Sujet :
Une manière d’accélérer les examens IRM est de réduire le nombre de points dans l’espace d’acquisition. Deux stratégies peuvent alors être employées pour restaurer la qualité des images : L’imagerie parallèle [1] et le « Compressed Sensing » (CS) [2]. L’imagerie parallèle utilise la diversité de l’information fournie par un système multi-capteurs. Le CS, quant à lui, est basé sur l’apriori que les images sont parcimonieuses dans certains domaines de transformation. Le CS fait alors appel à des algorithmes itératifs permettant de prendre en compte cette contrainte de parcimonie.
Récemment les méthodes d’apprentissage profond ont montré leur efficacité pour la reconstruction d’IRM [3]. Parmi ces approches, certaines ont été proposés pour imiter les algorithmes de compressed sensing [4]. Le but de ce stage est de recenser et de faire une étude comparative de ces méthodes.
[1] Griswold MA, Jakob PM, Heidemann RM, Nittka M, Jellus V, Wang J, Kiefer B, Haase A. Generalized autocalibrating partially parallel acquisitions (GRAPPA). Magn Reson Med. 2002.
[2] M. Lustig, David Donoho, J. M. Pauly, Sparse MRI: The application of compressed sensing for rapid MR imaging, Magn Reson Med. 2007.
[3] F. Knoll et al., Deep-Learning Methods for Parallel Magnetic Resonance Imaging Reconstruction: A Survey of the Current Approaches, Trends, and Issues, in IEEE Signal Processing Magazine, vol. 37, no. 1, pp. 128-140, Jan. 2020.
[4] Zeng, G., Guo, Y., Zhan, J. et al. A review on deep learning MRI reconstruction without fully sampled k-space. BMC Med Imaging 21,2021
Profil du candidat :
Etudiant en dernière année d’école d’ingénieur ou Master 2 en Traitement signal/image, sciences des données ou mathématiques appliqués.
Formation et compétences requises :
Le candidat devra obligatoirement être à l’aise avec le langage python et les bibliothèques numpy et pytorch. Cela signifie qu’une première expérience en apprentissage profond est nécessaire. Un goût pour la physique et les applications biomédicales est souhaité.
Adresse d’emploi :
Insitut Fresnel, 52 Av. Escadrille Normandie Niemen, 13013 Marseille
Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : GREYC ou LITIS
Durée : 6 mois
Contact : luc.brun@ensicaen.fr
Date limite de publication : 2024-05-05
Contexte :
L’apprentissage profond a révolutionné de nombreux domaines tels que l’analyse d’images ou le traitement automatique des langues. Pourtant, l’incapacité de ces systèmes à justifier leurs décisions est très vite apparue comme une limite forte.
Ce problème est d’autant plus saillant dans la prédiction de l’action thérapeutique d’une molécule où il n’est pas viable d’engager des moyens et du temps pour la synthèse / le test de molécules sur la simple base d’une prédiction par un réseau. Plus précisément, la capacité d’un réseau (en l’occurence sur graphe) à expliquer sa décision permet:
* de valider les prédictions avant d’engager des efforts et des moyens sur les synthèses d’une série moléculaire
* d’obtenir une intuition sur les propriétés physico-chimiques clés que doit posséder une molécule pour avoir une action biologique ciblée.
Le second point est également très intéressant car il ouvre des perspectives vers la conception de nouvelles molécules thérapeutiques.
Sujet :
Notre étude commencera par une étude des réseaux sur graphes (GNN) permettant de prédire les propriétés de nos jeu de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir de plusieurs représentations de graphes moléculaires.
Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,…. Nous espérons identifier à partir de cette étude des sous structures pertinentes pour les propriétés à prédire.
Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires “brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.
Ce sujet peut être considéré comme un formation pour une thèse de doctorat qui pourrait commencer à l’issue du stage.
Profil du candidat :
Nous recherchons des candidats de niveau Bac+5 avec de bonnes bases en apprentissage machine. Une capacité à travailler en équipe combinée à une curriosité pour les problèmes scientifiques et une certaine autonomies seraient des plus.
Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.
Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes ainsi que pytorch sera un plus.
Adresse d’emploi :
Le stage pourra se dérouler à Caen (au laboratoire GREYC) ou à Rouen (laboratoire LITIS).
Document attaché : 202401231248_theseCODAG.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS
Durée : 5/6 mois
Contact : Sebastien.Adam@univ-rouen.fr
Date limite de publication : 2024-05-05
Contexte :
Les réseaux de neurones sur graphe (GNN) sont un champs d’étude en plein essor ces dernières années. Les Message Passing Neural Network (MPNN) tels que Graph Convolutional Network (GCN) et Graph Isomorphism Network (GIN) sont les plus utilisés des GNNs du fait de leur complexité linéaire. Cependant, il a été démontré que l’expressivité de ces modèles était limitée. En effet, en terme de séparabilité, ils sont moins expressifs que le test de Wesfeiler-Lemahn et en terme de comptage de sous-structures, il ne peuvent pas compter les triangles dans un graphe
Sujet :
Durant ce stage, vous explorerez une nouvelle approche, décrite dans cite{piquenot2023iclr}, basée sur les Context Free Grammar (CFG). Les CFG sont composées de règles que l’on peut sélectionner pour construire des couches de GNN. Un exemple de couche de GNN produite à partir d’une grammaire basée sur la séparabilité est visible sur la Figure ref{fig:gram}. Ce stage s’inscrit dans une démarche de recherche de performance d’un GNN. Nous chercherons dans un premier temps à développer un code permettant de produire une couche de GNN à partir de règles dans une CFG que l’on pourra choisir. Ce code permettra à l’utilisateur de tester pour une tâche donnée la pertinence des règles de la CFG. Dans un second temps, le stagiaire pourra mesurer les performances de GNNs produits à partir de différents ensembles de règles sur des datasets usuels de la littérature.
Profil du candidat :
Etudiant en dernière année de Master ou d’école d’ingénieur, en mathématiques appliquées, science des données ou intelligence artificielle.
Formation et compétences requises :
Bonnes connaissances du Machine Learning
Bonnes compétences en Python et Pytorch
Adresse d’emploi :
Laboratoire LITIS, UFR Sciences et Techniques, Avenue de l’Université, 76800 Saint Etienne du Rouvray
Document attaché : 202401191526_stage_M2_G2N2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Institut FEMTO-ST
Durée : 6 mois.
Contact : zeina.almasry@femto-st.fr
Date limite de publication : 2024-05-05
Contexte :
Les réseaux de neurones (RN) sont largement utilisés dans plusieurs domaines. Toutefois, les résultats fournis par un algorithme basé sur les RN intègrent des incertitudes liées aux données et au modèle. Il est important de quantifier ces incertitudes, pour fournir une information supplémentaire afin d’assister la décision finale. Par exemple, en industrie lorsqu’une anomalie est détectée avec un faible niveau de confiance, une vérification supplémentaire à l’aide d’une autre source d’information est ajoutée (image, intervention humaine…) avant de planifier des actions de réparation. Un autre exemple en médical, la mesure de l’incertitude permet aux praticiens de prendre des décisions adaptées pour la prise en charge des patientes comme par exemple explorer d’autres tests. Plus généralement, une quantification fiable de l’incertitude de la prédiction permet de faire confiance ou non aux prévisions pour des entrées interpolant/extrapolant les situations vues dans l’ensemble d’entraînement. Plusieurs approches sont proposées pour la quantification d’incertitude, certaines sont dédiées aux RN.
Les réseaux de neurones bayésiens (RNB) fournissent un outil mathématique pour mesurer l’incertitude du modèle. L’idée est de remplacer les valeurs déterministes des paramètres du RN (poids et biais) par des distributions de probabilité avec un a priori gaussien, pour ensuite apprendre les paramètres de ces distributions. Une fois entraîné, les sorties du RN peuvent être évaluées plusieurs fois pour obtenir une distribution empirique des prédictions. Plusieurs méthodes ont été proposées pour les RNB basées, par exemple, sur l’approximation de Laplace ou des méthodes de Monte Carlo Hamiltonien. Dans le cadre de ce projet, l’objectif est de développer une méthode de quantification basée sur les RNB. La méthode sera appliquée pour un problème de classification et régression sur des données synthétiques.
Sujet :
Objectifs du stage :
— Etat de l’art sur les RNB.
— Développer un algorithme basé sur les RNB.
— Optimisation de l’architecture du réseau ainsi que les différents hyperparamètres.
— Appliquer l’algorithme pour la quantification l’incertitude pour la régression et la
classification et évaluation les performances.
— Comparer l’approche proposée avec d’autres techniques de la littérature dropout, ensemble learning.
Profil du candidat :
Master 2 ou en dernière année d’école d’ingénieur.
Formation et compétences requises :
mathématiques-appliquées, apprentissage profond, programmation Python.
Adresse d’emploi :
26 Rue de l’Épitaphe, 25000 Besançon.
Document attaché : 202401221232_sujet_stage.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire des signaux et syst`emes (L2S)
Durée : between 4 and 6 mont
Contact : stefano.fortunati@centralesupelec.fr
Date limite de publication : 2024-05-31
Contexte :
One of the key features characterizing the new generation of radio telescopes is the large number of their antenna elements. Built in 2010, the Low-Frequency Array (LOFAR) is currently the largest radio telescope in operation with 100000 antenna dipoles distributed across several European countries. Furthermore, the upcoming Square-Kilometer Array (SKA) will be made up of more than 130000 antennas. Such a large number of antennas will make it possible to acquire increasingly accurate and detailed images of the celestial vault. Such images will form the basis for promising developments in astrophysics and cosmology in the coming years.
However, as in any other remote sensing system, the signal collected by a radio telescope is affected by different sources of disturbance that will degrade the quality of the collected image. Consequently, to take full advantage of the potential of the new radio telescopes, one must first take the disturbance into account. In general, this disturbance is characterized as a zero-mean Gaussian random process with possibly unknown correlation structure.
Then, the crucial question is: is it possible to derive robust imaging algorithms, without any assumption on the specific form of the noise distribution, and that still remain accurate? If yes, which is the price to pay?
Sujet :
This internship is part of the“SIDEREAL” project. The objectives
of the internship are the following:
1. Building upon the existing works, we will adapt the array signal model to the context of radio telescopes. Particular attention will be devoted to the disturbance model to be used in astronomical data analysis and on its statistical description.
2. After these preliminary investigations, the project will focus on the development of original image reconstruction algorithms for radio astronomy by exploiting the massive number of antenna elements available in modern radio telescopes. Their performance and statistical properties will be assessed by means of simulated data.
Profil du candidat :
Master 2 or equivalent in machine learning / statistical signal processing or any related field
Formation et compétences requises :
Statistical signal processing, estimation theory, programming skills in Matlab or Python.
Adresse d’emploi :
Laboratoire des signaux et systèmes (L2S), Bât. IBM, Rue Alfred Kastler, 91400 Orsay.
Document attaché : 202311021052_Internship_proposal_SF_LB.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIT
Durée : 6 mois
Contact : emmanuelle.claeys@irit.fr
Date limite de publication : 2024-06-30
Contexte :
La consommation d’énergie des ordinateurs devient une préoccupation majeure dans le cadre du réchauffement climatique. Pour optimiser leur consommation électrique d’application informatique, il est nécessaire de disposer d’informations précises sur leur comportement. Il devient alors possible de choisir la bonne fréquence d’un processeur. Cependant, le choix de la vitesse de fréquence peut fortement détériorer son fonctionnement, ou au contraire, n’avoir aucun effet visible pour l’utilisateur.
Sujet :
L’objectif de ce projet sera réalisé en plusieurs étapes
Découvrir en temps réel la vitesse des applications à partir de données instantanées. La modélisation se fera à l’aide de capteurs en temps réel (compteurs de performances matérielles, RAPL, …).
Modéliser le comportement à grain fin des applications pour les relier à l’incidence d’un changement de fréquence (en termes de performances et d’énergie).
Utiliser un algorithme d’apprentissage par renforcement (ici un modèle de bandit) pour choisir en temps réel la fréquence la plus adaptée.
Des données de monitoring fin sont déjà disponibles et seront utilisées pour la partie modélisation. La partie expérimentation et validation se déroulera sur la plateforme Grid5000 (plateforme nationale d’expérimentation en informatique).
https://www.irit.fr/~Georges.Da-Costa/post/bandits/
Profil du candidat :
Des compétences en analyse de données temporelles et en modélisation statistique seront appréciées ainsi qu’un intérêt pour les enjeux écologiques et les algorithmes d’apprentissage par renforcement. La co-rédaction d’un article présentant les résultats obtenus dans un journal scientifique étant attendu, l’objectif du candidat de poursuivre vers une thèse est un plus.
Le stage sera encadré par Emmanuelle Claeys et Georges Da Costa dans une ambiance conviviale :). Un ordinateur et un bureau seront fournis, ainsi qu’une indemnité mensuelle de stage de 591 €. La durée du stage est de 5-6 mois. Vous pouvez nous envoyer votre candidature (lettre de motivation + CV / court curriculum vitæ) par email à Emmanuelle.Claeys@irit.fr et georges.da-costa@irit.fr.
Formation et compétences requises :
Bac+5 Info/Math
Adresse d’emploi :
Campus Paul Sabatier IRIT
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : Institut d’Astrophysique de Paris
Durée : 3 à 6 mois
Contact : florent.leclercq@iap.fr
Date limite de publication : 2024-06-30
Contexte :
Physical cosmology has brilliantly interwoven high-energy physics and observational astronomy to sketch the history of the Universe’s evolution from the Big Bang to its present state. Yet, lingering mysteries still beckon, primarily concerning dark energy, the cause of the Universe’s accelerated expansion, and the elusive masses of neutrino particles. Recent advances in statistical cosmology show the potential of going beyond traditional methodologies centred around correlation functions to unveil these secrets. The INFOCW project, funded by the Agence Nationale de la Recherche (ANR), seeks to employ models that predict the complete map of the large-scale structure as seen by ESA’s Euclid satellite, a recently launched space observatory. Through the synergy of cosmological simulations, data science, and astrophysical observations, the project promises to bring forth innovations that harness information trapped in the cosmic web—the Universe’s grandest observable structure.
Sujet :
Identifying and extracting the maximum amount of cosmological information from cosmic maps is still a largely open problem and will play a pivotal role in INFOCW. The goal of this master internship and PhD project is to tackle this task. In the first phase of the project, we will utilise physically and statistically motivated cosmic web probes. We will then optimise the extraction of cosmological information using automatically defined statistical summaries of galaxy catalogues, i.e. machine-aided definition of probes.
More details and French version: https://florent-leclercq.eu/supervision.php#internship-phd-2024
Profil du candidat :
We are looking for candidates with:
– A strong background in cosmology and/or astrophysics,
– Good computational abilities, preferably some familiarity with at least Python,
– A willingness to learn, and to work collaboratively.
We are seeking to appoint the same candidate for a master internship (dates at the candidate’s convenience from February 2024) followed by a three-year PhD studentship from October 2024, subject to satisfactory performance. Both positions are based in the large-scale structure and distant Universe group of the Institut d’Astrophysique de Paris (IAP). Supervision will be provided by Florent Leclercq (principal investigator of INFOCW) & Guilhem Lavaux. Funding for research expenses (travel, small equipment) is provisioned.
Application files must contain a CV and a transcript of record for all higher education programmes. They should be addressed to Florent Leclercq (florent.leclercq@iap.fr) & Guilhem Lavaux (guilhem.lavaux@iap.fr). One or more letters of recommendation (optional) can be sent directly by their authors to the same addresses.
Formation et compétences requises :
We are looking for candidates with:
– A strong background in cosmology and/or astrophysics,
– Good computational abilities, preferably some familiarity with at least Python,
– A willingness to learn, and to work collaboratively.
Adresse d’emploi :
Institut d’Astrophysique de Paris, 98bis boulevard Arago, 75014 Paris, France
Offre en lien avec l’Action/le Réseau : EducAction/– — –
Laboratoire/Entreprise : IRIMAS
Durée : 5 mois
Contact : nour.el-mawas@univ-lorraine.fr
Date limite de publication : 2024-07-01
Contexte :
The ANR COPCOT project involves members from Pixel team (CREM), MSD Team (IRIMAS), Trigone team (CIREL), and France-IOI association. Our aim is to understand learners’ skills-building in the Technology Enhanced Learning platform Quick-Pi, and to facilitate skills-building through content and feedback personalization.
Sujet :
The goal of this internship is to analyze learners’ data from the Quick-Pi platform (https://quick-pi.org/contenu.html) in order to identify relevant learner behaviors and extract data indicators contributing to the skills construction in programming among learners.
In particular, the candidate will work on the following tasks:
• Learners’ data analysis. Analysis of trace logs data from users’ interactions help us to better understand their learning process, distinguish groups of learners, and predict learners’ success in each Quick-Pi exercise.
Trace logs data can be seen as time series, hence this task will start by reviewing existing Machine Learning algorithms [1] used for time series analysis. Then the candidate will identify and adapt these algorithms to our sequential data in order to predict the learners’ success in each exercise on the Quick-Pi platform. The implicit data provided by Quick-Pi logs (like time spent on an exercise, navigation logs, code lengths, etc.) will be used. Once the pertinent algorithm to predict students’ success is found,
indicators can be found. Existing learners’ data analysis techniques such as knowledge tracing [2, 3] will be investigated to predict the success of students in each exercise.
• Indicators identification. The candidate will analyze which logs in the selected algorithm of the previous task were used by the algorithm itself to predict the success. This will help us to identify indicators. We believe that if the selected algorithm successfully predicts learners’ success, we should be aware of which specific log lines contributed to this prediction the most. For example, we can find that the time spent on an exercise may have a correlation with the learners’ success in a specific exercise.
These indicators are crucial to understand skills-building and learners’ difficulties. Features selection techniques [4] and explainability techniques [5] will be investigated in order to identify pertinent indicators for skills- building.
References
[1] H. Ismail Fawaz, G. Forestier, J. Weber, L. Idoumghar, and P.-A. Muller, “Deep learning for time series classification: a review,” Data mining and knowledge discovery, vol. 33, no. 4, pp. 917–963, 2019.
[2] M. Sao Pedro, R. Baker, and J. Gobert, “Incorporating scaffolding and tutor context into bayesian knowledge tracing to predict inquiry skill acquisition,” in Educational Data Mining 2013, Citeseer, 2013.
[3] S. I. Ram´ırez Luelmo, N. El Mawas, and J. Heutte, “Existing machine learning techniques for knowledge tracing: A review using the prisma guidelines,” in International Conference on Computer Supported Education, pp. 73–94, Springer, 2022.
[4] V. Vijayalakshmi and A. Prakash, “Developing an optimized feature selection process for designing efficient content management system using educational data,” International Journal of Advanced Research in Science Technology (IJARST), vol. 7, no. 1, pp. 15–24, 2020.
[5] R. Alamri and B. Alharbi, “Explainable student performance prediction models: a systematic review,” IEEE Access, vol. 9, pp. 33132–33143, 2021.
Profil du candidat :
The candidate must be registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
Formation et compétences requises :
• Good skills in Python programming are mandatory
• Good skills in Machine Learning are required
• Interest, knowledge and/or a first experience in Technology Enhanced Learning (learning programming in particular) will be appreciated
Adresse d’emploi :
UHA/IRIMAS EA 7499, Mulhouse, France
Document attaché : 202310310845_internship_position_COPCOT_2023_VF.pdf
Offre en lien avec l’Action/le Réseau : DOING/– — –
Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 5 mois
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-07-01
Contexte :
Le traitement de mesures instrumentales nécessite souvent d’utiliser le modèle de données, ou modèle direct, dans la méthode. Par exemple les mesures sont affectées d’un bruit, d’un flou, ou vivent dans un autre espace que celui des inconnues (des coefficients de Fourier versus une image pour le cas de l’IRM).
Autant le modèle direct est stable et bien posé (à partir des paramètres on peut générer des données), autant le problème inverse est le plus souvent instable et mal-posé.
Sujet :
Les techniques de résolution de problèmes inverses ont fortement évolué ces dernières années avec les nouvelles techniques d’apprentissage machine. On peut mentionner le déroulage d’algorithmes itératif (unrolling), les approches plug-and-play, le RED (regularization by denoising), ou encore les a priori basés donnés.
Le travail consistera à comprendre et mettre en œuvre les approches utilisant les réseaux génératifs comme les VAE ou encore les réseaux inversibles. Il s’agit d’une approche reposant sur la minimisation d’un critère mixte
J(x) = |y – H x|² + R(x)
où le terme d’attache aux données utilise le modèle d’observation connu H (flou, inpainting, debruitage…) et le terme de régularisation R(x) est appris à partir de données. La solution est alors définie comme x = argminₓ J(x).
* Dans un premier temps, le stagiaire se familiarisera sur les problèmes inverses et leurs méthodes de résolution.
* Ensuite, il devra faire un état de l’art sur les méthodes basées données et apprentissage statistique pour la résolution de problèmes inverses. Le sujet étant récent, la littérature est abondante et diverse. Des points d’entrée bibliographique seront fournis.
* Nous nous attacherons à mettre en œuvre une des deux méthodes mentionnées plus haut. Les résultats devront être comparés aux résultats obtenus avec les approches classiques : filtre de Wiener, parcimonie… pour lesquels des codes sont à disposition.
* L’application sera à déterminer parmi celles de l’équipe : synthèse de Fourier pour la radioastronomie, la microscopie ou encore reconstruction d’image en tomographie.
Le travail se fera sur un poste équipé d’une carte GPU Nvidia 3080 ou 4090 avec Linux, TensorFlow et Python.
Profil du candidat :
L’étudiant devra avoir une formation type ingénieur ou Master~2 en traitement du signal ou d’images, data science ou machine learning. Il devra posséder des connaissances en mathématiques appliquées ou en programmation.
Formation et compétences requises :
L’étudiant acquerra au cours du stage des compétences en estimation, optimisation, apprentissage machine, inférence statistique, traitement de données et python.
Adresse d’emploi :
L2S, 3 rue Joliot-Curie, 91190 Gif-sur-Yvette
Document attaché : 202311010608_stage-dnn-orieux-l2s.pdf
Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –
Laboratoire/Entreprise : Laboratoire des Signaux et Systèmes
Durée : 5
Contact : francois.orieux@l2s.centralesupelec.fr
Date limite de publication : 2024-07-01
Contexte :
L’augmentation de la puissance des machines de calcul a incité à la conception d’instrument générant des quantités importantes de données. Parallèlement, le désir de travailler sur des inconnues de grande taille telle que des images hautes ou très haute résolution est de plus en plus présent en particulier dans les sciences expérimentales ou observationnelles.
Le stage s’inscrit dans le cadre du projet international SKA, Square Kilometer Array, et de l’ANR DarkEra. SKA est un observatoire pour la radioastronomie qui produira un volume de données considérable pour produire des images à une résolution spatiale et spectrale inégalées. Les antennes sont réparties en australie et en afrique du Sud, ce qui en fera le plus grand interféromètre radio à ce jour. L’équipe est impliquée dans le projet par le biais de l’ANR DarkEra et du LabCom ECLAT (ATOS, IETR, INRIA…).
Sujet :
Pour exploiter pleinement l’ensemble des informations disponibles, une modélisation fine du processus d’acquisition est nécessaire. Cela définit un modèle direct H, ou simulateur, capable de reproduire des données y à partir d’une image x comme y = Hx. Cependant l’utilisation naïve de H conduisant à des problèmes inverses généralement mal posés, c’est à dire ne produisant pas de résultats satisfaisant.
Les approches standard pour l’inversion reposent généralement sur la minimisation de critères régularisés, la régularisation permettant de rendre le problème bien posé.
* Dans un premier temps le stagiaire se familiarisera sur les problèmes inverses et leurs méthodes de résolution.
* Ensuite le stagiaire s’appuiera sur le travail de thèse de Nicolas Monnier qui a travaillé sur l’accélération du modèle H. L’objectif est de réutiliser son travail pour partir d’un modèle de donnée fiable et rapide.
* Enfin nous travaillerons à l’élaboration de méthode plus modernes de résolution de problèmes inverse exploitant cette accélération. On explorera notamment les algorithmes de Majorisation-Minimisation (ou MM) et l’utilisation de préconditionneur.
* En fonction de la formation du stagiaire on pourra également plutôt s’orienter sur la mise en œuvre efficaces des algorithmes sur GPU.
Profil du candidat :
L’étudiant devra avoir une formation type ingénieur ou Master~2 en traitement du signal ou d’images, data science ou machine learning. Des
connaissances en mathématiques appliquées, programmation ou architecture de calcul seront appréciés.
Formation et compétences requises :
L’étudiant acquerra aux cours du stage des compétences en estimation,
optimisation, inférence statistique, traitement de données, calculs intensifs, radioastronomie et python.
Adresse d’emploi :
L2S, 3 rue Joliot-Curie, 91190 Gif-sur-Yvette
Document attaché : 202311010558_stage-ska-orieux-l2s.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIP6 (CNRS et Sorbonne Université)
Durée : 6 mois
Contact : Matthieu.Latapy@lip6.fr
Date limite de publication : 2024-09-01
Contexte :
Alors qu’il joue un rôle essentiel dans les échanges de marchandises à travers le monde, le trafic maritime est régulièrement perturbé par des mouvements sociaux ou écologistes (grèves ou blocages dans les ports ou à bord des navires, comme les 10 jours de grève des dockers de la côte ouest des USA en 2002). Il est aussi perturbé par des accidents
(comme l’obstruction du canal de Suez par un navire échoué pendant 6 jours en 2021), des catastrophes naturelles (par exemple, le tremblement de terre à Kobé en 1995 ou la sécheresse au canal de Panama en août 2023), ou de la piraterie (plus de 300 actes recensés
par an).
Sujet :
L’impact de tels événements, ainsi que la robustesse du réseau d’échanges et ses fragilités, sont mal connus. En particulier, quelle est l’ampleur, la durée et la structure des perturbations ? Restent-elles locales ou se propagent-elles loin à travers le réseau, et sous
quelles conditions ? De petits événements peuvent-ils engendrer de grandes perturbations par des effets en cascades ? Comment le retour à la normale s’opère-t-il ? Y a-t-il des points particulièrement fragiles dans le réseau ? Les perturbations induites par des mouvements sociaux sont-elles similaires aux autres types de perturbations ? Existe-t-il des
sous-parties du réseau plus robustes que d’autres ?
Ce stage propose une approche orientée données pour répondre à ces questions et améliorer drastiquement les connaissances sur ces sujets.
Profil du candidat :
Master en informatique, ouverture interdisciplinaire (géographie, SHS), volonté de poursuivre en thèse.
Formation et compétences requises :
Analyse de données, manipulation de grandes données, graphes, réseaux.
Adresse d’emploi :
Paris centre
Document attaché : 202402051751_stage_reseaux_maritimes.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Ce stage n’est plus disponible
Laboratoire/Entreprise : CNRM – Centre National de Recherches Météorologiqu
Durée : 6 mois
Contact : victor.sanchez@meteo.fr
Date limite de publication : 2025-01-15
Contexte :
L’utilisation de l’intelligence artificielle (IA) pour la Prévision Numérique du Temps (PNT) se démocratise progressivement depuis plusieurs années. Les algorithmes d’apprentissage profond et les approches génératives ont d’ailleurs récemment fait leur preuve dans ce domaine d’application. Désormais, ces méthodes ont la capacité de produire des champs physiques avec une certaine cohérence physique, pour un coût numérique très inférieur aux méthodes classiques d’intégration numérique.
Le stage proposé se place dans le cadre de Destination Earth (DestinE). DestinE est une initiative de la Commission européenne dans le cadre du programme EU Digital Europe. Ce projet vise à déployer plusieurs jumeaux numériques de la Terre, qui aideront à surveiller et à prévoir les changements environnementaux et l’impact humain, afin de développer et de tester des scénarios qui soutiendraient le développement durable et les politiques européennes correspondantes pour le Green Deal. L’IA, et en particulier l’apprentissage profond, sont un des axes développés dans DestinE. Le travail durant le stage sera à destination du projet DE_371, auquel l’équipe d’accueil participe.
L’objectif du projet DE_371 est de démontrer que des méthodologies utilisant les algorithmes d’IA à l’état de l’art peuvent aider à améliorer l’estimation de l’incertitude des prévisions, en permettant de produire des prévisions d’ensemble de grande taille et à haute résolution spatiale et temporelle.
Sujet :
L’objectif du travail proposé est d’utiliser des techniques d’IA dites génératives comme les Réseaux Antagonistes Génératifs (GAN) [1] pour améliorer les performances du système opérationnel de prévision d’ensemble Arome. L’équipe d’accueil a développé un prototype StyleGAN [2][3] capable de générer des membres Arome physiquement cohérents sur un quart sud-est de la France et pour quelques variables de surface. Ce stage se propose d’utiliser ce prototype comme base de
développement. Les résultats encourageants mènent vers plusieurs pistes d’approfondissement et d’amélioration, qui feront l’objet du présent stage, parmi lesquelles :
• Adaptation du modèle à une extension du domaine actuel.
• Exploration de méthodes de Transfer Learning [4] sur le domaine nordique (Norvège, Suède).
• Evaluation des prévisions StyleGAN sur des évènements à fort impact.
[1] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., … & Bengio, Y. (2020). Generative adversarial networks. Communications of the ACM, 63(11), 139-144. https://dl.acm.org/doi/pdf/10.1145/3422622.
[2] Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., & Aila, T. (2020). Analyzing and improving the image quality of stylegan. In Proceedings of the IEEE/CVF conference on computer vision and
pattern recognition (pp. 8110-8119).https://openaccess.thecvf.com/content_CVPR_2020/papers/
Karras_Analyzing_and_Improving_the_Image_Quality_of_StyleGAN_CVPR_2020_paper.pdf
[3] Brochet, C., Raynaud, L., Thome, N., Plu, M., & Rambour, C. (2023). Multivariate Emulation of Kilometer-Scale Numerical Weather Predictions with Generative Adversarial Networks: A Proof of Concept. Artificial Intelligence for the Earth Systems, 2(4), 230006. https://doi.org/10.2496.
[4] Lee, D., Lee, J. Y., Kim, D., Choi, J., & Kim, J. (2022). Fix the noise: Disentangling source feature for transfer
learning of StyleGAN. arXiv preprint arXiv:2204.14079. https://arxiv.org/pdf/2204.14079
Profil du candidat :
Le ou la stagiaire pourra disposer de moyens de calculs sur GPU importants (plate-forme Météo France et/ou super-calculateur EuroHPC), au sein d’une équipe expérimentée et motivée. Il ou elle bénéficiera
des outils et méthodes déjà développés dans l’équipe. Ce stage sera l’occasion de développer ses compétences, notamment :
• expérience de développement d’algorithmes d’apprentissage profond à l’état de l’art
• manipulation d’une infrastructure de calcul haute-performance
• gestion d’une base de code commune et ajout de fonctionnalités
• intéractions avec des partenaires internationaux (centres météorologiques en Norvège et Suède)
Formation et compétences requises :
Ce stage requiert un réel intérêt pour la prévision numérique du temps (des connaissances préalable à ce sujet seraient un plus mais ne sont pas nécessaire). De solides compétences en statistiques et une bonne maîtrise du langage Python seront également nécessaires. Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs CNN) est souhaitée. Une première expérience d’une bibliothèque de Deep Learning (PyTorch, TensorFlow, …) serait un plus.
Adresse d’emploi :
42 Av. Gaspard Coriolis, 31100 Toulouse
Document attaché : 202410040756_Fiche-proposition-PFE_IENM_IA_2025.pdf
