Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
3
Wed
2021
Developpement et deploiement de strategies de replication de donnees sur
Feb 3 all-day

Offre en lien avec l’Action/le Réseau : PLATFORM/– — –

Laboratoire/Entreprise : Institut de Recherche en Informatique de Toulouse
Durée : 5 à 6 mois
Contact : mokadem@irit.fr
Date limite de publication : 2021-03-01

Contexte :
Cloud, Rréplication de données, NoSQL, Déploiement, Grid’5000

Sujet :
Les infrastructures récentes telles que le Cloud se doivent de considérer une gestion élastique des
ressources tout en prenant en compte l’aspect commercial pour les fournisseurs de Cloud public. Cela
entra^ne la mise en place d’un modèle économique ‘Pay-as-you-go’ qui signifie que l’utilisateur paie
uniquement ce qu’il consomme comme ressources. Le Service Level Agreement (SLA), un contrat signé entre le fournisseur et le locataire, doit également être respecté. Coté locataire, ce contrat précise le
montant payé par ce dernier au fournisseur pour la location des services. Dans le SLA, on retrouve
également les objectifs de niveau de service que le fournisseur doit satisfaire au risque de payer des
pénalités au locataire concerné. Parmi ces objectifs, on citera les objectifs de disponibilité et de performances. De plus, les considérations environnementales sont de plus en plus présentes dans l’esprit
collectif augmentant ainsi l’impact de politiques réduisant la consommation énergétique et donc de la
production de gaz a e et de serre.
La réplication de données, une technique largement utilisée dans les systèmes distribués, permet
d’améliorer la disponibilité de données et de réduire le temps de réponse lors de l’accès à ces données.
De nombreuses stratégies de réplication de données ont été proposées dans différentes architectures
en tenant compte des caractéristiques de chacune de ces architectures. Dans les architectures Cloud, ces
stratégies s’appuient sur l’élasticité pour le partage de ressources entre les différents locataires tout en
satisfaisant les objectifs attendus par ces locataires, en termes de performances par exemple. De nos
jours, la satisfaction d’autres objectifs tels que la réduction des dépenses du fournisseur ou encore de la
consommation énergétique constituent un challenge intéressant a relever.
La plate-forme Grid5000 est une plate-forme d’expérimentation nationale présente sur 8 sites différents
et contenant plus de 800 nœuds. Cette plate-forme permet de réaliser des expériences sur des architectures a large echelle. De plus, de nombreux outils sont mis en place sur cette plate-forme pour émuler des
nœuds présents dans différentes villes. Ils permettent également d’estimer la consommation en puissance
des logiciels et conteneurs sur plusieurs nœuds.
L’objectif de ce stage est de développer et de déployer plusieurs stratégies de réplications de données
sur des nœuds de Grid5000 puis, de les comparer. Ces stratégies de réplication de données seront mises
en place sur un système de gestion de fichiers distribués de type Hadoop. Par la suite, des requêtes
seront mises en place a n d’interroger des bases de données de type NoSQL. Différentes charges de
travail seront également considérées afin de rréaliser des expérimentations réelles sur des infrastructures
physiques. En n, ce stage se déroulera a l’IRIT (Institut de Recherche en Informatique de Toulouse) et
se fera en soutient d’un doctorant en 3eme année de Thèse .

Profil du candidat :
Master 1 ou Master 2

Formation et compétences requises :
Mots clés : Cloud, Réplication de données, NoSQL, Déploiement, Grid’5000
Compétences attendues : Programmation (Java, Python ou C), Déploiement d’outils
Rémunération : 564€/mois

Adresse d’emploi :
Institut de Recherche en Informatique de Toulouse (IRIT), Université Paul Sabatier Toulouse III

Document attaché : 202101181031_Offre_de_Stage 2021_déploiment Grid5000 Français_anglais.pdf

Feb
4
Thu
2021
Réseaux convolutifs équivariants pour la segmentation sémantique
Feb 4 – Feb 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Cédric – Conservatoire national des arts et métier
Durée : 6 mois
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2021-02-04

Contexte :
Les réseaux de neurones convolutifs (CNN) constituent depuis quelques années le nouvel état de l’art en vision par ordinateur et traitement d’images. Ces réseaux sont construits autour de l’opérateur de convolution qui est par construction équivariant par translation : si une image d’entrée subit une translation, son image convoluée sera translatée de la même manière. Cette propriété est particulièrement intéressante en reconnaissance d’objets dans la mesure où la position d’un objet dans l’image n’influe en général pas sur sa nature sémantique.

Cependant, la convolution ne présente pas d’équivariance à des transformation plus complexes. Ainsi, les CNNs souffrent de performances dégradées lorsque l’on les applique sur des images ayant subie une une rotation ou une réflexion, dès lors que cette transformation n’est pas
observée dans le jeu d’entraînement soit naturellement, soit par l’utilisation de technique de data augmentation.

Plusieurs approches ont été introduites dans la littérature pour tenter de rendre les CNN équivariants à des transformations géométriques complexes, soit en explicitant les contraintes d’équivariance au sein de la fonction de coût [4], soit par construction en travaillant sur des notions de
groupes de symétrie [1, 7, 3, 5, 6]. Les modèles basés sur cette dernière approche sont dits Group Equivariant Convolutional Neural Networks (G-CNN). L’objectif de ce stage est d’investiguer la mise en œuvre de ces techniques dans des applications concrètes pour évaluer leur capacité à
contraindre l’équivariances des réseaux convolutifs à différents types de transformations.

Sujet :
Le premier objectif de ce stage est de se familiariser avec la théorie des G-CNNs ainsi que leur implémentation en se basant sur [1, 2]. Les performances de ces réseaux seront d’abord évaluées en classification sur des bases classiques telles que MNIST et CIFAR. Nous nous intéresserons par la suite à des applications en segmentation sémantique d’images, par exemple des images médicales [3], aériennes et satellitaires. En effet, ces images présentent des équivariances naturelles aux rotations et aux réflexions.Dans un deuxième temps, nous comparerons les représentations apprises par ces modèles équivariants par construction à ceux des CNN classiques ainsi qu’à d’autres modèles qui imposent
l’équivariance par contrainte [4].

[1] T. Cohen and M. Welling. Group equivariant convolutional networks. In International Conference on Machine Learning, pages 2990–2999, 2016.
[2] Jasper Linmans and others. Sample Efficient Semantic Segmentation using Rotation Equivariant Convolutional Networks, 2018.
[3] B. S. Veeling et al. Rotation Equivariant CNNs for Digital Pathology. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2018, pages 210–218, 2018.
[4] Y. Wang et al. Self-supervised scale equivariant network for weakly supervised semantic segmentation. In Computer Vision and Pattern Recognition, 2020.
[5] M. Weiler, F. A. Hamprecht, and M. Storath. Learning Steerable Filters for Rotation Equivariant CNNs, 2018.
[6] M. Winkels and T. S. Cohen. 3D G-CNNs for Pulmonary Nodule Detection, 2018.
[7] D. E. Worrall et al. Harmonic Networks : Deep Translation and Rotation Equivariance, 2017.

Profil du candidat :
Nous recherchons pour ce stage un·e candidat·e de niveau M2 ou dernière année d’école d’ingénieur avec une formation en mathématiques appliquées, en informatique ou en traitement du signal. Le ou la candidat·e idéal·e a une appétence pour la recherche scientifique et des bases théo-
riques en apprentissage automatique. Des notions de traitement d’image ou de mathématiques algébriques (théorie des groupes, algèbre générale) sont un plus pour ce sujet.

Formation et compétences requises :
Une connaissance de la programmation avec Python est préférable, il est toutefois envisageable pour un·e candidat·e connaissant un autre langage de programmation de se former à Python au cours du stage. Une première expérience avec une bibliothèque d’apprentissage profond telle que TensorFlow ou PyTorch est la bienvenue.

Adresse d’emploi :
Laboratoire Cédric – 2 rue Conté, 75003 Paris

Document attaché : 202011051223_2021 – Stage équivariance Cnam.pdf

Feb
15
Mon
2021
Combiner Apprentissage et Logique pour comprendre les causalités
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : IRIT
Durée : 6 Mois
Contact : emmanuelle.claeys@irit.fr
Date limite de publication : 2021-02-15

Contexte :
Ce projet est issu d’un programme de recherche ayant pour objectif de proposer une nouvelle méthodologie de suivi de procédés pour la gestion logistique. À partir de données collectées (fichiers log des processus) lors du déroulement de différentes tâches, la méthode doit permettre à l’utilisateur de visualiser son processus et d’en proposer une amélioration limitant la probabilité d’apparition d’un évènement considéré comme critique et défini en amont par l’utilisateur.
Un exemple d’application serait une entreprise (ou une administration) qui souhaiterait mieux connaître les différents parcours que peuvent réaliser ses clients, afin de pouvoir agir sur son organisation dans le but de limiter le risque de saturation d’un de ses services. Cette étude aurait en entrée la séquence d’actions des différents agents (sous forme de log). Cette simple connaissance fournie en entrée devrait être suffisante pour obtenir les sorties attendues : à savoir la probabilité de saturation des services et les actions à mener pour diminuer cette probabilité.

Sujet :
L’objectif de ce stage est de faire un état de l’art sur les méthodes d’amélioration de processus. En effet, si une intervention dans le processus existant doit être proposée (doubler l’effectif d’un service, intervertir deux étapes, elle devra tenir compte des conséquences sur l’ensemble du processus (par exemple doubler l’effectif d’un service ne doit pas saturer le service suivant). Le candidat devra étudier les méthodes de représentation et de simulation de la causalité utilisant les nouvelles techniques de machine learning. En parallèle, il devra intégrer les méthodes de représentation plus explicites (sous forme logique) des lois causales comme l’extrapolation de croyances qui consiste à expliquer des scénarios donnés par les événements qui ont pu survenir à différents instants ou les algorithmes GDA (goal driven algorithms) basés sur le calcul des écarts entre la situation courante et la situation attendue afin de mettre à jour les buts de l’agent. L’étudiant.e s’appuiera pour cela sur les outils disponibles au laboratoire (COSMOS, Package R ) pour l’étude causale dans un processus et sur les outils décrits dans les références ci-dessous.

Les tâches à réaliser seront :

– Une étude bibliographique ;
– La sélection et le pré-traitement des données (log);
– La représentation logique et numérique du processus générique ;
– La résolution: proposition d’un processus amélioré à partir des données existantes ;
– L’étude d’impact suite au changement proposé, l’interprétation et la comparaison des résultats.
– La génération d’explications causales.

Ce stage sera encadré par Emmanuelle Claeys (emmanuelle.claeys@irit.fr) et Florence Bannay (florence.bannay@irit.fr) au laboratoire IRIT dans l’équipe ADRIA.

Profil du candidat :
Autonome en programmation (de préférence R ou Python), connaissances en logique et probabilités, intérêt pour le machine learning.

Formation et compétences requises :
Master 2 (informatique ou statistique) ou équivalent.

Adresse d’emploi :
IRIT Cours Rose Dieng-Kuntz, 31400 Toulouse

Deep Learning Frameworks for Generative Models of 4D Human
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ICube
Durée : 6 mois
Contact : seo@unistra.fr
Date limite de publication : 2021-02-15

Contexte :
Recently, there is a huge interest in applying deep learning techniques for synthesizing novel data from the learned model. It is true also for the human shape and motion data, for which several deep learning approaches have been proposed. Examples include a feedforward neural network that maps high level control parameters to the low level human motion over a manifold space found by a convolutional autoencoder, CNN-based architecture combined with deep correlated 2D features for full shape recovery from image silhouettes, auto-conditioned recurrent neural networks to synthesize arbitrary motions with highly complex styles, RNNs (recurrent neural networks) trained for time-series prediction on shape and pose change during animation, Phase-Functioned neural network which takes the geometry of the scene into account to produce character motion along a user-defined path, networks that can produce a distribution of next-state predictions in the context of character motion generation, among others.
In this internship, we will focus on generative models of new types of data, 4D human, i.e. 3D human shape data under motions. The challenging problem of high spatiotemporal dimension of data, physical/environmental constraints, and user-defined controls will be addressed, along with the architectures of deep neural networks that can handle long sequences without an accumulation of errors.

Sujet :
The objective of this internship is to develop deep-learning frameworks for the generation of realistic and controllable 4D human models. Given the user-controllable goal (task, style, constraints, etc), the trained network should be able to generate the desired model in real-time. There are several ways to approach the problem, depending on the representation of dataset, the choice of the network architecture, and the types of goals and the way they are specified/controlled by the user. As for the network architecture, we will focus on the combinations of RNN and variational autoencoder, allowing a stochastic prediction of shape- and pose-sequences in a latent space. Several preprocessing of datasets from different sources may be required, in order to homogenize them into a uniform representation for the training. Different data representations and network hyperparameters will be experimented, to obtain the best results. Evaluation and comparison of the performance to the state-of-the-art methods is strongly recommended, whenever applicable.

Profil du candidat :
— Master student in Computer Science or in (Applied) Mathematics
— Solid programming skills in deep learning platforms: Tensorflow/Pytorch
— Background in geometric modeling and statistics
— Good communication skills

Formation et compétences requises :
Image processing, Introduction to deep learning, Computer vision, Linear algebra, Statistics

Adresse d’emploi :
ICube UMR 7357 – Laboratoire des sciences de l’ingénieur, de l’informatique et de l’imagerie
300 bd Sébastien Brant – CS 10413 – F-67412 Illkirch

Document attaché : 202012142143_sujetM2_GenerativeModels.pdf

Définition de tableau de bord pour la régulation individuelle et collective de l’activité pédagogiqu
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut Gaspard Monge, Université Gustave Eiffel
Durée : 5/6 mois
Contact : olivier.champalle@u-pem.fr
Date limite de publication : 2021-02-15

Contexte :
Cette mission prend place dans un projet de plateforme numérique d’apprentissage utilisée en complément de cours en présentiel/distanciel. Dans ce cadre, le travail attendu est lié à la réflexion et la conception de POC de tableau de bord et d’indicateur de suivi et d’analyse d’activité (learning analytics) basée sur les traces numériques des étudiants.
PLaTon (Platform for Learning and Teaching Online) est une plateforme d’exercices auto-corrigés, conçue à l’Institut Gaspard Monge de l’Université Gustave Eiffel depuis 5 ans (naissance en 2015). Initialement dédiée à l’exécution en mode protégé de code d’étudiants, le projet c’est progressivement transformé en une plateforme web permettant la conception, le partage et la réutilisation d’exercices multi-disciplines (chimie, langues, mathématiques, programmation,…), à énoncé aléatoire favorisant l’entraînement des étudiants et limitant la « fausse » réussite.
Ces exercices sont capitalisables, réutilisables et modifiables par d’autres enseignants pour construire d’autres formations. Une communauté d’enseignant concepteur et ré-utilisateur d’exercice c’est construite depuis quelques années autour du projet PLaTon et contribue à son amélioration et sa croissance.
Depuis 2019, PLaTon est utilisée très régulièrement en renfort de plusieurs enseignements au sein de l’université Gustave Eiffel et Paris Sud, à hauteur de 2800-3000 connexions/logs quotidiens, sur des cours variés : Initiation Python, programmation C avancée, Programmation impérative, Design Patterns, Suites et fonctions, Algèbre linéaire, … .
PLaTon est principalement utilisée en « libre service », ce n’est pas une activité obligatoire mais fortement conseillée. Dernièrement des activités d’examens ont été déployées.

Sujet :
Le suivi et la régulation de l’activité sur PL en est à ses balbutiements tant sur le suivi individuel réflexif de l’activité que sur l’évaluation des exercices proposés, de la régulation des cours et plus globalement de l’impact de PLaTon sur la progression des élèves.
Le contenu précis de la mission sera ajusté au profil du candidat retenu, mais les objectifs sont resserrés sur la proposition/formalisation et conception de POC de tableaux de bord permettant par exemple :
• Pour les élèves :
o de mesurer leur progression en termes d’exercices déjà fait et restant à faire;
o en terme de tentative maximale, moyenne et minimale par exercice, …. ;
o de visualiser les compétences maîtrisées et restant à maîtriser. (Il sera possible d’exploiter les tags des exercices) ;
o…
• Pour les enseignants :
o mesurer la difficulté des exercices proposés et par-de là leur intérêt et/ou leur bonne ou mauvaise conception
o posséder une vue globale et élève par élève des résultats en particulier le « taux » de présence sur la plateforme
o détecter les comportements de type « gaming » : on clique avant de chercher à comprendre
o vérifier les «copies» de réponses: quels sont les comportements de type je récupère la réponse d’un autre ?
o identifier des clusters de trajectoires, …

Profil du candidat :
La personne intéressée sera en M2 ou dernière année d’école d’ingénieur. Elle aura naturellement une très forte appétence pour l’informatique ainsi que la programmation et aura des bases en analyse de traces numériques avec la technologie associée (Python, Pandas, Json, RDF,…). Elle ne sera pas pour autant un « codeur/codeuse ». Il est attendue une réelle réflexion sur les aspects pédagogie via le numérique et sur les moyens de piloter, d’analyser cette pédagogie via des indicateurs et des tableaux de bords.
Les propositions d’indicateurs, de POC etc. s’appuieront sur la littérature scientifique du domaine de recherche et sur la veille technologique. S’agissant aussi d’un travail de recherche, les résultats pourront conduire à réalisation d’une publication.

Formation et compétences requises :
M2 informatique de préférence recherche ou dernière année d’école d’ingénieur en informatique.
Des connaissances en analyses et visualisation de données ainsi que les technos associées

Adresse d’emploi :
La mission se déroulera dans les locaux de l’Institut Gaspard Monge de l’Université Gustave Eiffel. La personne sera régulièrement en contact avec les développeurs de l’application Platon et de l’équipe projet, elle/il participera aux réunions de pilotage et interviendra naturellement sur la partie analyse.
Institut Gaspard Monge, Université Gustave Eiffel, 5 bd Descartes, Cité Descartes, Champs-sur-Marne 77454 Marne-la-Vallée CEDEX 2

Document attaché : 202101140837_Proposition_StageM2_PLaTon.pdf

Detection of exoplanets and disks in direct imaging with VLT/SPHERE using large libraries of images
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de planétologie et d’Astrophysique de Gr
Durée : 4-6 months
Contact : julien.milli@univ-grenoble-alpes.fr
Date limite de publication : 2021-02-15

Contexte :
The VLT/SPHERE high-contrast imager is one of the most powerful instruments for the detection of exoplanets and discs by direct imaging, combining extreme adaptive optics and coronagraphy. The main challenge in data processing consists in estimating and then subtracting as much as possible the light from the central star that has not been entirely blocked by the coronagraph, to reveal in the circumstellar environment the potential signature of exoplanets in orbit around the star, or dust rings leftover from the planetary system formation. Currently, the most efficient techniques are based on angular diversity, which allows to estimate stellar residuals empirically from a temporal sequence of images of the target star where the telescope pupil is fixed and objects in the sky rotate. The main difficulty of this approach is to properly separate the stellar residuals from the astrophysical signal of planets or disks during estimation. This is especially true for extended signals from discs, making this technique almost blind to discs seen under a pole-on configuration.
An alternative technique is to use a library of images of other stars to estimate the stellar residuals. Thanks to recent developments in algorithms and advances in computing capacity, this technique is now attracting great interest in ground-based instruments fed by extreme adaptive optics, such as VLT/SPHERE, which compensate for the atmospheric turbulence.

Sujet :
The aim of the internship is to improve the image processing of the VLT/SPHERE instrument with the help of image libraries. In particular, the study will focus on the impact of the size of the library on the performance. This will be done using a dataset of 26 target stars, allowing the performance to be characterised for an average library size of about 4000 images. This will be compared with the results obtained by compiling a library one hundred times larger, using the architecture of the SPHERE Data Center in Grenoble. Particular interest will be paid to the performance of extended signals detection, such as discs, which is one of the major interests of this technique.

This study is part of and funded by the ERC project COBREX, which brings together researchers from the Laboratoire d’Etudes Spatiales et d’Instrumentation en Astrophysique (LESIA, at the Paris Observatory), the Institut de Planétologie et d’Astrophysique de Grenoble (IPAG) where the internship will take place, and the Centre de Recherche Astrophysique de Lyon (CRAL).

Profil du candidat :
The candidate should have skills either in the following areas: signal and image processing, machine learning, optics

Formation et compétences requises :
The candidate can have a background either in applied mathematics/ data science or in astrophysics / instrumentation for astrophysics

Adresse d’emploi :
Institut de Planetologie et d’Astrophysique de Grenoble (IPAG)
414, rue de la Piscine
Domaine Universitaire Saint-Martin-d’Hères
BP 53
38041 Grenoble cedex 9
France

Exoplanets in transition disks. A novel use of the diversity at medium spectal resolving powers.
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Etudes Spatiales et d’Instrumentatio
Durée : 3 à 6 mois (négociab
Contact : anne-marie.lagrange@obspm.fr
Date limite de publication : 2021-02-15

Contexte :
Recent studies have demonstrated that coupling high contrast imaging with medium or high resolution spectroscopy leads to a significant improvement in the detection capability of exoplanets, in particular young ones, and to constrain their physical and chemical properties (Hoejmakers et al, 2018, https://arxiv.org/pdf/1802.09721.pdf). This technique, called Molecule Mapping exploits the diversity contained in the data and could on the long term allow to detect and characterize Earth twins around other stars.

Sujet :
The Internship will be devoted to the analysis of a sample of young stars surrounded by transition disks, using data collected at the with the spectro-imager SINFONI mounted on the ESO Very Large Telescope (Chili). These stars, aged a few million years are surrounded by dust disks called transition disks that have been resolved by high contrast imagers at the VLT and/or by the ALMA radio interferometer. An example is PDS70 (Keppler et al, 2018, https://arxiv.org/abs/1806.11568), in which two planets have been detected in the central cavity of a dust transition disk.

The intern will use existing algorithms developed in Grenoble and Paris to analyse the data. if necessary, (s)he will further develop these algorithms. (S)he will interpret the results obtained for each individual system.

The intern will be supervised by Anne-Marie LAGRANGE and Anthony BOCCALETTI at LESIA (Paris) and remotely by Mickaël BONNEFOY at IPAG (Grenoble).

S)he will be a member of the ERC COBREX, collaborating with researchers from the Laboratoire d’Etudes Spatiales et d’Instrumentation en Astrophysique (Obs. de Paris), the Institut de Planétologie et d’Astrophysique de Grenoble (IPAG) and the Centre de Recherche Astrophysique de Lyon (CRAL).

Profil du candidat :
The intern should demonstrate her/his ability to work in Python and have solid grounds in signal processing.

Formation et compétences requises :
Excellent knowledge of Python and the following libraries (numpy, scipy, pandas, scikit-learn).

Adresse d’emploi :
LESIA
Observatoire de Paris, Section de Meudon
5, place Jules Janssen
92195 MEUDON Cedex

Improving the detection capability of forming exoplanets in hyperspectral data with inverse problem
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : 3 à 5 mois
Contact : mickael.bonnefoy@univ-grenoble-alpes.fr
Date limite de publication : 2021-02-15

Contexte :
Exoplanets are planets orbiting other stars than the Sun. Since their luminosity is orders of magnitude smaller than their host star, finding them and characterizing their properties is extremely challenging and necessitate very careful data analysis and data calibration. For years, astronomers have been using empirical calibrations to improve data quality, but recent publications led by data scientists have shown that an inverse problem approach with minimal empirical information can improve the data reduction, especially on 3D hyperspectral data produced by integrated field spectrographs, where each pixel of an image has an associated spectroscopic information. The approach does remove very efficiently systematic errors from the early data reductions steps, thus improving the full reduction chain. These improvements are key to allow the most advanced data algorithms to reveal their full potential, enabling reliable analysis of the spectroscopic signatures of exoplanets.
The latest and upcoming generation of integral field spectrographs such as MUSE, SINFONI and soon ERIS on the Very-Large Telescope (ESO, Chile) can disentangle the sparse spectral emission features of forming planets from the dominant stellar halo and promise to boost exoplanet detection capabilities [1]. In that context, the implementation of inverse problem approach on these data appear as a key step for lowering the false positive detection of these spectral features and for providing reliable information on the detected objects.

Sujet :
The intern will start from an existing algorithm based on the inverse approach (PIC) and presently applied to low resolution integrated field spectrographs [2]. She/He will adapt it to the case of the higher resolution integral field spectrographs mentioned above. The supervisors will provide benchmark datasets – some including real exoplanets – reduced with the “traditional” empirical approach (already implemented) to estimate advantages and drawbacks of each approach. This internship offers to develop these approaches on such data for the first time and we therefore expect the work to identify the main leverage points in the method.
The internship will last from 3 to 5 months (to be discussed with the applicant). The work is intended to be introductory of a PhD thesis (funding secured) at the fringe between data science and astrophysics that will be opened in the fall of 2021.

[1] Original use of MUSE’s laser tomography adaptive optics to directly image young accreting exoplanets. Girard et al. 2020. https://arxiv.org/pdf/2003.02145.pdf

[2] PIC: a data reduction algorithm for integral field spectrographs Application to the SPHERE instrument. Berdeu et al. 2020. https://www.aanda.org/articles/aa/abs/2020/03/aa36890-19/aa36890-19.html

Profil du candidat :
We are looking for a master 2 student (of equivalent) with a strong background in signal processing and interests in astrophysics. The student will be part of a vibrant team of researchers from the Institut de Planétologie et d’Astrophysique de Grenoble and is expected to interact with data scientists from the CRAL (Lyon) laboratory.

Formation et compétences requises :
master 2 or equivalent in data science and/or applied mathematics
enthusiasm to deal with open questions
excellent programming skills (>2 years experience in Python)
ability for team work

Adresse d’emploi :
IPAG 414 rue de la piscine campus universitaire de Grenoble
https://ipag.osug.fr/

Document attaché : 202101140910_StageM2_PICS.pdf

Isomorphisme de graphes touristiques
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DVRC / Pôle Léonard de Vinci
Durée : 5 mois
Contact : sonia.djebali@devinci.fr
Date limite de publication : 2021-02-15

Contexte :
La compréhension du comportement et de la mobilité touristique requiert de prendre en compte les informations sur les lieux visités, les données sur le touriste ainsi que leurs interactions. Il est possible de représenter les interactions intrinsèques entre les lieux par un graphe. Un graphe représente un groupe de touristes selon un paramètre donné, par exemple la nationalité. Le laboratoire DVRC est spécialisé dans l’analyse de comportement touristique et a développé des études sur la circulation des touristes sur le territoire grâce à des représentations sous forme de graphes [1, 2]. Toutefois, les graphes générés demandent une analyse encore plus fine avec l’extraction de caractéristiques communes entre ces graphes.
Afin d’extraire des caractéristiques identiques entre groupes, il est nécessaire de se focaliser sur les similitudes entre les deux graphes. Leur comparaison se fait par une application mathématique appelée isomorphisme. Historiquement, pour prouver l’isomorphisme entre deux graphes, il convient de comparer leur matrice d’adjacence, à condition d’avoir le même nombre de sommets et le même nombre d’arêtes [3].
Cependant, la comparaison de deux graphes contenant de nombreux sommets, ou de tailles différentes requiert donc une autre méthodologie. L’isomorphisme de deux graphes peut être effectué sur les composantes fortement connexes de ces graphes [4]. Une autre approche serait de réduire un des deux graphes dans le deuxième [5]. Dans cette dernière approche, l’isomorphisme fait appel à un mapping entre les deux graphes. Dans ces deux approches, il est envisageable d’utiliser l’isomorphisme de matrices.
D’autre part, les graphes manipulés dans le contexte de la circulation touristique sont variables et peuvent devenir conséquents, surtout en nombre d’arêtes. Il est donc nécessaire que cette méthode soit améliorée afin d’être efficace sur des matrices de grande taille, et possiblement non symétrique dans le cadre d’un graphe orienté. Une approche de stockage reposant sur une base de données orientée graphe, telle que Néo4j1 permet de gérer l’accès aux données et faciliter la gestion des ressources pour de telles manipulations.

Sujet :
L’objectif du stage est d’effectuer un état de l’art sur la problématique de l’isomorphisme de graphe, de similarité de sous-composantes et de mapping de graphe. Une méthodologie pour comparer de graphes de structures différentes devra être établie avec une complexité en temps et en mémoire moindre. L’étudiant devra donc :
• Développer un état de l’art sur l’isomorphisme de graphe et d’étudier les spécificités du contexte de graphes de circulation touristique ;
• Intégrer une approche de la littérature dans la base de données orientée graphe Neo4j utilisé dans ce contexte ;
• Proposer une nouvelle méthodologie de comparaison de graphes capable de passer à l’échelle

Profil du candidat :
Étudiante ou étudiant de niveau M2 en informatique (Master ou école d’ingénieurs).

Formation et compétences requises :
Les candidat.e.s sont invité.e.s à nous envoyer un mail à sonia.djebali@devinci.fr avec : CV indiquant leurs expériences et compétences
Une lettre de motivation
Les bulletins de notes des deux dernières années.

Adresse d’emploi :
Laboratoire de recherche De Vinci Research Center au sein de l’École Supérieure d’Ingénieurs Léonard de Vinci ; Paris, la Défense.

Document attaché : 202101061625_SUJET_ISOMORPHISME.pdf

Représentation et raisonnement pour la découverte de connaissances
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : MaIAGE
Durée : 6 mois
Contact : claire.nedellec@inrae.fr
Date limite de publication : 2021-02-15

Contexte :
Stage de recherche master de 5 ou 6 mois.

Dans les sciences expérimentales, les informations et connaissances du domaine sont décrites de différentes manières, e.g. en langue naturelle dans des publications scientifiques, et sous forme structurée dans des bases de données publiques ou privées.
L’origine des informations est une source de diversité. Les informations d’observations expérimentales sont précises et localisées, généralement numériques. L’extraction d’information à partir de textes (text mining) produit des informations de portée plus générale et de type qualitatif.
Leur annotation (ou indexation) par des ontologies facilite leur interrogation, leur accès et leur réutilisation [5,6]. Les modèles de représentations du web sémantique sont en effet adaptés à la gestion de très grands nombres d’observations ou de résultats expérimentaux décrits par des caractéristiques très variées.
Dans le domaine des sciences de la vie et de l’agriculture, la production de ces informations est coûteuse. Compléter ces données et produire des hypothèses réalistes par des moyens automatiques à partir de ces données est un enjeu majeur de ce domaine. L’indexation des données et des textes par des ontologies permet d’inférer de nouvelles informations. Le principe consiste à appliquer aux informations connues (observations, exemples) des règles du domaine, représentées dans un formalisme logique. Les inférences déductives sont les plus utilisées, puisque les assertions obtenues sont valides (par exemple, un canari est un oiseau). Les inférences non déductives, telles que l’induction, l’abduction ou l’analogie sont très intéressantes parce que les nouvelles assertions peuvent permettre d’enrichir considérablement les bases de connaissances, mais leur validité est conditionnée par la représentation des connaissances du domaine.
Ce stage s’inscrit dans le cadre du projet ANR D2KAB qui vise à créer une plateforme pour transformer des données en agronomie et biodiversité en connaissances – décrites de manière systématique, interopérables, exploitables, ouvertes – et étudier les méthodes et outils scientifiques permettant d’exploiter ces connaissances pour des applications en science et en agriculture.

Sujet :
Objectif
—–

L’objectif du stage est de proposer une représentation formelle pour les connaissances du domaine et une méthode de raisonnement qui permette de déduire de nouvelles connaissances pour enrichir les bases de données.
Par exemple, on souhaite inférer dans la base Florilège, de nouvelles propriétés des microbes à partir de leurs habitats et des propriétés d’autres microbes.
Exemple : L’ontologie OntoBiotope définit la température interne du corps humain comme moyenne, et l’intestin comme faisant partie du corps humain. La littérature scientifique indique que la bactérie E. Coli vit dans l’intestin humain. On voudrait déduire de ces connaissances que la bactérie E. Coli peut vivre à température moyenne, elle est mesophile. On sait qu’une bactérie ne peut pas être à la fois thermophile (aimer le très chaud) et cryophile (aimer le très froid). On voudrait que les connaissances déduites respectent ces contraintes.
Comme dans cet exemple, on voudrait trouver et représenter des règles générales qui déduisent les phénotypes des organismes en fonction des propriétés connues des organismes et de leur environnment. On voudra aussi représenter des contraintes pour vérifier que les inférences sont cohérentes avec ces contraintes.
Les étapes du travail seront les suivantes :
• Étude bibliographique du raisonnement dans les ontologies et les données liées et comparaison des meilleures alternatives.
• Proposition d’une représentation formelle pour les connaissances de l’exemple Florilège et adaptable à d’autres sujets similaires (e.g. phénotypes du blé tendre)
• Proposition d’une représentation des contraintes et de leur vérification
• Réalisation d’une implémentation et évaluation expérimentale.
Les résultats feront l’objet d’une exploitation dans les bases de données des domaines expérimentaux considérés.

Méthodes, données et logiciels
——-

Dans le cadre du stage, deux ensembles de données et ontologies d’INRAE seront considérés.
– La base publique Florilège (http://migale.jouy.inra.fr/Florilege/#&welcome) intègre des informations sur les microbes, leurs habitats et leurs phénotypes (leurs caractéristiques) provenant de la bibliographie et de bases de données biologiques. Ces informations sont indexées automatiquement par l’ontologie OntoBiotope (http://agroportal.lirmm.fr/ontologies/ONTOBIOTOPE/) et la taxinomie des espèces du NCBI (https://www.ncbi.nlm.nih.gov/taxonomy) [1].
– La base SamBlé intègre des informations sur les variétés de blé, leurs phénotypes et leurs traits provenant de la bibliographie et d’observations, indexées par l’ontologie WTO [5,7].
L’équipe Wimmics développe des modèles et outils basés sur les formalismes du web sémantique qui permettent de modéliser et de raisonner sur les ontologies et les données liées [4]. En particulier, le moteur Corese (https://project.inria.fr/corese/) permet (1) d’inférer de nouvelles connaissances à partir de sources de données RDF, en exploitant la sémantique de ces données capturée dans des vocabulaires RDFS, OWL ou SKOS ou des bases de règles d’inférence SPIN, (2) d’interroger ces données RDF en tenant compte de leur sémantique, (3) de vérifier la conformité des données par rapport à des contraintes exprimées en SHACL, et plus généralement (4) de traiter et visualiser des données RDF avec les langages LDScript [2] et STTL [3].

Références
———-

1. Estelle Chaix, Louise Deléger, Robert Bossy, Claire Nédellec. Text mining tools for extracting information about microbial biodiversity in food. Food Microbiology, 2019. https://doi.org/10.1016/j.fm.2018.04.011
2. Olivier Corby, Catherine Faron Zucker, Fabien Gandon. LDScript: a Linked Data Script Language. International Semantic Web Conference, Oct 2017, Vienne, Austria.
3. Olivier Corby, Catherine Faron Zucker. STTL: A SPARQL-based Transformation Language for RDF. 11th International Conference on Web Information Systems and Technologies, May 2015, Lisbon, Portugal.
4. Oumy Seye, Catherine Faron Zucker, Olivier Corby, Alban Gaignard. Publication, partage et réutilisation de règles sur le Web de données. 25èmes Journées francophones d’Ingénierie des Connaissances, May 2014, Clermont-Ferrand, France.
5. Claire Nédellec, Liliana Ibanescu, Robert Bossy, Pierre Sourdille. WTO, an ontology for wheat traits and phenotypes in scientific publications. 18(2) Genomics & Informatics. 2020. doi: 10.5808/GI.2020.18.2.e1461.
6. Claire Nédellec, Robert Bossy, Estelle Chaix, Louise Deléger. Text-mining and ontologies: new approaches to knowledge discovery of microbial diversity. In Proceedings of the 4th International Microbial Diversity Conference. pp. 221-227, ed. Marco Gobetti. Bari, October 2017. arXiv:1805.04107
7. Claire Nédellec, Robert Bossy, Dialekti Valsamou, Marion Ranoux, Wiktoria Golik, Pierre Sourdille. Information Extraction from Bibliography for Marker Assisted Selection in Wheat. In proceedings of the 8th Metadata and Semantics Research Conference (MTSR’14), Springer Communications in Computer and Information Science, Series Volume 478, Karlsruhe, pp 301-313, Allemagne, 2014. DOI: 10.1007/978-3-319-13674-5_28. https://hal.archives-ouvertes.fr/hal-01132767v1

Profil du candidat :
Etudiant en Master 2/5ième année ingénieur en informatique/IA

Formation et compétences requises :
Le français et l’anglais sont les langues de travail.

Adresse d’emploi :
MaIAGE, INRAE, Université Paris-Saclay, Domaine de Vilvert, 78352 Jouy-en-Josas

Début: Février/Mars 2021
Financement par le projet ANR D2KAB
Gratification: selon les règles en vigueur (environ 600 euros par mois).
Candidature : CV, lettre de motivation et relevés de notes (licence et Master)
A envoyer à : claire.nedellec@inrae.fr, faron@i3s.unice.fr, liliana.ibanescu@agroparistech.fr

Ce stage sera réalisé dans le cadre d’une collaboration entre l’équipe Wimmics commune à Inria et I3S et deux équipes de deux unités INRAE et Université Paris-Saclay, l’équipe Bibliome de l’unité MaIAGE et l’équipe Ekinocs de l’unité MIA-Paris.

Encadrement :
• Claire Nédellec, équipe Bibliome, INRAE, Université Paris-Saclay, https://maiage.inrae.fr/fr/bibliome
• Catherine Faron, équipe Wimmics, Université Côte d’Azur, Inria, I3S https://team.inria.fr/wimmics/
• Liliana Ibanescu, équipe Ekinocs, MIA-Paris, INRAE AgroParisTech, Université Paris-Saclay https://www6.inrae.fr/mia-paris/Equipes/EkINocs

Document attaché : 202012151011_Stage_M2_2021-inference Inrae-Agro-Inria.pdf

Feb
22
Mon
2021
Accommodating Trajectory Data Variety and Volume by a Multimodel Star Schema: application to autonom
Feb 22 – Feb 23 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : TSCF, INRAE
Durée : 6 mois
Contact : sandro.bimonte@irstea.fr
Date limite de publication : 2021-02-22

Contexte :
Nowadays, more and more trajectory data is collected from new acquisition systems (smartphones, vehicles, etc.). A trajectory is described by temporal and spatial data, and it is accompanied by contextual data (such as field, markets, meteo, etc.). Then, we can consider trajectory data as Big Data presenting 3Vs features: Velocity, Variety and Volume. In particular in the context of the I-Site CAP2025 SupeRob project that aims to provide an information system for the planning and monitoring of autonomous robots planning in the agricultural context a big data set of trajectory data is generated.

Sujet :
Recent approaches adopt multimodel databases (MMDBs) to natively handle the variety and volume issues arising from the increasing amounts of heterogeneous data (structured, semi-structured, graph based, etc.) made available. However, when it comes to analyzing these data, traditional data Warehouses (DWs) and OLAP systems fall short because they rely on relational DBMSs for storage and querying, thus constraining data variety into the rigidity of a structured schema. DW and OLAP systems allow the online analysis of huge datasets with simple and userfriendly user interfaces.
This project will provide a preliminary investigation of the performance of MMDBs when used to store multidimensional trajectory Big Data for OLAP analysis. The proposals will be applied to data generated in the context of the SupeRob project to handle robots experts to visually analyze their datasets.

Profil du candidat :
Student with skills in Business Intelligence

Formation et compétences requises :
Excelllent skills in databases
Good skills in Data Warehouse
Skills in spatial data

Adresse d’emploi :
INRAE
9 Avenue Blaise Pascal, Aubiere (Clermont Ferrand)

Document attaché : 202011291300_dossier-m2.pdf

Représentation de mouvement humain en vidéo pour l’analyse de comportement
Feb 22 – Feb 23 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : XLIM, université de Poitiers
Durée : 5/6 mois
Contact : olfa.ben.ahmed@univ-poitiers.fr
Date limite de publication : 2021-02-22

Contexte :
De très nombreuses recherches ont permis d’objectiver l’existence d’une équivalence
fonctionnelle entre la production et la perception des mouvements biologiques [1]. En lien avec
ces données, des chercheurs se sont intéressés à l’observation d’action comme technique
d’apprentissage ou de rééducation de comportements moteurs. Afin d’analyser précisément les
mécanismes mis en jeu dans l’observation d’action, une des approches utilisées consiste à
présenter les actions sous la forme d’une séquence animée de points représentant les
articulations d’une personne en mouvement (Technique du point-light display) [2][3]. Cependant,
les techniques utilisées pour réaliser ces séquences (utilisation d’une vingtaine de caméras infrarouge et de marqueurs placés sur le corps des participants, Vicon, Qualisis) sont parfois difficiles
à mettre en œuvre dans le cadre de la rééducation ou de l’entraînement sportif. Il serait donc
important de développer des techniques alternatives plus intelligentes.

Sujet :

Le sujet de stage consiste à développer un module capable de présenter une action humaine
sous forme de séquences animées de points en utilisant des techniques de vision par ordinateur
et d’apprentissage automatique [4]. L’objectif de ce stage sera de proposer un algorithme basé
sur les réseaux de neurones convolutifs (CNN) pour la détection de la posture humaine, la
détection des points d’intérêt qui présentent les articulateurs du corps humain. En outre, il sera
indispensable de disposer des coordonnées en 3D (X, Y, Z) de chaque articulation d’intérêt (tête,
épaules, coudes, poignets, hanches, genoux, chevilles par exemple) au cours du temps. Les
questions de lissage du signal devront également être prise en compte pour la création des
séquences animés des points. Finalement, les points détectés présenteront le mouvement de ces
articulations sous forme d’une séquence des marqueurs blancs sur un arrière plan noir, c’est le
principe des PLD. Le module développé serait intégré dans le logiciel PLAVIMOP [2] afin d’être
utilisé dans des protocoles d’apprentissage, de rééducation ou d’optimisation du comportement.
Les séquences de PLD ainsi créées seront comparées d’un point de vue biomécanique avec des
séquences réalisées par motion capture (vérité terrain) grâce aux techniques classiques de
capture du mouvement.

Profil du candidat :
Formation Master 2 ou Ecole d’Ingénieur. Traitement d’image, Machine Learning (Deep Learning), Vision par ordinateur
Programmation Python (Tensorflow et/ou Pytorch)

Formation et compétences requises :
.

Adresse d’emploi :
Laboratoire XLIM, site de Futuroscope, université de Poitiers

Feb
26
Fri
2021
Analyzing the river bedload transport with compressed sensing
Feb 26 – Feb 27 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : SISYPH team, Laboratoire de Physique de l’ENS Lyo
Durée : 4-6 mois
Contact : nelly.pustelnik@ens-lyon.fr
Date limite de publication : 2021-02-26

Contexte :
Radio frequency identification (RFID) technologies, which allow wireless detection of individual buried or immersed tracers, represent a step forward in sediment tracking, especially passive integrated transponders (PIT tags) that have been widely used. Despite their widespread adoption in the scientific community, they typically have low efficiency when deployed in river systems with active bedload transport or deep wet channels, attributed to their technical specifications. A recent evaluation of active ultra-high frequency transponders (a-UHF tags) assessed their larger detection range and provided a methodology for their geopositioning. In [1], M. Cassel and collaborators tested different survey methods (one including an unmanned aerial vehicle) and compare them in terms of recovery rate.
On the other hand compressed sensing offers a theoretical framework to recover sparse data (i.e. the immersed tracers location in the context of this internship) from partial measures. Among the numerous applications in image processing, magnetic resonance imaging (MRI) is probably one of the most successful application fields of compressed sensing as in [2] where the authors tackle the question that “given a set of sampling constraints (e.g., measuring along physically plausible trajectories), how to optimally design a sampling pattern”. In the framework of this internship similar idea will be explored to design an optimal path to recover all the immersed tracers and offer theoretical guarantees.

[1] M. Cassel, H. Piegay, G. Fantino, J. Lejot, L. Bultingaire, K. Michel, and F. Perret. Comparison of ground-based and UAV a-UHFartificial tracer mobility monitoring methods on abraided river, Earth Surf. Process. Landforms, 2020.
[2] C. Boyer, N. Chauffert, P. Ciuciu, J. Kahn, P. Weiss, On the Generation of Sampling Schemes for Magnetic Resonance Imaging, SIAM J. Imaging Sciences, 9(4):2039-2072, 2016.

Sujet :
This internship is devoted to the design of an optimal path to recover the locations of all the immersed tracers. The main steps of these internship will be:
* to deeply understand the theory of compressed sensing in particular the contribution in [2];
* adapt [2] to the specificities of immersed tracers identifications;
* propose a new pathways strategy for the next deployed experiments.

Profil du candidat :
The candidate must have skills in some of the following areas: Signal and Image Processing, Data science, Probability, Statistics, and Modeling.

Formation et compétences requises :
not specified

Adresse d’emploi :
46 allée d’Italie, 69364 Lyon cedex

Document attaché : 202101050604_SujetStage.pdf

Deep learning for high-contrast reconstruction for studying circumstellar environments
Feb 26 – Feb 27 all-day

Offre en lien avec l’Action/le Réseau : ATLAS/– — –

Laboratoire/Entreprise : CRAL, Observatoire de Lyon
Durée : 4-6 mois
Contact : nelly.pustelnik@ens-lyon.fr
Date limite de publication : 2021-02-26

Contexte :
Polarimetric imaging is one of the most effective techniques for high-contrast imaging and characterization of circumstellar environments. These environments can be characterized through direct-imaging polarimetry at near-infrared wavelengths. The Spectro-Polarimetric High-contrast Exoplanet REsearch (SPHERE)/IRDIS instrument installed on the Very Large Telescope in its dual-beam polarimetric imaging (DPI) mode, offers the capability to acquire polarimetric images at high contrast and high angular resolution. However dedicated image processing is needed to get rid of the contamination by the stellar light, of instrumental polarization effects and of the blurring by the instrumental point spread function. In [1], we propose a reconstruction strategy to deconvolve the near-infrared polarization signal from circumstellar environments. This reconstruction method relies on variational techniques including weighted data fidelity term, smooth penalization, and additional constraints. The method improves the overall performances in particular for low SNR/small polarized flux compared to standard methods.

Sujet :
Following recent advances in deep learning for image restoration, the objective of this internship is to explore such framework in the context of high-contrast reconstruction for studying cIrcumstellar environments. Using as a starting point the direct model and the algorithmic strategy provided in [1], we will unroll the iterations to fit a deep learning formalism as proposed in [2].

[1] L. Denneulin, M. Langlois, E. Thiébaut, and N. Pustelnik, RHAPSODIE : Reconstruction of High-contrAst Polarized SOurces and Deconvolution for cIrcumstellar Environments, submitted, 2020.
[2] M. Jiu, N. Pustelnik, A deep primal-dual proximal network for image restoration, arXiv:2007.00959, 2020.

Profil du candidat :
The candidate must have skills in some of the following areas: Signal and Image Processing, Data science, Optimization, Machine Learning.

Formation et compétences requises :
not specified

Adresse d’emploi :
9 Avenue Charles Andre, 69230 Saint-Genis-Laval, France

Document attaché : 202101050537_2020_SujetStage_SPHERE.pdf

Stage M1/M2
Feb 26 – Feb 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR LETG Rennes (CNRS, Univ. Rennes 2), UMR ESE (I
Durée : 6 mois
Contact : guglielmo.fernandez-garcia@inra.fr
Date limite de publication : 2021-02-26

Contexte :
Dans le cadre du suivi des poissons en rivières, les caméras acoustiques sont des outils de plus en plus utilisées car elles permettent un enregistrement continu et non intrusif de toute l’activité de la faune aquatique dans son milieu naturel. Il en résulte des quantités énormes de vidéos dans lesquelles on cherche à sélectionner les passages des poissons, dénombrer les effectifs, et identifier leurs espèces. En vue de réduire les temps de visionnage manuel des vidéos par des opérateurs dédiés, nous avons développé une méthode automatique, basée sur des techniques de réseaux de neurones, qui permet de détecter les passages de poissons dans les vidéos acoustiques.

Cet outil, développée en python et C++, peut être améliorée. Actuellement, la méthode permet uniquement de reconnaître le passage d’un poisson sans en identifier l’espèce ni en extraire des descripteurs morphologiques ou comportementaux. Parmi les poissons détectés, il est nécessaire de pouvoir identifier automatiquement l’espèce observée et la taille des individus afin de décrire la composition des populations étudiées. De plus, la méthode a été développée à partir des données de deux caméras sonar (DIDSON et ARIS), déployées sur deux sites d’étude différents (Sélune et Touques en Normandie), l’efficacité de la méthode avec d’autres caméras (ex. Blueview) et sur d’autres sites de suivi est encore à tester.

Sujet :
Afin de rendre l’outil utilisable par les différents acteurs de recherche ou de gestion de la biodiversité des milieux aquatiques, nous avons besoin de développer un outil d’analyse capable d’extraire un maximum d’informations biologiques à partir des vidéos acoustiques. En particulier, nous souhaitons :

• Améliorer l’analyse multi-espèces (multi-classes) des flux vidéo des caméras sonar
• Permettre l’extraction automatique des caractéristiques morphologiques (e.g. taille) et comportementales (e.g. direction de la nage).
• Étudier l’extension de la méthode à d’autres types de caméras sonar et à différents sites d’étude.

Pour atteindre ces objectifs, nous allons suivre deux approches:

• Étendre la méthode actuelle: une première analyse multi-espèces peut être dérivée directement du modèle actuel, en augmentant le nombre de classes, chaque classe représentant une espèce d’intérêt. L’extraction des descripteurs de chaque passage de poisson sera réalisée en analysant les détections par le biais de cette méthode.
• Développer une approche temporelle de segmentation sémantique: dans ces méthodes chaque pixel de l’image est classé. Cela permet d’identifier avec précision la région qui représente l’objet d’intérêt sur l’image, conduisant ainsi à une meilleure définition des propriétés morphologiques du poisson et donc de l’identification de son espèce.

Profil du candidat :
Étudiant M1 ou M2 en informatique, science des données, écologie ou géographie ou des domaines connexes.

Formation et compétences requises :
La connaissance de Python est souhaitable. Une connaissance de base des méthodes d’apprentissage automatique est appréciée, mais pas obligatoire.

Adresse d’emploi :
UMR LETG Rennes (CNRS, Univ. Rennes 2)
’UMR ESE (INRAE, Institut Agro, Rennes)

Document attaché : 202102031459_fiche_stage_AcousticAI.pdf

Feb
28
Sun
2021
Stage PFE en Statistiques: Analyse de population – Imputation / redressement
Feb 28 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Université de Technologie de Troyes
Durée : 6 mois
Contact : pierre.beauseroy@utt.fr
Date limite de publication : 2021-02-28

Contexte :
Ref. N° DTX 04122020 (à préciser dans l’objet votre mail de candidature + lettre de motivation)
Contexte
DiTeX est une un laboratoire commun de R&D en Data-Innovation pour l’industrie du Textile et de l’habillement (DiTeX) qui regroupe l’Université de Technologie de Troyes (UTT) et l’Institut Français Textile et Habillement (IFTH). Il a pour ambition d’explorer les nouvelles voies dans le domaine de la modélisation statistique et des Big Data pour l’analyse et la valorisation des données appliquées aux problèmes et aux données de l’habillement. L’un des axes de développement de nouveau services concerne l’exploitation des données métier (matériaux, mensurations, morphologie, etc.) pour permettre une exploration optimale des panels.

Sujet :
Dans la pratique, l’objectif est d’extraire du panel complet une population qui corresponde aux caractéristiques désirées d’une population cible (âge, sexe…) et de s’assurer que cette partie du panel est bien représentative de la population cible dans son ensemble. Pour ce faire, il est possible de s’appuyer sur des données tierces (INSEE…). Ces données tierces peuvent aussi apporter des informations complémentaires (non disponibles ou partiellement renseignées pour le panel), qu’il peut s’avérer utile d’exploiter.
L’étape de définition d’une population peut donc comporter une phase de choix des individus et de redressement de la population pour correspondre aux caractéristiques de la cible visée et l’apport d’information complémentaire pose la question de l’enrichissement des données de la population sélectionnée.
L’objet du stage et d’étudier ces deux aspects.

Vos missions:
– Faire un état de l’art sur le redressement des échantillons et sur l’enrichissement de données.
– Faire une première exploration des données de l’IFTH
– Identifier des données externes pertinentes pour l’enrichissement, et/ou le redressement
– Proposer des modalités de redressement et/ou d’enrichissement adaptées à une population cible définie dans le cadre d’un « cas d’école ».
– Proposer une stratégie d’évaluation de la pertinence de la population après redressement/enrichissement par rapport à la cible.

Profil du candidat :
Profil recherché et compétences :
Etre en fin de formation ingénieur ou master ou mastère spécialisé en Mathématiques ou Informatiques et avoir de bonnes connaissances en :
– Statistiques,
– Data science
– Ingénierie de la donnée (plus globalement),

Formation et compétences requises :
Elle/il doit être capable de mener à bien une mission de « data exploration », présenter et défendre ses résultats (esprit critique et de synthèse).
Sur le plan technique:
– Très bonne maîtrise de Python et/ou Matlab pour le data science,
– Outils statistiques

Adresse d’emploi :
Université de Technologie de Troyes
Equipe Modélisation et Sûreté des Systèmes (M2S)
Département Recherche Opérationnelle, Statistiques Appliquées, Simulation (ROSAS)
*** Affectation :
La/le candidat(e) retenu(e) aura à travailler dans une équipe mixte IFTH-UTT à Troyes.

Adversarial learning of variational models for inverse problems
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 6 mois
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2021-02-28

Contexte :
This internship offer is open in the framework of AI chair OceaniX (https://cia-oceanix.github.io/), which develops Physics-Informed AI for Ocean Monitoring and Surveillance.

Sujet :
Data-driven and learning-based strategies for the analysis, modeling and reconstruction of dynamical systems are currently emerging as promising research directions as an alternative to classic model-driven approaches for a wide variety of application fields, including atmosphere and ocean science, remote sensing, computer vision…. [2,3,4]. Especially, deep learning schemes [1] are currently investigated to address inverse problems, i.e. reconstruction of signals or images from observations. Especially, recent works [e.g., 3,4] have shown that one can learn variational models and solvers for the reconstruction. This internship will further investigate such variational formulations to design samplers of realistic reconstruction given the available observations. The envisioned framework will combine adversarial learning strategies, e.g. [5,6] with the joint learning of variational models and solvers [3].
For evaluation purposes, different case-studies will be implemented (e.g., image inpainting, reconstruction of hidden dynamics,…), for instance similarly to [3]. Application to the reconstruction of sea surface dynamics from satellite-derived observations might also be considered. Pytorch will be the preferred framework for these experiments.

Profil du candidat :
MSc. and/or engineer degree in Applied Math., Data Science and/or Computer Science with a strong theoretical background, proven programming skills (Python).

Formation et compétences requises :
Advanced knowledge of deep learning models and a first experience with Pytorch would be a plus.

Adresse d’emploi :
IMT Atlantique, Brest, France

Document attaché : 202011160847_internship_GAN_VarNN2021.pdf

Apprentissage profond pour la cartographie automatique de l’occupation du sol
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS (Térritoire, Environnement, Télé
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2021-02-28

Contexte :
Le développement de la chaîne de traitement iota2 (Infrastructure pour l’Occupation des sols par Traitement Automatique Incorporant les Orfeo Toolbox Applications a été initié par l’UMR CESBIO (Centre d’Etudes Spatiales de la BIOsphère, Toulouse) dans l’objectif principal d’assurer la production opérationnelle de cartes d’occupation des sols à l’échelle nationale (France Métropolitaine) à partir de séries temporelles d’images à haute résolution spatiale (telles que les images issues des mission Sentinel
de l’ESA), comme établi par le Centre d’Expertise Scientifique « Occupation des SOls » (CES OSO) du Pôle Surfaces Continentales THEIA. Depuis, face aux besoins des utilisateurs, qui sont très variés, et aux contributeurs potentiels pouvant fournir des améliorations méthodologiques, iota2 évolue vers une plateforme puissante et flexible pour faciliter la mise en place de chaînes de traitement en télédétection pour l’occupation du sol à grande échelle.

Sujet :
Dans le cadres des activités du projet TOSCA PARCELLE soutenu par le Centre National d’Etudes Spatiales (CNES), nos objectifs actuels évoluent vers l’amélioration du workflow Moringa par l’intégration dans iota2 de nouvelles méthodes basées sur l’apprentissage profond récemment mises au point dans l’unité, couvrant des étapes allant des prétraitement des séries temporelles (super-résolution, interpolation des observations nuageuses) à l’extraction de descripteurs et la classification à objet. Pour ce stage, les activités se concentreront en particulier sur le développement dans iota2 de techniques d’extraction de descripteurs et de classification issues de l’apprentissage profond (deep learning) et adaptées à la stratégie de classification à objet et à l’utilisation conjointe de séries temporelles multi-capteurs (optiques/radar). Plus précisément, les contributions suivantes sont prévues:

– implémentation de méthodes de classification de séries temporelles basées sur des réseau de neurones récurrents et/ou convolutifs mono-dimensionnels;
— utilisation de réseaux d’apprentissage profond adaptés à la classification de séries temporelles d’images multi-capteurs (méthode TWINNS) en tant qu’extracteur de descripteurs pour l’approche OBIA.

Profil du candidat :
Etudiant M2 ou 3ème ingénieur en textbf{Informatique ou Télédétection / Géomatique}

Formation et compétences requises :
– bonnes compétences en programmation (Python);
– connaissance des textbf{méthodes d’apprentissage automatique} (machine – learning, deep learning) et des modules Python concernés (scikit-learn, TensorFlow/Keras, …);
– une compétence en manipulation de données géo-spatiales (raster/vecteur) est souhaitée;
– goût pour la recherche, l’innovation et le travail collaboratif intra- et inter-équipe.

Adresse d’emploi :
CIRAD, UMR TETIS
Maison de la Télédétection,
500 rue JF Breton, 34090, Montpellier (France)

Document attaché : 202102051053_stage_PARCELLE_2021.pdf

Caractérisation d’ Exoplanètes à Moyenne Résolution Spectrale par Apprentissage Supervisé
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : 4 à 6 mois (négociab
Contact : mickael.bonnefoy@univ-grenoble-alpes.fr
Date limite de publication : 2021-02-28

Contexte :
La détection et la caractérisation des exoplanètes géantes par imagerie à haut contraste et à haute résolution angulaire fournissent des contraintes inédites sur les processus de formation des systèmes planétaires à larges séparations (> 5 u.a.) ainsi que sur le fonctionnement des atmosphères Joviennes.

L’emploi de spectrographes dédiés à moyenne (R=λ/Δλ=1000-10 000) ou haute (R=λ/Δλ>10 000) résolution spectrale ouvre de nouvelles perspectives pour améliorer nos capacités de détection et de caractérisation de ces exoplanètes, avec la possibilité d’évaluer précisément leur vitesse orbitale et rotationnelle, ainsi que la structure (profil pression-température) et la composition de leur atmosphère.

Des techniques d’inversion Bayésiennes (“MCMC”, “Nested Sampling”) sont aujourd’hui largement répandues pour analyser les spectres d’exoplanètes à basse résolution spectrale (R~30-100; c.a.d. quelques dizaines de mesures) et ainsi remonter aux caractéristiques physiques et chimiques des objets en se basant sur une comparaison de modèles aux données (“forward modelling”, “retrieval”). De nouvelles techniques doivent désormais être proposées pour analyser efficacement les spectres à moyenne résolution spectrale, pour lesquels le volume de données à modéliser augmente significativement (~x102 à x103). Les techniques d’apprentissage supervisé associées à l’ingénierie des données apparaissent comme une voie de recherche prometteuse pour pallier ce problème.

Sujet :
Dans le cadre du stage proposé, l’étudiant[e] sera responsable :
de l’analyse optimale d’un jeu de données du spectrographe à moyenne résolution spectrale SINFONI au Very Large Telescope (Chili) afin de caractériser l’exoplanète de type Jovien jeune: 2M1027b. L’étudiant traitera ces données à partir d’outils préexistants qu’il ou elle contribuera à améliorer,
du développement et de la validation des techniques d’apprentissage supervisées pour l’inversion des données à moyenne résolution spectrales. L’étudiant[e] modifiera dans ce but un outil développé à l’IPAG et comparera la performance des méthodes développées à celles existantes (“Nested Sampling”), la caractérisation de l’exoplanète étudiée à partir du spectre extrait et de l’outil d’inversion.

Profil du candidat :
Nous recherchons un étudiant avec une formation en mathématique et informatique appliquée capable de traduire les résoudre nos problématiques astrophysiques à l’aide des techniques d’apprentissage supervisé. Un intérêt fort pour la problématique astrophysique du stage est essentiel.

Formation et compétences requises :
L’étudiant devra maîtriser la programmation en langage Python. Il travaillera avec les bibliothèques Python standard (Numpy, Scipy, Dask) et devra apprendre à maitriser des bibliothèques spécialisées (xarray, scikit-learn, astropy, pymultinest, nestle) et les algorithmes associés. Nous fournirons au candidat la bibliographie nécessaire pour parfaire ses connaissances sur le sujet du stage.

Adresse d’emploi :
Institut de Planétologie et d’Astrophysique de Grenoble (IPAG, Grenoble, France)

Document attaché : 202012091120_InternshipM2_IPAG_Modeling_Exoplanet_Spectra_Supervised_ML.pdf

Clustering Ensemble sous Contraintes
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO – Université d’Orléans
Durée : 5 à 6 mois
Contact : christel.vrain@univ-orleans.fr
Date limite de publication : 2021-02-28

Contexte :
Ce stage recherche est lié à un projet national InvolvD, financé par l’ANR (Agence National de la Recherche) débutant en Février 2021 et impliquant 4 laboratoires : GREYC et CERMN (Université de Caen), LABRI (Université de Bordeaux) et LIFO (Université d’Orléans). Il porte sur l’élicitation de contraintes pour l’apprentissage semi-supervisé.

Le stage sera au LIFO, Université d’Orléans, dans l’équipe Contraintes et Apprentissage.

Le projet InvolvD comporte aussi une bourse pour une thèse dont l’appel à candidature sera publié au Printemps 2021.

Sujet :
La classification non supervisée (clustering) a pour but de trouver des structures sous-jacentes présentes dans les données, comme par exemple une partition des données en groupes. Les observations appartenant à un même groupe doivent alors partager des propriétés pertinentes par rapport à l’application visée. Intégrer des connaissances du domaine peuvent permettre de guider le processus vers un clustering, plus proche des besoins de l’expert. Elles peuvent porter sur des paires de points exprimant que deux points doivent, resp. ne doivent pas être dans le même cluster, ou des contraintes sur les clusters (par exemple leur taille ou leur diamètre). Cela a conduit à un nouveau courant de recherche appelé Clustering sous Contraintes. De nombreuses méthodes ont déjà été développées pour intégrer des contraintes dans un processus de clustering. Certaines sont dédiées à un type de contraintes, d’autres sont plus génériques, souvent fondées sur des cadres déclaratifs comme la Programmation Linéaire en Nombres Entiers, la Programmation par Contraintes ou SAT.
Au lieu de produire un unique clustering sur lequel l’utilisateur peut donner un avis (feedback), on peut lui présenter plusieurs partitions et le laisser choisir des clusters qui lui semblent pertinents ou proposer la fusion de clusters qui partagent des propriétés similaires. Dans ce stage nous nous intéressons à l’intégration des retours de l’expert en présence de plusieurs partitions construites. A ces fins, nous devons développer deux aspects :
1) Interprétabilité: nous sommes intéressés par des applications en chemo-informatique où les données sont représentées par des descripteurs discrets. Pour faciliter la tâche de l’expert, nous devons développer des approches qui mettent en évidence les différences/similarités entre couples de clusters et ainsi proposent des interprétations des clusters, dont le niveau dépend de la connaissance structurelle ou sémantique disponible.
2) Fusionner différents clusters sous contraintes données par l’expert. L’idée est qu’il existe plusieurs partitions satisfaisant partiellement l’exert et qu’elles doivent être fusionnées dans une partition consensus satisfaisant toutes les contraintes. Nous considèrerons des méthodes purement déclaratives garantissant de trouver une partition consensus satisfaisant toutes les contraintes.
Ce stage de recherche a pour but de
• Produire un état de l’art sur les méthodes de clustering ensemble sous contraintes utilisateurs
• Proposer des explications, étant donné un ensemble de partitions
• Proposer et tester un premier prototype de clustering ensemble sous contraintes.

Profil du candidat :
Etudiante ou étudiant en master informatique ou école d’ingénieur en informatique.

Formation et compétences requises :
Compétences en machine learning/data mining. Bonnes capacités en programmation. Des connaissances en Programmation par Contraintes seraient appréciées.

Adresse d’emploi :
LIFO, Université d’Orléans

Document attaché : 202011250946_Master_internship.pdf