Présentation Générale

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

DAE DatAstro DSChem EXMIA GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Jan
31
Tue
2023
Imagerie Hyperspectrale pour l’Astrophysique
Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : 5 mois
Contact : mickael.bonnefoy@univ-grenoble-alpes.fr
Date limite de publication : 2023-01-31

Contexte :
Les spectrographes intégraux de champ sont une classe d’instruments aujourd’hui déployée sur la majorité des observatoires astronomiques modernes (Very-Large-Telescope au Chili; Télescope Keck à Hawaii). Les cubes d’images hyperspectrales qu’ils produisent contiennent une diversité d’information qui commence à être exploitée pour rechercher et caractériser des planètes en cours de formation (proto-planètes) autour d’autres étoiles [1].

Les données sont dominées par le halo de flux de l’étoile qui agit comme une nuisance. Les signaux produits par les planètes en formation sont parcimonieux et proches du niveau du bruit. Des méthodes de recherche de signaux faibles dans des cubes de données hyperspectraux ont été développées dans des contextes méthodologiques proches [2]. Ces méthodes nécessitent d’être adaptées au présent problème de détection de planètes en formation en recherchant une raie spectrale spécifique de l’hydrogène (raie Hɑ).

Sujet :
Le travail proposé consiste à prendre en main des données de l’instrument MUSE (Very-Large-Telescope) et de reproduire dans un premier temps les résultats de l’état de l’art [3]. Il s’agit alors de bien mettre en évidence les possibilités et les limites des solutions algorithmiques existantes. Un effort particulier sera déployé vers les méthodes de soustraction de halo dans les images et l’analyse de performances de détection sur les résidus obtenus par soustraction de ce dernier. Les données à traiter/analyser sont déjà acquises et seront donc facilement disponibles.

L’expertise développée devra permettre d’étendre et de proposer des évolutions de ces méthodes, possiblement dans le cadre d’une prolongation de ces travaux par un doctorat (financement ANR acquis). Le travail se déroule dans le contexte d’une collaboration entre les laboratoires GIPSA-Lab et IPAG à Saint-Martin-d’Hères.

Profil du candidat :
Bonnes connaissances en détection, estimation, approches Bayésiennes. Notions sur la formation des images. Appétences pour le traitement de données astrophysiques et échange entre plusieurs disciplines scientifiques. Bonne maîtrise de Matlab et Python.

Formation et compétences requises :
Etudiant en master 2 recherche en traitement du signal et/ou étudiant en fin de cycle ingénieur.

Adresse d’emploi :
IPAG
414 Rue de la Piscine
38400 Saint-Martin d’Hères

GIPSA-Lab
11 Rue des Mathématiques
38400 Saint-Martin-d’Hères

Document attaché : 202210180908_Detecting propoplanets in hyperspectral data.pdf

Feb
1
Wed
2023
Differential privacy in relational or graph databases
Feb 1 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
Previous works established methods to guaranty DP for publication processes in graph databases (e.g. RDF databases). However, the use and study of databases is generally centered around relational databases through languages like SQL.
Works on privacy are no exceptions. This presents a challenge when trying to compare the efficacy of a newly proposed method on graphs to existing methods in relational databases, as methods and metrics have no clear translation from one to the next.
In this internship, we aim to design and implement translation methods between graphs and relational databases, as well as their metrics. Furthermore, we want to compare the efficacy of some methods to guaranty DP in graph databases to that of methods in graphs aiming at similar results.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081430_Stage_SDS_ReltoGraph.pdf

Fusion methods of multispectral data with multiple resolutions and missing entries. Application to Sentinel-2 and Sentinel-3 images
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2023-02-01

Contexte :
The satellite observation of our planet has known important instrumental advances for several decades, with significant developments in terms of spatial resolution (e.g., in water color remote sensing, with a high spatial resolution of 10-60 m) and in terms of spectral resolution (hyper-spectral imagery). A Multi-Spectral (MSI) or Hyper-Spectral Image (HSI) consists of a data cube whose two axes describe the spatial variations and one axis describes the spectral variations. The main difference between HSI and MSI lies in the very small number of spectral bands observed in the latter.

However, due to physical constraints, increasing the number of spectral bands in HSI implies a decrease of the spatial resolution. Therefore, today, our planet is observed by MSI sensors (with a good spatial resolution but a low spectral one), HSI sensors (with a good spectral resolution but a low spatial one), and imagers with intermediate properties.

In the framework of this internship, we are interested in coastal marine observation via data from the Sentinel-2 and Sentinel-3 satellites. The images obtained by these two satellites allows to study the color of the ocean, i.e., the spatial and temporal distribution of the concentration of phytoplankton, suspended matter, and organic matter. Sentinel-2 data consists of cubes with 13 spectral bands for a spatial resolution varying from 10 to 60~m (depending on the bands), acquired approximately every 5 days. Sentinel-3 data are cubes with 21 spectral bands for a spatial resolution of 300~m, which are daily acquired. In marine observation, to understand the complex phenomena occurring in coastal environments, the data available must combine:
– a good spectral resolution to better analyze the biogeochemical medium (chlorophyll, particles in suspension, etc.);
– a good spatial resolution to better understand the distribution phenomena of this environment which are much more complex in a coastal environment than in the open sea;
– a short period of acquisition of these images to identify phenomena that are very concentrated in time (phytoplankton blooms for example).

No satellite data currently allows these three constraints to be met.

Sujet :
Our recent work on multi-sharpening [1,2], in spatio-temporal fusion [3], and in spatial-(spectral-)temporal fusion [4] allowed us to initiate some work on different problems.

In the framework of this internship, we propose to jointly process Sentinel-2 and Sentinel-3 data approximately acquired at the same time (spatial-spectral fusion aka multi-sharpening), in order to generate new MSI data with the number of spectral bands of Sentinel-3 and the spatial resolution of Sentinel-2. However, this internship significantly differs from our previous work as follows:
1. We aim to process data on which atmospheric correction we performed [5], so that a comparison with in situ measurements is possible. However, this processing provides new issues such as missing entries (corresponding to land areas, clouds, and ships) or negative values without any physical meaning.
2. We aim to jointly process the three Sentinel-2 spatial resolutions with the unique Sentinel-3 one, thus hoping improving the fusion quality.
3. We aim to perform comparisons with in situ measurements.

The considered methods will use a regularized matrix / tensor factorization formalism and/or a deep-learning formalism.

References:
[1] A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. Experimental comparison of multi-sharpening methods applied to Sentinel-2 MSI and Sentinel-3 OLCI images. In Proc. IEEE WHISPERS’21, 2021.
[2] A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. DeepSen3: Deep multi-scale learning model for spatial-spectral fusion of Sentinel-2 and Sentinel-3 remote sensing images. In Proc. IEEE
WHISPERS’22, 2022.
[3] C. T. Cissé, A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. A new deep learning method for multispectral image time series completion using hyperspectral data. In Proc. IEEE ICASSP’22, 2022.
[4] A. Hadir, A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. S2S3-STFGAN: a GAN-based spatio-temporal fusion method for sentinel-2 and sentinel-3 data. Submitted.
[5] F. Steinmetz and D. Ramon. Sentinel-2 MSI and sentinel-3 OLCI consistent ocean colour products using POLYMER. In Proc. SPIE “Remote Sensing of the Open and Coastal Ocean and Inland Waters”, volume
10778, 2018.

Profil du candidat :
Pursuing scientific studies in the field of data sciences (signal and image processing, computer science with a focus in artificial intelligence / machine learning, applied mathematics), you are curious and very comfortable in programming (Matlab, Python). You read and speak fluent English with ease. Although not compulsory, a first experience in data factorization (e.g., matrix or tensor decomposition, blind source separation, dictionary learning) or in deep learning will be appreciated.

Formation et compétences requises :
To apply, please send an e-mail to {claire.guilloteau, matthieu.puigt, gilles.roussel} @univ-littoral.fr while attaching the documents that can support your application:
– your resume;
– a cover letter;
– your transcripts for the last year of B.Sc, the first year of M.Sc, and the last year of M.Sc (if the latter is available);
– two reference letters or the names and means of contact of two academic advisers.

Adresse d’emploi :
The internship will take place in the new Longuenesse branch of LISIC laboratory which is currently dedicated to hyperspectral imaging. Today, this recently created branch has 6 faculty members, 1 post-doctoral researcher, and 4 Ph.D. students. The internship will take place in Longuenesse, Northern France.

Many exchanges will take place with the LOG laboratory, located in Wimereux, Northern France. The LOG will bring its skills on ocean color, in particular on the analysis of merged images and their validation. The LOG will provide in-situ validation measurements and images in coastal areas of interest (Eastern Channel, Guyana, Cambodia, Vietnam).

Both laboratories are located in the heart of the Regional Natural Park of “Caps et Marais d’Opale”, close to Lille, England, Belgium, and Northern Europe (Amsterdam is only 4~h drive from Longuenesse).

Document attaché : 202211022108_Stage_SFR_2023_LISIC_LOG_English.pdf

Implantation d’une interface utilisateur pour l’exploration interactive d’un ensemble de motifs extraits
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : Groupe de recherche en informatique, image, automa
Durée : 6 mois
Contact : bertrand.cuissart@unicaen.fr
Date limite de publication : 2023-02-01

Contexte :

Cette annonce propose un stage de 6 mois destiné à un·e étudiant·e en cinquième année d’informatique (M2 ou école d’ingénieurs). Le stage s’inscrit dans le projet ANR-20-CE23-0023 InvolvD 1 . Le sujet principal est le développement d’une interface utilisat·eur·rice,outil indispensable pour permettre aux expert·e·s en pharmacie de bénéficier de notre nouvel algorithme d’exploration de résultats expérimentaux. Le stage (sera encadré par Ronan Bureau, Bertrand Cuissart et Etienne Lehembre. Le·La stagiaire sera accueilli.e au sein du GREYC, le laboratoire d’informatique de l’Université de Caen Normandie.

Sujet :
Dans le cadre d’InvolvD, nous avons récemment développé un algorithme visant à accom-
pagner un·e expert·e dans la découverte d’un espace de données structurées. L’algorithme
aillant fait ses preuves lors de tests avec des oracles synthétiques, nous souhaitons passer
à une phase expérimentale concrète en impliquant des expert·e·s humain·e·s. Le stage
consiste à réaliser l’interface utilisat·eur·rice qui permettra à un·e pharmacien·e de choisir
les parties des résultats qui l’intéressent au premier chef.
Les éléments d’étude sont des graphes étiquetés appelés pharmacophores [2] issus d’un
calcul de fouille de données. L’ensemble des pharmacophores est structuré grâce à la re-
lation d’inclusion entre les graphes. L’interface a pour but d’offrir à l’expert·e un moyen
efficace de parcourir cette structure de façon à alimenter l’algorithme d’apprentissage
par renforcement. L’objectif étant de limiter la frustration et le manque d’attention de
l’expert·e [1], il est important que l’interaction ne se résume pas à une suite de questions
– réponses.
Suite aux réponses de de l’expert·e, l’algorithme actualise l’intérêt de chaque pharma-
cophore pour l’analyse. Pour traduire cette évolution, la visualisation de la structure à
parcourir doit évoluer en conséquence.
La réalisation de l’interface sera prolongée par un travail destiné à évaluer les perfor-
mances de l’algorithme d’évaluation de l’intérêt des pharmacophores. Pour cette partie
du travail, il sera indispensable d’avoir un échange de nature interdisciplinaire avec les
chercheurs en pharmacie.
Enfin, le stage se conclura par un travail plus ouvert et axé sur le choix stratégique à
associer au parcours des pharmacophores. On peut privilégier une stratégie d’exploitation
associée à un parcours plutôt de proches en proches, on peut opter pour une stratégie
d’exploration qui privilégie les pharmacophores associés aux endroits peu explorés par
l’analyse ou on peut imaginer des compromis entre ces deux stratégies.

Profil du candidat :
Technologies envisagées
La réalisation de l’interface s’appuiera sur une méthode clas-
sique MVC (Modèle – Vue – Contrôleur) où le modèle serait le code C++ fourni. Il sera
nécessaire d’intégrer le code à un wrapper Python pour mettre en place les contrôleurs
communiquant avec la vue qui utilisera Dash Cytoscape 2,3 ; Cytoscape est un logiciel de
visualisation de graphes déjà existant.
Apports du stage
Le·la stagiaire sera intégré·e au sein de l’équipe CODAG du GREYC, laboratoire d’informatique normand. Le projet ANR InvolvD impliquant des cherch·eurs·euses de plusieurs laboratoires français, l’étudiant·e aura l’occasion d’échanger avec plusieurs spécialistes dans le contexte d’une recherche interdisciplinaire. Ces échanges seront accompagnés par une intégration dans le groupe chimie-informatique caennais, groupe qui compte une vingtaine de membres et qui se réunit mensuellement pour échanger. L’étudiant·e aura ainsi plusieurs occasions de présenter ses travaux dans un contexte collaboratif. De plus, le travail étant un travail de recherche académique, il se concrétisera par la rédaction d’une communication scientifique qui sera soumise à la communauté scientifique (poster, workshop, article de conférence, ou journal). Enfin, en réalisant ce stage, l’étudiant·e va acquérir des connaissances très intéressantes concernant la ”chemoinformatique”, domaine interdisciplinaire visant à réaliser des avancées informatiques pour mieux appréhender le monde de la chimie.

Formation et compétences requises :
Le stage est destiné à un étudiant de cinquième année d’informatique (M2 ou école d’ingénieurs).

Adresse d’emploi :
6 Boulevard du Maréchal Juin
Bâtiment Sciences 3
CS 14032, 14032 CAEN cedex 5

Document attaché : 202212011043_stage_greyc.pdf

Interhsip – deep super-resolution for sequences of satellite images
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Cnam/UBS
Durée : 6 months
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2023-02-01

Contexte :
Location : Cnam, Paris or UBS, Vannes (France)
Salary : ≈ 600€/month
Contract : Internship (4 to 6 months)
Starting date : Flexible in 2023

Research topic

Earth Observation through satellite imagery is a major tool for geoscience. However, there is a dilemma on whether to deploy systems that acquire many images at high frequency but with a low spatial resolution or systems with high spatial resolution but few revisits. The Sentinel-2 constellation, operated by the European Space Agency (ESA), leans towards high frequency for better temporal monitoring of dynamic phenomena. Yet, its 10m/px resolution is often not enough in urban applications since buildings, roads, and sparse vegetation are barely visible in the images. Conversely, commercial satellites, such as SPOT-6/7, often embark very high-resolution sensors. For example, the French mapping agency (IGN) distributes a yearly high-resolution cloud-free mosaic of the entire French metropolitan area. These panchromatic SPOT-6/7 images at a 1.5m/px resolution are helpful for precise land cover and land use mapping but are produced only once a year.

This research work aims to bridge the gap between those two data sources by investigating super-resolution. Super-resolution is an image processing technique aiming to increase the resolution of an image. It does not use a reference high-resolution image, but instead relies on prior knowledge regarding the structure of the data. Using deep learning for super-resolution has been frequently investigated in the last years [1], starting with Convolutional Neural Networks(CNN) [3], then later using Generative Adversarial Networks (GAN) [5, 8]. Nowadays, diffusion models [9, 6], already state-of-the-art generative models for image synthesis, have established themselves as strong candidates for the next generation of super-resolution algorithms.

Some works have transposed those deep architectures to remote sensing [4, 10], with two main shortcomings. First, most focus on single-image resolution, i.e., transforming a single image into a more detailed one. But low-resolution remote sensing data draws its strength from the temporal information contained in the satellite image time series (SITS). Second, super-resolution systems are mostly trained on artificial pairs of (low resolution, high resolution) images where the LR image is a downsampled version of the HR reference. This means that training sets and benchmarks are mostly synthetic and do not actually inform us of the performance of super-resolution systems on actual data. To overcome these issues, new benchmark datasets have been proposed such as Sen2Venus [7] and WorldStrat [2]. The latter includes pairs of a sequence of low-resolution Sentinel-2 images and a high-resolution Spot-6/7 image acquired worldwide. This dataset opens opportunities for the development of new approaches relying on modern state-of-the-art super-resolution techniques such as diffusion models.

Sujet :
The goal of this research project is (i) to leverage the temporal information contained in satellite time series to improve the super-resolution process, and (ii) to train deep diffusion models to power a super-resolution system on real data.

Objectives
The research intern will perform the following tasks:
• searching and summarizing the literature for suitable multi-image super-resolution approaches, diffusion models for super-resolution, and super-resolution of temporal data,
• collecting and analysing the WordStrat dataset,
• implementing and adapting state-of-the-art approaches, such as SRDiff [6], to SITS,
• investigating techniques to exploit the temporal structure in SITS, for example by using attention mechanisms and temporal blocks in the conditional encoder of diffusion models.

Profil du candidat :
The ideal applicant is pursuing an MSc. in Computer Science, Artificial Intelligence or Computer Vision or an equivalent degree (e.g. engineering diploma).

Formation et compétences requises :
• A good grasp of the fundamentals of machine learning and deep learning for computer vision is expected.
• The candidate should have an interest in scientific research and good written and oral communication skills.
• Knowledge of the Python programming language is a must, including some level of experience with at least one deep learning framework (PyTorch, Keras, TensorFlow, JAX…).
• A first experience with time series, image processing or generative models is a plus.
All applications, independently of previous experience, will be considered, provided that the candidate’s motivation and profile fit the internship topic. 
French is not required but can help with everyday life.

Adresse d’emploi :
This position is for an internship from 4 to 6 months, with a flexible starting date in 2023. The internship will either take place at the Center for research and studies in computer science and communications (Cédric), the computer science laboratory of the Conservatoire national des arts et métiers (Cnam) in Paris or at the Institute for Research in Informatics and Random Systems (Irisa), the computer science laboratory of the University of South Brittany in Vannes.
Depending on their preference, the intern will join the Complex Data, Machine Learning and Representations team in Paris or the Environment observation with complex imagery team in Vannes. In either cases, gratification is approximately 600€/month as imposed by the law for public institutions.

Offre de stage : Apprentissage automatique pour la conception et l’analyse d’un lac de données archéologiques
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2023-02-01

Contexte :
DataLAC est un projet interdisciplinaire international financé par la Région
AURA, qui vise à extraire des informations qualitatives (sémantiques) à l’aide de l’intelligence artificielle, afin de constituer un stock de métadonnées nécessaire à l’analyse de documents numériques stockés dans un lac de données. Le lac va contenir trois types de données :

• des bases de données structurées

• un corpus de transcriptions de carnets de fouille manuscrits concernant le site archéologique d’Ullastret en Catalogne

• des documents graphiques : croquis dans les carnets de fouille, dessins techniques (relevés de terrain, planches de profils de céramiques), photographies techniques (vestiges sur le terrain, couches stratigraphiques, planches d’objets), cartes et plans de diverses époques, voire des « scans » 3D.

L’objectif du projet DataLAC est l’extraction de métadonnées (concepts présents dans les documents ci-dessus) par des méthodes de transcription supervisée, non supervisée et de fouille de texte. Il s’agit de rechercher par similitudes aussi bien l’affectation directe de métadonnées descriptives (« ce document représente cette entité ») que la documentation de liens logiques entre documents (« ces deux documents représentent la même entité »). Toutes les métadonnées sont rassemblées et structurées dans un thésaurus bilingue catalan-castillan apparié avec des concepts en français.

Sujet :
Un précédent stage a permis l’analyse de la structure des carnets de fouille, ainsi que la conception d’un thésaurus (vocabulaire structuré) et du schéma d’une base de métadonnées. Sur cette base, les tâches à mettre en œuvre par le stagiaire sont :

• l’instanciation de la base de métadonnées et la conception d’une interface de saisie des métadonnées

• la conception et la mise en œuvre du lac de données selon les principes FAIR (*), y compris la création de métadonnées de type liens entre les entité du lac, grâce à des méthodes d’apprentissage automatique (machine learning)

• la conception et la mise en œuvre d’une interface graphique d’analyse (exploration des données et machine learning) pour les archéologues.

(*) données Faciles à trouver, Accessibles, Interopérables, Réutilisables

Profil du candidat :
Master ou équivalent

Formation et compétences requises :
Bases de données, technologies big data, machine learning, programmation web

Adresse d’emploi :
Envoyer CV, lettre de motivation et ainsi que notes de l’année universitaire précédente à adresser à jerome.darmont@univ-lyon2.fr et sabine.loudcher@univ-lyon2.fr avec en objet « Candidature stage informatique DataLAC » d’ici le 21 novembre 2022. Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence courant décembre.

Document attaché : 202210251633_stage-datalac-2023.pdf

Offre de stage : Instanciation et enrichissement par machine learning des métadonnées du « Lac de données Pablo Picasso »
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2023-02-01

Contexte :
Le projet PICASSOLETTERS vise à analyser le réseau de relations qui a
contribué à la transnationalisation de Pablo Picasso. À l’aide des méthodes et des outils de la science des données, il s’agit de réaliser une étude inédite et systématique des correspondances du peintre pour construire le réseau d’acteurs et de relations du peintre. Le corpus épistolaire comporte plus de 20000 lettres jamais explorées de façon globale et détaillée à ce jour. Le but du projet PICASSOLETTERS est de contribuer à combler deux carences : la première concerne le déficit d’études sur la totalité du réseau du peintre, la seconde concerne l’absence de données ou de métadonnées accessibles en ligne et ouvertes à tous et toutes, recensant et décrivant ce corpus épistolaire. À travers le développement d’un lac de données permettant la saisie, l’interrogation et l’analyse de métadonnées décrivant la correspondance du peintre, le projet PICASSOLETTERS propose d’expérimenter un nouveau modèle pour l’exploration des corpus.

Sujet :
Le stage comportera plusieurs volets en étroite collaboration avec les
chercheur·es en littérature, en droit et du Musée national Picasso Paris :

• instancier et améliorer à la marge une base de métadonnées déjà créé

• étudier les méthodes de machine learning récentes et les appliquer sur les métadonnées afin de les enrichir

• développer un outil « intelligent » d’assistance à la création de métadonnées (collecte automatique d’informations, suggestions et recommandations d’enrichissement en utilisant le machine learning, etc.)

• mettre en œuvre le lac de données sur la base des tâches ci-dessus.

Profil du candidat :
Master ou équivalent

Formation et compétences requises :
Programmation/programmation web, gestion et bases de données, machine learning, technologies big data.

La connaissance des langages, standards et référentiels du Web sémantique et du Web de données serait un plus.

Adresse d’emploi :
Envoyer CV, lettre de motivation et ainsi que notes de l’année universitaire précédente à adresser à sabine.loudcher@univ-lyon2.fr et jerome.darmont@univ-lyon2.fr avec en objet « Candidature stage informatique PICASSOLETTERS » d’ici le 21 novembre 2022. Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence courant décembre.

Document attaché : 202210251629_stage-picassoletters-2023.pdf

Offre de stage en business intelligence : Analyse collaborative dans le décisionnel pour tou·tes
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2023-02-01

Contexte :
L’accès à l’informatique décisionnelle (business intelligence ou BI) a été
facilité par l’infonuagique (cloud computing). Toutefois, le décisionnel à la demande est soit limité, soit reste réservé aux spécialistes et hors d’atteinte des petites structures, indépendant·es et citoyen·nes, alors qu’il existe une forte demande sociétale d’analyse de données (self/open) simple et collaborative. L’objectif du projet BI4people, financé par l’Agence Nationale de la Recherche (ANR), est de rendre le décisionnel disponible en ligne à des utilisateur/trices disposant de peu de ressources financières et de connaissances techniques.

Sujet :
L’analyse collaborative dans le contexte de la BI a été étudiée selon différents points de vue, mais reste rare et se concentre principalement sur des aspects techniques. Il n’existe pas de solution globale à ce jour. Le stage comportera deux volets.

1. Définition d’une typologie des moyens collaboratifs pertinents pour l’analyse BI. Cette tâche est importante pour obtenir à la fois une vue d’ensemble globale des méthodes de collaboration pertinentes pouvant être utilisées dans la BI et une idée précise de la manière dont les utilisateur/trices pourraient bénéficier de la collaboration. L’analyse collaborative comprend le partage d’analyse, le mashup, l’annotation, la comparaison, la publication, etc.

2. Conception/spécifications/implémentation d’une architecture pour l’analyse collaborative qui s’inscrira dans le développement global du projet BI4people. L’architecture développée inclura la gamme de propositions déterminées dans la typologie ci-dessus. Un schéma sera dessiné pour
représenter le processus collaboratif envisagé. Des spécifications devront être proposées avant la mise en œuvre. L’ensemble du processus devra également être évalué sur un cas d’usage déjà constitué.

Profil du candidat :
Master ou équivalent

Formation et compétences requises :
Business Intelligence, programmation web/nodeJS, gestion de données,
rigueur.

Adresse d’emploi :
Envoyer CV, une lettre de motivation et vos notes de l’année universitaire précédente à cecile.favre@univ-lyon2.fr et sabine.loudcher@univ-lyon2.fr avec en objet « Candidature stage informatique BI4people » d’ici le 21 novembre 2022. Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence courant décembre.

Document attaché : 202210251625_stage-bi4people-wp3-2023.pdf

Résolution d’entités nommées dans des corpus de documents historiques de grande taille et partiellement redondants: le cas des annuaires commerciaux de Paris du XIXème siècle
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG, Univ Gustave Eiffel, IGN-ENSG
Durée : 5 mois
Contact : nathalie-f.abadie@ign.fr
Date limite de publication : 2023-02-01

Contexte :
Ce stage s’inscrit dans le projet ANR SODUCO qui vise à étudier l’évolution de la structure spatiale de Paris en lien avec les pratiques sociales de la population, sur la période allant de la Révolution Française au début du 20ème siècle. Le projet exploite deux types de sources historiques rassemblées en deux corpus:
• un corpus spatial : plans et cadastres, qui représentent les structures urbaines (rues, bâti, etc.)
• un corpus social : “annuaires du commerce”, sorte de “pages jaunes” avant l’heure, qui contiennent les noms, statuts sociaux, activités professionnelles et adresses d’une partie des parisiens.
Un premier stage a permis de proposer une approche pour l’appariement des entrées représentant un même commerce d’une année à l’autre. Cette dernière a été appliquée aux métiers de la photographie, qui représentent une faible portion du corpus des annuaires.

Sujet :
Ce sujet de stage comporte un objectif méthodologique principal : proposer et mettre en œuvre une approche reproductible et qui passe à l’échelle pour identifier des relations d’équivalence entre les principales entités nommées extraites dans les annuaires du commerce parisien du XIXe siècle et qui représentent un même élément du monde réel.
Il comporte trois objectifs applicatifs: produire trois graphes spatio-temporels permettant le suivi des commerces, des adresses et des activités parisiennes au XIXe siècle.

Profil du candidat :
Master 2 ou troisième année d’école d’ingénieur en informatique, ou en géomatique.

Formation et compétences requises :
– Données spatio-temporelles,
– Résolution d’entités nommées, liage, appariement,
– Graphes de connaissances géohistoriques,
– Développement Python,
– Un intérêt pour l’histoire sociale est un plus.

Adresse d’emploi :
Institut National de l’Information Géographique et Forestière
73 avenue de Paris
94160 Saint-Mandé

Document attaché : 202212072201_SoDUCo2022NELInternship.pdf

Semantic attack on graph databases
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
The guaranty provided by DP is that it is difficult to differentiate between a graph and one of its neighbours (i.e. the same graph differing on exactly one information) when observing the answer to a query. This is a convincing guaranty of privacy, as it means that a graph yields results so similar to its neighbours’, that an attacker cannot deduce with certainty any specific information
in a graph.
However, this guaranty works best under the assumption
that any graph has neighbours to “hide behind”. If a graph is isolated from any of its neighbours, then the guaranty provided by DP weakens.
We posit that such situations can arise if the graph databases we consider are known to follow structural constraints (e.g. “every patient has a doctor”) or semantic constraints (e.g. “Dr Wilson is an oncologist”). If all possible graphs must follow specific rules, then it is possible that some graphs have no neighbours that an attacker could confuse them with.
In this internship, we aim to formalise and evaluate through experimentation the damage that prior knowledge of a target graph’s schema can make on the privacy of a DP-guarantying process.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081435_Stage_SDS_SemanticAttack.pdf

Stage de M2 Informatique – projet JOKER: Détection et interprétation des Jeux de Mot avec des méthodes d’Apprentissage Profond
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : SimpleText/– — –

Laboratoire/Entreprise : Centre Européen de Réalité Virtuelle (ENIB) / HCTI
Durée : 5-6 mois
Contact : liana.ermakova@univ-brest.fr
Date limite de publication : 2023-02-01

Contexte :
Ce stage participe au projet JOKER qui vise à faire progresser l’automatisation de la traduction des jeux de mots en fournissant un corpus parallèle (c’est à dire multilingue) approprié [1].
Alors que la traduction moderne est fortement aidée par des outils technologiques, pratiquement aucun n’a de support spécifique pour les jeux de mots. En effet, la plupart des outils de traduction basés sur l’IA nécessitent une qualité et une quantité de données d’entraînement (par exemple, des corpus parallèles) qui ont toujours fait défaut pour les jeux de mots. L’objectif du projet JOKER est de construire automatiquement un corpus parallèle de jeux de mots en entraînant un classificateur basé sur l’IA à détecter automatiquement les instances de jeux de mots et à les aligner avec leurs traductions.

Références
[1] L. Ermakova et al., « Overview of JOKER@CLEF 2022: Automatic Wordplay and Humour Translation Workshop », in Experimental IR Meets Multilinguality, Multimodality, and Interaction, Cham, 2022, p. 447‑469.
Version ouverte: https://ceur-ws.org/Vol-3180/

Sujet :
Objectifs du stage (liste indicative):

– Détection des jeux de mots: Une première étape de détection sera de traiter les données de sources électroniques (pdf, html etc) variées sélectionnées pour vous (romans, essais, etc.) pour augmenter les corpus disponibles, avec des méthodes d’intelligence artificielle.
– Alignement des traductions avec les algorithmes traditionnels ou avec les modèles neuronaux
Interprétation des jeux de mots en français et en anglais
– Augmentation des corpus monolingues

Environnement technique (liste indicative):

– Python, Pandas, NLTK, expressions régulières
– bibliothèques pour traiter différents formats de fichiers (pdf, epub,…)
– De grands modèles pré-entraînés:
Google mT5 (https://github.com/google-research/multilingual-t5)
BLOOM (https://huggingface.co/bigscience/bloom)

Profil du candidat :
– M1 informatique ou équivalent;
– intérêt pour les projets de recherche;
– la maîtrise de la langue française et anglaise est souhaitable;
– les connaissances de Python, Pandas, expressions régulières sont souhaitables;
– le sens de l’humour est souhaitable.

Formation et compétences requises :
– M1 informatique ou équivalent;
– la maîtrise de la langue française et anglaise est souhaitable;
– les connaissances de Python, Pandas, expressions régulières sont souhaitables.

Adresse d’emploi :
Centre Européen de Réalité Virtuelle (ENIB), 25 rue Claude Chappe, Plouzané, France

Document attaché : 202212081524_Stage JOKER 2023 (1).pdf

Use of semantic pertinence to improve accuracy in differentially private projection processes
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right
to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
To facilitate the creation of processes that guaranty DP in graph databases, one method is projection, that limits the degree of graphs by selecting for each node a bounded number of edges.
However, if the choice of edges to maintain is arbitrary, the impact of this method on the accuracy of the published results
is too variable to guarantee accuracy.
In this internship, we aim to develop methods that allow the priorization of certain edges above others in the projection process, as to improve the accuracy of query results. This optimization would be based on prior knowledge of one
or several queries we know to be of interest.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081426_SDS_Stage_Pertinence.pdf

Feb
4
Sat
2023
Analyse des données environnementales
Feb 4 – Feb 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFAT – Université de Tours
Durée : 5 à 6 mois
Contact : cyril.derunz@univ-tours.fr
Date limite de publication : 2023-02-04

Contexte :

Ce stage s’inscrit dans le cadre de la tâche visualisation de données du projet JUNON. Le sujet de la tâche est le suivant.

L’analyse des données environnementales est un enjeu majeur pour l’étude des dynamiques des phénomènes environnementaux dans leur territoire (spatialité). Afin de mieux appréhender ces phénomènes et faciliter leur observation, il semble important de fournir une suite automatisée de traitements allant de l’analyse au rendu visuel. Relever ce défi est essentiel afin de limiter la charge cognitive des experts impliqués dans l’exploration interactive tout en offrant des informations de contextualisation des phénomènes observés/observables pour une meilleure explicabilité.

Cette dernière est importante tant pour les experts que pour les décideurs notamment pour l’analyse des risques (e.g. sécheresse, inondations, pollutions). Il s’agira de proposer des outils visuels permettant une exploration spatiale et temporelle de données permettant de naviguer dans les données issues des capteurs (e.g. capteurs piézométriques) selon plusieurs vues complémentaires tout en ayant à disposition directe des données contextualisant leur analyse. Les outils proposeront aussi des tableaux de bords différenciés pour les décideurs mettant en évidence les possibles risques. Nous souhaitons dans cette tâche répondre aux verrous scientifiques liés aux données environnementales autour de la détection automatique de signaux faibles pour l’identification de phénomènes émergents, de l’explicabilité des phénomènes par la construction de résumés visuels informant sur les possibles facteurs, de la gestion des flux de données et donc le choix des données et des agrégations.

Sujet :
Les données à visualiser sont des séries temporelles multivariées géolocalisées décrivant un territoire. Elles peuvent représenter de gros volume de données. Nous cherchons à construire des méthodes de regroupement prenant en considération les relations spatiales et topologiques.

Objectifs du stage :

État de l’art sur la visualisation et le clustering de séries spatio-temporelles.

Proposition d’un prototype adapté aux données du projet JUNON.

Profil du candidat :
Etudiant.e en master ou en école d’ingénieur en informatique (bac +5 prioritairement, ou bac +4).

Formation et compétences requises :
Etudiant en master ou école d’ingénieur en informatique.
Des connaissances en visualisation, information géographique, analyse de série de données temporelles ou spatiotemporelles sont des plus.

Adresse d’emploi :
34 avenue Portalis, 37000 Tours
ou
3 place Jean Jaures 41000 Blois

Feb
9
Thu
2023
Unlocking the Power of Data Dependencies in Data Pipelines
Feb 9 – Feb 10 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LAMSADE – PSL Research University – Universit{
Durée : 4 à 6 mois
Contact : maude.manouvrier@lamsade.dauphine.fr
Date limite de publication : 2023-02-09

Contexte :
{Data dependencies : relationships or connections between different variables in a dataset. Understanding these dependencies is crucial and has a number of applications.

{Data profiling for Machine Learning: Understanding data dependencies is critical for creating accurate and effective machine learning models. The quality of the input data has a direct impact on the accuracy of the model, and understanding data dependencies helps ensure that the data is suitable for use in machine learning.

Data mining: Data dependencies can help you identify patterns and relationships in the data that may not be immediately obvious. These patterns can be used to make predictions and classify data, making it useful in various data mining tasks such as association rule mining and clustering.

Sujet :
This internship will build upon the recent research in data dependency mining in dynamic settings. As a member of a dynamic team, the student will be exploring innovative ways to compute data dependencies in situations where the data is transformed through a data preparation pipeline. The goal is to assess the impact of this preparation process on the dependencies within the data, as well as its overall quality.

The subject of data dependencies is a critical and fascinating aspect of machine learning and AI, providing students with the opportunity to gain practical skills and explore cutting-edge technologies that are shaping the future of the field. The demand for professionals with skills in machine learning and AI is growing rapidly, and understanding data dependencies is a valuable skill for anyone looking to build a career in this field in both academia and industry. On this point, it is worth noting that the internship is likely to lead to a PhD on a related topic.

Profil du candidat :
We seek for excellent and highly motivated student with a background in Computer Science
having good knowledge of database theory and good programming skills (Python or Java).

Please send the following material in a single PDF document before February 20th, 2023:
– fully detailed CV,
– academic records (master’s degree or equivalent),
– recommendation(s) and supporting letter(s).

Formation et compétences requises :
Background in Computer Science
Good knowledge of database theory and good programming skills (Python or Java).

Adresse d’emploi :
LAMSADE – PSL Research University – Universit{‘e} Paris-Dauphine, Paris, France

Document attaché : 202302091126_IntershipLamsadeDataDependencieInPiplines.pdf

Feb
21
Tue
2023
Explicabilité pour l’analyse d’opinions sur les médias sociaux
Feb 21 – Feb 22 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS UMR 8051
Durée : 6 mois
Contact : maria.malek@cyu.fr
Date limite de publication : 2023-02-21

Contexte :
Nous explorons dans nos travaux actuels portant sur l’analyse des médias sociaux, la combinaison de méthodes classiques d’exploration d’opinion avec l’analyse des réseaux sociaux et son impact sur la formation et la propagation d’opinion afin de construire un modèle d’opinion cohérent.
Afin d’étudier l’impact des utilisateurs influents (nœuds influents), nous intégrons dans un premier temps plusieurs facteurs d’influence extraits du réseau dans le processus d’exploration d’opinions. Ces facteurs sont généralement calculés en utilisant différentes mesures de centralité comme le degré, la proximité, l’intermédiarité, la centralité PageRank, etc.

Nous définissons et étudions ensuite la notion de la stabilité d’opinion au sein des réseaux égocentriques autour des influenceurs et au sein des communautés détectées, notre objectif étant de détecter la modification d’opinion pour les deux types de sous-réseaux.
Nous analysons les communautés obtenues afin de comprendre les opinions émergeantes à partir de ces communautés non seulement en fonction des profils utilisateurs mais aussi en fonction d’éléments topologiques. Nous souhaitons également proposer des indicateurs concernant la stabilité des opinions et d’autres liés à leurs changements.

Sujet :
Le but de stage est de proposer et d’intégrer une méthode d’explicabilité dans les algorithmes d’analyse d’opinions afin de produire des explications émergeantes qui combinent des informations nodales (comme le profil d’utilisateur) et topologiques extraites de la structure du graphe de propagation des opinions.
En intégrant une méthode d’explicabilité adéquate, nous souhaitons rendre plus compréhensible également les résultats concernant la polarité de l’opinion trouvée au niveau des utilisateurs et au niveau des groupes. De même, le modèle doit être capable d’expliquer les changements d’opinion détectés en lien avec les informations extraites du réseau de propagation et les séquences d’actions entreprises (par exemple : tweets, retweets, réponses) menant à ce changement.

Profil du candidat :
Master 2 ou dernière année d’école d’ingénieur

Formation et compétences requises :
Bonne connaissance en Machine Learning et en programmation Python.

Adresse d’emploi :
2 Av. Adolphe Chauvin, 95300 Pontoise, bâtiment A, 5 étage étage, laboratoire ETIS.

Document attaché : 202302210943_Stage_ETIS_M2_Explicabilite_AnalyseOpinion.pdf

Feb
28
Tue
2023
Analyse d’images de microscopie électronique par réseaux profonds.
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes LIS – UMR C
Durée : 4 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2023-02-28

Contexte :
Dans le cadre d’un projet collaboratif de recherche biomédicale sur l’endocardite infectieuse (EI) nous souhaitons développer une approche par réseaux profonds (deep-learning) pour la segmentation d’images de microscopie électronique à balayage dans le but d’analyser l’ultrastructure de valves cardiaques. Ce projet s’appuie sur une collaboration entre le laboratoire Informatique et Systèmes, expert dans l’analyse d’image, et le laboratoire Mephi, expert en microbiologie et en microscopie électronique. L’EI est une pathologie grave, associée à un diagnostic difficile et une grande mortalité. L’EI est caractérisée par une infection bactérienne ou fongique de l’endocarde avec une destruction des valves cardiaques et la formation d’un dépôt fibrino-plaquetaire inflammatoire et infecté, ou végétation. Malgré l’amélioration des stratégies diagnostiques et thérapeutiques, l’incidence et la gravité de la maladie semblent rester inchangées au fil des ans. La microscopie électronique à balayage (MEB) est une technique de microscopie électronique capable de produire des images en haute résolution de la surface d’un échantillon. Par une approche innovante par MEB, a démontré une hétérogénéité de l’ultrastructure des vegetations d’EI qui dépend du microorganisme infectieux. Cette approche innovante a ainsi montré sa force mais elle s’appuie sur une analyse experte des images qui reste manuelle et fastidieuse

Sujet :
L’objectif du stage est de développer une méthode à base de réseaux profonds pour accélérer l’analyse des images des végétations, c’est-à-dire pour identifier et quantifier automatiquement les éléments biologiques présents (plaquettes, fibrine, globules, bactéries). Pour cela, il s’agira dans un 1er temps de définir la meilleure stratégie de segmentation en tenant compte des différentes résolutions disponibles. Dans un 2nd temps il s’agira de choisir une architecture de réseaux de neurones profonds avec un « pipeline » de traitements adaptés.

Profil du candidat :
Le candidat ou la candidate de niveau Bac+5, formé(e) au traitement des images, sera intéressé(e) par un projet pluridisciplinaire et l’imagerie médicale. La programmation des algorithmes se fera avec le langage python et les réseaux profonds seront développés avec l’API PyTorch. Des compétences en classification ou en mathématiques appliquées seront particulièrement appréciées.

Formation et compétences requises :
Une formation de master ou ingénieur avec des compétences en traitement d’images est attendue. Des compétences en classification ou en mathématiques appliquées seront particulièrement appréciées.

Adresse d’emploi :
Le stage se déroulera à Marseille dans les locaux de l’équipe Image & Modèles du LIS à St Jérôme (site de Polytech’) ou dans ceux de l’équipe MEPHI de l’IHU Méditerranée Infection, selon les besoins.
Aix-Marseille Université – Bâtiment Polytech GI,
Campus scientifique de St Jérôme – Av. Escadrille Normandie Niemen -13397 Marseille Cedex 20

Document attaché : 202211181337_Sujet_Master2_SegmentationDL-SEM_2023.pdf

Financial Forecasting With Deep Learning
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : SAMOVAR – Télécom SudParis
Durée : 6 mois
Contact : julien.romero@telecom-sudparis.eu
Date limite de publication : 2023-02-28

Contexte :
In this internship, we propose to study the problem of financial forecasting, i.e., predicting the future variation of the price of a financial instrument, using deep learning. The student will work on a new data source with a finer granularity than existing datasets. Because of the difficulty of obtaining data, previous works focused on price prediction at the scale of a day, a week, or a month. Our new dataset contains intraday information. Therefore, we can predict the price within a day and use multi-scale analysis. Besides, our new dataset contains different kinds of financial instruments (FOREX, crypto, options, futures) and additional information about the companies (description, financial reports, dividends).

Sujet :
The intern will start with state-of-the-art methods used for financial forecasting. The goal will be to study the existing datasets and models and to find their limitations. In parallel, they will get used to the structure of the data. Then, we will propose a new method to compare to other baselines. The end goal of this project is to publish a paper at an international conference.

Profil du candidat :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, and data processing. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas) is also expected. A previous experience with finance is appreciated but not required for this internship.

Formation et compétences requises :
The intern should be involved in a master’s program and have a good knowledge of machine learning, deep learning, and data processing. A good understanding of Python and the standard libraries used in data science (scikit-learn, PyTorch, pandas) is also expected. A previous experience with finance is appreciated but not required for this internship.

Adresse d’emploi :
19 place marguerite perey, 91120 Palaiseau

Document attaché : 202301301408_stage_finance.pdf

Handling missing values based on Deep learning and Attention Mechanism
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/Doctorants

Laboratoire/Entreprise : David, UVSQ
Durée : 6 mois
Contact : mustapha.lebbah@uvsq.fr
Date limite de publication : 2023-02-28

Contexte :
voir le fichier pdf

Sujet :
voir le fichier pdf
Handling missing values based on Deep learning and Attention Mechanism

Profil du candidat :
End of engineering degree, M2 in data science, statistics and/or artificial intelligence. Good experience in programming, especially with the PyTorch/deeplearning4j framework.

Formation et compétences requises :
End of engineering degree, M2 in data science

Adresse d’emploi :
aboratoire David, UFR des sciences, 45 avenue des
Etats-Unis, 78035 Versailles

Document attaché : 202211080645_internshipuvsq.pdf

Mining activities from emails
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LAMSADE
Durée : 3-6 mois
Contact : daniela.grigori@dauphine.fr
Date limite de publication : 2023-02-28

Contexte :
Emails play, in the personal and particularly in the professional context, a central role in activity management. Emails can be harvested and re-engineered for understanding and analyzing undocumented business process activities and their corresponding metadata. By applying ML and NLP techniques on emails, information about activities [8], their metadata and their organization into process instances can be derived. These mined data can be used by exiting process mining tools to discover and analyze the inherent business processes executed by exchanging messages. Process mining is a recent research topic that applies artificial intelligence and data mining techniques to process modelling and analysis [1,2].

Sujet :
The aim of this internship is to propose techniques for mining business activities and related data from emails in order to improve and extend our recent work [3-7] by applying machine learning techniques [9].

Profil du candidat :
We seek for excellent and highly motivated student with a background in Computer Science
having good knowledge of NLP, ML and good programming skills (Python).

Formation et compétences requises :
M2

Adresse d’emploi :
Université Paris Dauphine PSL

Document attaché : 202301310904_Proposition_stage_EmalMining_2023.pdf

Observation des déformations 3D d’organes à tissus mous par IRM ultra rapide
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique et Systèmes, LIS UMR CN
Durée : 4 à 6 mois
Contact : marc-emmanuel.bellemare@univ-amu.fr
Date limite de publication : 2023-02-28

Contexte :
Les troubles de la statique pelvienne représentent un enjeu de santé publique. Ils regroupent un ensemble de pathologies associant une perte des rapports anatomiques normaux des organes pelviens, et une altération dramatique de la qualité de vie des malades. Ces pathologies sont handicapantes à des degrés variés mais leur physiopathologie reste encore mal connue ce qui complique leur prise en charge. De nouvelles séquences d’acquisition IRM, associées à une reconstruction adaptée, ont permis la visualisation 3D des organes en mouvement. Des résultats probants ont été récemment obtenus et publiés pour l’observation de la vessie (Figure) et il s’agit, dans le cadre du stage, de s’intéresser aux autres organes pelviens. Ce projet se développe en collaboration avec le CRMBM, pour la réalisation de séquences IRM ultra rapides adaptées à l’observation souhaitée.

Sujet :
Des acquisitions multi-planaires sont réalisées dans des plans non classiques ce qui complique la reconnaissance des organes. Ainsi la segmentation des principaux organes impliqués est une étape primordiale mais difficile. Des architectures de de réseaux de neurones seront évaluées en comparaison avec la référence, U-Net (Mask-RCNN, Retina-Net). Un modèle géométrique 3D des organes peut ensuite être recalé sur les contours segmentés. Il s’agit alors de proposer une stratégie qui optimise à la fois la séquence d’acquisition et les modèles géométriques des surfaces des organes observés. Ces modèles géométriques permettront alors une caractérisation quantitative des déformations. Les problématiques de recalage, de segmentation et de modèles 3D, au cœur du projet, seront abordées selon les compétences et préférences du stagiaire.

Profil du candidat :
Le candidat ou la candidate sera intéressé(e) par un projet pluridisciplinaire et par l’imagerie médicale. Les domaines abordés concernent les réseaux de neurones profonds, la segmentation d’IRM et la reconstruction 3D. Des compétences en mathématiques appliquées seront particulièrement appréciées. Une expérience de la programmation avec l’environnement python (PyTorch) est attendue. Le stage aura une durée de 4 à 6 mois avec la gratification d’usage.

Formation et compétences requises :
De formation master ou ingénieur avec des compétences en traitement des images.

Adresse d’emploi :
Le stage se déroulera à Marseille essentiellement au laboratoire d’informatique et des systèmes (LIS) dans l’équipe Images & Modèles sur le campus de St Jérome. Le LIS UMR 7020 fédère plus de 375 membres. La recherche y est structurée au sein de pôles (calcul, science des données, analyse et contrôle des systèmes, signal et image), et centrée sur les activités dans les domaines de l’informatique, de l’automatique, du signal et de l’image.
Aix-Marseille Université
Campus scientifique de St Jérôme – Bâtiment Polytech’ GI – Av. Escadrille Normandie Niemen -13397 Marseille Cedex 20

Document attaché : 202211181327_Sujet_Master2_DL&Reconstruction3D_2023.pdf