Fusion methods of multispectral data with multiple resolutions and missing entries. Application to Sentinel-2 and Sentinel-3 images

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2023-02-01

Contexte :
The satellite observation of our planet has known important instrumental advances for several decades, with significant developments in terms of spatial resolution (e.g., in water color remote sensing, with a high spatial resolution of 10-60 m) and in terms of spectral resolution (hyper-spectral imagery). A Multi-Spectral (MSI) or Hyper-Spectral Image (HSI) consists of a data cube whose two axes describe the spatial variations and one axis describes the spectral variations. The main difference between HSI and MSI lies in the very small number of spectral bands observed in the latter.

However, due to physical constraints, increasing the number of spectral bands in HSI implies a decrease of the spatial resolution. Therefore, today, our planet is observed by MSI sensors (with a good spatial resolution but a low spectral one), HSI sensors (with a good spectral resolution but a low spatial one), and imagers with intermediate properties.

In the framework of this internship, we are interested in coastal marine observation via data from the Sentinel-2 and Sentinel-3 satellites. The images obtained by these two satellites allows to study the color of the ocean, i.e., the spatial and temporal distribution of the concentration of phytoplankton, suspended matter, and organic matter. Sentinel-2 data consists of cubes with 13 spectral bands for a spatial resolution varying from 10 to 60~m (depending on the bands), acquired approximately every 5 days. Sentinel-3 data are cubes with 21 spectral bands for a spatial resolution of 300~m, which are daily acquired. In marine observation, to understand the complex phenomena occurring in coastal environments, the data available must combine:
– a good spectral resolution to better analyze the biogeochemical medium (chlorophyll, particles in suspension, etc.);
– a good spatial resolution to better understand the distribution phenomena of this environment which are much more complex in a coastal environment than in the open sea;
– a short period of acquisition of these images to identify phenomena that are very concentrated in time (phytoplankton blooms for example).

No satellite data currently allows these three constraints to be met.

Sujet :
Our recent work on multi-sharpening [1,2], in spatio-temporal fusion [3], and in spatial-(spectral-)temporal fusion [4] allowed us to initiate some work on different problems.

In the framework of this internship, we propose to jointly process Sentinel-2 and Sentinel-3 data approximately acquired at the same time (spatial-spectral fusion aka multi-sharpening), in order to generate new MSI data with the number of spectral bands of Sentinel-3 and the spatial resolution of Sentinel-2. However, this internship significantly differs from our previous work as follows:
1. We aim to process data on which atmospheric correction we performed [5], so that a comparison with in situ measurements is possible. However, this processing provides new issues such as missing entries (corresponding to land areas, clouds, and ships) or negative values without any physical meaning.
2. We aim to jointly process the three Sentinel-2 spatial resolutions with the unique Sentinel-3 one, thus hoping improving the fusion quality.
3. We aim to perform comparisons with in situ measurements.

The considered methods will use a regularized matrix / tensor factorization formalism and/or a deep-learning formalism.

References:
[1] A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. Experimental comparison of multi-sharpening methods applied to Sentinel-2 MSI and Sentinel-3 OLCI images. In Proc. IEEE WHISPERS’21, 2021.
[2] A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. DeepSen3: Deep multi-scale learning model for spatial-spectral fusion of Sentinel-2 and Sentinel-3 remote sensing images. In Proc. IEEE
WHISPERS’22, 2022.
[3] C. T. Cissé, A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. A new deep learning method for multispectral image time series completion using hyperspectral data. In Proc. IEEE ICASSP’22, 2022.
[4] A. Hadir, A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. S2S3-STFGAN: a GAN-based spatio-temporal fusion method for sentinel-2 and sentinel-3 data. Submitted.
[5] F. Steinmetz and D. Ramon. Sentinel-2 MSI and sentinel-3 OLCI consistent ocean colour products using POLYMER. In Proc. SPIE “Remote Sensing of the Open and Coastal Ocean and Inland Waters”, volume
10778, 2018.

Profil du candidat :
Pursuing scientific studies in the field of data sciences (signal and image processing, computer science with a focus in artificial intelligence / machine learning, applied mathematics), you are curious and very comfortable in programming (Matlab, Python). You read and speak fluent English with ease. Although not compulsory, a first experience in data factorization (e.g., matrix or tensor decomposition, blind source separation, dictionary learning) or in deep learning will be appreciated.

Formation et compétences requises :
To apply, please send an e-mail to {claire.guilloteau, matthieu.puigt, gilles.roussel} @univ-littoral.fr while attaching the documents that can support your application:
– your resume;
– a cover letter;
– your transcripts for the last year of B.Sc, the first year of M.Sc, and the last year of M.Sc (if the latter is available);
– two reference letters or the names and means of contact of two academic advisers.

Adresse d’emploi :
The internship will take place in the new Longuenesse branch of LISIC laboratory which is currently dedicated to hyperspectral imaging. Today, this recently created branch has 6 faculty members, 1 post-doctoral researcher, and 4 Ph.D. students. The internship will take place in Longuenesse, Northern France.

Many exchanges will take place with the LOG laboratory, located in Wimereux, Northern France. The LOG will bring its skills on ocean color, in particular on the analysis of merged images and their validation. The LOG will provide in-situ validation measurements and images in coastal areas of interest (Eastern Channel, Guyana, Cambodia, Vietnam).

Both laboratories are located in the heart of the Regional Natural Park of “Caps et Marais d’Opale”, close to Lille, England, Belgium, and Northern Europe (Amsterdam is only 4~h drive from Longuenesse).

Document attaché : 202211022108_Stage_SFR_2023_LISIC_LOG_English.pdf

Maître-assistant associé en Apprentissage statistique et Aide à la décision pour l’Industrie et les territoires du futur

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Mines Saint-Etienne
Durée : 12 mois
Contact : batton@emse.fr
Date limite de publication : 2022-11-15

Contexte :
Mines Saint-Etienne recrute un Maître Assistant Associé (équivalent post-doc) pour 12 mois en sciences des données ‘Apprentissage statistique et aide à la décision pour l’industrie et les territoires du futur’. Le poste proposé est ouvert au sein du département GMI (Génie Mathématique et Industriel) avec des activités de recherche développées dans les axes SIC ou MAAD de l’UMR CNRS 6158 LIMOS.

Sujet :
La mission de recherche consiste à développer des travaux en lien avec l’un ou plusieurs de ces domaines : probabilités, statistiques, sciences de données, méta-modélisation pour l’estimation. Il est notamment attendu le développement d’approches en modélisation mathématique pour l’aide à la décision par processus aléatoires discrets ou continus en science des données.
La mission d’enseignement consiste à assurer des cours, des travaux dirigés et pratiques dans l’enseignement des mathématiques réalisé en formation initiale du cycle Ingénieur Civil des Mines (ICM) dans les domaines des méthodes numériques, probabilités et statistiques, science des données,

Profil du candidat :
Le candidat ou la candidate, titulaire d’un doctorat Mathématiques appliquées ou en Science des données (sections CNU n°26, n°61, n°24),

Formation et compétences requises :
Des compétences fortes dans le domaine des sciences de données et de l’apprentissage statistique, de l’aide à la décision. Ces compétences pourront intégrer la modélisation statistique de processus discrets et/ou continus, des approches fonctionnelles en science de données, des approches d’optimisation décisionnelle liées aux méthodes par renforcement ou de l’optimisation continue sous incertitude.

Adresse d’emploi :
Ces missions s’exerceront sur le Campus de Saint-Etienne (42) de Mines Saint-Etienne.

Document attaché : 202210281537_FAYOL_Maître_assistant_2022_sciences_des_données-FR v2.pdf

Utilisation des méthodes machine learning sur les données hospitalières de la pharmacie clinique pour l’identification automatique des erreurs de prescriptions médicamenteuses

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : SESSTIM, Faculté des Sciences Médicales et Paraméd
Durée : 5-6 mois
Contact : jean-charles.dufour@univ-amu.fr
Date limite de publication : 2023-03-31

Contexte :
Le Service transversal de Pharmacie Clinique et Soins Pharmaceutiques de l’APHM en collaboration avec le service BioSTIC de l’APHM et le SESSTIM (Unité Mixte de Recherche UMR1252 labélisée par l’Inserm, l’IRD et Aix-Marseille Université) cherche à améliorer la sécurité et la pertinence des ordonnances médicamenteuses via une analyse pharmaceutique détaillée, automatisée et systématisée. Pour cela l’utilisation de méthodes de Machine Learning sont envisagées.
Pour réaliser l’analyse des données, implémenter et évaluer les méthodes de Machine Learning un stage de 5 à 6 mois est proposé avec une gratification financière pour un(e) étudiant(e) niveau ingénieur ou master 2 en science des données ou intelligence artificiel. Le stage est à pourvoir dès février-mars 2023.

Sujet :
Il s’agit de contribuer à l’optimisation des prescriptions médicamenteuse. Le stage porte sur l’implémentation et l’évaluation de différentes méthodes de Machine Learning en utilisant des données de vie réelle (prescription hospitalière) de la pharmacie clinique. Le principe est d’évaluer et d’appliquer un ensemble de méthodes d’IA afin de faciliter et optimiser l’analyse automatisée des ordonnances médicamenteuses dans le contexte hospitalier.
Mission du stagiaire : Nettoyer et analyser les données. Rechercher et identifier des méthodes d’IA applicables sur ces données. Implémenter les méthodes, entrainer les modèles, sélectionner les modèles les plus performants. Documenter les développements réalisés.

Profil du candidat :
Capacité d’analyse et de synthèse, forte autonomie et esprit d’initiative, connaissances du métier de la santé appréciée, capacité de travailler en mode projet : rendre compte des avancements des travaux et communication des résultats, bonne communication à l’oral et à l’écrit (Français et/ou Anglais).

Formation et compétences requises :
Bonnes connaissances en machine learning et notamment algorithmes supervisés (SVM, Random Forest, Arbre de décision, Réseaux de neurones,…). Maîtrise d’environnement python.

Adresse d’emploi :
Faculté des sciences médicales et paramédicales, Marseille

Document attaché : 202210281005_Proposition-Stage-SESSTIM-PharmacoClin-ML-octobre2022.pdf

Managing the variability of complex software families using Polyadic Concept Analysis

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : DISP, Université Lyon 2
Durée : 6 mois
Contact : giacomo.kahn@univ-lyon2.fr
Date limite de publication : 2022-11-30

Contexte :
Des études menées au sein de plusieurs industries montrent que les éditeurs de logiciels ont tendance à produire des variantes de systèmes logiciels en réutilisant de manière ad-hoc des clones de projets précédents, aboutissant ainsi à des familles de logiciels similaires où chaque produit est géré et maintenu séparément. L’ingénierie des lignes de produits logiciels regroupe un ensemble de méthodes basées sur la réutilisation systématique d’artefacts logiciels afin de développer, maintenir et faire évoluer en parallèle un ensemble de variantes d’une même famille de logiciels. Cela permet de réduire le temps et le coût de développement et de maintenance de la famille de logiciels tout en augmentant sa qualité. La migration depuis une famille de produits logiciels vers une ligne de produits est donc une problématique essentielle partagée par de nombreux éditeurs de logiciels. La modélisation et la gestion de la variabilité, i.e., quels artefacts varient entre les variantes logicielles et comment, est un point central de ces méthodes.

Sujet :
L’ingénierie des lignes de produits multiples est un domaine émergeant qui se consacre à la représentation et la gestion de la variabilité dans des familles de logiciels qui sont considérés comme complexes du fait de leur hétérogénéité, de leur taille ou encore de leur architecture. Cette complexité donne lieu à des données pouvant inclure de multiples dimensions (e.g., caractéristiques logicielles, contexte et environnement, équipe de développement, dépendances avec d’autres systèmes) ce qui présente un réel défi lorsque l’on cherche à les analyser avec les techniques actuelles. La migration depuis une famille de logiciels complexes vers une ligne de produits multiples nécessite donc de reconsidérer et d’adapter les techniques traditionnelles de rétro-ingénierie de la variabilité afin de manipuler des données plus complexes.

L’objectif de ce stage est d’utiliser une extension de l’analyse formelle de concepts, l’analyse polyadique (PCA), qui permet d’extraire des motifs et des informations de données multi-dimensionnelles, afin d’extraire la variabilité d’un ensemble de familles de logiciels complexes.

Profil du candidat :
Master 2 informatique, avec des penchants pour le génie logiciel et les approches de représentation et d’extraction de connaissance.

Formation et compétences requises :
Ingénierie logicielle, représentation des connaissances

Adresse d’emploi :
Laboratoire Disp, pôle RTI, Université Lyon 2

Document attaché : 202210280931_23PropPCADISP_Fiche-appel-à-candidature.pdf

Prediagnosis using machine learning for dental health in Mongolia

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Disp
Durée : 6 mois
Contact : giacomo.kahn@univ-lyon2.fr
Date limite de publication : 2022-11-30

Contexte :
Le projet Européen Erasmus+ DigiHealth-Asia a pour objectif le renforcement des capacités de formation en santé numérique d’universités provenant de trois pays asiatiques : la Mongolie, le Pakistan, et la Thaïlande. Des problématiques spécifiques ont été identifiées dans chacun des pays partenaires. La Mongolie est un pays particulièrement étendu, et dont les services de santé sont concentrés dans un unique pôle urbain, qui concentre 45% de la population du pays. Dans le cadre du projet DigiHealth, nous développons en partenariat avec deux universités mongoles un système de consultation à distance assisté par des modèles d’intelligence artificielle, pour le cas de la santé dentaire.

Sujet :
Ce stage s’appuie sur des données de terrain réelles. L’objectif de ce stage est de récupérer ces données, les nettoyer, prétraiter, traiter et analyser, dans le but de déployer les modèles d’apprentissage automatique dans l’architecture proposée par nos partenaires mongoles. Pour se faire, un déplacement en Mongolie est prévu lors du stage, pour rencontrer les partenaires (côté recherche et professionnels de santé) et préparer le déploiement. Pour cette raison, il faut impérativement un niveau d’anglais suffisant.

Profil du candidat :
Master ou ingénieur en informatique

Formation et compétences requises :
Anglais obligatoire (déplacement en Mongolie),
Apprentissage automatique,
Santé numérique

Adresse d’emploi :
Laboartoire DISP, RTI, Université Lyon 2

Document attaché : 202210280926_PC3DISP_Fiche appel à candidature_20191119.pdf

Prévision de l’énergie éolienne à l’aide de l’apprentissage distribué

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4-6 mois
Contact : faiza.loukil@univ-smb.fr
Date limite de publication : 2023-02-28

Contexte :
L’énergie éolienne s’est développée rapidement ces dernières années et plusieurs solutions de prévision de la production des parcs éoliens basées sur l’apprentissage automatique apparaissent. Bien que ces modèles de prévision (Dione, 2018) (Aksoy, 2021) soient prometteurs, certains défis subsistent dans leur développement, notamment en matière de la perte de contrôle des données utilisées dans l’entraînement, de l’algorithme d’apprentissage automatique et de la
faible pertinence du modèle à cause de son caractère trop général.

Sujet :
L’apprentissage distribué, un paradigme de l’apprentissage automatique qui tend à s’imposer pour répondre aux problématiques de confidentialité des données et de décentralisation des calculs pour améliorer les performances, augmenter la précision et s’adapter à des données de masse. Il réduit les erreurs commises par la machine et aide les individus à prendre des décisions et des analyses éclairées à partir de grandes quantités de données. Ainsi, l’objectif de ce projet est la proposition d’un modèle d’apprentissage distribué pour la prévision de la production éolienne à l’aide d’un croisement entre des données de production provenant de parcs éoliens en France et des données de prévisions météorologiques.

Ce projet consiste à, dans un premier temps, étudier les solutions de prévision de la production éolienne par apprentissage automatique. Puis, dans un second temps, il vise à proposer une solution d’apprentissage distribué et comparer ses performances avec les solutions existantes. Les travaux qui porteront sur l’apprentissage distribué et les résultats issus de ce projet auront vocation à être le
plus générique possible de manière à pouvoir être réutilisés dans d’autres cas d’applications avec des données issus d’autres projets au sein du LISTIC.

Objectifs du stage :
1. L’étudiant.e étudiera l’état de l’art sur les solutions de prévision de la production éolienne par apprentissage automatique classique, en général et par apprentissage distribué, en particulier.
2. Il.elle développera une solution basée sur l’apprentissage distribué en s’appuyant sur des données de référence provenant de parcs éoliens situés en France.
3. Il.elle réalisera une analyse des performances du modèle proposé et une comparaison avec les solutions existantes. La valorisation des résultats obtenus fera l’objet d’une publication dans une conférence
internationale.

Références.
(Aksoy, 2021) Aksoy, B. &. (2021). Estimation of Wind Turbine Energy Production Value by Using Machine Learning Algorithms and Development of Implementation Program. Energy Sources, Part A: Recovery, Utilization, and Environmental Effects, 692-704.
(Dione, 2018) Dione, M. &.-L. (2018). Short-Term Forecast of Wind Turbine Production with Machine Learning Methods: Direct and Indirect Approach. International Conference on Time Series and Forecasting, 301-315.

Profil du candidat :
Connaissance en ingénierie des données et particulièrement en apprentissage distribué sont nécessaires.

Formation et compétences requises :
Master 2ème année / Ingénieur 5ème année.

Adresse d’emploi :
LISTIC – Polytech Annecy-Chambéry, Annecy-le-Vieux, France

Stage M2 : Apprentissage profond pour le calcul de similarité de séries temporelles – Application à l’Analyse Quantifiée de la Marche des enfants avec Paralysie Cérébrale

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’analyse du mouvement du CHU de Bres
Durée : 6 mois
Contact : maxime.devanne@uha.fr
Date limite de publication : 2022-12-31

Contexte :
La Paralysie Cérébrale (PC) est un terme qui désigne un groupe de troubles permanents du développement du mouvement et de la posture, responsables de limitations d’activité, imputables à des événements ou atteintes non progressives survenus sur le cerveau en développement du fœtus ou du nourrisson. Les troubles moteurs de la PC sont souvent accompagnés de troubles sensoriels, perceptifs, cognitifs, de la communication et du comportement. La PC touche environ 2 enfants sur 1000 en Europe et est le handicap physique le plus fréquent de l’enfance.
L’Analyse Quantifiée de la Marche (AQM) est un des outils que possède le clinicien pour l’aider dans sa prise de décision thérapeutique afin d’améliorer la marche des enfants avec PC. Cet examen est réalisé en routine clinique dans un laboratoire du mouvement et quantifie les déviations à la marche. Cet examen permet d’obtenir la reconstruction 3D du mouvement (cinématique) à partir de caméras infrarouges et de marqueurs posés en regard de points anatomiques, l’activité musculaire et la force de réaction lors de l’appui, …. Ces paramètres peuvent être considérés comme des séries temporelles.
Le service de Médecine Physique et Réadaptation du CHU de Brest possède un laboratoire du mouvement dans lequel plus de 1100 patients (enfants et adultes) ont réalisé au moins une AQM. Afin d’aider sa prise de décision thérapeutique, le clinicien aime retrouver dans la base de données les cas similaires à un nouveau patient à partir de la cinématique de celui-ci.

Sujet :
L’objectif du stage est le développement de la similarité entre séries temporelles à l’aide de réseaux de neurones. Il s’agira tout d’abord d’effectuer une étude bibliographique des méthodes d’apprentissage automatique et d’apprentissage profond utilisées pour la mesure de similarité de séries temporelles. Ensuite, l’objectif sera de développer des réseaux de neurones pour extraire des caractéristiques pertinentes à partir des séries temporelles des paramètres de la marche. Ces caractéristiques pourront ensuite être utilisées pour le calcul de similarité entre plusieurs séries temporelles. La performance des algorithmes développés sera évaluée à partir des cycles de marche acquis au CHU de Brest. Les cliniciens pourront ainsi avoir l’évolution des cas les proches du cas qu’ils sont en train d’analyser et proposer des recommandations thérapeutiques basées sur l’approche de cas similaires.

Profil du candidat :
– M2 recherche en Informatique / Intelligence Artificielle
– Très bon niveau de programmation Python
– Des bonnes connaissances en apprentissage automatique et apprentissage profond
– Des connaissances sur les techniques de mesures du mouvement humain par systèmes optoélectroniques seraient appréciées

Formation et compétences requises :
– M2 recherche en Informatique / Intelligence Artificielle
– Très bon niveau de programmation Python
– Des bonnes connaissances en apprentissage automatique et apprentissage profond
– Des connaissances sur les techniques de mesures du mouvement humain par systèmes optoélectroniques seraient appréciées

Adresse d’emploi :
Le stage se déroulera au laboratoire du mouvement du CHU de Brest.

Document attaché : 202210280724_StageIrimasCHU_TS.pdf

Ingénieur recherche – Développement IHM analyse signaux GPR

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : ENDSUM
Durée : 6 mois
Contact : david.guilbert@cerema.fr
Date limite de publication : 2023-02-01

Contexte :
Le Cerema Ouest est une des 9 directions territoriales du Cerema. Elle intervient au coeur des régions Bretagne et Pays de la Loire. L’agence d’Angers, où se situera le poste, comporte une équipe de recherche spécialisé en évaluation non-destructive. L’équipe de recherche s’attache à mettre au point des méthodes de caractérisation et de diagnostic à grand rendement, moins invasives que les outils actuels, n’altérant pas les milieux auscultés et permettant le remplacement des méthodes basées sur des sources radioactives par de nouveaux développements technologiques à destination des gestionnaires d’infrastructures et des bureaux d’études. Par exemple, l’utilisation d’un radar de sol permet le contrôle non destructif de structures du génie civil, telles que les chaussées, ouvrages d’art… Le signal brut est difficilement interprétable et certains traitements sont nécessaires pour analyser et représenter les résultats.

Sujet :
Dans le cadre du projet ANR ACIMP, nous avons développé différents algorithmes de traitement des signaux radar pour détecter et estimer les défauts d’intégrité de la chaussée.
Afin de valoriser l’ensemble de ces travaux, nous souhaitons développer une librairie avec une IHM sous Python permettant l’exploitation des différents algorithmes. L’ingénieur aura en charge le développement en Python de tout le processus de traitement allant de la lecture des données, la calibration, la classification des données, et l’analyse fine des données par des techniques avancées de traitements des signaux.
Les différentes étapes sont :
1. Compréhension de la problématique (GPR, traitement du signal) ;
2. Design et développement de la bibliothèque en Python ;
3. Utilisation d’un gestionnaire de version ;
4. Réflexion et mise en place de tests automatisés ;
5. Contribuer à l’évolution de la chaîne d’intégration continue ;
6. Rédaction de la documentation.

Profil du candidat :
Traitement du signal ; traitement de données
Python et C, git

Formation et compétences requises :
Connaissances scientifiques pointues dans la spécialité en traitement du signal ; traitement de données
Compétence en développement informatique Python et C, git
Développer et maintenir des plateformes technologiques produisant et/ou valorisant les résultats de la recherche
Connaissance des règles et obligations contractuelles en matière de protection de la propriété intellectuelle

Adresse d’emploi :
Direction territoriale Ouest
Agence d’Angers – Équipe de recherche ENDSUM
23 avenue de l’amiral Chauvin, 49136 Les Ponts-de-Cé

Document attaché : 202210270703_Fdp_CDD_IR_ACIMP.pdf

Découverte de sous-groupes de répondeurs aux combinaisons de chimiothérapies

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Inria Paris, Equipe HeKA
Durée : 24 mois
Contact : adrien.coulet@inria.fr
Date limite de publication : 2023-02-01

Contexte :
Dans le cadre du projet CombO en lien avec le Health Data Hub et le Centre Léon Bérard (CLB) de Lyon, nous cherchons un⸱e postdoc pour un contrat de 2 ans.

Le⸱a postdoc fera parti⸱e de l’équipe HeKA (Inria, Inserm, Univ. Paris Cité, https://team.inria.fr/heka/fr/) et sera localisé⸱e à Paris, à PariSanté Campus (https://parisantecampus.fr/, https://goo.gl/maps/eW55zuHd2ggt2Q4Z9).

Des déplacements au CLB de Lyon sont à prévoir (frais pris en charge).

Le postdoc sera employé par Inria Paris et suivra pour cette raison la grille de salaire Inria.
Page de l’annonce : https://jobs.inria.fr/public/classic/fr/offres/2022-05400

Sujet :
Le projet de recherche du postdoc concerne l’extraction de connaissances à partir de données de santé, et plus particulièrement la recherche de sous-groupes de patients qui répondent de façon homogène aux combinaisons de chimiothérapie.

La mission du postdoc débutera par une phase de préparation de données, incluant l’extraction de marqueurs de réponse et de descripteurs à partir des notes cliniques de dossiers patients informatisés, la liaison de données cliniques et génétiques des patients avec les graphes de connaissances et ontologies de domaines.

Il s’agit ensuite d’explorer les méthodes de découverte de sous-groupes afin de mettre en évidence des ensembles de patients répondant différemment aux différentes combinaisons de molécules chimiothérapiques.

Profil du candidat :
Docteur en informatique avec un attrait pour les applications biomédicales, les projets collaboratifs, les données complexes
et la découverte de connaissances.

Formation et compétences requises :
Compétences appréciées :

Extraction de connaissances, fouille de texte, approches non-supervisées, découverte de sous-groupes, données de santé, graphes de connaissances

Python, spaCy, RDF, Sparql

Adresse d’emploi :
2-10 rue d’Oradour-sur-Glane
75015 Paris

Offre de stage : Apprentissage automatique pour la conception et l’analyse d’un lac de données archéologiques

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2023-02-01

Contexte :
DataLAC est un projet interdisciplinaire international financé par la Région
AURA, qui vise à extraire des informations qualitatives (sémantiques) à l’aide de l’intelligence artificielle, afin de constituer un stock de métadonnées nécessaire à l’analyse de documents numériques stockés dans un lac de données. Le lac va contenir trois types de données :

• des bases de données structurées

• un corpus de transcriptions de carnets de fouille manuscrits concernant le site archéologique d’Ullastret en Catalogne

• des documents graphiques : croquis dans les carnets de fouille, dessins techniques (relevés de terrain, planches de profils de céramiques), photographies techniques (vestiges sur le terrain, couches stratigraphiques, planches d’objets), cartes et plans de diverses époques, voire des « scans » 3D.

L’objectif du projet DataLAC est l’extraction de métadonnées (concepts présents dans les documents ci-dessus) par des méthodes de transcription supervisée, non supervisée et de fouille de texte. Il s’agit de rechercher par similitudes aussi bien l’affectation directe de métadonnées descriptives (« ce document représente cette entité ») que la documentation de liens logiques entre documents (« ces deux documents représentent la même entité »). Toutes les métadonnées sont rassemblées et structurées dans un thésaurus bilingue catalan-castillan apparié avec des concepts en français.

Sujet :
Un précédent stage a permis l’analyse de la structure des carnets de fouille, ainsi que la conception d’un thésaurus (vocabulaire structuré) et du schéma d’une base de métadonnées. Sur cette base, les tâches à mettre en œuvre par le stagiaire sont :

• l’instanciation de la base de métadonnées et la conception d’une interface de saisie des métadonnées

• la conception et la mise en œuvre du lac de données selon les principes FAIR (*), y compris la création de métadonnées de type liens entre les entité du lac, grâce à des méthodes d’apprentissage automatique (machine learning)

• la conception et la mise en œuvre d’une interface graphique d’analyse (exploration des données et machine learning) pour les archéologues.

(*) données Faciles à trouver, Accessibles, Interopérables, Réutilisables

Profil du candidat :
Master ou équivalent

Formation et compétences requises :
Bases de données, technologies big data, machine learning, programmation web

Adresse d’emploi :
Envoyer CV, lettre de motivation et ainsi que notes de l’année universitaire précédente à adresser à jerome.darmont@univ-lyon2.fr et sabine.loudcher@univ-lyon2.fr avec en objet « Candidature stage informatique DataLAC » d’ici le 21 novembre 2022. Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence courant décembre.

Document attaché : 202210251633_stage-datalac-2023.pdf