MaDICS

Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Dates importantes :

Date limite d’inscription : ~~30 avril 2026~~ 7 mai 2026
Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Jan

Sun

2023

Quantification de l’incertitude liée aux réseaux de neurones : application au diagnostic du cancer du sein

Tickets

Jan 15 – Jan 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : FEMTO-ST
Durée : 6 mois
Contact : noura.dridi@ens2m.fr
Date limite de publication : 2023-01-15

Contexte :
Les réseaux de neurones (RN) sont largement utilisés dans plusieurs domaines. Toutefois la décision fournie par un algorithme basé sur les RN est munie d’un niveau d’incertitude. Il est important de caractériser ces incertitudes.
Mots-clés : Quantification de l’incertitude, Réseaux de neurones, Dropout, Diagnostic,Cancer du sein.

Sujet :
Dans le cadre de ce projet, l’objectif est de développer une méthode de quantification de l’incertitude pour les réseaux de
neurones pour un modèle de régression. La méthode sera appliquée pour évaluer le stade des patientes atteintes d’un cancer du sein en fonction de plusieurs variables histopathologiques. Cette évaluation permettra par la suite de suivre le risque d’évolution de la maladie en associant un niveau de confiance, nécessaire pour un usage clinique. La
mesure de l’incertitude permettra aux praticiens de prendre des décisions adaptées pour la prise en charge des patientes comme par exemple explorer d’autres tests Orucevic et al. (2019).
Objectifs du stage :
— Développer un algorithme basé sur les RN pour la régression entre le stade de la patiente et un ensemble de variables explicatives.
— Optimisation de l’architecture du réseau ainsi que les différents hyperparamètres.
— Quantifier l’incertitude en se basant sur le dropout Gal and Ghahramani (2016b) et Gal and Ghahramani (2016a).
— Valider et comparer l’approche proposée avec d’autres techniques de la littérature (par exemple la régression distributionnelle Stasinopoulos et al. (2018) ou le RN bayésien Graves (2011)

Profil du candidat :

Etudiant.e de Master 2 ou en dernière année d’école d’ingénieur.

Formation et compétences requises :

Mathématiques-appliquées, machine learning, deep learning, programmation Python.

Adresse d’emploi :
FEMTO-ST/AS2M, UMR CNRS 6174
24 rue Alain Savary, 25000 Besançon

Document attaché : 202211241318_Sujetdestage_ND_DATA-PHM.pdf

Categories: Stages

Jan

Tue

2023

Internships on Deep Learning, inverse problems and Geoscience

Tickets

Jan 24 – Jan 25 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Lab-STICC/IMT Atlantique
Durée : 6 months
Contact : ronan.fablet@imt-atlantique.fr
Date limite de publication : 2023-01-24

Contexte :
We open internship offers in the framework of AI chair OceaniX (https://cia-oceanix.github.io/) to develop Physics-Informed AI for Ocean Monitoring and Surveillance.

Contact: Ronan Fablet, ronan.fablet@imt-atlantique.fr

Sujet :
Data-driven and learning-based strategies for the analysis, modeling and reconstruction of dynamical systems are currently emerging as promising research directions as an alternative to classic model-driven approaches for a wide variety of application fields, including atmosphere and ocean science, remote sensing, computer vision…. [2,3,4]. Especially, deep learning schemes [1] are currently investigated to address inverse problems, i.e. reconstruction of signals or images from observations. Especially, recent works [e.g., 3,4] have shown that one can learn variational models and solvers for the reconstruction.
These internships will specifically investigate the development of deep learning inverse models for the space-time reconstruction of geophysical dynamics from partial observations. We aim to explore and understand how end-to-end neural schemes, such as 4DVarNets [3,5], provide new means to address limitations of operational data assimilation systems, especially for applications to ocean modeling and forecasting using satellite and in situ observations. Both simulated and real case-studies will be of interest.

Keywords: deep learning, inverse problems, data assimilation, space oceanography

Profil du candidat :
MSc. and/or engineer degree in Applied Math., Data Science and/or Computer Science with a strong theoretical background, proven programming skills (Python).

Formation et compétences requises :
Knowledge of deep learning models and a first experience with Pytorch would be a plus.

Adresse d’emploi :
IMT Atlantique, Brest

Document attaché : 202211240841_sujet_stage_4DVarNet_DA2022.pdf

Categories: Stages

Stage M2 : multimodal emotion recognition / reconnaissance d’émotion multimodale

Tickets

Jan 24 – Jan 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ImViA
Durée : 6 months
Contact : yannick.benezeth@u-bourgogne.fr
Date limite de publication : 2023-01-24

Contexte :
Titre : reconnaissance d’émotion multimodale
Laboratoire ImViA (Univ. Bourgogne)
Location: Dijon France
Supervisor: Yannick Benezeth – yannick.benezeth@u-bourgogne.fr – https://sites.google.com/view/ybenezeth
Keywords: Image and signal analysis, deep learning, emotion recognition, fusion
If you are interested, send CV and motivation letter to yannick.benezeth@u-bourgogne.fr

Sujet :
(english below)
Percevoir les émotions des personnes qui nous entourent est vital dans la vie quotidienne et améliorerait les interactions hommes-machines. Les humains modifient souvent leur comportement lorsqu’ils interagissent avec les autres en fonction des émotions qu’ils perçoivent. Les premiers travaux sur la reconnaissance des émotions ont été principalement des approches unimodales, basées sur l’analyse de la parole, du texte ou des expressions faciales. Ces modalités peuvent nous fournir des informations sur l’émotion perçue mais c’est l’exploitation de la complémentarité de ces modalités qui a conduit à de bons résultats récemment et donne également de meilleurs résultats sur les bases de données non contrôlées [1].
Dans le cadre de ce stage, nous proposons de développer un système complet de reconnaissance des émotions basé sur l’intégration et la combinaison des différentes technologies d’analyse de l’image et de l’audio. Nous développerons tout d’abord, à partir d’outils et logiciels disponibles dans la littérature, des systèmes de reconnaissances d’émotions unimodaux basés sur les expressions faciales, les caractéristiques linguistiques et paralinguistiques, le comportement et les signaux physiologiques (EDA, HRV et HR) [2] et nous développerons ensuite une fusion de ces modalités.
Le logiciel développé devra réaliser tous les traitements en temps réel et un travail sur l’optimisation devra être réalisé.

*******************
Perceiving the emotions of people around us is vital in everyday life and would certainly improve human-machine interactions. Humans often modify their behavior when interacting with others according to the emotions they perceive. Early work on emotion recognition was mainly unimodal approaches, based on speech, text or facial expression analysis. These modalities can provide information on the perceived emotion but it is the exploitation of the complementarity of these modalities that has led to good results recently and also gives better results on in-the-wild databases [1].
In the framework of this internship, we propose to develop a complete emotion recognition system based on the integration and combination of different image and audio analysis technologies. We will first develop, using tools and software available in the literature, unimodal emotion recognition systems based on facial expressions, linguistic and paralinguistic features, behavior and physiological signals (EDA, HRV and HR) [2] and then we will develop a fusion of these modalities.
The developed software will have to perform all the processing in real time and therefore a work on optimization will have to be done.

Profil du candidat :
L’étudiant recruté devra avoir de bonnes connaissances en programmation, avec par exemple les systèmes multi-thread et le développement d’interfaces graphiques (en Python par exemple).

*****
The student recruited should have a good knowledge of programming, with for example multi-threaded systems and the development of graphical interfaces (in Python for example).

Formation et compétences requises :
Computer science

Adresse d’emploi :
Dijon

Categories: Stages

Jan

Thu

2023

Création d’une ontologie pour le domaine de la métabolomique

Tickets

Jan 26 – Jan 27 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Plateau de profilage métabolique et de metabolomiq
Durée : 6 mois
Contact : olivier.filangi@inrae.fr
Date limite de publication : 2023-01-26

Contexte :
INRAE est un institut de recherche public œuvrant pour un développement cohérent et durable de l’agriculture, l’alimentation et l’environnement. Pour répondre à des questions scientifiques de plus en plus complexes, il est souvent nécessaire de combiner des données provenant de banques de données publiques. La manière de représenter
ces données peut varier en fonction des communautés scientifiques ou des outils utilisés pour les produire par exemple. Dans ce cas, il est nécessaire de formaliser la manière de représenter et de
nommer les objets du domaine d’étude ainsi que leurs propriétés. Cette étape se concrétise généralement par la constitution de ressources sémantiques telles que les thésaurus et les ontologies.
L’infrastructure nationale de métabolomique MetaboHUB a pour objectif de fournir des outils technologiques de pointe et des services en métabolomique et fluxomique aux équipes de recherche académiques et à des partenaires industriels dans les domaines de la santé, de la nutrition, de l’agriculture, de l’environnement et des biotechnologies. Dans le cadre de sa nouvelle feuille de route, un des objectifs principaux est de favoriser une meilleure intégration des données et des services MetaboHUB au sein du consortium et au-delà. Les études actuelles sur le
métabolisme nécessitent l’utilisation d’un nombre croissant de ressources de données, complexes, produites ou stockées et au sein des plateformes de métabolomique et sur le Web.

le projet MetaSaurus réunit des experts en ingénierie des connaissances et en science des données du domaine de la métabolomique avec pour objectif de bâtir un modèle de connaissance adapté aux études
métabolomiques en s’appuyant sur les ontologies, thésaurus et vocabulaires contrôlés publiés (Thesaurus INRAE, Ontologies OBO Foundry / BioPortal).

Sujet :
Produire une ontologie adaptée au domaine de la métabolomique et les supports méthodologiques d’accompagnement de la démarche

A partir des spécifications du projet MetaSaurus et de la description des étapes d’intégration de données en métabolomique, le projet consistera à élaborer la première version d’une ontologie dédiée à la métabolomique. Vous étudierez les modalités de réutilisation des ressources sémantiques existantes en lien avec la maintenance de cette ontologie (mis en œuvre des principes OBO) et intégrerez l’environnement de gestion de l’ontologie dans une forge logicielle. L’implémentation de l’ontologie sera réaliser au format OWL. Cette démarche fera l’objet d’une proposition de méthodologie générique qui pourra être transposée à d’autres cas d’études.

Profil du candidat :
Étudiant de niveau master 2

Formation et compétences requises :
– Connaissances générales des standards du web sémantique (OWL/RDF) et des outils : Protégé, Github.
– Aptitude à la rédaction de documentation technique
– Maîtrise de l’anglais technique (lu)

Adresse d’emploi :
P2M2
Domaine de, La Motte Bat 305, 35650 Le Rheu

Document attaché : 202210171248_Stage_IngenierieConnaissance_Metabo.pdf

Categories: Stages

Jan

Mon

2023

apprentissage automatique pour la prévision météorologique

Tickets

Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR SPE
Durée : 5 à 6 mois
Contact : paoli_c@univ-corse.fr
Date limite de publication : 2023-01-30

Contexte :
Ce stage s’inscrit dans le cadre du projet ANR SAPHiR1 (“Sensor Augmented weather Prediction at HIgh Resolution”) coordonné par le laboratoire Sciences Pour l’Environnement (SPE) UMR CNRS 6134. Ce programme scientifique consiste à proposer de nouvelles méthodes de prévision d’événements météorologiques rares et extrêmes à haute résolution spatiale et temporelle. Dans ce contexte, deux missions complémentaires sont envisagées, la première orientée analyse de données et Machine Learning (ML), la seconde orientée ingénierie logicielle.

Sujet :
Missions : deux missions complémentaires sont envisagées
1. ML : le stagiaire aura pour mission de développer des codes informatiques permettant de prédire des séries temporelles environnementales, basés sur des techniques et architectures de Deep Learning. Le stagiaire participera également à l’analyse et la gestion des données hétérogènes nécessaire au projet : données météorologiques historiques, données issues de capteurs, données Lidar SAETTA2, images satellites, etc.
2. Ingénierie logicielle : le stagiaire aura pour mission de réaliser une application Web/mobile (multi-plateformes type Flutter) pour la visualisation grand-public des données et résultats de simulation. Le stagiaire participera à la réflexion de l’architecture du SI de SAPHIR : déploiement continu, structuration des codes, etc.

Profil du candidat :
Profil recherché : Bac+5 Informatique – Mathématiques

Modalité de candidature : envoyer un mail à paoli_c@univ-corse.fr en joignant un CV, une lettre de motivation et vos relevés de notes postbac. Un classement en année n-1 serait un plus nous permettant de bien compléter le dossier.

Formation et compétences requises :
Compétences requises : Développement Web/Mobile – Analyse de données – Machine Learning – Python – Gestionnaire de versions – autonomie – intérêt pour la recherche et le travail en équipe.

Adresse d’emploi :
UMR SPE 6134 – Université de Corse – Travail possible en télétravail occasionnel

Document attaché : 202212130946_2022-12-09-cpaoli-offreStageM2-Saphir.pdf

Categories: Stages

Enhancing earthquake location with domain adaptation

Tickets

Jan 30 – Jan 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Physique du Globe de Paris, Université
Durée : 6 mois
Contact : seydoux@ipgp.fr
Date limite de publication : 2023-01-30

Contexte :
Earthquakes express stress release in active geological objects and provide information about the underlying physical processes, such as fluid migrations and stress perturbations [1]. Therefore, our primary motivation is to form accurate seismic catalogs to enable precise monitoring of such active systems. The quality of seismic catalogs involves detection capabilities and location accuracy and depends on the geometry of the seismic station arrays [2] and the background seismic noise [3]. Since the 2000s, seismologists have densified and extended seismic networks in different seismically active areas to build high-quality catalogs [4]. This is the case of the eruption in Mayotte that triggered the deployment of ocean-bottom seismometers and land seismic sensors in the area [5]. The earthquake catalogs inferred in those areas prove of high quality, providing a better understanding of the region’s dynamics thanks to high-resolution seismic catalogs illuminating the geophysical features. But ocean- bottom seismometers are often deployed temporarily because of their maintenance cost, providing time-limited, high-quality data.

References:
1. Namiki, A. et al. Volcanic activities triggered or inhibited by resonance of volcanic edifices to large earth- quakes. Geology 47, 67–70 (2019).
2. Poiata, N., Satriano, C., Vilotte, J.-P., Bernard, P. & Obara, K. Multiband array detection and location of seismic sources recorded by dense seismic networks. Geophys. J. Int. 205, 1548–1573 (2016).
3. Longuet-Higgins, M. S. A theory of the origin of microseisms. Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciences 243, 1–35 (1950).
4. Rost, S. & Thomas, C. Array seismology: Methods and applications. Reviews of geophysics 40, 2–1 (2002).
5. Saurel, J.-M. et al. Mayotte seismic crisis: building knowledge in near real-time by combining land and
ocean-bottom seismometers, first results. Geophysical Journal International 228, 1281–1293 (2022).

Sujet :
This work aims to correct the systematically biased hypocenters obtained with a permanent seismic array from the hypocenters inferred with a temporary array with an adequate geometry, as illustrated in the figure below. We consider the case of Mayotte to develop the method and show the potential outcomes on other datasets of interest. We will learn the catalog bias from the events detected with the trusted array over five weeks and test the prediction quality over one week. Once successful, we will deploy the technique over several years of continuous data at Mayotte and other contexts.

Profil du candidat :
We seek candidates with a strong taste for programming, physics, and inverse problem-solving. A motivated candidate for learning about and applying artificial intelligence techniques is strongly preferred. The target programming language is Python, although we are open to other suggestions. We plan to use the Scikit-Learn library or the PyTorch framework to develop the strategy, or equivalent in other languages.

Formation et compétences requises :
Data science
Programming
Signal processing
Physics/Seismology

Adresse d’emploi :
Institut de Physique du Globe de Paris
1, Rue Jussieu, 75005 Paris

Document attaché : 202212131255_DiiP_Master_2023.pdf

Categories: Stages

Jan

Tue

2023

Apprentissage semi- et auto-supervisé exploitant du clustering avec connaissances

Tickets

Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 6 mois
Contact : thi-bich-hanh.dao@univ-orleans.fr
Date limite de publication : 2023-01-31

Contexte :
La cartographie du potentiel minéral consiste principalement à déterminer le lien statistique entre un ensemble d’occurrences minérales (points) et une carte géologique (polygones) dans le but d’indiquer des zones favorables en termes de potentiel minier. La majorité de ces cartes de favorabilité sont générées par des techniques numériques, et notamment depuis quelques années par des méthodes d’intelligence artificielle. Cependant les méthodes actuelles comportent des défauts liés à la qualité des données, à la présence d’approximations infondées et à l’utilisation de méthodes supervisées sur des données majoritairement non annotées [1,2]. Nous nous intéressons à explorer de nouvelles pistes pour améliorer la précision de la cartographie prédictive du potentiel minéral par le couplage d’une part de l’intégration de connaissances géologiques dans des algorithmes de clustering afin d’obtenir des clusters mieux fondées géologiquement, et d’autre part de l’utilisation de méthodes d’apprentissage semi-supervisé ou auto-supervisé pour la construction de carte.

Ce sujet s’intègre dans le cadre du projet ANR Contrats doctoraux IA.iO Artificial Intelligence in Orléans: Learning from heterogeneous data and expert knowledge. Applications in geological and environmental sciences. Le stage sera encadré conjointement par des membres du LIFO et des membres du BRGM. Un financement de thèse est prévue suite à ce sujet.

Sujet :
L’objet du stage est d’étudier les deux volets :
utilisation de méthodes de clustering existantes et intégration de connaissances [3,4,5] en vue d’améliorer les données d’entrées des modèles de prédictivité minérales. Les connaissances géologiques sont des ontologies développées au BRGM.
étude de méthodes semi-supervisées ou auto-supervisées pour détecter des anomalies sur la carte géologique en tirant partie de l’apprentissage non-supervisé (clustering). Le résultat du clustering sera utilisé avec peu de données labellisées pour améliorer le modèle de prédiction d’apprentissage semi-supervisé ou auto-supervisé [6, 7].
Les solutions à étudier incluent l’apprentissage non-supervisé, et l’apprentissage profond avec faible supervision.

Travail attendu :
– Rapport d’étude des méthodes d’apprentissage non-supervisé sur les données géologiques.
– Rapport d’étude des méthodes auto- et semi- supervisées existantes tirant partie de l’apprentissage non-supervisé.
– Etude et implémentation d’une nouvelle méthode (ou amélioration d’une méthode existante)

Profil du candidat :
– Profil Informatique, machine learning ou mathématique appliquée.
– Capacité de synthèse et de rédaction permettant une restitution régulière, claire et efficace du travail effectué.

Formation et compétences requises :
Master et/ou école d’ingénieur en Mathématiques/Informatique

Adresse d’emploi :
Les candidats sont encouragés à nous contacter au plus tôt possible. Envoyez nous votre candidature à Thi-Bich-Hanh Dao (thi-bich-hanh.dao@univ-orleans.fr) en joignant votre dossier en un seul fichier pdf, comprenant un CV, une lettre de motivation et vos relevés de notes depuis le baccalauréat. Les documents peuvent être en anglais ou en français.

Document attaché : 202212150852_Stage-2023.pdf

Categories: Stages

Classification de lésions intrahépatiques en histopathologie par apprentissage profond (deep learning)

Tickets

Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CReSTIC
Durée : 4 à 6 mois
Contact : eric.desjardin@univ-reims.fr
Date limite de publication : 2023-01-31

Contexte :
Les cholangiocarcinomes représentent un groupe hétérogène de cancers développés à partir des canaux biliaires intra ou extra-hépatique. Le diagnostic est histologique, souvent réalisé sur biopsie. Il peut être difficile à établir en raison de la ressemblance morphologique de certains cholangiocarcinomes avec d’autres ou avec des lésions intra-hépatiques bénignes comme l’adénome ou l’hamartome biliaire.
Le but de ce projet est de développer un algorithme diagnostique basé IA permettant de prédire avec une précision optimale le diagnostic de malignité/bénignité des lésions ductulaires intra-hépatiques. Dans ce contexte, il s’agira d’explorer, développer et expérimenter des architectures de réseaux de neurones profonds permettant de classer ces lésions avec une prédiction diagnostique optimale.

Sujet :
Ce stage se positionne dans le cadre d’un projet pluridisciplinaire qui regroupe des experts en informatique, histopathologie et médecine associant IA et Imagerie médicale.
La première étape du projet s’est concentrée sur la collecte et l’annotation des données, la sélection des patients puis le recueil des données cliniques, la numérisation des lames et l’annotation des lames virtuelles.

Le stage proposé débute à la suite de ces travaux préalables sur les données. Le travail à réaliser concerne le développement d’algorithmique pour la classification des lésions histologiques sur les lames numérisées par réseaux de neurones convolutifs (deep learning). Le schéma d’analyse suivant est proposé :
• Segmentation des régions d’intérêt (ROI) annotées sous formes d’imagettes de même taille (tuiles) ; puis extraction de ces tuiles. Les lames numériques annotées entières étaient trop lourdes pour les analyses utilisant les réseaux de neurones convolutifs ; il est nécessaire de segmenter les régions annotées en petites imagettes (tuiles) le plus souvent de 256 pixels de côté pour réaliser les analyses. Le programme d’extraction permet de conserver les données d’annotation et la coordonnée de la tuile dans la lame afin de présenter les résultats de probabilité diagnostique sous forme de carte de prédiction sur la lame numérique.
• Développement et entraînement de réseaux de neurones convolutifs (CNN) alimentés par les tuiles extraites des ROI classées (bénin / malin) sur une cohorte d’entraînement. Si le modèle U-net est bien identifié dans le cadre du traitement des images en histopathologie computationnelle, diverses autres architectures de CNN et/ou prétraitements des données, méritent d’être investigués dans un objectif de recherche de la structure la plus efficace et la plus robuste. Cette phase est généralement très consommatrice en termes de ressources humaines et matérielles. La plateforme OpenMOLE sera la base de plans d’expérimentation de recherche des meilleurs solutions (architectures, paramètres, ensembles d’apprentissage et de validation…) grâce à une distribution automatisée des tâches sur des environnements de calculs intensifs et un recueil centralisé des résultats pour analyse.

Profil du candidat :
Le(la) candidat(e) sera en Master 2 ou en 3e année d’école d’ingénieur.

Formation et compétences requises :
Compétences impératives :
• Intelligence artificielle, machine learning, deep learning
• Programmation Python
• Librairies usuelles de deep learning (TensorFlow, Keras. . . )
• Analyse d’images
Compétences souhaitées mais non-indispensables :
• Imagerie histopathologique

Adresse d’emploi :
Université de Reims Champagne-Ardenne, site de Reims
Laboratoire CReSTIC, Campus Moulin de la Housse

Document attaché : 202211081618_CHOLANGIA.pdf

Categories: Stages

Définition et validation d’une ontologie de profil d’apprenant dans le domaine de l’éducation

Tickets

Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : EducAction/– — –

Laboratoire/Entreprise : LIG (Laboratoire d’Informatique de Grenoble)
Durée : 6mois
Contact : fabrice.jouanot@univ-grenoble-alpes.fr
Date limite de publication : 2023-01-31

Contexte :
Ce stage s’inscrit dans la perspective des travaux sur l’AIED (AI for Education) et propose d’aborder la question de montée en compétence pour tous sous les angles informatiques et éducation. L’objectif est de repenser sous un œil éthique les différentes approches de recommandation de contenus numériques adaptées aux besoins et niveaux des apprenants, de repenser le partage de connaissances par des modalités d’accès et d’interaction diverses. La finalité étant de poser les premières briques pour la définition de protocoles d’expérimentation robustes et reproductibles permettant le test d’hypothèses à grande échelle pour les sciences de l’éducation. L’utilisation des technologies éducatives (EdTech) fondées sur les avancées récentes dans les SDEF (sciences de l’éducation et de la formation) et de la science des données est une voie prometteuse pour aider les acteurs de l’éducation. Cependant les EdTech restent encore limitées en termes de modèles de représentation des interactions sociales et de l’apprentissage.

Sujet :
Ce stage se concentre sur la compréhension et la représentation des contextes et besoins des acteurs de l’éducation. L’objectif est le développement d’une représentation à base d’ontologies des données des acteurs et des primitives d’accès à ces données qui prennent en compte le respect de la vie privée. Il est aujourd’hui nécessaire de concevoir des modèles de représentation des connaissances et de la capacité d’apprentissage des apprenants qui soient riches et évolutifs en se basant sur les modèles qui existent dans le domaine de l’apprentissage ou de la recherche d’information. Nous désirons proposer des outils de manipulation et d’interrogation de parcours, basés sur la navigation dans les bases de connaissances.
Des plateformes d’apprentissages existantes serviront de sources pour guider la définition d’une ontologie de profil d’apprenant et serviront à valider cette ontologie. Ces plateformes seront SIDESNG la plateforme nationale d’enseignement en santé et LabNbook, qui s’intéresse principalement aux compétences scientifiques expérimentales (lycée et supérieur).

Résultats attendus :
• Définir OntoEduc, le cœur d’une ontologie de profil d’apprenant (capacité d’apprentissage), à partir des référentiels de connaissances existant
• Étendre OntoSides, l’ontologie pour l’apprentissage en santé, avec les concepts d’OntoEduc.
• Valider les profils d’apprenants créés par OntoEduc sur leur capacité à prédire la réussite des apprenants aux tâches proposées dans Sides.
• Transposer les principes mis en œuvre dans OntoEduc et OntoSides à la plateforme LabNbook afin d’utiliser une ontologie des connaissances en sciences expérimentales pour inférer les profils épistémiques des apprenants dans ces domaines.

Technologies :
• Outils de gestion d’ontologie : Protégé, TopBraid
• Développement Java et/ou Python
• Outils de gestion de graphe de connaissance : Jena, Virtuoso, GraphDb

Profil du candidat :
Parcours Informatique / IA (BAC + 5 en cours),

Formation et compétences requises :
Connaissances souhaitées des technologies du web sémantique (RDF, SPARQL),
Niveau correct en français

Adresse d’emploi :
Laboratoire d’Informatique de Grenoble – Université de Grenoble (38)

Document attaché : 202301031412_Stage_Emergence.pdf

Categories: Stages

Imagerie Hyperspectrale pour l’Astrophysique

Tickets

Jan 31 – Feb 1 all-day

Offre en lien avec l’Action/le Réseau : BigData4Astro/– — –

Laboratoire/Entreprise : Institut de Planétologie et d’Astrophysique de Gr
Durée : 5 mois
Contact : mickael.bonnefoy@univ-grenoble-alpes.fr
Date limite de publication : 2023-01-31

Contexte :
Les spectrographes intégraux de champ sont une classe d’instruments aujourd’hui déployée sur la majorité des observatoires astronomiques modernes (Very-Large-Telescope au Chili; Télescope Keck à Hawaii). Les cubes d’images hyperspectrales qu’ils produisent contiennent une diversité d’information qui commence à être exploitée pour rechercher et caractériser des planètes en cours de formation (proto-planètes) autour d’autres étoiles [1].

Les données sont dominées par le halo de flux de l’étoile qui agit comme une nuisance. Les signaux produits par les planètes en formation sont parcimonieux et proches du niveau du bruit. Des méthodes de recherche de signaux faibles dans des cubes de données hyperspectraux ont été développées dans des contextes méthodologiques proches [2]. Ces méthodes nécessitent d’être adaptées au présent problème de détection de planètes en formation en recherchant une raie spectrale spécifique de l’hydrogène (raie Hɑ).

Sujet :
Le travail proposé consiste à prendre en main des données de l’instrument MUSE (Very-Large-Telescope) et de reproduire dans un premier temps les résultats de l’état de l’art [3]. Il s’agit alors de bien mettre en évidence les possibilités et les limites des solutions algorithmiques existantes. Un effort particulier sera déployé vers les méthodes de soustraction de halo dans les images et l’analyse de performances de détection sur les résidus obtenus par soustraction de ce dernier. Les données à traiter/analyser sont déjà acquises et seront donc facilement disponibles.

L’expertise développée devra permettre d’étendre et de proposer des évolutions de ces méthodes, possiblement dans le cadre d’une prolongation de ces travaux par un doctorat (financement ANR acquis). Le travail se déroule dans le contexte d’une collaboration entre les laboratoires GIPSA-Lab et IPAG à Saint-Martin-d’Hères.

Profil du candidat :
Bonnes connaissances en détection, estimation, approches Bayésiennes. Notions sur la formation des images. Appétences pour le traitement de données astrophysiques et échange entre plusieurs disciplines scientifiques. Bonne maîtrise de Matlab et Python.

Formation et compétences requises :
Etudiant en master 2 recherche en traitement du signal et/ou étudiant en fin de cycle ingénieur.

Adresse d’emploi :
IPAG
414 Rue de la Piscine
38400 Saint-Martin d’Hères

GIPSA-Lab
11 Rue des Mathématiques
38400 Saint-Martin-d’Hères

Document attaché : 202210180908_Detecting propoplanets in hyperspectral data.pdf

Categories: Stages

Feb

Wed

2023

Differential privacy in relational or graph databases

Tickets

Feb 1 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Contexte :
Cette offre s’inscrit dans le cadre du projet Semantic Networks of Data: Utility and Privacy (SENDUP) qui étudie la sécurité et la vie privée sur les bases de données sous forme de graphes (e.g. RDF) soumises à des contraintes sémantiques.

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
Previous works established methods to guaranty DP for publication processes in graph databases (e.g. RDF databases). However, the use and study of databases is generally centered around relational databases through languages like SQL.
Works on privacy are no exceptions. This presents a challenge when trying to compare the efficacy of a newly proposed method on graphs to existing methods in relational databases, as methods and metrics have no clear translation from one to the next.
In this internship, we aim to design and implement translation methods between graphs and relational databases, as well as their metrics. Furthermore, we want to compare the efficacy of some methods to guaranty DP in graph databases to that of methods in graphs aiming at similar results.

Profil du candidat :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Intérêt pour les bases de données sous forme de graphes et la sécurité des données.
Capable de travailler seul et en équipe.

Formation et compétences requises :
Etudiant en Master Bac+5 en Informatique ou équivalent.
Capacité à lire et écrire des documents scientifiques en anglais.
Capacité à coder dans un langage de programmation (préférence pour Java).

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081430_Stage_SDS_ReltoGraph.pdf

Categories: Stages

Fusion methods of multispectral data with multiple resolutions and missing entries. Application to Sentinel-2 and Sentinel-3 images

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC
Durée : 6 mois
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2023-02-01

Contexte :
The satellite observation of our planet has known important instrumental advances for several decades, with significant developments in terms of spatial resolution (e.g., in water color remote sensing, with a high spatial resolution of 10-60 m) and in terms of spectral resolution (hyper-spectral imagery). A Multi-Spectral (MSI) or Hyper-Spectral Image (HSI) consists of a data cube whose two axes describe the spatial variations and one axis describes the spectral variations. The main difference between HSI and MSI lies in the very small number of spectral bands observed in the latter.

However, due to physical constraints, increasing the number of spectral bands in HSI implies a decrease of the spatial resolution. Therefore, today, our planet is observed by MSI sensors (with a good spatial resolution but a low spectral one), HSI sensors (with a good spectral resolution but a low spatial one), and imagers with intermediate properties.

In the framework of this internship, we are interested in coastal marine observation via data from the Sentinel-2 and Sentinel-3 satellites. The images obtained by these two satellites allows to study the color of the ocean, i.e., the spatial and temporal distribution of the concentration of phytoplankton, suspended matter, and organic matter. Sentinel-2 data consists of cubes with 13 spectral bands for a spatial resolution varying from 10 to 60~m (depending on the bands), acquired approximately every 5 days. Sentinel-3 data are cubes with 21 spectral bands for a spatial resolution of 300~m, which are daily acquired. In marine observation, to understand the complex phenomena occurring in coastal environments, the data available must combine:
– a good spectral resolution to better analyze the biogeochemical medium (chlorophyll, particles in suspension, etc.);
– a good spatial resolution to better understand the distribution phenomena of this environment which are much more complex in a coastal environment than in the open sea;
– a short period of acquisition of these images to identify phenomena that are very concentrated in time (phytoplankton blooms for example).

No satellite data currently allows these three constraints to be met.

Sujet :
Our recent work on multi-sharpening [1,2], in spatio-temporal fusion [3], and in spatial-(spectral-)temporal fusion [4] allowed us to initiate some work on different problems.

In the framework of this internship, we propose to jointly process Sentinel-2 and Sentinel-3 data approximately acquired at the same time (spatial-spectral fusion aka multi-sharpening), in order to generate new MSI data with the number of spectral bands of Sentinel-3 and the spatial resolution of Sentinel-2. However, this internship significantly differs from our previous work as follows:
1. We aim to process data on which atmospheric correction we performed [5], so that a comparison with in situ measurements is possible. However, this processing provides new issues such as missing entries (corresponding to land areas, clouds, and ships) or negative values without any physical meaning.
2. We aim to jointly process the three Sentinel-2 spatial resolutions with the unique Sentinel-3 one, thus hoping improving the fusion quality.
3. We aim to perform comparisons with in situ measurements.

The considered methods will use a regularized matrix / tensor factorization formalism and/or a deep-learning formalism.

References:
[1] A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. Experimental comparison of multi-sharpening methods applied to Sentinel-2 MSI and Sentinel-3 OLCI images. In Proc. IEEE WHISPERS’21, 2021.
[2] A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. DeepSen3: Deep multi-scale learning model for spatial-spectral fusion of Sentinel-2 and Sentinel-3 remote sensing images. In Proc. IEEE
WHISPERS’22, 2022.
[3] C. T. Cissé, A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. A new deep learning method for multispectral image time series completion using hyperspectral data. In Proc. IEEE ICASSP’22, 2022.
[4] A. Hadir, A. Alboody, M. Puigt, G. Roussel, V. Vantrepotte, C. Jamet, and T. K. Tran. S2S3-STFGAN: a GAN-based spatio-temporal fusion method for sentinel-2 and sentinel-3 data. Submitted.
[5] F. Steinmetz and D. Ramon. Sentinel-2 MSI and sentinel-3 OLCI consistent ocean colour products using POLYMER. In Proc. SPIE “Remote Sensing of the Open and Coastal Ocean and Inland Waters”, volume
10778, 2018.

Profil du candidat :
Pursuing scientific studies in the field of data sciences (signal and image processing, computer science with a focus in artificial intelligence / machine learning, applied mathematics), you are curious and very comfortable in programming (Matlab, Python). You read and speak fluent English with ease. Although not compulsory, a first experience in data factorization (e.g., matrix or tensor decomposition, blind source separation, dictionary learning) or in deep learning will be appreciated.

Formation et compétences requises :
To apply, please send an e-mail to {claire.guilloteau, matthieu.puigt, gilles.roussel} @univ-littoral.fr while attaching the documents that can support your application:
– your resume;
– a cover letter;
– your transcripts for the last year of B.Sc, the first year of M.Sc, and the last year of M.Sc (if the latter is available);
– two reference letters or the names and means of contact of two academic advisers.

Adresse d’emploi :
The internship will take place in the new Longuenesse branch of LISIC laboratory which is currently dedicated to hyperspectral imaging. Today, this recently created branch has 6 faculty members, 1 post-doctoral researcher, and 4 Ph.D. students. The internship will take place in Longuenesse, Northern France.

Many exchanges will take place with the LOG laboratory, located in Wimereux, Northern France. The LOG will bring its skills on ocean color, in particular on the analysis of merged images and their validation. The LOG will provide in-situ validation measurements and images in coastal areas of interest (Eastern Channel, Guyana, Cambodia, Vietnam).

Both laboratories are located in the heart of the Regional Natural Park of “Caps et Marais d’Opale”, close to Lille, England, Belgium, and Northern Europe (Amsterdam is only 4~h drive from Longuenesse).

Document attaché : 202211022108_Stage_SFR_2023_LISIC_LOG_English.pdf

Categories: Stages

Implantation d’une interface utilisateur pour l’exploration interactive d’un ensemble de motifs extraits

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : Groupe de recherche en informatique, image, automa
Durée : 6 mois
Contact : bertrand.cuissart@unicaen.fr
Date limite de publication : 2023-02-01

Contexte :

Cette annonce propose un stage de 6 mois destiné à un·e étudiant·e en cinquième année d’informatique (M2 ou école d’ingénieurs). Le stage s’inscrit dans le projet ANR-20-CE23-0023 InvolvD 1 . Le sujet principal est le développement d’une interface utilisat·eur·rice,outil indispensable pour permettre aux expert·e·s en pharmacie de bénéficier de notre nouvel algorithme d’exploration de résultats expérimentaux. Le stage (sera encadré par Ronan Bureau, Bertrand Cuissart et Etienne Lehembre. Le·La stagiaire sera accueilli.e au sein du GREYC, le laboratoire d’informatique de l’Université de Caen Normandie.

Sujet :
Dans le cadre d’InvolvD, nous avons récemment développé un algorithme visant à accom-
pagner un·e expert·e dans la découverte d’un espace de données structurées. L’algorithme
aillant fait ses preuves lors de tests avec des oracles synthétiques, nous souhaitons passer
à une phase expérimentale concrète en impliquant des expert·e·s humain·e·s. Le stage
consiste à réaliser l’interface utilisat·eur·rice qui permettra à un·e pharmacien·e de choisir
les parties des résultats qui l’intéressent au premier chef.
Les éléments d’étude sont des graphes étiquetés appelés pharmacophores [2] issus d’un
calcul de fouille de données. L’ensemble des pharmacophores est structuré grâce à la re-
lation d’inclusion entre les graphes. L’interface a pour but d’offrir à l’expert·e un moyen
efficace de parcourir cette structure de façon à alimenter l’algorithme d’apprentissage
par renforcement. L’objectif étant de limiter la frustration et le manque d’attention de
l’expert·e [1], il est important que l’interaction ne se résume pas à une suite de questions
– réponses.
Suite aux réponses de de l’expert·e, l’algorithme actualise l’intérêt de chaque pharma-
cophore pour l’analyse. Pour traduire cette évolution, la visualisation de la structure à
parcourir doit évoluer en conséquence.
La réalisation de l’interface sera prolongée par un travail destiné à évaluer les perfor-
mances de l’algorithme d’évaluation de l’intérêt des pharmacophores. Pour cette partie
du travail, il sera indispensable d’avoir un échange de nature interdisciplinaire avec les
chercheurs en pharmacie.
Enfin, le stage se conclura par un travail plus ouvert et axé sur le choix stratégique à
associer au parcours des pharmacophores. On peut privilégier une stratégie d’exploitation
associée à un parcours plutôt de proches en proches, on peut opter pour une stratégie
d’exploration qui privilégie les pharmacophores associés aux endroits peu explorés par
l’analyse ou on peut imaginer des compromis entre ces deux stratégies.

Profil du candidat :
Technologies envisagées
La réalisation de l’interface s’appuiera sur une méthode clas-
sique MVC (Modèle – Vue – Contrôleur) où le modèle serait le code C++ fourni. Il sera
nécessaire d’intégrer le code à un wrapper Python pour mettre en place les contrôleurs
communiquant avec la vue qui utilisera Dash Cytoscape 2,3 ; Cytoscape est un logiciel de
visualisation de graphes déjà existant.
Apports du stage
Le·la stagiaire sera intégré·e au sein de l’équipe CODAG du GREYC, laboratoire d’informatique normand. Le projet ANR InvolvD impliquant des cherch·eurs·euses de plusieurs laboratoires français, l’étudiant·e aura l’occasion d’échanger avec plusieurs spécialistes dans le contexte d’une recherche interdisciplinaire. Ces échanges seront accompagnés par une intégration dans le groupe chimie-informatique caennais, groupe qui compte une vingtaine de membres et qui se réunit mensuellement pour échanger. L’étudiant·e aura ainsi plusieurs occasions de présenter ses travaux dans un contexte collaboratif. De plus, le travail étant un travail de recherche académique, il se concrétisera par la rédaction d’une communication scientifique qui sera soumise à la communauté scientifique (poster, workshop, article de conférence, ou journal). Enfin, en réalisant ce stage, l’étudiant·e va acquérir des connaissances très intéressantes concernant la ”chemoinformatique”, domaine interdisciplinaire visant à réaliser des avancées informatiques pour mieux appréhender le monde de la chimie.

Formation et compétences requises :
Le stage est destiné à un étudiant de cinquième année d’informatique (M2 ou école d’ingénieurs).

Adresse d’emploi :
6 Boulevard du Maréchal Juin
Bâtiment Sciences 3
CS 14032, 14032 CAEN cedex 5

Document attaché : 202212011043_stage_greyc.pdf

Categories: Stages

Interhsip – deep super-resolution for sequences of satellite images

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : MACLEAN/– — –

Laboratoire/Entreprise : Cnam/UBS
Durée : 6 months
Contact : nicolas.audebert@cnam.fr
Date limite de publication : 2023-02-01

Contexte :
Location : Cnam, Paris or UBS, Vannes (France)
Salary : ≈ 600€/month
Contract : Internship (4 to 6 months)
Starting date : Flexible in 2023

Research topic

Earth Observation through satellite imagery is a major tool for geoscience. However, there is a dilemma on whether to deploy systems that acquire many images at high frequency but with a low spatial resolution or systems with high spatial resolution but few revisits. The Sentinel-2 constellation, operated by the European Space Agency (ESA), leans towards high frequency for better temporal monitoring of dynamic phenomena. Yet, its 10m/px resolution is often not enough in urban applications since buildings, roads, and sparse vegetation are barely visible in the images. Conversely, commercial satellites, such as SPOT-6/7, often embark very high-resolution sensors. For example, the French mapping agency (IGN) distributes a yearly high-resolution cloud-free mosaic of the entire French metropolitan area. These panchromatic SPOT-6/7 images at a 1.5m/px resolution are helpful for precise land cover and land use mapping but are produced only once a year.

This research work aims to bridge the gap between those two data sources by investigating super-resolution. Super-resolution is an image processing technique aiming to increase the resolution of an image. It does not use a reference high-resolution image, but instead relies on prior knowledge regarding the structure of the data. Using deep learning for super-resolution has been frequently investigated in the last years [1], starting with Convolutional Neural Networks(CNN) [3], then later using Generative Adversarial Networks (GAN) [5, 8]. Nowadays, diffusion models [9, 6], already state-of-the-art generative models for image synthesis, have established themselves as strong candidates for the next generation of super-resolution algorithms.

Some works have transposed those deep architectures to remote sensing [4, 10], with two main shortcomings. First, most focus on single-image resolution, i.e., transforming a single image into a more detailed one. But low-resolution remote sensing data draws its strength from the temporal information contained in the satellite image time series (SITS). Second, super-resolution systems are mostly trained on artificial pairs of (low resolution, high resolution) images where the LR image is a downsampled version of the HR reference. This means that training sets and benchmarks are mostly synthetic and do not actually inform us of the performance of super-resolution systems on actual data. To overcome these issues, new benchmark datasets have been proposed such as Sen2Venus [7] and WorldStrat [2]. The latter includes pairs of a sequence of low-resolution Sentinel-2 images and a high-resolution Spot-6/7 image acquired worldwide. This dataset opens opportunities for the development of new approaches relying on modern state-of-the-art super-resolution techniques such as diffusion models.

Sujet :
The goal of this research project is (i) to leverage the temporal information contained in satellite time series to improve the super-resolution process, and (ii) to train deep diffusion models to power a super-resolution system on real data.

Objectives
The research intern will perform the following tasks:
• searching and summarizing the literature for suitable multi-image super-resolution approaches, diffusion models for super-resolution, and super-resolution of temporal data,
• collecting and analysing the WordStrat dataset,
• implementing and adapting state-of-the-art approaches, such as SRDiff [6], to SITS,
• investigating techniques to exploit the temporal structure in SITS, for example by using attention mechanisms and temporal blocks in the conditional encoder of diffusion models.

Profil du candidat :
The ideal applicant is pursuing an MSc. in Computer Science, Artificial Intelligence or Computer Vision or an equivalent degree (e.g. engineering diploma).

Formation et compétences requises :
• A good grasp of the fundamentals of machine learning and deep learning for computer vision is expected.
• The candidate should have an interest in scientific research and good written and oral communication skills.
• Knowledge of the Python programming language is a must, including some level of experience with at least one deep learning framework (PyTorch, Keras, TensorFlow, JAX…).
• A first experience with time series, image processing or generative models is a plus.
All applications, independently of previous experience, will be considered, provided that the candidate’s motivation and profile fit the internship topic.
French is not required but can help with everyday life.

Adresse d’emploi :
This position is for an internship from 4 to 6 months, with a flexible starting date in 2023. The internship will either take place at the Center for research and studies in computer science and communications (Cédric), the computer science laboratory of the Conservatoire national des arts et métiers (Cnam) in Paris or at the Institute for Research in Informatics and Random Systems (Irisa), the computer science laboratory of the University of South Brittany in Vannes.
Depending on their preference, the intern will join the Complex Data, Machine Learning and Representations team in Paris or the Environment observation with complex imagery team in Vannes. In either cases, gratification is approximately 600€/month as imposed by the law for public institutions.

Categories: Stages

Offre de stage : Apprentissage automatique pour la conception et l’analyse d’un lac de données archéologiques

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2023-02-01

Contexte :
DataLAC est un projet interdisciplinaire international financé par la Région
AURA, qui vise à extraire des informations qualitatives (sémantiques) à l’aide de l’intelligence artificielle, afin de constituer un stock de métadonnées nécessaire à l’analyse de documents numériques stockés dans un lac de données. Le lac va contenir trois types de données :

• des bases de données structurées

• un corpus de transcriptions de carnets de fouille manuscrits concernant le site archéologique d’Ullastret en Catalogne

• des documents graphiques : croquis dans les carnets de fouille, dessins techniques (relevés de terrain, planches de profils de céramiques), photographies techniques (vestiges sur le terrain, couches stratigraphiques, planches d’objets), cartes et plans de diverses époques, voire des « scans » 3D.

L’objectif du projet DataLAC est l’extraction de métadonnées (concepts présents dans les documents ci-dessus) par des méthodes de transcription supervisée, non supervisée et de fouille de texte. Il s’agit de rechercher par similitudes aussi bien l’affectation directe de métadonnées descriptives (« ce document représente cette entité ») que la documentation de liens logiques entre documents (« ces deux documents représentent la même entité »). Toutes les métadonnées sont rassemblées et structurées dans un thésaurus bilingue catalan-castillan apparié avec des concepts en français.

Sujet :
Un précédent stage a permis l’analyse de la structure des carnets de fouille, ainsi que la conception d’un thésaurus (vocabulaire structuré) et du schéma d’une base de métadonnées. Sur cette base, les tâches à mettre en œuvre par le stagiaire sont :

• l’instanciation de la base de métadonnées et la conception d’une interface de saisie des métadonnées

• la conception et la mise en œuvre du lac de données selon les principes FAIR (*), y compris la création de métadonnées de type liens entre les entité du lac, grâce à des méthodes d’apprentissage automatique (machine learning)

• la conception et la mise en œuvre d’une interface graphique d’analyse (exploration des données et machine learning) pour les archéologues.

(*) données Faciles à trouver, Accessibles, Interopérables, Réutilisables

Profil du candidat :
Master ou équivalent

Formation et compétences requises :
Bases de données, technologies big data, machine learning, programmation web

Adresse d’emploi :
Envoyer CV, lettre de motivation et ainsi que notes de l’année universitaire précédente à adresser à jerome.darmont@univ-lyon2.fr et sabine.loudcher@univ-lyon2.fr avec en objet « Candidature stage informatique DataLAC » d’ici le 21 novembre 2022. Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence courant décembre.

Document attaché : 202210251633_stage-datalac-2023.pdf

Categories: Stages

Offre de stage : Instanciation et enrichissement par machine learning des métadonnées du « Lac de données Pablo Picasso »

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2023-02-01

Contexte :
Le projet PICASSOLETTERS vise à analyser le réseau de relations qui a
contribué à la transnationalisation de Pablo Picasso. À l’aide des méthodes et des outils de la science des données, il s’agit de réaliser une étude inédite et systématique des correspondances du peintre pour construire le réseau d’acteurs et de relations du peintre. Le corpus épistolaire comporte plus de 20000 lettres jamais explorées de façon globale et détaillée à ce jour. Le but du projet PICASSOLETTERS est de contribuer à combler deux carences : la première concerne le déficit d’études sur la totalité du réseau du peintre, la seconde concerne l’absence de données ou de métadonnées accessibles en ligne et ouvertes à tous et toutes, recensant et décrivant ce corpus épistolaire. À travers le développement d’un lac de données permettant la saisie, l’interrogation et l’analyse de métadonnées décrivant la correspondance du peintre, le projet PICASSOLETTERS propose d’expérimenter un nouveau modèle pour l’exploration des corpus.

Sujet :
Le stage comportera plusieurs volets en étroite collaboration avec les
chercheur·es en littérature, en droit et du Musée national Picasso Paris :

• instancier et améliorer à la marge une base de métadonnées déjà créé

• étudier les méthodes de machine learning récentes et les appliquer sur les métadonnées afin de les enrichir

• développer un outil « intelligent » d’assistance à la création de métadonnées (collecte automatique d’informations, suggestions et recommandations d’enrichissement en utilisant le machine learning, etc.)

• mettre en œuvre le lac de données sur la base des tâches ci-dessus.

Profil du candidat :
Master ou équivalent

Formation et compétences requises :
Programmation/programmation web, gestion et bases de données, machine learning, technologies big data.

La connaissance des langages, standards et référentiels du Web sémantique et du Web de données serait un plus.

Adresse d’emploi :
Envoyer CV, lettre de motivation et ainsi que notes de l’année universitaire précédente à adresser à sabine.loudcher@univ-lyon2.fr et jerome.darmont@univ-lyon2.fr avec en objet « Candidature stage informatique PICASSOLETTERS » d’ici le 21 novembre 2022. Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence courant décembre.

Document attaché : 202210251629_stage-picassoletters-2023.pdf

Categories: Stages

Offre de stage en business intelligence : Analyse collaborative dans le décisionnel pour tou·tes

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ERIC
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2023-02-01

Contexte :
L’accès à l’informatique décisionnelle (business intelligence ou BI) a été
facilité par l’infonuagique (cloud computing). Toutefois, le décisionnel à la demande est soit limité, soit reste réservé aux spécialistes et hors d’atteinte des petites structures, indépendant·es et citoyen·nes, alors qu’il existe une forte demande sociétale d’analyse de données (self/open) simple et collaborative. L’objectif du projet BI4people, financé par l’Agence Nationale de la Recherche (ANR), est de rendre le décisionnel disponible en ligne à des utilisateur/trices disposant de peu de ressources financières et de connaissances techniques.

Sujet :
L’analyse collaborative dans le contexte de la BI a été étudiée selon différents points de vue, mais reste rare et se concentre principalement sur des aspects techniques. Il n’existe pas de solution globale à ce jour. Le stage comportera deux volets.

1. Définition d’une typologie des moyens collaboratifs pertinents pour l’analyse BI. Cette tâche est importante pour obtenir à la fois une vue d’ensemble globale des méthodes de collaboration pertinentes pouvant être utilisées dans la BI et une idée précise de la manière dont les utilisateur/trices pourraient bénéficier de la collaboration. L’analyse collaborative comprend le partage d’analyse, le mashup, l’annotation, la comparaison, la publication, etc.

2. Conception/spécifications/implémentation d’une architecture pour l’analyse collaborative qui s’inscrira dans le développement global du projet BI4people. L’architecture développée inclura la gamme de propositions déterminées dans la typologie ci-dessus. Un schéma sera dessiné pour
représenter le processus collaboratif envisagé. Des spécifications devront être proposées avant la mise en œuvre. L’ensemble du processus devra également être évalué sur un cas d’usage déjà constitué.

Profil du candidat :
Master ou équivalent

Formation et compétences requises :
Business Intelligence, programmation web/nodeJS, gestion de données,
rigueur.

Adresse d’emploi :
Envoyer CV, une lettre de motivation et vos notes de l’année universitaire précédente à cecile.favre@univ-lyon2.fr et sabine.loudcher@univ-lyon2.fr avec en objet « Candidature stage informatique BI4people » d’ici le 21 novembre 2022. Les candidat∙es retenu∙es après examen des dossiers seront convoqué∙es pour un entretien en visioconférence courant décembre.

Document attaché : 202210251625_stage-bi4people-wp3-2023.pdf

Categories: Stages

Résolution d’entités nommées dans des corpus de documents historiques de grande taille et partiellement redondants: le cas des annuaires commerciaux de Paris du XIXème siècle

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LASTIG, Univ Gustave Eiffel, IGN-ENSG
Durée : 5 mois
Contact : nathalie-f.abadie@ign.fr
Date limite de publication : 2023-02-01

Contexte :
Ce stage s’inscrit dans le projet ANR SODUCO qui vise à étudier l’évolution de la structure spatiale de Paris en lien avec les pratiques sociales de la population, sur la période allant de la Révolution Française au début du 20ème siècle. Le projet exploite deux types de sources historiques rassemblées en deux corpus:
• un corpus spatial : plans et cadastres, qui représentent les structures urbaines (rues, bâti, etc.)
• un corpus social : “annuaires du commerce”, sorte de “pages jaunes” avant l’heure, qui contiennent les noms, statuts sociaux, activités professionnelles et adresses d’une partie des parisiens.
Un premier stage a permis de proposer une approche pour l’appariement des entrées représentant un même commerce d’une année à l’autre. Cette dernière a été appliquée aux métiers de la photographie, qui représentent une faible portion du corpus des annuaires.

Sujet :
Ce sujet de stage comporte un objectif méthodologique principal : proposer et mettre en œuvre une approche reproductible et qui passe à l’échelle pour identifier des relations d’équivalence entre les principales entités nommées extraites dans les annuaires du commerce parisien du XIXe siècle et qui représentent un même élément du monde réel.
Il comporte trois objectifs applicatifs: produire trois graphes spatio-temporels permettant le suivi des commerces, des adresses et des activités parisiennes au XIXe siècle.

Profil du candidat :
Master 2 ou troisième année d’école d’ingénieur en informatique, ou en géomatique.

Formation et compétences requises :
– Données spatio-temporelles,
– Résolution d’entités nommées, liage, appariement,
– Graphes de connaissances géohistoriques,
– Développement Python,
– Un intérêt pour l’histoire sociale est un plus.

Adresse d’emploi :
Institut National de l’Information Géographique et Forestière
73 avenue de Paris
94160 Saint-Mandé

Document attaché : 202212072201_SoDUCo2022NELInternship.pdf

Categories: Stages

Semantic attack on graph databases

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : LIFO – Equipe Systems and Data Security
Durée : 5 à 6 mois
Contact : adrien.boiret@insa-cvl.fr
Date limite de publication : 2023-02-01

Sujet :
Data safety and privacy are concerns currently receiving intense attention, notably through the introduction of GDPR reglementations that aim to ensure data collection, treatment, and publication never trespass on a person’s right to privacy.
The notion of differential privacy (DP) grew popular as a yardstick
of privacy for data publication processes, where a database containing sensitive information can still answer queries without compromising privacy.
The guaranty provided by DP is that it is difficult to differentiate between a graph and one of its neighbours (i.e. the same graph differing on exactly one information) when observing the answer to a query. This is a convincing guaranty of privacy, as it means that a graph yields results so similar to its neighbours’, that an attacker cannot deduce with certainty any specific information
in a graph.
However, this guaranty works best under the assumption
that any graph has neighbours to “hide behind”. If a graph is isolated from any of its neighbours, then the guaranty provided by DP weakens.
We posit that such situations can arise if the graph databases we consider are known to follow structural constraints (e.g. “every patient has a doctor”) or semantic constraints (e.g. “Dr Wilson is an oncologist”). If all possible graphs must follow specific rules, then it is possible that some graphs have no neighbours that an attacker could confuse them with.
In this internship, we aim to formalise and evaluate through experimentation the damage that prior knowledge of a target graph’s schema can make on the privacy of a DP-guarantying process.

Adresse d’emploi :
INSA Centre Val de Loire, 88 boulevard Lahitolle 18022 Bourges

Document attaché : 202212081435_Stage_SDS_SemanticAttack.pdf

Categories: Stages

Stage de M2 Informatique – projet JOKER: Détection et interprétation des Jeux de Mot avec des méthodes d’Apprentissage Profond

Tickets

Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : SimpleText/– — –

Laboratoire/Entreprise : Centre Européen de Réalité Virtuelle (ENIB) / HCTI
Durée : 5-6 mois
Contact : liana.ermakova@univ-brest.fr
Date limite de publication : 2023-02-01

Contexte :
Ce stage participe au projet JOKER qui vise à faire progresser l’automatisation de la traduction des jeux de mots en fournissant un corpus parallèle (c’est à dire multilingue) approprié [1].
Alors que la traduction moderne est fortement aidée par des outils technologiques, pratiquement aucun n’a de support spécifique pour les jeux de mots. En effet, la plupart des outils de traduction basés sur l’IA nécessitent une qualité et une quantité de données d’entraînement (par exemple, des corpus parallèles) qui ont toujours fait défaut pour les jeux de mots. L’objectif du projet JOKER est de construire automatiquement un corpus parallèle de jeux de mots en entraînant un classificateur basé sur l’IA à détecter automatiquement les instances de jeux de mots et à les aligner avec leurs traductions.

Références
[1] L. Ermakova et al., « Overview of JOKER@CLEF 2022: Automatic Wordplay and Humour Translation Workshop », in Experimental IR Meets Multilinguality, Multimodality, and Interaction, Cham, 2022, p. 447‑469.
Version ouverte: https://ceur-ws.org/Vol-3180/

Sujet :
Objectifs du stage (liste indicative):

– Détection des jeux de mots: Une première étape de détection sera de traiter les données de sources électroniques (pdf, html etc) variées sélectionnées pour vous (romans, essais, etc.) pour augmenter les corpus disponibles, avec des méthodes d’intelligence artificielle.
– Alignement des traductions avec les algorithmes traditionnels ou avec les modèles neuronaux
Interprétation des jeux de mots en français et en anglais
– Augmentation des corpus monolingues

Environnement technique (liste indicative):

– Python, Pandas, NLTK, expressions régulières
– bibliothèques pour traiter différents formats de fichiers (pdf, epub,…)
– De grands modèles pré-entraînés:
Google mT5 (https://github.com/google-research/multilingual-t5)
BLOOM (https://huggingface.co/bigscience/bloom)

Profil du candidat :
– M1 informatique ou équivalent;
– intérêt pour les projets de recherche;
– la maîtrise de la langue française et anglaise est souhaitable;
– les connaissances de Python, Pandas, expressions régulières sont souhaitables;
– le sens de l’humour est souhaitable.

Formation et compétences requises :
– M1 informatique ou équivalent;
– la maîtrise de la langue française et anglaise est souhaitable;
– les connaissances de Python, Pandas, expressions régulières sont souhaitables.

Adresse d’emploi :
Centre Européen de Réalité Virtuelle (ENIB), 25 rue Claude Chappe, Plouzané, France

Document attaché : 202212081524_Stage JOKER 2023 (1).pdf

Categories: Stages

January – February 2023 Jan – Feb 2023

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :