
MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…
Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.
Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:
- Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus… - Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus… - Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus… - Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.
Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…
Manifestations à venir
Journées Ecoles Conférences et Séminaires
Actions, Ateliers et Groupes de Travail :
CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique de Bourgogne (LIB)
Durée : 5-6 mois
Contact : eric.leclercq@u-bourgogne.fr
Date limite de publication : 2024-03-06
Contexte :
Dans les réseaux sociaux, la manipulation de l’information est une problématique pouvant avoir des conséquences néfastes importantes. Les stratégies de diffusion d’informations manipulées sont complexes, et peuvent avoir recours à la mise en oeuvre d’armées de robots ayant différents rôles dans le réseau. Par exemple, un groupe de robots peut avoir pour tâche de spammer certains messages ou mots clés afin de manipuler les tendances et de gagner une visibilité importante en peu de temps, d’autres robots peuvent avoir un profil évolué ainsi qu’une activité quotidienne, leur permettant de passer pour des utilisateurs légitimes et de donner plus de poids aux messages qu’ils pourraient diffuser dans certaines communautés. Toutefois, la détection de ces armées de robots est complexe, et l’évolution rapide de leur comportement et de leur organisation restreint les types d’algorithmes utilisables.
Le projet ANR Beelzebot est un projet interdisciplinaire regroupant des chercheur en informatique, en sciences de la communication et du langage. Il a pour objectif de définir des mécanismes pour détecter les armées de robots sur Twitter en se basant sur des méthodes non-supervisées, ainsi qu’à caractériser les activités de ces armées.
Sujet :
L’objectif du stage, dans le cadre du projet ANR Beelzebot, est de réaliser un textit{benchmark} des techniques de détection de robots existantes, afin d’en révéler les limites et de voir leur capacité à prendre en compte à différents jeux de données.
En plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter sont à disposition, comme par exemple les discussions autour des élections présidentielles françaises de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’UBFC.
Plus précisément, le stage consiste à réaliser un état de l’art pour identifier les méthodes de détection de robots exploitables (par exemple lorsque le code est déjà disponible), puis à établir un protocole expérimental permettant de comparer ces méthodes entre elles et enfin à réaliser les expériences correspondantes et mesurer les critères définis dans le protocole. Une attention particulière sera portée sur la reproductibilité de l’implémentation du protocole qui devra permettre de prendre en compte rapidement de nouvelles méthodes de détection ou de nouveaux jeux de données.
Ce travail constitue un travail préparatoire, qui pourra être poursuivi au cours d’une thèse financée par la projet ANR.
Profil du candidat :
étudiant en Master 2 avec spécialité informatique
Formation et compétences requises :
Formation Scientifique avec une solide base en informatique
Curiosité et rigueur scientifique
Compétences en gestion de données et programmation
Adresse d’emploi :
Université de Bourgogne
Laboratoire d’Informatique de Bourgogne
UFR Sciences et Techniques
9, Avenue Alain Savary
21078 Dijon
Document attaché : 202401300744_SujetStageBeelzebot.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UHA – IRIMAS
Durée : 6 mois
Contact : laurent.moalic@uha.fr
Date limite de publication : 2024-03-06
Contexte :
Le développement de la mobilité électrique est plus que jamais au cœur des orientations stratégiques à travers le monde. Cette rupture avec les mobilités thermiques, pour être efficace et avoir un impact significatif sur l’environnement notamment, doit s’accompagner de la mise en place d’infrastructures de recharge à grande échelle. Il est donc primordial que l’implantation des bornes de recharge soit pertinente, en termes de positionnement des infrastructures et de dimensionnement.
Sujet :
L’objet de ce stage est de fournir une première étape vers un déploiement de bornes de recharge optimal.
Trois thèmes feront l’objet de ce stage :
• Il s’agira dans un premier temps d’identifier l’ensemble des données géographiques et socio-économiques susceptibles d’impacter le fonctionnement d’un réseau de bornes de recharge.
• Dans un deuxième temps, ce stage fera ressortir les corrélations existant entre les données caractérisant le territoire et le fonctionnement réel d’un réseau de recharge.
• Finalement, la mise en œuvre d’un algorithme d’apprentissage automatique visera à prédire le fonctionnement d’une borne de recharge d’après son implantation.
Profil du candidat :
• Le candidat doit être en master M2 ou cycle ingénieur en informatique ou en mathématiques appliquées.
• Des compétences en Systèmes d’Information Géographique (SIG) ou dans le domaine de la mobilité serait un plus.
Formation et compétences requises :
M2 ou cycle Ingénieur
Adresse d’emploi :
Mulhouse
Document attaché : 202401311007_SujetStageMaster1.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Centre d’épidémiologie et de santé publique des a
Durée : 4-6 mois
Contact : muriel.visani@univ-lr.fr
Date limite de publication : 2024-03-31
Contexte :
Voir le fichier ci-joint
Sujet :
Voir le fichier ci-joint
Profil du candidat :
Voir le fichier ci-joint
Formation et compétences requises :
Voir le fichier ci-joint
Adresse d’emploi :
Centre d’épidémiologie et de santé publique des armées (CESPA), Marseille.
Document attaché : 202312131521_InternshipBloodSmear-CESPA-final_compressed.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Cirad, Montpellier
Durée : 6 mois
Contact : romain.fernandez@cirad.fr
Date limite de publication : 2024-03-31
Contexte :
Ce stage s’inscrit dans le contexte du projet IRC Agropolis “Upland rice”. Pour les plantes cultivées en conditions d’immersion (riz), le fonctionnement des parties inondées requiert la présence d’aérenchymes pour la circulation des gaz. Cependant la présence d’aérenchymes réduit les capacités de transport de l’eau. Le motif anatomique final de la racine résulte d’un compromis qui varie avec les variétés et les environnements de culture. Afin de mieux comprendre les déterminants de ce compromis, plusieurs campagnes d’observation ont été menées sur des panels de plantes. Des milliers de coupes de racines ont été observées en microscopie à épi-fluorescence (exemple : image en en-tête).
Sur ces coupes, les aérenchymes se distinguent des cellules par une géométrie atypique, avec des parois irrégulières, et un allongement prononcé dans le sens radial. Des premières analyses de ces structures ont été menées à l’aide d’un outil d’analyse semi-automatique, qui réalise la segmentation des cellules et laisse l’identification des structures complexes à la charge des experts biologistes. Le temps de traitement est très long, ce qui empêche de mener à bien l’étude des données disponibles (plusieurs milliers images) et de construire des conclusions d’intérêt agronomique.
Sujet :
L’objectif du stage est de développer un pipeline d’analyse d’images automatique pour la segmentation des aérenchymes et l’estimation de traits complexes : ratio aérenchymes/cortex, ratio stele/cortex, identification des assises cellulaires et des rayons. Dans ce but, le stagiaire aura la responsabilité de réaliser des expérimentations avec des outils de l’état de l’art (modèles dédiés plante et modèles “fondation”), et de concevoir une solution technique open-source qui sera mise à disposition via un démonstrateur.
Profil du candidat :
Master 2 ou école d’ingénieur. Ce stage est une opportunité accessible à des étudiants(e)s provenant d’une école en informatique, en modélisation mathématique, en analyse d’images, formés en deep learning. Le goût pour le travail en équipe à l’interface entre plusieurs disciplines (maths-info, microscopie, agro) sera nécessaire. Un intérêt scientifique pour l’intelligence artificielle appliquée à l’analyse d’images serait un plus.
Formation et compétences requises :
Le langage de programmation utilisé sera Python, en utilisant des outils de développement communautaire et de maintien logiciel (Github, Intégration Continue). Une connaissance préalable du fonctionnement des réseaux de neurones profonds (en particulier des réseaux convolutifs) est souhaitée, ainsi qu’une expérience avec une bibliothèque de Deep Learning (PyTorch, Keras, TensorFlow, …) et de Machine learning (Scikit-learn).
Adresse d’emploi :
Le stage aura lieu au Cirad de Montpellier, 389 Av. Agropolis, 34980 Montferrier-sur-Lez. La rémunération selon barème légal des stages sera de 600€ mensuel, avec accès à la restauration collective le midi.
Document attaché : 202312022235_Offre de stage M2 – Deep aerenchymes.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire ERIC (visites au LIRIS)
Durée : 4 à 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2024-03-31
Contexte :
Ce stage s’inscrit dans un projet interdisciplinaire dont l’objectif consiste à conduire des études exploratoires en traitement automatique de données lexicographiques extraites du Dictionnaire Universel François- Latin de Trévoux (DUFLT). Dans ce contexte, le travail de stage s’intéressera à l’expérimentation de méthodes d’apprentissage automatique pour l’entraînement de modèles de classification afin d’identifier automatiquement les domaines de connaissance dans les articles du DUFLT. De manière générale, nous souhaitons dresser une liste des domaines et sous-domaines de connaissances mentionnés dans chacune des éditions du corpus, afin de quantifier et de comparer la place qu’ils occupent. Cela permettra de mettre en évidence l’évolution qualitative et quantitative de ces domaines dans la série DUFLT entre 1704 et 1771. Dans le cadre du stage, l’expérimentation portera sur les éditions de 1743 et 1771 que nous avons au format numérique.
Sujet :
Le ou la stagiaire devra s’appuyer sur les récentes avancées en intelligence artificielle et en TAL pour proposer des solutions pour la classification des textes. Nous nous intéresserons en particulier aux approches neuronales pour la modélisation thématique et aux plongements de mots (ainsi que d’unités plus grandes : phrases, alinéas, articles) pour la modélisation et la spécialisation de modèles de langues. Le volume limité et la segmentation temporelle d’un corpus historique en ancien français rendra difficile l’utilisation pure et simple des modèles pré-entraînés sur des données modernes comme CamemBERT, FlauBERT, BARthez. Un premier objectif sera alors d’évaluer les performances de ces modèles de langues pour la tâche de classification supervisée et de comparer les résultats entre les deux éditions du corpus. Pour cette tâche, le ou la stagiaire pourra s’appuyer sur nos premiers résultats obtenus dans le cadre du projet GEODE sur l’Encyclopédie de Diderot et d’Alembert.
Profil du candidat :
Stage pour un niveau BAC+5 en Informatique (stage de fin de M2, PFE)
Formation et compétences requises :
Des compétences sont attendues en programmation et en science des données (Machine Learning et Deep Learning). Des connaissances en traitement automatique de la langue (TAL) seront appréciées.
Adresse d’emploi :
Laboratoire ERIC, Université Lyon 2, Bron (principalement), avec des visites au laboratoire LIRIS, INSA Lyon, Campus La Doua, Villeurbanne.
Document attaché : 202312010935_Sujet_stage_2024_ASLAN_PreEMADIT.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIP6, Sorbonne Université
Durée : 6 mois
Contact : rafael.angarita@lip6.fr
Date limite de publication : 2024-03-31
Contexte :
Data lakes are collections of massive heterogeneous datasets hosted in a variety of storage systems. In contrast to data warehouses where the data has been transformed to answer specific queries, data lakes store raw unformatted data ranging from structured data such as relational tables, semi-structured data such as JSON documents, and unstructured data such as textual documents with no predefined schema or data model. Integrating such heterogeneous data is a crucial steps towards providing a unified and coherent view of the information within a data lake; however, traditional integration approaches still have difficulties when dealing with disparate data and fail at uncovering hidden relations within.
Neural data representations for databases are a novel approach for revealing hidden, latent information within the data using deep learning approaches. Some applications for queries over neural representations of data include fact-checking, table metadata generation, and content prediction in relational tabular data, as well as the discovery of missing links in knowledge graphs. However, neural data representations approaches cannot yet be applied to data lakes since they lack expressiveness to perform complex query and they do not handle large volumes of data efficiently
Sujet :
In this project, we aim to investigate and develop new methods for integrating and querying heterogeneous data within data lakes using deep learning models. This raises the following technical challenges: how to encode the semantics of heterogeneous datasets into the embedding learning process, reconciling datasets with different schemas and with incomplete and noisy data.
Internship goals and tasks:
• Literature review: Conduct a comprehensive literature review to understand existing methods and frameworks starting by the three categories presented above: Neural Tabular Data Representations, Knowledge Graph Embeddings, and Scaling Up Neural Representations of Databases.
• Data collection: Collection of a diverse range of heterogeneous data sources, including structured (e.g., tables) and unstructured data. For structured data, there exists several datasets such as WikiTables-TURL, WDC Web Table Corpus and VizNet. These datasets are used for different tasks such as question answering, semantic parsing, table retrieval, table metadata prediction and table content population.
• Scalable Querying of Neural Data Lakes: executing queries that necessitate the combination of results from these diverse neural data representations. This approach aims to deliver more complete answers, surpassing what can be achieved by querying each model in isolation.
• Comparative evaluation: Design experiments and benchmarks to evaluate the effectiveness of the proposed approach in generating embeddings for querying data lakes. Note that existing benchmarks are specific to certain downstream tasks such as question answering and fact checking for tabular data, and link prediction for knowledge graph; so the challenge of this tasks on designing a benchmark to test the intrinsic capabilities of neural representations of data lakes.
Profil du candidat :
Computer Science
Formation et compétences requises :
The candidate should have excellent experience in algorithmic and programming in Python and advanced knowledge in machine learning and relational and non-relational databases.
Adresse d’emploi :
LIP6, Sorbonne Université. 4 Place Jussieu75005 Paris.
Document attaché : 202312041116_Stage_LIP6_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIRIS Lyon
Durée : 5-6 mois
Contact : beatrice.fuchs@univ-lyon1.fr
Date limite de publication : 2024-03-31
Contexte :
Le travail mené dans le cadre de ce stage s’effectuera au sein du projet ANR MODELI+ et pourra se poursuivre en thèse de doctorat (financement acquis).
Le projet MODELI+ vise la conception pluridisciplinaire d’un outil 3D interactif innovant pour l’apprentissage de l’anatomie, adaptable aux apprenants et ancré dans les Learning Analytics et l’apprentissage instrumenté. Partant d’un constat d’échec important en première année de licence STAPS, MODELI+ vise à améliorer la réussite dans des filières en tension où l’on enseigne l’anatomie.
Il s’agit d’utiliser des outils numériques adaptés aux besoins des apprenants pour améliorer leur apprentissage. Une analyse pluridisciplinaire de leurs activités et de leurs caractéristiques à l’aide de traces sera menée pour comprendre les facteurs de réussite ou d’échec et ainsi assister les formateurs à concevoir des parcours adaptés.
Sujet :
Ce stage vise à étudier/spécifier un premier ensemble d’indicateurs de performance (domaine des Learning Analytics) et à concevoir le modèle de trace nécessaire à leur mise en œuvre et leur évaluation.
Tâches envisagées :
– Réaliser une revue de littérature dans le domaine des Learning Analytics/EDM, indicateurs de prédiction, explicabilité de la performance
– Étudier l’outil 3D interactif existant
– Spécifier un premier ensemble d’indicateurs
– Établir un premier modèle de trace (quels observations, événements à collecter) pour : a) avoir une première représentation de l’activité de l’apprenant ; b) calculer les indicateurs précédemment spécifiés.
– Mettre en œuvre une évaluation du modèle proposé.
Profil du candidat :
Des connaissances en science des données, apprentissage automatique et/ou EIAH seraient appréciées.
Formation et compétences requises :
Le candidat doit suivre actuellement une formation de niveau Master 2 ou ingénieur en informatique (ou équivalent, Bac+5).
Adresse d’emploi :
LIRIS UMR 5205 CNRS
Université Lyon 1
Document attaché : 202312011059_Stage M2R indicateurs de performance pour l’apprentissage de l’anatomie.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Université de Nantes
Durée : 5 à 6 mois
Contact : Patricia.Serrano-Alvarado@univ-nantes.fr
Date limite de publication : 2024-03-31
Contexte :
The context of this work is the CLARA project [CLARABench]1. In this internship, we are interested in analyzing knowledge graphs using deep learning methods. Since their introduction, deep learning models have been at the center of attention. The latest examples are the Large Language Models (LLMs) and in particular the transformer model [Transformer] used by ChatGPT. These models are built for tasks such as chatbots, conversational AIs, or sentiment analysis of texts. However, deep learning models have proven to be very efficient for other tasks, like the Convolutional Neural Networks (CNNs) for image recognition. This efficiency has also been proven for analyzing knowledge graphs with Graph Neural Networks (GNN) [SurveyGNN]. GNN models are particularly efficient for tasks such as link prediction, entity classification, or k-nearest neighbours.
Knowledge graphs represent statements as triples (head, relation, tail). Each triple is a fact stating a relation between two entities. Statements about statements, also called statement-level annotations, are increasingly used. They allow specifying that a statement is true under a particular context. Context can concern temporal aspects, provenance, trust values, scores, weights, etc. RDF reification allows expressing statement-based annotations in a generic way. We believe that current GNN models are not suited for processing annotations. GNN models do not support RDF reification because it may introduce noise that would reduce the quality of the results.
Sujet :
The goal of this internship is to show the limits of existing GNN models in the presence of RDF reification and to propose a new model that efficiently integrates RDF annotations.
You will participate in research work alongside a PhD student in the following tasks:
● Defining and running an experimental protocol. You will conceptualize and run an experimental protocol to put into light the impact of reification on GNN models. This will require the understanding of (a) several models (e.g., R-GCN [RGCN], HypE [HypE], RDF2vec [RDF2vec]), (b) the different reification approaches and their impact on GNN models (standard reification [Standard], n-ary relations [N-ary],
RDF-star [RDF-star]), and (c) how the impact of RDF reification on the GNN models can be measured. The obtained results will be the baseline for the next task.
● Creating a new GNN model. You will help in contributing a GNN model that better integrates RDF reification. The model will be inspired by the message-passing algorithm used in GNNs such as R-GCN and it should be able to adapt to RDF reification. The result of this approach should be compared to the baseline previously obtained.
Profil du candidat :
Knowledge of Machine Learning and Deep Learning.
Good programming skills, in particular in Python.
Formation et compétences requises :
Master or Engineer Student.
Adresse d’emploi :
Université de Nantes
Document attaché : 202312141033_2023-2024 Stage Master 2.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : PRISME (UO) et BRGM Orléans
Durée : 6 mois
Contact : yves.lucas@univ-orleans.fr
Date limite de publication : 2024-03-31
Contexte :
Contexte et Objectifs du stage :
En télédétection, la production intensive de données satellitaires et aériennes multicapteurs et de résolution spatiale croissante (visible, IR, hyperspectral, lidar, radar,topographie, librairies spectrales de matériaux …) donne accès à une observation très fine de la terre qui pourrait notamment être exploitée dans le cadre de la gestion et la
prévention des catastrophes naturelles. En particulier, ces données sont particulièrement intéressantes pour la cartographie sémantique des éléments exposés, qui correspondent aux éléments d’un territoire qui peuvent être affectés par une catastrophe naturelle. Connaître leurs caractéristiques, comme leur géométrie, leur localisation, leur âge etc. est un prérequis indispensable à toute étude d’analyse de risques. Dans un contexte de changement climatique, où les catastrophes naturelles se multiplient, ces données représentent donc un enjeu majeur pour l’actualisation des scénarios de risques utilisés pour protéger un territoire.
Pour autant, l’exploitation des données satellitaires et aériennes représente un véritable challenge à cause de leur volumétrie et de leur forte hétérogénéité. Les techniques de machine learning, qui ont déjà révolutionné le domaine de la Computer Vision, semblent prometteuses pour lever ces contraintes, mais doivent encore être adaptées à la problématique spécifique de l’estimation de la vulnérabilité d’un territoire. Dans ce contexte, l’objectif de ce stage est de préparer l’extraction automatique des caractéristiques des éléments exposés à partir des images aérospatiales. Il s’agira plus précisément de répertorier les sources de données exploitables, de mettre en place un pipeline de collecte et de traitement de ces données gérant de façon automatique le flot entrant de nouvelles données, puis d’expérimenter l’extraction de
quelques caractéristiques pertinentes à partir de modèles d’apprentissage profond issus de l’état de l’art en segmentation sémantique.
Ces travaux, proposés par le laboratoire PRISME de l’Université d’Orléans et le BRGM, s’inscrivent dans le cadre du projet Région Centre Val de Loire CERES – Cartographie et caractérisation des éléments exposés de la région CVL à partir d’images satellites – qui vise à développer la connaissance des éléments exposés de la Région Centre Val de Loire pour la mettre à disposition de l’ensemble des acteurs socioéconomiques régionaux impliqués dans la gestion des risques induits par les catastrophes naturelles.
Sujet :
Programme de travail :
– Sources de données : répertorier les sources de données et d’images disponibles pour la cartographie et leurs modalités d’accès et mettre en place les fonctionnalités nécessaires à l’intégration automatique de nouvelles données dès leur parution.
– Caractérisation des éléments exposés : identifier les caractéristiques spatiales, géométriques, spectrales, documentaires … d’intérêt, exploitables dans les différentes sources de données et pertinentes pour la prévention des risques naturels.
– Traitement des données : évaluer les performances de différentes solutions de calcul en ligne ou locales et expérimenter quelques modèles deep learning avancés de l’état de l’art pour l’extraction de caractéristiques des éléments exposés aux aléas climatiques.
– Rédaction du mémoire de Master 2
Profil du candidat :
étudiant(e) en Master 2 Recherche à dominante informatique
Formation et compétences requises :
Compétences indispensables :
– traitement des images (librairie OpenCV) et analyse de données
– ingénierie informatique pour le déploiement applicatif des modèles deep learning (librairies Python Pytorch, Keras, TensorFlow…)
– intérêt pour le domaine de l’imagerie satellitaire apprécié
– bonne pratique de l’anglais scientifique indispensable
– autonomie, rigueur scientifique et forte motivation pour le sujet
Adresse d’emploi :
Modalités pratiques
Durée du stage : 6 mois max (avril-sept 2024)
Gratification de stage M2
Lieu du stage : BRGM – 3 avenue Claude Guillemin, 45100 Orléans – Bureau et poste de travail informatique.
NB : plusieurs résidences universitaires du campus de la Source à proximité du BRGM. Accès au restaurant BRGM.
Contacts
Yves LUCAS – Axe Images Vision – Laboratoire PRISME Université d’Orléans
yves.lucas@univ-orleans.fr
Cécile GRACIANNE – Département Risques Naturels et Prévention – BRGM Orléans
c.gracianne@brgm.fr
Document attaché : 202401251302_Sujet_Master2_CERES_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIP6
Durée : 4 to 6 months
Contact : lionel.tabourier@lip6.fr
Date limite de publication : 2024-03-31
Contexte :
Understanding the impact of internet anomalous events at internet scale, such as performance degradation, outages, or attacks, is a challenging problem. If techniques and systems have been designed to detect outages at some particular internet facilities, or detect congestion between interdomain links, there exists no internet scale system to monitor events across all autonomous systems (ASes), and thus, we have no clear understanding on the impact of an event on the internet.
The BGP protocol allows ASes to interconnect, so that each AS can reach the prefixes containing the IP addresses of another AS via the routes received with BGP. As most internet events rarely last more than tens of minutes, to capture them, we need to run traceroutes towards each BGP prefix announced by all the ASes very frequently. And in addition to these background measurements, we need to be able to run even more targeted measurements during an event, in order to have a precise understanding of the behavior of the internet paths before and after this event.
Unfortunately, public measurement systems, such as RIPE Atlas and CAIDA Ark do not offer such measurements or the possiblity to run them. They either perform meshed traceroutes between hundreds of sources and destinations at short intervals (15 minutes), or perform traceroutes to one destination per BGP prefix from a hundred of vantage points every day. This is neither sufficient to have an internet scale coverage nor to cover most internet events.
Sujet :
We propose to design this missing measurement system, that will run background traceroutes at high speed every 15 minutes from a few vantage points to one destination in each BGP prefix announced by any AS. When an event is detected, we will run targeted measurements using
propagation algorithms to understand how this event spreads on the internet.
Profil du candidat :
This internship is directed at Master students (preferably Master 2 students) with a background in computer science. Good coding skills are requested for the internship, knowledge of a widely-used language in learning, such as python, is preferable but not mandatory.
Formation et compétences requises :
Background in computer networking, system building, and graph theory are at the heart of the internship, so a background in those areas is an asset, but not mandatory.
Adresse d’emploi :
LIP6, Sorbonne University (4 place Jussieu, 75005, Paris)
Document attaché : 202312201034_Measuring_Event_Impact.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Insitut Fresnel
Durée : 5 mois (Mars à Juill
Contact : andre@fresnel.fr
Date limite de publication : 2024-03-31
Contexte :
Les technologies d’imagerie capables de détecter les processus biologiques précoces in vivo de manière non invasive pour des études longitudinales, avec une haute résolution, représentent un défi pour la recherche biomédicale. Le concept de notre système d’imagerie repose sur un nouveau d’imagerie optique diffuse de fluorescence multicolore pour l’imagerie in vivo du petit animal en trois dimensions (3D) dans la fenêtre NIR-II (1000-2000 nm). La tomographie optique diffuse de fluorescence consiste à injecter au sujet (ici une souris) des substances chimiques qui se fixent sur différents organes. Ces substances chimiques, appelées fluorophores, sont alors excitées par une source lumineuse puis réémettent de la lumière lors de leur relaxation, à plus faible énergie (plus longue longueur d’onde). L’objectif est de reconstruire des images à partir de ce signal de fluorescence. Le signal de fluorescence ainsi que la source d’excitation peuvent être atténués à la fois par l’absorption et la diffusion des différents milieux traversés, ce qui entraîne une distorsion des spectres mesurés. Les méthodes conventionnelles de dé-mélange linéaire permettent de séparer les spectres sans tenir compte de ces effets.
Sujet :
Les algorithmes de dé-mélange multilinéaire [1] ont montré leur efficacité pour la séparation de signaux multidimensionnels issus de la spectroscopie de fluorescence [2]. Ils permettent d’estimer les spectres d’excitation, les spectres d’émission de fluorescence ainsi que les concentrations relatives de plusieurs fluorophores présents dans plusieurs solutions chimiques.
Le but de ce stage est de mettre en œuvre des méthodes de décomposition multilinéaire pour corriger des images tomographiques hyper-spectrales de l’atténuation [3].
[1] T. G. Kolda and B. W. Bader, “Tensor decompositions and applications,” SIAM Review, vol. 51, no. 3, pp. 455–500, 2009.
[2] R. Bro, “Parafac, tutorial and applications,” Chemom. Intel. Lab. Syst., vol. 38, pp. 149–171, 1997.
[3] Hayato Ikoma, Barmak Heshmat, Gordon Wetzstein, and Ramesh Raskar, “Attenuation-corrected fluorescence spectra unmixing for spectroscopy and microscopy,” Opt. Express 22, 19469-19483 (2014)
Profil du candidat :
Le candidat devra être particulièrement à l’aise en programmation (python/Matlab) et avoir une réelle appétence pour les interactions entre l’informatique et la physique.
Formation et compétences requises :
Le candidat recruté devra être en dernière année d’école d’ingénieurs ou en Master 2 dans le domaine des mathématiques appliquées, le traitement du signal/images ou dans une formation équivalente. Il devra être particulièrement à l’aise en programmation (python/Matlab) et avoir une réelle appétence pour les interactions entre l’informatique et la physique.
Adresse d’emploi :
52 Av. Escadrille Normandie Niemen, 13013 Marseille
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS Lab (Rouen)
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2024-03-31
Contexte :
Optimal transport (OT) [1] is a powerful framework to define and compute distances between distributions (a.k.a. Wasserstein or earth mover’s distance), with a tractable computation thanks to the Sinkhorn algorithm, of which an online version has recently been proposed [2]. Beyond, OT allows to exhibit the transport map between the distributions.
In this internship, we envision leveraging the OT theory to design algorithms dealing with out-of-distribution detection in a non-parametric setting that operates over sliding windows on time series. Specifically, we will target in an online manner the localization of abnormal samples.
Sujet :
Even at low rates, detecting and localizing efficiently abnormal situations can be paramount.
The goal of this internship is to spot the abnormal samples from distributions. While computing the discrepancy between distributions with OT may only assess how close these distributions are, a detailed assignment information resides in the transport (coupling) map. The intern will study how the assignment resulting from partial OT, which transports only a given fraction α of the total probability mass [3], can be used in the out-of-distribution and outliers scenarios. Specifically, abnormal samples can be located from the map by relying on the position of the non-transported mass. Thereon, the intern will design statistical tests allowing to estimate the proportion of α of out-of-distribution samples. For that, she/he will investigate randomization for varying values of α. The randomization will be achieved by a bootstrap procedure on the samples of compared sliding windows.
The objectives of the intern are the following:
1- Familiarize with the investigated OT framework
2- Explore OT for anomaly detection on toy data
2- Devise deep-learning framework for real data from well-known benchmarks
3- Evaluate the developed methods on real data from an industrial partner
This internship may lead to a PhD thesis.
Research Environment: This intern will conduct her/his research within the Machine Learning group in the LITIS Lab, under the supervision of Dr. Maxime Berar, Prof. Gilles Gasso, Dr. Fannia Pacheco and Prof. Paul Honeine. This internship will be conducted within a research project gathering 9 permanent researchers of the LITIS Lab and the intern will also interact with several PhD students and interns also working on deep anomaly detection for time series.
References
[1] G. Peyré, M. Cuturi, et al., “Computational optimal transport: With application to data science,” Foundations and Trends® in Machine Learning, 2019.
[2] A. Mensch and G. Peyré, “Online sinkhorn: Optimal transport distances from sample streams,” in NeurIPS 2020.
[3] L. Chapel, M. Z. Alaya, and G. Gasso, “Partial Optimal Transport with Applications on Positive-Unlabeled Learning,” in NeurIPS, 2020.
Profil du candidat :
Student in final year of Master or Engineering School, in applied mathematics, data science, artificial intelligence, or related fields.
Formation et compétences requises :
– Strong skills in advanced statistics and Machine Learning
– Good programming skills in Python
Adresse d’emploi :
Location: LITIS Lab, Université de Rouen Normandie, Saint Etienne du Rouvray (Rouen, France).
Terms: 5 to 6 months, starting in February or March 2024.
Application: Applicants are invited to send their CV and grade transcripts by email to:
maxime.berar@univ-rouen.fr, gilles.gasso@insa-rouen.fr, fannia.pacheco@univ-rouen.fr, paul.honeine@univ-rouen.fr.
Document attaché : 202311301903_Internship – Optimal Transport for Anomaly Detection and Localization.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : GREYC UMR CNRS 6072
Durée : 5/6 mois
Contact : olivier.lezoray@unicaen.fr
Date limite de publication : 2024-03-31
Contexte :
Le lymphome est une pathologie cancéreuse caractérisée par la prolifération de cellules du système lymphatique. Il s’agit en réalité plus « des lymphomes » que « du lymphome » de par la variété des différentes cellules qui peuvent proliférer et des variétés de la gravité des différents lymphomes. Le diagnostic se fait en anatomie et cytologie pathologiques à partir de prélèvements dans le ganglion. A partir de ces prélèvements, on réalise – entre autres – une lame de cytologie par apposition : les cellules du ganglion sont déposées sur une lame de verre et colorées pour en observer les caractéristiques. Or, en dehors de certaines situations évidentes, les cellules de la plupart des différents types de lymphomes ont des caractéristiques morphologiques difficiles à discriminer avec l’œil humain. Il serait donc intéressant d’entrainer un programme d’intelligence artificielle à identifier (ou non) ces caractéristiques à partir d’une banque de lames de cytologie d’empreintes ganglionnaires lymphatiques, dont le diagnostic de lymphome (et de son type) est établi.
Sujet :
La pathologie computationnelle est un domaine en plein essor qui s’avère très prometteur pour amé- liorer l’accès aux soins de santé. En particulier, l’aide au diagnostic a fortement évolué ces dernières années avec l’utilisation d’approches de deep learning. Si ces méthodes permettent d’extraire des caractéristiques plus discriminantes à des fin de diagnostic, elles sont très couteuses en volume de données nécessaire. En effet, cela demande aux pathologistes de réaliser des annotations au niveau pixel de scans de grande taille de lames (au niveau du gigapixel) afin que les modèles puissent effectuer leur apprentissage supervisé. Pour surmonter cette limitation en pathologie digitale, des approches faiblement supervisées sont apparues. Cette fois la lame scannée reçoit une unique annotation avec des caractéristiques provenant des tuiles de la lame scannée. Pour l’apprentissage, les tuiles peuvent toutes hériter du label de la lame ou bien des sacs de tuiles héritent du label (apprentissage à instances multiples). La prédiction médicale se fait alors au niveau de la lame entière : une lame est positive si elle contient au moins une tuile tumorale. Ces approches sont très prometteuses [1] et nous souhaitons les explorer pour l’aide au diagnostic de lames d’empreintes ganglionnaires lymphatiques dans un contexte de suspicion de lymphome.
Profil du candidat :
— Etudiant.e en Master 2 Recherche ou en dernière année d’école d’ingénieur, spécialisé en informatique, image et/ou intelligence artificielle.
Formation et compétences requises :
— Une formation en machine et deep learning est indispensable.
— Des connaissances et expériences en apprentissage profond et programmation (Python, Tensor-
Flow/PyTorch) sont nécessaires.
— Autonomie et curiosité pour la recherche scientifique.
Adresse d’emploi :
Laboratoires : Laboratoire GREYC (UMR CNRS 6072), CHU de Normandie
Encadrants : Marie-Laure Quintyn-Ranty (Praticien Hospitalier CHU Caen Normandie), Olivier Lézoray (PR UNICAEN), Alexis Lechervy (MC UNICAEN).
Stage : Durée de 5-6 mois, à Caen, au Campus 2, ENSICAEN, Bâtiment F.
Document attaché : 202312220817_sujetMasterCHU2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : IRIMAS, équipe MSD. Université de Haute Alsace
Durée : 6 months
Contact : maxime.devanne@uha.fr
Date limite de publication : 2024-04-01
Contexte :
Human motion analysis is crucial for studying people and understanding how they behave, communicate and interact with real world environments. Due to the complex nature of body movements as well as the high cost of motion capture systems, acquisition of human motion is not straightforward and thus constraints data production. Hopefully, recent approaches estimating human poses from videos offer new opportunities to analyze skeleton-based human motion. While skeleton-based human motion analysis has been extensively studied for behavior understanding like action recognition, some efforts are yet to be done for the task of human motion generation. Particularly, the automatic generation of motion sequences is beneficial for rapidly increasing the amount of data and improving Deep Learning-based analysis algorithms. In particular, this is crucial in a medical context like in physical rehabilitation where acquiring data is challenging. Rehabilitation human motions are corresponding to rehabilitation exercises proposed by physiotherapists.
Unlike classification tasks, the targeted task in human rehabilitation assessment is often a regression problem, where given a motion sequence, the goal is to predict the associated performance score given by physiotherapists.
Since several years, human motion generation paradigms have been possible thanks to the appearance of Generative Adversarial Networks (GAN), Variational AutoEncoder (VAE) or Diffusion models. While most of these works have considered motion capture (mocap) data, we consider noisy skeleton data estimated from videos as it is easily applicable in real-world scenarios for the general public.
Sujet :
The goal of this internship is to investigate deep generative models for skeleton-based human motion sequences with a particular focus on rehabilitation data. Inspiring from recent effective Deep Learning-based approaches, the aim is to generate full skeleton-based rehabilitation motion sequences. It is therefore crucial to investigate how deep generative models can handle such noisy and possibly incomplete data in order to generate novel rehabilitation motion sequences as natural and variable as possible.
In particular, the candidate will work on the following tasks:
-Deep generative models adapted to rehabilitation data: based on studies from existing works, the goal is to build generative models for rehabilitation sequences. Therefore, the candidate will investigate different generative models, like GAN, VAE and Diffusion models, in order to propose and develop a complete Deep Learning model for generating skeleton-based human motions. These models will be trained using publicly available datasets such as the Kimore dataset.
-Evaluation of deep generative models: in order to validate the proposed model, experimental evaluation is crucial. In comparison to motion recognition where classification accuracy is a natural way to assess an approach, evaluating the task of motion generation is not as straightforward. Dedicated metrics evaluating both naturalness and diversity of generated sequences as well as the impact of new generated sequences in a classification task will be considered.
-Text to rehabilitation motion: The generated models will be then adapted to take as input text sequences corresponding to rehabilitation exercises’ descriptions. This will be particularly useful to create new rehabilitation exercises.
Profil du candidat :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated
Formation et compétences requises :
The candidate must fit the following requirements:
– Registered in Master 2 or last year of Engineering School (or equivalent) in Computer Science
– Advanced skills in Python programming are mandatory
– Good skills in Machine Learning & Deep Learning using related libraries (scikit-learn, Tensorflow, Pytorch, etc.) are required
– Knowledge and/or a first experience in human motion analysis will be appreciated
Adresse d’emploi :
ENSISA, Université de Haute Alsace
12 rue des frères Lumière
68093 Mulhouse, France
Document attaché : 202310050750_internship_position_delegation_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LITIS Lab, Rouen
Durée : 5 to 6 months
Contact : paul.honeine@univ-rouen.fr
Date limite de publication : 2024-04-01
Contexte :
Safe and trustworthy Artificial Intelligence (AI) is central in the deployment of any AI system in major application areas, such as medicine and autonomous vehicles. Its major keystone requirements in Machine Learning (ML) have been recently investigated by researchers of the ML group in the LITIS Lab, including robustness, explainability and fairness. The current internship aims to address anomaly detection with explainable models/results, which is a major ingredient of robust ML for Safe and trustworthy AI.
Sujet :
The broad interest in deep neural networks has driven recent advances in anomaly detection, also called out-of-distribution or novelty detection. Deep anomaly detection methods fall within three major categories: Deep one-class, variational autoencoders (VAEs) and generative adversarial networks (GANs) [1, 2]. While VAEs and GANs do not allow an exact evaluation of the probability density of new samples, they also suffer from notorious training instability (mode collapse, posterior collapse, vanishing gradients and non-convergence), as corroborated by many research studies [3]. For these reasons, we will investigate Normalizing Flows (NF), an emerging class of generative models where both sampling and density evaluation are efficient and exact, and where the latent representation is learned through an invertible transformation [4]. NF provide explainable models, are interconnected with Optimal Transport and have solid foundations for probabilistic modeling and statistical inference [5].
The goal of this internship is to explore Normalizing Flows for anomaly detection on time series. While NF have been previously explored with success for anomaly detection in images, they were seldom investigated for time series. The tasks to be carried out by the intern are as follows: The intern will first study relevant work on NF for anomaly detection, and then revisit them in the light of time series. She/he will explore two contexts: detection from a batch of time series data, and online detection on streaming data. For the latter, a particular attention will be paid to sequential detection. The intern will implement the different NF-based models and conduct experiments on real time series.
This internship may lead to a PhD thesis.
Research Environment: The intern will conduct her/his research within the Machine Learning group in the LITIS Lab, under the supervision of Prof. Paul Honeine. This internship is within a research project gathering 9 permanent researchers of the LITIS Lab and the intern will also interact with several PhD students and interns also working on deep anomaly detection for time series.
References
[1] L. Ruff, J. R. Kauffmann, R. A. Vandermeulen, G. Montavon, W. Samek, M. Kloft, T. G. Dietterich, and K.-R. Müller, “A Unifying Review of Deep and Shallow Anomaly Detection,” Proceedings of the IEEE, vol. 109, no. 5, pp. 756–795, 2021.
[2] G. Pang, C. Shen, L. Cao, and A. V. D. Hengel, “Deep learning for anomaly detection: A review,” ACM Computing Surveys, vol. 54, no. 2, pp. 1–38, 2021.
[3] D. Saxena and J. Cao, “Generative adversarial networks (GANs) challenges, solutions, and future directions,” ACM Computing Surveys, vol. 54, no. 3, pp. 1–42, 2021.
[4] I. Kobyzev, S. J. Prince, and M. A. Brubaker, “Normalizing Flows: An Introduction and Review of Current Methods,” IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 43, no. 11, pp. 3964–3979, 2021.
[5] G. Papamakarios, E. Nalisnick, D. J. Rezende, S. Mohamed, and B. Lakshminarayanan, “Normalizing Flows for Probabilistic Modeling and Inference,” Journal of Machine Learning Research, vol. 22, no. 57, pp. 1–64, 2021.
Profil du candidat :
– Student in final year of Master or Engineering School, in data science, artificial intelligence, applied mathematics, or related fields.
Formation et compétences requises :
– Strong skills in advanced statistics and Machine Learning, including Deep Learning
– Good programming experience in Python
Adresse d’emploi :
LITIS Lab, University of Rouen Normandy, Saint Etienne du Rouvray (Rouen, France).
Applicants are invited to send their CV and grade transcripts by email to paul.honeine@univ-rouen.fr.
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Groupe de Physique des Matériaux (GPM), en collab
Durée : 6 mois
Contact : christian.bacchi1@univ-rouen.fr
Date limite de publication : 2024-04-01
Contexte :
Le Groupe de Physique des Matériaux est une Unité Mixte de Recherche entre l’Université deRouen Normandie, l’INSA de Rouen Normandie et le CNRS. Nos activités scientifiques sont centrées sur l’étude des matériaux, et en particulier sur les relations entre leurs propriétés physiques et structurales. Grâce à une plateforme instrumentale de premier rang mondial, les analyses sont réalisées à toutes les échelles, jusqu’à la résolution atomique. Nous bénéficions par ailleurs d’une reconnaissance internationale pour notre expertise en instrumentation scientifique dédiée aux techniques d’analyse innovantes. Le GPM a de nombreux partenaires industriels et académiques, y compris à l’international.
Sujet :
La SAT est un outil d’analyse qui permet de déterminer la structure et la composition locale de matériaux à l’échelle atomique. L’utilisation de cet outil d’analyse ne cesse de se démocratiser, depuis sa première commercialisation dans les années 1990, et a permis de contribuer à la résolution d’un grand nombre de problèmes en science des matériaux. Néanmoins, la technologie actuelle des systèmes de détection de SAT, associée à ses algorithmes de traitement de données, ne permet pas de réaliser des analyses quantitatives et/ou qualitatives dans toutes les situations (erreurs de localisation, pertes sélectives, rendement de détection insuffisant…). À ce jour, aucune métrique ne permet de contrôler et/ou résoudre l’ensemble de ces biais pour le large spectre de matériaux à analyser sur cet instrument.
L’utilisation d’algorithmes de Machine Learning, en apprentissage supervisé ou non-supervisé, permet aujourd’hui de réduire des incertitudes liées à l’utilisation de certains dispositifs scientifiques avec très peu de connaissances sur les lois physiques sous-jacentes [1, 2]. En prenant exemple sur ces algorithmes existants, il pourrait être envisageable d’améliorer la qualité des analyses en SAT et d’obtenir des critères de performances qui assureront la voie vers une démocratisation à plus grande échelle de cet instrument. Pour aborder ces problématiques, ce sujet de stage a pour objectif, dans un premier temps, de développer un ou plusieurs modèles d’apprentissage qui serviront à prédire la position et la nature chimique des atomes détectés en SAT. Dans une première partie, ce/ces premiers modèles devront être généré à partir de données simulées de SAT, puis pourront être testés sur des données expérimentales provenant d’une SAT réelle.
[1] Wei, Ye, et al. “Machine-learning-enhanced time-of-flight mass spectrometry analysis.” Patterns 2.2 (2021).
[2] Broderick, Scott R., et al. “Data mining for isotope discrimination in atom probe tomography.” Ultramicroscopy 132 (2013): 121-128.
Profil du candidat :
Le candidat recherché doit préparer un diplôme de niveau BAC+5 (Master 2 ou École d’ingénieur) dans le domaine des sciences des données (data science), de la physique numérique ou des mathématiques appliquées. Des connaissances en sciences des matériaux seraient appréciés.
Vous êtes passionné par la recherche scientifique et technologique. Vous êtes organisé et êtes reconnu pour votre rigueur et votre capacité à travailler en équipe. Vous possédez des compétences et un goût pour la programmation (Python, C/C++, Matlab). Vous avez des connaissances en statistiques, en physique et idéalement en machine learning.
Formation et compétences requises :
–
Adresse d’emploi :
Lieu : Groupe de Physique des Matériaux (GPM), Avenue de l’Université, 76800 Saint-Étienne-du-Rouvray
Poursuite possible en thèse : Oui (Financement prévu pour octobre 2024)
Démarrage : Février 2024
Document attaché : 202311151648_Stage M2 – GPM.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR TETIS
Durée : 6 mois
Contact : dino.ienco@inrae.fr
Date limite de publication : 2024-04-01
Contexte :
In the frame of a collaboration between the engineering consultancy firm ECO-MED (https://ecomed.fr/) and the Joint Research lab TETIS (https://umr-tetis.fr), we are looking for a master intern with the aim of assessing the potential of deep learning methods from the field of computer vision and AI to support ecological habitat mapping from very high resolution (airborne) imagery.
To this end, the engineering consultancy firm ECO-MED has constituted a large dataset containing both airborne imagery and manual expert annotation of ecological habitat mapping following the hierarchical nomenclature proposed in the EUNIS standard https://inpn.mnhn.fr/habitat/cd_typo/7.
This rich and extensively annotated dataset will be shared with the researchers from the Joint Research Unit TETIS, enabling them to conduct,in conjunction with the master intern, several studies to assess and quantify the capabilities of neural network-based semantic segmentation methods to detect fine-grained habitat mapping on the available very high resolution (airborne) imagery.
https://nextcloud.inrae.fr/s/iNfEiNrwTSzpnZ5
Sujet :
The research internship will have the following objectives:
– Conduct a literature review on Semantic Segmentation methodologies for habitat mapping from very high spatial resolution imagery;
– Explore and perform analytics on the ECO-MED dataset;
– Perform initial Semantic Segmentation tests on the data provided by ECO-MED with state of the art approaches (CNN / ViT);
– Adapt and customize state of the art Semantic Segmentation approaches to deal with the ECO-MED dataset. Possible research paths that will be explored are: i) hierarchical semantic segmentation or ii) semantic segmentation with sparse data;
– Quantitative and qualitative evaluation of the proposed method compared to state-of-the-art competitors;
– Preparation of the internship report.
Profil du candidat :
Computer Science
Computer Vision
Deep Learning
Formation et compétences requises :
Computer Science
Computer Vision
Deep Learning
Adresse d’emploi :
500, rue Jean François Breton
34090 Montpellier
France
Document attaché : 202311151041_Short_internship_proposal (1).pdf
Offre en lien avec l’Action/le Réseau : SimpleText/– — –
Laboratoire/Entreprise : TETIS
Durée : 6 mois
Contact : maguelonne.teisseire@inrae.fr
Date limite de publication : 2024-04-01
Contexte :
Le stage s’inscrit dans le cadre d’activités interdisciplinaires de l’UMR TETIS concernant l’anticipation et le suivi des risques liés à la sécurité alimentaire. Les activités de recherche de l’UMR sur cette
thématique sont centrées sur le cas de l’Afrique de l’Ouest, où les risques agricoles sont d’autant plus aigus que les services nationaux de surveillance et de suivi peuvent être défaillants faute de moyens
techniques et financiers.
Sujet :
Une offre de stage pour contribuer à une approche novatrice visant à anticiper et suivre les crises alimentaires en Afrique de l’Ouest en utilisant des techniques avancées d’apprentissage automatique. Vous serez chargé de créer un corpus annoté spécialisé et de proposer des méthodes visant à identifier les éléments déclencheurs de crises alimentaires et leurs aspects spatio-temporels à partir de données textuelles journalistiques. En collaborant sur ce projet interdisciplinaire, vous contribuerez de manière significative à l’apport de l’intelligence artificielle au suivi de la sécurité alimentaire.
Le stage se déroulera sur une période de 6 mois, à compter de février 2024 au sein de l’UMR TETIS, à la Maison de la Télédétection (Montpellier).
Profil du candidat :
Le/la stagiaire aura un profil en informatique avec des connaissances en traitement automatique de la langue et/ou apprentissage automatique, avec un intérêt pour le travail interdisciplinaire. Une expérience dans le langage de programmation Python est un plus.
Formation et compétences requises :
M2 Sciences des données, TALN, Info
Adresse d’emploi :
https://nubes.teledetection.fr/index.php/s/HtXiDfBWzEEFsfp
Document attaché : 202310050829_stage_digitag_2024.pdf
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIFAT – Université de Tours
Durée : 5/6 mois
Contact : jyramel@univ-tours.fr
Date limite de publication : 2024-04-01
Contexte :
Titre du stage : SILA-3D : Segmentation Incrémentale, Locale, Anatomique d’images cérébrales 3D
Organismes d’accueil
• Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours
• Equipe Neuroéthologie et cognition sociale (NECOS), INRAE Centre Val de Loire, Nouzilly
Encadrement
● Jean-Yves Ramel, Mostafa Darwiche – LIFAT Université de Tours
● Antoine Bourlier – LIFAT / INRAE NECOS
● Elodie Chaillou – INRAE NECOS
● Barthélémy Serres – ILIAD3
Plus d’infos : https://lifat.univ-tours.fr/medias/fichier/stagesila3d_1700035984157-pdf
Sujet :
L’essor de méthodes d’imagerie cérébrale génère une masse considérable de données morphologiques et fonctionnelles mais leur exploration puis leur comparaison au cours du temps pour un individu (développement et vieillissement), entre individus (variabilité au sein de l’espèce), et plus encore entre espèces différentes restent pour l’instant très partielles et limitées. Cette limite provient du fait que l’analyse et la comparaison de cerveaux nécessitent une segmentation des images 3D en structures anatomiques sous jacentes qui reste, pour l’instant, une étape très chronophage lorsqu’elle est réalisée manuellement.
Pour pallier à ce problème notre consortium pluridisciplinaire réunissant des chercheurs informatique (LIFAT, ILIAD3), en neuroanatomie (INSERM) et en biologie animale (INRAE) travaille depuis plusieurs années sur SILA3D, une plateforme logicielle, en accès libre permettant de réaliser une segmentation sémantique incrémentale, locale, anatomique des images en assistant l’utilisateur grâce à une approche interactive et à des algorithmes de machine learning.
Dans ce contexte, le stage proposé vise à poursuivre le développement de cette plateforme . Il s’agira donc de :
– Prendre en main l’existant (technologies, librairies : ITK, docker, …) assez conséquent
– Améliorer les interfaces du client SILA3D basé sur 3D-SLICER
– Améliorer les algorithmes de segmentation exploités par SILA3D coté serveur en intégrant des techniques de deep learning (en python)
– Evaluer les performances des algorithmes de segmentation et la qualité des interfaces au travers d’expérimentations et de discussions menées en collaboration avec les experts du domaine
Profil du candidat :
Stage Niveau Bac + 5 en informatique (Master ou ingénieurs)
Formation et compétences requises :
Profil du candidat :
• Le candidat souhaité est un étudiant en Master ou dernières années d’une formation d’ingénieur en Informatique
• Compétences souhaitées : Analyse d’images médicales et/ou 3D, programmation C++, Des connaissances en Docker, Python et Deep Learning seront un plus.
Adresse d’emploi :
Quand ? Où ? Combien ? Comment ?
Le stage se déroulera entre février et septembre 2024. Le stage sera rétribué à hauteur de l’indemnité légale des stages (environ 580€/mois). La durée du stage est limitée à 5 mois
Le stage aura lieu au Laboratoire d’Informatique Fondamentale et Appliquees de Tours (LIFAT, http://lifat.univ-tours.fr )
Veuillez soumettre votre CV en format pdf à JY Ramel (LIFAT): ramel@univ-tours.fr
Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LIMOS at Institut Henri Fayol, Mines Saint-Étienne
Durée : 5 to 6 months
Contact : antoine.zimmermann@emse.fr
Date limite de publication : 2024-04-01
Contexte :
Physical quantities form an important part of what is represented in scientific data, medical data, industry data, open data, and to some extent, various private data.
Whether it is distances, speeds, payloads in transportation, concentrations, masses, moles in chemistry, powers, intensities, voltages in the energy sector, dimensions of furniture, weights, heights of people, durations, and many others in health, there is a need to represent physical quantities, to store them, to process them, and to exchange them between information systems, potentially on a global scale, often on the Internet and via the Web.
Sujet :
In this internship, we seek to precisely define a way to unambiguously represent physical quantities for the Web of Data. More precisely, we will study the proposals made to encode physical quantities in the standard data model of the Semantic Web, RDF. We will be particularly interested in the use of a data type dedicated to this encoding, probably adapted from the proposal of Lefrançois & Zimmermann (2018) based on the UCUM standard.
Having established a rigorous definition of the data type (possibly its variants, if relevant), we will focus on implementing a module that can read/write and process physical quantities and their operations within the RDF data manipulation APIs, for the management, querying and reasoning with knowledge graphs containing physical quantities.
The ambition is that, on the one hand, the specification will become in a few years a de facto standard, before perhaps becoming a de jure standard; and that, on the other hand, the implementation will be the reference allowing to compare the compliance levels of other future implementations.
This study should lead to the publication of a scientific paper in a high impact scientific journal.
References
1. Maxime Lefrançois and Antoine Zimmermann (2018). The Unified Code for Units of Measure in RDF: cdt:ucum and other UCUM Datatypes. In The Semantic Web: ESWC 2018 Satellite Events – ESWC 2018 Satellite Events, Heraklion, Crete, Greece, June 3-7, 2018, Revised Selected Papers, volume 11155 of the Lecture Notes in Computer Science, pp196–201, Springer.
2. Gunther Shadow and Clement J. McDonald. The Unified Code for Units of Measure. Technical report, Regenstrief Institute, Inc, November 21 2017.
Complete description available at https://www.emse.fr/~zimmermann/Teaching/SemWeb/Internship/
Profil du candidat :
Interested in the definition of specifications and their implementation.
Interested in research activities.
Formation et compétences requises :
Master 2 in computer science
Knowledge of Semantic Web technologies
Java programming
Preferably good writing skills
Adresse d’emploi :
École des mines de Saint-Étienne, bâtiment espace Fauriel, 29 rue Ponchardier, Saint-Étienne. https://www.openstreetmap.org/node/2794933485
