Présentation Générale

 



           
Huitième édition du Symposium MaDICS

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

  • Soumission de posters : au plus tard le 23 mars 2026
  • Retour : 9 avril 2026
  • Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…


Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.


Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

  • Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
    Pour en savoir plus…
  • Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
    Pour en savoir plus…
  • Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
    Pour en savoir plus…
  • Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…


Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS  


Feb
1
Tue
2022
Stage M2/Ingénieur : Explicabilité des réseaux profonds au moyen d’approches symboliques
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ICube / Université de Strasbourg
Durée : 5 à 6 mois
Contact : stella@unistra.fr
Date limite de publication : 2022-02-01

Contexte :
Les systèmes autonomes intelligents dits à “boîte noire”, qui reposent sur des algorithmes d’apprentissage comme les réseaux de neurones profonds, deviennent omniprésents dans notre paysage quotidien. L’exigence d’un meilleur encadrement de ces algorithmes devient un enjeu sociétal, et requiert le développement de techniques permettant de comprendre leur fonctionnement ou d’expliquer leurs décisions. Ce stage s’inscrit dans le cadre du projet DEEPISH (Deep lEarning ExPlainabilIty through Symbolic approacHes), qui a pour objectif de proposer un modèle reposant sur des techniques de raisonnement symbolique (graphes de connaissances et règles), permettant d’expliquer les décisions de systèmes basés sur un apprentissage profond. Le domaine d’application considéré est le diagnostic médical.
Différentes approches ont été proposées pour développer l’explicabilité des modèles profonds. Parmi les plus populaires, on trouve les techniques de visualisation permettant d’identifier, dans le cadre de la reconnaissance d’objets dans des images, les portions de celles-ci ayant permis au modèle de faire sa prédiction (Wang et al., 2020). Bien qu’intéressants, ces modèles sont limités lorsque les objets recherchés sur l’image sont trop complexes pour être appréciés à l’œil nu par des experts humains, par exemple dans le cas de détection de lésions subtiles dans des mammographies (Oren et al., 2020).
Nous envisageons une approche multi-modale qui permettrait d’identifier les facteurs de confusion dans les données. En effet, dans le domaine médical, de nombreuses sources de données peuvent apporter des éléments permettant d’appuyer ou de rejeter un diagnostic : rapports textuels, bilans sanguins, données génétiques, etc. On peut alors concevoir un système, qui, lorsqu’une lésion non détectable par un expert humain est caractérisée, pourrait fournir d’autres éléments factuels appuyant sa prédiction : si le patient est une femme et que la patiente possède le marqueur génétique xxx alors il est probable à n% qu’un traitement soit nécessaire.

Sujet :
Il sera d’abord nécessaire, pour alimenter le système de raisonnement, de commencer par construire des graphes de connaissances à partir de données textuelles issues des données multi-modales (coupes histologiques et rapports histologiques) disponibles, afin d’en extraire des concepts qui seront utilisés par le système de raisonnement. L’extraction d’informations à partir de textes nécessite d’extraire des triplets comprenant un sujet, une relation et un objet (Hohenecker et al., 2020, Solawetz & Larson, 2021). Ces graphes de connaissances seront ensuite enrichis par des connaissances extraites automatiquement à partir d’articles scientifiques disponibles dans le domaine public.
On pourra ensuite considérer que le modèle profond utilisé n’aura pas d’autre utilité que d’extraire des faits à partir de données complexes (ce qu’aucun système à base de règle n’est capable de faire), qui viendront compléter la connaissance organisée extraite des données textuelles. Ainsi, dans un deuxième temps, il faudra étudier différents types d’approches permettant de générer des règles logiques de façon autonome, comme les approches neuro- symboliques (Garcez et al., 2019 ; Ciravegna et al., 2021), ou les systèmes de classeurs (Learning Classifier Systems) (Orhand et al., 2021).

Références

Ciravegna, G., Barbiero, P., Giannini, F., Gori, M., Lió, P., Maggini, M., & Melacci, S. (2021). Logic Explained Networks. arXiv preprint arXiv:2108.05149.

Garcez, A. D. A., Gori, M., Lamb, L. C., Serafini, L., Spranger, M., & Tran, S. N. (2019). Neural- symbolic computing: An effective methodology for principled integration of machine learning and reasoning. arXiv preprint arXiv:1905.06088.

Hohenecker, P., Mtumbuka, F., Kocijan, V., & Lukasiewicz, T. (2020). Systematic Comparison of Neural Architectures and Training Approaches for Open Information Extraction. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 8554‐8565.

Oren, O, Gersh, B. J. and Bhatt, D. L., “Artificial intelligence in medical imaging: switching from radiographic pathological data to clinically meaningful endpoints,” The Lancet Digital Health, vol. 2, no. 9, pp. e486–e488, Sep. 2020, doi: 10.1016/S2589-7500(20)30160-6.

Orhand, R., Jeannin-Girardon, A., Parrend, P. and, Collet, P., “Explainability and Performance of Anticipatory Learning Classifier Systems in Non-Deterministic Environments”, Genetic and Evolutionary Computation Conference (GECCO), Lille, France, juillet 2021

Solawetz, J., & Larson, S. (2021). LSOIE  : A Large-Scale Dataset for Supervised Open Information Extraction. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 2595‐2600.

Wang et al., “Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2020

Profil du candidat :
Le stage requiert un réel intérêt pour les méthodes d’intelligence artificielle :
– IA symbolique : modélisation de connaissances et raisonnement logique (graphes de connaissances et règles),
– apprentissage machine et réseaux de neurones profonds.

Formation et compétences requises :
L’étudiant·e en M2 informatique ou de niveau équivalent, devra avoir une spécialisation en intelligence artificielle (“deep learning”, modélisation de connaissances, raisonnement symbolique).
Il ou elle devra maîtriser le langage Python, être capable de manipuler des bibliothèques de TAL (spaCy, stanza, flair), et des réseaux de neurones profonds, afin d’être autonome pour l’implémentation.

Adresse d’emploi :
Laboratoire ICube / Université de Strasbourg
Lieu : Pole API (illkirch)

Document attaché : 202112021138_sujet stage M2 2022.pdf

Temporal phenotyping of patients from EHR data based on tensor decomposition
Feb 1 – Feb 2 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : Inria Lyon
Durée : 4 – 6 mois
Contact : thomas.guyet@inria.fr
Date limite de publication : 2022-02-01

Contexte :
**Supervising environment**

The project is proposed to contribute to the chair AI-RACLES funded by Inria-APHP-CS. Inria is the French national institute for digital science. APHP is the greater Paris university Hospital. And Central Supelec (CS) is a prestigious engineering school. AI-RACLES aims at developing artificial intelligence techniques to better exploit the APHP data lake to improve healthcare system and practices, especially for fragile patients.

The internship is proposed by two chair holders of AI-RACLES (Thomas Guyet and Pr. Etienne Audureau) and it will be supervised by:
* Thomas Guyet, Inria, Lyon thomas.guyet@inria.fr
* Pr. Etienne Audureau, APHP/UPEC, CEpiA (Clinical Epidemiology and Ageing), CHU Henri Mondor, etienne.audureau@aphp.fr
* Romain Tavenard, Univ. Rennes/LETG, romain.tavenard@univ-rennes2.fr

There will be opportunities for a funded PhD position after the internship.

**Context**

The APHP data lake is a huge Electronic Health Records (EHR) repository of the patients being admitted in one of the hospitals located in the greatest Paris. The database contains information about patient visits, including the care and drugs delivered along each of their visit (with their timestamps). For example, the APHP identified a cohort of more than 20,000 patients hospitalized during the Covid-19 crisis. A dataset was thus created from information on their condition and the care they received. This information constitutes their care pathway.

The main objective of the chair AI-RACLES is to develop new artificial intelligence techniques to analyze this data lake in order to address health questions. The context of this internship is to investigate how to support the evaluation of health care pathways. The notion of health care pathways denotes the sequence of cares of a patient being cured for a given disease. Quality assessment aims to identify the key characteristics of pathways which may likely leads to a positive outcome for the patient. For example, in the case of the Covid-19 crisis, it is interesting to identify the care strategies that would prevent patients from requiring intensive cares.

The first step to achieve this objective is to describe the actual care pathways. The APHP data lake gives us the opportunity to describe objectively the care pathways of patients from historical data. This internship aims to contribute to identifying the care pathways through the unsupervised or semi-supervised machine learning techniques.

Sujet :
The proposed research direction is the use of a powerful unsupervised machine learning technique called tensor factorization (or tensor decomposition).

In the context of EHR data analysis, tensor is seen as a three-dimensional tensor whose dimensions are the patient identifier, the time and the medical events (procedures, labtests, drugs delivered. The decomposition of two dimensional tensors allow the identification of typical patient profiles (the medical events per patients), which are called phenotypes. A care pathway is then represented by the sequence of the phenotypes.

The problem of tensor decomposition is an old statistical problem for which statistical approaches have been proposed since the early years of the past century. But in recent years, this problem is renewed on the light of machine learning, and neural networks. Several recent neural networks architecture have been proposed. They proved the feasibility of the approach to decompose efficiently large and complex tensors. In parallel, the interest of phenotyping from EHR data has also been highlighted in the biomedical literature.

In this internship, we would like to investigate the notion of temporal phenotypes, and temporal phenotyping. Contrary to a phenotype that gives a combination of medical events at one time instant, a temporal phenotype describes a temporal arrangement of medical events. It is thus more expressive and may be useful to identify short-term procedures that make the care pathways.

A similar objective is targeted by Emonet et al. with Temporal Analysis of Motif Mixtures (TAMM). The problem of identifying temporal phenotypes (topic models) is addressed by a non-parametric Bayesian model fitted using Gibbs sampling. One of the limitation of the proposal is the slowness and resources consumption of the solving technique, and a rigid model (modifying the model requires deriving a new sampler).

A starting point of the internship will be to adapt the model of TAMM to solve it using machine learning techniques and to evaluate it (from the efficiency and accuracy points of view). Then, the implemented model will be applied to extract temporal patient phenotypes from the APHP Covid-19 cohort data and contribute to 1) describing Covid-19 patients, possibly by criticality group, and 2) describing hospitalizations by conditions (comparison of new and historical ICUs). A secondary objective is to investigate the possibility of using these models to create discriminant temporal phenotypes, i.e. phenotypes that would occur more likely in a group of patients than in the others.

Profil du candidat :
* You are enthusiastic about research, you love to understand in depth the problems and to find them elegant solutions.
* You have an strong background in math and computer science (Python for machine learning environment).
* You are interested in artificial intelligence and, more precisely, in machine learning, optimization techniques, data analysis, …
* You have interest in the field of health and to contribute to the development of solutions that may help clinicians or epidemiologists.
* You speak and write English and/or French.

Formation et compétences requises :
* You are student in a Master 2 in computer science, data science or statistics, or student in a engineering school.

Adresse d’emploi :
* Location: Lyon (or possibly Paris). The intern will be hosted at Inria Lyon located on the Doua scientific campus, at Villeurbanne. Some meeting will be organized in Paris.
* Data access is secured
* application by mail with CV, motivation letter, transcripts
* Start date between february to may (4 to 6 months)

Document attaché : 202111151133_sujet_APHP.pdf

Feb
2
Wed
2022
A multi-omic Knowledge Graph targeting inflammatory bowel disease (IBD) biomarker discovery
Feb 2 – Feb 3 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Plateforme de bioinformatique BiRD (Institut du Th
Durée : 6 mois
Contact : alban.gaignard@univ-nantes.fr
Date limite de publication : 2022-02-02

Contexte :
Inflammatory Bowel Diseases (IBDs) are multifactorial chronic conditions of the gastrointestinal tract, of which the most common are Crohn’s disease (CD) and Ulcerative Colitis (UC). These disorders are notably associated with the environment, the patient’s genetics and its gut microbiota [1]. The microbiota is known to play an important role in host’s health by protecting them from pathogens [2], helping digest and absorb nutrients [3], and shaping the immune system [4]. Although a core group of essential bacteria is shared across individuals [5], the gut microbiota contains individual-specific strains stable over time, which makes it harder to identify bacteria linked to the host, the environment, or a given pathology.
Today, various ’omics’ technologies are available to measure molecules at all levels of cellular organisation in complex microbial communities. DNA sequences can be determined (metagenomics), transcripts levels can be measured (metatranscriptomics), metabolites can be detected (metametabolomics), and proteins can be catalogued and quantified (metaproteomics). Computational biology advances enabling the description of environmental genomes and their expression in situ have accompanied these new technologies [6]. The field of environmental omics (or meta-omics) has drastically expanded our knowledge about microbial communities [7], prompting a change of paradigm in which not a single species is considered but rather a complete microbial community. The importance of ecological interactions among microorganisms is also now recognized, and they need to be included in a global framework to further develop models of community eco-systems functioning [8].

Sujet :
*Challenges*
Multi-omics technologies in gut microbiome research provide a global view of changes in genetic, metabolic and biochemical processes, and have recently been applied to the gut microbiota in the context of IBD [9]. These data have provided a first comprehensive view of functional dysbiosis in the gut microbiome during IBD activity and first steps towards a functional understanding of host–microbe interactions during disease pathogenesis. However, major challenges remain to systematically integrate microbial, biochemical, and host factors in order to identify systems-level biomarkers, from genes to communities, of IBD onset and progression.

*Objectives *
The aim of this project is i) to develop a workflow for the graph-based transformation and integration of meta-omics data (metagenomic and metatranscriptomic), and ii) feed an integrated knowledge graph connecting longitudinal genomic observations as well as phenotypes and environmental context. Through a catalogue of semantic queries, this knowledge graph will empower biologists to more easily assemble genome co-activity networks towards identifying novel systems-level (from genes to communities) IBD biomarkers and patient stratification strategies.

Profil du candidat :
We are looking for an enthusiastic bioinformatician or data scientist, with excellent programming skills, and real interest in Life Science applications.

Formation et compétences requises :
M2 in bioinformatics, computer or data sciences

Adresse d’emploi :
The recruited data scientist will work in the context of an interdisciplinary collaboration, involving health, computational research teams and the Bioinformatics core facility, under the supervision of Audrey Bihouée (Engineer at BiRD facility), Samuel Chaffron (CNRS Researcher at LS2N) and Alban Gaignard (CNRS Research Engineer at Institut du Thorax). The developments resulting from this internship will constitute a framework for a generalisation of the model to other pathologies.

Document attaché : 202201121643_Stage M2 – IBD – KG.pdf

Sécurisation des analyses en ligne d’entrepôts de données partagés – Cryptographie
Feb 2 – Feb 3 all-day

Offre en lien avec l’Action/le Réseau : DOING/– — –

Laboratoire/Entreprise : ERIC Lyon
Durée : 5-6 mois
Contact : jerome.darmont@univ-lyon2.fr
Date limite de publication : 2022-02-02

Contexte :
Ce stage se déroulera dans le cadre de l’ANR BI4people ( https://eric.univ-lyon2.fr/bi4people/ ). L’utilisation des technologies de la Business Intelligence (BI) telles que les entrepôts de données et les techniques d’analyses en ligne (OLAP) restent complexes et réservées à des spécialistes. L’objet de cette ANR est de simplifier ces outils afin de les rendre accessible au plus grand nombre (petites entreprises, associations, etc.).

Sujet :
Dans ce contexte, il est important de permettre aux utilisateurs de pouvoir partager leurs données et leurs analyses. Ces aspects collaboratifs induisent des problèmes de confidentialité de données. Plus généralement, on peut considérer des scenarios où la confidentialité des données ou des requêtes doit être garantie. On pourrait également imaginer que des utilisateurs agissent de manière malveillante afin d’altérer les calculs et de compromettre le résultat des requêtes.

Quelques solutions sont proposées dans la littérature [1, 2]. Les plus abouties en termes de sécurité sont basées sur des primitives cryptographiques récentes, appelées FHE (Fully Homomorphic Encryption). Ces solutions n’ont à ce jour qu’un intérêt théorique, puisque les FHE existantes ne sont pas encore suffisamment performantes [3]. Pour obtenir des solutions utilisables en pratique, il est donc nécessaire de dégrader la sécurité ou le type de requêtes prises en charge. Des hypothèses sur les utilisateur·trices peuvent aussi être introduites, comme par exemple la proportion d’utilisateurs malveillants, le fait qu’ils soient coalisés ou non, etc.

L’objectif de ce stage est d’explorer, d’évaluer et de comparer les solutions existantes. Suite à cette analyse de l’état de l’art, il s’agira de proposer des solutions dédiées à la problématique et aux contraintes spécifiques du projet BI4 people.

Profil du candidat :
Bac + 5 en informatique

Formation et compétences requises :
Compétences avancées (niveau M2) en informatique. Notions de cryptographie ou de sécurité informatique fortement souhaitées.

Adresse d’emploi :
Laboratoire ERIC
Université Lyon 2
5 avenue Pierre Mendès France
69676 Bron Cedex

Document attaché : 202111121307_StageBI4people4.pdf

Feb
10
Thu
2022
Détection d’anomalies dans le cadre d’une maintenance préventive
Feb 10 – Feb 11 all-day

Offre en lien avec l’Action/le Réseau : MADONA/– — –

Laboratoire/Entreprise : LIST3N/UTT
Durée : 6 mois
Contact : malika.kharouf@utt.fr
Date limite de publication : 2022-02-10

Contexte :
Collaboration de recherche entre deux des axes du laboratoire LIST3N.

Sujet :
Le but de ce stage est de développer une méthode d’apprentissage exploitant les données provenant de capteurs afin de détecter des anomalies dans le cadre d’une maintenance prédictive.

L’algorithme à développer sera basé sur de récents résultats de la théorie des matrices aléatoires.

Profil du candidat :
Etudiant en M2 mathématiques appliquées ou dernière année d’école d’ingénieurs, avec une spécialisation dans la science des données et/ou en apprentissage statistique.

Formation et compétences requises :
Le(la) candidat(e) devra avoir des connaissances académiques en apprentissage statistique, en modélisations numériques et en programmation (Python, Matlab, …).

Adresse d’emploi :
Université de technologie de Troyes
12 Rue Marie Curie, 10300 Troyes

Feb
15
Tue
2022
Fast Algorithms for Social Influence in Online Platforms
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Lip6 – Sorbonne Université
Durée : 6 mois
Contact : esteban.bautista-ruiz@lip6.fr
Date limite de publication : 2022-02-15

Contexte :
Dans les réseaux sociaux, il est crucial de mesurer l’importance des utilisateurs. Par exemple, les entreprises peuvent utiliser ces informations pour identifier les influenceurs les mieux adaptés pour faire la publicité d’un produit. Il peut également être utilisé par des algorithmes d’apprentissage automatique pour se concentrer uniquement sur les utilisateurs qui créent des tendances. Ce stage vise à développer des algorithmes capables de mesurer l’influence des utilisateurs sur les réseaux sociaux massifs et dynamiques qui sont omniprésents de nos jours.

Sujet :
Nous avons récemment développé une métrique très informative (appelée Ψ-score) pour évaluer l’influence des utilisateurs sur les réseaux sociaux. Cependant, Ψ-score a encore des problèmes qui compliquent son utilisation en pratique: sa complexité de calcul empêche de l’appliquer à de grands réseaux et il ne s’adapte pas bien aux réseaux qui évoluent au cours de temps. Il est crucial de résoudre ces défis car les réseaux sociaux du monde réel sont massifs et évoluent constamment.

Par conséquent, l’ambition de ce projet est double : (i) nous visons à développer des algorithmes rapides capables de calculer le Ψ-score dans des réseaux sociaux de tailles réalistes ; et (ii) nous visons à adapter le Ψ-score afin qu’il puisse prendre en compte la dimension temporelle des réseaux sociaux du monde réel.

Pour cela, nous nous intéressons à l’utilisation de techniques d’accélération récemment utilisées dans les moteurs de recherche et l’apprentissage automatique (comme les algorithmes push et les polynômes de Chebyshev), ainsi qu’à exploiter de nouveaux concepts développés pour les réseaux temporels et le traitement du signal sur les graphes.

Profil du candidat :
Étudiants en M2 ayant une formation variée (réseaux complexes, algorithmique, théorie des graphes, traitement du signal) mais avec un fort intérêt pour l’algorithmique des graphes, la théorie et ses applications.

Formation et compétences requises :
Étudiants en M2 ayant des connaissances en théorie des graphes et algorithmique, algèbre linéaire, codage en Python et un langage compilé comme C/C++/Go/Rust.

Adresse d’emploi :
Le stagiaire fera partie des équipes Complex Networks et Network Performance Analysis du LIP6 – Sorbonne Université, situé à:

4 place Jussieu
75252 PARIS CEDEX 05, France

Document attaché : 202201201736_Fast_Algorithms_for_Influence_Measure_in_Social_Networks.pdf

ImaginEcology@Alpes : image, écologie et machine learning pour l’étude de la faune sauvage des Alpes
Feb 15 – Feb 16 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CNRS Lyon/Grenoble/Chambéry
Durée : 5 à 6 mois
Contact : vincent.miele@univ-lyon1.fr
Date limite de publication : 2022-02-15

Contexte :
Depuis plusieurs années, de nombreux acteurs de l’étude de la faune sauvage (parcs et réserves naturelles, office français de la biodiversité, chercheur.ses) ont installés des centaines de “pièges photographiques” en France, boitiers à déclenchement automatique qui sont censés photographier les animaux durant leur passage. En particulier, des dizaines de ses appareils ont été installés dans le cadre de l’observatoire ORCHAMP de la Zône Atelier Alpes, pilotée par W.Thuiller (co-encadrant). Ces matériels produisent une “avalanche” de données photographiques qu’il faut trier a posteriori : trier les images vides et identifier les espèces.
Dans le même temps, une équipe CNRS incluant des membres du LECA et du LBBE et pilotée par V.Miele (co-encadrant), s’est mobilisée pour proposer une application de vision par ordinateur qui permettrait l’identification automatique des espèces de la faune sauvage française dans les images issues de pièges photos (cf. image de renard ci-dessus).

Les dernières techniques de deep learning sont appliquées, à partir d’une banque de données de plus de 500 000 images annotées de la faune française (renard, loup, cerf, chamois,…). Un prototype d’application Tensorflow-Keras/Python est d’ores et déjà en phase de test.

Sujet :
La mise au point de la chaîne de traitement des images de l’observatoire ORCHAMP reste à mettre en œuvre, avec pour objectif la capacité à analyser end-to-end les centaines de milliers d’images de la faune arrivant en flux régulier depuis le terrain.

Le/la stagiaire s’attachera à traiter plus précisément les problématiques suivantes:
– contribuer à l’amélioration des modèles de réseaux de neurones convolutifs (utilisation de GPU sur calculateurs régionaux/nationaux) avec des propositions méthodologiques et de nouvelles images récoltées au fil du stage;
– évaluer continuellement les performances des modèles sur les nouvelles images;
– confronter les alternatives de détection d’objet (plus coûteuses en temps) vis à vis de la simple classification;
– contribuer à l’élaboration d’une chaîne de traitement “du piège photo à l’identification puis la diffusion” qui permettra la reproductibilité des analyses et la mise à disposition des résultats, en suivant les principes de la Science Ouverte (principes FAIR)

Une sortie “terrain” en montagne pour l’installation ou la maintenance des pièges photographiques peut être envisagée si l’étudiant.e s’avère intéressé.e par cet aspect.

Profil du candidat :
L’étudiant/e devra présenter de fortes compétences en machine learning pour la vision par ordinateur, en programmation Python et maîtriser parfaitement les environnements Linux.

Un intérêt pour les questions de biodiversité serait un plus (le stage permet en effet de découvrir de nombreuses problématiques relatives à la conservation de la faune sauvage en France).

Formation et compétences requises :
Ecole d’ingénieur dernière année, Master 2 en informatique/mathématiques ou bien césure.

Adresse d’emploi :
Campus UCBLyon-Villeurbanne La Doua / campus USMB Chambéry-Technolac / campus UGA Grenoble-St Martin D’hères

Les laboratoire d’Ecologie Alpine (LECA, Chambéry-Grenoble) et Biométrie et Biologie Evolutive (LBBE, Lyon) regroupent des écologues, des biologistes et des méthodologistes. En particulier, ils forment l’épicentre rhône-alpin de l’écologie des communauté, discipline dédiée à la compréhension de l’organisation et du fonctionnement des écosystèmes. Ces laboratoires sont reconnus pour l’excellence de leurs développements méthodologiques pour l’écologie.

Feb
24
Thu
2022
Intégration d’une méthode d’explicabilité pour l’analyse d’opinions sur les médias sociaux
Feb 24 – Feb 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : ETIS UMR 8051
Durée : 6 mois
Contact : maria.malek@cyu.fr
Date limite de publication : 2022-02-24

Contexte :
Nous explorons dans nos travaux actuels portant sur l’analyse des médias sociaux, la combinaison de méthodes classiques d’exploration d’opinion avec l’analyse des réseaux sociaux et son impact sur la formation et la propagation d’opinion afin de construire un modèle d’opinion cohérent.
Afin d’étudier l’impact des utilisateurs influents (nœuds influents), nous intégrons dans un premier temps plusieurs facteurs d’influence extraits du réseau dans le processus d’exploration d’opinions. Ces facteurs sont généralement calculés en utilisant différentes mesures de centralité comme le degré, la proximité, l’intermédiarité, la centralité PageRank, etc.

Nous définissons et étudions ensuite la notion de la stabilité d’opinion au sein des réseaux égocentriques autour des influenceurs et au sein des communautés détectées, notre objectif étant de détecter la modification d’opinion pour les deux types de sous-réseaux.
Nous analysons les communautés obtenues afin de comprendre les opinions émergeantes à partir de ces communautés non seulement en fonction des profils utilisateurs mais aussi en fonction d’éléments topologiques. Nous souhaitons également proposer des indicateurs concernant la stabilité des opinions et d’autres liés à leurs changements.

Sujet :
Le but de stage est de proposer et d’intégrer une méthode d’explicabilité dans les algorithmes d’analyse d’opinions afin de produire des explications émergeantes qui combinent des informations nodales (comme le profil d’utilisateur) et topologiques extraites de la structure du graphe de propagation des opinions.
En intégrant une méthode d’explicabilité adéquate, nous souhaitons rendre plus compréhensible également les résultats concernant la polarité de l’opinion trouvée au niveau des utilisateurs et au niveau des groupes. De même, le modèle doit être capable d’expliquer les changements d’opinion détectés en lien avec les informations extraites du réseau de propagation et les séquences d’actions entreprises (par exemple : tweets, retweets, réponses) menant à ce changement.

Profil du candidat :
Master 2 ou dernière année d’école d’ingénieur

Formation et compétences requises :
Bonne connaissance en Machine Learning et en programmation Python.

Adresse d’emploi :
2 Av. Adolphe Chauvin, 95300 Pontoise, bâtiment A, 5 étage étage, laboratoire ETIS.

Document attaché : 202202231431_Stage_M2_ETIS_Explicabilite_AnalyseOpinions.pdf

Feb
25
Fri
2022
Méthodes multi-blocs et trois-voies dans le cadre de la prévention de l’allergie
Feb 25 – Feb 26 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : unité Statistique, Sensométrie et Chimiométrie / O
Durée : 6 mois
Contact : veronique.cariou@oniris-nantes.fr
Date limite de publication : 2022-02-25

Contexte :
Les allergies touchent 30-40% de la population mondiale. Parmi elles, la dermatite atopique est la plus fréquente et précoce. Ces allergies sont associées à un déséquilibre de la flore intestinale et à un dysfonctionnement du système immunitaire chez les nouveaux-nés. En induisant une flore optimale, les prébiotiques donnés tôt dans la vie pourraient prévenir des allergies. Le projet ANR CIMMAP (Characterising the effect of maternal prebiotic supplementation on perinatal Immune system maturation, Gut Microbiota and breast Milk compositions for Allergy Prevention in high-risk children) est un projet de recherche ANR collaboratif (voir https://www6.angers-nantes.inrae.fr/bia/Equipes-de-recherche/Allergie-ALL/Actualites/ANR-CIMMAP).

En particulier, CIMMAP explore la période périnatale chez l’enfant à risque d’allergie en se focalisant sur la mise en place du système immunitaire et du microbiote et les effets des prébiotiques sur le système immunitaire et sur le microbiote. Les données considérées dans CIMMAP sont issues dans un premier temps d’un modèle murin et dans un second temps d’un modèle humain, sur la base d’une cohorte sélectionnée à partir de l’étude PREGRALL (https://www.chu-nantes.fr/pregrall-participez-a-notre-etude-et-aidez-nous-a-prevenir-les-allergies-de-l-enfant).

Sujet :
Des travaux antérieurs sur le modèle murin ont permis de mesurer les effets d’une supplémentation en prébiotiques d’une part sur la composition du microbiote et d’autre part sur les caractéristiques du système immunitaire. L’objectif de ce stage est d’investiguer une approche holistique visant à mettre en relation ces deux blocs de données, en prenant également en compte une dimension longitudinale (plusieurs points de prélèvement effectués au cours de l’étude). Cette approche holistique repose sur un traitement de données multi-blocs (plusieurs tableaux de données, appariés sur les lignes c’est-à-dire les individus, sont analysés simultanément pour révéler la force des liens entre ces tableaux) voire un traitement de données trois voies (les tableaux de données étant cette fois appariés à la fois sur les individus et sur les variables).

En particulier deux verrous statistiques seront appréhendés.
Dimensionalité des tableaux et sparsité : dans le cadre des données de microbiote, le tableau de données présente un grand nombre de variables, avec existence d’une forte multicolinéarité. Un premier enjeu est donc de pouvoir gérer la dimensionnalité de ce tableau au regard des données d’immunologie, en particulier de manière à mesurer le lien entre ces deux tableaux et identifier un petit nombre de marqueurs du microbiote fortement liés aux caractéristiques du système immunitaire. Pour répondre à ce premier enjeu, le stage visera à étudier et mettre en œuvre des méthodes multi-blocs sparse dans un contexte non supervisé (ComDim, MB-PCA, RGCCA) et supervisé (P-ComDim, MB-PLS, MB-WCov).

Introduction de la dimension longitudinale : dans un second temps, une approche longitudinale sera investiguée pour prendre en compte simultanément les tableaux de données du microbiote prélevés à différents temps. Il s’agira en particulier d’identifier des trajectoires communes pour des groupes de marqueurs par des méthodes de décomposition tensorielle.

Profil du candidat :
Niveau Bac +5, Master II ou ingénieur, avec une formation en statistique ou biostatistique.

Formation et compétences requises :
Intérêt pour le traitement statistique de données biologiques et de santé.
Maîtrise des méthodes d’analyse multivariée dans le cadre supervisé et non supervisé.
Maîtrise du langage R.

Adresse d’emploi :
ONIRIS, Rue de la Géraudière, CS 82225, 44322 Nantes

Document attaché : 202112021708_stage_StatSC_CIMMAP_2022.pdf

Feb
28
Mon
2022
Amélioration d’un algorithme d’apprentissage automatique pour la reconnaissance de polluants fluorés
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CASC4DE
Durée : 6 mois
Contact : mad@casc4de.eu
Date limite de publication : 2022-02-28

Contexte :
CASC4DE est une entreprise spécialisée dans le développement de méthodes analytiques ainsi que dans l’ingénierie de logiciels et de données. Nous développons des solutions innovantes pour relever les défis de la gestion et du traitement de grands ensembles de données analytiques en combinant des compétences interdisciplinaires dans les domaines de la biochimie, des mathématiques et des sciences des données. En outre, la société mène sa R&D dans l’esprit de la science ouverte (données F.A.I.R. si possible) et de l’open-source (logiciels libres et indépendants). CASC4DE propose également des services pour répondre aux problématiques analytiques des clients. Nous proposons des approches multi-analytiques avec un accès à des techniques avancées de Résonance Magnétique Nucléaire (19F fluor, RMN 2D, 3D) ou de Spectrométrie de Masse (FTICR MS, 2D FTMS).

Sujet :
Le fluor est un élément commun mais non métabolisé dans les organismes vivants. Il fait partie de molécules artificielles largement utilisées dans l’industrie et les produits de consommation courante. Les molécules fluorées sont extrêmement résistantes et couramment utilisées dans la synthèse de produits, elles font partie des polluants de l’environnement et sont plus particulièrement connues sous le nom de POP (polluants organiques persistants). Des normes existent pour limiter la quantité de molécules fluorées présentes dans l’environnement mais aucune technique complète n’existe pour le moment pour détecter et identifier ces polluants fluorés. L’idée du projet ANR “FLUOVIAL” est d’atteindre cet objectif en utilisant la RMN 19F.
Le projet est conçu en plusieurs phases :
– acquisition de données RMN 19F de composés fluorés connus
– application d’algorithmes spécialement conçus pour le prétraitement des données
– développement d’un algorithme d’apprentissage automatique (Random Forest) sur les spectres prétraités pour effectuer une classification par molécules
– application de l’algorithme entraîné à des composés inconnus pour détecter et identifier les molécules fluorées
Ce projet sert de base au projet IPANEMA (https://www6.paca.inrae.fr/emmah/Equipes-de-recherche/Equipe-DISCOVE/Projets-en-cours/IPANEMA) financé par l’ADEME qui vise à développer des outils permettant de mieux prévoir le devenir dans les sols des polluants perfluorés (PFAS), très utilisés dans l’industrie.
L’algorithme Random Forest (RF) a été choisi parmi la grande quantité d’algorithmes d’apprentissage automatique disponibles et applicables dans le cas présent car il a fourni de bons résultats préliminaires. La RF est un algorithme d’apprentissage supervisé, avec tous les échantillons étiquetés, basé sur de multiples arbres de décision à partir desquels une prédiction finale est faite par un vote entre chaque arbre individuel. L’algorithme développé et optimisé a donné de bons résultats sur les exemples de la base de données, atteignant plus de 90% de bonnes prédictions.
L’idée durant le stage serait d’améliorer l’outil d’apprentissage automatique développé en :
– ajoutant des outils d’analyse de la Random Forest, notamment pour la recherche et l’évaluation des critères déclenchant la décision de classification
– mettant en évidence graphiquement les zones du spectre qui ont déclenché la décision de la Random Forest
– proposant la superposition du spectre expérimental inconnu, et des spectres de référence
– effectuant éventuellement une nouvelle optimisation de l’algorithme
– permettant l’analyse sur des mélanges

Profil du candidat :
Etudiant de M2 ou cycle ingénieur portant un intérêt aux méthodes d’analyses de données automatiques.

Formation et compétences requises :
Compétences de programmation en langage Python – Familiarité avec l’environnement Jupyter.

Adresse d’emploi :
Pôle API – Boulevard Sébastien Brant – 67400 Illkirch-Graffenstaden

Contacts: mad@casc4de.eu, laura.duciel@casc4de.eu

Analyse comparative de méthodes neuronales de normalisation d’entités en domaine biologique
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Unité MaIAGE, INRAE, Université Paris-Saclay
Durée : 6 mois
Contact : arnaud.ferre@inrae.fr
Date limite de publication : 2022-02-28

Contexte :
La quantité de données textuelles ne cesse d’augmenter, et c’est en particulier le cas de la publication d’articles scientifiques. Face à cette énorme quantité de données produites, de nombreuses informations et connaissances sont perdues ou ne sont simplement jamais exploitées. L’extraction d’information est le domaine de l’intelligence artificielle visant à extraire et à structurer automatiquement des informations contenues dans des grandes quantités de textes.

Aujourd’hui, quelle que soit la tâche d’extraction concernée, les approches état de l’art s’appuient sur de l’apprentissage profond (deep learning). C’est en particulier le cas pour la tâche de normalisation d’entités, dont l’objectif est de classer des mentions extraites de textes dans des classes contenues dans une référence du domaine concerné, telles que des bio-ontologies (ex : la mention “monoclonal B cells” représente un , qui est une classe de l’ontologie OntoBiotope). Cette tâche permet de compléter/produire automatiquement des bases de données d’intérêt beaucoup plus précises pour le domaine d’étude concerné. Le domaine biologique/biomédical a d’importants besoins de ce genre (ex : bases de données de phénotypes, de biotopes bactériens, d’effets secondaires de médicaments, …), et est le domaine d’application principal pour la recherche en normalisation.

Sujet :
Malgré un intérêt croissant de la communauté de recherche en extraction d’information, la normalisation d’entités reste un défi de taille. En domaine biologique/biomédical notamment, on observe une rareté et une dispersion des exemples d’entraînement, qui posaient jusqu’à récemment des difficultés aux approches par apprentissage. Mais depuis quelques années, des méthodes par apprentissage neuronal profond (ex : BioSyn – Sung et al., 2020 ; C-Norm – Ferré et al., 2020 ; Pattisapu et al., 2020) ont réussi à se démarquer sur certains jeux de données d’évaluation (ex : NCBI Disease Corpus, Bacteria Biotope 4, Custom CADEC).

Néanmoins, ces méthodes sont encore trop rarement évaluées sur plusieurs jeux de données distincts. Des travaux de notre équipe de recherche ont pourtant montré récemment une certaine sur-adaptation, c’est-à-dire qu’une méthode est souvent performante sur un jeu de données, sur lequel elle a été développée et publiquement évaluée, mais pas sur d’autres. Dans ce stage, nous proposons donc d’étudier la robustesse de méthodes état de l’art sur plusieurs jeux de données, et d’analyser comparativement les erreurs qui semblent encore résister aux approches neuronales profondes récentes.

Dans ce stage, les tâches suivantes seront à réaliser :
– Exécution/Implémentation de méthodes neuronales état de l’art sur des jeux de données standards utilisés pour l’évaluation (choix d’au moins 2 méthodes et 2 jeux de données) ;
– Comparaison des scores obtenus et de leur significativité ;
– Analyse et catégorisation des erreurs produites ;
– Comparaison des profils de prédictions des différentes méthodes.

Le stagiaire aura accès aux serveurs de calculs du laboratoire, ou, au besoin, à des infrastructures de calcul haute performance (ex : Lab-IA).

Les travaux effectués pourront mener à une publication.

Profil du candidat :
Autonome en programmation Python.
Connaissances en sciences du vivant/biomédical et fondamentaux en algèbre linéaire (ex : espace vectoriel, opération matricielle).
Une connaissance de la théorie derrière les réseaux de neurones et des compétences dans au moins une des libraires Python standards PyTorch/TensorFlow serait un plus.
Une expérience en traitement automatique des langues naturelles ou plus particulièrement en extraction d’information serait appréciée.

Formation et compétences requises :
Master 2 / dernière année d’école d’ingénieur en bio-informatique, informatique, mathématiques appliquées ou équivalent.

Adresse d’emploi :
Centre de recherche INRAE de Jouy-en-Josas (78)

Apprentissage profond pour l’estimation de variables biophysiques du couvert forestier tropical
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : CIRAD – UMR TETIS
Durée : 6 mois
Contact : raffaele.gaetano@cirad.fr
Date limite de publication : 2022-02-28

Contexte :
Le suivi de l’état des forêts tropicales est d’importance mondiale (Herold et al. 2019). Il appelle le suivi dans la durée et sur de grandes surfaces de variables « biophysiques » de structures forestières (couvert, hauteur de canopée, biomasse épigée, …) et d’indicateurs de diversité spécifique et fonctionnelle. Le suivi du couvert arboré, notion polysémique, a fait l’objet de travaux importants, principalement basés sur les séries d’images satellitaires longues à moyenne résolution ou haute résolution spatiale (MODIS, Landsat, respectivement), Ceci a débouché sur des produits cartographiques ambitieux à des échelles pantropicales et mondiales (e.g. Avitabile et al. 2012; Hansen et al. 2013 ; Kubayashi et al. 2016). Cependant, ces produits recèlent des faiblesses de plusieurs ordres. Si celles-ci n’opèrent pas leur intérêt, tant que l’ampleur des surfaces peut permettre la compensation des imprécisions locales, elles rendent leurs utilisations hasardeuses pour des applications demandant de se focaliser sur des surfaces plus restreintes (downscaling), ou requérant un niveau de précision supérieur à celui effectif (qui n’est pas toujours explicite, d’ailleurs).

Le projet Sé2coul, a pour objectif de traduire les opportunités, offertes par les données Sentinel-1 et Sentinel-2, pour le suivi et la caractérisation des forêts, en tirant partie :
i) de la densification temporelle des séries temporelles d’images satellitaires et de leur accroissement en résolution spatiale. Ceci doit permettre d’aller bien au-delà de ce qui peut déjà être fait actuellement avec les séries HR de type « Landsat » (par exemple via le Google Earth Engine) pour corriger les effets instrumentaux dans l’optique de détection de changements francs de couvert (déforestation, feu, plantation, …), ou de détections de perturbations localisées (exploitation, chute d’arbres, …).
ii) de la facilitation de l’usage conjoint des données radar et optiques (Sentinel-1 et -2). En complément de l’optique, l’information radar en bande C (bien que probablement saturante à des niveaux assez bas de couvert et de biomasse) est sensible à la structure tridimensionnelle, et peut aider à lever des ambiguïtés dans les végétations complexes, ouvertes (par exemple pour le suivi de la dynamique des trouées, naturelles ou non), ou marquées par des variations saisonnières d’humidité (y compris du substrat).
iii) du développement de techniques d’intelligence artificielle (deep-learning) pour tirer parti des atouts des données Sentinel dans la perspective spécifique de la caractérisation biophysique des composantes ligneuses de la végétation dans des contextes tropicaux variés.

Le projet aura pour objectif de traduire ces opportunités en avancées significatives concernant l’estimation de caractéristiques fondamentales de la végétation ligneuse : (i) structure : Hauteur de canopée, LAI, etc. (ii) diversité, (iii) signature fonctionnelle saisonnière.

Sujet :
En s’appuyant sur les résultats actuels du projet, qui ont permis d’évaluer le potentiel des images Sentinel pour l’extraction de variables biophysiques sur la structure et la diversité des couverts forestiers, l’objectif de ce stage est de tester des solutions basées sur l’apprentissage profond pour : (i) s’affranchir du problème de la forte nébulosité des images disponibles en optique (Sentinel-2) en s’appuyant sur l’utilisation conjointe d’images optiques et radar; (ii) mettre en place des solutions permettant la mise en opération de la production cartographique de ces variables; (iii) poser les bases pour l’extraction d’information à valeur ajoutée (cartographie de la typologie des couverts forestiers, extraction de traits fonctionnels par analyse de séries temporelles). Le terrain d’étude en Guyane Française sera ciblé en priorité pour tester ces méthodes.
Pour cela, nous allons mobiliser en grande partie des méthodes déjà développées au sein de notre unité, concernant à la fois l’extraction de variables biophysiques et la génération de séries temporelles d’images Sentinel-2 dénuagées, avec l’objectif de les combiner opportunément et de tester la production de cartes sous différentes contraintes en termes de disponibilité d’images (e.g. nébulosité). Selon les acquis de cette phase, un deuxième objectif serait de travailler sur des séries temporelles d’images optiques dénuagées pour évaluer des premières méthodes d’extraction d’information à valeur ajoutée.

Les principales étapes envisagées pour la réalisation du stage sont :
Analyse bibliographique sur les méthodes d’apprentissage profond pour la synthèse d’images sans nuages par couplage radar/optique, et sur l’état de l’art concernant l’extraction de variables biophysiques du couvert forestier.
Mise en place du jeu de données :
Prise en main des données existantes
Téléchargement et prétraitements de série temporelle d’images Sentinel-1 et Sentinel-2
Préparation du jeu de données pour l’évaluation
Prise en main des méthodes d’apprentissage profond qui sont à mobiliser.
Mise en place de telle méthode dans le contexte de la cartographie de la typologie du couvert forestier sur la zone d’étude.
Évaluation de la méthode déployée à travers une analyse quantitative/qualitative.
Rédaction du rapport et préparation de la soutenance.

Profil du candidat :
Master II ou 3ème année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine et deep learning (TensorFlow/PyTorch, Keras, …)
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle

Formation et compétences requises :
Master II ou 3ème année d’école ingénieur en Traitement du Signal, Informatique ou Télédétection
Compétences : programmation informatique et géomatique
Bonne connaissance des méthodes de machine et deep learning (TensorFlow/PyTorch, Keras, …)
Goût pour la recherche scientifique et l’interdisciplinarité
Maîtrise de l’anglais et bonne capacité rédactionnelle

Adresse d’emploi :
Maison de la Télédétection, 500, rue Jean François Breton – Montpellier (34)

Document attaché : 202202071401_Fiche_Stage_M2_SE2COUL_TETIS.pdf

Call for internship proposals, M2 PSL IASD
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : PSL University
Durée : 5 mois
Contact : pierre@senellart.com
Date limite de publication : 2022-02-28

Contexte :
The IASD M2 (Artificial Intelligence, Systems, Data) is a track of the Master in Computer Science of PSL University (involving Université Paris-Dauphine, the École normale supérieure, Mines ParisTech).

Sujet :
The IASD M2 calls for internship proposals for its students. Students follow a curriculum covering various aspects of artificial intelligence, data science, machine learning, data management. The curriculum is available at https://www.masteriasd.eu/

Internship proposals can be submitted at https://db.masteriasd.eu/internships/submit

Internships last roughly 5 months, from April to August.

Profil du candidat :
M2 student

Formation et compétences requises :

Adresse d’emploi :
TBD

Conception d’une architecture ETL générique pour l’analyse vidéo en temps réel
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISTIC – Laboratoire d’Informatique, Systèmes, Tr
Durée : 4 – 6 mois
Contact : khadija.arfaoui@univ-smb.fr
Date limite de publication : 2022-02-28

Contexte :
Le sujet de ce stage se situe dans le cadre d’un projet de recherche visant à proposer une nouvelle architecture pour l’acquisition, le traitement et l’analyse de données massives (Big Data). En effet, de nos jours les sources et les types de données se multiplient au sein de l’entreprise : de fichiers plats, de données opérationnelles, de nouveaux services internet, de différents réseaux sociaux, de nouvelles applications de l’internet des objets (IOT), en particulier les capteurs. Cette révolution informationnelle a généré une grande masse de données, dite « Big Data ». Le Big Data est caractérisé par le grand « Volume » de données collectées par l’entreprise, la « Variété » de ces données, qui peuvent être structurées, semi-structurées ou non structurées et aussi par la fréquence de l’arrivée des données « Vitesse » qui devrait être prise en considération. Dans ce stage nous nous intéressons à l’acquisition, le traitement et l’analyse des données vidéos en temps réel, c’est-à-dire les « video analytics » [2], [3].
Par ailleurs, autours du Big Data une bonne variété de technologies dédiées est apparue, tels que l’écosystème d’Hadoop (HDFS, Map Reduce, Yarn, etc), Flink, Kafka, Elasticserach, Kibana, etc. En particulier nous trouvons ceux qui s’adressent à l’ingestion et au traitement de données produites en streaming (les vidéos), tels que : Kafka, Apache Samza, Spark Streaming, Flume, Storm et d’autres.

Sujet :
L’objectif du stage sera de développer les composants fondamentaux d’une architecture générique pour l’extraction, le traitement, le chargement (ETL) et l’analyse des vidéos de trafic routier collectées en temps réel. En particulier, l’étudiant étudiera comment optimiser la localisation de l’état des applications au sein de l’architecture de stockage utilisée par les pipelines ETL pour améliorer les performances d’analyse vidéo. L’étudiant s’appuiera sur un prototype déjà développé au sein du LISTIC qui utilise un schéma de routage dit Bloom Filter-based Routing « BFR » [4] sur un cache distribué pour la découverte des contenus. Détails supplémentaires sur l’architecture à implémenter seront définie avant le début du stage dans le cadre d’un sujet de thèse annexe.
Pour l’exécution des tâches de traitement sur les flux de vidéo collectés et le stockage des données, le candidat aura accès durant la période du stage à la plateforme MUST, mésocentre de stockage et de calcul scientifique mutualisée ouverte sur la grille de recherche européenne utilisée par les chercheurs des différents laboratoires de l’USMB.
En résumé, les résultats attendus de ce stage sont les suivants :
1. Acquérir de compétences sur les technologies Big Data dédiées au traitement de flux vidéo.
2. Implémenter l’architecture générique proposée pour l’extraction, de traitement, le chargement, et l’analyse de vidéo.
3. Validation du système avec un exemple de flux de vidéo en temps réel, en vue de détecter par exemple les matricules de voitures circulant sur la route.
4. Réaliser des tests de performance de l’architecture implémentée sur la plateforme MUST.

Références.
[1] Thibeault, J. (2020). Streaming Video Fundamentals. SMPTE Motion Imaging Journal, 129(3), 10-15. DOI: 10.5594/JMI.2020.2976257
[2] J. Jiang, G. Ananthanarayanan, P. Bodik, S. Sen, and I. Stoica. Chameleon: scalable adaptation of video analytics. In Proceedings of the 2018 Conference of the ACM Special Interest Group on Data Communication, pages 253–266, 2018.
[3] Rachuri, S. P., Bronzino, F., and Jain, S. (2021, October). Decentralized modular architecture for live video analytics at the edge. In Proceedings of the 3rd ACM Workshop on Hot Topics in Video Analytics and Intelligent Edges (pp. 13-18).
[4] Marandi, A., Braun, T., Salamatian, K. and Thomos, N., 2020, June. Network Coding-based Content Retrieval based on Bloom Filter-based Content Discovery for ICN. In ICC 2020-2020 IEEE International Conference on Communications (ICC) (pp. 1-7). IEEE.

Profil du candidat :
Connaissances en Réseau et Systèmes Distribués
Connaissances recommandées en Informatique: Linux, Python, Redis, Spark Streaming, Kafka, container (Docker et/ou Kubernetes)

Formation et compétences requises :
Étudiant en Master 2ème année ou Ingénieur 5ème année en Informatique avec comme spécialité Réseaux et systèmes distribués de préférence.

Adresse d’emploi :
Étudiant en Master 2ème année ou Ingénieur 5ème année

Document attaché : 202111221638_offre_distributed.pdf

Développement d’un réseau de neurones permettant la caractérisation acoustique du transport sédiment
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Innovation

Laboratoire/Entreprise : cerege
Durée : 6 mois
Contact : gassier@cerege.fr
Date limite de publication : 2022-02-28

Contexte :
L’estimation du débit de mise en mouvement des particules ainsi que du flux sédimentaire par fractions granulométriques (taille)
transportées dans les cours d’eau sont des enjeux cruciaux pour leur gestion, que ce soit pour des études scientifiques, des projets de
restauration, de prévention des crues, ou des travaux opérationnels. Devant le manque de méthode efficace, la communauté scientifique
et opérationnelle s’intéresse aux approches par mesures indirectes, ici par acoustiques passive, qui consiste à mesurer le son produit par
le déplacement des sédiments dans une rivière en y immergeant des hydrophones afin d’en évaluer les caractéristiques.

Sujet :
Au sein du Centre de Recherche et d’Enseignement de Géosciences de l’Environnement (CEREGE), nous proposons à un
étudiant, lors de son stage de fin d’études de Master ou d’ingénieur, de développer un réseau de neurones permettant de
caractériser le flux sédimentaire (masse par unité de temps) transporté dans un cours d’eau à partir de la pression acoustique
générée par ce dernier et mesurée par des hydrophones.

Profil du candidat :
Master 2 ou école d’ingénieur.

Formation et compétences requises :
Le stagiaire : Deep learning, réseau de neurones,
python, Jupyter, Linux, TensorFlow, keras, Traitement du signal acoustique.

Adresse d’emploi :
CEREGE
TECHNOPOLE ENVIRONNEMENT ARBOIS-MEDITERRANEE BP80
13545 AIX en PROVENCE, CEDEX 04, FRANCE
Tél. (+33) (0)4 13 94 91 00

Document attaché : 202112151536_Sujet_Stage_CEREGE.pdf

Exploiting Data Mining and Constraint Programming for Predictive Maintenance
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LS2N/IMT Atlantique
Durée : 5-6 mois
Contact : samir.loudni@imt-atlantique.fr
Date limite de publication : 2022-02-28

Contexte :
Recently, with the emergence of Industry 4.0 (I4.0), predictive maintenance (PdM) based on data-driven methods has become the most effective solution to address smart manufacturing and industrial big data, especially for performing health perception (e.g. fault diagnosis and remaining useful life (RUL) estimation). Here, maintenance corresponds to the process that deals with equipment or system components to ensure their normal operating under any circumstance. PdM relies on the continuous monitoring of the equipment or the machine to predict when maintenance actions are necessary; hence the maintenance can be scheduled. Detecting and preventing failures is thus essential, and industries seek to minimise the number of operational failures, minimise their operational costs, and increase their productivity.

Failure Prediction is one of the critical components of PdM for which the main goal is to predict the approximate moment when some failure could occur. Recent works have addressed anomaly detection for PdM in order to predict incipient failures from historical data.

In the last decade, new research have began connecting data mining to symbolic Artificial Intelligence (AI). Such fertilization leads to a number of algorithms that have been proposed within Constraints Programming (CP) and Satisfiability (SAT) for mining sequences, frequent item-
sets, association rules, clustering, classification, etc. The main advantage
of symbolic AI approaches for pattern mining is their declarativity and flexibility, which include the ability to incorporate new user-specified constraints without the need to modify the underlying system.

Sujet :
The objective of this internship is to use constraint programming to apply symbolic data mining techniques on historical data to characterise the healthy behaviour of equipment. We will consider especially symbolic data mining techniques applicable to time series data where data are generated in streams. The internship will address the two following principal tasks:
• Knowledge discovery process about normal behaviour;
• The anomaly detection in new data.

Profil du candidat :
– Étudiant M2 ou 3ème ingénieur en Informatique
– bonnes compétences en programmation (Java, Python)
– connaissances en programmation par contraintes (la maîtrise des outils associés comme la bibliothèque Choco serait un vrai plus)
– une compétence en fouille de données et des méthodes associées
– goût pour la recherche et le travail collaboratif intra-équipe.

Formation et compétences requises :
– Étudiant M2 ou 3ème ingénieur en Informatique
– bonnes compétences en programmation (Java, Python)
– connaissances en programmation par contraintes (la maîtrise des outils associés comme la bibliothèque Choco serait un vrai plus)
– une compétence en fouille de données et des méthodes associées
– goût pour la recherche et le travail collaboratif intra-équipe.

Adresse d’emploi :
IMT Atlantique campus de Nantes

Document attaché : 202202010855_TASC_internship_2021.pdf

Machine Learning in Computational Fluid Dynamics
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Sorbonne Universite – Equipe Machine Learning and
Durée : 6 mois
Contact : patrick.gallinari@sorbonne-universite.fr
Date limite de publication : 2022-02-28

Contexte :
Numerical simulation of fluids plays an essential role in modeling complex physical phenomena in domains ranging from climate to aerodynamics. Fluid flows are well described by Navier-Stokes equations, but solving these equations at all scales remains extremely complex in many situations and only an averaged solution supplemented by a turbulence model is simulated in practice (Xiao and Cinnella, 2019). The increased availability of large amounts of high fidelity data and the recent development and deployment of powerful machine learning methods has motivated a surge of recent work for using machine learning in the context of computational fluid dynamics (CFD) (Durasaimy et al., 2019). Combining powerful statistical techniques and model-based methods leads to an entirely new perspective for modeling physics phenomena (Willard 2020). From the machine learning (ML) side, modeling complex dynamical systems and combining model-based and data-based approaches is the topic of active new research directions. This is then the context of this project, and our aim is to develop the interplay between Deep Learning (DL) and CFD in order to improve turbulence modeling and to challenge state of the art ML techniques.

Sujet :
Combining CFD models and Deep Learning

Our objective is to improve traditional CFD models, both in terms of complexity and of accuracy of the predictions, with the addition of ML components. Recent progresses, and the generalized use of automatic differentiation both for differentiable solvers and DL algorithms have paved the road to the integration of DL techniques and ODE/PDE solvers. In the ML community, a starting point for such investigations was the Neural ODE paper (Chen 2018) that promoted the use of ODE solvers for ML problems. We advocate for this research the use of DL modules for complementing CFD solvers, in the spirit of (Yin 2021) who introduced a principled approach however still limited to basic PDEs. In our new context, our final objective is to analyze how to model unclosed terms in the Reynolds-Averaged Navier-Stokes (RANS) equations. In order to simplify the problem, for the internship, the approach will be developed for a scalar surrogate of the Navier-Stokes equations, namely, the nonlinear Burgers’ equation, which has been widely used in the literature as a simplified ansatz for Navier-Stokes The whole system will be trained end to end with the DL modules and the numerical solvers using high-fidelity data.

In order to be useful for CFD applications a learned model must accurately simulate flows outside of the training distribution: operational conditions and environment may vary according to different physical factors thus requiring models to extrapolate to these new conditions. For providing such capabilities, we will adopt a new perspective by considering learning dynamical models from multiple environments and analyze the ability of this framework to extrapolate to new conditions.

Profil du candidat :
Master or engineering degree in engineering, computer science or applied mathematics.

Formation et compétences requises :
The candidate should have a strong scientific background with good technical skills in programming.

Adresse d’emploi :
Machine Learning and Information Access team – MLIA – https://mlia.lip6.fr, Sorbonne University, 75005 Paris, Fr

Document attaché : 202112141459_2021-12-MLIA-JLRA-Machine-Learning-Computational-Fluid-Dynamics.pdf

Prévision du temps à très haute résolution avec des méthodes de Deep Learning
Feb 28 – Mar 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-02-28

Contexte :
Les prévisions météorologiques fournies par le modèle Arome, opérationnel à Météo-France, ont une résolution spatiale de 2.5km sur les domaines Outre-Mer. En 2022, l’augmentation de résolution atteindra 1.3km, et permettra d’améliorer la performance des prévisions, en particulier pour les évènements à enjeux tels que les cyclones tropicaux et les fortes pluies. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions Arome à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.

Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution (par exemple 2.5km ou 1.3km) et les prévisions haute résolution (par exemple 500m). Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, inspirées par les travaux de super-résolution en traitement d’images, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutionnels offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une première descente d’échelle à 500m des prévisions Arome sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Pour cela il s’agira :
1. de sélectionner et d’implémenter une ou plusieurs architectures de réseaux de neurones adaptées au problème de descente d’échelle, en s’appuyant en partie sur la littérature existante
2. de préparer les jeux de données d’entraînement et de validation pour les réseaux, à partir des simulations Arome basse et haute résolution réalisées par l’encadrement en amont du stage
3. de réaliser des expériences de sensibilité des descentes d’échelle à différents réglages des méthodes statistiques et configurations des jeux de données d’apprentissage
4. d’évaluer la pertinence des prévisions Arome 500m obtenues sur des situations à enjeux variées (fortes pluies, risque de feu de forêt, etc.)

Profil du candidat :
Le stage requiert un réel intérêt pour les méthodes d’intelligence artificielle et leur application aux géosciences. Une bonne connaissance des réseaux de neurones convolutionnels et de leur implémentation Python est requise.

Formation et compétences requises :
M2 ou Ecole d’ingénieur.

Adresse d’emploi :
Centre National de Recherche Météorologique, Toulouse, France

Mar
1
Tue
2022
Anomaly detection in link streams
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIP6 – Sorbonne Université
Durée : 6 months
Contact : esteban.bautista-ruiz@lip6.fr
Date limite de publication : 2022-03-01

Contexte :
Link streams are sequences of interactions over time. They model a large number of datasets that have both a temporal and a structural component: phone calls, social interactions, internet traffic or financial transactions. The wealth of information contained in link streams bears great potential for progress in high-impact areas. For instance, frauds or thefts in monetary transactions may leave signatures expressed as substreams that heavily interact in a short span of time. Another example are network attacks which may be characterized as repetitive bursts of links that deviate from normal activity. Our goal in this internship is to develop algorithms that allow us to efficiently detect such anomalies in link streams.

Sujet :
The goal of this internship is to develop algorithms that can detect anomalies by ranking the importance of interactions in link streams. Recent works based on this idea have been used to detect microcluster anomalies: suddenly arriving groups of suspiciously similar links. However, such works rank interactions solely based on their time properties (how often two individuals interact) and overlook the structural properties of interactions. We therefore aim to develop ranking algorithms that take into account both the time and structural properties of link streams.

Numerous recent works have extended graph theory concepts to link streams, providing a solid foundation to analyze their structural properties. It is thus a timely challenge to leverage these concepts in the context of anomaly detection algorithms. We are particularly interested in exploring the recent definitions of temporal random walks, which have achieved great success in various applications. We are also open to explore other centrality metrics, such as betweenness, which raise important algorithmic challenges but have great interpretability.

Profil du candidat :
This internship is directed at M2 students with various background (complex networks, algorithmic, graph theory) with a strong interest in graph algorithmics and/or graph theory and its applications.

Formation et compétences requises :
Students in M2 with knowledge of the following: graph theory, algorithmique, statistics, statistical physics, and coding in Python and a compiled language like C/C++/Go/Rust.

Adresse d’emploi :
Le stagiaire fera partie de l’équipe Complex Networks du LIP6 – Sorbonne Université, situé à:
4 place Jussieu
75252 PARIS CEDEX 05, France

Document attaché : 202202011233_Internship_Proposal.pdf

Deep learning pour l’émulation de prévisions météorologiques à très fine échelle
Mar 1 – Mar 2 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Centre National de Recherche Météorologique (CNRM)
Durée : 6 mois
Contact : laure.raynaud@meteo.fr
Date limite de publication : 2022-03-01

Contexte :
Les prévisions météorologiques opérationnelles sur les domaines Outre-Mer utilisent une résolution spatiale de l’ordre du kilomètre. Des résolutions hectométriques permettraient de gagner encore en réalisme, en particulier sur l’île de la Réunion dont le relief est complexe. Néanmoins, le coût des prévisions à des résolutions de quelques centaines de mètres ne permet pas d’envisager leur utilisation opérationnelle avant plusieurs années.
Une alternative moins coûteuse à cette descente d’échelle dynamique est la descente d’échelle statistique. L’objectif est d’apprendre une relation statistique entre les prévisions basse résolution et les prévisions haute résolution. Les méthodes de descente d’échelle les plus classiques reposent sur des interpolations simples ou des approches de régression linéaire. Récemment, plusieurs études ont montré que des méthodes d’apprentissage profond tels que les réseaux de neurones convolutionnels offrent des perspectives intéressantes pour la descente d’échelle (Vandal et al., 2018; Baño-Medina et al., 2019, Leinonen et al., 2020; Höhlein et al. 2020, Sha et al., 2020).

Sujet :
L’objectif du travail proposé est de développer une première descente d’échelle statistique à 500m des prévisions sur la Réunion, par apprentissage profond, et pour des variables de temps sensible telles que la température, le vent et les précipitations. Pour cela il s’agira :
1. de sélectionner et d’implémenter une ou plusieurs architectures de réseaux de neurones adaptées au problème de descente d’échelle, en s’appuyant en partie sur la littérature existante
2. de préparer les jeux de données d’entraînement et de validation à partir des prévisions météo basse et haute résolution réalisées par l’encadrement en amont du stage
3. de réaliser des expériences de sensibilité des descentes d’échelle à différents réglages des méthodes statistiques et configurations des jeux de données d’apprentissage
4. d’évaluer l’apport des prévisions 500m obtenues sur des situations à enjeux variées (fortes pluies, risque de feu de forêt, etc.)

Profil du candidat :
Stage de fin d’étude école d’ingénieur ou Master 2.

Formation et compétences requises :
Le stage requiert un réel intérêt pour la prévision numérique du temps et les méthodes d’intelligence artificielle. Une bonne connaissance des réseaux de neurones convolutionnels et de leur implémentation Python est requise.

Adresse d’emploi :
Météo-France/CNRM,Toulouse, France.