MaDICS

Huitième édition du Symposium MaDICS (les inscriptions sont ouvertes !)

Ce rendez-vous annuel rassemble la communauté MaDICS afin de mettre en lumière les avancées récentes en sciences des données, à travers un programme scientifique riche comprenant des conférences invitées (keynotes), des ateliers thématiques, des tables rondes et des sessions de posters.
Ces temps forts favorisent des échanges scientifiques à la fois stimulants et conviviaux.

Une Session Poster sera spécialement consacrée aux jeunes chercheuses et jeunes chercheurs souhaitant présenter leurs travaux en analyse et gestion de données et dans les domaines interdisciplinaires autour de la Science des Données. Cette session sera également l’occasion d’échanger avec des collègues académiques et des acteurs industriels sur les thématiques de recherche présentées.

Dates importantes :

Soumission de posters : au plus tard le ~~23 mars 2026~~ 2 avril 2026
Retour : 9 avril 2026
Date limite d’inscription : 30 avril 2026
Symposium : les 2 et 3 juin 2026 à Avignon

Nous vous invitons d’ores et déjà à réserver ces dates dans votre agenda et à vous inscrire !
Inscrivez-vous ici

Pour en savoir plus…

MaDICS est un Groupement de Recherche (GDR) du CNRS créé en 2015. Il propose un écosystème pour promouvoir et animer des activités de recherche interdisciplinaires en Sciences des Données. Il est un forum d’échanges et d’accompagnement pour les acteurs scientifiques et non-scientifiques (industriels, médiatiques, culturels,…) confrontés aux problèmes du Big Data et des Sciences des données.
Pour en savoir plus…

Les activités de MaDICS sont structurées à travers des Actions et Ateliers. Les Actions rassemblent les acteurs d’une thématique précise pendant une durée limitée (entre deux et quatre ans). La création d’une Action est précédée par un ou plusieurs Ateliers qui permettent de consolider les thématiques et les objectifs de l’action à venir.

Le site de MaDICS propose plusieurs outils de support et de communication ouverts à la communauté concernée par les Sciences des Données:

Manifestations MaDICS : Le GDR MaDICS labellise des Manifestations comme des conférences, workshops ou écoles d’été. Toute demande de labellisation est évaluée par le Comité de Direction du GDR. Une labellisation rend possible un soutien financier pour les jeunes chercheuses et chercheurs. Une labellisation peut aussi être accompagnée d’une demande de soutien financier pour des missions d’intervenants ou de participants à la manifestation.
Pour en savoir plus…
Réseaux MaDICS : pour mieux cibler les activités d’animation de la recherche liées à la formation et à l’innovation, le GDR MaDICS a mis en place un Réseau Formation destiné à divers publics (jeunes chercheurs, formation continue,…), un Réseau Innovation pour faciliter et intensifier la diffusion des recherches en Big Data, Sciences des Données aux acteurs industriels et un Club de Partenaires qui soutiennent et participent aux activités du GDR.
Pour en savoir plus…
Espace des Doctorants : Les doctorants et les jeunes chercheurs représentent un moteur essentiel de la recherche et le GDR propose des aides à la mobilité et pour la participation à des manifestations MaDICS.
Pour en savoir plus…
Outils de communication : Le site MaDICS permet de diffuser des informations diverses (évènements, offres d’emplois, proposition de thèses, …) liées aux thématiques de recherche du GDR. Ces informations sont envoyées à tous les abonnés de la liste de diffusion MaDICS et publiés dans un Calendrier public (évènements) et une page d’offres d’emplois.

Adhésion au GDR MaDICS : L’adhésion au GDR MaDICS est gratuite pour les membres des laboratoires ou des établissements de recherche publics. Les autres personnes peuvent adhérer au nom de l’entreprise ou à titre individuel en payant une cotisation annuelle.
Pour en savoir plus…

Manifestations à venir

Journées Ecoles Conférences et Séminaires

Actions, Ateliers et Groupes de Travail :

CODA DAE DatAstro DSChem EXMIA GINO GRASP RECAST SaD-2HN SIMDAC SimpleText TIDS

Jun

Sat

2020

Apprentissage actif profond pour l’identification et la géolocalisation de sources de pollution atmo

Tickets

Jun 20 – Jun 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire d’Informatique, Bio-Informatique et S
Durée : 3 ans
Contact : Khalifa.Djemal@ibisc.univ-evry.fr
Date limite de publication : 2020-06-20

Contexte :
Il est désormais démontré que la qualité de l’air a un impact sur la santé et devient un sujet de plus en plus préoccupant à l’échelle urbaine. La caractérisation de sources de pollution atmosphérique en environnement urbain devient de ce fait un enjeu important, et repose essentiellement sur l’utilisation d’un grand nombre de capteurs fixes et/ou mobiles.

Les objectifs de ce travail de thèse concernent l’identification et la géolocalisation de sources de pollution atmosphérique, et ce grâce au déploiement d’un réseau de capteurs géographiquement distribués.
Dans ce contexte ce projet de recherche se propose de mettre en œuvre une méthode hybride d’identification de sources, couplant des approches d’apprentissage actif profond et des méthodes d’optimisation de données. Des campagnes de mesures existantes permettront de valider expérimentalement les approches développées

Sujet :
Depuis quelques années, différents travaux de recherche scientifique ont démontrés que la qualité de l’air a un impact sur la santé et devient un sujet de plus en plus préoccupant à l’échelle urbaine. L’identification et la géolocalisation de sources de pollution atmosphérique est donc un enjeu important et repose sur l’utilisation d’un grand nombre de capteurs de gaz multimodaux fixes et/ou embarqués.

En recherche scientifique, l’identification de sources polluantes repose sur la résolution d’un modèle inverse complexe mal posé au regard des données observées. La dispersion de polluants est généralement surveillée par des capteurs placés dans un domaine spatialement discret et fournissent des observations temporelles. Ces observations sont ensuite utilisées pour estimer les propriétés des sources de contaminants, par exemple leurs positions, leurs débits de rejet dans l’atmosphère et les paramètres du modèle régissant la dispersion de ces contaminants (par exemple la dispersion, la topographie du site, la météorologie, etc.). Ces estimations sont essentielles pour une évaluation fiable des dangers et des risques de contamination. Dans le cas particulier de plusieurs sources de contamination (avec des positions et des débits d’émission différents), les observations représentent un mélange ou une combinaison de deux ou plusieurs polluants.

Dans ce cadre, le travail attendu consistera en la résolution d’un problème de localisation de sources polluantes en environnement de type urbain avec un réseau de capteurs fixes et/ou mobiles. En effet, à partir de données optimisées, issues de campagnes de mesures existantes, c’est-à-dire des sources identifiées et localisées dans un environnement connu, il s’agira dans un premier temps, de mettre en œuvre un modèle d’apprentissage profond avec la prise en compte de manière active des différents paramètres des capteurs. Dans un second temps, le modèle construit avec une stratégie d’apprentissage actif, sera ensuite capable d’identifier et de donner une estimation de la position des sources polluantes dans un environnement inconnu.

Profil du candidat :
De niveau Master2 recherche ou équivalent, en Intelligence Artificielle (IA) et informatique ou Mathématiques appliquées (modélisation et calculs scientifiques).

La maîtrise des méthodes et des outils de traitement et analyse de données, des langages Python et C, sont vivement souhaités. Des connaissances de base en sciences de l’environnement atmosphérique seront également très appréciées.

Niveau d’anglais requis: Intermédiaire supérieur: Vous pouvez utiliser la langue de manière efficace et vous exprimer précisément.

Formation et compétences requises :
Master2 research level or equivalent, in Artificial Intelligence (AI) and Computer Science or Applied Mathematics (modelling and scientific calculations).

Mastery of data processing and analysis methods and tools, Python and C languages, are highly desirable. Basic knowledge of atmospheric environmental sciences will also be highly appreciated.

Level of English required: Upper Intermediate: You can use the language effectively and express yourself accurately.

Adresse d’emploi :
Univ. Evry, Université Paris-Saclay
IBISC, 40 rue du Pelvoux
91020 Evry Courcouronnes, cedex

Contact: Khalifa.Djemal@univ-evry.fr
Candidature: https://www.adum.fr/as/ed/voirproposition.pl?site=adumR&matricule_prop=31493#version
ou:
https://www.adum.fr/index.pl

Categories: theses

Explain to Learn – Learn to Explain

Tickets

Jun 20 – Jun 21 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Universite Cote d’Azur / Inria Sophia Mediterrane
Durée : 3 ans
Contact : precioso@unice.fr
Date limite de publication : 2020-06-20

Contexte :
In the last few years, the explosion of interest in deep learning has led to improve dramatically the performance of intelligent systems in a remarkable number of different fields. However, re-cent critical analyses provide evidence of their limitations. In machine learning, one is typically concerned with communication protocols, the purpose of which is to explain the task to be learned. However, the interest is growing on high human-like interactions capable of supporting a sort of Leaning to Explain and Explain to Learn (L2EE2L) protocol.
In this PhD project the student is expected to explore a constrained-based modeling of the environment that makes it possible to unify learning and inference within the same mathematical framework. The unification is based on the abstract notion of constraint, which provides a representation of knowledge granules gained from the interaction with the environment. The agents are based on deep neural network architectures, whose learning and inferential processes are driven by different schemes for enforcing the environmental constraints.

Sujet :
In this PhD we plan to address this core question for AI field by including logic constraints into machine learning models from both directions:
– Top-Down: Logic constraints from relational knowledge graph will be translated into real-valued functions arising from the adoption of opportune t-norms. Computational models like Graph Neural Networks (GNN) will be incorporated in the proposed framework thanks to the expression of structured domains by constraints. Based on such neural architectures, as Deep Logic Models, we should be able to strengthen and enrich the existing knowledge (for instance by predicting links between concepts in knowledge graphs).
– Bottom-Up: The architecture of a deep network trained on a given dataset can be related to the underlying knowledge between the concepts represented in this dataset. Thus, both the knowledge graph between considered concepts and the deep neural net-work can strengthen and improve each other though reasoning and semantic relational consistency preservation.

Profil du candidat :
The candidate should hold a Master degree in Computer Science with a major in Artificial Intelligence, or in Applied Math with a specialization in Learning.

Formation et compétences requises :
Symbolic learning/Learning with constraints
knowledge representation
Sub-symbolic learning/Machine Learning/Deep Learning

Adresse d’emploi :
Mainly at Inria Sophia Mediterranee but also Siena University for some visits.

Document attaché : 202005081642_3IA-PhDProposal-Learn to Explain – Explain to Learn.pdf

Categories: theses

Offre de thèse – raisonnement dans le Web des Objets – Lyon

Tickets

Jun 20 – Jun 21 all-day

Offre en lien avec l’Action/le Réseau : RoD/– — –

Laboratoire/Entreprise : LIRIS, UMR CNRS 5205
Durée : 3 ans
Contact : frederique.laforest@insa-lyon.fr
Date limite de publication : 2020-06-20

Contexte :
This PhD position is in the context of the CosWot project (“Constrained Semantic Web of Things”), a project funded by the French National Research Agency. CoSWoT will consider semantic web technologies for the Web of things (WoT). The objectives are to propose a distributed WoT-enabled software architecture embedded on constrained devices with two main characteristics: 1) it will use ontologies to declaratively specify the application logic of devices and the semantics of the exchanged messages; 2) it will add reasoning functionalities to devices, so as to distribute processing tasks among them. Doing so, the development of applications including devices of the WoT will be highly simplified: our platform will enable the development and execution of intelligent and decentralised smart WoT applications despite the heterogeneity of devices.
The main objectives of this PhD is to provide contributions to distributed and embedded reasoning on the Web of Things.

Sujet :
Distributed embedded incremental reasoning for Web of Things

Keywords:

Web of things, Semantic Web, Reasoning, Embedded, Distributed, Edge computing

see attached document for details.

Profil du candidat :
M2 in computer science.
Skills in semantic web knowledge representation and reasoning are required.
Proficiency in the English language for speaking, writing and reading are necessary.
Experience in the Rust programming language is a plus.

French language skills are not a prerequisite. For non-French speakers, French lessons will be provided for free by INSA Lyon (French as a Foreign Language).
Depending on the candidate native language, French or English will be the working language.

Formation et compétences requises :
M2 in computer science.
Skills in semantic web knowledge representation and reasoning are required.
Proficiency in the English language for speaking, writing and reading are necessary.
Experience in the Rust programming language is a plus.

Adresse d’emploi :
LIRIS, INSA Lyon
7 avenue Capelle, 69100 Villeurbanne – France

Document attaché : 202005190833_PhD Coswot LIRIS.pdf

Categories: theses

Jun

Sun

2020

PhD position at Aix-Marseille University around graph and neuroscience

Tickets

Jun 28 – Jun 29 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Institut de Neurosciences de la Timone (INT)
Durée : 3 ans
Contact : francois-xavier.dupe@lis-lab.fr
Date limite de publication : 2020-06-28

Contexte :
Applications are invited for a full time 3-years PhD training at the University of Aix-Marseille at the cross-road between two labs: http://www.int.univ-amu.fr/?lang=en and http://qarma.lis-lab.fr
See the PhD project for more details: https://college-doctoral.univ-amu.fr/sites/college-doctoral.univ-amu.fr/files/public/aidoc-marseille_imaging-coulon_dupe_0.pdf
The procedure for applying is described here: https://college-doctoral.univ-amu.fr/fr/call-for-applications-to-the-aidocamu-doctoral-program-in-artificial-intelligence

Note that the closing date of the call is shortly : 28 June at 12:00 (CEST)

Sujet :
Graph learning methods apply to graph representing brain zone and area of interest.

Profil du candidat :
M2 willing to work in a multi-disciplinary field with graph learning, machine learning and neuroscience. The future student will work between two laboratories in order to develop new methods to help brain understanding.

Formation et compétences requises :
M2 in Computer Science or Data Science. A good knowledge about graph methods is welcomed.

Adresse d’emploi :
Aix-Marseille University

Categories: theses

Jun

Mon

2020

Thèse Cirad – Inrae – H2020 MOOD

Tickets

Jun 29 – Jun 28 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR TETIS – Montpellier
Durée : 3 ans
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2020-06-29

Contexte :
La veille en santé animale a pour objectif l’alerte précoce vis-à-vis de dangers sanitaires connus ou émergents. Elle repose sur le recueil, le suivi et l’analyse quotidienne d’informations issues de sources officielles, telles que l’Organisation mondiale de la santé animale (OIE), et de sources non-officielles telles que les médias ou les réseaux sociaux (Hartley et al. (2010)). Plusieurs systèmes de biosurveillance, tels que MedISys (Mantero et al. (2011)), GPHIN (Blench (2008)) ou HealthMap (Freifeld et al. (2008)), sont ainsi dédiés à l’acquisition et à la diffusion de données issues de sources informelles. Par ailleurs, ces approches reposent sur une modération humaine à une ou plusieurs étapes de leur processus. Certains systèmes collectent les données à partir de sources officielles et non officielles (HealthMap, EWRS et GOARN) tandis que d’autres les collectent principalement via un réseau d’experts et d’abonnés (ProMED). Les utilisateurs des systèmes EWRS et ProMED mènent également une recherche manuelle sur le Web et d’autres systèmes pour trouver des informations sanitaires complémentaires (Barboza, 2014 ; Yu et al., 2007). Le système IBIS utilise l’approche collaborative (« crowd-sourcing »). IBIS permet également d’analyser le contenu de chaque article et de contribuer à l’évaluation de termes automatiquement extraits et annotés : les maladies, les espèces touchées, les signes cliniques ainsi que le lieu d’évènement (Lyon, Mooney et al., 2013 ; Lyon, Grossel et al., 2013).
Dans ce contexte, les chercheurs des unités TETIS et ASTRE ont proposé et développé PADI-Web (Platform for Automated extraction of Disease Information from the web), un outil de biosurveillance des médias digitaux pour la détection de foyers de maladies animales (Arsevska et al., 2018 ; Valentin et al., 2020). PADI-web est intégré dans la thématique de Veille sanitaire internationale, au sein de la plateforme d’Epidémiosurveillance en santé animale (plateforme ESA). Depuis sa première version dédiée à la veille de sources en anglais, PADI-web a été enrichi en 2019 d’un nouveau classifieur reposant sur des méthodes d’apprentissage automatique et intègre les documents multilingues.

La thèse proposée s’inscrit dans le cadre du projet H2020 MOOD « Monitoring Outbreak events for Disease surveillance in a data science context » (https://mood-h2020.eu/). Ce projet, qui fédère 25 partenaires issus de 10 pays, a pour objectif d’améliorer la détection, la surveillance et l’évaluation des maladies infectieuses émergentes en Europe en utilisant les techniques d’exploration et d’analyse de données massives provenant de sources multiples. Il est porté par le Cirad (UMR ASTRE) avec une participation importante de l’UMR TETIS dans les WP2 et WP3.

Sujet :
Sujet : Proposition et mise en oeuvre de méthodes génériques pour la veille épidémiologique fondée sur l’intégration de données textuelles hétérogènes

Outre les améliorations méthodologiques à mettre en œuvre pour enrichir la plateforme actuelle (prise en compte l’hétérogénéité des différentes sources mobilisées dans un contexte multilingue), le point le plus important du travail proposé dans cette thèse est de développer des méthodes génériques pour la veille épidémiologique fondée sur l’intégration de données textuelles hétérogènes. Ceci permettra de proposer et mettre en place un système appelé PADI-Web One Health. Pour répondre à cet enjeu, trois problématiques seront plus particulièrement étudiées.

– Proposition d’un cadre généralisé qui intègre les différents types de veille.
Depuis 2014, le système PADI-Web s’intéresse à la veille épidémiologique liée à la santé animale. L’objectif de cette thèse est d’étendre ces approches dans un cadre générique qui intègre la veille en santé végétale et alimentaire. En effet, outre certaines informations, en particulier spatio-temporelles et les problématiques associées (extraction et désambiguïsation d’informations spatiales dans les textes) qui sont par nature tout à fait génériques, la généricité de certains concepts thématiques (par exemple, les symptômes) devront être étudiées tout en prenant en compte la spécificité liée à chaque domaine.

– Identification d’événements épidémiologiques fins dans les données multi-sources.
La tâche proposée consiste à identifier les informations issues de donnés non structurées multilingues (dépêches, articles scientifiques, etc.) et de qualifier ces informations extraites (« confiance » à établir sur la base de la qualité des données, des sources et des approches automatiques utilisées). Une attention particulière sera portée à l’identification de signaux faibles. Les méthodes proposées combineront des approches d’apprentissage supervisées, des systèmes à base de règles et des méthodes de plongements lexicaux (word embedding).

– Fusion d’informations épidémiologiques issues de données hétérogènes.
La dernière contribution attendue consistera à combiner les informations issues des organismes officiels (par exemple l’OIE) aux données non officielles obtenues par fouille de textes afin de proposer une méthode générique, robuste et complète.

Profil du candidat :
Le candidat retenu devra être de formation initiale en informatique, en biostatistique ou en épidémiologie mais avec des compétences solides dans les sciences informatiques.

Formation et compétences requises :
Sciences des Données, Fouille de données, Fouille de textes

Adresse d’emploi :
Le ou la doctorant(e) sera accueilli(e) à l’UMR TETIS (Montpellier – France).

Dossier de candidature (* : éléments obligatoires) à envoyer avant le 26 juin 2020 :
– CV détaillé *
– lettre de motivation *
– relevés de notes (avec classement) *
– contacts pour recommandation *
– lettres de recommandation
– rapport du dernier stage réalisé

Les candidatures sont à envoyer par mail à :
– Mathieu Roche (Cirad, UMR TETIS)
– Maguelonne Teisseire (Inrae, UMR TETIS)
– Renaud Lancelot (Cirad, UMR ASTRE)

Document attaché : 202005290636_these_MOOD_WP2_PADI_Web_OneHealth_final.pdf

Categories: theses

Jun

Tue

2020

Deep Learning analysis of multiprobe sensor networks to assess risk scenario’s at volcanic hydrothermal ecosystems

Tickets

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIMOS, UMR 6158 CNRS
Durée : 36 mois
Contact : vincent.barra@isima.fr
Date limite de publication : 2020-06-30

Contexte :
Volcanic hydrothermal systems are poorly-considered, long-fuse environmental time bombs. They involve complex process-response systems with spatially and temporally varying flows of heat and mass from deep volcanic sources to the Earth’s surface.
Across such zones, high concentrations of volcanic gas and extreme heat fluxes act as environmental polluters, killing-off flora and fauna across wide zones. Such systems are extremely common and involve some of the highest, sustained, heat fluxes on the planet.

The scientific context of this work is the ANR funded project DIRE (Data-Integration, Risk and the Environment) leaded by three CNRS labs of Clermont-Ferrand (LMV , LIMOS , LPC ), in collaboration with national (IRD) and international (INGV Italy, Univ. Geneva) partners.

Sujet :
The objective of this research project is to build Deep-Learning data-driven models that will allow to send alerts concerning the timing, location and hazard level of environmental crises at hydrothermal systems. Potential outcomes can then be assessed by examining past crises and their ecosystem impacts.

The heterogeneous big data originate from high-temporal resolution temperature, pression, gas composition, humidity, windspeed and rainfall sensors, seismicity and physical deformation measures, as well as satellite images (IR and NDVI values) and new and exclusive measures developed in this ANR project concerning muography. Measures are collected from Vulcano (Eolian Islands, Italy), a test bench for understanding active hydrothermal systems. The resulting dataset consists of thousands of multiparametric timeseries, from which probabilistic risk assessment and short-term event-scenario prediction is expected.

Once the model will be built and validated, it is expected to track degassing scenario’s and crises at active hydrothermal systems previously identified as possible targets (Indonesia, Vanuatu, Ecuador…)

Profil du candidat :
Candidates with a background of Computer Sciences will be considered seriously for this position. Speaking French is not mandatory but in any case, good English skills are necessary.

Formation et compétences requises :
Computer Science, Machine & Deep Learning, Programming (Python)

Adresse d’emploi :
LIMOS, UMR 6158 CNRS
Campus des Cézeaux
63178 AUBIERE

Document attaché : phD-Deep-DIRE.pdf

Categories: theses

Détection de signaux faibles et évolution incrémentale des modèles de prédiction – Application à la

Tickets

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Entreprise PRO-BTP / Laboratoire I3S (équipe Inria
Durée : 3 ans
Contact : michel.riveill@univ-cote-dazur.fr
Date limite de publication : 2020-06-30

Contexte :
L’arrivée à maturité du Big Data permet de lutter plus efficacement contre la fraude. Dans ce domaine, le régime obligatoire a détecté 231,5 millions d’euros de prestations frauduleuses en 2015 ayant pour origine principale les Professionnels de Santé (opticiens, pharmaciens, auxiliaires médicaux, médecins, etc.) et les établissements.
Dans un contexte où diminuer les frais de gestion est un réel enjeu pour les assureurs complémentaires de santé, la lutte contre la fraude est une réelle attente des clients des professionnels du secteur afin que chacun perçoive le juste retour de ses contributions.

PRO BTP qui possède déjà un outils modulaire basé essentiellement sur des règles métiers par secteur souhaite étudier d’autres approches afin d’en évaluer leurs pertinences.

Sujet :
Objectif

A partir des données collectées par PRO BTP, l’objectif de cette thèse doit permettre de construire un modèle à bases de réseaux de neurones complémentaire aux détecteurs de fraudes actuellement utilisés afin de valider l’approche.

De par les caractéristiques du domaine, nous mettrons plus particulière l’accent sur la nécessité d’une approche partiellement supervisée, la détection des signaux faibles et l’incrémentalité des modèles.

– Approche partiellement supervisée : si les fraudes connues permettent d’avoir des données étiquetées, un des objectifs de l’architecture à proposer est d’être capable de détecter de nouvelles formes de fraudes non encore identifiées.
– Détection des signaux faible et pertinence du modèle : il est admis qu’environ 6 % des fraudes ne sont pas détectées mais aussi qu’environ 40 % des fraudes actuellement non détectées correspondent en fait à des faux-positifs. Un des objectif du travail est d’améliorer les résultats sur ces deux critères.
– Incrémentalité des modèles : le comportement des fraudeurs évolue au fil du temps bien souvent parce que l’environnement général évolue que ce soit une nouvelle législation, l’apparition de nouveaux outils ou tout simplement l’ouverture d’un nouveau marché. Il est évident que le prédicteur doit être capable de détecter ces nouveaux comportements et de s’adapter à ces situations nouvelles.

Organisation des travaux de recherche

Après une première phase consistant à bien comprendre la nature des données traiter et le mode de fonctionnement de l’approche actuellement utilisée, il s’agira de définir un premier modèle de clusterisation multiples permettant de regrouper les données en différentes catégories et de regarder si celles-ci correspondent au profil déjà connu [1, 2]. Une fois éliminé les classes correspondant à des comportements déjà connues, il s’agira d’analyser avec plus de précision les classes contenant des comportements mixtes [3, 4, 5]. La troisième étape consistera à intégrer une notion de temporalité afin d’apprendre les nouveaux comportements et peut-être donner un peu moins de poids aux plus anciens ne correspondant plus, par exemple, au cadre législatif actuel [6, 7, 8].

Bibliographie
1. Vincent Brault, Mahendra Mariadassou. Co-clustering through Latent Bloc Model: a Review. Journal de la Société Française de Statistique, Société Française de Statistique et Société Mathématique de France, 2015, 156 (3), pp.120-139. ⟨hal-02088216⟩
2. Etienne Côme, Pierre Latouche, Nicolas Jouvin, Charles Bouveyron. Hierarchical clustering with discrete latent variable models and the integrated classification likelihood. 2020. ⟨hal-02530705⟩
3. Johnson, J.M., Khoshgoftaar, T.M. Survey on deep learning with class imbalance. J Big Data 6, 27 (2019). https://doi.org/10.1186/s40537-019-0192-5
4. Herland M, Khoshgoftaar TM, Bauder RA. Big data fraud detection using multiple medicare data sources. J Big Data. 2018;5(1):29. https://doi.org/10.1186/s40537-018-0138-3.
5. Bauder RA, Khoshgoftaar TM. The effects of varying class distribution on learner behavior for medicare fraud detection with imbalanced big data. Health Inf Sci Syst. 2018;6(1):9. https://doi.org/10.1007/s13755-018-0051-3.
6. Casalino, Gabriella & Castellano, Giovanna & Mencar, Corrado. (2019). Credit card fraud detection by dynamic incremental semi-supervised fuzzy clustering. 10.2991/eusflat-19.2019.30.
7. Mohammed, Rafiq & Wong, Kok-Wai & Shiratuddin, Mohd Fairuz & Wang, Xuequn. (2019). Improving fraud prediction with incremental data balancing technique for massive data streams.
8. Junting Zhang, Jie Zhang, Shalini Ghosh, Dawei Li, Serafettin Tasci, Larry Heck, Heming Zhang, C.-C. Jay Kuo, Class-incremental Learning via Deep Model Consolidation, WACV 2020, arXiv:1903.07864

Profil du candidat :
Nous recherchons un étudiant motivé et talentueux qui possède de bonne capacité de communication scientifique (oral/lecture/écriture), une forte autonomie et intéressé par une thèse se déroulant dans un contexte industriel.

Formation et compétences requises :
Master en apprentissage machine/sciences des données ou probabilités/statistiques
Expérience de programmation avec Python
L’expérience des boîtes à outils Tensorflow-Pytorch-Keras
Gestion de projet : GitHub

Adresse d’emploi :
Entreprise : PRO BTP, Cagnes sur mer
Laboratoire : Equipe Inria-I3S-LJAD MAASAI, Sophia Antipolis

Categories: theses

Doctorat : Analyse automatique de l’environnement marin à partir de sonar haute résolution embarqué sur drones

Tickets

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : ECA/Lab-STICC/ICD
Durée : 3 ans
Contact : alexandre.baussard@utt.fr
Date limite de publication : 2020-06-30

Contexte :
Le groupe ECA est réputé pour son expertise en matière de robotique, de systèmes automatisés, et de simulation. Depuis 1936, il développe des solutions technologiques complètes et innovantes pour réaliser des missions complexes dans des environnements hostiles ou restrictifs, principalement dans les secteurs de la défense, du maritime, de l’aérospatial, de la simulation.
Le groupe a toujours été à la pointe de l’innovation depuis sa création en 1936. Actuellement, ses équipes de R&T imaginent les systèmes de robots pour les années 2025-2040, afin de répondre encore mieux aux besoins de ses clients.

Sujet :
Dans le cadre de l’accroissement de l’autonomie décisionnelle de ses robots sous-marins, ECA Group fournit en temps réel l’analyse de l’environnement à ses AUV (Autonomous Underwater Vehicle). Ses robots utilisent en particulier des sonar haute résolution pour acquérir des informations sur le milieu marin et en particulier le fond.
Dans ce cadre, la caractérisation du fond marin est une étape cruciale. La forte variabilité des fonds marins complexifie notamment la mise en œuvre d’algorithmes robustes de reconnaissance des objets présents. Le but de ce travail est ainsi d’appréhender et de conceptualiser l’introduction des paramètres environnementaux dans ce processus de reconnaissance. Ce travail s’appuiera sur de nombreuses données réelles et aura comme objectif d’évaluer les performances opérationnelles des techniques développées.

Mots-clés : sonar, fonds marins, classification, IA, machine learning, système autonome.

Profil du candidat :
Pour des raisons liées à la nature du financement et du sujet, le.la candidat.e doit être citoyenn.ne de l’union européenne

Formation et compétences requises :
Le.la candidat.e devra posséder de fortes compétences en mathématiques appliquées, en traitement du signal et des images et/ou en machine learning.
Des connaissances générales sur les données sonar ou même radar seront fortement appréciées.

Adresse d’emploi :
Les candidats intéressés devront fournir un C.V. et exprimer leur motivation pour le sujet. Par ailleurs, il est également demandé de fournir au moins un référent ou une lettre de recommandation. Le dossier est à envoyer à :
isabelle.quidu@ensta-bretagne.fr , tauvry.s@ecagroup.com

Document attaché : Proposition_sujet_these_cifre_ECA_ENSTA_UTT.pdf

Categories: theses

Explainable and transferable Anomaly Detection for cybersecurity in an Artificial Immune Ecosystem

Tickets

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : ICUBE/Université de Strasbourg
Durée : 36 mois
Contact : pierre.parrend@unistra.fr
Date limite de publication : 2020-06-30

Contexte :
ANR Artic Project, program « contrats doctoraux en intelligence artificielle »

Lieu de travail Strasbourg – Grand Est – France
Champs scientifiques Informatique
Direction : Pierre Parrend, Prof. HDR, ECAM Strasbourg-Europe
Co-Direction : Aline Deruyver, McF HDR, Université de Strasbourg

Mots clés
IA explicable; IA transférable; Détection d’anomalies; cyber-attaques complexes

Sujet :
The Artificial Immune Ecosystem supports detection, memory and tolerance for detecting complex cybersecurity attacks like multi-step or zero-day attacks.
Detection finds unusual patterns likely to be a malicious behaviour. Memory stores these patterns for latter detection. Tolerance uses expert feedback and storage of earlier non-malicious patterns to reduce false positives.

To support an efficient analysis and reaction process, the models extracted for a given IT ecosystem must exhibit two key properties of artificial intelligence: explainability and transferability. Explainability ensures that the cybersecurity administrator have enough information to identify, characterize and react to suspicious traffic. Transferability leverages the knowledge gathered in one given context to bootstrap analysis in another. It requires 1)that the model can be extracted and 2)that it can be tailored to a new environment, abstracting away system-specific detectors and supporting adaptability to identify new anomalies.

Following a literature review on explainable and transferable Artificial Intelligence for Cybersecurity, a new model will be proposed and evaluated wrt. state of the art algorithms. Neural networks (such as MLP) and tree-based approaches (such as Isolation Forrests), which both exhibit major performance benefits for detection while having very distinct pre-conditions on data availability and required computing power, will be considered in priority. If relevant, this model will be challenged through cybersecurity or datascience competitions.

Profil du candidat :
Master and/or Engineer in computer science, with major in Artificial Intelligence or Cybersecurity.

Please send us a CV as well as the Master / engineering school transcripts, as well as your rankings, by email to: pierre.parrend@unistra.fr.

Any scientific publications (including unpublished scientific reports) are a plus in the application.

Formation et compétences requises :
The following skills are an important selection criterion for this thesis project:
* Machine learning
* Or: Statistics for data science
Theoretical knowledge as well as a first practical experience are expected.

Skills in graph theory, or cybersecurity, are an important asset.

Writing skills in English (and for native speakers in French) are very important for the success of a doctoral thesis in computer science.

Adresse d’emploi :
Laboratoire ICube, 11, Rue Humann, 67000 Strasbourg

Document attaché : 202005140655_Explainable and transferable Anomaly Detection for cybersecurity.pdf

Categories: theses

Protocoles reproductibles et réutilisables pour l’analyse de données multimodales en santé

Tickets

Jun 30 – Jul 1 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : LRI
Durée : 3 ans
Contact : alban.gaignard@univ-nantes.fr
Date limite de publication : 2020-06-30

Contexte :
L’anévrisme intracrânien est une anomalie vasculaire cérébrale affectant 3,2% de la population Française. Alors que sa rupture peut conduire au décès ou à un handicap sévère, il n’y a aucun outil diagnostic. L’étude de ces pathologies nécessitent i) l’utilisation d’une grande variété de jeux de données acquises à différentes échelles (génome, tissus vasculaires, organe vasculaire cérébral, population) dans le cadre de collaborations multidisciplinaires et multi-site et ii) la conception de protocoles d’analyse complexes et variés. Il est crucial de pouvoir reproduire ces analyses avec un fort niveau de confiance sur des jeux de données. Cependant, le partage de données de santé est souvent freiné par les impératifs de protection des données personnelles et se heurte à des contraintes techniques (sécurité, volume). Ces contraintes peuvent cependant être limitées lorsque les protocoles sont suffisamment réutilisables pour reproduire des analyses in situ. Aussi, lorsqu’ils sont conçus pour être réutilisables, les implémentations de protocoles (ou workflows) fournissent la provenance des données analysées, et augmentent la confiance des scientifiques dans les résultats produits.
La reproductibilité et réutilisation de protocoles doit faire face à de nombreux défis. C’est lorsqu’un protocole est reproductible qu’il peut être échangé pour être réutilisé en totalité ou partie, ou adapté pour répondre à de nouvelles questions biologiques. La crise de la reproductibilité qui a éclaté il y a 15 ans [SPZA03, AQM+11] a mis en évidence l’incapacité à reproduire des résultats obtenus par des méthodes bioinformatiques pour des raisons très diverses (manque de documentation sur les outils utilisés, non disponibilité des bibliothèques…). Une série de bonnes pratiques a vu le jour, combinées au développement de systèmes capturant la provenance des outils, jeux de données et informations relatives à l’environnement [DCE+07, Boe15, GNT10, BCC+13].
Néanmoins, les protocoles sont conçus et implémentés sans cadre adapté. Les systèmes de workflows offrent des interfaces de développement mais aucun ne permet de garder la trace des workflows réutilisés lors de la construction d’un nouveau workflow. Il en résulte un nombre croissant de workflows dérivés de workflows pré-existants. Il est donc difficile d’identifier l’origine d’un protocole et de son implémentation et de maintenir les nombreuses implémentations de ces protocoles de façon cohérente et efficace.
Alors que de nombreux travaux se sont attaqués à la production de données FAIR (Findable Accessible Interoperable Reusable) [WDA+16, MNV+17, HKP+18], le concept central de protocoles FAIR n’a été considéré que très récemment [GSS+20, Fai20]. Les principes FAIR [WDA+16] doivent être étendus pour prendre en compte notamment le caractère modulaire des protocoles et de leurs implémentations.

Sujet :
L’étude de pathologies comme les anévrismes intracrâniens nécessite l’utilisation d’une grande variété de données et la conception de protocoles d’analyse complexes. La diversité de leurs implémentations rend leur maintenance et partage difficile et limite la confiance des biologistes dans les données produites. Reproduire et réutiliser les protocoles est pourtant crucial pour comparer systématiquement les résultats biologiques, adapter des protocoles à de nouvelles problématiques et répondre aux exigences des plans de gestion de données. L’objectif de cette thèse est de fournir (i) une large bibliothèque de protocoles organisés, (ii) un module de conception et d’exécution de protocoles reproductibles, réutilisables et citables (conception d’algorithmes d’indexation et de recherche efficace de motifs dans les graphes formés par les workflows implémentant les protocoles), (iii) une évaluation de l’approche et (iv) un ensemble de critères FAIR pour les protocoles.

Ce sujet est financé par le CNRS (projet R2P2, appel 80 prime) où le/la doctorant.e collaborera avec des chercheurs du Laboratoire de Recherche en Informatique (LRI, Saclay) et de l’Institut du Thorax (ITX, Nantes).

Mots-clés
Intégration de données biologiques, Réutilisation et échange de protocoles, workflows scientifiques et protocoles FAIR, Analyse de données multi-échelles.

Profil du candidat :
Master M2 en Informatique ou Bioinformatique.

Merci d’envoyer au plus tard le 30 Juin 2020 à alban.gaignard@univ-nantes.fr et cohen@lri.fr un dossier zip avec l’ensemble des pièces suivantes au format pdf : CV – Lettre de motivation – lettre de recommandation (ou nom et coordonnées d’une personne prête à vous recommander) -relevés de notes de L3, M1, M2. Dans le cas où votre dossier serait retenu une audition est à prévoir les 2 ou 3 juillet.

Formation et compétences requises :
Bonnes connaissances en bases de données (si possible en intégration de données), représentation des connaissances (RDF), algorithmique des graphes. Programmation Python. Très bonnes capacités à communiquer notamment dans un milieu interdisciplinaires. Capacité à échanger en anglais est un plus. Connaissances de systèmes de workflows scientifiques (NextFlow, SnakeMake, Galaxy…) est un plus.

Adresse d’emploi :
Laboratoire de Recherche en Informatique
Bât 650 Ada Lovelace, Université Paris Saclay, 91405 Orsay Cedex France

Document attaché : 202006151432_Sujet de thèse – 80 Prime.pdf

Categories: theses

Robust identification of excursion sets with application to flooding risk

Tickets

Jun 30 – Jul 1 all-day

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : Mines Saint-Etienne, BRGM and IRSN
Durée : 36 months
Contact : phd.math4flood@listes.emse.fr
Date limite de publication : 2020-06-30

Contexte :
The risk of coastal flooding is aggravated by the failure of coastal defenses (either natural like dunes or artificial like dykes). In numerical simulations, such processes are typically accounted for by defining a set of scenarii describing for instance the possible spatial location, time duration, erosion height / width of the failures. In the current PhD, we propose to develop a systematic mathematical procedure to characterize the possible combinations of conditions (named excursion set) that lead to flooding.
The PhD candidate will participate to the continuation of the OQUAIDO collaborative project (http://chaire-mathematiques-appliquees.emse.fr/) and benefit from numerous interactions with other researchers in the same scientific domain.

Sujet :
The PhD work involves the inversion of the numerical models that simulate the floods. In order to alleviate the computational cost of this task, we build upon the combination of metamodelling techniques (Gaussian processes) and active learning specifically dedicated to the estimation of excursion set. The PhD aims at improving the existing methods in two ways:
(1) methodologically, by making the inversion robust to extreme-but-rare events and accounting for uncertainties in the numerical models;
(2) operationally, by assessing how this approach can help in the communication and the management of the risk through better high
dimensional visualization of the excursion set and the decomposition of the uncertainties.
The application cases will focus on marine (BRGM) and river (IRSN) flooding.

Profil du candidat :
The candidate should have strong interest in applied mathematics, probability/statistics, data science, numerical methods.
The candidate may also be motivated by applications in the field of environmental risk.
The candidate should like working in a team.

Formation et compétences requises :
– Hold a master’s degree in applied mathematics: probability/statistics, machine learning, data science, optimization,…
– Have a strong background in scientific programming using (Python, Matlab/Octave, R for example)
– Have English skills allowing scientific communication (oral/reading/writing)

Adresse d’emploi :
Saint-Etienne (Fr) and/or Orléans and/or Paris (negociable)

Document attaché : these_BRGM_IRSN_LIMOS_Eng.pdf

Categories: theses

Jul

Wed

2020

Apprentissage profond sur données synthétiques appliqué à l’imagerie radar

Tickets

Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : ONERA
Durée : 3 ans
Contact : elise.koeniguer@onera.fr
Date limite de publication : 2020-07-01

Contexte :
Grâce aux conditions d’acquisition contrôlées, l’imagerie radar RSO (Radar à Synthèse d’ouverture, Synthetic Aperture Radar (SAR) en anglais) présente de bonnes performances en termes de reconnaissance de cibles, de recalage, ou de détection de changement et de surveillance à grande échelle [1], [2].

Les techniques d’apprentissage profond (Deep learning) peuvent encore améliorer les résultats. Cependant, l’absence de base de données suffisamment variées ou nombreuse pour l’apprentissage est un problème important auquel doit faire face la communauté radar. Les méthodes dites de « Data augmentation » [3] permettent d’augmenter artificiellement le nombre de données afin d’améliorer la robustesse des réseaux. Mais elles ne préparent pas les réseaux de neurones profonds à des variations importantes des configurations géométriques d’acquisition, ou à des typologies des scènes ou variantes de cibles jamais mesurées. La solution envisagée propose d’utiliser des outils de simulation basée sur des modélisations physiques pour construire des bases de données d’apprentissage. Les données réelles venant affiner la précision de l’apprentissage dans un second temps.

Sujet :
La thèse a pour objectif de savoir jusqu’à quel point la simulation utilisée dans ce but permet d’améliorer les performances algorithmiques du deep learning. Il sera également important de déterminer par des dégradations contrôlées des outils de simulation quels sont les phénomènes importants devant être modéliser fidèlement pour que cet apprentissage soit pertinent. L’impact de l’incertitude sur les paramètres d’entrées nécessaires à la simulation (matériaux, modèles 3D, géoréférencement…) sera également évalué.

La méthode de simulation actuellement présente dans le simulateur EMPRISE [5] est basé sur la modélisation des propriétés physiques de diffuseurs présents sur la scène. Cette scène est construite à partir de divers éléments (photos sur site, photos aériennes, informations cadastrales, modèles numériques de terrain). La première étape du travail consistera à produire à l’aide de l’outil de simulation des images synthétiques les plus réalistes possibles sur des paysages variés, en tenant compte des comportements dynamiques relatifs à chacun des types de zones (forêts, sols, véhicules, navires, parcelles cultivées, zones portuaires, résidentielles, etc.) La vérité terrain associée sera mise en forme de manière adaptée aux applications visées.

Dans un second temps, les efforts porteront sur la mise en œuvre des différents algorithmes qu’il est envisagé de traiter par ce type de méthodes : la détection de changement, la reconnaissance de cibles, ou bien la recherche d’une vignette radar au sein d’une image de référence de résolution différente, etc.

L’idée maitresse est d’utiliser des techniques de fine-tuning (transfer learning [4]) sur des réseaux initialement formés sur un grand jeu de données obtenu par simulation, en poursuivant l’entraînement sur le plus petit jeu de données de données réelles dont nous disposons. Ainsi, le réseau pré-formé aura déjà appris les fonctionnalités pertinentes, et sera amélioré par la diversité de cas permise par la simulation.

Enfin, un dernier volet de la thèse portera sur l’évaluation des performances de ces réseaux et notamment leur robustesse à des utilisations dans des contextes très différents des bases d’apprentissage (passage de zones tropicales à des zones désertiques, cibles non présente dans la base d’apprentissage). Les tests pourront porter à la fois sur des données réelles pour lesquelles on possède une vérité terrain, et sur des données simulées, ce qui nous permettra de tester un nombre important de cas. La simulation aidera également à évaluer la capacité de généralisation du réseau, c’est à dire la sensibilité de l’algorithme à un changement des conditions d’acquisition entre la base d’entrainement et celle de test.

Le candidat réalisera cette thèse à l’Onera, en collaboration entre deux départements, DEMR et DTIS, et pourra ainsi bénéficier de l’environnement d’expertise idéal pour traiter ce sujet : le département Electromagnétisme et Radar possède une expertise reconnue pour la simulation d’images radar et leur utilisation dans le cadre d’applications opérationnelles notamment en reconnaissance, tandis que le département Information et Système mène de nombreux travaux sur les techniques de deep learning appliquées aux images d’observation terrestre ainsi qu’au recalage d’images.

Ce travail pourra s’appuyer sur des données réelles aéroportées acquises par l’Onera en bande X et Ku ainsi que sur des données de satellites commerciaux (TerraSAR-X, Sentinel) déjà disponibles.

[1] Thu Trang Lé. Extraction d’informations de changement à partir des séries temporelles d’images radar à synthèse d’ouverture. PhD thesis, Grenoble Alpes, 2015.
[2] E. Colin-Koeniguer, A. Boulch, P. Trouve-Peloux and F. Janez, “Colored visualization of multitemporal SAR data for change detection: issues and methods,” EUSAR 2018; 12th European Conference on Synthetic Aperture Radar, Aachen, Germany, 2018, pp. 1-4.
[3] Jun Ding ; Bo Chen ; Hongwei Liu ; Mengyuan Huang. Convolutional Neural Network With Data Augmentation for SAR Target Recognition. IEEE Geoscience and Remote Sensing Letters ( Volume: 13 , Issue: 3 , March 2016)
[4] Esra Al Hadhrami ; Maha Al Mufti ; Bilal Taha ; Naoufel Werghi. Transfer learning with convolutional neural networks for moving target classification with micro-Doppler radar spectrograms. ICAIBD 2018
[5] N. Trouvé, Référent environnement : la démarche collaborative d’EMPRISE, ENVIREM 2019.
[6] Rodrigo Caye Daudt, Bertrand Le Saux, and Alexandre Boulch. Fully convolutional siamese networks for change detection. In 2018 25th IEEE International Conference on Image Processing (ICIP), pages4063–4067. IEEE, 2018.

Profil du candidat :
Ecole d’ingénieur ou Master 2, avec spécialité en informatique scientifique

Formation et compétences requises :
Première expérience requise en Deep-Learning (projet d’école ou stage), des connaissances en radar seraient un plus.

Adresse d’emploi :
ONERA DEMR
Centre de Palaiseau
91000 Palaiseau
France

Document attaché :

Categories: theses

Segmentation d’images optiques de télédetection par apprentissage profond pour la simulation SAR

Tickets

Jul 1 – Jul 2 all-day

Annonce en lien avec l’Action/le Réseau : Doctorants

Laboratoire/Entreprise : ONERA
Durée : 3 ans
Contact : elise.koeniguer@onera.fr
Date limite de publication : 2020-07-01

Contexte :
Grâce à la stabilité des conditions d’acquisition, l’imagerie RSO (Radar à Synthèse d’Ouverture) ou SAR (Synthetic Aperture Radar) permet la surveillance de grandes scènes et l’identification de cibles d’intérêt. Modéliser et simuler des images SAR permet de tester des nouvelles configurations d’acquisition, de développer de nouveaux algorithmes et d’en tester leurs performances dans un environnement contrôlé.
Différents modèles électromagnétiques sont inclus dans le système de simulation EMPRISE [1] développé à l’ONERA. Ces modèles permettent de simuler de façon adaptée l’environnement marin, terrestre, urbain ou les cibles d’intérêt. Pour simuler l’environnement terrestre ou urbain, il est nécessaire d’avoir des informations géographiques sur la scène à simuler. Ces informations comprennent la position des différents éléments ou infrastructures présents sur la scène (bâtiment, champs, route, forêts, …) ainsi que les matériaux qui constituent ces éléments (routes de gravier ou de goudron, forêts de pins ou de feuillus,…). Deux types de base de données sont considérées : les bases géo-spécifiques, qui correspondent à un endroit précis, et les bases géo-typiques, qui ne correspondent à aucun endroit précis. Les bases géo-spécifiques permettent la comparaison entre des images de synthèse et des images réelles.

Différentes bases de données géographiques géo-spécifiques ont été mises en place à l’ONERA, souvent à partir de la modification manuelle de données existantes (par exemple venant de l’IGN dans le cas de la France). Les modifications doivent être apportées pour mettre à jour les bases par rapport aux dates d’acquisition des images SAR, mais aussi parce que les éléments présents dans ces bases de données ne correspondent pas toujours aux éléments nécessaires pour la simulation radar. Par exemple, les images SAR sont très sensibles aux effets géométriques et aux éléments métalliques. Des petits éléments tels que des murs de clôture, les lampadaires ou les petits ravins ne sont pas renseignés dans ces bases de données alors qu’ils ont un impact non négligeable sur l’image SAR.

Sujet :
L’objectif de cette thèse est de développer des méthodes automatiques de création de bases de données géo-spécifiques. Les méthodes par apprentissage profonds obtiennent déjà de bon résultats de classification et de segmentation à partir d’images optiques de télédétection [2, 3, 4]. Seulement, les classes considérées dans ces algorithmes ne sont pas exactement celles nécessaires pour la simulation radar. Cette thèse se propose dans un premier temps de modifier les bases d’apprentissages de ces algorithmes pour inclure les classes nécessaires au radar. Ces bases d’apprentissage pourront être dérivées de bases existantes à l’ONERA.

Une deuxième étape est de modifier les architectures des réseaux pour inclure des informations issues des images SAR, telles que les densités de points très énergétiques ou les éléments géométriques. En effet, les images optiques et SAR n’étant pas de même nature, toutes les informations nécessaires à la simulation SAR ne seront pas forcément disponibles dans les images optiques. Utiliser des données SAR conjointement aux données optiques pour la prédiction pourra également être envisagé. Cet axe de recherche est relativement nouveau, et pourra s’inspirer de travaux utilisant une unique modalité [5, 6, 7].

Utiliser des données ouvertes telles que les données des satellites de l’ESA Sentinel-1 (SAR) ou Sentinel-2 (optique) permettra d’obtenir une couverture globale de la prédiction. Cependant ces images ont des résolutions plus grossières que ce qui est nécessaire pour la simulation. Un autre axe de recherche envisagé dans ce travail est l’utilisation de techniques de fine tuning qui permettraient, à partir de ce qui a été appris sur une grande base d’images faiblement résolues, d’apprendre un modèle utilisant des données haute résolution à partir d’un faible nombre de données annotées. Enfin, ce problème pourra éventuellement être traité dans un cadre faiblement supervisé (où les données basse résolution serviront d’annotation faible pour les données haute résolution) [8].

[1] N. Trouvé, Référent environnement : la démarche collaborative d’EMPRISE, ENVIREM 2019.
[2] Audebert, Nicolas, Bertrand Le Saux, and Sébastien Lefèvre. “Semantic segmentation of earth observation data using multimodal and multi-scale deep networks.” Asian conference on computer vision. Springer, Cham, 2016.
[3] Damodaran, B. B., Fatras, K., Lobry, S., Flamary, R., Tuia, D., & Courty, N. (2019). Pushing the right boundaries matters! Wasserstein Adversarial Training for Label Noise. arXiv preprint arXiv:1904.03936.
[4] Volpi, Michele, and Devis Tuia. “Dense semantic labeling of subdecimeter resolution images with convolutional neural networks.” IEEE Transactions on Geoscience and Remote Sensing 55.2 (2016): 881-893.
[5] Zhang, Zhimian, et al. “Complex-valued convolutional neural network and its application in polarimetric SAR image classification.” IEEE Transactions on Geoscience and Remote Sensing 55.12 (2017): 7177-7188.
[6] Yao, Wei, Dimitrios Marmanis, and Mihai Datcu. “Semantic segmentation using deep neural networks for SAR and optical image pairs.” Proc. Big data from space (2017): 1-4.
[7] Lobry, S., Denis, L., Tupin, F., & Fj, R. (2017, July). Double MRF for water classification in SAR images by joint detection and reflectivity estimation. In 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS) (pp. 2283-2286). IEEE.
[8] Yao, Xiwen, et al. “Semantic annotation of high-resolution satellite images via weakly supervised learning.” IEEE Transactions on Geoscience and Remote Sensing 54.6 (2016): 3660-3671.

Profil du candidat :
La candidate/le candidat a un master 2 recherche ou un diplôme d’ingénieur en traitement du signal et des images.

Formation et compétences requises :
Des compétences en informatique (python, matlab,…) et un intérêt pour la physique sont aussi attendues.

Adresse d’emploi :
ONERA DEMR
Centre de Palaiseau
91120 Palaiseau

Document attaché :

Categories: theses

Jul

Sat

2020

Offre 3 thèses Projet « Sosie Virtuel Projectif »

Tickets

Jul 4 – Jul 5 all-day

Offre en lien avec l’Action/le Réseau : – — –/Doctorants

Laboratoire/Entreprise : IRIT / SolutionData Group
Durée : 3 ans
Contact : Max.Chevalier@irit.fr
Date limite de publication : 2020-07-04

Contexte :
Le partenariat entre le laboratoire IRIT et la société Solution Data Group porte sur un projet de 4 ans, visant à développer des approches d’IA dans le cadre de “Sosies Virtuels Projectifs”.

Dans ce contexte 3 sujets de thèse sont proposés dans le domaine de l’apprentissage automatique. Ils font l’objet d’un dépôt à l’ANRT.

Sujet :
Les 3 sujets de thèse proposés sont :
(1) Découverte de relations explicites ou implicites
par clustering multi-view dans les ensembles de données hétérogènes en grande dimension
(2) Le Federated-Learning au service du Sosie Virtuel Projectif
(3) Expliquer et valider par l’exemple un modèle de Sosie Virtuel Projectif

Le détail du projet et des 3 sujets est fourni dans le document joint ou sur demande.

Profil du candidat :
Etudiants Master 2 ou Ingénieur ou équivalent,
avec un profil Informatique, Science des données, et-ou Mathématiques

Formation et compétences requises :
— Formation à BAC+5 en Informatique, Science des données, et-ou Mathématiques
— Connaissances en Data Management et Machine Learning
— Compétence parlé-écrit en anglais est un plus
— Esprit ouvert, et curieux

Adresse d’emploi :
IRIT
118 Route de Narbonne
31069 Toulouse

Document attaché : 202006100748_2020-AppelThesesIRITSolutionDataGroup.pdf

Categories: theses

Jul

Sun

2020

Segmentation sémantique des nuages de point 3D via l’apprentissage profond

Tickets

Jul 12 – Jul 13 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : L@bISEN Yncréa Ouest, Equipe Vision-AD
Durée : 3 ans
Contact : ayoub.karine@yncrea.fr
Date limite de publication : 2020-07-12

Contexte :
La compréhension et l’interprétation d’une scène 3D complexe est une tâche visuelle innée chez l’être humain qui peut être effectuée de manière instantanée et sans effort. Déléguer cette tâche à la machine afin de l’automatiser est un domaine qui a suscité la curiosité de plusieurs chercheurs de la communauté de la vision par ordinateur [1, 2, 3].

Dans la dernière décennie, les avancées technologiques ont permis l’acquisition d’un volume important et représentatif de scènes 3D réels sous forme de nuages de points. Parmi ces systèmes d’acquisition, on cite les scanners LIDAR (Light Detection And Ranging) et les caméras RGB-D (Red Green Blue – Depth). La segmentation de ces nuages de points en régions homogènes permet, ainsi, de générer une représentation sémantique de la scène observée. On s’intéressera plus précisément à l’interprétation des scènes d’intérieur (pièces, bureau…) et d’extérieur (bâtiments, villes, zones rurales…).

Sujet :
Les nuages de points 3D modélise une représentation parcimonieuse d’une scène ou d’un objet. Ces nuages de points sont souvent non-structurés et non-ordonnés. Autrement dit, il n’existe pas un moyen pour les regrouper directement dans une grille afin de les considérer étant des pixels d’une image 2D.

La segmentation sémantique d’une scène, représentée par un nuage de points 3D, consiste à affecter des classes à chaque point 3D. Cette tâche est établie en utilisant une méthode de classification souvent supervisée. Pour ce faire, l’approche classique consiste à classifier les descripteurs (souvent liés à la forme) extraits à partir des nuages de points. Récemment, la disponibilité de bases de données composées d’un nombre important de nuages de point 3D annotés (NPM3D, S3DIS, Paris-Lille 3D…) a rendu difficile l’adoption de ces méthodes classiques. Pour remédier à cette difficulté, plusieurs chercheurs ont opté pour l’utilisation de l’apprentissage profond et plus précisément les réseaux de neurones convolutifs (Convolutional Neural Networks, CNN). Cette méthode a prouvé sa performance dans plusieurs applications liées à l’image 2D. Elle se base sur des convolutions discrètes exigeant une structure sous forme de grilles de données. De ce fait, l’utilisation directe de cette méthode pour le cas des nuages 3D reste impossible. Pour remédier à cela, deux familles de méthodes sont proposées dans littérature [4, 5]. La première famille consiste à projeter les points dans un autre espace à travers lequel une convolution discrète est possible [6, 7]. Quant à la seconde famille, elle tente de modifier la méthode CNN pour prendre en considération la nature complexe des nuages de points [3, 8]. Dans le cadre de la présente thèse, nous nous focaliserons sur le deuxième type d’approche qui est en début d’investigation.

Profil du candidat :
Le ou la candidat(e) doit :
– Être titulaire d’un diplôme de Master et/ou Ingénieur, ou en cours de préparation, dans des domaines liés à l’informatique et la science de données

Formation et compétences requises :
Le ou la candidat(e) doit :
– Avoir un vif intérêt pour la recherche scientifique et être familier au moins avec l’un des outils/langages suivants (python, Keras, TensorFlow…)
– Avoir une aptitude au développement de prototypes
– Avoir de très bonnes connaissances théoriques et pratiques en Intelligence Artificielle, plus précisément en Deep Learning et en Vision par Ordinateur

Adresse d’emploi :
20 Rue Cuirassé Bretagne, 29200 Brest
ou
35 Avenue du Champ de Manœuvre, 44470 Carquefou

Document attaché : 202006090823_SujetCotutelle_ISENYncreaOuest.pdf

Categories: theses

Jul

Tue

2020

Offre de thèse en IA pour l’analyse d’images à l’Université de Strasbourg

Tickets

Jul 14 – Jul 15 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université de Strasbourg – ICube
Durée : 36 mois
Contact : nicolas.passat@univ-reims.fr
Date limite de publication : 2020-07-14

Contexte :
Un sujet de thèse en IA pour l’analyse d’image est proposé dans l’équipe IMAGeS du laboratoire ICube de l’Université de Strasbourg.

Sujet :
Titre : Guidage topologique et relationnel pour la modélisation de structures anatomiques complexes
Date de début : Automne 2020
Encadrement : Benoît Naegel (ICube), Nicolas Passat (CReSTIC)

Description du sujet : http://images.icube.unistra.fr/fr/img_auth.php/8/80/2020_DeepTopo.pdf

English version : http://images.icube.unistra.fr/en/img_auth.php/1/1e/2020_DeepTopo_EN.pdf

Profil du candidat :

Formation et compétences requises :
Compétences requises :

– Formation en informatique ou mathématiques appliquées
– Expérience en traitement d’images et apprentissage machine
– Connaissances en apprentissage profond
– Programmation C++ et Python

Adresse d’emploi :

Categories: theses

Jul

Mon

2020

Processus de Markov déterministes par morceaux (PDMP) spatio-temporels pour l’épidémiologie

Tickets

Jul 20 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : INRAE – Unité de recherche Biostatistique et Proce
Durée : 3 ans
Contact : samuel.soubeyrand@inrae.fr
Date limite de publication : 20/07/2020

Contexte :
Ce projet de thèse vise à développer un cadre et des outils probabilistes et statistiques permettant dans un premier temps de modéliser et inférer l’invasion d’un territoire par un organisme nuisible due à des introductions multiples et, dans un deuxième temps, de développer des méthodes permettant d’optimiser la surveillance, l’échantillonnage et le contrôle potentiel d’une telle invasion.
Les invasions d’organismes nuisibles pour les humains, les animaux, mais aussi pour les espèces végétales indigènes et les cultures agricoles, constituent un enjeu majeur du fait des possibles répercussions sanitaires, écologiques, environnementales et économiques. C’est en particulier le cas de Xylella fastidiosa, bactérie phytopathogène détectée in situ en France en 2015, et dont la dynamique d’invasion sera la composante illustrative et appliquée de la thèse. Pour ce type d’invasions, s’extraire de l’hypothèse de l’introduction unique et parvenir à inférer efficacement et simultanément les caractéristiques des processus spatio-temporels d’introduction et d’invasion sur la base de données de surveillance constituent un enjeu scientifique majeur. Au delà de l’exemple de Xylella fastidiosa, le cadre proposé d’introductions multiples pourrait être appliqué à l’étude de la dynamique de l’épidémie de COVID-19, en intégrant les actions de confinement pour son contrôle.

Sujet :
Le cadre théorique de modélisation et d’estimation proposé sera fondé sur les processus de Markov déterministes par morceaux (PDMP). Un PDMP est un processus de Markov dont le comportement est en partie régi par des sauts aléatoires en des temps aléatoires. Dans le contexte appliqué de la thèse, les sauts aléatoires correspondent aux introductions de l’organisme nuisible et devront être distribués non seulement dans le temps mais aussi dans l’espace.
La question centrale de recherche de la thèse est : Comment adapter le cadre méthodologique des PDMP pour estimer les principales caractéristiques d’un processus d’introductions multiples au cours d’une dynamique épidémique ? A cette question d’ordre méthodologique seront associées les questions d’ordre épidémiologique suivantes : Quelle connaissance du processus d’introductions peut-on extraire des données de surveillance de Xylella fastidiosa en Corse et Provence-Alpes-Côte d’Azur (et éventuellement des données de surveillance du COVID-19) ? Comment (quand, où et par quel moyen) surveiller et contrôler de manière efficace une dynamique épidémique caractérisée par ce type de processus d’introductions ?

Références et informations complémentaires : https://informatique-mia.inrae.fr/biosp/doctoratPDMP

Profil du candidat :
Statistique, probabilité des processus, biostatistique, mathématiques appliquées, programmation. Un intérêt pour les sciences naturelles, en particulier l’épidémiologie et l’écologie, serait souhaitable.

Formation et compétences requises :
Master recherche / école d’ingénieur

Adresse d’emploi :
INRAE – BioSP
228 route de l’aérodrome
84914 Avignon
France

Categories: theses

Structuration automatique des données de la littérature francophone

Tickets

Jul 20 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Université Lyon 2 / laboratoire ERIC
Durée : 36 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 20/07/2020

Contexte :
Le projet LIFRANUM vise à constituer et analyser le corpus des productions littéraires francophones nativement numériques. Il s’agit d’un projet financé par l’ANR qui regroupe un laboratoire de sciences humaines (MARGE), un laboratoire d’informatique (ERIC) et la Bibliothèque Nationale de France (BnF). Dans le cadre de ce projet, le laboratoire ERIC recherche un.e candidat.e pour une thèse de Doctorat qui débuterait en septembre 2020.

Sujet :
L’objectif de la thèse qui est proposée consiste à construire des modèles innovants d’apprentissage de représentation et d’analyse de ce réseau d’information adapté au cas des données littéraires. Ces modèles doivent en particulier permettre de parcourir le corpus de manière originale, par exemple en capturant le “style” d’un auteur ou d’un groupe d’auteurs.

Plus de détails sont donnés dans le fichier PDF.

Profil du candidat :
Étudiant.e ayant validé un Master en Informatique ou Mathématiques appliquées avec des compétences solides en science des données / machine learning. Des connaissances en NLP seront un vrai plus.

Formation et compétences requises :
Le candidat devra enfin justifier d’un niveau satisfaisant de maîtrise de la langue française.

Adresse d’emploi :
Université Lyon 2, laboratoire ERIC, campus de Bron

Document attaché : 202005180900_thèse_LIFRANUM.pdf

Categories: theses

Jul

Fri

2020

Complex graph analysis for the detection of corruption in public procurements

Tickets

Jul 24 – Jul 25 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Informat
Durée : 3 years
Contact : christine.largeron@univ-st-etienne.fr
Date limite de publication : 2020-07-24

Contexte :
In many applications, the data to be studied is of relational nature, modeled in the form of a network and represented by graphs. This representation makes possible the study of interactions between people, especially in social sciences. Although network analysis is an active branch of data mining and machine learning, a majority of works focuses on homogeneous networks de-scribed by a simple graph where the nodes correspond to the entities of the network and the links (edges or arcs) to their relationships. However, in many applications, contextual infor-mation describing the relationships or the entities themselves are available and could be used to study in a more efficient way the network.
This led notably to the notions of signed graphs and attributed graphs. In a signed graph, each edge is labeled with either a negative or a positive sign, which allows representing antagonistic relationships [1]. In an attributed network, vertices are described by attributes which allow to take into account their individual characteristics, like for instance their genre or age [2].
These representations are much richer than a simple graph and permit to better model com-plex interaction systems. However, they require to adapt existing algorithms or to design new ones for solving efficiently all standard network visualization and analysis tasks, such as com-munity detection, link prediction or information diffusion.

Sujet :
This PhD is part of the French Research project DeCoMaP (Detecting Corruption in Markets for Public Procurement) funded by the ANR (French NSF) which aims at retrieving, processing and analyzing open data related to French public procurements, in order to design a tool able to assess corruption risks between public buyers and suppliers.
Designing automatic tools for the assessment of risks of corruption in public procurements is a task called red flagging. It is not completely new, as some teams have been working on it for a few years [1], especially at the European level [2]. However, none of them applies to French public procurements, as they do not handle its specifics (legal framework, nature and form of the available open data). Moreover, existing approaches focus on individual information, which characterize buyers and suppliers independently, and ignore relational information, which cor-responds to interactions and interdependencies between these agents.
In the context of the project DoCoMaP, we propose to design a new tool tackling these issues and limitations. More specifically, the goal of this thesis is to handle a large methodological part of this work, by representing the relationships between buyers and suppliers (normal con-tractual relationship or corruption) and by characterizing these agents through signed and/or attributed graphs.
As this type of graphs has been much less explored than simple graphs in the literature, the first task of this thesis consists in designing methods to extract them from the raw data, and to analyze them in the context of our application (corruption detection). In particular, it is neces-sary to define a corruption index that could be used to enrich the information already available in the graph at the level of its links (contracts between a public buyer and a supplier) and at the level of its vertices (characteristics of the actors).
The second task focuses on signed graph partitioning in the framework of structural balance [3]. A signed graph is said to be balanced if it can be partitioned into two [4] or more [5] mutu-ally hostile subgroups, each having internal solidarity (i.e. positive edges are inside clusters, and negative ones are between them). Some recent works started tackling this problem notably in our team [6], but there is still much to do for formalizing the problem and solving it efficiently, particularly using deep learning approaches [7]. In DeCoMap, signed graph partitioning will aim to bring out groups of agents (public buyers and supplier companies) likely to be related in fraudulent practices.

Profil du candidat :
The candidate should have a master degree or equivalent in Computer Science.

Formation et compétences requises :
The subject is at the intersection of several domains: graph theory, statistics, data mining and machine learning, big data including databases (the considered networks can be huge). Thus the candidate should have strong backgrounds in several of these topics.
Other required skills:
• Good abilities in algorithm design and programming.
• Good technical skills regarding data management (databases, retrieval from web APIs)
• A very good level (written and oral) in English.
• Good communication skills (oral and written).
• The ability to work in a team with colleagues from other scientific disciplines.
• Autonomy and motivation for research.

Adresse d’emploi :
Laboratoire Informatique d’Avignon (LIA – EA 4128), France

Document attaché : 202004101516_PHDposition-Decomap.pdf

Categories: theses

Jul

Thu

2020

Joint Hyperspectral Video Demosaicing and Demixing

Tickets

Jul 30 – Jul 31 all-day

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LISIC, EA 4491
Durée : 3 years
Contact : matthieu.puigt@univ-littoral.fr
Date limite de publication : 2020-07-30

Contexte :
During the last decades, infrared/visible imaging and then multispectral (MS) imaging allowed great breakthoughts, e.g., in industrial or environmental engineering.

The more recent development of hyperspectral (HS) cameras–observing the same image at several hundreds or even thousands wavelengths–makes possible to imagine new observation systems for which novel data processing techniques–at the frontier between image processing and machine learning–must be proposed.

In the context of this Ph.D. thesis, we are particularly interested in HS videos. They provide time sequences of HS data cubes (big data). However, for the sake of miniaturization and of maintaining hardware costs, these cameras do not necessarily acquire all the information they are supposed to sense. Post-processing called “demosaicing” is then necessary to reconstruct the data cube observed at each time instant. Moreover, in each pixel of each image of the HS video, the observed spectrum can be considered as a mixture of spectra of materials present in the pixel.

Sujet :
Within the framework of this Ph.D. thesis, we wish to estimate the whole spectra of all the materials, from partially observed video sequences, in order to perform HS video demosaicing. Several issues such as the mass of data or the spectral variability, will be investigated, ,

From an application point of view, we are interested in monitoring natural, human, or industrial activities. In particular, we will use such HS cameras to monitor coastal or marine fauna.

Profil du candidat :
Prospective applicants should hold a Master degree in Signal/Image Processing, in Machine Learning, in Applied Mathematics, or in any related discipline. Applications from candidates with a good background in (non-negative) matrix/tensor factorization, deep learning, optimization, with excellent programming skills (e.g., in Matlab, Python, C and/or C++) are particularly encouraged.

Applicants are expected to show good communications skills, both written and oral. In particular, speaking fluently in French or English is required. Writing in English is mandatory.

Candidates are requested to send a resume, transcripts from their last year of Bachelor to their last year of Master (if available), as well as two reference letters (or contact details of two referees).

Formation et compétences requises :
Prospective applicants should hold a Master degree in Signal/Image Processing, in Machine Learning, in Applied Mathematics, or in any related discipline.

Adresse d’emploi :
The recruited Ph.D. student will be working in the new antenna of the LISIC laboratory, located in Saint-Omer, Northern France. This antenna is dedicated to MS and HS imagery, with already 3 Ph.D. students and 1 post-doc researcher working in this field.

Document attaché : 202003272316_Joint_demosaicing_demixing_PhD_thesis_2020.pdf

Categories: theses

June – July 2020 Jun – Jul 2020

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Présentation Générale

Manifestations à venir

Actions, Ateliers et Groupes de Travail :